» back to normal layout

ARPA - Automatic Text Annotation System

Note: see our more recent work on this topic in the Dynamic Configurable Entity Recognition from Text project!

ARPA is a web service for automatic text annotation. It is used for extracting the main concepts or topics of a text, thus acquiring a quick overview of the text in both human and machine readable form.

For generating the automatic annotations, ARPA can utilize different annotation engines. The annotation engine used in the ARPA demo is Maui - Multi-purpose automatic topic indexing system. For the annotation task, an ontology, hand-annotated traning texts and a word lemmatizer or stemmer are given to Maui. With the use of the training texts, Maui learns to annotate new texts with the concepts in the ontology. ARPA is used for managing the configurations of annotation engines in different annotation projects.

ARPA is a web service coded with Java running in a Tomcat environment. ARPA has an HTTP GET interface returning XML.

Articles

2013

Mika Wahlroos: Indeksointimetatiedon eristäminen ja arviointi (Extraction and evaluation of index metadata). MSc Thesis (in Finnish), University of Helsinki, Department of Computer Science, February, 2013. bib pdf
Tiedonhallinnassa käytetään usein metatietona tiedon sisältöä kuvaavia avainsanoja parantamaan tiedon hallittavuutta tai löydettävyyttä. Sisällön kuvailua luonnollisen kielen termein tai käsittein kutsutaan indeksoinniksi. Yhdenmukaisuuden vuoksi voidaan käyttää tarkoitusta varten laadittua asiasanastoa, joka kattaa toimialan kannalta keskeisen termistön. Semanttisessa webissä ja yhdistetyssä tiedossa käytettävät ontologiat vievät ajatuksen pitemmälle määrittelemällä termit käsitteinä ja niiden välisinä merkityssuhteina. Metatiedon tuottamisen helpottamiseksi ja tehostamiseksi on kehitetty erilaisia menetelmiä, joilla sisältöä kuvailevia termejä voidaan tuottaa tekstiaineistosta automaattisesti. Tässä tutkielmassa keskitytään avaintermien automaattiseen eristämiseen tekstistä sekä metatiedon laatuun ja sen arvioinnin menetelmiin. Esimerkkitapauksena käsitellään ontologiaa hyödyntävän Maui-indeksointityökalun käyttöä asiakirjallisen tiedon automaattiseen asiasanoittamiseen. Automaattisesti eristetyn metatiedon laatua verrataan alkuperäiseen ihmisten määrittämään asiasanoitukseen käyttäen tarkkuus- ja saantimittauksia. Lisäksi evaluointia täydennetään aihealueen asiantuntijoiden esittämillä subjektiivisilla laatuarvioilla. Tulosten perusteella selvitetään tekstin esikäsittelyn ja sanaston hierarkian merkitystä automaattisen asiasanoituksen laadun kannalta sekä pohditaan keinoja annotointimenetelmän jatkokehittämiseksi.

2011

Joonas Laitio: Semantic Web Data Quality Control. MSc Thesis, Aalto University, School of Electrical Engineering, Degree Programme of Automation and Systems Technology, October, 2011. bib pdf
Data quality is a growing concern on the Semantic Web. The amount of data available is growing faster than ever, and the emphasis thus far has been on creating and interlinking data without much regard to how good the data actually is. The trend is shifting from creating new data to refining what already exists. Data quality is a subjective concept and a formal representation for it is often troublesome. First, we must define what is meant by data quality - what are the different facets of the concept. Second, a way for representing this quality must be found. Third, actual processes to refine data and improve its quality and ways to take data quality into account on the Semantic Web must be developed. This work presents some solutions to the problem. Many ways to annotate quality metadata as RDF are first discovered, along with their pros and cons. A framework for managing RDF-based quality metadata is presented, with a set of tools for specifically managing the quality annotations. Additionally, an automatic annotation system and a schema validation system, within the restraints of the open world assumption, have been designed, implemented and integrated into the framework. The system has been tested using real life datasets with promising first results.
Reetta Sinkkilä, Osma Suominen and Eero Hyvönen: Automatic Semantic Subject Indexing of Web Documents in Highly Inflected Languages. Proceedings of the 8th Extended Semantic Web Conference (ESWC 2011), pp. 215-229, Springer-Verlag, Heraklion, Greece, June, 2011. bib pdf
Structured semantic metadata about unstructured web documents can be created using automatic subject indexing methods, avoiding laborious manual indexing. A succesful automatic subject indexing tool for the web should work with texts in multiple languages and be independent of the domain of discourse of the documents and controlled vocabularies. However, analyzing text written in a highly inflected language requires word form normalization that goes beyond rule-based stemming algorithms. We have tested the state-of-the art automatic indexing tool Maui on Finnish texts using three stemming and lemmatization algorithms and tested it with documents and vocabularies of different domains. Both of the lemmatization algorithms we tested performed significantly better than a rule-based stemmer, and the subject indexing quality was found to be comparable to that of human indexers.

Contact:


/var/www/html/include/secoweb/utils.php; Fri, 19 Apr 2024 04:31:35 +0000