- FIN-CLARIAH Research Infrastructure
A new national research infrastructure initiative FIN-CLARIAH for...
8.12.2021 8:12 by eahyvone - WarMemoirSampo published on December 3, 2021
A new “Sampo” application, “WarMemoirSampo”...
8.12.2021 8:04 by eahyvone - Five new SeCo papers accepted for the ISWC 2021
The 20th International Semantic Web Conference (ISWC 2021), the...
2.8.2021 6:53 by eahyvone
- Annastiina Ahola, Eero Hyvönen, Heikki Rantala, Rafael Leal and Anne Kauppala: ArtSampo, BookSampo, and OperaSampo Linked Open Data services and semantic portals
- Rafael Leal, Annastiina Ahola and Eero Hyvönen: Enriching Metadata with LLMs and Knowledge Graphs: Case Finnish Named Entity Linking
- Heikki Rantala, Eero Hyvönen, Eljas Oksanen and Jouni Tuominen: Opening Archaeological Public Finds Data with Semantic Web Technologies: Demonstrating FindSampo, CoinSampo, and PASampo
- Henna Poikkimäki, Petri Leskinen, Eero Hyvönen: Using Network Analysis for Studying Cultural Heritage Knowledge Graphs – Case Correspondence Networks in Grand Duchy of Finland 1809–1917
Airo
Airo is an automatic annotation and search system developed for Sanoma Data. The main challenge is transforming a news database comprising of millions of individual articles into a format that can be used in ontology-based, semantically intelligent services.
Airo includes an automatic, ontology-based annotation system utilizing Poka. The application is ontology-independent but requires configuration for each individual ontology. The search in Airo is based on concept clustering, which means that an occurrence of an ontological concept in a text gives additional weight to other, ontologically close, concepts. For example the occurrence of the concept 'sparrow' increases the weight of the concept 'bird' in the document. A stricter configuration, unique for each ontology, is done by using a simple pattern language that was developed for Airo. The search system is based on the Lucene-search engine.
A Master's thesis on ontology-based indexing and search of textual data was completed during the project.
Contact:
Matias Frosterus
Helsinki University of Technology, Laboratory of Media Technology
firstname.lastname@tkk.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi
Airo
Airo on Sanoma Dataa varten kehitetty automaattinen indeksointi- ja hakujärjestelmä. Keskeisenä haasteena on miljoonista artikkeleista koostuvan uutisaineiston saattaminen sellaiseen muotoon, jossa sitä voidaan hyödyntää ontologiapohjaisissa, semanttisesti älykkäissä palveluissa.
Airo sisältää automaattisen, ontologiaperustaisen annotoinnin käyttäen Pokaa. Sovellus on ontologiariippumaton, mutta vaatii konfiguroinnin jokaista erillistä ontologiaa varten. Airon hakutoiminta perustuu käsiteklusterointiin, jossa tekstissä esiintyvä ontologinen käsite nostaa muiden, ontologisessa hierarkiassa läheisten käsitteiden painoa. Esimerkiksi käsitteen 'varpunen' esiintyminen tekstissä nostaa myös käsitteen 'lintu' painoa. Tarkempi, jokaiselle ontologialle yksilöllinen, konfigurointi tapahtuu Airoa varten kehitetyllä, yksinkertaisella hahmokielellä. Itse hakujärjestelmä perustuu Lucene-hakumoottoriin.
Projektin aikana valmistui diplomityö tekstiaineiston ontologiaperustaisesta indeksoinnista ja hausta.
Lisätietoja:
Matias Frosterus
Teknillinen korkeakoulu, Viestintätekniikan laboratorio
etunimi.sukunimi@tkk.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi