- FIN-CLARIAH Research Infrastructure
A new national research infrastructure initiative FIN-CLARIAH for...
8.12.2021 8:12 by eahyvone - WarMemoirSampo published on December 3, 2021
A new “Sampo” application, “WarMemoirSampo”...
8.12.2021 8:04 by eahyvone - Five new SeCo papers accepted for the ISWC 2021
The 20th International Semantic Web Conference (ISWC 2021), the...
2.8.2021 6:53 by eahyvone
- Eljas Oksanen, Frida Ehrnsten, Heikki Rantala and Eero Hyvönen: Semantic Solutions for Democratising Archaeological and Numismatic Data Analysis
- Eero Hyvönen, Patrik Boman, Heikki Rantala, Annastiiina Ahola and Petri Leskinen: ConfermentSampo - A Knowledge Graph, Data Service, and Semantic Portal for Intangible Academic Cultural Heritage 1643-2023 in Finland
- Petri Leskinen: Modeling and Using Biographical Linked Data for Prosopographical Data Analysis
- Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Senka Drobac, Rafael Leal, Matti La Mela, Jouni Tuominen, Henna Poikkimäki and Heikki Rantala: Publishing and Using Parliamentary Linked Data on the Semantic Web: ParliamentSampo System for Parliament of Finland
Airo
Airo is an automatic annotation and search system developed for Sanoma Data. The main challenge is transforming a news database comprising of millions of individual articles into a format that can be used in ontology-based, semantically intelligent services.
Airo includes an automatic, ontology-based annotation system utilizing Poka. The application is ontology-independent but requires configuration for each individual ontology. The search in Airo is based on concept clustering, which means that an occurrence of an ontological concept in a text gives additional weight to other, ontologically close, concepts. For example the occurrence of the concept 'sparrow' increases the weight of the concept 'bird' in the document. A stricter configuration, unique for each ontology, is done by using a simple pattern language that was developed for Airo. The search system is based on the Lucene-search engine.
A Master's thesis on ontology-based indexing and search of textual data was completed during the project.
Contact:
Matias Frosterus
Helsinki University of Technology, Laboratory of Media Technology
firstname.lastname@tkk.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi
Airo
Airo on Sanoma Dataa varten kehitetty automaattinen indeksointi- ja hakujärjestelmä. Keskeisenä haasteena on miljoonista artikkeleista koostuvan uutisaineiston saattaminen sellaiseen muotoon, jossa sitä voidaan hyödyntää ontologiapohjaisissa, semanttisesti älykkäissä palveluissa.
Airo sisältää automaattisen, ontologiaperustaisen annotoinnin käyttäen Pokaa. Sovellus on ontologiariippumaton, mutta vaatii konfiguroinnin jokaista erillistä ontologiaa varten. Airon hakutoiminta perustuu käsiteklusterointiin, jossa tekstissä esiintyvä ontologinen käsite nostaa muiden, ontologisessa hierarkiassa läheisten käsitteiden painoa. Esimerkiksi käsitteen 'varpunen' esiintyminen tekstissä nostaa myös käsitteen 'lintu' painoa. Tarkempi, jokaiselle ontologialle yksilöllinen, konfigurointi tapahtuu Airoa varten kehitetyllä, yksinkertaisella hahmokielellä. Itse hakujärjestelmä perustuu Lucene-hakumoottoriin.
Projektin aikana valmistui diplomityö tekstiaineiston ontologiaperustaisesta indeksoinnista ja hausta.
Lisätietoja:
Matias Frosterus
Teknillinen korkeakoulu, Viestintätekniikan laboratorio
etunimi.sukunimi@tkk.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi