- FIN-CLARIAH Research Infrastructure
A new national research infrastructure initiative FIN-CLARIAH for...
8.12.2021 8:12 by eahyvone - WarMemoirSampo published on December 3, 2021
A new “Sampo” application, “WarMemoirSampo”...
8.12.2021 8:04 by eahyvone - Five new SeCo papers accepted for the ISWC 2021
The 20th International Semantic Web Conference (ISWC 2021), the...
2.8.2021 6:53 by eahyvone
- Henna Pokkimäki, Petri Leskinen, Minna Tamper and Eero Hyvönen: Analyses of Networks of Politicians Based on Linked Data: Case ParliamentSampo -- Parliament of Finland on the Semantic Web
- Eljas Oksanen, Heikki Rantala, Jouni Tuominen, Michael Lewis, David Wigg-Wolf, Frida Ehrnsten and Eero Hyvönen: Digital Humanities Solutions for Pan-European Numismatic and Archaeological Heritage Based on Linked Open Data
- Toby Burrows, Laura Cleaver, Doug Emery, Eero Hyvönen, Mikko Koho, Lynn Ransom, Emma Thomson and Hanno Wijsman: Medieval manuscripts and their migrations: Using SPARQL to investigate the research potential of an aggregated Knowledge Graph
- Mikko Koho, Rafael Leal, Esko Ikkala, Minna Tamper, Heikki Rantala and Eero Hyvönen: Building Lightweight Ontologies for Faceted Search with Named Entity Recognition: Case WarMemoirSampo
Airo
Airo is an automatic annotation and search system developed for Sanoma Data. The main challenge is transforming a news database comprising of millions of individual articles into a format that can be used in ontology-based, semantically intelligent services.
Airo includes an automatic, ontology-based annotation system utilizing Poka. The application is ontology-independent but requires configuration for each individual ontology. The search in Airo is based on concept clustering, which means that an occurrence of an ontological concept in a text gives additional weight to other, ontologically close, concepts. For example the occurrence of the concept 'sparrow' increases the weight of the concept 'bird' in the document. A stricter configuration, unique for each ontology, is done by using a simple pattern language that was developed for Airo. The search system is based on the Lucene-search engine.
A Master's thesis on ontology-based indexing and search of textual data was completed during the project.

Contact:
Matias Frosterus
Helsinki University of Technology, Laboratory of Media Technology
firstname.lastname@tkk.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi
Airo
Airo on Sanoma Dataa varten kehitetty automaattinen indeksointi- ja hakujärjestelmä. Keskeisenä haasteena on miljoonista artikkeleista koostuvan uutisaineiston saattaminen sellaiseen muotoon, jossa sitä voidaan hyödyntää ontologiapohjaisissa, semanttisesti älykkäissä palveluissa.
Airo sisältää automaattisen, ontologiaperustaisen annotoinnin käyttäen Pokaa. Sovellus on ontologiariippumaton, mutta vaatii konfiguroinnin jokaista erillistä ontologiaa varten. Airon hakutoiminta perustuu käsiteklusterointiin, jossa tekstissä esiintyvä ontologinen käsite nostaa muiden, ontologisessa hierarkiassa läheisten käsitteiden painoa. Esimerkiksi käsitteen 'varpunen' esiintyminen tekstissä nostaa myös käsitteen 'lintu' painoa. Tarkempi, jokaiselle ontologialle yksilöllinen, konfigurointi tapahtuu Airoa varten kehitetyllä, yksinkertaisella hahmokielellä. Itse hakujärjestelmä perustuu Lucene-hakumoottoriin.
Projektin aikana valmistui diplomityö tekstiaineiston ontologiaperustaisesta indeksoinnista ja hausta.
Lisätietoja:
Matias Frosterus
Teknillinen korkeakoulu, Viestintätekniikan laboratorio
etunimi.sukunimi@tkk.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi