- FIN-CLARIAH Research Infrastructure
A new national research infrastructure initiative FIN-CLARIAH for...
8.12.2021 8:12 by eahyvone - WarMemoirSampo published on December 3, 2021
A new “Sampo” application, “WarMemoirSampo”...
8.12.2021 8:04 by eahyvone - Five new SeCo papers accepted for the ISWC 2021
The 20th International Semantic Web Conference (ISWC 2021), the...
2.8.2021 6:53 by eahyvone
- Eljas Oksanen, Frida Ehrnsten, Heikki Rantala and Eero Hyvönen: Semantic Solutions for Democratising Archaeological and Numismatic Data Analysis
- Tomaž Erjavec, Matyáš Kopp, Nikola Ljubešić, Taja Kuzman, Paul Rayson, Petya Osenova, Maciej Ogrodniczuk, Çağrı Çöltekin, Danijel Koržinek, Katja Meden, Jure Skubic, Peter Rupnik, Tommaso Agnoloni, José Aires, Starkaður Barkarson, Roberto Bartolini, Núria Bel, María Calzada Pérez, Roberts Darģis, Sascha Diwersy, Maria Gavriilidou, Ruben van Heusden, Mikel Iruskieta, Neeme Kahusk, Anna Kryvenko, Noémi Ligeti-Nagy, Carmen Magariños, Martin Mölder, Costanza Navarretta, Kiril Simov, Lars Magne Tungland, Jouni Tuominen, John Vidler, Adina Ioana Vladu, Tanja Wissik, Väinö Yrjänäinen and and Darja Fišer: ParlaMint II: Advancing Comparable Parliamentary Corpora Across Europe
- : BD2022 Proceedings of the BD2022 Biographical Data in a Digital World 2022 Conference
- Petri Leskinen and Eero Hyvönen: Biographical and Prosopographical Analyses of Finnish Academic People 1640–1899 Based on Linked Open Data
Airo
Airo is an automatic annotation and search system developed for Sanoma Data. The main challenge is transforming a news database comprising of millions of individual articles into a format that can be used in ontology-based, semantically intelligent services.
Airo includes an automatic, ontology-based annotation system utilizing Poka. The application is ontology-independent but requires configuration for each individual ontology. The search in Airo is based on concept clustering, which means that an occurrence of an ontological concept in a text gives additional weight to other, ontologically close, concepts. For example the occurrence of the concept 'sparrow' increases the weight of the concept 'bird' in the document. A stricter configuration, unique for each ontology, is done by using a simple pattern language that was developed for Airo. The search system is based on the Lucene-search engine.
A Master's thesis on ontology-based indexing and search of textual data was completed during the project.
Contact:
Matias Frosterus
Helsinki University of Technology, Laboratory of Media Technology
firstname.lastname@tkk.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi
Airo
Airo on Sanoma Dataa varten kehitetty automaattinen indeksointi- ja hakujärjestelmä. Keskeisenä haasteena on miljoonista artikkeleista koostuvan uutisaineiston saattaminen sellaiseen muotoon, jossa sitä voidaan hyödyntää ontologiapohjaisissa, semanttisesti älykkäissä palveluissa.
Airo sisältää automaattisen, ontologiaperustaisen annotoinnin käyttäen Pokaa. Sovellus on ontologiariippumaton, mutta vaatii konfiguroinnin jokaista erillistä ontologiaa varten. Airon hakutoiminta perustuu käsiteklusterointiin, jossa tekstissä esiintyvä ontologinen käsite nostaa muiden, ontologisessa hierarkiassa läheisten käsitteiden painoa. Esimerkiksi käsitteen 'varpunen' esiintyminen tekstissä nostaa myös käsitteen 'lintu' painoa. Tarkempi, jokaiselle ontologialle yksilöllinen, konfigurointi tapahtuu Airoa varten kehitetyllä, yksinkertaisella hahmokielellä. Itse hakujärjestelmä perustuu Lucene-hakumoottoriin.
Projektin aikana valmistui diplomityö tekstiaineiston ontologiaperustaisesta indeksoinnista ja hausta.
Lisätietoja:
Matias Frosterus
Teknillinen korkeakoulu, Viestintätekniikan laboratorio
etunimi.sukunimi@tkk.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi