» back to normal layout

DataFinland - Semantic search and annotation tool for Open Datasets

Page updated: 22.9.2010

DataSuomen fasettihaku DataFinland tarjoaa yhteisöllisen, yhdistetyn avoimen tiedon julkaisukanavan ja hakukoneen semanttisessa webissä.

Ongelma

Avointen, yhdistettyjen tietoaineistojen julkaiseminen on yleistynyt Linked Data–liikkeen, sen avoimen aineistopilven (LOD cloud) (http://linkeddata.org/) sekä eri maiden julkishallinnon datakatalogien myötä (esim. http://data.gov.uk/ ja http://data.suomi.fi/). Ongelmaksi on muodostunut haluttuun sovellustarkoitukseen sopivan aineiston löytäminen jopa tuhansien joukosta. Vaikka Linked (Open) Data perustuu semanttiseen webiin, eivät sen aineistojen metatiedot ja hakujärjestelmät ole kovinkaan semanttisia perinteisistä katalogeista puhumattakaan: näissä tyypillisesti listataan aineistoja aakkosjärjestyksessä (esim. http://data.suomi.fi/, http://esw.w3.org/TaskForces/CommunityProjects/LinkingOpenData/DataSets) tai käytetään perinteisiä tageja (esim. http://ckan.net). Sisältöjen kuvailu ei ole riittävän täsmällistä älykästä semanttista hakua, yhdistämistä ja yhteentoimivuutta varten. Lisäksi aineistojen metatietojen tuottaminen on haasteellista yhteisten metatietomallien, sanastojen (ontologioiden) ja verkkopalveluiden puuttuessa. Yhdistetyn avoimen tiedon semanttinen hakemistopalvelu DataSuomi on ratkaisumalli näihin ongelmiin. Järjestelmä perustuu kansalliseen ONKI ontologiakirjastopalveluun (http://www.onki.fi), siihen yhdistettyyn verkkopohjaiseen hajautettuun SAHA-editoriin ja voiD-metatietomalliin, sekä SAHA:an integroituun semanttiseen haku- ja suosittelukoneseen HAKO. Järjestelmä on kehitetty osana kansallista FinnONTO-hanketta.

Käyttäjät

Sovelluksella on kaksi käyttäjäryhmää: avoimien aineistojen julkaisijat ja niiden sovelluskäyttäjät. Julkaisijat kuvailevat aineistonsa sovelluksen DataSuomen metadataeditorilla (SAHA) yhteentoimivalla täsmällisellä tavalla, joka perustuu kansainväliseen voiD-metatietomalliin ja ONKI:ssa julkaistuihin, yleisessä käytössä oleviin sanastoihin/ontologioita. Standardoitu esitysmuoto mahdollistaa sen, että hajautetusti tuotetut tiedot ovat yhteentoimivia ja että muut sovellukset voivat hyödyntää luotua metadataa semanttisessa webissä. Julkaisijat voivat käyttää hakutoimintoja löytääkseen muita aineistoja, joihin mahdollisesti omansa haluavat linkittää. Avoimien aineistojen käyttäjät puolestaan käyttävät sovelluksen semanttista hakuportaalia sovellukseensa sopivien aineistojen hakuun ja selailuun. Portaali perustuu tekstihaun ohella ns. semanttiseen näkymähakuun (faceted search), mikä mahdollistaa aineistojen hahmottamisen eri näkökulmista, esimerkiksi haun rajaamisen aineiston teeman, julkaisijan, kielen tai formaatin mukaan joustavasti eri kombinaatioilla.

Käyttötapaus

DataSuomen visiona on kansallisen datakatalogin kehittäminen semanttiseen webiin. Tietoaineiston julkaisija julkaisee aineistonsa ensin verkossa ja avaa sitten selaimella DataSuomen SAHA-metadataeditorin, johon luodaan uusi kuvauslomake. Julkaisija täyttää sen metadatakentät. Kuvailevat käsitteet saadaan kätevästi ONKI-palvelusta tai SAHAn sisäisesti muista aineistoista (esim. viite toiseen tietoaineistoon). Myös ulkopuolinen osapuoli voi julkaista vapaasti metatietoa verkossa olevista aineistoista. Metatietojen tuottajan tarvitsee vain avata SAHA:an kytketty HAKO-hakukone saadakseen metatietonsa julkisiksi. HAKOn avulla hän voi tarkastella omia ja muiden aineistoja, pohtia mahdollisia linkityksiä, rikastaa omia kuvailujaan SAHAlla ja julkaista tarpeen mukaan tiedoista uuden version. Tietoaineistoja etsivä soveltaja voi hakea tarkoitukseensa sopivia aineistoja monipuolisesti HAKO-hakukoneella. Jos hän osaa muotoilla kuvailun sanallisesti ja tietää tarkkaan mitä etsii, käyttänee hän automaattitäydennyksellä varustettua Google-tyyppistä tekstihakua, joka kuitenkin on semanttinen. Esimerkiksi yläkäsitteellä haettaessa voidaan löytää alikäsitteisiin liittyvät kohteet (esim. sisustuksella voidaan viitata huonekaluihin). Semanttinen moninäkymähaku taas tarjoaa mahdollisuuden rajata ja selailla aineistoja erittäin joustavasti. Järjestelmä tukee monikielisyyyttä, koska sovellus perustuu kieliriippumattomiin semanttisiin käsitteisiin.

Data

Esimerkkisovellusta varten DataSuomessa sisällönkuvailtiin tärkeimmät data.suomi.fi- ja Open Linked Data-aineistot. Ajatuksena on osoittaa mallin joustavuus kielirajojen ja aineistotyyppien ylitse niin semanttisilla Linked Data –aineistoilla kuin periteisillä, ei-yhdistetyillä aineistoilla eri muodoissaan. Järjestelmään voidaan kuvailla joustavasti uusia aineistoja vanhoja muuttamatta. Metadata säilyy SAHA:n servereillä ja siitä otetaan varmuuskopio joka yö. Aineistojen metatiedot voidaan jakaa avoimesti RDF-muodossa tiedostona suoraan soveltajille. HAKO:on toteutettu W3C.n suosituksen mukainen SPARQL-rajapinta mahdollistaa tietoaineistojen metatietojen ohjelmallisen käytön rajapinnan kautta. Metatietomallin ja ontologioiden muuttaminen järjestelmässä on vaivatonta, sillä DataSuomessa data ja tietomallit on erotettu geneerisistä työkaluista.

Käyttöohjeet ja demo

Metadataeditori SAHA löytyy osoitteesta: http://demo.seco.tkk.fi/saha3sandbox/voiD/index.shtml Vastaava semanttinen portaali HAKO syntyy osoitteeseen: http://demo.seco.tkk.fi/saha3sandbox/voiD/hako.shtml SAHAssa valitaan ensin kuvailtavan tietoaineiston tyyppi, joko Linked Open Data dataset tai non-RDF dataset. Valitsemalla create new, voidaan kuvailla aineisto täyttämällä kentät metadatamallin mukaisesti. Osa kentistä on vapaita tekstikenttiä (literal), osan (reference) arvot valitaan ONKI-palvelun ontologioista tai SAHAn tiedoista. Ontologioihin linkitetyissä kentissä on auto-completion-toiminto, jossa kirjoitetaan referenssin nimeä kirjaimittain ja valitaan päivittyvästä vaihtoehtojen listasta oikea tarjokas. ONKIn kautta metadataan saadaan viittaus käsitteen merkityksen yksilöivään URI-tunnisteeseen – pelkkä nimi tai tagi ei riitä yksilöimään merkitystä (esim. Matti Virtanen). Käyttäjän ei kuitenkaan tarvitse itse huolehtia URI-koodeista. URI-tunnisteiden kautta käy mahdolliseksi merkitysten erottaminen, jolloin annotoituja aineistoja voidaan yhdistää toisiinsa täsmällisesti. Jos ontologiassa ei ole tarvittavaa käsitettä, voidaan sille luoda uusi tarpeen mukaan. Käynnistämällä HAKO annotoidut aineistot ilmestyvät semanttiseen portaaliin, josta niitä voidaan hakea vapaalla tekstihaulla tai vaihtoehtoisesti käyttämällä moninäkymähakua. Tarkempi käyttöohje PDF-muodossa lötyy täältä.

Artikkeleja

2023

Matias Frosterus: Building Ontology and Data Infrastructure for Semantic Web Applications. Dissertation, Aalto University, School of Science, Department of Computer Science, April, 2023. bib link

2011

Matias Frosterus, Eero Hyvönen, Joonas Laitio: Creating and Publishing Semantic Metadata about Linked and Open Datasets. Linking Government Data (David Wood (ed.)), Springer-Verlag, November, 2011. bib link
Matias Frosterus, Eero Hyvönen and Joonas Laitio: Creating and Publishing Semantic Metadata about Linked and Open Datasets. AAAI Fall Symposium 2011, Open Government Knowledge: AI Opportunities and Challenges, Arlington, USA, November, 2011. bib pdf
We present a comprehensive system for producing interoperable metadata for Linked Open datasets and governmental datasets published in various formats.
Matias Frosterus, Eero Hyvönen and Joonas Laitio: DataFinland - A Semantic Portal for Open and Linked Dataset. Proceedings of the 8th Extended Semantic Web Conference (ESWC 2011), pp. 243-254, Springer-Verlag, Heraklion, Greece, June, 2011. bib pdf link
The number of open datasets available on the web is increasing rapidly with the rise of the Linked Open Data (LOD) cloud and various governmental efforts for releasing public data in different formats, not only in RDF. The aim in releasing open datasets is for developers to use them in innovative applications, but the datasets need to be found first and metadata available is often minimal, heterogeneous, and distributed making the search for the right dataset often problematic. To address the problem, we present DataFinland, a semantic portal featuring a distributed content creation model and tools for annotating and publishing metadata about LOD and non-RDF datasets on the web. The metadata schema for DataFinland is based on a modified version of the voiD vocabulary for describing linked RDF datasets, and annotations are done using an online metadata editor SAHA connected to ONKI ontology services providing a controlled set of annotation concepts. The content is published instantly on an integrated faceted search and browsing engine HAKO for human users, and as a SPARQL endpoint and a source file for machines. As a proof of concept, the system has been applied to LOD and Finnish governmental datasets.

2010

Jussi Kurki and Eero Hyvönen: Collaborative Metadata Editor Integrated with Ontology Services and Faceted Portals. Workshop on Ontology Repositories and Editors for the Semantic Web (ORES 2010), the Extended Semantic Web Conference ESWC 2010, Heraklion, Greece, CEUR Workshop Proceedings, http://ceur-ws.org/, June, 2010. bib pdf

Contact person:

Matias Frosterus
Helsinki University of Technology, Laboratory of Media Technology
firstname.lastname@helsinki.fi

Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi

/var/www/html/include/secoweb/utils.php; Fri, 27 Dec 2024 13:45:45 +0000