DataFinland - Semantic search and annotation tool for Open Datasets
Page updated: 22.9.2010
DataFinland tarjoaa yhteisöllisen, yhdistetyn avoimen tiedon julkaisukanavan ja hakukoneen semanttisessa webissä.
Ongelma
Avointen, yhdistettyjen tietoaineistojen julkaiseminen on yleistynyt Linked Data–liikkeen, sen avoimen aineistopilven (LOD cloud) (http://linkeddata.org/) sekä eri maiden julkishallinnon datakatalogien myötä (esim. http://data.gov.uk/ ja http://data.suomi.fi/). Ongelmaksi on muodostunut haluttuun sovellustarkoitukseen sopivan aineiston löytäminen jopa tuhansien joukosta. Vaikka Linked (Open) Data perustuu semanttiseen webiin, eivät sen aineistojen metatiedot ja hakujärjestelmät ole kovinkaan semanttisia perinteisistä katalogeista puhumattakaan: näissä tyypillisesti listataan aineistoja aakkosjärjestyksessä (esim. http://data.suomi.fi/, http://esw.w3.org/TaskForces/CommunityProjects/LinkingOpenData/DataSets) tai käytetään perinteisiä tageja (esim. http://ckan.net). Sisältöjen kuvailu ei ole riittävän täsmällistä älykästä semanttista hakua, yhdistämistä ja yhteentoimivuutta varten. Lisäksi aineistojen metatietojen tuottaminen on haasteellista yhteisten metatietomallien, sanastojen (ontologioiden) ja verkkopalveluiden puuttuessa. Yhdistetyn avoimen tiedon semanttinen hakemistopalvelu DataSuomi on ratkaisumalli näihin ongelmiin. Järjestelmä perustuu kansalliseen ONKI ontologiakirjastopalveluun (http://www.onki.fi), siihen yhdistettyyn verkkopohjaiseen hajautettuun SAHA-editoriin ja voiD-metatietomalliin, sekä SAHA:an integroituun semanttiseen haku- ja suosittelukoneseen HAKO. Järjestelmä on kehitetty osana kansallista FinnONTO-hanketta.
Käyttäjät
Sovelluksella on kaksi käyttäjäryhmää: avoimien aineistojen julkaisijat ja niiden sovelluskäyttäjät. Julkaisijat kuvailevat aineistonsa sovelluksen DataSuomen metadataeditorilla (SAHA) yhteentoimivalla täsmällisellä tavalla, joka perustuu kansainväliseen voiD-metatietomalliin ja ONKI:ssa julkaistuihin, yleisessä käytössä oleviin sanastoihin/ontologioita. Standardoitu esitysmuoto mahdollistaa sen, että hajautetusti tuotetut tiedot ovat yhteentoimivia ja että muut sovellukset voivat hyödyntää luotua metadataa semanttisessa webissä. Julkaisijat voivat käyttää hakutoimintoja löytääkseen muita aineistoja, joihin mahdollisesti omansa haluavat linkittää. Avoimien aineistojen käyttäjät puolestaan käyttävät sovelluksen semanttista hakuportaalia sovellukseensa sopivien aineistojen hakuun ja selailuun. Portaali perustuu tekstihaun ohella ns. semanttiseen näkymähakuun (faceted search), mikä mahdollistaa aineistojen hahmottamisen eri näkökulmista, esimerkiksi haun rajaamisen aineiston teeman, julkaisijan, kielen tai formaatin mukaan joustavasti eri kombinaatioilla.
Käyttötapaus
DataSuomen visiona on kansallisen datakatalogin kehittäminen semanttiseen webiin. Tietoaineiston julkaisija julkaisee aineistonsa ensin verkossa ja avaa sitten selaimella DataSuomen SAHA-metadataeditorin, johon luodaan uusi kuvauslomake. Julkaisija täyttää sen metadatakentät. Kuvailevat käsitteet saadaan kätevästi ONKI-palvelusta tai SAHAn sisäisesti muista aineistoista (esim. viite toiseen tietoaineistoon). Myös ulkopuolinen osapuoli voi julkaista vapaasti metatietoa verkossa olevista aineistoista. Metatietojen tuottajan tarvitsee vain avata SAHA:an kytketty HAKO-hakukone saadakseen metatietonsa julkisiksi. HAKOn avulla hän voi tarkastella omia ja muiden aineistoja, pohtia mahdollisia linkityksiä, rikastaa omia kuvailujaan SAHAlla ja julkaista tarpeen mukaan tiedoista uuden version. Tietoaineistoja etsivä soveltaja voi hakea tarkoitukseensa sopivia aineistoja monipuolisesti HAKO-hakukoneella. Jos hän osaa muotoilla kuvailun sanallisesti ja tietää tarkkaan mitä etsii, käyttänee hän automaattitäydennyksellä varustettua Google-tyyppistä tekstihakua, joka kuitenkin on semanttinen. Esimerkiksi yläkäsitteellä haettaessa voidaan löytää alikäsitteisiin liittyvät kohteet (esim. sisustuksella voidaan viitata huonekaluihin). Semanttinen moninäkymähaku taas tarjoaa mahdollisuuden rajata ja selailla aineistoja erittäin joustavasti. Järjestelmä tukee monikielisyyyttä, koska sovellus perustuu kieliriippumattomiin semanttisiin käsitteisiin.
Data
Esimerkkisovellusta varten DataSuomessa sisällönkuvailtiin tärkeimmät data.suomi.fi- ja Open Linked Data-aineistot. Ajatuksena on osoittaa mallin joustavuus kielirajojen ja aineistotyyppien ylitse niin semanttisilla Linked Data –aineistoilla kuin periteisillä, ei-yhdistetyillä aineistoilla eri muodoissaan. Järjestelmään voidaan kuvailla joustavasti uusia aineistoja vanhoja muuttamatta. Metadata säilyy SAHA:n servereillä ja siitä otetaan varmuuskopio joka yö. Aineistojen metatiedot voidaan jakaa avoimesti RDF-muodossa tiedostona suoraan soveltajille. HAKO:on toteutettu W3C.n suosituksen mukainen SPARQL-rajapinta mahdollistaa tietoaineistojen metatietojen ohjelmallisen käytön rajapinnan kautta. Metatietomallin ja ontologioiden muuttaminen järjestelmässä on vaivatonta, sillä DataSuomessa data ja tietomallit on erotettu geneerisistä työkaluista.
Käyttöohjeet ja demo
Metadataeditori SAHA löytyy osoitteesta: http://demo.seco.tkk.fi/saha3sandbox/voiD/index.shtml Vastaava semanttinen portaali HAKO syntyy osoitteeseen: http://demo.seco.tkk.fi/saha3sandbox/voiD/hako.shtml SAHAssa valitaan ensin kuvailtavan tietoaineiston tyyppi, joko Linked Open Data dataset tai non-RDF dataset. Valitsemalla create new, voidaan kuvailla aineisto täyttämällä kentät metadatamallin mukaisesti. Osa kentistä on vapaita tekstikenttiä (literal), osan (reference) arvot valitaan ONKI-palvelun ontologioista tai SAHAn tiedoista. Ontologioihin linkitetyissä kentissä on auto-completion-toiminto, jossa kirjoitetaan referenssin nimeä kirjaimittain ja valitaan päivittyvästä vaihtoehtojen listasta oikea tarjokas. ONKIn kautta metadataan saadaan viittaus käsitteen merkityksen yksilöivään URI-tunnisteeseen – pelkkä nimi tai tagi ei riitä yksilöimään merkitystä (esim. Matti Virtanen). Käyttäjän ei kuitenkaan tarvitse itse huolehtia URI-koodeista. URI-tunnisteiden kautta käy mahdolliseksi merkitysten erottaminen, jolloin annotoituja aineistoja voidaan yhdistää toisiinsa täsmällisesti. Jos ontologiassa ei ole tarvittavaa käsitettä, voidaan sille luoda uusi tarpeen mukaan. Käynnistämällä HAKO annotoidut aineistot ilmestyvät semanttiseen portaaliin, josta niitä voidaan hakea vapaalla tekstihaulla tai vaihtoehtoisesti käyttämällä moninäkymähakua. Tarkempi käyttöohje PDF-muodossa lötyy täältä.
Artikkeleja
2023
2011
2010
Contact person:
Matias Frosterus
Helsinki University of Technology, Laboratory of Media Technology
firstname.lastname@helsinki.fi
Prof. Eero Hyvönen
Helsinki University of Technology, Laboratory of Media Technology and University of Helsinki
eero.hyvonen [at] tkk.fi