Nimisampo: nimistöntutkijan työpöytä ja linkitetyn paikkatiedon infrastruktuuri |
Nimisammon idea ja verkkopalvelu
Laajoja paikannimiaineistoja on viime aikoina digitoitu ja julkaistu verkossa avoimena datana. Suomalaisen paikannimistön tutkimuksen kannalta keskeisimpiä näistä ovat Kotimaisten kielten keskuksen (Kotus) vuonna 2017 digitoitu Nimiarkisto (2,7 miljoonaa paikannimeä) ja Maanmittauslaitoksen Paikannimirekisteri (800 000 paikannimeä) sekä näihin liittyvät toporafiset kartat. Nimisampo on tällaisiin avoimiin paikkarekistereihin perustuva, kaikille avoin verkkopalvelu ja linkitetyn datan datapalvelu suomalaisesta paikannimistöstä kiinnostuneiden tutkijoiden ja suuren yleisön käytettäväksi.
Nimisammon verkkopalvelu on käytettävissä osoitteessa nimisampo.fi
Palvelu julkistettiin 1.2.2019 ja se sai vuodessa 34 000 eri käyttäjää verkossa. Käyttäjäkunta vastannee perinteisen manuaalisen Nimiarkiston käyttäjiä, joita ovat olleet mm. nimistön- ja kielentutkijat sekä opinnäytteiden tekijät, sukututkijat, historioitsijat, arkeologit, kyläkirjojen tekijät, nettiretkisivustojen tekijät, kuntien nimistönsuunnittelusta vastaavat sekä muut (yleensä jonkin alueen) nimistöstä kiinnostuneet.
Nimisampo tarjoaa käyttäjälleen älykkään käyttöliittymän, jonka avulla voi hakea eri lähteistä paikannimiä, vaikkapa kaikki Ukko-alkuiset paikat kirjoittamalla hakukenttään "Ukko*". (Tähti * tarkoittaa mitä tahansa merkkijonoa.) Datalähteet voi valita vasemmassa yläkulmassa olevasta valikosta; oletuksena haku tehdään Nimiarkistosta ja Paikannimirekisteristä samanaikaisesti. Vastauksena palautuva nimistö esitetään taulukkomuodossa, jota voi sitten tarkastella paitsi taulukkodatana myös eri tavoin kartoilla (esim. klusteroitu kartta ja lämpökartta) sekä tilastollisesti. Taulukon voi myös ladata tutkittavaksi vaikkapa taulukkolaskentaohjelmaan. Nämä toiminnot löytyvät Nimisammon yläpalkista, kun haku on tehty. Nykyisten karttapohjien ohella voi käyttää myös historiallisia luovutetun Karjalan karttoja ja 1900-luvun vaihteen venäläisiä Senaatin kartastoja eli Venäjän armeijan 1800–1900-luvulla laatimia Etelä-Suomen karttoja. Halutun karttajärjestelmän ja karttojen läpinäkyvyysasteen voi valita karttanäkymän oikeassa yläkulmassa olevien valikkojen kautta.
Alla olevassa kuvassa Nimisammon käyttäjä esimerkiksi vertailee Äijä- ja Ukko/Ukon-alkuisten paikannimien esiintymistä Suomessa lämpökarttojen avulla ja huomaa merkittävän eron.
Nimisampo on esimerkki tietojenkäsittelijöiden ja humanistien yhteistyöstä
Nimisampo-järjestelmä perustuu Kotimaisten kielten keskuksen (Kotus) digitoimaan Nimiarkistoon, johon on kerätty kansalaisilta 2,7 miljoonaa paikannimitietoa yli sadan vuoden aikana. Alunperin paperikorteilla ollut jättiläismäinen aineisto digitoitiin Kotuksen toimesta vuosina 2014-2017 digitaaliseksi Nimiarkistoksi . Hankkeen ohjausryhmässä mukana olleen Eero Hyvösen aloitteeesta ja johdolla käynnistyi tälle projektille Helsingin yliopiston digitaalisten ihmistieteiden keskuksessa HELDIG jatkohanke 2018. Sen tavoitteena oli luoda Kotuksen digitoidun tietokannan ja siihen liittyvien muiden aineistojen avulla älykäs verkkopalvelu "Nimistöntutkijan työpöytä", joka nimettiin sittemmin Nimisammoksi. Hanke toteutettiin yhteistyössä Helsingin yliopiston (HY) nimistöntutkijoiden, Terhi Ainialan ja hänen tutkimusryhmänsä kanssa. Hankkeen rahoitti HY:n humanistisen tiedekunnan Tulevaisuusrahasto ja Aalto-yliopisto, ja työn tekninen osuus toteutettiin Aalto-yliopiston ja HY:n Semanttisen laskennan tutkimusryhmässä (SeCo).
Nimisammon linkitetty data
Kotuksen Nimiarkiston ohella Nimisammon aineistoina on käytetty
- Maanmittauslaitoksen yli 800 000 nimeä sisältävää Paikannimirekisteria, joka oli muunnettu semanttisen webin ontologiaksi SeCo-ryhmän aiemmassa hankkeessa,
- SeCo-ryhmä kehittämää Suomalaisten historiallisten paikkojen ja karttojen ontologiapalvelua Hipla,
- Sotasampo.fi-palvelun luovutetun Karjalan karttojen yli 30 000 paikkaa ja
- Yhdysvaltalaisen Getty-säätiön laajaa historiallisten paikkojen paikkatietotesaurusta Thesaurus of Geograhical Names (TGN), jossa on yli 4,1 miljoonaa paikannimeä.
Nämä aineistot linkittyvät toisiinsa paikkatyyppien ja koordinaattitiedon kautta. Yksi Nimisampo-hankkeen tärkeä tavoite ja tulos olikin oli laatia suomen kielinen paikkatyyppiontologia Kotuksen aineistossa esiintyvien yli 10 000 paikkatyyppi-ilmaisun (!) perusteella (esimerkiksi "mäki", "kukkula", "joki", "niitty" jne.). Linkittyminen mahdollistaa mm. eri aineistojen vertailut kartoilla. Voidaan esimerkiksi verrata Paikannimirekisterissä olevia virallisia paikannimiä Kotuksen aineistossa olevaan paikallisesti käytettyyn nimistöön.
Esimerkki Nimiarkiston paikannimikortista näkyy alla olevassa kuvassa. Nimisampo perustuu korttien digitoituihin versioihin.
Nimisammon käyttö datapalvelun kautta
Nimisampo perustuu teknisesti semanttisen webin linkitettyyn dataan ja W3C:n standardeihin ja parhaisiin käytäntöihin.Valmiin Nimisampo-sovelluksen nimisampo.fi ohella nimistöä voi tutkia suoraan SPARQL-rajapintojen avulla. Tämä mahdollistaa teknisesti lähes rajattomat mahdollisuudet muotoilla hakuja ja tutkia niiden tuloksia semanttisen webin standardien mukaisella SPARQL-kyselykielellä, toki datan asettamat rajoitteet huomioiden. Datapalvelun käyttö edellyttää SPARQL-kieleen perehtymistä (ks. esimerkiksi W3C:n SPARQL-spesifikaatio tai suomenkielinen oppikirja Semanttinen web: Linkitetyn avoimen datan käsikirja). Datapalvelun dokumentaatio, ohjeet ja SPARQL-rajapinnat:
- Kotuksen Nimiarkisto
- Maanmittauslaitoksen Paikannimirekisteri
- Maanmittauslaitoksen Karjalan karttanimet
- Getty Thesaurus of Geographic Names
Mikä on Suomen yleisin paikannimi? 100 yleisintä paikannimeä löytyvät näppärästi tällaisella kyselyllä. Tulos vastaa aiemmin eräässä väitöskirjassa saatua tulosta, jonka aikaansaamiseksi tutkijaparka joutui käymään läpi käsityönä pari miljoonaa paikannimikorttia. Nyt vastaava tulos löytyi hetkessä Nimisammon avulla!
Mikä on Suomen yleisin paikannimen alkuosa? Kotuksen Nimiarkiston datassa on kieliteknologisesti erotettu nimien määriteosa (alku) ja perusosa, ja näitä on helppoa hakea koko nimen lisäksi. 100 yleisintä määriteosaa löytyvät tällä SPARQL-kyselyllä.
Missä päin Suomea on eniten sanan "X" sisältäviä paikannimiä? Onnistuuko haku myös useammalla sanalla?
Esimerkiksi 100 kuntaa (1938 pitäjäjaon mukaan), joiden paikannimissä on eniten sanoja ”paska” tai ”kusi”, löytyvät näin. Tuloslista viittaa vahvasti siihen, että pohjoisessa sanotaan ruma sana niin kuin se on! Tämä tutkimuskysymys ratkaistiin nopeasti Helsingin Sanomien toimittajan pyynnöstä siellä ilmestynyttä uutisartikkelia varten.
Nimisampo on avointa koodia ja dataa
Nimisammon aineistot ovat avointa dataa (CC BY 4.0) ja vapaasti käytettävissä myös kaupallisiin tarkoituksiin vain lähde mainiten.
Myös Nimisammon avoin lähdekoodi on saatavilla samalla tavalla GitHubista.
Nimisammon käyttämät karttasarjat, Senaatin kartasto (1:21 000 topografinen) ja Karjalan kartat (1:100 000 topografinen) ovat käytettävissä SeCo:n Hipla-palvelun yhteydessä luodun MapWarper-palvelun kautta (Tiles-, WMS- ja KML-rajapinnat).
Muita semanttisen webin "sampoja" verkossa
Nimisammon käyttöliittymän toteutusta varten SeCo-ryhmässä toteutettiin uusi arkkitehtuuri ja työkalu, josta on sittemmin jalostunut yleiskäyttöinen Sampo-UI-ohjelmointikehys. Sampo-UI:n avulla on toteutettu Nimisammon jälkeen koko joukko muitakin Sampo-malliin perustuvia Sampo-sarjan semanttisia portaaleja digitaalisten ihmistieteiden tutkijoiden ja laajemman yleisön käytettäväksi. Kaikkiaan eri aikoina julkaistulla "sammoilla" on ollut jo miljoonia käyttäjiä verkossa.
Työkalua on käytetty myös Norjassa Nimisampoa muistuttavan Norske stedsnavn -verkkopalvelun toteutuksessa.
Lisätietoja
Nimisampoa on esitelty tarkemmin alla olevissa julkaisuissa sekä palvelun julkistustilaisuuden 1.2.2019 esitelmissä, joiden kalvot löytyvät tapahtuman kotisivulta. Lisätietoa saa myös alla esiteltävän projektitiimin jäseniltä.
Yhteyshenkilöt ja projektitiimi
Eero Hyvönen, Helsingin yliopisto (HELDIG) and Aalto-yliopisto (projektin vetäjä)
Esko Ikkala, Aalto-yliopisto ja Helsingin yliopisto (HELDIG) (Nimisammon käyttöliittymän suunnittelu ja toteutus, Kotuksen Nimiarkiston datamuunnos)
Jouni Tuominen, Helsingin yliopisto (HELDIG) (LDF.fi-datapalvelu)
Nimistöntutkijoiden tiimi Helsingin yliopistossa: Terhi Ainiala (nimistöntutkimusosuuden vetäjä, Tiina Aalto (paikkatyyppiontologia) ja Jaakko Raunamaa (nimistöntutkimus)
Kotimaisten kielten keskuksen (Kotus) edustaja: Helinä Uusitalo (Digitaalinen Nimiarkisto)
Kiitokset
Hanketta on rahoittanut Helsingin yliopiston Tulevaisuusrahasto ja tukenut Aalto-yliopiston tietotekniikan laitos.