» print this page!
» Follow us on Twitter
» Be our friend on Facebook

Latest News

SeCo on Twitter

SeCo on Facebook

Nimisampo: nimistöntutkijan työpöytä ja linkitetyn paikkatiedon infrastruktuuri

Nimisammon idea ja verkkopalvelu

Laajoja paikannimiaineistoja on viime aikoina digitoitu ja julkaistu verkossa avoimena datana. Suomalaisen paikannimistön tutkimuksen kannalta keskeisimpiä näistä ovat Kotimaisten kielten keskuksen (Kotus) vuonna 2017 digitoitu Nimiarkisto (2,7 miljoonaa paikannimeä) js Maanmittauslaitoksen Paikannimirekisteri (800 000 paikannimeä) sekä näihin liittyvät toporafiset kartat. Nimisampo on tällaisiin avoimiin paikkarekistereihin perustuva, kaikille avoin verkkopalvelu ja linkitetyn datan datapalvelu suomalaisesta paikannimistöstä kiinnostuneiden tutkijoiden ja suuren yleisön käytettäväksi.

Nimisammon verkkopalvelu on käytettävissä osoitteessa nimisampo.fi

Palvelu julkistettiin 1.2.2019 ja se sai vuodessa 34 000 eri käyttäjää verkossa. Käyttäjäkunta vastannee perinteisen manuaalisen Nimiarkiston käyttäjiä, joita ovat olleet mm. nimistön- ja kielentutkijat sekä opinnäytteiden tekijät, sukututkijat, historioitsijat, arkeologit, kyläkirjojen tekijät, nettiretkisivustojen tekijät, kuntien nimistönsuunnittelusta vastaavat sekä muut (yleensä jonkin alueen) nimistöstä kiinnostuneet.

Nimisampo tarjoaa käyttäjälleen älykkään käyttöliittymän, jonka avulla voi hakea eri lähteistä paikannimiä, vaikkapa kaikki Ukko-alkuiset paikat kirjoittamalla hakukenttään "Ukko*". (Tähti * tarkoittaa mitä tahansa merkkijonoa.) Datalähteet voi valita vasemmassa yläkulmassa olevasta valikosta; oletuksena haku tehdään Nimiarkistosta ja Paikannimirekisteristä samanaikaisesti. Vastauksena palautuva nimistö esitetään taulukkomuodossa, jota voi sitten tarkastella paitsi taulukkodatana myös eri tavoin kartoilla (esim. klusteroitu kartta ja lämpökartta) sekä tilastollisesti. Taulukon voi myös ladata tutkittavaksi vaikkapa taulukkolaskentaohjelmaan. Nämä toiminnot löytyvät Nimisammon yläpalkista, kun haku on tehty. Nykyisten karttapohjien ohella voi käyttää myös historiallisia luovutetun Karjalan karttoja ja 1900-luvun vaihteen venäläisiä Senaatin kartastoja eli Venäjän armeijan 1800–1900-luvulla laatimia Etelä-Suomen karttoja. Halutun karttajärjestelmän ja karttojen läpinäkyvyysasteen voi valita karttanäkymän oikeassa yläkulmassa olevien valikkojen kautta.

Alla olevassa kuvassa Nimisammon käyttäjä esimerkiksi vertailee Äijä- ja Ukko/Ukon-alkuisten paikannimien esiintymistä Suomessa lämpökarttojen avulla ja huomaa merkittävän eron.

Nimisampo on esimerkki tietojenkäsittelijöiden ja humanistien yhteistyöstä

Nimisampo-järjestelmä perustuu Kotimaisten kielten keskuksen (Kotus) digitoimaan Nimiarkistoon, johon on kerätty kansalaisilta 2,7 miljoonaa paikannimitietoa yli sadan vuoden aikana. Alunperin paperikorteilla ollut jättiläismäinen aineisto digitoitiin Kotuksen toimesta vuosina 2014-2017 digitaaliseksi Nimiarkistoksi . Hankkeen ohjausryhmässä mukana olleen Eero Hyvösen aloitteeesta ja johdolla käynnistyi tälle projektille Helsingin yliopiston digitaalisten ihmistieteiden keskuksessa HELDIG jatkohanke 2018. Sen tavoitteena oli luoda Kotuksen digitoidun tietokannan ja siihen liittyvien muiden aineistojen avulla älykäs verkkopalvelu "Nimistöntutkija työpöytä", joka nimettiin sittemmin Nimisammoksi. Hanke toteutettiin yhteistyössä Helsingin yliopiston (HY) nimistöntutkijoiden, Terhi Ainialan ja hänen tutkimusryhmänsä kanssa. Hankkeen rahoitti HY:n humanistisen tiedekunnan Tulevaisuusrahasto ja Aalto-yliopisto, ja työn tekninen osuus toteutettiin Aalto-yliopiston ja HY:n Semanttisen laskennan tutkimusryhmässä (SeCo).

Nimisammon linkitetty data

Kotuksen Nimiarkiston ohella Nimisammon aineistoina on käytetty

  1. Maanmittauslaitoksen yli 800 000 nimeä sisältävää Paikannimirekisteria, joka oli muunnettu semanttisen webin ontologiaksi SeCo-ryhmän aiemmassa hankkeessa,
  2. SeCo-ryhmä kehittämää Suomalaisten historiallisten paikkojen ja karttojen ontologiapalvelua Hipla,
  3. Sotasampo.fi-palvelun luovutetun Karjalan karttojen yli 30 000 paikkaa ja
  4. Yhdysvaltalaisen Getty-säätiön laajaa historiallisten paikkojen paikkatietotesaurusta Thesaurus of Geograhical Names (TGN), jossa on yli 4,1 miljoonaa paikannimeä.

Nämä aineistot linkittyvät toisiinsa paikkatyyppien ja koordinaattitiedon kautta. Yksi Nimisampo-hankkeen tärkeä tavoite ja tulos olikin oli laatia suomen kielinen paikkatyyppiontologia Kotuksen aineistossa esiintyvien yli 10 000 paikkatyyppi-ilmaisun (!) perusteella (esimerkiksi "mäki", "kukkula", "joki", "niitty" jne.). Linkittyminen mahdollistaa mm. eri aineistojen vertailut kartoilla. Voidaan esimerkiksi verrata Paikannimirekisterissä olevia virallisia paikannimiä Kotuksen aineistossa olevaan paikallisesti käytettyyn nimistöön.

Esimerkki Nimiarkiston paikannimikortista näkyy alla olevassa kuvassa. Nimisampo perustuu korttien digitoituihin versioihin.

Nimisammon käyttö datapalvelun kautta

Nimisampo perustuu teknisesti semanttisen webin linkitettyyn dataan ja W3C:n standardeihin ja parhaisiin käytäntöihin.

Valmiin Nimisampo-sovelluksen http://nimisampo.fi ohella nimistöä voi tutkia suoraan Nimisammon datapalvelun SPARQL-rajapinnan avulla. Tämä mahdollistaa teknisesti lähes rajattomat mahdollisuudet muotoilla hakuja ja tutkia niiden tuloksia semanttisen webin standardien mukaisella SPARQL-kyselykielellä, toki datan asettamat rajoitteet huomioiden. Datapalvelun käyttö edellyttää SPARQL-kieleen perehtymistä (ks. esimerkiksi W3C:n SPARQL-spesifikaatio tai suomenkielinen oppikirja Semanttinen web: Linkitetyn avoimen datan käsikirja). Data-palvelun dokumentaatio, ohjeet ja SPARQL-rajapinta löytyvät (LDF.fi-palvelussa) olevalta Nimisammon kotisivulta.

Alla on esimerkkinä muutama tutkimuskysymys ja niiden ratkaisu SPARQL-kyselyllä Nimiarkiston dataa hyväksi käyttäen:

Mikä on Suomen yleisin paikannimi? 100 yleisintä paikannimeä löytyvät näppärästi tällaisella kyselyllä. Mitalistit siis ovat: Riihipelto (3699 kpl) kultaa, Mäkelä (3629 kpl) hopeaa ja Rantala (2872 kpl) pronssia. Tulos vastaa aiemmin eräässä väitöskirjassa saatua tulosta, jonka aikaansaamiseksi tutkijaparka joutui käymään läpi käsityönä pari miljoonaa paikannimikorttia. Nyt vastaava tulos löytyi hetkessä Nimisammon avulla!

Mikä on Suomen yleisin paikannimen alkuosa? Nimisammossa on kieliteknologisesti erotettu nimien määriteosa (alku) ja perusosa, ja näitä on helppoa hakea koko nimen lisäksi. 100 yleisintä määriteosaa löytyvät tällä SPARQL-kyselyllä. Mitalistit ovat nyt: Iso- (16511 kpl), Mylly- (14699 kpl) ja Riihi- (11859 kpl).

Missä päin Suomea on eniten sanan "X" sisältäviä paikannimiä? Onnistuuko haku myös useammalla sanalla?

Esimerkiksi 100 kuntaa (1938 pitäjäjaon mukaan), joiden paikannimissä on eniten sanoja ”paska” tai ”kusi”, löytyvät näin. Nyt voitto menee Kuusamoon (57 kpl), Suomussalmelle (44 kpl) ja Rovaniemelle (38 kpl). Tuloslista viittaa vahvasti siihen, että pohjoisessa sanotaan ruma sana niin kuin se on! Tämä tutkimuskysymys ratkaistiin nopeasti Helsingin Sanomien toimittajan pyynnöstä siellä ilmestynyttä uutisartikkelia varten.

Nimisampo on avointa koodia ja dataa

Nimisammon aineistot ovat avointa dataa (CC BY 4.0) ja vapaasti käytettävissä myös kaupallisiin tarkoituksiin vain lähde mainiten.

Myös Nimisammon avoin lähdekoodi on saatavilla samalla tavalla GitHubista.

Nimisammon käyttämät karttasarjat, Senaatin kartasto (1:21 000 topografinen) ja Karjalan kartat (1:100 000 topografinen) ovat käytettävissä SeCo:n Hipla-palvelun yhteydessä luodun MapWarper-palvelun kautta (Tiles-, WMS- ja KML-rajapinnat).

Muita semanttisen webin "sampoja" verkossa

Nimisammon käyttöliittymän toteutusta varten SeCo-ryhmässä toteutettiin uusi arkkitehtuuri ja työkalu, josta on sittemmin jalostunut yleiskäyttöinen "Sampo-UI"-ohjelmointikehys. Sampo-UI:n avulla on toteutettu Nimisammon jälkeen koko joukko muitakin Sampo-malliin perustuvia "Sampo-sarjan" semanttisia portaaleja digitaalisten ihmistieteiden tutkijoiden ja laajemman yleisön käytettäväksi. Kaikkiaan eri aikoina julkaistulla "sammoilla" on ollut jo miljoonia käyttäjiä verkossa.

Työkalua on käytetty myös Norjassa Nimisampoa muistuttavan "Norske stedsnavn" -verkkopalvelun toteutuksessa.

Lisätietoja

Nimisampoa on esitelty tarkemmin alla olevissa julkaisuissa sekä palvelun julkistustilaisuuden 1.2.2019 esitelmissä, joiden kalvot löytyvät tapahtuman kotisivulta. Lisätietoa saa myös alla esiteltävän projektitiimin jäseniltä.

Yhteyshenkilöt ja projektitiimi

Eero Hyvönen, Helsingin yliopisto (HELDIG) and Aalto-yliopisto (projektin vetäjä)

Esko Ikkala, Aalto-yliopisto ja Helsingin yliopisto (HELDIG) (Nimisampo-sovelluksen käyttöliittymän suunnittelu ja toteutus)

Jouni Tuominen, Helsingin yliopisto (HELDIG) (data- ja back-end-palvelut)

Nimistöntutkijoiden tiimi Helsingin yliopistossa: Terhi Ainiala (nimistöntutkimusosuuden vetäjä, Tiina Aalto (paikkatyyppiontologia) ja Jaakko Raunamaa (nimistöntutkimus)

Kotimaisten kielten keskuksen (Kotus) edustaja: Helinä Uusitalo (Digitaalinen Nimiarkisto)

Kiitokset

Hanketta on rahoittanut Helsingin yliopiston Tulevaisuusrahasto ja tukenut Aalto-yliopiston tietotekniikan laitos.


Publications

2020

Eero Hyvönen: Sampo Model and Semantic Portals for Digital Humanities on the Semantic Web. DHN 2020 Digital Humanities in the Nordic Countries. Proceedings of the Digital Humanities in the Nordic Countries 5th Conference, pp. 373-378, CEUR Workshop Proceedings, vol. 2612, Riga, Latvia, October, 2020. bib pdf link
Eero Hyvönen: Semantic Sampo Portals for Digital Humanities Based on a National Linked Open Data Infrastructure. Proceedings of the Digital Humanities in the Nordic Countries. 5th Conference, CEUR Workshop Proceedings, 2020. Vol-2612. bib pdf link

2019

Eero Hyvönen: Historiallinen paikkatieto semanttisessa webissä: Biografiasampo. Positio, no. 1, Maanmittauslaitos, February, 2019. bib pdf

2018

Esko Ikkala, Jouni Tuominen, Jaakko Raunamaa, Tiina Aalto, Terhi Ainiala, Helinä Uusitalo and Eero Hyvönen: NameSampo: A Linked Open Data Infrastructure and Workbench for Toponomastic Research. Proceedings of the 2nd ACM SIGSPATIAL Workshop on Geospatial Humanities, GeoHumanities 18, pp. 2:1-2:9, ACM, Seattle, WA, USA, November, 2018. bib pdf link
This paper presents a series of projects where one of the main sources for toponomastic research in Finland, the corpora of place names in the Names Archive database of the Institute for the Languages of Finland, was digitized and how the resulting database was converted, enriched and published as Linked Open Data using a data processing pipeline. Utilizing the Linked Data infrastructure and various external data sources, a modern full-stack web application, NameSampo, was created in collaboration between toponomastic researchers and computer scientists for searching, analyzing, and visualizing digital toponomastic data sources.
/var/www/html/include/secoweb/utils.php; Mon, 19 Oct 2020 15:21:44 +0000