» print this page!
» Follow us on Twitter
» Be our friend on Facebook

Latest News

Latest Publications

SeCo on Twitter

SeCo on Facebook

Nimisampo: nimistöntutkijan työpöytä ja linkitetyn paikkatiedon infrastruktuuri

Nimisammon idea ja verkkopalvelu

Laajoja paikannimiaineistoja on viime aikoina digitoitu ja julkaistu verkossa avoimena datana. Suomalaisen paikannimistön tutkimuksen kannalta keskeisimpiä näistä ovat Maanittauslaitoksen Paikannimirekisteri (800 000 paikannimeä), näihin liittyvät toporafiset kartat, sekä Kotimaisten kielten keskuksen vuonna 2017 digitoitu Nimiarkisto (2,3 miljoonaa paikannimeä). Nimisampo on tällaisiin avoimiin paikkarekistereihin perustuva, kaikille avoin verkkopalvelu suomalaisesta paikannimistöstä kiinnostuneiden tutkijoiden ja suuren yleisön käytettäväksi.

Nimisammon verkkopalvelu on käytettävissä osoitteessa nimisampo.fi

Nimisampo tarjoaa käyttäjälleen älykkään käyttöliittymän, jonka avulla voi hakea eri lähteistä paikannimiä, vaikkapa kaikki Ukko-alkuiset paikat kirjoittamalla hakukenttään "Ukko*". (Tähti * tarkoittaa mitä tahansa merkkijonoa.) Datalähteet voi valita vasemmassa yläkulmassa olevasta valikosta; oletuksena haku tehdään Nimiarkistosta ja Paikannimirekisteristä samanaikaisesti. Vastauksena palautuva nimistö esitetään taulukkomuodossa, jota voi sitten tarkastella paitsi taulukkodatana myös eri tavoin kartoilla (esim. klusteroitu kartta ja lämpökartta) sekä tilastollisesti. Taulukon voi myös ladata tutkittavaksi vaikkapa taulukkolaskentaohjelmaan. Nämä toiminnot löytyvät Nimisammon yläpalkista, kun haku on tehty. Nykyisten karttapohjien ohella voi käyttää myös historiallisia luovutetun Karjalan karttoja ja 1900-luvun vaihteen venäläisiä Senaatin kartastoja eli Venäjän armeijan 1800–1900-luvulla laatimia Etelä-Suomen karttoja. Halutun karttajärjestelmän ja karttojen läpinäkyvyysasteen voi valita karttanäkymän oikeassa yläkulmassa olevien valikkojen kautta.

Alla olevassa kuvassa Nimisammon käyttäjä esimerkiksi vertailee Äijä- ja Ukko/Ukon- alkuisten paikannimien esiintymistä Suomessa lämpökarttojen avulla ja huomaa merkittävän eron.

Nimisampo-järjestelmä perustuu Kotimaisten kielten keskuksen (Kotus) digitoimaan Nimiarkistoon, johon on kerätty kansalaisilta 2,3 miljoonaa paikannimitietoa yli sadan vuoden aikana, sekä Maanmittauslaitoksen 800 000 nimeä sisältävään Paikannimirekisteriin. Nämä linkittyvät toisiinsa paikkatyyppien ja koordinaattitiedon kautta. Lisäksi järjestelmään on liitetty Sotasampo.fi-palvelun luovutetun Karjalan karttojen yli 30 000 paikkaa ja yhdysvaltalaisen Getty-säätiön historiallisten paikkojen Thesaurus of Geographical Names (TGN), yli 4,1 miljoonaa paikannimeä. Järjestelmä perustuu teknisesti semanttisen webin linkitettyyn dataan ja on toteututtu Helsingin yliopiston digitaalisten ihmistieteiden keskuksen HELDIG ja Aalto-yliopiston Semanttisen laskennan tutkimusryhmän (SeCo) yhteistyönä.

Esimerkki Nimiarkiston paikannimikortista näkyy alla olevassa kuvassa. Nimisampo perustuu korttien digitoituihin versioihin.

Nimisampoa on esitelty tarkemmin alla olevissa julkaisuissa sekä palvelun julkistustilaisuuden 1.2.2019 esitelmissä, joiden kalvot löytyvät tapahtuman kotisivulta.

Datapalvelun käyttö verkossa

Edellä kuvatun valmiin Nimisampo-sovelluksen ohella nimistöä voi tutkia suoraan Nimisammon datapalvelun avulla. Tämä mahdollistaa teknisesti lähes rajattomat mahdollisuudet muotoilla hakuja ja tutkia niiden tuloksia semanttisen webin standardien mukaisella SPARQL-kyselykielellä, toki datan asettamat rajoitteet huomioiden. Datapalvelun käyttö edellyttää SPARQL-kieleen perehtymistä (ks. esimerkiksi W3C:n SPARQL-spesifikaatio tai suomenkielinen oppikirja Semanttinen web: Linkitetyn avoimen datan käsikirja). Nimisampo perustuu linkitetyn datan palveluun Linked Data Finland -alustalla (http://ldf.fi).

Alla on esimerkkinä muutama tutkimuskysymys ja niiden ratkaisu haulla Nimiarkiston dataa hyväksi käyttäen:

Mikä on Suomen yleisin paikannimi? 100 yleisintä paikannimeä löytyvät näppärästi tällaisella kyselyllä. Mitalistit siis ovat: Riihipelto (3699 kpl) kultaa, Mäkelä (3629 kpl) hopeaa ja Rantala (2872 kpl) pronssia.

Mikä on Suomen yleisin paikannimen alkuosa? Nimisammossa on kieliteknologisesti erotettu nimien määriteosa (alku) ja perusosa, ja näitä on helppoa hakea koko nimen lisäksi. 100 yleisintä määriteosaa löytyvät tällä SPARQL-kyselyllä. Mitalistit ovat nyt: Iso- (16511 kpl), Mylly- (14699 kpl) ja Riihi- (11859 kpl).

Missä päin Suomea on eniten sanan "X" sisältäviä paikannimiä? Onnistuuko haku myös useammalla sanalla?

Esimerkiksi 100 kuntaa (1938 pitäjäjaon mukaan), joiden paikannimissä on eniten sanoja ”paska” tai ”kusi”, löytyvät näin. Nyt voitto menee Kuusamoon (78 kpl), Suomussalmelle (45 kpl) ja Rovaniemelle (43 kpl). Tuloslista viittaa vahvasti siihen, että pohjoisessa sanotaan ruma sana niin kuin se on!

Nimisampo on avointa koodia ja dataa

Nimisammon aineistot ovat avointa dataa (CC-BY-4.0) ja vapaasti käytettävissä myös kaupallisiin tarkoituksiin vain lähde mainiten.

Nimisammon käyttämät karttasarjat, Senaatin kartasto (1:21 000 topografinen) ja Karjalan kartat (1:100 000 topografinen) ovat käytettävissä MapWarper-palvelun kautta (Tiles-, WMS- ja KML-rajapinnat).

Myös Nimisammon avoin lähdekoodi on saatavilla samalla tavalla GitHubista.

Muita semanttisen webin "sampoja" verkossa

Nimisampoa ennen Semanttisen laskennan tutkimusryhmä (SeCo) on julkaissut verkossa useita digitaalisten ihmistieteiden "sampoja" tutkijoiden ja laajemman yleisön käytettäväksi:

Kiitokset

Hanketta on rahoittanut Helsingin yliopiston Tulevaisuusrahasto.

Yhteyshenkilöt ja projektitiimi

Eero Hyvönen, Helsingin yliopisto (HELDIG) and Aalto-yliopisto

Esko Ikkala, Aalto-yliopisto ja Helsingin yliopisto (HELDIG)

Jouni Tuominen, Helsingin yliopisto (HELDIG)

Nimistöntutkijoiden tiimi Helsingin yliopistossa: Terhi Ainiala, Tiina Aalto ja Jaakko Raunamaa

Kotimaisten kielten keskuksen (Kotus) edustaja: Helinä Uusitalo


Publications

2019

Eero Hyvönen: Historiallinen paikkatieto semanttisessa webissä: Biografiasampo. Positio, no. 1, Maanmittauslaitos, February, 2019. bib pdf

2018

Esko Ikkala, Jouni Tuominen, Jaakko Raunamaa, Tiina Aalto, Terhi Ainiala, Helinä Uusitalo and Eero Hyvönen: NameSampo: A Linked Open Data Infrastructure and Workbench for Toponomastic Research. Proceedings of the 2nd ACM SIGSPATIAL Workshop on Geospatial Humanities, GeoHumanities 18, pp. 2:1-2:9, ACM, Seattle, WA, USA, November, 2018. bib pdf link
This paper presents a series of projects where one of the main sources for toponomastic research in Finland, the corpora of place names in the Names Archive database of the Institute for the Languages of Finland, was digitized and how the resulting database was converted, enriched and published as Linked Open Data using a data processing pipeline. Utilizing the Linked Data infrastructure and various external data sources, a modern full-stack web application, NameSampo, was created in collaboration between toponomastic researchers and computer scientists for searching, analyzing, and visualizing digital toponomastic data sources.
/var/www/html/include/secoweb/utils.php; Thu, 18 Apr 2019 16:28:23 +0000