» back to normal layout
Nimisampo: nimistöntutkijan työpöytä ja linkitetyn paikkatiedon infrastruktuuri

Nimisammon idea ja verkkopalvelu

Laajoja paikannimiaineistoja on viime aikoina digitoitu ja julkaistu verkossa avoimena datana. Suomalaisen paikannimistön tutkimuksen kannalta keskeisimpiä näistä ovat Kotimaisten kielten keskuksen (Kotus) vuonna 2017 digitoitu Nimiarkisto (2,7 miljoonaa paikannimeä) ja Maanmittauslaitoksen Paikannimirekisteri (800 000 paikannimeä) sekä näihin liittyvät toporafiset kartat. Nimisampo on tällaisiin avoimiin paikkarekistereihin perustuva, kaikille avoin verkkopalvelu ja linkitetyn datan datapalvelu suomalaisesta paikannimistöstä kiinnostuneiden tutkijoiden ja suuren yleisön käytettäväksi.

Nimisammon verkkopalvelu on käytettävissä osoitteessa nimisampo.fi

Palvelu julkistettiin 1.2.2019 ja se sai vuodessa 34 000 eri käyttäjää verkossa. Käyttäjäkunta vastannee perinteisen manuaalisen Nimiarkiston käyttäjiä, joita ovat olleet mm. nimistön- ja kielentutkijat sekä opinnäytteiden tekijät, sukututkijat, historioitsijat, arkeologit, kyläkirjojen tekijät, nettiretkisivustojen tekijät, kuntien nimistönsuunnittelusta vastaavat sekä muut (yleensä jonkin alueen) nimistöstä kiinnostuneet.

Nimisampo tarjoaa käyttäjälleen älykkään käyttöliittymän, jonka avulla voi hakea eri lähteistä paikannimiä, vaikkapa kaikki Ukko-alkuiset paikat kirjoittamalla hakukenttään "Ukko*". (Tähti * tarkoittaa mitä tahansa merkkijonoa.) Datalähteet voi valita vasemmassa yläkulmassa olevasta valikosta; oletuksena haku tehdään Nimiarkistosta ja Paikannimirekisteristä samanaikaisesti. Vastauksena palautuva nimistö esitetään taulukkomuodossa, jota voi sitten tarkastella paitsi taulukkodatana myös eri tavoin kartoilla (esim. klusteroitu kartta ja lämpökartta) sekä tilastollisesti. Taulukon voi myös ladata tutkittavaksi vaikkapa taulukkolaskentaohjelmaan. Nämä toiminnot löytyvät Nimisammon yläpalkista, kun haku on tehty. Nykyisten karttapohjien ohella voi käyttää myös historiallisia luovutetun Karjalan karttoja ja 1900-luvun vaihteen venäläisiä Senaatin kartastoja eli Venäjän armeijan 1800–1900-luvulla laatimia Etelä-Suomen karttoja. Halutun karttajärjestelmän ja karttojen läpinäkyvyysasteen voi valita karttanäkymän oikeassa yläkulmassa olevien valikkojen kautta.

Alla olevassa kuvassa Nimisammon käyttäjä esimerkiksi vertailee Äijä- ja Ukko/Ukon-alkuisten paikannimien esiintymistä Suomessa lämpökarttojen avulla ja huomaa merkittävän eron.

Nimisampo on esimerkki tietojenkäsittelijöiden ja humanistien yhteistyöstä

Nimisampo-järjestelmä perustuu Kotimaisten kielten keskuksen (Kotus) digitoimaan Nimiarkistoon, johon on kerätty kansalaisilta 2,7 miljoonaa paikannimitietoa yli sadan vuoden aikana. Alunperin paperikorteilla ollut jättiläismäinen aineisto digitoitiin Kotuksen toimesta vuosina 2014-2017 digitaaliseksi Nimiarkistoksi . Hankkeen ohjausryhmässä mukana olleen Eero Hyvösen aloitteeesta ja johdolla käynnistyi tälle projektille Helsingin yliopiston digitaalisten ihmistieteiden keskuksessa HELDIG jatkohanke 2018. Sen tavoitteena oli luoda Kotuksen digitoidun tietokannan ja siihen liittyvien muiden aineistojen avulla älykäs verkkopalvelu "Nimistöntutkijan työpöytä", joka nimettiin sittemmin Nimisammoksi. Hanke toteutettiin yhteistyössä Helsingin yliopiston (HY) nimistöntutkijoiden, Terhi Ainialan ja hänen tutkimusryhmänsä kanssa. Hankkeen rahoitti HY:n humanistisen tiedekunnan Tulevaisuusrahasto ja Aalto-yliopisto, ja työn tekninen osuus toteutettiin Aalto-yliopiston ja HY:n Semanttisen laskennan tutkimusryhmässä (SeCo).

Nimisammon linkitetty data

Kotuksen Nimiarkiston ohella Nimisammon aineistoina on käytetty

  1. Maanmittauslaitoksen yli 800 000 nimeä sisältävää Paikannimirekisteria, joka oli muunnettu semanttisen webin ontologiaksi SeCo-ryhmän aiemmassa hankkeessa,
  2. SeCo-ryhmä kehittämää Suomalaisten historiallisten paikkojen ja karttojen ontologiapalvelua Hipla,
  3. Sotasampo.fi-palvelun luovutetun Karjalan karttojen yli 30 000 paikkaa ja
  4. Yhdysvaltalaisen Getty-säätiön laajaa historiallisten paikkojen paikkatietotesaurusta Thesaurus of Geograhical Names (TGN), jossa on yli 4,1 miljoonaa paikannimeä.

Nämä aineistot linkittyvät toisiinsa paikkatyyppien ja koordinaattitiedon kautta. Yksi Nimisampo-hankkeen tärkeä tavoite ja tulos olikin oli laatia suomen kielinen paikkatyyppiontologia Kotuksen aineistossa esiintyvien yli 10 000 paikkatyyppi-ilmaisun (!) perusteella (esimerkiksi "mäki", "kukkula", "joki", "niitty" jne.). Linkittyminen mahdollistaa mm. eri aineistojen vertailut kartoilla. Voidaan esimerkiksi verrata Paikannimirekisterissä olevia virallisia paikannimiä Kotuksen aineistossa olevaan paikallisesti käytettyyn nimistöön.

Esimerkki Nimiarkiston paikannimikortista näkyy alla olevassa kuvassa. Nimisampo perustuu korttien digitoituihin versioihin.

Nimisammon käyttö datapalvelun kautta

Nimisampo perustuu teknisesti semanttisen webin linkitettyyn dataan ja W3C:n standardeihin ja parhaisiin käytäntöihin.

Valmiin Nimisampo-sovelluksen nimisampo.fi ohella nimistöä voi tutkia suoraan SPARQL-rajapintojen avulla. Tämä mahdollistaa teknisesti lähes rajattomat mahdollisuudet muotoilla hakuja ja tutkia niiden tuloksia semanttisen webin standardien mukaisella SPARQL-kyselykielellä, toki datan asettamat rajoitteet huomioiden. Datapalvelun käyttö edellyttää SPARQL-kieleen perehtymistä (ks. esimerkiksi W3C:n SPARQL-spesifikaatio tai suomenkielinen oppikirja Semanttinen web: Linkitetyn avoimen datan käsikirja). Datapalvelun dokumentaatio, ohjeet ja SPARQL-rajapinnat:

Alla on esimerkkinä muutama tutkimuskysymys ja niiden ratkaisu SPARQL-kyselyllä Kotuksen Nimiarkiston dataa hyväksi käyttäen:

Mikä on Suomen yleisin paikannimi? 100 yleisintä paikannimeä löytyvät näppärästi tällaisella kyselyllä. Tulos vastaa aiemmin eräässä väitöskirjassa saatua tulosta, jonka aikaansaamiseksi tutkijaparka joutui käymään läpi käsityönä pari miljoonaa paikannimikorttia. Nyt vastaava tulos löytyi hetkessä Nimisammon avulla!

Mikä on Suomen yleisin paikannimen alkuosa? Kotuksen Nimiarkiston datassa on kieliteknologisesti erotettu nimien määriteosa (alku) ja perusosa, ja näitä on helppoa hakea koko nimen lisäksi. 100 yleisintä määriteosaa löytyvät tällä SPARQL-kyselyllä.

Missä päin Suomea on eniten sanan "X" sisältäviä paikannimiä? Onnistuuko haku myös useammalla sanalla?

Esimerkiksi 100 kuntaa (1938 pitäjäjaon mukaan), joiden paikannimissä on eniten sanoja ”paska” tai ”kusi”, löytyvät näin. Tuloslista viittaa vahvasti siihen, että pohjoisessa sanotaan ruma sana niin kuin se on! Tämä tutkimuskysymys ratkaistiin nopeasti Helsingin Sanomien toimittajan pyynnöstä siellä ilmestynyttä uutisartikkelia varten.

Nimisampo on avointa koodia ja dataa

Nimisammon aineistot ovat avointa dataa (CC BY 4.0) ja vapaasti käytettävissä myös kaupallisiin tarkoituksiin vain lähde mainiten.

Myös Nimisammon avoin lähdekoodi on saatavilla samalla tavalla GitHubista.

Nimisammon käyttämät karttasarjat, Senaatin kartasto (1:21 000 topografinen) ja Karjalan kartat (1:100 000 topografinen) ovat käytettävissä SeCo:n Hipla-palvelun yhteydessä luodun MapWarper-palvelun kautta (Tiles-, WMS- ja KML-rajapinnat).

Muita semanttisen webin "sampoja" verkossa

Nimisammon käyttöliittymän toteutusta varten SeCo-ryhmässä toteutettiin uusi arkkitehtuuri ja työkalu, josta on sittemmin jalostunut yleiskäyttöinen Sampo-UI-ohjelmointikehys. Sampo-UI:n avulla on toteutettu Nimisammon jälkeen koko joukko muitakin Sampo-malliin perustuvia Sampo-sarjan semanttisia portaaleja digitaalisten ihmistieteiden tutkijoiden ja laajemman yleisön käytettäväksi. Kaikkiaan eri aikoina julkaistulla "sammoilla" on ollut jo miljoonia käyttäjiä verkossa.

Työkalua on käytetty myös Norjassa Nimisampoa muistuttavan Norske stedsnavn -verkkopalvelun toteutuksessa.

Lisätietoja

Nimisampoa on esitelty tarkemmin alla olevissa julkaisuissa sekä palvelun julkistustilaisuuden 1.2.2019 esitelmissä, joiden kalvot löytyvät tapahtuman kotisivulta. Lisätietoa saa myös alla esiteltävän projektitiimin jäseniltä.

Yhteyshenkilöt ja projektitiimi

Eero Hyvönen, Helsingin yliopisto (HELDIG) and Aalto-yliopisto (projektin vetäjä)

Esko Ikkala, Aalto-yliopisto ja Helsingin yliopisto (HELDIG) (Nimisammon käyttöliittymän suunnittelu ja toteutus, Kotuksen Nimiarkiston datamuunnos)

Jouni Tuominen, Helsingin yliopisto (HELDIG) (LDF.fi-datapalvelu)

Nimistöntutkijoiden tiimi Helsingin yliopistossa: Terhi Ainiala (nimistöntutkimusosuuden vetäjä, Tiina Aalto (paikkatyyppiontologia) ja Jaakko Raunamaa (nimistöntutkimus)

Kotimaisten kielten keskuksen (Kotus) edustaja: Helinä Uusitalo (Digitaalinen Nimiarkisto)

Kiitokset

Hanketta on rahoittanut Helsingin yliopiston Tulevaisuusrahasto ja tukenut Aalto-yliopiston tietotekniikan laitos.


Publications

2024

Eero Hyvönen: How to Create a National Cross-domain Ontology and Linked Data Infrastructure and Use It on the Semantic Web. Semantic Web - Interoperability, Usability, Applicability, IOS Press, 2024. DOI: 10.3233/SW-243468. bib pdf link

2023

Eero Hyvönen: Creating and Using a National Linked Open Data Infrastructure for Cultural Heritage Applications and Digital Humanities Research: Lessons Learned. DARIAH Annual Event 2023, Budapest, Hungary, abstracts of papers, DARIAH-EU, June, 2023. bib link
Eero Hyvönen: How to Create a National Cross-domain Ontology and Linked Data Infrastructure and Use It on the Semantic Web. Programming and Data Infrastructure in Digital Humanities, Book of Abstracts, pp. 7, High Performance Computing Centre, University of Évora, Portugal, March, 2023. bib link
Eero Hyvönen: Digital Humanities on the Semantic Web: Sampo Model and Portal Series. Semantic Web – Interoperability, Usability, Applicability, vol. 14, no. 4, pp. 729-744, IOS Press, 2023. bib pdf link

2022

Esko Ikkala, Eero Hyvönen, Heikki Rantala and Mikko Koho: Sampo-UI: A Full Stack JavaScript Framework for Developing Semantic Portal User Interfaces. Semantic Web – Interoperability, Usability, Applicability, vol. 13, no. 1, pp. 69-84, January, 2022. Online version published in 2021, print version in 2022. bib pdf link

2020

Eero Hyvönen: Semantic Sampo Portals for Digital Humanities Based on a National Linked Open Data Infrastructure. 2020. White paper, Aalto University, Semantic Computing Research Group (SeCo). bib pdf
Eero Hyvönen: Sampo Model and Semantic Portals for Digital Humanities on the Semantic Web. DHN 2020 Digital Humanities in the Nordic Countries. Proceedings of the Digital Humanities in the Nordic Countries 5th Conference, pp. 373-378, CEUR Workshop Proceedings, vol. 2612, Riga, Latvia, October, 2020. bib pdf link

2019

Eero Hyvönen: Historiallinen paikkatieto semanttisessa webissä: Biografiasampo. Positio, no. 1, Maanmittauslaitos, February, 2019. bib pdf

2018

Esko Ikkala, Jouni Tuominen, Jaakko Raunamaa, Tiina Aalto, Terhi Ainiala, Helinä Uusitalo and Eero Hyvönen: NameSampo: A Linked Open Data Infrastructure and Workbench for Toponomastic Research. Proceedings of the 2nd ACM SIGSPATIAL Workshop on Geospatial Humanities, GeoHumanities 18, pp. 2:1-2:9, ACM, Seattle, WA, USA, November, 2018. bib pdf link
This paper presents a series of projects where one of the main sources for toponomastic research in Finland, the corpora of place names in the Names Archive database of the Institute for the Languages of Finland, was digitized and how the resulting database was converted, enriched and published as Linked Open Data using a data processing pipeline. Utilizing the Linked Data infrastructure and various external data sources, a modern full-stack web application, NameSampo, was created in collaboration between toponomastic researchers and computer scientists for searching, analyzing, and visualizing digital toponomastic data sources.
/var/www/html/include/secoweb/utils.php; Thu, 21 Nov 2024 14:56:42 +0000