- FIN-CLARIAH Research Infrastructure
A new national research infrastructure initiative FIN-CLARIAH for...
8.12.2021 8:12 by eahyvone - WarMemoirSampo published on December 3, 2021
A new “Sampo” application, “WarMemoirSampo”...
8.12.2021 8:04 by eahyvone - Five new SeCo papers accepted for the ISWC 2021
The 20th International Semantic Web Conference (ISWC 2021), the...
2.8.2021 6:53 by eahyvone
- Eljas Oksanen, Frida Ehrnsten, Heikki Rantala and Eero Hyvönen: Semantic Solutions for Democratising Archaeological and Numismatic Data Analysis
- Petri Leskinen: Modeling and Using Biographical Linked Data for Prosopographical Data Analysis
- Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Senka Drobac, Rafael Leal, Matti La Mela, Jouni Tuominen, Henna Poikkimäki and Heikki Rantala: Publishing and Using Parliamentary Linked Data on the Semantic Web: ParliamentSampo System for Parliament of Finland
- Eero Hyvönen and Jouni Tuominen: 8-star Linked Open Data Model: Extending the 5-star Model for Better Reuse, Quality, and Trust of Data
Matrikkelit semanttisessa webissä: case Vanhat Norssit
Projektin tavoitteet
Yhteisöt, kuten ammattijärjestöt, valtionhallinto, yliopistot, oppilaitokset ja erilaiset yhteisöt julkaisevat perinteisesti jäsenistöstään erilaisia matrikkeleita. Tällaisia ovat esimerkiksi Suomen Valtiokalenteri, Ylioppilaskalenteri 1640-1852, Tekniikan akateemiset ja arkkitehdit -matrikkeli sekä veteraanimatrikkelit Vapautemme hinta ja Suomen rintamamiehet 1939-1945. Laajimmillaan näihin on kerätty tietoja jopa sadoistatuhansista henkilöistä ja niiden aikajänne yltää satojen vuosien päähän historiaan.
Tutkimushankkeessa tutkitaan matrikkeleiden uudenlaista julkaisemista semanttisen webin keinoin. Ideana on luoda matrikkelissa olevasta tiedosta linkitetyn datan julkaisu, jonka varaan voidaan kehittää erlaisia älykkäitä käyttöliittymiä datan hakemiseen, tutkimiseen ja visualisointiin sekä tietojen ajan tasalla pitämiseen. Linkitetyn datan keskeinen arvolupaus on mahdollisuus rikastaa matrikkelidataa linkittämällä sitä toisiin, täydentäviin data-aineistoihin. Esimerkiksi taiteilijamatrikkelin henkilön tietoja voidaan rikastaa hänen teoksillaan museoissa tai kirjastoissa, laajemmilla elämäkerroilla Kansallisbiografiassa ja Wikipediassa, linkeillä taiteilijan koulukunnan kollegoihin, sukulaisiin jne.
Vanhat Norssit semanttisessa webissä
Hankkeen ensimmäisenä tapaustutkimuksena on Helsingin normaalilyseon 125v-matrikkeli 1867-1992, joka sisältää lyhyet kuvaukset n. 10 000 koulun oppilaasta, "vanhasta norssista". Matrikkeli digitointiin Helsingin yliopiston digitointikeskuksessa OCR-tekniikalla. Ensivaiheessa matrikkeli (ja muitakin aineistoja) julkaistiin PDF-muodossa Normaalilyseon alumniyhdistyksen "Vanhat Norssit" kotisivuilla, jotka uudistettiin samassa yhteydessä. Seuraavassa vaiheessa OCR-prosessista saatua tekstiä puhdistettiin algoritmisesti erilaisista OCR-prosessin tuottamista virheistä, ja dataa muokkaamalla muodostettiin ohjelmallisesti matrikkelin sisällön rakenteinen kuvaus semanttisena (RDF-)verkkona. Tämä ladattiin SPARQL-palvelupisteeseen SeCo-ryhmän kehittämälle Linked Data Finland -alustalle. Dataa linkitettiin mm. Suomalaisen Kirjallisuuden Seuran (SKS) Kansallisbiorafiaan, Wikipediaan, Kulttuurisampoon, Kirjasampoon sekä Sotasampo-portaaliin, jossa on tietoja n. 100 000 talvi- ja jatkosodassa rintamalla olleesta sotilaasta. Selvisi, että yli 500 vanhaa Norssin oppilasta löytyy Wikipediasta ja lähes 400 norssilaisesta on lisätietoja Sotasammossa.
Datapalvelun päälle kehitettiin hakutoiminnallisuuksia, semanttisten aineistojen suosittelijaa sekä työkaluja Vanhojen Norssien historian prosopografiseen tutkimiseen visuaalisesti Googlen grafiikan avulla. Kävi esimerkiksi ilmi, että eri vuosikymmeninä norssien yleisimmät matrikkelissa mainitut virkanimikkeet ovat "puheenjohtaja", "johtaja", "toimitusjohtaja" ja "sihteeri" ... Syntynyt sovellus "Vanhat norssit semanttisessa webissä" on asennettu yleiseen käyttöön yhdistyksen kotisivuille osoitteeseen
juhlistamaan osaltaan Norssin 150-vuotisjuhlaa yhdessä 100-vuotiaan Suomen kanssa.
Tutkimuskonsortio
Projekti liittyy osana laajempaan Tekesin ja yrityskonsortion rahoittamaan Severi-projektiin sekä Aalto-yliopiston yhteistyöhön Helsingin yliopiston (HY) digitaalisten ihmistieteiden keskuksen HELDIG kanssa. Helsingin normaalilyseo on HY:n erillislaitos. Vanhat Norssit ry on rahoittanut tutkimusaineistojen digitoinnin.
Työryhmä
Eero Hyvönen, Aalto-yliopisto, HELDIG ja Vanhat Norssit ry (hankkeen vetäjä)
Laura Sirola, Aalto-yliopisto
Jouni Tuominen, Aalto-yliopisto, HELDIG, vanha norssi
Erkki Heino, Helsingin yliopisto ja Aalto-yliopisto, SeCo
Petri Leskinen, Aalto-yliopisto, SeCo
Timo Havulinna ja Vanhojen Norssien hallitus