» print this page!
» Follow us on Twitter
» Be our friend on Facebook

Latest News

Latest Publications

SeCo on Twitter

SeCo on Facebook

Matrikkelit semanttisessa webissä: case Vanhat Norssit

Projektin tavoitteet

Yhteisöt, kuten ammattijärjestöt, valtionhallinto, yliopistot, oppilaitokset ja erilaiset yhteisöt julkaisevat perinteisesti jäsenistöstään erilaisia matrikkeleita. Tällaisia ovat esimerkiksi Suomen Valtiokalenteri, Ylioppilaskalenteri 1640-1852, Tekniikan akateemiset ja arkkitehdit -matrikkeli sekä veteraanimatrikkelit Vapautemme hinta ja Suomen rintamamiehet 1939-1945. Laajimmillaan näihin on kerätty tietoja jopa sadoistatuhansista henkilöistä ja niiden aikajänne yltää satojen vuosien päähän historiaan.

Tutkimushankkeessa tutkitaan matrikkeleiden uudenlaista julkaisemista semanttisen webin keinoin. Ideana on luoda matrikkelissa olevasta tiedosta linkitetyn datan julkaisu, jonka varaan voidaan kehittää erlaisia älykkäitä käyttöliittymiä datan hakemiseen, tutkimiseen ja visualisointiin sekä tietojen ajan tasalla pitämiseen. Linkitetyn datan keskeinen arvolupaus on mahdollisuus rikastaa matrikkelidataa linkittämällä sitä toisiin, täydentäviin data-aineistoihin. Esimerkiksi taiteilijamatrikkelin henkilön tietoja voidaan rikastaa hänen teoksillaan museoissa tai kirjastoissa, laajemmilla elämäkerroilla Kansallisbiografiassa ja Wikipediassa, linkeillä taiteilijan koulukunnan kollegoihin, sukulaisiin jne.

Vanhat Norssit semanttisessa webissä

Hankkeen ensimmäisenä tapaustutkimuksena on Helsingin normaalilyseon 125v-matrikkeli 1867-1992, joka sisältää lyhyet kuvaukset n. 10 000 koulun oppilaasta, "vanhasta norssista". Matrikkeli digitointiin Helsingin yliopiston digitointikeskuksessa OCR-tekniikalla. Ensivaiheessa matrikkeli (ja muitakin aineistoja) julkaistiin PDF-muodossa Normaalilyseon alumniyhdistyksen "Vanhat Norssit" kotisivuilla, jotka uudistettiin samassa yhteydessä. Seuraavassa vaiheessa OCR-prosessista saatua tekstiä puhdistettiin algoritmisesti erilaisista OCR-prosessin tuottamista virheistä, ja dataa muokkaamalla muodostettiin ohjelmallisesti matrikkelin sisällön rakenteinen kuvaus semanttisena (RDF-)verkkona. Tämä ladattiin SPARQL-palvelupisteeseen SeCo-ryhmän kehittämälle Linked Data Finland -alustalle. Dataa linkitettiin mm. Suomalaisen Kirjallisuuden Seuran (SKS) Kansallisbiorafiaan, Wikipediaan, Kulttuurisampoon, Kirjasampoon sekä Sotasampo-portaaliin, jossa on tietoja n. 100 000 talvi- ja jatkosodassa rintamalla olleesta sotilaasta. Selvisi, että yli 500 vanhaa Norssin oppilasta löytyy Wikipediasta ja lähes 400 norssilaisesta on lisätietoja Sotasammossa.

Datapalvelun päälle kehitettiin hakutoiminnallisuuksia, semanttisten aineistojen suosittelijaa sekä työkaluja Vanhojen Norssien historian prosopografiseen tutkimiseen visuaalisesti Googlen grafiikan avulla. Kävi esimerkiksi ilmi, että eri vuosikymmeninä norssien yleisimmät matrikkelissa mainitut virkanimikkeet ovat "puheenjohtaja", "johtaja", "toimitusjohtaja" ja "sihteeri" ... Syntynyt sovellus "Vanhat norssit semanttisessa webissä" on asennettu yleiseen käyttöön yhdistyksen kotisivuille osoitteeseen

http://www.norssit.fi/semweb

juhlistamaan osaltaan Norssin 150-vuotisjuhlaa yhdessä 100-vuotiaan Suomen kanssa.

Tutkimuskonsortio

Projekti liittyy osana laajempaan Tekesin ja yrityskonsortion rahoittamaan Severi-projektiin sekä Aalto-yliopiston yhteistyöhön Helsingin yliopiston (HY) digitaalisten ihmistieteiden keskuksen HELDIG kanssa. Helsingin normaalilyseo on HY:n erillislaitos. Vanhat Norssit ry on rahoittanut tutkimusaineistojen digitoinnin.

Työryhmä

Eero Hyvönen, Aalto-yliopisto, HELDIG ja Vanhat Norssit ry (hankkeen vetäjä)

Laura Sirola, Aalto-yliopisto

Jouni Tuominen, Aalto-yliopisto, HELDIG, vanha norssi

Erkki Heino, Helsingin yliopisto ja Aalto-yliopisto, SeCo

Petri Leskinen, Aalto-yliopisto, SeCo

Timo Havulinna ja Vanhojen Norssien hallitus


Publications

2017

Petri Leskinen, Jouni Tuominen, Erkki Heino and Eero Hyvönen: An Ontology and Data Infrastructure for Publishing and Using Biographical Linked Data. Proceedings of the Workshop on Humanities in the Semantic Web (WHiSe II), CEUR Workshop Proceedings, Vienna, Austria, October, 2017. bib pdf
This paper describes the ontology model and published datasets of a digitized biographical person register. The applied ontology model is designed to represent people via their enduring roles and perduring lifetime events. The model is designed to support 1) prosopographical Digital Humanities research, 2) linking to resources in semantic Cultural Heritage portals, and 3) semantic data validation and enrichment by using SPARQL queries. The linked data approach enables to enrich a person s biography by interlinking it with space and time related biographical events, persons relating by social contacts or family relations, historical events, and personal achievements.
Eero Hyvönen, Petri Leskinen, Erkki Heino, Jouni Tuominen and Laura Sirola: Reassembling and Enriching the Life Stories in Printed Biographical Registers: Norssi High School Alumni on the Semantic Web. Proceedings, Language, Technology and Knowledge (LDK 2017), pp. 113-119, Springer-Verlag, Galway, Ireland, June, 2017. bib pdf link
This paper presents the idea to enrich printed biographical person registers with linked data related to events that took place after the register was published. By transforming printed historical documents into structured data, semantic search to written texts can be provided for the reader. Even more importantly, life stories of historical persons can be extended based on data linking by extracting semantic structures from printed texts, and by combining this data with external datasets and data services. Such linking provides an enriched context for prosopographical research on people in the register, as well as an enhanced reading experience for anyone interested in reading the biographies. As a concrete case study, a register 1867–1992 of over 10 000 alumni of the prominent Finnish high school “Norssi” was transformed into RDF, was enriched by data linking, was published as a linked data service, and is provided to end users via a faceted search engine and browser for studying lives of historical persons and for prosopographical research.
/srv/www/seco.cs.aalto.fi/include/secoweb/utils.php; Sat, 25 Nov 2017 05:31:27 +0200