» back to normal layout
Parlamenttisampo
Eduskunta semanttisessa webissä

Eduskunnan aineistot avoimeksi FAIR-dataksi ja sovelluksiksi!

Eduskunnan päätöksenteon ja lainsäädäntötyön avoimuus ja aineistojen saatavuus on suomalaisen demokratian yksi perusta. Keskeinen tähän liittyvä aineisto ovat täysistuntojen pöytäkirjat niihin sisältyvine puheineen eduskunnan perustamisesta 1907 alkaen. Pöytäkirjat ovat olleet saatavilla painettuina eduskunnan kirjastosta, ja nyttemmin myös verkosta eduskunnan sivuilta skannattuina PDF-dokumentteina, HTML-sivuina tai XML-muodossa valtiopäivistä riippuen. Keskeinen haaste aineistojen käytössä on ollut, että pöytäkirja-aineisto ei ole ollut saatavilla yhtenäisessä muodossa datana eikä esimerkiksi yksittäisten puheiden haku tai puheiden ja puhujien analysointi ole ollut mahdollista. Jos käyttäjä on tiennyt, millä valtiopäivillä joku puhe on pidetty, on hän voinut esimerkiksi ladata verkosta tuhatsivuisen skannatun pöytäkirjan ja hakea sieltä puhetta ja muuta tietoa dokumenttia lukemalla. Mutta jos halutaan esimerkiksi selvittää

ei nykyinen dokumenttien ja aineistojen lataamiseen ja lukemiseen perustuva verkkopalvelu ole toimiva ratkaisu. Eduskunnan avoin data on olennainen palvelu datalähteenä seuraavan polven digitaalisiin ihmistieteisiin perustuville verkkopalveluille. Sen ongelmana kuitenkin on, että vaikka esimerkiksi eduskunnan täysistuntojen pöytäkirjat ovat avoimesti saatavissa, niitä ei ole julkaistu yhtenäisessä muodossa datana modernien FAIR-periaatteiden mukaisesti löydettävästi (Findable), saavutettavasti (Accessible), yhteentoimivassa (Interoperable) ja uudelleen käytettävässä muodossa (Interoperable) haku- ja muita sovelluksia varten.

Semanttinen parlamentti (SEMPARL) on Suomen Akatemian rahoittaman konsortiohanke, joka tarttui tähän haasteeseen 2020-2022. Hankkeessa on ensimmäistä kertaa luotu eduskunnan kaikista lähes miljoonasta täysistuntojen puheenvuorosta ja yli 2800 eduskunnassa puhuneesta kansaedustajasta ja muista henkilöistä uudenlainen linkitetyn avoimen datan (Linked Open Data (LOD)) infrastruktuuri "Parlamenttisampo", johon kuuluu sekä 1) datapalvelu että 2) semanttinen portaalisovellus, uusi jäsen Sampo-järjestelmien sarjassa, joista käytetyimmillä (Kirjasampo ja Sotasampo) on ollut yli miljoona käyttäjää verkossa. Järjestelmän ydinaineistona ovat olleet eduskunnan täysistuntojen kaikki pöytäkirjat ja kansanedustajien tietokanta, joiden sisältöä on rikastettu muilla tietolähteillä kuten biografisella tiedolla poliitikoista. Uuden Parlamenttisampo-datapalvelun avulla hankkeessa on tutkittu kansaedustajien kieltä, puheita, verkostoja, parlamentaarista politiikkaa ja poliittista kulttuuria. Parlamenttisampo-portaali puolestaan tarjoaa julkisen avoimen verkkopalvelun tutkijoita, kansalaisia, mediaa ja valtionhallintoa varten. Parlamenttisammon vastauksia esimerkiksi edellä esitettyihin kysymyksiin löytyy tästä artikkelista: ensimmäisenä NATO:sta puhui Yrjö Enne (SKDL) 27.5.1959 ja eniten suomettuminen-sanaa on käyttänyt kokoomuksen Georg Ehrnrooth. Veikko Vennamo on ollut eduskunnan kaikkien aikojen puhujakuninhgas yli 12600 varsinaisella puheenvuorollaan ja Marjatta Stenius-Kaukonen kuningatar 2941 puheenvuorolla. Vihreät viittaavat eniten kokoomuksen ja sitten keskustapuolueen kansaedustajiin. Nykyeduskunnan (2022) ministerien puheiden aktiivisin keskeyttäjä välihuudoilla on kokoomuksen Ben Zyskovics.

Parlamenttisammolla saatuja data-analyyttisiä tutkimustuloksia aktiivisimmista puhujista on käytetty mm. Helsingin Sanomien (HS) Musta laatikko -esityksissä Kansallisteatterissa ja siihen perustuvassa artikkelissa Melkein miljoona puhetta (2022), samoin tässä HS:n jutussa Vaikka eduskunta tasa-arvoistui, miehet keskeyttävät muita puhujia yhä paljon enemmän kuin naiset (2022) eduskunnan välihuudoista ja puheiden keskeyttäjistä.

Videoita Parlamenttisammosta

Alla oleva eduskunnan esittelytilaisuudessa pidetty puhe esittelee hanketta yleisesti ja demonstroi Parlamenttisammon käyttöä:

Projektin tuloksia 10.11.2022 mennessä on esitelty tarkemmin alla olevassa videossa.

Seuraavassa videossa kerrotaan tarkemmin Parlamenttisampoon kuuluvasta poliitikkojen toimintaa kuvaavasta tietämysgraafista.

Hanke oli osa Suomen Akatemian rahoittamaa DIGIHUM 2020-2022 -ohjelmaa. Hanke liittyy myös SeCo-ryhmässä menossa olevaan työhön Suomen lainsäädännön ja oikeustapausten julkaisemiseksi avoimena linkitetyn datan palveluna Semanttinen Finlex ja loppukäyttäjien Lakisampona yhteistyössä oikeusministeriön kanssa.

Tulokset

Hankkeessa on luotu avoin kotimainen ontologia- ja tietoinfrastruktuuri eduskunnan aineistojen julkaisemiseksi ja rikastamiseksi linkitettynä avoimena datana. Aineistoja on yhdistetty mm. Lakisampoon (lainsäädäntö, oikeustapaukset, hallituksen esitykset ym.) ja Biografiasampoon (poliitikkojen elämäkerrat ja historiallisten henkilöiden verkostot). Tulos julkaistaan avoimena linkitetyn datan palveluna Linked Data Finland -alustalla. Työssä on hyödynnetty Semanttisen laskennan tutkimusryhmän (SeCo) Sampo-mallia ja -ohjelmistoja, ja työ yhdistyy laajempaan hankekokonaisuuteen LODI4DH, jonka tavoitteena on rakentaa kansallista digitaalisten ihmistieteiden linkitetyn datan tietoinfrastruktuuria.

Parlamenttisampo ja sen dataa on käytetty poliittisen kulttuurin ja kielen tutkmuksissa, joista joista löytyy tarkempaa tietoa alla kohdassa Julkaisuja. Järjestelmän avulla tehtyjä anayysejä on hyödynnetty myös mm. Helsingin Sanomien edellä kuvatuissa artikkeleissa.

Parlamenttisammon aineistojen ja portaalin julkistus 2023

Parlamenttisampo on vielä projektin sisäisessä käytössä, mutta julkaistaan yleiseen käyttöön vuoden 2023 alkupuolella osoitteessa:

https://parlamenttisampo.fi (linkki ohjautuu vielä takaisin tälle sivulle)

Parlamenttisampoon kuuluvat seuraavat osat:
  1. Linkitetyn avoimen datan palvelu Linked Data Finland -alustalla (https://ldf.fi), joka sisältää 1) kaikki eduskunnan puheet 1907 alkaen ja 2) kaikista kansanedustajista ja muista puhujista muodostetun biografisen/prosopografisen tietämysgraafin.
  2. Semanttinen portaali Parlamenttisampo (https://parlamenttisampo.fi)
  3. Puheista erikseen muodostettu Parla-CLARIN-formaatin mukainen datajulkaisu sekä europpalaisessa ParlaMint 2 -hankkeessa tuotettu näyte uudemmista puheista ParlaMint-muodossa.

Parlamenttisampoon viittaaminen

Parlamenttisammon aineistot ja ohjelmistot ovat avoimia CC BY 4.0 -lisenssillä, vain viittaus lähteeseen tarvitaan. Parlamenttisampoon voi artikkeleissa ja tutkimuksissa viitata mm. seuraavien julkaisujen avulla.

Muita semanttisen webin "sampoja" verkossa

Semanttisen laskennan tutkimusryhmä (SeCo) on julkaissut verkossa useita digitaalisten ihmistieteiden "sampoja" tutkijoiden ja laajemman yleisön käytettäväksi:

Projektin organisaatio

Konsortiohankkeessa oli mukana kolme yliopistoa Suomen Akatemian rahoituksella.

Parlamenttisampo-järjestelmä ja sen aineistot on kehitetty Helsingin yliopiston (HELDIG-keskus) ja Aalto-yliopiston Semanttisen laskennan tutkimusryhmän seuraavien jäsenten toimesta:

Hanke tekee yhteistyötä useiden kotimaisten tahojen kuten eduskunnan ja oikeusministeriön kanssa, joiden aineistot ja toiminta muodostaa perustan koko hankkeelle. Parlamenttiaineistot ovat yksi tärkeä osa kansallista digitaalisten ihmistieteiden infrastruktuuria FIN-CLARIAH ja DARIAH-FI kehitettäessä.

Hankkeen kotimaiseen ohjausryhmään kuuluivat osahankkeiden vetäjien ohella Matti La Mela (Aalto), Ari Apilo (eduskunta), Sari Wilenius (eduskunta) ja Aki Hietanen (oikeusministeriö). Lisäksi projektilla on kansainvälinen neuvottelukunta (Advisory Board), jossa ovat mukana Dr. Laura Hollink (CWI, Centrum Wikunde & Informatica, Amsterdam), Prof. Bruno Martins (University of Lisbon) ja Prof. Andra Siibak (University of Tartu, Estonia, Institute of Social Studies).


Julkaisuja

2023

Eero Hyvönen: Parlamenttisampo avaa eduskunnan miljoona puhetta ja kansanedustajien verkostot kaikkien tutkittaviksi. Tieteessä tapahtuu, no. 2, Tieteellisten seurain valtuuskunta (TSV), 2023. In press. bib pdf

2022

Henna Poikkimäki, Petri Leskinen, Minna Tamper and Eero Hyvönen: Analyses of Networks of Politicians Based on Linked Data: Case ParliamentSampo - Parliament of Finland on the Semantic Web. Semantic Web and Ontology Design for Cultural Heritage (SWODCH 2022), Turin, Italy, Proceedings, CEUR WS Proceedings, 2022. Accepted. bib pdf
Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Matti La Mela, Jouni Tuominen, Kimmo Elo, Senka Drobac, Mikko Koho, Esko Ikkala, Minna Tamper, Rafael Leal and Joonas Kesäniemi: Linked Data Approach for Studying Parliamentary Speeches and Networks of Politicians in Finland 1907-2021 (long paper). Digital Humanities 2022, Conference Abstracts, July 25-29, 2022 Online, Tokyo. Japan, University of Tokyo, pp. 254-257, ADHO, July, 2022. bib link
Matti La Mela, Fredrik Norén and Eero Hyvönen (eds.): Proceedings of the Digital Parliamentary Data in Action (DiPaDA 2022) Workshop. CEUR Workshop Proceedings, vol. 3133, May, 2022. bib link
Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Matti La Mela, Jouni Tuominen, Kimmo Elo, Senka Drobac, Mikko Koho, Esko Ikkala, Minna Tamper, Rafael Leal and Joonas Kesäniemi: Finnish Parliament on the Semantic Web: Using ParliamentSampo Data Service and Semantic Portal for Studying Political Culture and Language. Digital Parliamentary data in Action (DiPaDA 2022), Workshop at the 6th Digital Humanities in Nordic and Baltic Countries Conference, long paper, pp. 69-85, CEUR Workshop Proceedings, Vol. 3133, May, 2022. bib pdf link
Minna Tamper, Rafael Leal, Laura Sinikallio, Petri Leskinen, Jouni Tuominen and Eero Hyvönen: Extracting Knowledge from Parliamentary Debates for Studying Political Culture and Language. Proceedings of the 1st International Workshop on Knowledge Graph Generation From Text and the 1st International Workshop on Modular Knowledge co-located with 19th Extended Semantic Conference (ESWC 2022) (Sanju Tiwari, Nandana Mihindukulasooriya, Francesco Osborne, Dimitris Kontokostas, Jennifer D’Souza and Mayank Kejriwal (eds.)), vol. 3184, pp. 70-79, CEUR WS, May, 2022. International Workshop on Knowledge Graph Generation from Text (TEXT2KG 2022). bib pdf link
Matti La Mela, Fredrik Norén and Eero Hyvönen: Digital Parliamentary Data in Action (DiPaDA 2022): Introduction. Proceedings of the Digital Parliamentary Data in Action (DiPaDA 2022) Workshop, CEUR Workshop Proceedings, Vol. 3133, May, 2022. bib pdf link
Esko Ikkala, Eero Hyvönen, Heikki Rantala and Mikko Koho: Sampo-UI: A Full Stack JavaScript Framework for Developing Semantic Portal User Interfaces. Semantic Web – Interoperability, Usability, Applicability, vol. 13, no. 1, pp. 69-84, January, 2022. Online version published in 2021, print version in 2022. bib pdf link
Eero Hyvönen: Digital Humanities on the Semantic Web: Sampo Model and Portal Series. 2022. Semantic Web journal, aceepted. bib pdf link

2021

Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Senka Drobac, Jouni Tuominen, Kimmo Elo, Matti La Mela, Mikko Koho, Esko Ikkala, Minna Tamper, Rafael Leal and Joonas Kesäniemi: Parlamenttisampo: eduskunnan aineistojen linkitetyn avoimen datan palvelu ja sen käyttömahdollisuudet. Informaatiotutkimus, vol. 40, no. 3, pp. 216-244, November, 2021. bib pdf link
Petri Leskinen, Eero Hyvönen and Jouni Tuominen: Sparql2GraphServer: a Server-side Tool for Extracting Networks from Linked Data for Data Analysis. ISWC-Posters-Demos-Industry 2021 International Semantic Web Conference (ISWC) 2021: Posters, Demos, and Industry Tracks, CEUR Workshop Proceedings, Oct, 2021. bib pdf link
Laura Sinikallio, Senka Drobac, Minna Tamper, Rafael Leal, Mikko Koho, Jouni Tuominen, Matti La Mela and Eero Hyvönen: Plenary Debates of the Parliament of Finland as Linked Open Data and in Parla-CLARIN Markup. 3rd Conference on Language, Data and Knowledge, LDK 2021, Open Access Series in Informatics (OASIcs), vol. 93, pp. 8:1-8:17, Schloss Dagstuhl - Leibniz-Zentrum für Informatik GmbH, Zaragoza, Spain, August, 2021. bib pdf link
Eero Hyvönen: Sammon taontaa semanttisessa webissä (Forging Sampos on the Semantic Web). Tekniikan Waiheita, vol. 39, no. 2, pp. 87-105, Tekniikan Historian Seura ry, July, 2021. bib pdf link
Kimmo Kettunen and Matti La Mela: Semantic tagging and the Nordic tradition of Everyman’s rights. Digital Scholarship in the Humanities (DSH), pp. preprint, Oxford University Press, April, 2021. Accepted. bib pdf
This article uses semantic tagging to analyse the Nordic concept of everyman’s rights (a right of public access to nature) in protocols of the Finnish parliament. In the analysis, we use a novel tool, a lexical semantic tagger for Finnish (FiST), which is used to tag key discussions about everyman’s rights in the Finnish parliament. The article has two contributions: first, it presents a method which combines semantic tagging and similarity analysis of corpora (keyness) for studying the formation of political concepts in large textual data. Second, it sheds light on the Nordic access rights and the underlying customary everyman’s rights. Despite its central role in public debate, the history of the concept has not been well researched. Our analysis shows that the legislative context could be clearly detected with our approach, and that the method allowed us to describe shifts in the meaning of everyman’s rights in the legislative discussion.
Petri Leskinen, Eero Hyvönen and Jouni Tuominen: Members of Parliament in Finland Knowledge Graph and Its Linked Open Data Service. Further with Knowledge Graphs. Proceedings of the 17th International Conference on Semantic Systems, 6-9 September 2021, Amsterdam, The Netherlands, pp. 255-269, IOS Press, 2021. bib pdf link

2020

Matti La Mela: Tracing the Emergence of Nordic Allemansrätten through Digitised Parliamentary Sources. Digital histories: Emergent approaches within the new digital history (Fridlund, Mats, Oiva, Mila and Paju, Petri (eds.)), pp. 181-197, Helsinki University Press, 2020. bib pdf link
Eero Hyvönen: Semantic Sampo Portals for Digital Humanities Based on a National Linked Open Data Infrastructure. 2020. White paper, Aalto University, Semantic Computing Research Group (SeCo). bib pdf
Eero Hyvönen: Sampo Model and Semantic Portals for Digital Humanities on the Semantic Web. DHN 2020 Digital Humanities in the Nordic Countries. Proceedings of the Digital Humanities in the Nordic Countries 5th Conference, pp. 373-378, CEUR Workshop Proceedings, vol. 2612, Riga, Latvia, October, 2020. bib pdf link
Eero Hyvönen: Linked Open Data Infrastructure for Digital Humanities in Finland. DHN 2020 Digital Humanities in the Nordic Countries. Proceedings of the Digital Humanities in the Nordic Countries 5th Conference, pp. 254-259, CEUR Workshop Proceedings, vol. 2612, Riga, Latvia, October, 2020. bib pdf link
Kimmo Kettunen and Matti La Mela: Digging Deeper into the Finnish Parliamentary Protocols – Using a Lexical Semantic Tagger for Studying Meaning Change of Everyman’s Rights (allemansrätten). DHN 2020 Digital Humanities in the Nordic Countries. Proceedings of the Digital Humanities in the Nordic Countries 5th Conference, pp. 63-80, CEUR Workshop Proceedings, vol. 2612, Riga, Latvia, October, 2020. bib pdf link
Eero Hyvönen: Building and Using a National Linked Open Data Infrastructure for Digital Humanities: The Finnish Approach. Proceedings of the conferenve: Data for History 2020. Modelling Time, Places, Agents, Berlin, 2020. Accepted, conference postponed to 2021. bib pdf link
/var/www/html/include/secoweb/utils.php; Wed, 08 Feb 2023 03:38:51 +0000