![]() |
Parlamenttisampo
Eduskunta semanttisessa webissä |
![]() |
Eduskunnan aineistot avoimeksi FAIR-dataksi ja sovelluksiksi!
Eduskunnan päätöksenteon ja lainsäädäntötyön avoimuus ja aineistojen saatavuus on suomalaisen demokratian yksi perusta. Keskeinen tähän liittyvä aineisto ovat täysistuntojen pöytäkirjat niihin sisältyvine puheineen eduskunnan perustamisesta 1907 alkaen. Pöytäkirjat ovat olleet saatavilla painettuina eduskunnan kirjastosta, ja nyttemmin myös verkosta eduskunnan sivuilta skannattuina PDF-dokumentteina, HTML-sivuina tai XML-muodossa valtiopäivistä riippuen. Keskeinen haaste aineistojen käytössä on ollut, että pöytäkirja-aineisto ei ole ollut saatavilla yhtenäisessä muodossa datana eikä esimerkiksi yksittäisten puheiden haku tai puheiden ja puhujien analysointi ole ollut mahdollista. Jos käyttäjä on tiennyt, millä valtiopäivillä joku puhe on pidetty, on hän voinut esimerkiksi ladata verkosta tuhatsivuisen skannatun pöytäkirjan ja hakea sieltä puhetta ja muuta tietoa dokumenttia lukemalla. Mutta jos halutaan esimerkiksi selvittää
- kuka kansanedustaja on ensimmäisenä puhunut eduskunnassa "NATO":sta tai eniten "suomettumisesta" ja milloin? tai
- montako puhetta edustaja Veikko Vennamo on pitänyt eri aikoina? tai
- minkä puolueen edustajiin nykyeduskunnan (2022) vihreät kansaedustajat eniten viittaavat? tai
- ketkä edustajat keskeyttävät useimmin ministeri Sanna Marinin, Annika Saarikon tai Krista Kiurun puheita nykyeduskunnassa (2022)?
Semanttinen parlamentti (SEMPARL) on Suomen Akatemian rahoittaman konsortiohanke, joka tarttui tähän haasteeseen 2020-2022. Hankkeessa on ensimmäistä kertaa luotu eduskunnan kaikista lähes miljoonasta täysistuntojen puheenvuorosta ja yli 2800 eduskunnassa puhuneesta kansaedustajasta ja muista henkilöistä uudenlainen linkitetyn avoimen datan (Linked Open Data (LOD)) infrastruktuuri "Parlamenttisampo", johon kuuluu sekä 1) datapalvelu että 2) semanttinen portaalisovellus, uusi jäsen Sampo-järjestelmien sarjassa, joista käytetyimmillä (Kirjasampo ja Sotasampo) on ollut yli miljoona käyttäjää verkossa. Järjestelmän ydinaineistona ovat olleet eduskunnan täysistuntojen kaikki pöytäkirjat ja kansanedustajien tietokanta, joiden sisältöä on rikastettu muilla tietolähteillä kuten biografisella tiedolla poliitikoista. Uuden Parlamenttisampo-datapalvelun avulla hankkeessa on tutkittu kansaedustajien kieltä, puheita, verkostoja, parlamentaarista politiikkaa ja poliittista kulttuuria. Parlamenttisampo-portaali puolestaan tarjoaa julkisen avoimen verkkopalvelun tutkijoita, kansalaisia, mediaa ja valtionhallintoa varten. Parlamenttisammon vastauksia esimerkiksi edellä esitettyihin kysymyksiin löytyy tästä artikkelista: ensimmäisenä NATO:sta puhui Yrjö Enne (SKDL) 27.5.1959 ja eniten suomettuminen-sanaa on käyttänyt kokoomuksen Georg Ehrnrooth. Veikko Vennamo on ollut eduskunnan kaikkien aikojen puhujakuninhgas yli 12600 varsinaisella puheenvuorollaan ja Marjatta Stenius-Kaukonen kuningatar 2941 puheenvuorolla. Vihreät viittaavat eniten kokoomuksen ja sitten keskustapuolueen kansaedustajiin. Nykyeduskunnan (2022) ministerien puheiden aktiivisin keskeyttäjä välihuudoilla on kokoomuksen Ben Zyskovics.
Parlamenttisammolla saatuja data-analyyttisiä tutkimustuloksia aktiivisimmista puhujista on käytetty mm. Helsingin Sanomien (HS) Musta laatikko -esityksissä Kansallisteatterissa ja siihen perustuvassa artikkelissa Melkein miljoona puhetta (2022), samoin tässä HS:n jutussa Vaikka eduskunta tasa-arvoistui, miehet keskeyttävät muita puhujia yhä paljon enemmän kuin naiset (2022) eduskunnan välihuudoista ja puheiden keskeyttäjistä.
Videoita Parlamenttisammosta
Alla oleva eduskunnan esittelytilaisuudessa pidetty puhe esittelee hanketta yleisesti ja demonstroi Parlamenttisammon käyttöä:
Projektin tuloksia 10.11.2022 mennessä on esitelty tarkemmin alla olevassa videossa.
Seuraavassa videossa kerrotaan tarkemmin Parlamenttisampoon kuuluvasta poliitikkojen toimintaa kuvaavasta tietämysgraafista.
Hanke oli osa Suomen Akatemian rahoittamaa DIGIHUM 2020-2022 -ohjelmaa. Hanke liittyy myös SeCo-ryhmässä menossa olevaan työhön Suomen lainsäädännön ja oikeustapausten julkaisemiseksi avoimena linkitetyn datan palveluna Semanttinen Finlex ja loppukäyttäjien Lakisampona yhteistyössä oikeusministeriön kanssa.
Tulokset
Hankkeessa on luotu avoin kotimainen ontologia- ja tietoinfrastruktuuri eduskunnan aineistojen julkaisemiseksi ja rikastamiseksi linkitettynä avoimena datana. Aineistoja on yhdistetty mm. Lakisampoon (lainsäädäntö, oikeustapaukset, hallituksen esitykset ym.) ja Biografiasampoon (poliitikkojen elämäkerrat ja historiallisten henkilöiden verkostot). Tulos julkaistaan avoimena linkitetyn datan palveluna Linked Data Finland -alustalla. Työssä on hyödynnetty Semanttisen laskennan tutkimusryhmän (SeCo) Sampo-mallia ja -ohjelmistoja, ja työ yhdistyy laajempaan hankekokonaisuuteen LODI4DH, jonka tavoitteena on rakentaa kansallista digitaalisten ihmistieteiden linkitetyn datan tietoinfrastruktuuria.
Parlamenttisampo ja sen dataa on käytetty poliittisen kulttuurin ja kielen tutkmuksissa, joista joista löytyy tarkempaa tietoa alla kohdassa Julkaisuja. Järjestelmän avulla tehtyjä anayysejä on hyödynnetty myös mm. Helsingin Sanomien edellä kuvatuissa artikkeleissa.
Parlamenttisammon aineistojen ja portaalin julkistus 2023
Parlamenttisampo on vielä projektin sisäisessä käytössä, mutta julkaistaan yleiseen käyttöön vuoden 2023 alkupuolella osoitteessa:
https://parlamenttisampo.fi (linkki ohjautuu vielä takaisin tälle sivulle)
Parlamenttisampoon kuuluvat seuraavat osat:- Linkitetyn avoimen datan palvelu Linked Data Finland -alustalla (https://ldf.fi), joka sisältää 1) kaikki eduskunnan puheet 1907 alkaen ja 2) kaikista kansanedustajista ja muista puhujista muodostetun biografisen/prosopografisen tietämysgraafin.
- Semanttinen portaali Parlamenttisampo (https://parlamenttisampo.fi)
- Puheista erikseen muodostettu Parla-CLARIN-formaatin mukainen datajulkaisu sekä europpalaisessa ParlaMint 2 -hankkeessa tuotettu näyte uudemmista puheista ParlaMint-muodossa.
Parlamenttisampoon viittaaminen
Parlamenttisammon aineistot ja ohjelmistot ovat avoimia CC BY 4.0 -lisenssillä, vain viittaus lähteeseen tarvitaan. Parlamenttisampoon voi artikkeleissa ja tutkimuksissa viitata mm. seuraavien julkaisujen avulla.
- Parlamenttisammon idea ja käyttö: Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Matti La Mela, Jouni Tuominen, Kimmo Elo, Senka Drobac, Mikko Koho, Esko Ikkala, Minna Tamper, Rafael Leal and Joonas Kesäniemi: Finnish Parliament on the Semantic Web: Using ParliamentSampo Data Service and Semantic Portal for Studying Political Culture and Language. Digital Parliamentary data in Action (DiPaDA 2022), Workshop at the 6th Digital Humanities in Nordic and Baltic Countries Conference, long paper, CEUR Workshop Proceedings, Vol. 3133, May, 2022. pdf
- Parlamenttisammon puheiden tietämysgraafi: Laura Sinikallio, Senka Drobac, Minna Tamper, Rafael Leal, Mikko Koho, Jouni Tuominen, Matti La Mela and Eero Hyvönen: Plenary Debates of the Parliament of Finland as Linked Open Data and in Parla-CLARIN Markup. 3rd Conference on Language, Data and Knowledge, LDK 2021, Open Access Series in Informatics (OASIcs), vol. 93, pp. 8:1-8:17, Schloss Dagstuhl - Leibniz-Zentrum für Informatik GmbH, Zaragoza, Spain, August, 2021. pdf
- Parlamenttisammon kansaedustajien prosopografinen tietämysgraafi: Petri Leskinen, Eero Hyvönen and Jouni Tuominen: Members of Parliament in Finland Knowledge Graph and Its Linked Open Data Service. Further with Knowledge Graphs. Proceedings of the 17th International Conference on Semantic Systems, 6-9 September 2021, Amsterdam, The Netherlands, pp. 255-269, IOS Press, 2021. pdf
- Yleisesittely suomeksi: Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Senka Drobac, Jouni Tuominen, Kimmo Elo, Matti La Mela, Mikko Koho, Esko Ikkala, Minna Tamper, Rafael Leal and Joonas Kesäniemi: Parlamenttisampo: eduskunnan aineistojen linkitetyn avoimen datan palvelu ja sen käyttömahdollisuudet. Informaatiotutkimus, vol. 40, no. 2, November, 2021. pdf
Muita semanttisen webin "sampoja" verkossa
Semanttisen laskennan tutkimusryhmä (SeCo) on julkaissut verkossa useita digitaalisten ihmistieteiden "sampoja" tutkijoiden ja laajemman yleisön käytettäväksi:
Projektin organisaatio
Konsortiohankkeessa oli mukana kolme yliopistoa Suomen Akatemian rahoituksella.
- Helsingin yliopisto, digitaalisten ihmistieteiden keskus HELDIG. HELDIG koordinoi koko hanketta ja keskittyy omassa tutkimuksessaan mm. kieliteknologiaan ja data-analyysiin. Koko Parlamenttisampo-hanketta ja työtä Helsingin yliopiston osahankkeessa vetää prof. Eero Hyvönen Semanttisen laskennan tutkimusryhmästä (SeCo).
- Aalto-yliopisto, tietotekniikan laitos. Aalto-yliopisto keskittyy hankkeessa erityisesti semanttisen webin teknologioiden kehittämiseen sekä datapalvelun ja semanttisen portaalin toteutukseen. Aallon osuuden vetäjä on TkT, Staff Scientist Jouni Tuominen Semanttisen laskennan tutkimusryhmästä (SeCo).
- Turun yliopisto, eduskuntatutkimuksen keskus. Turun yliopiston roolina hankkeessa on eduskunnan toimintaan ja aineistoihin liittyvä tutkimus. Turun osahanketta johtaa dosentti Kimmo Elo.
Parlamenttisampo-järjestelmä ja sen aineistot on kehitetty Helsingin yliopiston (HELDIG-keskus) ja Aalto-yliopiston Semanttisen laskennan tutkimusryhmän seuraavien jäsenten toimesta:
- Eero Hyvönen (hankkeen vetäjä)
- Laura Sinikallio
- Petri Leskinen
- Senka Drobac
- Jouni Tuominen
- Matti La Mela
- Mikko Koho
- Esko Ikkala
- Minna Tamper
- Rafael Leal
Hanke tekee yhteistyötä useiden kotimaisten tahojen kuten eduskunnan ja oikeusministeriön kanssa, joiden aineistot ja toiminta muodostaa perustan koko hankkeelle. Parlamenttiaineistot ovat yksi tärkeä osa kansallista digitaalisten ihmistieteiden infrastruktuuria FIN-CLARIAH ja DARIAH-FI kehitettäessä.
Hankkeen kotimaiseen ohjausryhmään kuuluivat osahankkeiden vetäjien ohella Matti La Mela (Aalto), Ari Apilo (eduskunta), Sari Wilenius (eduskunta) ja Aki Hietanen (oikeusministeriö). Lisäksi projektilla on kansainvälinen neuvottelukunta (Advisory Board), jossa ovat mukana Dr. Laura Hollink (CWI, Centrum Wikunde & Informatica, Amsterdam), Prof. Bruno Martins (University of Lisbon) ja Prof. Andra Siibak (University of Tartu, Estonia, Institute of Social Studies).