Parlamenttisampo
Eduskunta semanttisessa webissä |
Parlamenttisammon datapalvelu ja semanttinen portaali Parlamenttisampo.fi julkistettiin 14.2.2023. Lisätietoa Parlamenttisammosta alla.
Parlamenttisampo-portaalin etusivun sovellusnäkymät puheenvuoroihin ja henkilöihin
Eduskunnan aineistot avoimeksi FAIR-dataksi ja sovelluksiksi!
Eduskunnan päätöksenteon ja lainsäädäntötyön avoimuus ja aineistojen saatavuus on suomalaisen demokratian yksi perusta. Keskeinen tähän liittyvä aineisto ovat täysistuntojen pöytäkirjat niihin sisältyvine puheineen eduskunnan perustamisesta 1907 alkaen. Pöytäkirjat ovat olleet saatavilla painettuina eduskunnan kirjastosta, ja nyttemmin myös verkosta eduskunnan sivuilta skannattuina PDF-dokumentteina, HTML-sivuina tai XML-muodossa valtiopäivistä riippuen. Keskeinen haaste aineistojen käytössä on ollut, että pöytäkirja-aineisto ei ole ollut saatavilla yhtenäisessä muodossa datana eikä esimerkiksi yksittäisten puheiden haku tai puheiden ja puhujien analysointi ole ollut mahdollista. Jos käyttäjä on tiennyt, millä valtiopäivillä joku puhe on pidetty, on hän voinut esimerkiksi ladata verkosta tuhatsivuisen skannatun pöytäkirjan ja hakea sieltä puhetta ja muuta tietoa dokumenttia lukemalla. Mutta jos halutaan esimerkiksi selvittää
- kuka kansanedustaja on ensimmäisenä puhunut eduskunnassa "NATO":sta tai eniten "suomettumisesta" ja milloin? tai
- montako puhetta edustaja Veikko Vennamo on pitänyt eri aikoina? tai
- minkä puolueen edustajiin nykyeduskunnan (2022) vihreät kansaedustajat eniten viittaavat? tai
- ketkä edustajat keskeyttävät useimmin ministeri Sanna Marinin, Annika Saarikon tai Krista Kiurun puheita nykyeduskunnassa (2022)?
Semanttinen parlamentti oli Suomen Akatemian rahoittaman konsortiohanke, joka tarttui tähän haasteeseen 2020-2022. Hankkeessa luotiin ensimmäistä kertaa eduskunnan kaikista lähes miljoonasta täysistuntojen puheenvuorosta ja yli 2800 eduskunnassa puhuneesta kansaedustajasta ja muista henkilöistä uudenlainen linkitetyn avoimen datan (Linked Open Data (LOD)) infrastruktuuri "Parlamenttisampo", johon kuuluvat sekä 1) datajulkaisut eri muodoissa, 2) datapalvelut että 2) semanttinen portaalisovellus Parlamenttisampo.fi. Se on uusi jäsen Sampo-järjestelmien sarjassa, joista käytetyimmillä (Kirjasampo.fi ja Sotasampo.fi) on ollut yli miljoona käyttäjää verkossa.
Järjestelmän ydinaineistona ovat eduskunnan täysistuntojen kaikki pöytäkirjat ja kansanedustajien tietokanta, joiden sisältöä on rikastettu muilla tietolähteillä kuten biografisella tiedolla poliitikoista valtioneuvoston verkkosivuilta, Biografiasampo.fi-palvelusta ja Wikidatasta/Wikipediasta. Uuden Parlamenttisampo-datapalvelun avulla hankkeessa tutkittiin kansaedustajien kieltä, puheita, verkostoja, parlamentaarista politiikkaa ja poliittista kulttuuria. Parlamenttisammon datapalvelu ja Parlamenttisampo.fi-portaali puolestaan tarjoavat julkisen avoimen verkkopalvelun tutkijoita, kansalaisia, mediaa ja valtionhallintoa varten. Parlamenttisammon vastauksia esimerkiksi edellä esitettyihin kysymyksiin löytyy tästä artikkelista: ensimmäisenä NATO:sta puhui Yrjö Enne (SKDL) 27.5.1959 ja eniten suomettuminen-sanaa on käyttänyt kokoomuksen Georg Ehrnrooth. Veikko Vennamo on ollut eduskunnan kaikkien aikojen puhujakuninhgas yli 12600 varsinaisella puheenvuorollaan ja Marjatta Stenius-Kaukonen kuningatar 2941 puheenvuorolla. Vihreät viittaavat eniten kokoomuksen ja sitten keskustapuolueen kansaedustajiin. Nykyeduskunnan (2022) ministerien puheiden aktiivisin keskeyttäjä välihuudoilla on kokoomuksen Ben Zyskovics.
Parlamenttisammolla saatuja data-analyyttisiä tutkimustuloksia aktiivisimmista puhujista on käytetty mm. Helsingin Sanomien (HS) Musta laatikko -esityksissä Kansallisteatterissa ja siihen perustuvassa artikkelissa Melkein miljoona puhetta (2022), samoin tässä HS:n jutussa Vaikka eduskunta tasa-arvoistui, miehet keskeyttävät muita puhujia yhä paljon enemmän kuin naiset (2022) eduskunnan välihuudoista ja puheiden keskeyttäjistä.
Videoita Parlamenttisammosta
Alla oleva eduskunnan esittelytilaisuudessa pidetty puhe esittelee hanketta yleisesti ja demonstroi Parlamenttisammon käyttöä:
Projektin tuloksia 10.11.2022 mennessä on esitelty tarkemmin alla olevassa videossa.
Seuraavassa videossa kerrotaan tarkemmin Parlamenttisampoon kuuluvasta poliitikkojen toimintaa kuvaavasta tietämysgraafista.
Lopuksi Parlamenttisammon julkistustilaisuudessa 14.2.2023 pidetty esitelmä Parlamenttisammon taustalla olevasta visiosta ja järjestelmän toteutuksesta.
Hanke oli osa Suomen Akatemian rahoittamaa DIGIHUM 2020-2022 -ohjelmaa. Hanke liittyy myös SeCo-ryhmässä menossa olevaan työhön Suomen lainsäädännön ja oikeustapausten julkaisemiseksi avoimena linkitetyn datan palveluna Semanttinen Finlex ja loppukäyttäjien Lakisampona yhteistyössä oikeusministeriön kanssa.
Tulokset
Hankkeessa on luotu avoin kotimainen ontologia- ja tietoinfrastruktuuri eduskunnan aineistojen julkaisemiseksi ja rikastamiseksi linkitettynä avoimena datana. Aineistoja on yhdistetty mm. Lakisampoon (lainsäädäntö, oikeustapaukset, hallituksen esitykset ym.) ja Biografiasampoon (poliitikkojen elämäkerrat ja historiallisten henkilöiden verkostot). Tulos julkaistaan avoimena linkitetyn datan palveluna Linked Data Finland -alustalla. Työssä on hyödynnetty Semanttisen laskennan tutkimusryhmän (SeCo) Sampo-mallia ja -ohjelmistoja, ja työ yhdistyy laajempaan hankekokonaisuuteen LODI4DH, jonka tavoitteena on rakentaa kansallista digitaalisten ihmistieteiden linkitetyn datan tietoinfrastruktuuria.
Parlamenttisampo ja sen dataa on käytetty poliittisen kulttuurin ja kielen tutkmuksissa, joista joista löytyy tarkempaa tietoa alla kohdassa Julkaisuja. Järjestelmän avulla tehtyjä anayysejä on hyödynnetty myös mm. Helsingin Sanomien edellä kuvatuissa artikkeleissa.
Parlamenttisammon aineistot ja portaali verkossa
Parlamenttisammon julkistustilaísuudessa 14.2.2023 avattiin Parlamenttisammon data, datapalvelut ja portaali kaikkien hyödynnettäviksi avoimella CC BY 4.0 lisenssillä:
- Automaattisesti päivittäin päivittyvät CSV-tiedostot puheista CSC:n Allas-datapalvelussa: https://a3s.fi/parliamentsampo/speeches/csv/index.html
- Parla-CLARIN-formaatin mukaiset XML-versiot puheista (päivittyvät verkkaisemmin): https://a3s.fi/parliamentsampo/speeches/xml/index.html.
- ParlaMint-muotoinen alikorpus yleis-eurooppalaisen ParlaMint II -hankkeen aineistosivuilla.
- CSV-tiedosto eduskunnan kansanedustajista ja muista puhujista CSC:n Allas-datapalvelussa: https://a3s.fi/parliamentsampo/actors/csv/index.html
- Puhedata yhdistettynä eduskunnan ontologiaan, toimijoihin ja muihin entiteetteihin linkitettynä datana RDF Turtle -muodossa on käytettävissä 1) Linked Data Finland -alustan aineistosivulla https://www.ldf.fi/dataset/semparl ja datadumppina Zenodo.org-datapalvelussa https://doi.org/10.5281/zenodo.7636420.
- Semanttinen portaali Parlamenttisampo.fi
Parlamenttisammon infrastruktuuristä ja sen käytöstä on laadittu ohjeeksi tämä artikkeli.
Parlamenttisampoon viittaaminen
Parlamenttisammon aineistot ja ohjelmistot ovat avoimia CC BY 4.0 -lisenssillä, vain viittaus lähteeseen tarvitaan. Parlamenttisampoon voi artikkeleissa ja tutkimuksissa viitata mm. seuraavien julkaisujen avulla, joissa on kuvattu Parlamenttisampoa eri näkökulmista.
- Kattavin kokonaisesitys Parlamenttisammosta: Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Senka Drobac, Rafael Leal, Matti La Mela, Jouni Tuominen, Henna Poikkimäki and Heikki Rantala: Publishing and Using Parliamentary Linked Data on the Semantic Web: ParliamentSampo System for Parliament of Finland. Semantic Web, January, 2024. In open review. pdf
- Parlamenttisammon idea ja käyttö: Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Matti La Mela, Jouni Tuominen, Kimmo Elo, Senka Drobac, Mikko Koho, Esko Ikkala, Minna Tamper, Rafael Leal and Joonas Kesäniemi: Finnish Parliament on the Semantic Web: Using ParliamentSampo Data Service and Semantic Portal for Studying Political Culture and Language. Digital Parliamentary data in Action (DiPaDA 2022), Workshop at the 6th Digital Humanities in Nordic and Baltic Countries Conference, long paper, CEUR Workshop Proceedings, Vol. 3133, May, 2022. pdf
- Parlamenttisammon datapalvelut: Eero Hyvönen, Petri Leskinen, Laura Sinikallio, Matti La Mela, Jouni Tuominen, Senka Drobac, Henna Poikkimäki and Heikki Rantala: ParliamentSampo Infrastructure for Publishing the Plenary Speeches and Networks of Politicians of the Parliament of Finland as Open Data Service. Aalto University and University of Helsinki (HELDIG), February, 2023. pdf.
- Parlamenttisammon puheiden tietämysgraafi: Laura Sinikallio, Senka Drobac, Minna Tamper, Rafael Leal, Mikko Koho, Jouni Tuominen, Matti La Mela and Eero Hyvönen: Plenary Debates of the Parliament of Finland as Linked Open Data and in Parla-CLARIN Markup. 3rd Conference on Language, Data and Knowledge, LDK 2021, Open Access Series in Informatics (OASIcs), vol. 93, pp. 8:1-8:17, Schloss Dagstuhl - Leibniz-Zentrum für Informatik GmbH, Zaragoza, Spain, August, 2021. pdf
- Parlamenttisammon kansaedustajien prosopografinen tietämysgraafi: Petri Leskinen, Eero Hyvönen and Jouni Tuominen: Members of Parliament in Finland Knowledge Graph and Its Linked Open Data Service. Further with Knowledge Graphs. Proceedings of the 17th International Conference on Semantic Systems, 6-9 September 2021, Amsterdam, The Netherlands, pp. 255-269, IOS Press, 2021. pdf
- Yleisesittely suomeksi: Eero Hyvönen, Laura Sinikallio, Petri Leskinen, Senka Drobac, Jouni Tuominen, Kimmo Elo, Matti La Mela, Mikko Koho, Esko Ikkala, Minna Tamper, Rafael Leal and Joonas Kesäniemi: Parlamenttisampo: eduskunnan aineistojen linkitetyn avoimen datan palvelu ja sen käyttömahdollisuudet. Informaatiotutkimus, vol. 40, no. 2, November, 2021. pdf
Kun viittaat Parlamenttisammon aineistoihin, niin datan lähteeksi voi merkitä esimerkiksi viitteen [1] yllä, ja Parlamenttisampo.fi-palvelun verkkosivuihin voi viitata URL-osoitteiden avulla.
Muita semanttisen webin "sampoja" verkossa
Semanttisen laskennan tutkimusryhmä (SeCo) on julkaissut verkossa useita digitaalisten ihmistieteiden "sampoja" tutkijoiden ja laajemman yleisön käytettäväksi:
Projektin organisaatio
Konsortiohankkeessa oli mukana kolme yliopistoa Suomen Akatemian rahoituksella.
- Helsingin yliopisto, digitaalisten ihmistieteiden keskus HELDIG. HELDIG koordinoi koko hanketta ja keskittyy omassa tutkimuksessaan mm. kieliteknologiaan ja data-analyysiin. Koko Parlamenttisampo-hanketta ja työtä Helsingin yliopiston osahankkeessa veti prof. Eero Hyvönen Semanttisen laskennan tutkimusryhmästä (SeCo).
- Aalto-yliopisto, tietotekniikan laitos. Aalto-yliopisto keskittyy hankkeessa erityisesti semanttisen webin teknologioiden kehittämiseen sekä datapalvelun ja semanttisen portaalin toteutukseen. Aallon osuuden vetäjä oli TkT, Staff Scientist Jouni Tuominen Semanttisen laskennan tutkimusryhmästä (SeCo).
- Turun yliopisto, eduskuntatutkimuksen keskus. Turun yliopiston roolina hankkeessa on eduskunnan toimintaan ja aineistoihin liittyvä tutkimus. Turun osahanketta johti dosentti Kimmo Elo.
Parlamenttisampo-järjestelmä ja sen aineistot on kehitetty Helsingin yliopiston (HELDIG-keskus) ja Aalto-yliopiston Semanttisen laskennan tutkimusryhmän seuraavien jäsenten toimesta:
- Eero Hyvönen (hankkeen vetäjä)
- Laura Sinikallio
- Petri Leskinen
- Senka Drobac
- Jouni Tuominen
- Matti La Mela
- Mikko Koho
- Esko Ikkala
- Minna Tamper
- Rafael Leal
- Heikki Rantala
Työ Parlamenttisammon parissa jatkuu osana kansallisista Suomen Akatemian rahoittamaa tutkimusinfrastruktuuriohjelmaa FIN-CLARIAH ja DARIAH-FI; eduskunnan ja oikeusministeriön ovat yksi tärkeä osa kansallista digitaalisten ihmistieteiden infrastruktuuria.
Hankkeen kotimaiseen ohjausryhmään kuuluivat osahankkeiden vetäjien ohella Matti La Mela (Aalto), Ari Apilo (eduskunta), Sari Wilenius (eduskunta) ja Akhttps://www.hs.fi/politiikka/art-2000008690904.htmli Hietanen (oikeusministeriö). Lisäksi projektilla on kansainvälinen neuvottelukunta (Advisory Board), jossa ovat mukana Dr. Laura Hollink (CWI, Centrum Wikunde & Informatica, Amsterdam), Prof. Bruno Martins (University of Lisbon) ja Prof. Andra Siibak (University of Tartu, Estonia, Institute of Social Studies).
Parlamenttisammolla saatuja data-analyyttisiä tutkimustuloksia aktiivisimmista puhujista on käytetty mm. Helsingin Sanomien (HS) Musta laatikko -esityksissä Kansallisteatterissa ja siihen perustuvassa artikkelissa Melkein miljoona puhetta (2022), samoin tässä HS:n jutussa Vaikka eduskunta tasa-arvoistui, miehet keskeyttävät muita puhujia yhä paljon enemmän kuin naiset (2022) eduskunnan välihuudoista ja puheiden keskeyttäjistä.Uutisia Parlamenttisammosta mediassa
- YLE:n uutinen 14.2.2023
- Aalto-yliopiston uutinen 14.2.2023
- Tietoviikko-lehden uutinen 14.2.2023
- Uusi Suomi -uutinen 14.2.2023
- Tieteessä tapahtuu 16.2.2023