ANOPPI - Henkilötietoja sisältävien asiakirjojen automaattinen anonymisointi ja sisällönkuvailu

Henkilötietoja sisältävien asiakirjojen automaattinen anonymisointi ja sisällönkuvailu

Ratkaistava haaste

Julkisen sektorin eri toimijat tuottavat valtavia määriä tietoaineistoja ja dataa, jonka saaminen avoimesti muiden viranomaisten, yritysten ja kansalaisten käyttöön olisi hyödyllistä, mutta se ei ole mahdollista tietoon liittyvien tietosuojakysymysten takia. Esimerkiksi terveysalalla potilaiden hoitotietojen saatavuus mahdollistaisi hoitoketjujen data-analyysin sekä auttaisi uusien tapausten hoidossa. Vastaavasti julkishallinnon päätösten tai oikeustapausten paremmalla saatavuudella on merkitystä viranomaiskäytännön tai lainkäytön tutkimuksen ja aiempien tapausten hyödyntämisessä uusien asioiden käsittelyssä.

Kansalaisten ja yritysten kannalta hallinnon päätösten ja oikeustapausten avoin saatavuus parantaisi olennaisesti koko hallinnon ja oikeusjärjestelmän läpinäkyvyyttä sekä kansalaisten oikeusturvaa. Haaste on erityisen ajankohtainen juuri nyt, kun uutta EU:n tietosuoja-asetusta sovelletaan 25.5.2018 alkaen ja verkossa on monia henkilötietoa sisältäviä aineistoja, joita uuden lainsäädännön mukaan ei saisi julkaista. Tämä koskee esimerkiksi verkossa julkaistavia oikeustapauksia, viranomaispäätöksiä ja muita hallinnon asiakirjoja, joissa ei jatkossa saa julkaista henkilötietoja. Hankkeen aihe liittyy myös aktiiviseen omadata (MyData) -keskusteluun Suomessa. Omadata henkilötiedon hallinnan ja käsittelyn periaatteena korostaa yksilöiden mahdollisuutta hallinnoida ja päättää heistä kerätyn henkilötiedon (kuten esim. ostostiedot, terveystiedot ym.) luovuttamisesta eteenpäin. Mikäli henkilöön liittyvä omadata voidaan helpolla tavalla anonymisoida, omadatan luovuttamiseen ei liity nykyisen kaltaisia riskejä.

EU:n tietosuoja-asetuksessa (asetus (EU) 2016/679) viitataan useassa eri kohdassa henkilötietojen suojaamisen yhteydessä tiedon anonymisointiin, joka tarkoittaa henkilötiedon tunnistettavuuden poistamista siten, että yhdistäminen yksittäiseen henkilöön ei enää ole mahdollista. Lisäksi asetuksessa tuetaan pseudonymisoinnin käyttöönottoa henkilötietoja käsittelevissä organisaatioissa (eli henkilötietojen käsittelemistä siten, että henkilötietoja ei voida enää yhdistää tiettyyn rekisteröityyn käyttämättä lisätietoja). EU-asetuksen mukaan pseudonymisoinnin soveltaminen henkilötietoihin voi vähentää asianomaisiin rekisteröityihin kohdistuvia riskejä sekä auttaa rekisterinpitäjiä ja henkilötietojen käsittelijöitä noudattamaan tietosuojavelvoitteitaan.

Anonymisointi

ANOPPI-hankkeessa on kyse tekstidokumenteissa olevien nimettyjen entiteettien (henkilöt ja organsatiot, paikat jne) anonymisoinnista datan avointa käyttöä ja julkaisemista varten. Henkilötietojen suojaamiseen ja yksityisyyden suojaan liittyvät ongelmat voidaan ratkaista pseudonymisoimalla tai anonymisoimalla avoimesti julkaistavaa dataa. Esimerkiksi henkilöiden nimet korvataan systemaattisesti neutraaleilla nimillä, kuten ”Henkilö A”.

Anonymisointi on asiantuntemusta vaativaa kallista käsityötä ja aineistot ovat usein erittäin laajoja. Hankkeessa tarkastellaan viranomaisaineistoista erityisesti tuomioistuinten ratkaisuaineistoja, joilla on monilla tavoin vaikutusta kansalaisiin ja yrityksiin. Käräjäoikeudet antavat vuosittain lähes puoli miljoonaa ratkaisua, mutta niitä julkaistaan verkossa vain harvoin. Hovioikeudet antavat vuosittain noin 9 500 ratkaisua, mutta niistä julkaistaan verkossa hovioikeuksien kotisivuilla ja Finlexissä vain noin 50 ratkaisua. Korkein oikeus antaa vuosittain noin 140 valituslupaa, joten suurimmassa osassa hovioikeuksien käsittelemistä asioista hovioikeuden ratkaisu jää lopulliseksi. Korkein oikeus anonymisoi antamansa ennakkopäätökset, joita on vuosittain noin sata.

Oikeusministeriön keväällä 2018 teettämän testitutkimuksen mukaan yhden korkeimman oikeuden tapauksen anonymisointiin kului lähes puoli tuntia tehollista työaikaa. Hallinto-oikeuksien ratkaisukäytäntöön kohdistuu julkista mielenkiintoa etenkin turvapaikkapäätösten osalta, mutta hallinto-oikeuksien noin 20 000 vuotuisesta ratkaisusta julkaistaan verkkosivuilla vain noin sata. Keskeisenä esteenä ratkaisujen laajemmalle julkaisemiselle on anonymisoinnin vaatimat henkilöresurssit ja käytännön työvälineiden puuttuminen. Verkossa julkaistavien ratkaisujen pieni määrä vaikuttaa siihen, että kansalaisten ja yritysten saatavilla olevat ratkaisuaineistot eivät ole kovin edustava otos tuomioistuinten ratkaisutoiminnasta.

Automaattinen annotointi

Anonymisointi edellyttää tekstissä viitattavien käsitteiden tunnistamista. Sama ongelma tulee vastaan kuvattaessa tekstuaalisten dokumenttien sisältöjä datan indeksoinnissa eli ns. annotoinnissa entiteettejä tunnistamalla. Sisältöjen semanttinen kuvailu on keskeinen edellytys kehitettäessä aineistoille älykkäitä haku- ja selailukäyttöliittymiä sekä sovelluksia. Anonymisoinnin tapaan sisällönkuvailu on nykyisin hidasta ja kallista käsityövaltaista työtä ja aineistot laajoja, joten prosessin automatisoinnilla on saavutettavissa merkittäviä säästöjä. Tekoälyä hyödyntävien sovellusten osalta on tärkeää todeta, että sovellusten kykyyn oppia vaikuttaa tiedon määrän lisäksi tiedon laatu ja sen metatiedot. Laatu paranee, kun tiedot ovat rakenteisia ja niissä on laadukkaat metatiedot. Automaattisen annotoinnin sovellukset ovat keskeisiä osasia tiedon hallinnassa - sanastojen, ontologioiden ja koodistojen merkitys kasvaa, kun siirrytään tekoälyä hyödyntäviin sovelluksiin.

Kehitettävät työkalut ANOPPI ja APPI

Hankkeessa toteutetaan kaksi kieliteknologiseen tekoälyyn perustuvaa työkalua, joiden avulla julkisen sektorin dokumenttien anonymisointia ja sisällönkuvailua voidaan tehostaa olennaisesti automatisoimalla. Molemmat työkalut voivat oppimalla tuoda esiin ja piilottaa tietoa asiakirjoista. Kohdeaineistona ovat tuomioistuinratkaisut (käräjäoikeuksien, hovioikeuksien ja korkeimman oikeuden ratkaisut) sekä oikeusministeriön tekemät valtionavustuspäätökset. Työkaluja voidaan kuitenkin soveltaa vastaavalla tavalla muillakin julkishallinnon alueilla, kuten terveydenhuollossa, sosiaalitoimessa, verohallinnossa ja eri alojen hallinnollisissa päätöksissä. Kunnallishallinnossa anonymisointityökalua voidaan hyödyntää mm. kaupunkien ja kuntien eri toimielinten päätösaineistojen verkkojulkaisemisessa.

Hankkeessa toteutettava oppiva anonymisointityökalu ANOPPI kykenee automaattisesti tunnistamaan ja merkkaamaan anonymisoinnin kannalta keskeiset ilmaukset dokumentissa ja näiden väliset yhteydet, esimerkiksi eri tavoin tehdyt viittaukset samaan henkilöön. Analyysin perusteella työkalu tarjoaa anonymisoijalle valmiin ehdotuksen anonymisoidusta dokumentista sekä joustavat välineet ehdotuksessa mahdollisesti vielä tarvittavien muutosten tekemiseksi.

Tässä työssä tarvittava kieli- ja semanttisen laskennan teknologia tunnistaa tekstidokumentissa olevia käsitteellisiä viittauksia henkilöihin, organisaatioihin, paikkoihin ja muihin tietoihin. Samaa teknistä ratkaisua ja ohjelmistoja voidaan käyttää yhtä hyvin myös aineistojen automaattiseen sisällönkuvailuun, jossa etsitään dokumentista sen sisällön kannalta keskeisiä käsitteitä. Tällainen oppiva automaattinen annotointi järjestelmä APPI mahdollistaa dokumenttien älykkään haun ja linkityksen muihin aineistoihin, esimerkiksi oikeustapausten yhdistämisen toisiin vastaaviin tapauksiin ja niihin liittyvään lainsäädäntöön. Oikeustapauksen sisällönkuvailu esimerkiksi tuomioistuinten asianhallintajärjestelmissä (Ritu, Sakari, Tuomas, jne.), muiden viranomaisten asianhallinnassa ja Finlex-järjestelmässä on samalla tavalla kallista käsityötä kuin anonymisointikin ja on nykyisin siksi hyvin niukkaa ja puutteellista. Vajavainen sisällönkuvailu heikentää tiedon löydettävyyttä ja tiedon hyödyntämistä. Automaattinen sisällönkuvailu onkin anonymisoinnin ohella toinen keskeinen haaste viranomaisaineistojen ja oikeustapausten julkaisemisessa ja hyödyntämisessä verkossa Semanttisen Finlexin (data.finlex.fi) kaltaisena datapalveluna ja toisaalta loppukäyttäjille tarkoitettuina sovelluksina.

Projektiorganisaatio

ANOPPI on oikeusministeriön kehityshanke, joka toteutetaan yhteistyössä Aalto-yliopiston, Helsingin yliopiston (digitaalisten ihmistieteiden keskus HELDIG) ja Edita Publishing Oy:n kanssa.

Yhteystiedot Aallossa/HELDIG:ssä

Prof., johtaja Eero Hyvönen, Aalto-yliopisto, Semanttisen laskennan tutkimusryhmä (SeCo) ja Helsingin yliopisto, HELDIG - Helsinki Centre for Digital Humanities

TkT Jouni Tuominen, HELDIG

Tohtorikoulutettava Minna Tamper, Aalto-yliopisto ja HELDIG

Sami Sarsa, Aalto-yliopisto ja Helsingin yliopisto

Tutkimusryhmän julkaisuja projektiin liittyen

2022

Eero Hyvönen, Minna Tamper, Esko Ikkala, Mikko Koho, Rafael Leal, Joonas Kesäniemi, Arttu Oksanen, Jouni Tuominen and Aki Hietanen: LawSampo Portal and Data Service for Publishing and Using Legislation and Case Law as Linked Open Data on the Semantic Web. AI4LEGAL-KGSUM 2022: Artificial Intelligence Technologies for Legal Documents and Knowledge Graph Summarization 2022, vol. 3257, pp. 41-50, CEUR Workshop Proceedings, August, 2022. bib pdf link

Arttu Oksanen, Eero Hyvönen, Minna Tamper, Jouni Tuominen, Henna Ylimaa, Katja Löytynoja, Matti Kokkonen and Aki Hietanen: An Anonymization Tool for Open Data Publication of Legal Documents. AI4LEGAL-KGSUM 2022: Artificial Intelligence Technologies for Legal Documents and Knowledge Graph Summarization 2022, vol. 3257, pp. 12-21, CEUR Workshop Proceedings, August, 2022. bib pdf link

Arttu Oksanen, Minna Tamper, Jouni Tuominen, Aki Hietanen and Eero Hyvönen: A Tool for Pseudonymization of Textual Documents for Digital Humanities Research and Publication. 6th Digital Humanities in Nordic and Baltic Countries Conference, poster paper, book of abstracts, pp. 107-108, March, 2022. bib pdf link

2021

Rafael Leal, Joonas Kesäniemi, Mikko Koho and Eero Hyvönen: Relevance Feedback Search Based on Automatic Annotation and Classification of Texts. 3rd Conference on Language, Data and Knowledge (LDK 2021) (Dagmar Gromann, Gilles Sérasset, Thierry Declerck, John P. McCrae, Jorge Gracia, Julia Bosque-Gil, Fernando Bobillo and Barbara Heinisch (eds.)), Open Access Series in Informatics (OASIcs), vol. 93, pp. 18:1-18:15, Schloss Dagstuhl - Leibniz-Zentrum für Informatik, 2021. bib pdf link

2020

Minna Tamper, Arttu Oksanen, Jouni Tuominen, Aki Hietanen and Eero Hyvönen: Automatic Annotation Service APPI: Named Entity Linking in Legal Domain. The Semantic Web: ESWC 2020 Satellite Events (Harth, Andreas, Presutti, Valentina, Troncy, Raphaël, Acosta, Maribel, Polleres, Axel, Fernández, Javier D., Xavier Parreira, Josiane, Hartig, Olaf, Hose, Katja and Cochez, Michael (eds.)), Lecture Notes in Computer Science, vol. 12124, pp. 208-213, Springer-Verlag, 2020. bib pdf link

Sami Sarsa and Eero Hyvönen: Searching Case Law Judgements by Using Other Judgements as a Query. Artificial Intelligence and Natural Language. 9th Conference, AINL 2020, Helsinki, Finland, October 7–9, 2020 (Filchenkov A., Kauttonen J. and Pivovarova L. (eds.)), pp. 145-157, Springer-Verlag, 2020. bib pdf link

Eero Hyvönen, Minna Tamper, Esko Ikkala, Sami Sarsa, Arttu Oksanen, Jouni Tuominen and Aki Hietanen: Publishing and Using Legislation and Case Law as Linked Open Data on the Semantic Web. The Semantic Web: ESWC 2020 Satellite Events (Harth, Andreas, Presutti, Valentina, Troncy, Raphaël, Acosta, Maribel, Polleres, Axel, Fernández, Javier D., Xavier Parreira, Josiane, Hartig, Olaf, Hose, Katja and Cochez, Michael (eds.)), Lecture Notes in Computer Science, vol. 12124, pp. 110-114, Springer-Verlag, 2020. bib pdf link

Rafael Leal: Unsupervised zero-shot classification of Finnish documents using pre-trained language models. (in English), University of Helsinki, Department of Digital Humanities, Helsinki Centre for Digital Humanities (HELDIG), December, 2020. MSc Thesis. bib pdf link

Minna Tamper, Petri Leskinen, Jouni Tuominen and Eero Hyvönen: Modeling and Publishing Finnish Person Names as a Linked Open Data Ontology. 3rd Workshop on Humanities in the Semantic Web (WHiSe 2020), pp. 3-14, CEUR Workshop Proceedings, vol. 2695, June, 2020. bib pdf link

2019

Arttu Oksanen, Minna Tamper, Jouni Tuominen, Aki Hietanen and Eero Hyvönen: Anoppi: A Pseudonymization Service for Finnish Court Documents. Legal Knowledge and Information Systems. JURIX 2019: The Thirty-second Annual Conference (Araszkiewicz, M. and Rodríguez-Doncel, V. (eds.)), pp. 251-254, IOS Press, December, 2019. bib pdf link

Eero Hyvönen, Minna Tamper, Esko Ikkala, Sami Sarsa, Arttu Oksanen, Jouni Tuominen and Aki Hietanen: LawSampo: A Semantic Portal on a Linked Open Data Service for Finnish Legislation and Case Law. September, 2019. Submitted. bib pdf

Minna Tamper, Arttu Oksanen, Jouni Tuominen, Aki Hietanen and Eero Hyvönen: Automatic Annotation Service: Utilizing a Named Entity Linking Tool in Legal Domain. September, 2019. Submitted. bib pdf

Sami Sarsa: Information Retrieval with Finnish Case Law Embeddings. MSc Thesis (in Finnish), University of Helsinki, Department of Computer Science, August, 2019. bib pdf link