Henkilötietoja sisältävien asiakirjojen automaattinen anonymisointi ja sisällönkuvailu |
In English using Google Translate
Ratkaistava haaste
Julkisen sektorin eri toimijat tuottavat valtavia määriä tietoaineistoja ja dataa, jonka saaminen avoimesti muiden viranomaisten, yritysten ja kansalaisten käyttöön olisi hyödyllistä, mutta se ei ole mahdollista tietoon liittyvien tietosuojakysymysten takia. Esimerkiksi terveysalalla potilaiden hoitotietojen saatavuus mahdollistaisi hoitoketjujen data-analyysin sekä auttaisi uusien tapausten hoidossa. Vastaavasti julkishallinnon päätösten tai oikeustapausten paremmalla saatavuudella on merkitystä viranomaiskäytännön tai lainkäytön tutkimuksen ja aiempien tapausten hyödyntämisessä uusien asioiden käsittelyssä.
Kansalaisten ja yritysten kannalta hallinnon päätösten ja oikeustapausten avoin saatavuus parantaisi olennaisesti koko hallinnon ja oikeusjärjestelmän läpinäkyvyyttä sekä kansalaisten oikeusturvaa. Haaste on erityisen ajankohtainen juuri nyt, kun uutta EU:n tietosuoja-asetusta sovelletaan 25.5.2018 alkaen ja verkossa on monia henkilötietoa sisältäviä aineistoja, joita uuden lainsäädännön mukaan ei saisi julkaista. Tämä koskee esimerkiksi verkossa julkaistavia oikeustapauksia, viranomaispäätöksiä ja muita hallinnon asiakirjoja, joissa ei jatkossa saa julkaista henkilötietoja. Hankkeen aihe liittyy myös aktiiviseen omadata (MyData) -keskusteluun Suomessa. Omadata henkilötiedon hallinnan ja käsittelyn periaatteena korostaa yksilöiden mahdollisuutta hallinnoida ja päättää heistä kerätyn henkilötiedon (kuten esim. ostostiedot, terveystiedot ym.) luovuttamisesta eteenpäin. Mikäli henkilöön liittyvä omadata voidaan helpolla tavalla anonymisoida, omadatan luovuttamiseen ei liity nykyisen kaltaisia riskejä.
EU:n tietosuoja-asetuksessa (asetus (EU) 2016/679) viitataan useassa eri kohdassa henkilötietojen suojaamisen yhteydessä tiedon anonymisointiin, joka tarkoittaa henkilötiedon tunnistettavuuden poistamista siten, että yhdistäminen yksittäiseen henkilöön ei enää ole mahdollista. Lisäksi asetuksessa tuetaan pseudonymisoinnin käyttöönottoa henkilötietoja käsittelevissä organisaatioissa (eli henkilötietojen käsittelemistä siten, että henkilötietoja ei voida enää yhdistää tiettyyn rekisteröityyn käyttämättä lisätietoja). EU-asetuksen mukaan pseudonymisoinnin soveltaminen henkilötietoihin voi vähentää asianomaisiin rekisteröityihin kohdistuvia riskejä sekä auttaa rekisterinpitäjiä ja henkilötietojen käsittelijöitä noudattamaan tietosuojavelvoitteitaan.
Anonymisointi
ANOPPI-hankkeessa on kyse tekstidokumenteissa olevien nimettyjen entiteettien (henkilöt ja organsatiot, paikat jne) anonymisoinnista datan avointa käyttöä ja julkaisemista varten. Henkilötietojen suojaamiseen ja yksityisyyden suojaan liittyvät ongelmat voidaan ratkaista pseudonymisoimalla tai anonymisoimalla avoimesti julkaistavaa dataa. Esimerkiksi henkilöiden nimet korvataan systemaattisesti neutraaleilla nimillä, kuten ”Henkilö A”.
Anonymisointi on asiantuntemusta vaativaa kallista käsityötä ja aineistot ovat usein erittäin laajoja. Hankkeessa tarkastellaan viranomaisaineistoista erityisesti tuomioistuinten ratkaisuaineistoja, joilla on monilla tavoin vaikutusta kansalaisiin ja yrityksiin. Käräjäoikeudet antavat vuosittain lähes puoli miljoonaa ratkaisua, mutta niitä julkaistaan verkossa vain harvoin. Hovioikeudet antavat vuosittain noin 9 500 ratkaisua, mutta niistä julkaistaan verkossa hovioikeuksien kotisivuilla ja Finlexissä vain noin 50 ratkaisua. Korkein oikeus antaa vuosittain noin 140 valituslupaa, joten suurimmassa osassa hovioikeuksien käsittelemistä asioista hovioikeuden ratkaisu jää lopulliseksi. Korkein oikeus anonymisoi antamansa ennakkopäätökset, joita on vuosittain noin sata.
Oikeusministeriön keväällä 2018 teettämän testitutkimuksen mukaan yhden korkeimman oikeuden tapauksen anonymisointiin kului lähes puoli tuntia tehollista työaikaa. Hallinto-oikeuksien ratkaisukäytäntöön kohdistuu julkista mielenkiintoa etenkin turvapaikkapäätösten osalta, mutta hallinto-oikeuksien noin 20 000 vuotuisesta ratkaisusta julkaistaan verkkosivuilla vain noin sata. Keskeisenä esteenä ratkaisujen laajemmalle julkaisemiselle on anonymisoinnin vaatimat henkilöresurssit ja käytännön työvälineiden puuttuminen. Verkossa julkaistavien ratkaisujen pieni määrä vaikuttaa siihen, että kansalaisten ja yritysten saatavilla olevat ratkaisuaineistot eivät ole kovin edustava otos tuomioistuinten ratkaisutoiminnasta.
Automaattinen annotointi
Anonymisointi edellyttää tekstissä viitattavien käsitteiden tunnistamista. Sama ongelma tulee vastaan kuvattaessa tekstuaalisten dokumenttien sisältöjä datan indeksoinnissa eli ns. annotoinnissa entiteettejä tunnistamalla. Sisältöjen semanttinen kuvailu on keskeinen edellytys kehitettäessä aineistoille älykkäitä haku- ja selailukäyttöliittymiä sekä sovelluksia. Anonymisoinnin tapaan sisällönkuvailu on nykyisin hidasta ja kallista käsityövaltaista työtä ja aineistot laajoja, joten prosessin automatisoinnilla on saavutettavissa merkittäviä säästöjä. Tekoälyä hyödyntävien sovellusten osalta on tärkeää todeta, että sovellusten kykyyn oppia vaikuttaa tiedon määrän lisäksi tiedon laatu ja sen metatiedot. Laatu paranee, kun tiedot ovat rakenteisia ja niissä on laadukkaat metatiedot. Automaattisen annotoinnin sovellukset ovat keskeisiä osasia tiedon hallinnassa - sanastojen, ontologioiden ja koodistojen merkitys kasvaa, kun siirrytään tekoälyä hyödyntäviin sovelluksiin.
Kehitettävät työkalut ANOPPI ja APPI
Hankkeessa toteutetaan kaksi kieliteknologiseen tekoälyyn perustuvaa työkalua, joiden avulla julkisen sektorin dokumenttien anonymisointia ja sisällönkuvailua voidaan tehostaa olennaisesti automatisoimalla. Molemmat työkalut voivat oppimalla tuoda esiin ja piilottaa tietoa asiakirjoista. Kohdeaineistona ovat tuomioistuinratkaisut (käräjäoikeuksien, hovioikeuksien ja korkeimman oikeuden ratkaisut) sekä oikeusministeriön tekemät valtionavustuspäätökset. Työkaluja voidaan kuitenkin soveltaa vastaavalla tavalla muillakin julkishallinnon alueilla, kuten terveydenhuollossa, sosiaalitoimessa, verohallinnossa ja eri alojen hallinnollisissa päätöksissä. Kunnallishallinnossa anonymisointityökalua voidaan hyödyntää mm. kaupunkien ja kuntien eri toimielinten päätösaineistojen verkkojulkaisemisessa.
Hankkeessa toteutettava oppiva anonymisointityökalu ANOPPI kykenee automaattisesti tunnistamaan ja merkkaamaan anonymisoinnin kannalta keskeiset ilmaukset dokumentissa ja näiden väliset yhteydet, esimerkiksi eri tavoin tehdyt viittaukset samaan henkilöön. Analyysin perusteella työkalu tarjoaa anonymisoijalle valmiin ehdotuksen anonymisoidusta dokumentista sekä joustavat välineet ehdotuksessa mahdollisesti vielä tarvittavien muutosten tekemiseksi.
Tässä työssä tarvittava kieli- ja semanttisen laskennan teknologia tunnistaa tekstidokumentissa olevia käsitteellisiä viittauksia henkilöihin, organisaatioihin, paikkoihin ja muihin tietoihin. Samaa teknistä ratkaisua ja ohjelmistoja voidaan käyttää yhtä hyvin myös aineistojen automaattiseen sisällönkuvailuun, jossa etsitään dokumentista sen sisällön kannalta keskeisiä käsitteitä. Tällainen oppiva automaattinen annotointi järjestelmä APPI mahdollistaa dokumenttien älykkään haun ja linkityksen muihin aineistoihin, esimerkiksi oikeustapausten yhdistämisen toisiin vastaaviin tapauksiin ja niihin liittyvään lainsäädäntöön. Oikeustapauksen sisällönkuvailu esimerkiksi tuomioistuinten asianhallintajärjestelmissä (Ritu, Sakari, Tuomas, jne.), muiden viranomaisten asianhallinnassa ja Finlex-järjestelmässä on samalla tavalla kallista käsityötä kuin anonymisointikin ja on nykyisin siksi hyvin niukkaa ja puutteellista. Vajavainen sisällönkuvailu heikentää tiedon löydettävyyttä ja tiedon hyödyntämistä. Automaattinen sisällönkuvailu onkin anonymisoinnin ohella toinen keskeinen haaste viranomaisaineistojen ja oikeustapausten julkaisemisessa ja hyödyntämisessä verkossa Semanttisen Finlexin (data.finlex.fi) kaltaisena datapalveluna ja toisaalta loppukäyttäjille tarkoitettuina sovelluksina.
Projektiorganisaatio
ANOPPI on oikeusministeriön kehityshanke, joka toteutetaan yhteistyössä Aalto-yliopiston, Helsingin yliopiston (digitaalisten ihmistieteiden keskus HELDIG) ja Edita Publishing Oy:n kanssa.
Yhteystiedot Aallossa/HELDIG:ssä
Prof., johtaja Eero Hyvönen, Aalto-yliopisto, Semanttisen laskennan tutkimusryhmä (SeCo) ja Helsingin yliopisto, HELDIG - Helsinki Centre for Digital Humanities
TkT Jouni Tuominen, HELDIG
Tohtorikoulutettava Minna Tamper, Aalto-yliopisto ja HELDIG
Sami Sarsa, Aalto-yliopisto ja Helsingin yliopisto