» back to normal layout
Sotasampo:
Talvi- ja jatkosota semanttisessa webissä

Tavoitteena historian ymmärtäminen

G. W. F. Hegelin mukaan historia opettaa meille, että emme opi historiasta mitään. Toivottavasti näin ei tapahdu Suomessa toisen maailmansodan osalta, johon liittyvät asiat ovat taas olleet esillä mm. Ukrainan kriisin yhteydessä. Itsenäisyytemme ajan sotahistoria, erityisesti talvi- ja jatkosota, ovat 100-vuotisjuhliinsa valmistautuvan Suomen kansallisen identiteetin ja maanpuolustustahdon keskeinen tukipilari ja laajaa kiinnostusta herättävä historian tutkimuskohde. Sotasampo-hankkeen tavoitteena on rakentaa suomalaista identiteettiä lisäämällä ymmärrystämme viime sodistamme ja edistää näin rauhaa. Työ on jatkoa SeCo-ryhmän aiemmalle tutkimukselle historiallisen tiedon julkaisemiseksi semanttisessa webissä.

Sotasampo sai kesällä 2017 Venetsiassa kansainvälisen LODLAM Technical Challenge -palkinnon (Open Data Prize).

Kuva 1: Mäkiluodon tykeillä ammutaan Hangon taisteluissa 1942, Puolustusvoimien SA-kuva-arkisto

Sotahistoriallisen tiedon julkaiseminen linkitettynä avoimena datana

Tavoitteeseen pyritään uusimman semanttisen web-teknologian avulla luomalla ja julkaisemalla Suomen toisen maailmansodan historiallisista aineistoista ns. linkitetty avoin datapilvi (Linked Open Data Cloud). Data julkaistaan toiminnallisena Linked Data -verkkopalveluna, joka palvelee sotahistoriaan liittyvien sovellusten kehittäjiä avoimien rajapintojen ja työkalujen avulla. Palvelua testataan joukolla pilottisovelluksia. Syntyvä kokonaisuus, jo verkossa oleva palvelu Sotasampo.fi, palvelee näin sekä historiasta kiinnostuneita kansalaisia ja tutkijoita että sotahistoriallisia aineistoja hyödyntävien verkkopalveluiden kehittäjiä. Julkaisunsa jälkeen Sotasampo.fi-portaalille ilmaantui parissa päivässä yli kymmenen tuhatta käyttäjää - se on esimerkki semanttisen webin käytännön sovellusmahdollisuuksista.

Sotasampo on jatkoa Aalto-yliopistossa aiemmin kehitetyille Kulttuurisampo-, Kirjasampo- ja Matkailusampo-piloteille. Uusina teknistieteellisinä tutkimushaasteina ovat mm. aineistojen automaattinen ontologinen sisällönkuvailu (automatic annotation) sekä datan linkitykseen, laatuun, analyysiin ja visualisointiin liittyvät kysymykset.

Sotasampo koostuu kahdesta palvelusta:

  1. Avoimen linkitetyn datan palvelusta SeCo-ryhmän Linked Data Finland -palvelussa. Se on tarkoitettu sovellusten kehittäjien käytettäväksi.
  2. Sotasampo.fi portaaista loppukäyttäjille. Se on toteutettu suoraan em. datapalvelun rajapintojen päälle yhtenä demonstraationa palvelun hyödyntämisestä.

Datapalvelu verkossa

Sotasampo-järjestelmä perustuu webin infrastruktuuria koordinoivan W3C-järjestön Linked Data -standardeihin ja -periaatteisiin. Työn toisena lähtökohtana on FinnONTO-hankkeen (2003-2012) visio avoimesta, kansallisesta tietoinfrastruktuurista verkossa osana kansainvälistä semanttisen webin kehitystä. Ideana on tuottaa ja julkaista avointa tietoa yhteisöllisesti yhteentoimivalla tavalla siten, että kertaalleen tuotettua tietoa ei tarvitse tuottaa moneen kertaan eri organisaatioiden toimesta ja että yhden julkaisijan tietoa voidaan rikastaa automaattisesti toisten julkaisijoiden tiedoilla. Tiedon tuottamista, julkaisemista ja uudelleenkäyttöä tuetaan verkkopalveluiden avulla. Sotasampo on osa Aalto-yliopiston vetämää Linked Data Finland -työtä ja käyttää hyväksi FinnONTO:ssa luotua ontologiainfrastruktuuria, Linked Data Finland -julkaisualustaa ja sen työkaluja. Sotasammon aineistot on julkaistu avoimella CC BY -lisenssillä, ja ne ovat käytettävissä dokumentaatioineen osoitteessa http://www.ldf.fi/dataset/warsa.

Pilottisovellus verkossa

Kokeile Sotasammon pilottipalvelua osoitteessa http://www.sotasampo.fi, jonka ensimmäinen versio julkaistiin 9.11.2015, ja joka otettiin Living Laboratory -käyttöön Kansallisarkiston juhlasalissa pidetyssä julkistustilaisuudessa 27.11.2015.

Katso englanninkielinen Sotasampo-projektin ja -portaalin esittelyvideo:

Alla olevat videot opastavat tarkemmin Sotasammon eri näkymien käytössä:

Yhteistyöverkosto ja aineistot

Sotasampo-verkostossa on sen alkuvaiheessa tunnistettu mm. seuraavia yhteistyötahoja, joilla on runsaasti sotiimme liittyviä ja keskenään linkittyviä aineistoja:

Sotasammon ensimmäisen pilottiversion Linked Data Finland -datapalvelussa olevat aineistot on lueteltu kuvassa 2. Lisäksi dataa rikastetaan Sotasammon ulkopuolisten datojen kautta, kuten elämäkertatiedolla Semanttisesta Kansallisbiografiasta (6300 lyhyttä elämäkertaa semanttisena verkkona) ja Wikipedian/DBpedian tiedoilla. Data on kaikkien hyödynnettävissä avoimella lisenssillä sitä mukaa, kun tämä tieto datasta julkaistaan datan kotisivulla LDF.fi-palvelussa.

Kuva 2: Sotasammon ensimmäisen version aineistoja Linked Data Finland -palvelussa. Dataa avataan kaikkien käyttöön sitä mukaan, kun data valmistuu ja käyttöehdot varmistuvat. Lisäksi hyödynnetään ulkopuolisia datapalveluita.

Tarkempi Sotasammon kuvaus

Tarkempi kuvaus Sotasammon ideasta ja sen toteutuksesta on esitetty erillisessä artikkelissa (PDF).

Järjestelmää on esitelty kansainvälisissä tapahtumissa, esimerkiksi näillä esitelmäkalvoilla Amsterdamissa 2016 - Alankomaissa käynnistyi 2016 vastaavanlainen laaja kansallinen hanke.

Tarkin kuvaus Sotasammosta löytyy alla olevista julkaisuista, kuten tästä Extended Semantic Web Conference 2016 -konferenssin (ESWC 2016) artikkelista.

Työ käynnistyi 2014

Sotasampo-hanke käynnistyi kesällä 2014 ensimmäisenä pilottia Kansallisarkiston tietokannat, Puolustusvoimien kuva-aineistot sekä Kansa taisteli -lehdet. Työtä on tarkoitus laajentaa sille saatavan rahoituksen ja avattavaksi saatavien aineistojen mukaan. Hankekokonaisuutta vetävässä Aalto-yliopiston Semanttisen laskennan tutkimusryhmässä on menossa myös kansainvälistä Linked Data -tutkimusta ensimmäisestä maailmansodasta mm. Coloradon yliopiston kanssa.

Mukaan Suomi 100 -ohjelmaan ja ATT-hankkeeseen

Vuonna 2015 hanke sai rahoitusta 2015-2016 osana opetus- ja kulttuuriministeriön rahoittamaa Avoin tiede ja tutkimus -ohjelmaa. Hanke valittiin myös mukaan valtioneuvoston kanslian Suomen itsenäisyyden satavuotisjuhlavuoden 2017 ohjelmaan. Historiallisiin paikkoihin ja karttoihin liittyvää kehitystyötä tukee Suomen kulttuurirahasto (ks. projektimme Historiallisten paikkojen ontologiapalvelu) ja Wikidata Finland.

Sotasampo lehdistössä

Aalto-uutiset: Dataa, joka liikuttaa, 28.12.2015.

Jari Mäkinen: Sotasampo on tietoteknisesti ja sotahistoriallisesti jännittävä uutuus. Tiedetuubi, 4.1.2016.

Sotasampo oli yksi suomalaisista ehdotuksista EU Prize of Cultural Heritage / Europa Nostra Award -palkinnon saajaksi.

Sotasampo voitti LODLAM 2017 -konferenssin Open Data -palkinnon.

Video

"WarSampo Data Service and Semantic Portal for Publishing Linked Open Data about the Second World War History". Esitelmä ESWC-2016 konferenssissa (Lähde: Videolectures.net).

Yhteistyöverkoston laajentaminen

Sotasampo varten on perustettu avoin Facebook-ryhmä Sotasampo, johon voi liittyä vapaasti.

Mikäli olet kiinnostunut osallistumaan hankkeeseen tavalla tai toisella, ota yhteyttä.

Yhteyshenkilö

Prof. Eero Hyvönen,
Aalto-yliopisto ja Helsingin yliopisto, HELDIG - Helsinki Centre for Digital Humanities


Julkaisuja

year: other

Petri Leskinen, Mikko Koho, Erkki Heino, Minna Tamper, Esko Ikkala, Jouni Tuominen, Eetu Mäkelä and Eero Hyvönen: Modeling and Using an Actor Ontology of Second WorldWar Military Units and Personnel. Submitted. bib pdf
This paper presents a model for representing historical military personnel and army units, based on large datasets aboutWorldWar II in Finland. The model is in use inWarSampo data service and semantic portal, which has had tens of thousands of distinct visitors. A key challenge here is how to represent ontological changes, since the ranks and units of military personnel, as well as the names and structures of army units change rapidly in wars. This leads to serious problems in both search as well as data linking due to ambiguity and homonymy of names. In our solution, actors are represented in terms of the events they participated in, which facilitates disambiguation of persons and units in different spatio-temporal contexts. The linked data in the WarSampo Linked Open Data cloud and service has ca. 9 million triples, including actor datasets of ca. 100 000 soldiers and ca. 16 100 army units. To test the model in practice, an application for semantic search and recommending based on data linking was created, where the spatio-temporal life stories of individual soldiers can be reassembled dynamically by linking data from different datasets. An evaluation is presented showing promising results in terms of linking precision.
Mikko Koho, Erkki Heino, Petri Leskinen, Minna Tamper, Esko Ikkala, Eetu Mäkelä, Jouni Tuominen and Eero Hyvönen: Linked Open Data and Ontology Infrastructure for Second World War History. Submitted. bib pdf
Data about the Second World War (WW2) is heterogeneous and distributed in different organizations and countries. This paper argues that in order to create aggregated global views of the war, a shared semantic infrastructure is needed, including data models of the real world events, metadata schemas for presenting their documentation, a data harmonization model for data aggregation, and shared domain ontologies for populating the schemas in an interoperable way. As a solution, a Linked Open Data service is presented for publishing data about Finland in WW2. The service is based on W3C Semantic Web standards and best practices, including content negotiation, SPARQL API, download, automatic documentation, and other services supporting re-use of the data. The ontologies and data in the service, totalling ca. 9 million triples, is in use in seven end-user applications of the WarSampo portal, that have had tens of thousands of end-users.

2017

Eero Hyvönen: Cultural Heritage Linked Data on the Semantic Web: Three Case Studies Using the Sampo Model. 2017. Submitted for publication. bib pdf
A major challenge in publishing linked Cultural Heritage (CH) collections on the web is interoperability. This is due to the heterogeneity of CH contents and the distributed content creation model where publishers focus on their own data with little consideration on the others’ data. As a solution approach, the “Sampo” model is presented based on using domain independent modeling standards, on a model for aligning metadata models, and on sharing domain ontologies for populating the matadata models. The harmonized data is published for machines as a linked data service, to be used by applications for human users. To illustrate and evaluate the model, three online systems on the Web, Culture- Sampo, BookSampo, and WarSampo are presented.
Minna Tamper, Petri Leskinen, Esko Ikkala, Arttu Oksanen, Eetu Mäkelä, Erkki Heino, Jouni Tuominen, Mikko Koho and Eero Hyvönen: AATOS – a Configurable Tool for Automatic Annotation. Proceedings, Language, Technology and Knowledge 2017. June 19-20, Galway, Ireland, Springer-Verlag, February, 2017. Accepted. bib pdf link
This paper presents an automatic annotation tool AATOS for providing documents with semantic annotations. The tool links entities found from the texts to ontologies defined by the user. The application is highly configurable and can be used with different natural language Finnish texts. The application was developed as a part of WarSampo and Semantic Finlex projects and tested using Kansa Taisteli magazine articles and consolidated Finnish legislation of Semantic Finlex. The quality of the automatic annotation was evaluated by measuring precision and recall against existing manual annotations. The results showed that the quality of the input text, as well as the selection and configuration of the ontologies impacted the results.
Erkki Heino, Minna Tamper, Eetu Mäkelä, Petri Leskinen, Esko Ikkala, Jouni Tuominen, Mikko Koho and Eero Hyvönen: Named Entity Linking in a Complex Domain: Case Second World War History. Proceedings, Language, Technology and Knowledge 2017. June 19-20, Galway, Ireland, Springer-Verlag, February, 2017. Accepted. bib pdf link
This paper discusses the challenges of applying named entity linking in a rich, complex domain – specifically, the linking of 1) military units, 2) places and 3) people in the context of rich Second World War data. Multiple sub-scenarios are discussed in detail through concrete evaluations, analyzing the problems faced, and the solutions developed. A key contribution of this work is to highlight the heterogeneity of problems and approaches needed even inside a single domain, depending on both the source data as well as the target authority.
Eero Hyvönen, Erkki Heino, Petri Leskinen, Esko Ikkala, Mikko Koho, Minna Tamper, Jouni Tuominen and Eetu Mäkelä: WarSampo: Publishing and Using Linked Open Data about the Second World War. EuropeanaTech Insight, Europeana, 2017. Forth-coming. bib pdf
The article overviews the system WarSampo – Finnish World War 2 on the Semantic Web, the winner of the LODLAM Challenge 2017 Open Data Prize on June 29 in Venice, Italy.

2016

Minna Tamper: Extraction of Entities and Concepts from Finnish Texts. MSc Thesis (in English), Aalto University, School of Science, Degree Programme in Computer Science and Engineering, Dec, 2016. bib pdf
Keywords are used in many document databases to improve search. The process of assigning keywords from controlled vocabularies to a document is called subject indexing. If the controlled vocabulary used for indexing is an ontology, with semantic relations and descriptions of concepts, the process is also called semantic annotation. In this thesis an automatic annotation tool was created to provide the documents with semantic annotations. The application links entities found from the texts to ontologies defined by the user. The application is highly configurable and can be used with different Finnish texts. The application was developed as a part of WarSampo and Semantic Finlex projects and tested using Kansa Taisteli magazine articles and consolidated legislation of Finnish legislation. The quality of the automatic annotation was evaluated by measuring precision and recall against existing manual annotations. The results showed that the quality of the input text, as well as the selection and configuration of the ontologies impacted the results.
Petri Leskinen: Sotilashenkilöiden ja joukko-osastojen mallintaminen ja käyttö toimijaontologiana. MSc Thesis (in Finnish), Aalto University, School of Science, Degree Programme in Computer Science and Engineering, Dec, 2016. bib pdf
Toimijaontologia mallintaa henkilöitä ja henkilöryhmiä linkitetyssä avoimessa datassa. Toimijaontologiamallin tarkoitus on mahdollistaa eri lähteiden aineistojen kokoaminen yhteen ja sen julkaisu yhdenmukaisessa formaatissa, jotta tietoa voidaan hyödyntää niin digitaalisten ihmistieteiden tutkimuksessa kuin tarjoamalla käyttöliittymiä aineiston selaamiseen visuaalisessa muodossa. Laadittu ontologia noudattaa toimija–tapahtuma-mallia. Siinä toimija mallinnetaan häneen liittyvien elämäkerrallisten tapahtumien summana. Ratkaisujen perustana käytettiin CIDOC CRM -standardia, millä haluttiin taata mallin helppo laajennettavuus sekä noudattaa kulttuurihistorialliselle datalle yhdenmukaista julkaisukäytäntöä. Työ on tehty osana laajempaa Sotasampo-projektia, johon kerättiin kattava tietokanta toisen maailmansodan aikaista aineistoa Suomen osalta. Oma osuuteni tässä työssä oli toimijaontologiamallin laatiminen sekä sen populointi sotilashenkilöillä ja -osastoilla. Aineisto on julkaistu avoimena datana (http://www.ldf.fi/dataset/warsa) ja on selattavissa Sotasampo-portaalissa (http://www.sotasampo.fi).
Esko Ikkala: Suomalainen historiallisten paikkojen ja karttojen ontologiapalvelu. MSc Thesis (in Finnish), Aalto University, School of Electrical Engineering, Degree Programme of Automation and Systems Technology, August, 2016. bib pdf
Historiallinen paikkatieto on keskeisessä asemassa muistiorganisaatioiden kokoelmien hallinnassa ja hyödyntämisessä sekä digitaalisten ihmistieteiden tutkimuksessa. Paikkatiedon käsitteleminen muissa kuin erikoistuneissa paikkatietojärjestelmissä sekä paikkatiedon ajallinen ulottuvuus tuovat mukanaan lukuisia haasteita, joihin linkitetyn datan teknologiat ovat tarjonneet lupaavia ratkaisuja. Tässä työssä esitellään kulttuurialan organisaatioiden tarpeeseen kehitetty uusi linkitetyn datan teknologioihin perustuva historiallisten paikkojen ja karttojen palvelumalli, HIPLA. HIPLA-palvelumallin tavoitteena on tarjota yhteinen näkymä eri organisaatioiden hallinnoimaan paikkatietoon ja mahdollistaa hajautettujen paikkatietoaineistojen yhteisöllinen täydentäminen, haku ja selailu sekä nykyisillä että historiallisilla kartoilla. Lisäksi työssä toteutettiin HIPLA-palvelumallin etuja havainnollistava prototyyppisovellus Hipla.fi, jota pilotoitiin osana talvi- ja jatkosodan aineistoja linkitettynä avoimena datana julkaisevaa Sotasampo-projektia. Pilotoinnin tuloksena syntyi talvi- ja jatkosodan paikkaontologia, joka tarjoaa työkalun sotiin liittyvien aineistojen automaattiselle linkitykselle ja aineistojen maantieteelliselle visualisoimiselle.
Eero Hyvönen, Erkki Heino, Petri Leskinen, Esko Ikkala, Mikko Koho, Minna Tamper, Jouni Tuominen and Eetu Mäkelä: Publishing Second World War History as Linked Data Events on the Semantic Web. Proceedings of Digital Humanities 2016, short papers, pp. 571-573, Kraków, Poland, July, 2016. bib pdf link
Data about wars is typically heterogeneous, distributed in the data silos of the fighting parties, multilingual, and often controversial depending on the political point of view. It is therefore hard for the historians to get a global picture of what has actually happened, to whom, where, when, and how. We argue that Semantic Web and Linked Data technologies are a very promising approach for modeling, harmonizing, and aggregating data about war history. Our goal is to make it possible, for both historians and laymen, to study history in a contextualized way where linked datasets enrich each other. The paper presents the in-use WarSampo 1 system, where massive collections of heterogeneous data about the (Finnish) history of the Second World War are harmonized using an event-based approach, and provided as a Linked Open Data service for applications to use. As a use case, a semantic portal WarSampo providing six different perspectives to the war based on events is presented.
Mikko Koho, Eero Hyvönen, Erkki Heino, Jouni Tuominen, Petri Leskinen and Eetu Mäkelä: Linked Death - Representing, Publishing, and Using Second World War Death Records as Linked Open Data. The Semantic Web: ESWC 2016 Satellite Events (Harald Sack, Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer and Christoph Lange (eds.)), Springer-Verlag, June, 2016. bib pdf
War history of the Second World War (WW2), humankind’s largest disaster, is of great interest to both laymen and researchers. Most of us have ancestors and relatives who participated in the war, and in the worst case got killed. Researchers are eager to find out what actually happened then, and even more importantly why, so that future wars could perhaps be prevented. The darkest data of war history are casualty records—from such data we could perhaps learn most about the war. This paper presents a model and system for representing death records as linked data, so that 1) citizens could find out more easily what happened to their relatives during WW2 and 2) digital humanities (DH) researchers could (re)use the data easily for research.
Mikko Koho, Eero Hyvönen, Erkki Heino, Jouni Tuominen, Petri Leskinen and Eetu Mäkelä: Linked Death - Representing, Publishing, and Using Second World War Death Records as Linked Open Data. Proceedings of the 1st Workshop on Humanities in the Semantic Web (WHiSe), CEUR Workshop Proceedings, Heraklion, Crete, Greece, May, 2016. Vol 1608. bib pdf link
War history of the Second World War (WW2), humankind s largest disaster, is of great interest to both laymen and researchers. Most of us have ancestors and relatives who participated in the war, and in the worst case got killed. Researchers are eager to find out what actually happened then, and even more importantly why, so that future wars could perhaps be prevented. The darkest data of war history are casualty records---from such data we could perhaps learn most about the war. This paper presents a model and system for representing death records as linked data, so that 1) citizens could find out more easily what happened to their relatives during WW2 and 2) digital humanities (DH) researchers could (re)use the data easily for research.
Eero Hyvönen, Erkki Heino, Petri Leskinen, Esko Ikkala, Mikko Koho, Minna Tamper, Jouni Tuominen and Eetu Mäkelä: WarSampo Data Service and Semantic Portal for Publishing Linked Open Data about the Second World War History. The Semantic Web – Latest Advances and New Domains (ESWC 2016) (Harald Sack, Eva Blomqvist, Mathieu d Aquin, Chiara Ghidini, Simone Paolo Ponzetto and Christoph Lange (eds.)), Springer-Verlag, May, 2016. bib pdf
This paper presents the WarSampo system for publishing collections of heterogeneous, distributed data about the Second World War on the Semantic Web. WarSampo is based on harmonizing massive datasets using event-based modeling, which makes it possible to enrich datasets semantically with each others’ contents. WarSampo has two components: First, a Linked Open Data (LOD) service WarSampo Data for Digital Humanities (DH) research and for creating applications related to war history. Second, a semanticWarSampo Portal has been created to test and demonstrate the usability of the data service. The WarSampo Portal allows both historians and laymen to study war history and destinies of their family members in the war from different interlinked perspectives. Published in November 2015, theWarSampo Portal had some 20,000 distinct visitors during the first three days, showing that the public has a great interest in this kind of applications.

2015

Eero Hyvönen, Jouni Tuominen, Eetu Mäkelä, Jérémie Dutruit, Kasper Apajalahti, Erkki Heino, Petri Leskinen and Esko Ikkala: Second World War on the Semantic Web: The WarSampo Project and Semantic Portal. Proceedings of the ISWC 2015 Posters & Demonstrations Track, CEUR-WS Proceedings, Bethlehem, PA, USA, October, 2015. Vol 1486. bib pdf link
This paper initiates and fosters work on publishing Linked Open Data about the Second World War. It is argued that the heterogeneous, distributed data about the international world war history makes a promising use case for semantic technologies. We hope that by making war data openly available we can learn from the past and promote peace.

Events and presentations

2015

Sotasampo: julkistus ja esittelytilaisuus. (in Finnish), Kansallisarkisto, Rauhankatu 17, juhlasali, November 27, 2015. bib html
/m/fs/seco/www/www.seco.tkk.fi/include/secoweb/utils.php; Mon, 21 Aug 2017 04:01:39 +0300