Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Open data, Wikipedia en crowdsourcing voor ondergrondse kranten uit WO2 - Historicidagen, Utrecht, 25-08-2017

453 views

Published on

Tijdens de Tweede Wereldoorlog zijn er naar schatting zo’n 1.300 illegale kranten uitgegeven door het Nederlandse verzet.

Meteen na de oorlog zijn zoveel mogelijk van deze bladen verzameld en bewaard door het Nederlandse Instituut voor Oorlogsdocumentatie (NIOD). Deze uitgaven werden beschreven in formele bibliotheekcatalogi, die sinds de jaren ’90 ook online te raadplegen zijn. In 2010 werd in het kader van het programma ‘Erfgoed van de Oorlog’ de nationale collectie verzetskranten gedigitaliseerd, zo’n 200.000 pagina’s. Alle kranten zijn momenteel op woordniveau doorzoekbaar in Delpher, het nationale platform voor historische full-text kranten, boeken en tijdschriften.

Naast de online beschikbare metadata en full-text content ontbrak echter nog de derde pilaar: context. Hierdoor was het voor mensen erg moeilijk om de verzetskranten in Delpher in het juiste cultureel-historische perspectief te plaatsen en was het onnodig ingewikkeld om onderzoek te doen naar/met dit materiaal.

De Koninklijke Bibliotheek, het NIOD en Wikimedia Nederland hebben recent een project opgezet om dit context-probleem op te lossen.

We zijn begonnen om geautomatiseerd contextuele informatie te extraheren uit “De Ondergrondse Pers 1940-1945 “, een papieren standaardwerk over verzetsbladen. We hebben deze data gecombineerd met informatie uit bibliotheekcatalogi en Delpher tot een centrale, open database met verzetskrantengegevens, een RDF triple store.

Vervolgens hebben we links gelegd tussen gerelateerde verzetsbladen en hebben Named Entity Recognition-technieken gebruikt om de met de kranten verbonden personen, organisaties en plaatsen op te sporen. We hebben deze database verder verrijkt m.b.v. DBPedia.

Uit deze centrale verzetskrantendatabase hebben we m.b.v. een sjabloon uniforme en onderling gekoppelde Wikipedia-artikelen gegenereerd . Tenslotte hebben we een samenwerking opgezet met vrijwilligers uit de Nederlandse Wikipedia-gemeenschap om deze automatisch aangemaakte artikelen handmatig verder uit te breiden.

Op die manier geven we elke verzetskrant een eigen artikel op Wikipedia, waardoor dit stuk van onze oorlogsgeschiedenis veel zichtbaarder wordt voor de Nederlandse bevolking; 80% van hen leest immers Wikipedia.

------------------------

Deze presentatie gaf ik tijdens de Historicidagen (https://historicidagen.sites.uu.nl/) op 25-08-2017 in Utrecht, als onderdeel van de sessie "'De ijsberg zichtbaar maken" - zie https://www.slideshare.net/Oorlogsbronnen/historicidagen-2017-collectieontsluiting-next-level-de-ijsberg-zichtbaar-maken

Published in: Education
  • Be the first to comment

  • Be the first to like this

Open data, Wikipedia en crowdsourcing voor ondergrondse kranten uit WO2 - Historicidagen, Utrecht, 25-08-2017

  1. 1. Open data, Wikipedia en crowdsourcing voor ondergrondse kranten uit WO2 Olaf Janssen, Koninklijke Bibliotheek Historicidagen 2017, Utrecht, 25 augustus olaf.janssen@kb.nl - @ookgezellig - slideshare.net/OlafJanssenNL
  2. 2. http://www.4en5meiamsterdam.nl/attachment/47454
  3. 3. Tijdens WO2 zijn veel verzetsbladen uitgegeven In allerlei soorten en maten… http://www.4en5meiamsterdam.nl/attachment/47454
  4. 4. http://resolver.kb.nl/resolve?urn=ddd:010436323 http://resolver.kb.nl/resolve?urn=ddd:010442948 http://resolver.kb.nl/resolve?urn=ddd:010447825 http://resolver.kb.nl/resolve?urn=ddd:010450508 Van de grote bekende titels (o.a. Parool, Vrij Nederland, Trouw, de Waarheid)
  5. 5. tot hele kleine onbekende eenmalige uitgaven… (pamfletten, 1-2 velletjes)
  6. 6. Na de oorlog heeft het NIOD ± 1.300 titels verzameld, bewaard… https://commons.wikimedia.org/wiki/File:Verzetskrant_in_archiefdozen_bij_het_NIOD.jpg – CC-BY-SA - OlafJanssen
  7. 7. http://opac-gonext.oclc.org:8180/DB=8/XMLPRS=Y/PPN?PPN=107123223 .. en in bibliotheekcatalogi beschreven. (1.300 titels) Bibliografische metadata Illegale studentenkrant uit Den Haag/Leiden
  8. 8. In 2010 zijn deze ondergrondse kranten gedigitaliseerd…..
  9. 9. www.delpher.nl/kranten …en staan nu in Delpher. (1.300 titels) Verzamelplaats voor historische full-text • Kranten • Boeken • Tijdschriften
  10. 10. Dus ook De Geus onder studenten http://www.delpher.nl/nl/kranten/results?coll=dddtitel&cql[]=ppn+any+(107123223)
  11. 11. Op Delpher kun je deze krant lezen en op woordniveau (full-text) doorzoeken…
  12. 12. Maar stel, ik wil meer over deze krant weten • Wat voor soort verzetskrant was De Geus? • Wat is de geschiedenis van deze krant? • Wie werkten aan de krant? • Waar werd deze krant gedrukt? • Hoe werd De Geus verspreid? • Waren er relaties met andere verzetskranten/groepen? • Etc…
  13. 13. Maar stel, ik wil meer over deze krant weten • Wat voor soort verzetskrant was De Geus? • Wat is de geschiedenis van deze krant? • Wie werkten aan de krant? • Waar werd deze krant gedrukt? • Hoe werd De Geus verspreid? • Waren er relaties met andere verzetskranten/groepen? • Etc…
  14. 14. Maar stel, ik wil meer over deze krant weten • Wat voor soort verzetskrant was De Geus? • Wat is de geschiedenis van deze krant? • Wie werkten aan de krant? • Waar werd deze krant gedrukt? • Hoe werd De Geus verspreid? • Waren er relaties met andere verzetskranten/groepen? • Etc… De antwoorden vindt je niet op Delpher!
  15. 15. Gebrek in Delpher: Geen contextuele informatie over illegale kranten https://thejungleisneutral.files.wordpress.com/2013/11/lost.jpg
  16. 16. Waar zouden veel mensen die meer over De Geus willen weten, eerst gaan kijken? Wikipedia zeer vermoedelijk! (via Google)
  17. 17. Waar zouden veel mensen die meer over De Geus willen weten, eerst gaan kijken? Wikipedia zeer vermoedelijk! (via Google)
  18. 18. http://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad) Waar zouden veel mensen die meer over De Geus willen weten, eerst gaan kijken? Wikipedia zeer vermoedelijk! (via Google)
  19. 19. http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg
  20. 20. http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg
  21. 21. http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg Informatie over Nederlandse ondergrondse kranten was verspreid over verschillende, ongekoppelde bronnen 1. Beschrijvingen (metadata in bieb-cat, 1.300 titels) 2. Content (full-text in Delpher, 1.300 titels) 3. Context (in Wikipedia…. althans... )
  22. 22. http://2.bp.blogspot.com/_BWzuYwiS6-I/TMgeRsFd3mI/AAAAAAAAElw/3cvgbZSPWcs/s1600/doctor+macro+judy+scared.jpg Informatie over Nederlandse ondergrondse kranten was verspreid over verschillende, ongekoppelde bronnen 1. Beschrijvingen (metadata in bieb-cat, 1.300 titels) 2. Content (full-texts in Delpher, 1.300 titels) 3. Context (in Wikipedia…. althans... )
  23. 23. Dit Wikipedia-artikel is een zorgvuldig gekozen uitzondering
  24. 24. https://nl.wikipedia.org/wiki/Categorie:Illegale_pers_in_de_Tweede_Wereldoorlog 1. Er zijn maar weinig ondergrondse kranten met een eigen WP-artikel 2. Het overzicht van deze kranten op Wikipedia is (erg) incompleet <<< 1.300 titels
  25. 25. We hebben beide problemen aangepakt!
  26. 26. Wikiproject Verzetskranten “op Wikipedia systematisch en uniform beschrijven van alle ± 1.300 Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven” tinyurl.com/verzetskranten
  27. 27. Wikiproject Verzetskranten “op Wikipedia systematisch en uniform beschrijven van alle ± 1.300 Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven” tinyurl.com/verzetskranten Groot publieksbereik
  28. 28. https://thejungleisneutral.files.wordpress.com/2013/11/lost.jpg We hadden dringend behoefte aan contextuele info over de kranten. Hoe kwamen we daaraan? De Ondergrondse Pers 1940-1945 Lydia E. Winkel, H. de Vries , 1989 Bevat beschrijvingen van vrijwel alle 1.300 ondergrondse kranten uit WO2
  29. 29. Lemma 199 – De Geus; (onder studenten)
  30. 30. Metadata
  31. 31. Uniek ID
  32. 32. Plaats van uitgave Krantentitel Plaats van uitgave
  33. 33. Contextuele informatie Ruw materiaal voor Wikipedia-artikel
  34. 34. Bij deze krant betrokken personen Krantentitel  Personen
  35. 35. IDs van gerelateerde kranten Deze krantentitel Andere titels
  36. 36. We hebben dit boek gescand en als PDF met vrije licentie online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF)
  37. 37. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrije licentie (CC-BY-SA) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  38. 38. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  39. 39. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  40. 40. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsens  externe bronnen
  41. 41. We hebben dit boek geOCRed + als PDF onder CC-BY-SA online gezet http://www.niod.nl/nl/de-ondergrondse-pers-1940-1945 (PDF) Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsen  externe bronnen
  42. 42. Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels  bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsen  externe bronnen Database-expert Gerard Kuys
  43. 43. Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels  bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsen  externe bronnen
  44. 44. VIAF
  45. 45. Beschikbaar online (PDF, platte file) Vrij voor hergebruik (CC-BY-SA licentie) --------------------------------------------------- Converteer PDF naar database Koppel: titels  plaatsen, personen, andere titels Koppel: titels bieb-cat (metadata) en Delpher (full-text) Koppel: titels, personen & plaatsen  externe bronnen
  46. 46. Zomer 2016 - Unieke database  Eerste keer dat data over verzetskranten systematisch online bijeengebracht en gekoppeld is! https://www.pinterest.com/freethewronged/world-war-ii/
  47. 47. Wikiproject Verzetskranten “op Wikipedia systematisch en uniform beschrijven van alle ± 1.300 Nederlandse verzetskranten die tijdens WO2 zijn uitgegeven”
  48. 48. https://c1.staticflickr.com/9/8281/7699231918_11a7356c38_b.jpg We hebben dus een database met informatie over 1.300 verzetskranten M.b.v. een artikelsjabloon kunnen we vervolgens systematisch uniforme WP-artikelen gaan genereren
  49. 49. We hebben dus een database met informatie over 1.300 verzetskranten M.b.v. een artikelsjabloon kunnen we vervolgens systematisch uniforme WP-artikelbeginnetjes genereren https://c1.staticflickr.com/9/8281/7699231918_11a7356c38_b.jpg
  50. 50. Database + sjabloon = WP-artikelbeginnetje
  51. 51. https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad)
  52. 52. Grijs = Wikipedia artikelbeginnetje Automatisch uit database gegenereerd m.b.v. sjabloon
  53. 53. https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad) Niet-grijs = Wikipedia artikelbeginnetje Automatisch uit database gegenereerd m.b.v. sjabloon
  54. 54. Dit is handmatig toegevoegd om van het beginnetje een volwaardig artikel te maken  Crowdsourcing door Nederlandse Wikipedia-gemeenschap https://nl.wikipedia.org/wiki/De_Geus_onder_studenten_(verzetsblad)
  55. 55. Wikipedia-vrijwilligers breiden de 1.300 beginnetjes uit… …en maken langzaam maar zeker steeds meer volwaardige artikelen. Door Sebastiaan ter Burg [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons
  56. 56. Vóór het project
  57. 57. Stapje voor stapje…
  58. 58. … Nederlanders weer wat wijzer & blijer! http://www.formerdays.com/2011/05/dutch-liberation.html
  59. 59. Vielen Dank! olaf.janssen@kb.nl - @ookgezellig tinyurl.com/verzetskranten

×