Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018

17 views

Published on

New digital technology allows us to improve access to textual resources. In this session you will get a glimpse behind the scenes of two projects currently exploring new, fully or semi-automated ways to make archives searchable and create datasets for re-use.

De sessie 'Digging into archives' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.

Met Anne Gorter (project manager Dutch National Archives), Edwin Klijn (project manager Netwerk Oorlogsbronnen + projectleider TRIADO), Rutger van Koert (developer HuygensING / KNAW Humanities Cluster) en Marten Düring (member Scientific Advisory Committee TRIADO, University of Luxembourg.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018

  1. 1. Netwerkdag Oorlogsbronnen, 15 november 2018 Workshop: digging into archives
  2. 2. Programma • Tribunaalarchieven als Digitale Onderzoeksfaciliteit (TRIADO) * Anne Gorter (Nationaal Archief), over het Centraal Archief Bijzondere Rechtspleging * Edwin Klijn (NOB), over het pilotproject TRIADO * Rutger van Koert (Huygens ING/KNAW HUC), over nieuwe technologie om archiefcollecties te ontsluiten • IMPRESSO. Mining 200 years of newspapers * Marten Düring (Scientific Advisory Committee TRIADO, C2DH)
  3. 3. Confusion matrix Ground truth Topic modelling Stratified random sampling Named Entity Recognition Auto-classificatieAuto-clustering Recall Precision Optical Character Recognition Keyword spotting Data mining Entity disambiguation Sift search Convnets
  4. 4. TRIADO: van laboratorium naar ‘reality check’ • Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk Oorlogsbronnen • Steekproef uit Centraal Archief Bijzondere Rechtspleging • 2017-2019 • Budget 5 ton, KNAW Onderzoeksfonds
  5. 5. Onderzoeksvragen 1. Welke digitale methoden zijn het meest geschikt om grote corpora van ongestructureerde, imperfecte data geschikt te maken als onderzoeksfaciliteit? [GENERIEK DEEL] 2. Is het mogelijk op basis van de gekozen ontsluitingssystematiek antwoord te geven op specifieke, vooral kwantitatief-statistische wetenschappelijke onderzoeksvragen? [SPECIFIEK DEEL]
  6. 6. Metadata Tekst Beeld Audio/video Full-content Vindbaar………………………………………………………………Bruikbaar
  7. 7. Belangrijkste resultaten • Plan voor massadigitaliseringsworkflow CABR. • Wetenschappelijke publicaties over digitale methodologie en toegepast onderzoek • Zoeksysteem dat het mogelijk maakt om op de ‘wie, wat, waar en wanneer’ door de data van de steekproef te zoeken.
  8. 8. Anne Gorter (Nationaal Archief)
  9. 9. NOB Netwerkdag 15-11-2018
  10. 10. Het Centraal Archief Bijzondere Rechtspleging Een korte geschiedenis
  11. 11. • Regering in Londen • Besluiten • Besluit Bijzonder Strafrecht • Besluit op de Bijzondere Gerechtshoven • Besluit Buitengewone Rechtspleging • Bijzondere Gratie-adviesbesluit • Tribunaal Besluit Wettelijke basis
  12. 12. Instellingen • Opsporingsdiensten Politieke opsporingsdienst, Politieke Recherche Afdeling, Politieke Recherche Afdeling Collaboratie, Gemeentepolitie, Rijkspolitie • Procureur Fiscaal • Tribunaal • Bijzonder Gerechtshof • Bijzondere Raad van Cassatie
  13. 13. Bijzonder Gerechtshof Opsporings- diensten Bijzondere Raad van Cassatie Procureur- Fiscaal Tribunaal Opbouw
  14. 14. • Lijsten • Processen-verbaal • Sententies • Memoires • Foto’s • Brieven • Agenda’s • Formulieren • Documentatie Nationaal Socialistische organisaties • En nog veel meer! Wat zit er in een dossier?
  15. 15. • Begin jaren ‘50 • Kilometers papier • Kaartsystemen Centralisatie
  16. 16. Klijn Kleijn Klein Kleyn Voorbeeld
  17. 17. • Overdracht naar Nationaal Archief • Toename in aantal aanvragen • Beperking openbaarheid • Digitalisering kaartsysteem Vanaf 2000
  18. 18. • Digitalisering • Optical Character Recognition • Named Entity Recognition • Autoclassificatie • Privacy? De toekomst?
  19. 19. TRIADO in vogelvlucht Edwin Klijn (Netwerk Oorlogsbronnen)
  20. 20. Stappen 1. Inventarisatie: jan-sep 17 2. Digitalisering steekproef en inrichting testomgeving: okt 17-jan 18 3. Transcriptie: jan 18 4. Dataverrijking: feb 18-dec 18 5. Onderzoek: jan 19- juni 19
  21. 21. Googlen op documentniveau…
  22. 22. Optical Character Recognition (OCR)
  23. 23. Optical Character Recognition Naam en voornamen: GROEN,HENDRIK Geboortep!aats en-datum: Zaandam, 29 October 1897 Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats en adres: Kanaalstraat 25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te Leeuwarden Nationaiiteit (evt. vroeger) Nederlander die ervan verdacht wordt: joodsche personen in macht van den vijand te hebben gebracht,terwijl hij in dienst was van de S.D. Terzake gehoord, verkiaarde verdachte mij het votgende: dat hij in dienst was getreden van Lippmann en Rosenthal voor de inventarisatie van joodsche goederen,vervolgens overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte heb ik, optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het Huis van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A Domeinspecifieke woorden Personen Organisaties Geografische lokatie Datum
  24. 24. Dataverrijkingstechnologie • Named Entity Recognition (NER): personen, organisaties, locaties, producten, gebeurtenissen, overig. • Datumextractie: 01-02-1943, feb. 43, februari 1943 etc. • Auto-classificatie: automatisch herkennen van typen documenten • Auto-clustering: automatisch sorteren van soortgelijke documenten • Topic modelling: extractie van ‘significant words’ uit corpora
  25. 25. Voorlopige bevindingen TRIADO • OCR’en zinvol. Word Error Rate (WER) van 15% voor processen- verbaal en besluiten. • Auto-classificatie en datumextractie beloftevol. Error rate van 20%. • Het trainen van de software (machine-learning) en voorbewerken van images ter verbetering van de OCR leidt tot goede resultaten. • Het extraheren van locaties, organisaties en personen met NER- software kent een hoog foutgehalte. Beter: matchen met bestaande lijsten.
  26. 26. Rutger van Koert (Huygens ING/ KNAW Humanities Cluster)
  27. 27. Digitale technieken • Digital Infrastructure HuC • NOB Digital Infrastructure HuC
  28. 28. Overview • Image data • Data extractie • Gouden standaard • OCR verbeteren • Autoclassificatie • Topic modeling • Presentatie data
  29. 29. Image data • Tiff, 300 dpi • ~160.000 scans • Enkele tientallen zijne defect(bad scans) • Mixed: typemachine, drukwerk, handschriften, foto’s, tekeningen, paspoorten, diverse formulieren
  30. 30. Data uit de images halen • OCR  Abbyy => beste overall  Tesseract =>  simpel trainen (LSTM) • Andere data  Hoogte/Breedte  Kleur profielen  “features”
  31. 31. Donker maken en trainenTesseract • Vervaagde inkt /carbon kopieen • Als het er als inkt uitziet: maak het donker • (voorbeeld uit Archief Joodsche Raad)
  32. 32. Handmatige annotaties • Dank aan Marielle and Edwin! • Gouden standaard van wat waar staat in elk image (dat geselecteerd is) • Gouden standaard document types • Gouden standaard Named Entities • Data voor training en evaluatie verzameld
  33. 33. TrainingTesseract  150 paginas, 80% training, 20% testing 0 2 4 6 8 10 12 14 16 18 20 1 1000 2000 5000 10000 20000 30000 40000 50000 60000 70000 80000 100000 CER WER Error
  34. 34. Convnets • Convolutional Neural Networks Architecture of a CNN. — Source: https://www.mathworks.com/videos/introduction-to-deep-learning-what-are-convolutional-neural-networks--1489512765771.html
  35. 35. • document type bepalen via layout • Features: kolommen, kleur papier, tekst regels • Redeneren over deze features? Kolommen, etc • Machine learning, feature extractie en redeneringen automatisch: Convolutional Neural Networks • Langzaaaaam…. Autoclassificatie
  36. 36. Autoclassificatie
  37. 37. DL4J standaard learning curve
  38. 38.  Rvl-cdip dataset Autoclassificatie
  39. 39.  Vragenlijst  Email  Budget Autoclassification
  40. 40. Autoclassificatie  Via tekst: random forests  Goede resultaten~80% correct  Via Document Layout: deep learning  Meer training nodig: ~50% accuracy na 8 uur rekenen
  41. 41. Topic Modeling Topic #17: groningen landwachters <name> <name> gearresteerd slochteren <name> siddeburen ondergedoken huis landwacht <name> arrestatie <name> overgebracht onderduikers gemeente<name> schildwolde duitsland schuilplaats zoeken getuigen personen boerderij <name> <name>
  42. 42. Onderzoeks omgeving • React, Postgres, Dropwizard, DL4J, tensorflow, docker, d3js en meer
  43. 43. Frontend • Full text search in meerdere tekst lagen • Diverse facetten: taal, tekst grootte, image hoogte, breedte, document type, namen van mensen, plaatsen, organisaties, datums, andere metadata zoals aantal tekst kolommen
  44. 44. False positives  Namen van mensen gegroepeerd op voor- en achternamen, slachtoffers(Stichting oorlogsgraven, Joodse slachtoffers) en verdachten(namen van CABR database), geonames
  45. 45. Vragen? • Rutger.van.koert@di.huc.knaw.nl • PS: we’re hiring software engineers
  46. 46. Marten Düring (Scientific Advisory Committee TRIADO, University of Luxembourg)
  47. 47. v v Mining 200 years of historical newspapers https://impresso-project.ch/
  48. 48. What would a historical media monitoring tool suite look like?
  49. 49. Partners Funding Associated Partners ● Swiss National Library, SNL ● National Library of Luxembourg, BnL ● State Archives of Valais, AEV ● Swiss Economic Archives, SWA ● Le Temps ● Neue Zürcher Zeitung, NZZ ● History department, University of Lausanne, UNIL ● infoclio
  50. 50. + a team of historical Advisors + a team of associated historians
  51. 51. …and our plan to build one:
  52. 52. Key concepts: Generosity, Transparency & Co-Design
  53. 53. Simon Clematide & Philip Ströbel (UZH) OCR/HTR performance evaluation based on a sample of NZZ front pages (1780-1946) using READ HTR Technology developed for the recognition of hand-writing promises a breakthrough in text recognition for newspapers as well:
  54. 54. Search page
  55. 55. Search page, with autocomplete
  56. 56. Search page, with a search query and few filters
  57. 57. Search text field, with the active filters for the current search query
  58. 58. Viewer page, article in context
  59. 59. Viewer page, text transcription mode with annotations
  60. 60. Viewer page, text transcription mode with annotations
  61. 61. Collections Shareable, you can make them public Labels Basic keyword - for personal use only
  62. 62. Collection page, article in context
  63. 63. Visual comparison of two collections
  64. 64. What’s next? Early 2019: Interface and corpus ready for testing by Associated Researchers Community calls: Named entities - Friday 1 Feb 2018, 11h00-12h00 Topic Modeling - Friday 1 March 2019, 11h00-12h00 Text reuse - Friday 12 April 2019, 11h00-12h00 Workshop on epistemology of digital newspapers – October 2019 More on http://impresso-project.ch/
  65. 65. Vragen en discussie

×