Ringlstetter Historische Lexika Impact Workshop MUC

554 views
472 views

Published on

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
554
On SlideShare
0
From Embeds
0
Number of Embeds
90
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • +4999031308
  • Ringlstetter Historische Lexika Impact Workshop MUC

    1. 1. Aufbau und Verwendung spezieller Lexika bei der Digitalisierung historischer Kollektionen Annette Gotscharek, Ulrich Reffle, Christoph Ringlstetter, Klaus U. Schulz CIS, University of Munich
    2. 2. Fragen, Methoden, Evaluation <ul><li>Welche Art lexikalischer Ressourcen sind für welche Periode geeignet? </li></ul><ul><li>Welche Art von Verbesserungen sind zu erwarten? </li></ul><ul><li>------------ </li></ul><ul><li>(1) Analyse historischer Korpora </li></ul><ul><li>(2) Expliziter Lexikonaufbau </li></ul><ul><li>(3) Approximative Methode </li></ul><ul><li>------------ </li></ul><ul><li>(4) Experimente zum Information Retrieval </li></ul><ul><li>(5) Experimente zur OCR </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    3. 3. <ul><li>1900 1800 1700 1600 1500 </li></ul><ul><ul><li>Qualität der Dokumente </li></ul></ul><ul><ul><li>Problematische Fonts </li></ul></ul><ul><ul><li>Historische Varianten </li></ul></ul><ul><ul><li>unbekannte Wörter </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Herausforderungen bei der Digitalisierung
    4. 4. Orthografische Variation <ul><li>Fehlende Normalisierung der Orthografie führt zu einer Vielzahl orthografischer Varianten in historischen Dokumenten </li></ul><ul><ul><li>Teil als theil, Teyl, theyl </li></ul></ul><ul><ul><li>Kräuter als kra ͤ uter, Kreuther, kreüter, Kreuter, creuther </li></ul></ul><ul><ul><li>fragte als frug, fruk </li></ul></ul><ul><li>Standardlexika enthalten diese Varianten nicht </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    5. 5. Suche auf historischen Texten <ul><li>??? </li></ul><ul><li>Keine Resultate für die moderne Query “Kräuter” - </li></ul><ul><li>Mapping von den historischen Varianten zum modernen Äquivalent </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS K r ä u t e r kra ͤ uter Kreüter kreuter creuther creuter
    6. 6. OCR historischer Texte: gute Qualität S tädte den römischen mumcizmg gleich zu stellen. Allem wenn sich je in einem Rechtstheile die altrechtlichen teutschen Gewohnheiten, und Gesetze erhalten haben, so ist es gewiß in dieser Lehre, man mag entweder auf die Befugniß, die Stadtgerechtigkeit zu ertheilen , oder auf die innere Regimentsverfftssung so- BSB IMPACT Workshop 04.03.2010: LMU/CIS
    7. 7. OCR historischer Texte: mittlere Qualität Fürsten zu Gstternwerden/wer wollte vermainen / daßwt IhroKhurftrstl Durchl gnädiglsterHcttVatterinderpictcr rndFrombkcltallmFürstenvorzusetzen!scyn/vnd das halst> in^cclcQ^ vci pluz^uäzn 5accr6o5 daß tl iN KilchkN GottW wehr als ein Pries ter . BSB IMPACT Workshop 04.03.2010: LMU/CIS
    8. 8. <ul><li>OCR historischer Texte: Fehlerbeispiele </li></ul><ul><li>Verarbeitete Wortbilder können zu False Friends führen </li></ul><ul><li>Fischerei - Tischlerei: F->T, h -> hl </li></ul><ul><li>(2) Verarbeitete Wortbilder können zu Nichtwörtern führen </li></ul><ul><li>(3) Schwere Wortsegmentierungsfehler </li></ul><ul><li>OCR auf Fraktur: </li></ul><ul><li>gut (WER < 10%); mittel (10-30%); schlecht (< 30%) </li></ul>vndExcmpelFürstl-vnd HeroischerTuzenF BSB IMPACT Workshop 04.03.2010: LMU/CIS ^.uglltt. schreibet/
    9. 9. <ul><ul><li>Lexika für IR: modernes Wort – historische Variante </li></ul></ul><ul><ul><li>Lexika für OCR (aktives Lexikon, Wortliste) </li></ul></ul><ul><ul><li>Listen historischer Patterns: Hypothetisches Lexikon </li></ul></ul><ul><ul><li>Sprachmodelle für OCR </li></ul></ul><ul><ul><li>Syntaktische Information zur Paradigmenexpansion </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Sprachressourcen zur OCR/IR Verbesserung
    10. 10. <ul><ul><li>Mögliche Quellen historischer Korpora: </li></ul></ul><ul><ul><li>Korpora im Web (Abgetippte hist. Dokumente) </li></ul></ul><ul><ul><li>Nichtöffentliche elektronische Korpora </li></ul></ul><ul><ul><li>Eigenes Keying/korrigierte OCR digitalisierter Bilder </li></ul></ul><ul><ul><li>Unkorrigierte OCR Korpora </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Sprachressourcen basieren auf Korpora
    11. 11. <ul><ul><li>1. Entwicklungskorpus 1.0 </li></ul></ul><ul><ul><li>Getippte Texte von 1450 bis 1900 </li></ul></ul><ul><ul><li>Mittlere Größe: 2.7 Mill. Token </li></ul></ul><ul><ul><li>Für Lexikonkonstruktion </li></ul></ul><ul><ul><li>2. Evaluationskorpus für OCR Tests </li></ul></ul><ul><ul><li>OCRte Bilder + Groundtruth aliniert </li></ul></ul><ul><ul><li>Texte aus dem 16th, 18th, 19th Jahrhundert </li></ul></ul><ul><ul><li>3. Evaluationskorpus für IR Tests </li></ul></ul><ul><ul><li>Linguistisch annotierte Groundtruth </li></ul></ul><ul><ul><li>Texte aus dem 16th, 17th, 18th, 19th Jahrhundert </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Erste Sammlung historischer Korpora
    12. 12. BSB IMPACT Workshop 04.03.2010: LMU/CIS Abdeckung Modernes Lexikon
    13. 13. BSB IMPACT Workshop 04.03.2010: LMU/CIS Anteil Komposita
    14. 14. Korpus basierter Lexikon Aufbau IMPACT <ul><li>Ziel unserer Arbeit am historischen Lexikon </li></ul><ul><li>Ein Lexikon das für jeden Eintrag enthält: </li></ul><ul><ul><li>die historische Variante </li></ul></ul><ul><ul><li>das korrespondierende moderne Lemma (Grundform) </li></ul></ul><ul><ul><li>mindestens ein Auftreten der historischen Variante in realen historischen Daten (= “attestation”) </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    15. 15. Korpus basierter Lexikon Aufbau IMPACT <ul><li>Was wir brauchen um effizient zu arbeiten: </li></ul><ul><ul><li>Korpus mit historischen Texten (Groundtruth) </li></ul></ul><ul><ul><li>Modernes Vollformenlexikon (= flektierte Wortformen) mit Information zur Lemmatisierung </li></ul></ul><ul><ul><li>“ Hypothetisches Lexikon”: mapping pattern-basierter historischer Varianten auf Einträge im modernen Lexikon </li></ul></ul><ul><ul><li>Speziell zu älteren Texten (16 . Jahrhundert): geduldige Menschen mit Hintergrund in historischer Linguistik. </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    16. 16. “ Preprocessing” <ul><ul><li>Korpus Files </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Normalisierung (UTF-8), Tokenisierung, Frequenzliste <ul><li>Filter: </li></ul><ul><li>Token im modernen Lexikon </li></ul><ul><li>Token bereits im gesammelten historischen Lexikon </li></ul>Varianten Matcher Frq.-Liste der pattern-basierten Varianten Frq.-Liste der „unbekannten“ Varianten
    17. 17. Lexikograph wählt ein Wort aus BSB IMPACT Workshop 04.03.2010: LMU/CIS
    18. 18. Pattern Varianten automatisch erzeugt - Lexikograph bestätigt gültige BSB IMPACT Workshop 04.03.2010: LMU/CIS
    19. 19. Lemma Lesarten automatisch erzeugt – LexikographIn bestätigt gültige BSB IMPACT Workshop 04.03.2010: LMU/CIS
    20. 20. Lemma Attestate automatisch gesucht- Lexikograph wählt für die Lesart gültige aus BSB IMPACT Workshop 04.03.2010: LMU/CIS
    21. 21. Resultierende Lexikon Struktur BSB IMPACT Workshop 04.03.2010: LMU/CIS
    22. 22. <ul><ul><li>Für IR </li></ul></ul><ul><ul><li>Explizites Lexikon für IR derzeit ca. 15,000 Einträge </li></ul></ul><ul><ul><li>Hypothetisches Lexikon für IR: Matching Prozedur basierend auf 140 Pattern theoretisch 100 Mio Einträge </li></ul></ul><ul><ul><li>Für OCR </li></ul></ul><ul><ul><li>Witnessed lexicon aus hist. Korpus 1.0, ca. 200,000 Types </li></ul></ul>Erstellte lexikalische Resourcen BSB IMPACT Workshop 04.03.2010: LMU/CIS
    23. 23. <ul><li>Experimente zum Information Retrieval </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Anwendung Lexika 1: Information Retrieval <ul><ul><li>? Genügt Approximatives Matching für IR auf historischen Texten? </li></ul></ul><ul><ul><li>? Benötigen wir ein manuell erstelltes Lexikon und wenn ja für welches Szenario? </li></ul></ul>
    24. 24. Herausforderung für IR auf hist. Texten: Orthografische Variation <ul><li>0 Results </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS K r ä u t e r kra ͤ uter Kreüter kreuter creuther creuter
    25. 25. Methoden zur Variantenbehandlung <ul><ul><li>Hypothetisches Lexikon </li></ul></ul><ul><ul><ul><li>Durch spezielles approximatives Matching basierend auf historischen Pattern werden Eingabestrings mit modernen Wörtern assoziert </li></ul></ul></ul><ul><ul><li>Explizites Lexikon erstellt von Linguisten </li></ul></ul><ul><ul><ul><li>Lexikoneintrag ist eine historische Variante assoziiert mit dem modernen Lemma </li></ul></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    26. 26. Automatisches Matching BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) …
    27. 27. Automatisches Matching <ul><li>~ 140 Patterns </li></ul><ul><li>… </li></ul><ul><li>th -> t </li></ul><ul><li>ei -> ai </li></ul><ul><li>ey -> ei </li></ul><ul><li>l -> ll </li></ul><ul><li>… </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) …
    28. 28. Automatisches Matching <ul><li>~ 140 Patterns </li></ul><ul><li>… </li></ul><ul><li>th -> t </li></ul><ul><li>ei -> ai </li></ul><ul><li>ey -> ei </li></ul><ul><li>l -> ll </li></ul><ul><li>… </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile
    29. 29. Automatisches Matching <ul><li>~ 140 Patterns </li></ul><ul><li>… </li></ul><ul><li>th -> t </li></ul><ul><li>ei -> ai </li></ul><ul><li>ey -> ei </li></ul><ul><li>l -> ll </li></ul><ul><li>… </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) Spelling variation theile
    30. 30. Approximate matching procedure <ul><li>~ 140 Patterns </li></ul><ul><li>… </li></ul><ul><li>th -> t </li></ul><ul><li>ei -> ai </li></ul><ul><li>ey -> ei </li></ul><ul><li>l -> ll </li></ul><ul><li>… </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile
    31. 31. Automatisches Matching <ul><li>~ 140 Patterns </li></ul><ul><li>… </li></ul><ul><li>th -> t </li></ul><ul><li>ei -> ai </li></ul><ul><li>ey -> ei </li></ul><ul><li>l -> ll </li></ul><ul><li>… </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile
    32. 32. Automatisches Matching <ul><li>~ 140 Patterns </li></ul><ul><li>… </li></ul><ul><li>th -> t </li></ul><ul><li>ei -> ai </li></ul><ul><li>ey -> ei </li></ul><ul><li>l -> ll </li></ul><ul><li>… </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation frug
    33. 33. Automatisches Matching <ul><li>~ 140 Patterns </li></ul><ul><li>… </li></ul><ul><li>th -> t </li></ul><ul><li>ei -> ai </li></ul><ul><li>ey -> ei </li></ul><ul><li>l -> ll </li></ul><ul><li>… </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation ? frug
    34. 34. Automatisches Matching - Hypothetisches Lexikon <ul><li>Vorteile: </li></ul><ul><ul><li>Keine manuelle Arbeit </li></ul></ul><ul><ul><li>Dynamische Lösung </li></ul></ul><ul><li>Grenzen: </li></ul><ul><ul><li>Mismatches verbinden eine künstliche Variante mit einem unverbundenen modernen Wort </li></ul></ul><ul><ul><li>Ein Teil des historischen Vokabulars kann nicht durch einfaches Matching auf ein modernes Wort reduziert werden (komplizierte historische Flexionsvarianten, nicht pattern-basierte historische Wörter). </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    35. 35. Manuell validierte Lexika BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile frug
    36. 36. Manuell validierte Lexika BSB IMPACT Workshop 04.03.2010: LMU/CIS Modern lexicon Inflected forms … teile ... taille fragte … Lemmatizing information … teil (= part) teilen (= to share) taille (= waist) fragen (= to ask) … Spelling variation theile frug Manual mapping
    37. 37. Manuell validierte Lexika <ul><li>Vorteile: </li></ul><ul><ul><li>Assoziationen zwischen historischer Variante und modernem Lemma sind sicher </li></ul></ul><ul><ul><li>Nicht patternbasierte Assoziationen können explizit gespeichert werden </li></ul></ul><ul><li>Grenzen: </li></ul><ul><ul><li>Zeitaufwändig, z. T. werden Spezialisten benötigt </li></ul></ul><ul><ul><li>Kaum je komplett wegen der großen Zahl historischer Varianten </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    38. 38. Evaluation des hypothetischen Lexikons für ein Suchszenario <ul><li>Liste moderner und historischer Stopwörter </li></ul><ul><li>Definition von “Präzision” und “Recall” für unser Szenario (Erreichbarkeit des Textes) </li></ul><ul><li>Aufwändige manuelle Erstellung eines Evaluationskorpus </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    39. 39. Speziell annotiertes IR Groundtruth BSB IMPACT Workshop 04.03.2010: LMU/CIS
    40. 40. Präzision und Recall BSB IMPACT Workshop 04.03.2010: LMU/CIS
    41. 41. Fehlender Recall des hypoth. Lexikons BSB IMPACT Workshop 04.03.2010: LMU/CIS
    42. 42. Anwendung Lexika 2: OCR Erste Experimente zur OCR mit dem IMPACT Abbyy External Dictionary Interface FR9 BSB IMPACT Workshop 04.03.2010: LMU/CIS
    43. 43. Erneut die Frage: brauchen wir ein historisches Lexikon? <ul><ul><li>OCR Ausgabe </li></ul></ul><ul><ul><li>Groundtruth (abgetippt vom Original oder korrigierte OCR) </li></ul></ul><ul><ul><li>Alignierung zwischen OCR und Groundtruth </li></ul></ul><ul><ul><li>Messung der Performanz: Reduktion von Erkennungsfehlern </li></ul></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    44. 44. Alignierung zwischen OCR und Groundtruth BSB IMPACT Workshop 04.03.2010: LMU/CIS Mittlere Erkennung Gute Erkennung
    45. 45. <ul><ul><ul><ul><li>Kein Lexikon, nur historisches Zeichenmodell </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Modernes deutsches Lexikon </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Korpusbasiertes historisches Lexikon </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Hypothetisches Lexikon </li></ul></ul></ul></ul><ul><ul><ul><ul><li>---------------------------------------------------- </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Oberes Limit: optimales Lexikon </li></ul></ul></ul></ul>OCR Experimente für Lexikon Settings BSB IMPACT Workshop 04.03.2010: LMU/CIS
    46. 46. WER > 50% WER ~ 10% BSB IMPACT Workshop 04.03.2010: LMU/CIS Dictionary 16 th century No. of word errors Reduction of error rate 18 th century No. of word errors Reduction of error rate 19 th century No. of word errors Reduction of error rate No Lexicon 1306 - 827 - 2074 - Optimal Lexicon 756 42% 395 52% 612 70% Modern Lexicon 1096 16% 501 39% 888 57% W.Historical Lexicon 938 28% 481 42% 856 59% Modern + Virtual H.L. 1011 25% 480 42% 849 59%
    47. 47. Ergebnis: lexikalische Ressourcen für IR/OCR <ul><ul><li>Kann Approximatives Matching ein Lexikon für historische Texte ersetzen? </li></ul></ul><ul><li>Antwort ist abhängig von der Zeit aus der die Kollektion stammt </li></ul><ul><ul><li>Nur modernes Lexikon genügt auf keinen Fall </li></ul></ul><ul><ul><li>Für Kollektionen aus dem 19. und 18. Jahrhundert: automatisches Matching akzeptabel </li></ul></ul><ul><ul><li>Für Kollektionen aus dem 16. und 17. Jahrhundert: Manuell erstellte Lexika notwendig </li></ul></ul><ul><li>Eine Kombination scheint optimal </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    48. 48. Zwischenergebnis LMU/BSB Studie VD16 <ul><ul><li>Fokuskollektion der Bayerischen Staatsbibliothek </li></ul></ul><ul><ul><li>VD16: Größte Sammlung Frühneuhochdeutscher Bücher </li></ul></ul><ul><li>Manuelle Lexikonerstellung nötig </li></ul><ul><li>Keine elektronischen Korpora verfügbar </li></ul><ul><li>Theologische Domäne als Fokusbereich </li></ul><ul><li>Spezifikation + Pflichtenheft zusammen mit BSB </li></ul><ul><li>Ausgewählte repräsentative Materialien ca. 90 Bücher, 500,000 Token wurden von Serviceprovidern abgetippt </li></ul><ul><li>Qualitätssicherung durch BSB/LMU </li></ul>BSB IMPACT Workshop 04.03.2010: LMU/CIS
    49. 49. Ressourcen für Frühneuhochdeutsch Integration der OCR Anbieter Spezielle Font- und Zeichenmodelle Verbesserung der OCR durch spezielles VD16 Lexikon Verbesserung der Suche durch IR Variantenlexikon Linguistische Datenbank für VD16 BSB IMPACT Workshop 04.03.2010: LMU/CIS
    50. 50. BSB IMPACT Workshop 04.03.2010: LMU/CIS Herzlichen Dank.

    ×