Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Bessere Suchergebnisse durch 
Named Entity Recognition 
Historische Zeitungen im digitalen Zeitalter / 
I giornali storici...
Was ist eigentlich „Named Entity Recognition“? 
• Named Entity Recognition (NER) ist ein Untergebiet der 
Informationsextr...
Oder: Was ist eigentlich ein „Named Entity“? 
• PERSON: 
• Personennamen, Familiennamen, aber auch Namen von fiktiven 
Per...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Inno...
NER (II) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitivenes...
NER (III) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitivene...
Sprachunterstützung 
3 Sprachen: 
• Deutsch 
• Niederländisch 
• Französisch 
This project is partially funded under the I...
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Inno...
Software 
• Open Source ML Software entwickelt durch die Stanford 
Universität, für das Europeana Newspapers Projekt 
erwe...
Training 
• Trainieren des NER Systems mit Hilfe von manuell 
annotierten Korpora 
• Veröffentlichung des annotierten Korp...
Probleme und Herausforderungen 
• OCR Fehler reduzieren die Genauigkeit der Erkennung 
und verlangsamen die Verarbeitung 
...
Erste Resultate: Niederländisch 
Personen Orte Organisationen 
This project is partially funded under the ICT Policy Suppo...
Warum überhaupt Named Entity Recognition? 
• Beispiel Analyse von Logfiles der National Library of Wales: 
9 von 10 Suchan...
Beispiel für die Präsentation aus Nutzersicht: Digi20 
• Digi20 Projekt der BSB 
This project is partially funded under th...
Danke für Ihre Aufmerksamkeit! 
Grazie per la vostra attenzione! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www...
Upcoming SlideShare
Loading in …5
×

Bessere Suchergebnisse durch Named Entity Recognition

521 views

Published on

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Bessere Suchergebnisse durch Named Entity Recognition

  1. 1. Bessere Suchergebnisse durch Named Entity Recognition Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 27.10.2014 EURAC Bozen / Bolzano Clemens Neudecker, State Library Berlin @cneudecker
  2. 2. Was ist eigentlich „Named Entity Recognition“? • Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. • Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. • Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2
  3. 3. Oder: Was ist eigentlich ein „Named Entity“? • PERSON: • Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) • ORGANISATION: • Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp • ORT: • Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 3
  4. 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (I) 4 1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
  5. 5. NER (II) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 5 2. Disambiguieren von Begriffen (Beispiel “Jordan”) durch Kontextinformationen
  6. 6. NER (III) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6 3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
  7. 7. Sprachunterstützung 3 Sprachen: • Deutsch • Niederländisch • Französisch This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7
  8. 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Ansatz • Machine learning vs. Regelbasierter (rule-based) Ansatz • Vorteile Machine-learning: • Keine (quasi) linguistische Expertise notwendig • Verarbeitung von großen Mengen möglich • Vorteile Regelbasiert: • Sehr hohe Genauigkeiten möglich • Berücksichtigung spezieller Grammatiken 8
  9. 9. Software • Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL • Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9
  10. 10. Training • Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora • Veröffentlichung des annotierten Korpus als Open Data This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 10
  11. 11. Probleme und Herausforderungen • OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung • Historische Schreibvarianten für Orts- und Personennamen • In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen  Anpassungen der Software für OCR Problematik This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 11
  12. 12. Erste Resultate: Niederländisch Personen Orte Organisationen This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 12 Precision 0.940 0.950 0.942 Recall 0.588 0.760 0.559 F-measure 0.689 0.838 0.671
  13. 13. Warum überhaupt Named Entity Recognition? • Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte (Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13
  14. 14. Beispiel für die Präsentation aus Nutzersicht: Digi20 • Digi20 Projekt der BSB This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14 http://digi20.digitale-sammlungen.de/
  15. 15. Danke für Ihre Aufmerksamkeit! Grazie per la vostra attenzione! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/

×