Bessere Suchergebnisse durch Named Entity Recognition

C
Bessere Suchergebnisse durch 
Named Entity Recognition 
Historische Zeitungen im digitalen Zeitalter / 
I giornali storici nell’era digitale 
27.10.2014 
EURAC Bozen / Bolzano 
Clemens Neudecker, State Library Berlin 
@cneudecker
Was ist eigentlich „Named Entity Recognition“? 
• Named Entity Recognition (NER) ist ein Untergebiet der 
Informationsextraktion (Information Extraction) und wird 
allgemein als Aufgabe der Computerlinguistik verstanden. 
• Es geht dabei um die automatische Extraktion von 
Wissen bzw. die Klassifikation von Information aus 
semantisch unstrukturierten Inhalten. 
• Bei der NER handelt es sich durchaus noch um ein 
akademisches Forschungsfeld (vgl. Google/MSR 
Competition) – praktische Anwendungsbeispiele aus 
dem Kultur- sowie Digitalisierungsumfeld sind bisher 
noch die Ausnahme. 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 2
Oder: Was ist eigentlich ein „Named Entity“? 
• PERSON: 
• Personennamen, Familiennamen, aber auch Namen von fiktiven 
Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) 
• ORGANISATION: 
• Bezeichnungen von Firmen, Regierungs- oder Nicht- 
Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
• ORT: 
• Städte, Provinzen, Länder, Gebiete, usw. 
(„Paris“, „Südtirol“, „Alpen“) 
3
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
NER (I) 
4 
1. Erkennen von Personennamen, Ortsbezeichnungen, 
Organisationen im Volltext
NER (II) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
5 
2. Disambiguieren von Begriffen (Beispiel “Jordan”) 
durch Kontextinformationen
NER (III) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
6 
3. Verlinkung mit Normdaten und Online Datenquellen 
(Linked Data)
Sprachunterstützung 
3 Sprachen: 
• Deutsch 
• Niederländisch 
• Französisch 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Ansatz 
• Machine learning vs. Regelbasierter (rule-based) Ansatz 
• Vorteile Machine-learning: 
• Keine (quasi) linguistische Expertise notwendig 
• Verarbeitung von großen Mengen möglich 
• Vorteile Regelbasiert: 
• Sehr hohe Genauigkeiten möglich 
• Berücksichtigung spezieller Grammatiken 
8
Software 
• Open Source ML Software entwickelt durch die Stanford 
Universität, für das Europeana Newspapers Projekt 
erweitert durch die KBNL 
• Software steht auf Github zum Herunterladen und 
Ausprobieren bereit: 
https://github.com/KBNLresearch/europeananp-ner 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
9
Training 
• Trainieren des NER Systems mit Hilfe von manuell 
annotierten Korpora 
• Veröffentlichung des annotierten Korpus als Open Data 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
10
Probleme und Herausforderungen 
• OCR Fehler reduzieren die Genauigkeit der Erkennung 
und verlangsamen die Verarbeitung 
• Historische Schreibvarianten für Orts- und Personennamen 
• In vielen Fällen sind die historischen Bezeichnungen oder 
Schreibvarianten nicht in entsprechenden Normdatenbanken 
nachgewiesen 
 Anpassungen der Software für OCR Problematik 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
11
Erste Resultate: Niederländisch 
Personen Orte Organisationen 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
12 
Precision 0.940 0.950 0.942 
Recall 0.588 0.760 0.559 
F-measure 0.689 0.838 0.671
Warum überhaupt Named Entity Recognition? 
• Beispiel Analyse von Logfiles der National Library of Wales: 
9 von 10 Suchanfragen entfallen auf Personen oder Orte 
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log 
Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
13
Beispiel für die Präsentation aus Nutzersicht: Digi20 
• Digi20 Projekt der BSB 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
14 
http://digi20.digitale-sammlungen.de/
Danke für Ihre Aufmerksamkeit! 
Grazie per la vostra attenzione! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www.theeuropeanlibrary.org/tel4/newspapers 
http://www.europeana.eu/
1 of 15

Recommended

Enp lft infoday_neudecker by
Enp lft infoday_neudeckerEnp lft infoday_neudecker
Enp lft infoday_neudeckerEuropeana Newspapers
358 views15 slides
ENP_ONB_infoday_Neudecker by
ENP_ONB_infoday_NeudeckerENP_ONB_infoday_Neudecker
ENP_ONB_infoday_NeudeckerEuropeana Newspapers
654 views19 slides
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen by
Digitalisierte Zeitungen und Digital Humanities - Probleme und ChancenDigitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancencneudecker
710 views19 slides
Europeana Newspapers German infoday - Verarbeitung Digitale Zeitungen by
Europeana Newspapers German infoday - Verarbeitung Digitale ZeitungenEuropeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale ZeitungenEuropeana Newspapers
716 views20 slides
Europeana Newspapers Project - German infoday by
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers
627 views16 slides
Meyer Project Introduction IMPACT Workshop MUC by
Meyer Project Introduction IMPACT Workshop MUCMeyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUCIMPACT Centre of Competence
1.2K views21 slides

More Related Content

Similar to Bessere Suchergebnisse durch Named Entity Recognition

Europeana Newpapers LFT Infoday Neudecker by
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
722 views15 slides
OkLab Leipzig (state: 2017) by
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)joergreichert
1.1K views45 slides
Europeana Newspapers German Infoday Quality Assessment by
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers
731 views15 slides
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa by
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaHans-Dieter Zimmermann
718 views24 slides
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen by
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers
503 views33 slides
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT by
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATMartin Kaltenböck
1.1K views22 slides

Similar to Bessere Suchergebnisse durch Named Entity Recognition(20)

OkLab Leipzig (state: 2017) by joergreichert
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)
joergreichert1.1K views
Europeana Newspapers German Infoday Quality Assessment by Europeana Newspapers
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen by Europeana Newspapers
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT by Martin Kaltenböck
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Martin Kaltenböck1.1K views
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT by Max Kaiser
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
Max Kaiser704 views
User-Driven Open Source Communities, auch für den Finanzsektor by Matthias Stürmer
User-Driven Open Source Communities, auch für den FinanzsektorUser-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den Finanzsektor
Matthias Stürmer2.1K views
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD) by Martin Kaltenböck
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Martin Kaltenböck2.4K views
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de... by Matthias Stürmer
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...
Matthias Stürmer2.9K views
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012) by OpendataCH
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)
OpendataCH448 views
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ... by Martin Kaltenböck
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Martin Kaltenböck2.9K views
Ubiquitous Microblogging für flexible Informationssysteme by Martin Böhringer
Ubiquitous Microblogging für flexible InformationssystemeUbiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible Informationssysteme
Martin Böhringer1.1K views
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptx by FIWARE
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptxPierre Golz Der Transformationsprozess im Konzern Stadt.pptx
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptx
FIWARE45 views
Cogneon Praesentation LKS-Forum 2010 Wissensstaedte by Simon Dueckert
Cogneon Praesentation LKS-Forum 2010 WissensstaedteCogneon Praesentation LKS-Forum 2010 Wissensstaedte
Cogneon Praesentation LKS-Forum 2010 Wissensstaedte
Simon Dueckert1.1K views
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto... by Becker Hans-Georg
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
Becker Hans-Georg524 views

More from cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library by
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
142 views13 slides
ALTO, PAGE & Co. Formate für Volltexte by
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
82 views22 slides
OCR und Strukturerkennung für Zeitungen by
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
99 views21 slides
Digitisation and Digital Humanities - what is the role of Libraries? by
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
214 views26 slides
Multimodal Perspectives for Digitised Historical Newspapers by
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
344 views15 slides
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi... by
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
95 views18 slides

More from cneudecker(20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library by cneudecker
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
cneudecker142 views
ALTO, PAGE & Co. Formate für Volltexte by cneudecker
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
cneudecker82 views
OCR und Strukturerkennung für Zeitungen by cneudecker
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
cneudecker99 views
Digitisation and Digital Humanities - what is the role of Libraries? by cneudecker
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
cneudecker214 views
Multimodal Perspectives for Digitised Historical Newspapers by cneudecker
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
cneudecker344 views
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi... by cneudecker
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
cneudecker95 views
AI for digitized cultural heritage by cneudecker
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
cneudecker196 views
Kuratieren mit künstlicher Intelligenz by cneudecker
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
cneudecker1.2K views
Überblick zum DFG-Projekt OCR-D by cneudecker
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
cneudecker370 views
The many uses of digitized newspapers by cneudecker
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
cneudecker302 views
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten... by cneudecker
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
cneudecker539 views
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her... by cneudecker
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
cneudecker286 views
OCR-D: An end-to-end open source OCR framework for historical printed documents by cneudecker
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
cneudecker2K views
Text and Data Mining by cneudecker
Text and Data MiningText and Data Mining
Text and Data Mining
cneudecker698 views
Formate für Volltexte by cneudecker
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
cneudecker172 views
Extrablatt: The Latest News on Newspaper Digitisation in Europe by cneudecker
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
cneudecker375 views
Reise durch Europeana Collections in 11 Minuten by cneudecker
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
cneudecker306 views
Europeana Newspapers in a Nutshell by cneudecker
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
cneudecker507 views
lab.sbb.berlin by cneudecker
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
cneudecker349 views
Named Entity Recognition for Europeana Newspapers by cneudecker
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
cneudecker644 views

Bessere Suchergebnisse durch Named Entity Recognition

  • 1. Bessere Suchergebnisse durch Named Entity Recognition Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 27.10.2014 EURAC Bozen / Bolzano Clemens Neudecker, State Library Berlin @cneudecker
  • 2. Was ist eigentlich „Named Entity Recognition“? • Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. • Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. • Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2
  • 3. Oder: Was ist eigentlich ein „Named Entity“? • PERSON: • Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) • ORGANISATION: • Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp • ORT: • Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 3
  • 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (I) 4 1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
  • 5. NER (II) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 5 2. Disambiguieren von Begriffen (Beispiel “Jordan”) durch Kontextinformationen
  • 6. NER (III) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6 3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
  • 7. Sprachunterstützung 3 Sprachen: • Deutsch • Niederländisch • Französisch This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7
  • 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Ansatz • Machine learning vs. Regelbasierter (rule-based) Ansatz • Vorteile Machine-learning: • Keine (quasi) linguistische Expertise notwendig • Verarbeitung von großen Mengen möglich • Vorteile Regelbasiert: • Sehr hohe Genauigkeiten möglich • Berücksichtigung spezieller Grammatiken 8
  • 9. Software • Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL • Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9
  • 10. Training • Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora • Veröffentlichung des annotierten Korpus als Open Data This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 10
  • 11. Probleme und Herausforderungen • OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung • Historische Schreibvarianten für Orts- und Personennamen • In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen  Anpassungen der Software für OCR Problematik This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 11
  • 12. Erste Resultate: Niederländisch Personen Orte Organisationen This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 12 Precision 0.940 0.950 0.942 Recall 0.588 0.760 0.559 F-measure 0.689 0.838 0.671
  • 13. Warum überhaupt Named Entity Recognition? • Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte (Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13
  • 14. Beispiel für die Präsentation aus Nutzersicht: Digi20 • Digi20 Projekt der BSB This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14 http://digi20.digitale-sammlungen.de/
  • 15. Danke für Ihre Aufmerksamkeit! Grazie per la vostra attenzione! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/