SlideShare a Scribd company logo
1 of 74
Download to read offline
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Digitale Kuratierungstechnologien:
Anwendungsfälle in
Digitalen Bibliotheken
Georg Rehm
georg.rehm@dfki.de
DFKI GmbH, Berlin
Clemens Neudecker
clemens.neudecker@europeana-newspapers.eu
Staatsbibliothek zu Berlin
Überblick
• Was ist digitale Kuratierung?
• BMBF-Projekt Digitale Kuratierungstechnologien
• DFKI-Teilprojekt
• Digitale Kuratierung in Bibliotheken
• Ausblick und Schlussfolgerungen
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 2
Was ist digitale Kuratierung?
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
Information
3
Was ist digitale Kuratierung?
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
? ?
?
?Information
4
Was ist digitale Kuratierung?
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
? Information
OutputInput SoftwareProzesse
?
?
?
5
Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präsentationen Multimedia-Website
Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag
Facebook-Meldung Überarbeiten Email Ausstellungskatalog
Suchergebnis Einlesen Browser Mobile Applikation
Email Schreiben Groupware Mashup (z.B. Karte)
SMS Gestalten Branchenapplikationen Textbeitrag
Konzept Recherchieren CMS Konzept
Textdateien Bewerten ECMS Zeitstrahl
Video Evaluieren CRM Fachartikel
Karte Ordnen Unternehmens-Software Studie
Stockfotos Sortieren Grafik-/Layout-Software Präsentation
In-house Datenbank Strukturieren Telefonie Faktensammlung
Kalendereintrag Zusammenfassen etc. Exponatsartikel
Spreadsheets Kürzen Analysen
Archiv Übersetzen etc.
etc. Informieren
Kombinieren
Abstrahieren
Einordnen
Visualisieren
Generieren
Annotieren
Referenzieren
etc.
Beobachtungen
• Inhalte: textzentriert, mehrsprachig, multimedial
• Kuratierung: zeit- und wissensintensiv, interdisziplinär,
evtl. durchgeführt in verteilten Teams
• Branche: domänen-/branchenspezifische Anforderungen
• Einschränkung: Traditionelle CMS-Systeme bieten
kaum Unterstützung für Kuratierungsprozesse!
• Sprachtechnologie kann helfen – Kombinierung von
Komponenten zu branchenspezifischen Workflows
DKT Kick-off-Veranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digital Curation
Technologies.” In Proceedings of the 19th Annual
Conference of the European Association for Machine
Translation (EAMT 2016), Riga, Lettland, Mai 2016
Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die
effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger
Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für
Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015
• Unterstützung und Optimierung digitaler Kuratierung durch
Sprach- und Wissenstechnologien.
• Entwicklung innovativer Prototypen bei den KMU-Partnern.
• Weiterentwicklung der DFKI-Technologien und Transfer mittels
Plattform für digitale Kuratierungstechnologien.
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
Sprach- und
Wissens-
technologien
Annotationund
Anreicherung
Provenance
Analytics
(Text,Bild,
Video,Audio)
Semantische
Verarbeitungmit
LoDQuellen
Mehr-
sprachigkeit
MediaFragment
Generierung(A+C)
Kuratierungs-
technologien
Branchen-
technologien
Plattformtechnologie
Ausstellungen,
Showrooms,
Messen,Museen
TVundMedien
Verlageund
Tourismus
Kultureinrich-
tungenund
Archive
Workflows,
Persistenz
(Kreuz-
werker)
User
Interfaces
(art+com)
Software
asa
Service
Branchen-
Lösungen
...
Strukturvisuali-
sierung(zeitlich
etc.);mehrspra-
chige,multime-
dialeQuellen
Cross-mediale
Empfehlungen;
Zusammen-
fassungen;
Timelining
Semantische
Anreicherungund
Filterung;Senti-
mentAnalyse
Semantic
Storytelling,
Ontologie-basier-
te,Wissens-
strukturen
Visualisierung, UIs,
Ausstellungskuratierung
Kuratierung für Medien-
Redaktionen durch
innovative Empfehlungen
Semantic Story Telling
für Online-Redaktionen
Journalistische Kuratierungsworkflows für die
digitalen Geschäftsmodelle klassischer Printmedien
Sprach- und Wissenstechnologien als
Basis digitaler Kuratierungstechnologien
DKT besteht aus fünf Teilprojekten
Branche:
Museen, Showrooms,
Ausstellungen
Branche:
TV, Radio, Web-TV, Medien
Branche:
Öffentliche Archive
Branche:
Journalismus
Technologieplattform – Ziele
• Durch (Semi-)Automatisierung der Kuratierungsprozesse
zeitliche und finanzielle Aufwände reduzieren
• Flexible, robuste, skalierbare Services
• Gemeinsamer Bau von Prototypen (proofs-of-concept)
• Modulare Inhalte in
neuen Produktionen
aggregieren
• Interoperabilität durch
generische APIs
• Human in the loop
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
11
Die DFKI-Forschungsthemen
• Semantische Analyse und Generierung, Mehrsprachigkeit
• Integration von Nutzerfeedback in Kuratierungsservices
• Domänenadaptierbarkeit: individuelles Training und
nutzerzentrische Anpassungsmöglichkeiten
• Interoperabilität aller Services
• Harmonisierung von Datenformaten
• Hohe Qualität und Präzision
• Kuratierungs-Dashboard
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
DFKI-Teilprojekt: Sprach- und
Wissenstechnologien als Basis
digitaler Kuratierungstechnologien
12
Plattform für digitale Kuratierungstechnologien
Broker REST API
Kuratierungsservice 1
Kuratierungsservice 2
Client nutzt
das API
Externer
Service 1
Externer
Service 2
Client nutzt
das API
Client nutzt
das API
Client nutzt
das API
Kuratierungs-Workflow
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
• Kuratierungsservice: e-service, der per REST HTTP API bereitsteht.
Der Service analysiert den Input und reichert diesen an.
• Services können zu Pipelines bzw. Workflows kombiniert werden.
Output
13
Aktueller Stand
• Plattform: Services und Service-Workflows
• Implementierte Kuratierungsservices:
– Named Entity Recognition – e-entityrecognition e-service
– Geolocation – e-entityrecognition, Visualisierung
– Temporal Analyser – e-entityrecognition, Visualisierung
– Classification – e-classification e-service
– Clustering – e-clustering e-service
– Textzusammenfassen– e-summarisation e-service
– Maschinelle Übersetzung – e-translation e-service
– Sentiment Analysis – work in progress
– Event Extraction – work in progress
– Semantic Storytelling – work in progress
• Kuratierungs-Dashboard: Erster Prototyp
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 14
NER, Linking, Geolokalisierung
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
...
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
…
Plain Text NIF-Anreicherung Visualisierung
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php
• Modus 1: Modell-basiert (für Domänen, für
die annotierte Trainingsdaten verfügbar sind)
• Modus 2: Wörterbuch-basiert (für Domänen,
für die lediglich Namenslisten verfügbar sind)
• Basiert auf OpenNLP (mit NIF-Integration)
• Entity-Linking durch SPARQL-Querys auf DBPedia.
• Für Lokationen werden GPS-Koordinaten bezogen.
• Es werden Durchschnittsangaben berechnet auf
Dokumentebene (über alle Lokationen), um diese auf
einer Karte visualisieren zu können.
Geolokalisierung als visuelles Zusammenfassen!
15
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
NE Recognition und Linking
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict
• Falls lediglich Listen von Namen oder Termen und deren URIs in einer
Ontologie zur Verfügung stehen.
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner
• Falls annotierte Trainingsdaten zur Verfügung stehen
auf neuem Input nutzbar
(auch gemeinsam)
statistisches
NER-Modell
Datenbank-Dump der
Mendelsohn-Briefe
Hohe Qualität
Benötigt annotierte Daten
Mittlere Qualität
Benötigt weniger annotierte Daten
• Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B)
vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden.
• Diese Liste kann vom Wissensarbeiter überprüft und anschließend als
Wörterbuch (A) eingesetzt werden.
Mittlere Qualität
Menschliche Intervention notwendig
Benötigt keine annotierten Daten
A B
C
• Linking per Extraktion der DBpedia-URI
• NE-Typspezifische SPARQL-Querys für
Personen (Geburtsdatum), Lokationen
(Koordinaten), Organisationen (Typ)
• Wörterbuch kann URIs enthalten
16
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Zeitausdrücke
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
...
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
…
900
1600
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp
http://dev.digitale-kuratierung.de/admini/pages/timelining.php
Plain-Text NIF-Anreicherung Visualisierung
• Sortiert Dokumente auf einer
chronologischen Skala.
• Regelbasiertes System, um
unsere Zielsprachen
bestmöglich bedienen zu
können (EN, DE).
• Analyse von Zeitausdrücken
in einem Dokument.
• Berechnet Durchschnittswerte
und Intervalle.
• Plan: Mechanismus für
nutzerbasierte Regeln.
• Verwandte Arbeiten: SUTime,
HeidelTime, Tango, Tarsgi.
17
Maschinelle Übersetzung
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
Herr Modi befindet sich auf einer fünftägigen
Reise nach Japan, um die wirtschaftlichen
Beziehungen mit der drittgrößten
Wirtschaftsnation der Welt zu festigen.
Mr Modi is located on a five-day trip to Japan to
strengthen the economic ties with the third largest
economy in the world.
Named Entity
Recognition
Entity Linking
Temporal
Expressions
Metadata
Processing
Post-Edit
Retraining
Beispiel
• Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.)
• Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a.
• Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF
• Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet)
Eleftherios Avramidis, Aljoscha Burchardt, Vivien Macketanz,
Ankit Srivastava. 2016. “DFKI’s System for WMT16 IT-domain
Task, including Analysis of Systematic Errors”. In Proc. of the 1st
Conf. on Machine Translation, Berlin, S. 415-422.
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
18
Textanalytik für bessere MT
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Ankit Srivastava, Felix Sasaki, Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, und
Georg Rehm. 2016. “How to Configure Statistical Machine Translation with Linked Open Data
Resources”. In Proc. of Translating and Computer 38. London, November. Im Druck.
Quellsprache: Englisch
1. A European Commission spokesman …
2. MS Paint is a good option.
Zielsprache: Deutsch
1. Ein Sprecher der European Commission …
2. Frau Farbe ist eine gute wahl.
• Korrektur von Übersetzungsfehlern durch Textanalytik.
• Unbekanntes Wort: “European Commission” sollte als „Europäische
Kommission“ übersetzt werden. Übersetzung kann aus Dbpedia bezogen werden.
• Disambiguierung: “MS Paint” wird als Person und nicht als Produktname erkannt.
Lösung: Term wird als benannte Entität getaggt und bleibt unübersetzt.
19
Textzusammenfassen
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am
Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79
Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen
bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE-
Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der
Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB-
Werte jeweils bei 11,77 bzw. 2,13 liegen.
Im letzten Monat und den letzten
3 Monaten verlor die RWE-Aktie
3,79% bzw. 18,95% und in den
letzten 3 Tagen 3,55%.
• Kuratierungsservice rankt Sätze – basierend auf
div. Features – hinsichtlich ihrer Wichtigkeit.
• Modul ist in der Entwicklung.
• Beispiel: Artikel über den fallenden Aktienkurs von
RWE (Daten stammen von Condat).
• Ausblick: Integration der Analyseergebnisse anderer
DKT-Services in den Algorithmus.
20
Semantic Storytelling
• Wichtige Funktionalität in allen KMU-Partner-Use Cases:
Automatisches Hyperlinking von Dokumentkollektionen
• Input: Kohärente, in sich geschlossene Kollektion
• Output: Angereicherte Kollektion, die als Hypertext zugreifbar
ist – für effizientes und intuitives Browsing
• Semantic Storytelling – arbeitet auf diesem Hypertextgraph,
den wir auf der ursprünglichen Kollektion erzeugen
• Ermöglicht multiple Rezeptionspfade durch die Kollektion
• Semantic Storytelling ist die Identifizierung, das Ranking
und die Empfehlung sinnvoller Hypertextpfade
• Es gibt noch zahlreiche Herausforderungen ...
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 21
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Semantic Storytelling
• Aktueller, experimenteller Stand: GUI erlaubt dynamischen Überblick, welche
salienten, in einer Kollektion genannten Entitäten was und wo getan haben.
• Nutzer sollen sich schnell einen Überblick über den Inhalt verschaffen können.
22
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
(Vergrößerung)
Julián Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix
Sasaki, and Ankit Srivastava. Towards Semantic Story Telling with Digital
Curation Technologies. In Larry Birnbaum, Octavian Popescuk und Carlo
Strapparava, Hrsg., Proceedings of Natural Language Processing meets
Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016.
Peter Bourgonje, Julián Moreno Schneider, Georg Rehm und Felix Sasaki.
Processing Document Collections to Automatically Extract Linked Data:
Semantic Storytelling Technologies for Smart Curation Workflows. In Aldo
Gangemi und Claire Gardent, Hrsg., Proceedings of the 2nd International
Workshop on Natural Language Generation and the Semantic Web
(WebNLG 2016), S. 13-16, Edinburgh, UK, September 2016. The Association
for Computational Linguistics.
Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix
Sasaki und Ankit Srivastava. “Towards a Platform for Curation Technologies:
Enriching Text Collections with a Semantic-Web Layer.” In Harald Sack,
Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer und
Christoph Lange, Hrsg., The Semantic Web: ESWC 2016 Satellite Events,
Juni 2016.
Ausblick
• Automatisches Hyperlinking
• Integration in das Dashboard
• Generierung von Story-Pfaden
• Relationsextraktion und
Dependenzparsing
• Textgenerierung
23
Beispiel: Automatisches Glossar
• Automatisches
Glossar (Personen,
Orte, Organis.)
• Informieren über
unbekannte
Begriffe in einer
Sammlung.
• Links verweisen
auf die Vorkommen
in Dokumenten.
• Bekannt aus
Büchern und somit
direkt verständlich.
Glossar der Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 24
Beispiel: Autoritative Dokumente
• Über eine Entität
informieren, die in einer
Kollektion auftaucht (1).
• Dokumentauswahl listet
alle Entitäten auf (2).
• Klick listet Vorkommen
in Kollektion auf, sortiert
nach Frequenz (3).
• Hilft, diejenigen Doku-
mente zu finden, die
eine Entität häufig
erwähnen und daher
eine „Autorität“ bzgl.
dieser Entität darstellen.
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
1
2
3
Liste derjenigen Dokumente der Mendelsohn-Briefe,
in denen „New York“ auftaucht (nach Häufigkeit sortiert)
25
RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained documentcollection
• Example:Mendelsohn letters,2796 documents,
written in German, English,French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
differenttext types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-outformats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual,including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of MovementAction Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Beispiel: Die Mendelsohn-Briefe
Mit Dank an:
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 27
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 28
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 29
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 30
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 31
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 32
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 33
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 34
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 35
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 36
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 37
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 38
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 39
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 40
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 41
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 42
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 43
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 44
Beispiel: Die Mendelsohn-Briefe
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 45
Digitale Kuratierung in Bibliotheken
Aktivitäten und Beispiele aus der Staatsbibliothek zu Berlin
• Digitalisierung 2.0
• Digitale Kuratierung
• Beispiele
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 46
Digitalisierung 2.0
• 2007: Aufbau eines eigenen Digitalisierungszentrum
• 2013: 2-Schichten-System mit 24 Schichten
• 2016: 20 Geräte (A2-A0, Scanroboter, Thermografie
Kamera, Grazer Buchtisch, etc.)
• Aktuell ca. 13 Mio. Images,
Zuwachs ca. 1,7 Mio. Images pro Jahr
• Digitisation-on-Demand Service:
http://staatsbibliothek-berlin.de/service/
digitalisate-und-reproduktionen/
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 47
Daten, Daten, Daten
• Digitalisierte Sammlungen: 14 Mio. Seiten,
pro Jahr um ca. 2,5 Mio. Seiten wachsend
• ZEFYS: Ca. 3,5 Mio. Seiten Zeitungen, + 0,5 Mio./Jahr
• Zeitschriftendatenbank (ZDB): 1,8 Mio. Titeldaten
• Kalliope Katalog: 3,2 Mio. Datensätze zu Nachlässen
• Gemeinsame Normdatei (GND): 16 Mio. Daten
• Deutsche Digitale Bibliothek (DDB): 20 Mio. Objekte
• Europeana: 55 Mio. Objekte
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 48
Digitale Kuratierung
• (automatische) Erschließung von Struktur und Inhalten
von Dokumenten über die rein beschreibende,
bibliographische Erschließung hinaus
• Beispiele:
– Europeana Newspapers:
Named Entity Recognition (Personen, Orte, etc.)
– Europeana 1914-1918:
Linked Data (Relationen zwischen Entitäten,
Schlagworten und Normdaten)
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 49
Europeana Newspapers
• Europeana Newspapers
www.europeana-newspapers.eu
• 12 Mio. Seiten historische
Zeitungen inkl. Volltexte (OCR)
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 50
Named Entity Recognition
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 51
https://github.com/EuropeanaNewspapers/ner-app
NER Kodierung
• NER Kodierung in ALTO-XML (>= 2.1)
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 52
<String STYLEREFS="ID7" HEIGHT="132.0" WIDTH="570.0" HPOS="5937.0"
VPOS="3279.0" CONTENT="Reynolds" WC="0.95238096" TAGREFS="Tag5">
</String>
<String STYLEREFS="ID7" HEIGHT="102.0" WIDTH="540.0" HPOS="18438.0"
VPOS="22008.0" CONTENT="Baltimore" WC="0.82539684" TAGREFS="Tag10">
</String>
…
<Tags>
<NamedEntityTag ID="Tag5" TYPE="Person" LABEL="Reynolds"/>
<NamedEntityTag ID="Tag10" TYPE="Location" LABEL="Baltimore"/>
</Tags>
NER Korpus
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 53
NER Annotation
• Evaluation von BRAT, WebAnno, INL Attestation
• INL Attestation wg.:
– Optimiert für
schnelle Erfassung
– Unterstützung für
ALTO-XML
– Zusammenarbeit
und Support durch
INT Leiden
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 54
Annotationen: Statistik
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 55
Language #	
  tokens #	
  PER #	
  LOC #	
  ORG
French 207,000 5,672 5,614 2,574
Dutch 182,483 4,492 4,448 1,160
German 96,735 7,914 6,143 2,784
Language #	
  tokens #	
  PER #	
  LOC #	
  ORG
French 100% 2,75% 2,71% 1,24%
Dutch 100% 2,46% 2,44% 0,64%
German 100% 8,18% 6,35% 2,88%
Language Word-­‐Error-­‐Rate	
  (Bag	
  of Words) Reading	
  Order Success Rate
French 16,6% 19,9%
Dutch 17,6% 23,2%
German 15,9% /	
  21,9% 13,6%
NER: Evaluation NL
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 56
Niederländisch
NER Evaluation: FR
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 57
Französisch
NER Disambiguierung
• Bsp. „Siege of Przemyśl“
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 58
Die Belagerung von Przemyśl war die größte
Belagerung des Ersten Weltkriegs und eine
schwere Niederlage für Österreich-Ungarn.
Am 9. November begann ein zweiter
Belagerungsversuch, der 133 Tage
andauerte. Die noch aus 110.000 Soldaten
bestehende österreichische Garnison
kapitulierte am 22. März 1915 und ging in
russische Gefangenschaft.
9. November. In Rzeszow kommt ein
Telegramm. Der Zug kann nicht mehr bis
Lemberg laufen, Lemberg ist in russischen
Händen. Endstation Przemysl. Erst bei
Zurawica, der letzten Station vor Przemysl,
hat man das Gefühl, in den Krieg
hineinzufahren, hier gibt es riesige Zeltlager
der österreichischen Garnison.
Normdatenverlinkung
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 59
wikidata.org/wiki/Q698828
dbpedia.org/page/Q698828
lccn.loc.gov/sh95002132
Siege of
Przemyśl
Europeana 1914-1918
• Europeana 1914-1918
www.europeana1914-1918.eu
• 400,000 Dokumente aus
Bibliotheken, Archiven, Museen
www.europeana-collections-1914-1918.eu
• 740h Film und 6100 Dokumente aus Filmarchiven
http://project.efg1914.eu/
• Online Enzyklopädie
www.1914-1918-online.net
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 60
Information Retrieval
61
Siege of
Przemyśl
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
Systematik
• Analyse des „Alten Realkatalog“ (ARK)
http://ark.staatsbibliothek-berlin.de/
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 62
Systematik
• Ranking der häufigsten Klassifikationen
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 63
Subject Heading Count
World War, 1914-1918–Campaigns 4307
World War, 1914-1918–Trench warfare 2990
World War, 1914-1918–Transportation 2171
World War, 1914-1918–Caricatures and cartoons 2013
World War, 1914-1918–Serbia 1755
Systematik
• Mapping zu Library of Congress Subject Headings
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 64
Subject Heading LoC identifier
World War, 1914-1918–Campaigns sh85148240
World War, 1914-1918–Trench warfare sh2008113804
World War, 1914-1918–Transportation sh2008113817
World War, 1914-1918–Caricatures and cartoons sh2010119466
World War, 1914-1918–Serbia sh2008113856
Metadaten
• Anreicherung der MODS-Metadaten mit LCSH IDs
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 65
Übersetzungen
• Übersetzungen aller Klassifikationen
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 66
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 67
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 68
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 69
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 70
Europeana Transcribathon Campus
• Wann?
22.-23. Juni 2017
• Wo?
SBB Potsdamer Str. 33
• Was?
Transkription & Verlinkung
von Zeitungen und WW1-
Dokumenten
• Mehr Infos?
transcribathon.com/berlin2017
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 71
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 72
Schlussfolgerungen
• Kuratierungstechnologien unterstützen Wissensarbeiter
beim Verarbeiten von digitalen Inhalten.
• Enormes Potential für Folgeaktivitäten in zusätzlichen
Anwendungsszenarien – Projektantrag in Vorbereitung.
• Kuratierungstechnologien werden benötigt, um die
Wissensspeicher der Bibliotheken in das Digitale zu
übertragen und tief zu erschließen.
• Ziel: Bessere und einfachere Nutzbarkeit der Daten.
• Bibliotheken können durch Bereitstellung frei nutzbarer,
hochqualitativer Daten die Weiterentwicklung von
semantischen Erschließungsmethoden fördern sowie
auch neue Geschäftsfelder entwickeln.
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 73
Vielen Dank!
http://www.digitale-kuratierung.de
Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 74

More Related Content

Similar to Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken

Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Georg Rehm
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Georg Rehm
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und PerspektivenDigitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektivenintranda GmbH
 
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?kostaedt
 
CeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der DiensteCeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der Diensteacosta-consult
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...Becker Hans-Georg
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chS. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chinfoclio.ch
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Ralf Stockmann
 
Es gibt noch viele Chancen. Das Beispiel SLUB
Es gibt noch viele Chancen. Das Beispiel SLUBEs gibt noch viele Chancen. Das Beispiel SLUB
Es gibt noch viele Chancen. Das Beispiel SLUBDr. Achim Bonte
 
Entwicklung und Konvergenz physischer und digitaler Wissensräume
Entwicklung und Konvergenz physischer und digitaler WissensräumeEntwicklung und Konvergenz physischer und digitaler Wissensräume
Entwicklung und Konvergenz physischer und digitaler WissensräumeOlaf
 
Create Berlin (Input) am 08.04.09
Create Berlin (Input) am 08.04.09Create Berlin (Input) am 08.04.09
Create Berlin (Input) am 08.04.09jintan
 
20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik20091124 Koeln Warum Semantik
20091124 Koeln Warum SemantikStefan Gradmann
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineMax Kaiser
 
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...Frederic Blin
 
DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK
DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEKDIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK
DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEKStaatsbibliothek zu Berlin
 

Similar to Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken (20)

Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und PerspektivenDigitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
 
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
 
CeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der DiensteCeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der Dienste
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chS. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
 
Es gibt noch viele Chancen. Das Beispiel SLUB
Es gibt noch viele Chancen. Das Beispiel SLUBEs gibt noch viele Chancen. Das Beispiel SLUB
Es gibt noch viele Chancen. Das Beispiel SLUB
 
Entwicklung und Konvergenz physischer und digitaler Wissensräume
Entwicklung und Konvergenz physischer und digitaler WissensräumeEntwicklung und Konvergenz physischer und digitaler Wissensräume
Entwicklung und Konvergenz physischer und digitaler Wissensräume
 
Create Berlin (Input) am 08.04.09
Create Berlin (Input) am 08.04.09Create Berlin (Input) am 08.04.09
Create Berlin (Input) am 08.04.09
 
Ziziphus/Tamboti
Ziziphus/TambotiZiziphus/Tamboti
Ziziphus/Tamboti
 
20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books Online
 
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
 
DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK
DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEKDIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK
DIGITAL HUMANITIES-PROJEKTE DER STAATSBIBLIOTHEK
 
ZBIW: Discovery
ZBIW: DiscoveryZBIW: Discovery
ZBIW: Discovery
 

More from cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 

More from cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 

Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken

  • 1. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken Georg Rehm georg.rehm@dfki.de DFKI GmbH, Berlin Clemens Neudecker clemens.neudecker@europeana-newspapers.eu Staatsbibliothek zu Berlin
  • 2. Überblick • Was ist digitale Kuratierung? • BMBF-Projekt Digitale Kuratierungstechnologien • DFKI-Teilprojekt • Digitale Kuratierung in Bibliotheken • Ausblick und Schlussfolgerungen Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 2
  • 3. Was ist digitale Kuratierung? Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Information Information Information Information Information Information Information Information Information Information 3
  • 4. Was ist digitale Kuratierung? Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Information Information Information Information Information Information Information Information Information ? ? ? ?Information 4
  • 5. Was ist digitale Kuratierung? Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Information Information Information Information Information Information Information Information Information ? Information OutputInput SoftwareProzesse ? ? ? 5
  • 6. Branchen Input Prozesse Software Output Tweet Analysieren Textverarbeitung Zeitungsartikel Zeitungsartikel Auswählen Präsentationen Multimedia-Website Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag Facebook-Meldung Überarbeiten Email Ausstellungskatalog Suchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte) SMS Gestalten Branchenapplikationen Textbeitrag Konzept Recherchieren CMS Konzept Textdateien Bewerten ECMS Zeitstrahl Video Evaluieren CRM Fachartikel Karte Ordnen Unternehmens-Software Studie Stockfotos Sortieren Grafik-/Layout-Software Präsentation In-house Datenbank Strukturieren Telefonie Faktensammlung Kalendereintrag Zusammenfassen etc. Exponatsartikel Spreadsheets Kürzen Analysen Archiv Übersetzen etc. etc. Informieren Kombinieren Abstrahieren Einordnen Visualisieren Generieren Annotieren Referenzieren etc. Beobachtungen • Inhalte: textzentriert, mehrsprachig, multimedial • Kuratierung: zeit- und wissensintensiv, interdisziplinär, evtl. durchgeführt in verteilten Teams • Branche: domänen-/branchenspezifische Anforderungen • Einschränkung: Traditionelle CMS-Systeme bieten kaum Unterstützung für Kuratierungsprozesse! • Sprachtechnologie kann helfen – Kombinierung von Komponenten zu branchenspezifischen Workflows
  • 7. DKT Kick-off-Veranstaltung – 25. September 2015 Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016 Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015 • Unterstützung und Optimierung digitaler Kuratierung durch Sprach- und Wissenstechnologien. • Entwicklung innovativer Prototypen bei den KMU-Partnern. • Weiterentwicklung der DFKI-Technologien und Transfer mittels Plattform für digitale Kuratierungstechnologien. Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  • 9. Visualisierung, UIs, Ausstellungskuratierung Kuratierung für Medien- Redaktionen durch innovative Empfehlungen Semantic Story Telling für Online-Redaktionen Journalistische Kuratierungsworkflows für die digitalen Geschäftsmodelle klassischer Printmedien Sprach- und Wissenstechnologien als Basis digitaler Kuratierungstechnologien DKT besteht aus fünf Teilprojekten
  • 10. Branche: Museen, Showrooms, Ausstellungen Branche: TV, Radio, Web-TV, Medien Branche: Öffentliche Archive Branche: Journalismus
  • 11. Technologieplattform – Ziele • Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche und finanzielle Aufwände reduzieren • Flexible, robuste, skalierbare Services • Gemeinsamer Bau von Prototypen (proofs-of-concept) • Modulare Inhalte in neuen Produktionen aggregieren • Interoperabilität durch generische APIs • Human in the loop Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen 11
  • 12. Die DFKI-Forschungsthemen • Semantische Analyse und Generierung, Mehrsprachigkeit • Integration von Nutzerfeedback in Kuratierungsservices • Domänenadaptierbarkeit: individuelles Training und nutzerzentrische Anpassungsmöglichkeiten • Interoperabilität aller Services • Harmonisierung von Datenformaten • Hohe Qualität und Präzision • Kuratierungs-Dashboard Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 DFKI-Teilprojekt: Sprach- und Wissenstechnologien als Basis digitaler Kuratierungstechnologien 12
  • 13. Plattform für digitale Kuratierungstechnologien Broker REST API Kuratierungsservice 1 Kuratierungsservice 2 Client nutzt das API Externer Service 1 Externer Service 2 Client nutzt das API Client nutzt das API Client nutzt das API Kuratierungs-Workflow Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 • Kuratierungsservice: e-service, der per REST HTTP API bereitsteht. Der Service analysiert den Input und reichert diesen an. • Services können zu Pipelines bzw. Workflows kombiniert werden. Output 13
  • 14. Aktueller Stand • Plattform: Services und Service-Workflows • Implementierte Kuratierungsservices: – Named Entity Recognition – e-entityrecognition e-service – Geolocation – e-entityrecognition, Visualisierung – Temporal Analyser – e-entityrecognition, Visualisierung – Classification – e-classification e-service – Clustering – e-clustering e-service – Textzusammenfassen– e-summarisation e-service – Maschinelle Übersetzung – e-translation e-service – Sentiment Analysis – work in progress – Event Extraction – work in progress – Semantic Storytelling – work in progress • Kuratierungs-Dashboard: Erster Prototyp Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 14
  • 15. NER, Linking, Geolokalisierung Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries ... ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. … Plain Text NIF-Anreicherung Visualisierung http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php • Modus 1: Modell-basiert (für Domänen, für die annotierte Trainingsdaten verfügbar sind) • Modus 2: Wörterbuch-basiert (für Domänen, für die lediglich Namenslisten verfügbar sind) • Basiert auf OpenNLP (mit NIF-Integration) • Entity-Linking durch SPARQL-Querys auf DBPedia. • Für Lokationen werden GPS-Koordinaten bezogen. • Es werden Durchschnittsangaben berechnet auf Dokumentebene (über alle Lokationen), um diese auf einer Karte visualisieren zu können. Geolokalisierung als visuelles Zusammenfassen! 15
  • 16. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 NE Recognition und Linking • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict • Falls lediglich Listen von Namen oder Termen und deren URIs in einer Ontologie zur Verfügung stehen. • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner • Falls annotierte Trainingsdaten zur Verfügung stehen auf neuem Input nutzbar (auch gemeinsam) statistisches NER-Modell Datenbank-Dump der Mendelsohn-Briefe Hohe Qualität Benötigt annotierte Daten Mittlere Qualität Benötigt weniger annotierte Daten • Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B) vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden. • Diese Liste kann vom Wissensarbeiter überprüft und anschließend als Wörterbuch (A) eingesetzt werden. Mittlere Qualität Menschliche Intervention notwendig Benötigt keine annotierten Daten A B C • Linking per Extraktion der DBpedia-URI • NE-Typspezifische SPARQL-Querys für Personen (Geburtsdatum), Lokationen (Koordinaten), Organisationen (Typ) • Wörterbuch kann URIs enthalten 16
  • 17. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Zeitausdrücke ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. ... ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries … 900 1600 http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp http://dev.digitale-kuratierung.de/admini/pages/timelining.php Plain-Text NIF-Anreicherung Visualisierung • Sortiert Dokumente auf einer chronologischen Skala. • Regelbasiertes System, um unsere Zielsprachen bestmöglich bedienen zu können (EN, DE). • Analyse von Zeitausdrücken in einem Dokument. • Berechnet Durchschnittswerte und Intervalle. • Plan: Mechanismus für nutzerbasierte Regeln. • Verwandte Arbeiten: SUTime, HeidelTime, Tango, Tarsgi. 17
  • 18. Maschinelle Übersetzung Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Workflow Language & Translation Models trained on DGT, News, Europarl, TED Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen. Mr Modi is located on a five-day trip to Japan to strengthen the economic ties with the third largest economy in the world. Named Entity Recognition Entity Linking Temporal Expressions Metadata Processing Post-Edit Retraining Beispiel • Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.) • Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a. • Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF • Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet) Eleftherios Avramidis, Aljoscha Burchardt, Vivien Macketanz, Ankit Srivastava. 2016. “DFKI’s System for WMT16 IT-domain Task, including Analysis of Systematic Errors”. In Proc. of the 1st Conf. on Machine Translation, Berlin, S. 415-422. Workflow Language & Translation Models trained on DGT, News, Europarl, TED 18
  • 19. Textanalytik für bessere MT Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Ankit Srivastava, Felix Sasaki, Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, und Georg Rehm. 2016. “How to Configure Statistical Machine Translation with Linked Open Data Resources”. In Proc. of Translating and Computer 38. London, November. Im Druck. Quellsprache: Englisch 1. A European Commission spokesman … 2. MS Paint is a good option. Zielsprache: Deutsch 1. Ein Sprecher der European Commission … 2. Frau Farbe ist eine gute wahl. • Korrektur von Übersetzungsfehlern durch Textanalytik. • Unbekanntes Wort: “European Commission” sollte als „Europäische Kommission“ übersetzt werden. Übersetzung kann aus Dbpedia bezogen werden. • Disambiguierung: “MS Paint” wird als Person und nicht als Produktname erkannt. Lösung: Term wird als benannte Entität getaggt und bleibt unübersetzt. 19
  • 20. Textzusammenfassen Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79 Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE- Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB- Werte jeweils bei 11,77 bzw. 2,13 liegen. Im letzten Monat und den letzten 3 Monaten verlor die RWE-Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. • Kuratierungsservice rankt Sätze – basierend auf div. Features – hinsichtlich ihrer Wichtigkeit. • Modul ist in der Entwicklung. • Beispiel: Artikel über den fallenden Aktienkurs von RWE (Daten stammen von Condat). • Ausblick: Integration der Analyseergebnisse anderer DKT-Services in den Algorithmus. 20
  • 21. Semantic Storytelling • Wichtige Funktionalität in allen KMU-Partner-Use Cases: Automatisches Hyperlinking von Dokumentkollektionen • Input: Kohärente, in sich geschlossene Kollektion • Output: Angereicherte Kollektion, die als Hypertext zugreifbar ist – für effizientes und intuitives Browsing • Semantic Storytelling – arbeitet auf diesem Hypertextgraph, den wir auf der ursprünglichen Kollektion erzeugen • Ermöglicht multiple Rezeptionspfade durch die Kollektion • Semantic Storytelling ist die Identifizierung, das Ranking und die Empfehlung sinnvoller Hypertextpfade • Es gibt noch zahlreiche Herausforderungen ... Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 21
  • 22. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 Semantic Storytelling • Aktueller, experimenteller Stand: GUI erlaubt dynamischen Überblick, welche salienten, in einer Kollektion genannten Entitäten was und wo getan haben. • Nutzer sollen sich schnell einen Überblick über den Inhalt verschaffen können. 22
  • 23. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 (Vergrößerung) Julián Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016. Peter Bourgonje, Julián Moreno Schneider, Georg Rehm und Felix Sasaki. Processing Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the 2nd International Workshop on Natural Language Generation and the Semantic Web (WebNLG 2016), S. 13-16, Edinburgh, UK, September 2016. The Association for Computational Linguistics. Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic Web: ESWC 2016 Satellite Events, Juni 2016. Ausblick • Automatisches Hyperlinking • Integration in das Dashboard • Generierung von Story-Pfaden • Relationsextraktion und Dependenzparsing • Textgenerierung 23
  • 24. Beispiel: Automatisches Glossar • Automatisches Glossar (Personen, Orte, Organis.) • Informieren über unbekannte Begriffe in einer Sammlung. • Links verweisen auf die Vorkommen in Dokumenten. • Bekannt aus Büchern und somit direkt verständlich. Glossar der Mendelsohn-Briefe Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 24
  • 25. Beispiel: Autoritative Dokumente • Über eine Entität informieren, die in einer Kollektion auftaucht (1). • Dokumentauswahl listet alle Entitäten auf (2). • Klick listet Vorkommen in Kollektion auf, sortiert nach Frequenz (3). • Hilft, diejenigen Doku- mente zu finden, die eine Entität häufig erwähnen und daher eine „Autorität“ bzgl. dieser Entität darstellen. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 1 2 3 Liste derjenigen Dokumente der Mendelsohn-Briefe, in denen „New York“ auftaucht (nach Häufigkeit sortiert) 25
  • 26. RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained documentcollection • Example:Mendelsohn letters,2796 documents, written in German, English,French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of differenttext types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-outformats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual,including German and French, through machine translation) • Mode of transportation analysis • Identification of MovementAction Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Beispiel: Die Mendelsohn-Briefe Mit Dank an:
  • 27. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 27 Beispiel: Die Mendelsohn-Briefe
  • 28. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 28 Beispiel: Die Mendelsohn-Briefe
  • 29. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 29 Beispiel: Die Mendelsohn-Briefe
  • 30. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 30 Beispiel: Die Mendelsohn-Briefe
  • 31. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 31 Beispiel: Die Mendelsohn-Briefe
  • 32. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 32 Beispiel: Die Mendelsohn-Briefe
  • 33. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 33 Beispiel: Die Mendelsohn-Briefe
  • 34. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 34 Beispiel: Die Mendelsohn-Briefe
  • 35. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 35 Beispiel: Die Mendelsohn-Briefe
  • 36. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 36 Beispiel: Die Mendelsohn-Briefe
  • 37. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 37 Beispiel: Die Mendelsohn-Briefe
  • 38. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 38 Beispiel: Die Mendelsohn-Briefe
  • 39. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 39 Beispiel: Die Mendelsohn-Briefe
  • 40. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 40 Beispiel: Die Mendelsohn-Briefe
  • 41. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 41 Beispiel: Die Mendelsohn-Briefe
  • 42. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 42 Beispiel: Die Mendelsohn-Briefe
  • 43. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 43 Beispiel: Die Mendelsohn-Briefe
  • 44. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 44 Beispiel: Die Mendelsohn-Briefe
  • 46. Digitale Kuratierung in Bibliotheken Aktivitäten und Beispiele aus der Staatsbibliothek zu Berlin • Digitalisierung 2.0 • Digitale Kuratierung • Beispiele Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 46
  • 47. Digitalisierung 2.0 • 2007: Aufbau eines eigenen Digitalisierungszentrum • 2013: 2-Schichten-System mit 24 Schichten • 2016: 20 Geräte (A2-A0, Scanroboter, Thermografie Kamera, Grazer Buchtisch, etc.) • Aktuell ca. 13 Mio. Images, Zuwachs ca. 1,7 Mio. Images pro Jahr • Digitisation-on-Demand Service: http://staatsbibliothek-berlin.de/service/ digitalisate-und-reproduktionen/ Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 47
  • 48. Daten, Daten, Daten • Digitalisierte Sammlungen: 14 Mio. Seiten, pro Jahr um ca. 2,5 Mio. Seiten wachsend • ZEFYS: Ca. 3,5 Mio. Seiten Zeitungen, + 0,5 Mio./Jahr • Zeitschriftendatenbank (ZDB): 1,8 Mio. Titeldaten • Kalliope Katalog: 3,2 Mio. Datensätze zu Nachlässen • Gemeinsame Normdatei (GND): 16 Mio. Daten • Deutsche Digitale Bibliothek (DDB): 20 Mio. Objekte • Europeana: 55 Mio. Objekte Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 48
  • 49. Digitale Kuratierung • (automatische) Erschließung von Struktur und Inhalten von Dokumenten über die rein beschreibende, bibliographische Erschließung hinaus • Beispiele: – Europeana Newspapers: Named Entity Recognition (Personen, Orte, etc.) – Europeana 1914-1918: Linked Data (Relationen zwischen Entitäten, Schlagworten und Normdaten) Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 49
  • 50. Europeana Newspapers • Europeana Newspapers www.europeana-newspapers.eu • 12 Mio. Seiten historische Zeitungen inkl. Volltexte (OCR) Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 50
  • 51. Named Entity Recognition Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 51 https://github.com/EuropeanaNewspapers/ner-app
  • 52. NER Kodierung • NER Kodierung in ALTO-XML (>= 2.1) Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 52 <String STYLEREFS="ID7" HEIGHT="132.0" WIDTH="570.0" HPOS="5937.0" VPOS="3279.0" CONTENT="Reynolds" WC="0.95238096" TAGREFS="Tag5"> </String> <String STYLEREFS="ID7" HEIGHT="102.0" WIDTH="540.0" HPOS="18438.0" VPOS="22008.0" CONTENT="Baltimore" WC="0.82539684" TAGREFS="Tag10"> </String> … <Tags> <NamedEntityTag ID="Tag5" TYPE="Person" LABEL="Reynolds"/> <NamedEntityTag ID="Tag10" TYPE="Location" LABEL="Baltimore"/> </Tags>
  • 53. NER Korpus Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 53
  • 54. NER Annotation • Evaluation von BRAT, WebAnno, INL Attestation • INL Attestation wg.: – Optimiert für schnelle Erfassung – Unterstützung für ALTO-XML – Zusammenarbeit und Support durch INT Leiden Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 54
  • 55. Annotationen: Statistik Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 55 Language #  tokens #  PER #  LOC #  ORG French 207,000 5,672 5,614 2,574 Dutch 182,483 4,492 4,448 1,160 German 96,735 7,914 6,143 2,784 Language #  tokens #  PER #  LOC #  ORG French 100% 2,75% 2,71% 1,24% Dutch 100% 2,46% 2,44% 0,64% German 100% 8,18% 6,35% 2,88% Language Word-­‐Error-­‐Rate  (Bag  of Words) Reading  Order Success Rate French 16,6% 19,9% Dutch 17,6% 23,2% German 15,9% /  21,9% 13,6%
  • 56. NER: Evaluation NL Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 56 Niederländisch
  • 57. NER Evaluation: FR Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 57 Französisch
  • 58. NER Disambiguierung • Bsp. „Siege of Przemyśl“ Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 58 Die Belagerung von Przemyśl war die größte Belagerung des Ersten Weltkriegs und eine schwere Niederlage für Österreich-Ungarn. Am 9. November begann ein zweiter Belagerungsversuch, der 133 Tage andauerte. Die noch aus 110.000 Soldaten bestehende österreichische Garnison kapitulierte am 22. März 1915 und ging in russische Gefangenschaft. 9. November. In Rzeszow kommt ein Telegramm. Der Zug kann nicht mehr bis Lemberg laufen, Lemberg ist in russischen Händen. Endstation Przemysl. Erst bei Zurawica, der letzten Station vor Przemysl, hat man das Gefühl, in den Krieg hineinzufahren, hier gibt es riesige Zeltlager der österreichischen Garnison.
  • 59. Normdatenverlinkung Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 59 wikidata.org/wiki/Q698828 dbpedia.org/page/Q698828 lccn.loc.gov/sh95002132 Siege of Przemyśl
  • 60. Europeana 1914-1918 • Europeana 1914-1918 www.europeana1914-1918.eu • 400,000 Dokumente aus Bibliotheken, Archiven, Museen www.europeana-collections-1914-1918.eu • 740h Film und 6100 Dokumente aus Filmarchiven http://project.efg1914.eu/ • Online Enzyklopädie www.1914-1918-online.net Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 60
  • 61. Information Retrieval 61 Siege of Przemyśl Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017
  • 62. Systematik • Analyse des „Alten Realkatalog“ (ARK) http://ark.staatsbibliothek-berlin.de/ Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 62
  • 63. Systematik • Ranking der häufigsten Klassifikationen Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 63 Subject Heading Count World War, 1914-1918–Campaigns 4307 World War, 1914-1918–Trench warfare 2990 World War, 1914-1918–Transportation 2171 World War, 1914-1918–Caricatures and cartoons 2013 World War, 1914-1918–Serbia 1755
  • 64. Systematik • Mapping zu Library of Congress Subject Headings Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 64 Subject Heading LoC identifier World War, 1914-1918–Campaigns sh85148240 World War, 1914-1918–Trench warfare sh2008113804 World War, 1914-1918–Transportation sh2008113817 World War, 1914-1918–Caricatures and cartoons sh2010119466 World War, 1914-1918–Serbia sh2008113856
  • 65. Metadaten • Anreicherung der MODS-Metadaten mit LCSH IDs Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 65
  • 66. Übersetzungen • Übersetzungen aller Klassifikationen Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 66
  • 71. Europeana Transcribathon Campus • Wann? 22.-23. Juni 2017 • Wo? SBB Potsdamer Str. 33 • Was? Transkription & Verlinkung von Zeitungen und WW1- Dokumenten • Mehr Infos? transcribathon.com/berlin2017 Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 71
  • 73. Schlussfolgerungen • Kuratierungstechnologien unterstützen Wissensarbeiter beim Verarbeiten von digitalen Inhalten. • Enormes Potential für Folgeaktivitäten in zusätzlichen Anwendungsszenarien – Projektantrag in Vorbereitung. • Kuratierungstechnologien werden benötigt, um die Wissensspeicher der Bibliotheken in das Digitale zu übertragen und tief zu erschließen. • Ziel: Bessere und einfachere Nutzbarkeit der Daten. • Bibliotheken können durch Bereitstellung frei nutzbarer, hochqualitativer Daten die Weiterentwicklung von semantischen Erschließungsmethoden fördern sowie auch neue Geschäftsfelder entwickeln. Berliner Bibliothekswissenschaftliches Kolloquium (BBK) – 06. Juni 2017 73