SlideShare a Scribd company logo
1 of 27
Download to read offline
Georg Rehm
georg.rehm@dfki.de
DFKI GmbH, Berlin
EVA Berlin 2016 – 09. November 2016
Digitale Kuratierungstechnologien für
verschiedene Branchen und
Anwendungsszenarien
Überblick
• Was ist digitale Kuratierung?
• BMBF-Projekt Digitale Kuratierungstechnologien
• DFKI-Teilprojekt
– Kuratierungstechnologien (Beispiele)
– Kuratierungs-Dashboard
• Ausblick und Schlussfolgerungen
EVA Berlin 2016 – 09. November 2016
Was ist digitale Kuratierung?
EVA Berlin 2016 – 09. November 2016
Information
Information
Information
Information
Information
Information
Information
Information
Information
Information
Was ist digitale Kuratierung?
EVA Berlin 2016 – 09. November 2016
Information
Information
Information
Information
Information
Information
Information
Information
Information
? ?
?
?Information
Was ist digitale Kuratierung?
EVA Berlin 2016 – 09. November 2016
Information
Information
Information
Information
Information
Information
Information
Information
Information
? Information
OutputInput SoftwareProzesse
?
?
?
Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präsentationen Multimedia-Website
Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag
Facebook-Meldung Überarbeiten Email Ausstellungskatalog
Suchergebnis Einlesen Browser Mobile Applikation
Email Schreiben Groupware Mashup (z.B. Karte)
SMS Gestalten Branchenapplikationen Textbeitrag
Konzept Recherchieren CMS Konzept
Textdateien Bewerten ECMS Zeitstrahl
Video Evaluieren CRM Fachartikel
Karte Ordnen Unternehmens-Software Studie
Stockfotos Sortieren Grafik-/Layout-Software Präsentation
In-house Datenbank Strukturieren Telefonie Faktensammlung
Kalendereintrag Zusammenfassen etc. Exponatsartikel
Spreadsheets Kürzen Analysen
Archiv Übersetzen etc.
etc. Informieren
Kombinieren
Abstrahieren
Einordnen
Visualisieren
Generieren
Annotieren
Referenzieren
etc.
Beobachtungen
• Inhalte: textzentriert, mehrsprachig, multimedial
• Kuratierung: zeit- und wissensintensiv, interdisziplinär,
evtl. durchgeführt in verteilten Teams
• Branche: domänen-/branchenspezifische Anforderungen
• Einschränkung: Traditionelle CMS-Systeme bieten
kaum Unterstützung für Kuratierungsprozesse!
• Sprachtechnologie kann helfen – Kombinierung von
Komponenten zu branchenspezifischen Workflows
DKT Kick-off-Veranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digital Curation
Technologies.” In Proceedings of the 19th Annual
Conference of the European Association for Machine
Translation (EAMT 2016), Riga, Lettland, Mai 2016
Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die
effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger
Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für
Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015
• Unterstützung und Optimierung digitaler Kuratierung durch
Sprach- und Wissenstechnologien.
• Entwicklung innovativer Prototypen bei den KMU-Partnern.
• Weiterentwicklung der DFKI-Technologien und Transfer mittels
Plattform für digitale Kuratierungstechnologien.
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
Visualisierung, UIs,
Ausstellungskuratierung
Kuratierung für Medien-
Redaktionen durch
innovative Empfehlungen
Semantic Story Telling
für Online-Redaktionen
Journalistische Kuratierungsworkflows für die
digitalen Geschäftsmodelle klassischer Printmedien
Sprach- und Wissenstechnologien als
Basis digitaler Kuratierungstechnologien
DKT besteht aus fünf Teilprojekten
Branche:
Museen, Showrooms,
Ausstellungen
Branche:
TV, Radio, Web-TV, Medien
Branche:
Öffentliche Archive
Branche:
Journalismus
Technologieplattform – Ziele
• Durch (Semi-)Automatisierung der Kuratierungsprozesse
zeitliche und finanzielle Aufwände reduzieren
• Flexible, robuste, skalierbare Services
• Gemeinsamer Bau von Prototypen (proofs-of-concept)
• Modulare Inhalte in
neuen Produktionen
aggregieren
• Interoperabilität durch
generische APIs
• Human in the loop
EVA Berlin 2016 – 09. November 2016
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
Die DFKI-Forschungsthemen
• Semantische Analyse und Generierung, Mehrsprachigkeit
• Integration von Nutzerfeedback in Kuratierungsservices
• Domänenadaptierbarkeit: individuelles Training und
nutzerzentrische Anpassungsmöglichkeiten
• Interoperabilität aller Services
• Harmonisierung von Datenformaten
• Hohe Qualität und Präzision
• Kuratierungs-Dashboard
EVA Berlin 2016 – 09. November 2016
DFKI-Teilprojekt: Sprach- und
Wissenstechnologien als Basis
digitaler Kuratierungstechnologien
Plattform für digitale Kuratierungstechnologien
Broker REST API
Kuratierungsservice 1
Kuratierungsservice 2
Client nutzt
das API
Externer
Service 1
Externer
Service 2
Client nutzt
das API
Client nutzt
das API
Client nutzt
das API
Kuratierungs-Workflow
EVA Berlin 2016 – 09. November 2016
• Kuratierungsservice: e-service, der per REST HTTP API bereitsteht.
Der Service analysiert den Input und reichert diesen an.
• Services können zu Pipelines bzw. Workflows kombiniert werden.
Output
Aktueller Stand
• Plattform: Services und Service-Workflows
• Implementierte Kuratierungsservices:
– Named Entity Recognition – e-entityrecognition e-service
– Geolocation – e-entityrecognition, Visualisierung
– Temporal Analyser – e-entityrecognition, Visualisierung
– Classification – e-classification e-service
– Clustering – e-clustering e-service
– Textzusammenfassen– e-summarisation e-service
– Maschinelle Übersetzung – e-translation e-service
– Semantic Storytelling – work in progress
• Kuratierungs-Dashboard: Erster Prototyp
EVA Berlin 2016 – 09. November 2016
NER, Linking, Geolokalisierung
EVA Berlin 2016 – 09. November 2016
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
...
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
…
Plain Text NIF-Anreicherung Visualisierung
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php
• Modus 1: Modell-basiert (für Domänen, für
die annotierte Trainingsdaten verfügbar sind)
• Modus 2: Wörterbuch-basiert (für Domänen,
für die lediglich Namenslisten verfügbar sind)
• Basiert auf OpenNLP (mit NIF-Integration)
• Entity-Linking durch SPARQL-Querys auf DBPedia.
• Für Lokationen werden GPS-Koordinaten bezogen.
• Es werden Durchschnittsangaben berechnet auf
Dokumentebene (über alle Lokationen), um diese auf
einer Karte visualisieren zu können.
Geolokalisierung als visuelles Zusammenfassen!
EVA Berlin 2016 – 09. November 2016
NE Recognition und Linking
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict
• Falls lediglich Listen von Namen oder Termen und deren URIs in einer
Ontologie zur Verfügung stehen.
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner
• Falls annotierte Trainingsdaten zur Verfügung stehen
auf neuem Input nutzbar
(auch gemeinsam)
statistisches
NER-Modell
Datenbank-Dump der
Mendelsohn-Briefe
Hohe Qualität
Benötigt annotierte Daten
Mittlere Qualität
Benötigt weniger annotierte Daten
• Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B)
vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden.
• Diese Liste kann vom Wissensarbeiter überprüft und anschließend als
Wörterbuch (A) eingesetzt werden.
Mittlere Qualität
Menschliche Intervention notwendig
Benötigt keine annotierten Daten
A B
C
• Linking per Extraktion der DBpedia-URI
• NE-Typspezifische SPARQL-Querys für
Personen (Geburtsdatum), Lokationen
(Koordinaten), Organisationen (Typ)
• Wörterbuch kann URIs enthalten
EVA Berlin 2016 – 09. November 2016
Zeitausdrücke
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
...
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
…
900
1600
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp
http://dev.digitale-kuratierung.de/admini/pages/timelining.php
Plain-Text NIF-Anreicherung Visualisierung
• Sortiert Dokumente auf einer
chronologischen Skala.
• Regelbasiertes System, um
unsere Zielsprachen
bestmöglich bedienen zu
können (EN, DE).
• Analyse von Zeitausdrücken
in einem Dokument.
• Berechnet Durchschnittswerte
und Intervalle.
• Plan: Mechanismus für
nutzerbasierte Regeln.
• Verwandte Arbeiten: SUTime,
HeidelTime, Tango, Tarsgi.
Maschinelle Übersetzung
EVA Berlin 2016 – 09. November 2016
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
Herr Modi befindet sich auf einer fünftägigen
Reise nach Japan, um die wirtschaftlichen
Beziehungen mit der drittgrößten
Wirtschaftsnation der Welt zu festigen.
Mr Modi is located on a five-day trip to Japan to
strengthen the economic ties with the third largest
economy in the world.
Named Entity
Recognition
Entity Linking
Temporal
Expressions
Metadata
Processing
Post-Edit
Retraining
Beispiel
• Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.)
• Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a.
• Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF
• Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet)
Eleftherios Avramidis, Aljoscha Burchardt, Vivien Macketanz,
Ankit Srivastava. 2016. “DFKI’s System for WMT16 IT-domain
Task, including Analysis of Systematic Errors”. In Proc. of the 1st
Conf. on Machine Translation, Berlin, S. 415-422.
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
Textanalytik für bessere MT
EVA Berlin 2016 – 09. November 2016
Ankit Srivastava, Felix Sasaki, Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, und
Georg Rehm. 2016. “How to Configure Statistical Machine Translation with Linked Open Data
Resources”. In Proc. of Translating and Computer 38. London, November. Im Druck.
Quellsprache: Englisch
1. A European Commission spokesman …
2. MS Paint is a good option.
Zielsprache: Deutsch
1. Ein Sprecher der European Commission …
2. Frau Farbe ist eine gute wahl.
• Korrektur von Übersetzungsfehlern durch Textanalytik.
• Unbekanntes Wort: “European Commission” sollte als „Europäische
Kommission“ übersetzt werden. Übersetzung kann aus Dbpedia bezogen werden.
• Disambiguierung: “MS Paint” wird als Person und nicht als Produktname erkannt.
Lösung: Term wird als benannte Entität getaggt und bleibt unübersetzt.
Textzusammenfassen
EVA Berlin 2016 – 09. November 2016
Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am
Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79
Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen
bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE-
Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der
Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB-
Werte jeweils bei 11,77 bzw. 2,13 liegen.
Im letzten Monat und den letzten
3 Monaten verlor die RWE-Aktie
3,79% bzw. 18,95% und in den
letzten 3 Tagen 3,55%.
• Kuratierungsservice rankt Sätze – basierend auf div.
Features – hinsichtlich ihrer Wichtigkeit.
• Modul ist in der Entwicklung.
• Beispiel: Artikel über den fallenden Aktienkurs von
RWE (Daten stammen von Condat).
• Ausblick: Integration der Analyseergebnisse anderer
DKT-Services in den Algorithmus.
Semantic Storytelling
• Wichtige Funktionalität in allen KMU-Partner-Use Cases:
Automatisches Hyperlinking von Dokumentkollektionen
• Input: Kohärente, in sich geschlossene Kollektion
• Output: Angereicherte Kollektion, die als Hypertext zugreifbar
ist – für effizientes und intuitives Browsing
• Semantic Storytelling – arbeitet auf diesem Hypertextgraph,
den wir auf der ursprünglichen Kollektion erzeugen
• Ermöglicht multiple Rezeptionspfade durch die Kollektion
• Semantic Storytelling ist die Identifizierung, das Ranking
und die Empfehlung sinnvoller Hypertextpfade
• Es gibt noch zahlreiche Herausforderungen ...
EVA Berlin 2016 – 09. November 2016
EVA Berlin 2016 – 09. November 2016
Semantic Storytelling
• Aktueller, experimenteller Stand: GUI erlaubt dynamischen Überblick, welche
salienten, in einer Kollektion genannten Entitäten was und wo getan haben.
• Nutzer sollen sich schnell einen Überblick über den Inhalt verschaffen können.
EVA Berlin 2016 – 09. November 2016
(Vergrößerung)
Julián Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix
Sasaki, and Ankit Srivastava. Towards Semantic Story Telling with Digital
Curation Technologies. In Larry Birnbaum, Octavian Popescuk und Carlo
Strapparava, Hrsg., Proceedings of Natural Language Processing meets
Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016.
Peter Bourgonje, Julián Moreno Schneider, Georg Rehm und Felix Sasaki.
Processing Document Collections to Automatically Extract Linked Data:
Semantic Storytelling Technologies for Smart Curation Workflows. In Aldo
Gangemi und Claire Gardent, Hrsg., Proceedings of the 2nd International
Workshop on Natural Language Generation and the Semantic Web
(WebNLG 2016), S. 13-16, Edinburgh, UK, September 2016. The Association
for Computational Linguistics.
Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix
Sasaki und Ankit Srivastava. “Towards a Platform for Curation Technologies:
Enriching Text Collections with a Semantic-Web Layer.” In Harald Sack,
Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer und
Christoph Lange, Hrsg., The Semantic Web: ESWC 2016 Satellite Events,
Juni 2016.
Ausblick
• Automatisches Hyperlinking
• Integration in das Dashboard
• Generierung von Story-Pfaden
• Relationsextraktion und
Dependenzparsing
• Textgenerierung
Tool 1: Automatisches Glossar
• Automatisches
Glossar (Personen,
Orte, Organis.)
• Informieren über
unbekannte
Begriffe in einer
Sammlung.
• Links verweisen
auf die Vorkommen
in Dokumenten.
• Bekannt aus
Büchern und somit
direkt verständlich.
Glossar der Mendelsohn-Briefe
EVA Berlin 2016 – 09. November 2016
Tool 2: Autoritative Dokumente
• Über eine Entität
informieren, die in einer
Kollektion auftaucht (1).
• Dokumentauswahl listet
alle Entitäten auf (2).
• Klick listet Vorkommen
in Kollektion auf, sortiert
nach Frequenz (3).
• Hilft, diejenigen Doku-
mente zu finden, die
eine Entität häufig
erwähnen und daher
eine „Autorität“ bzgl.
dieser Entität darstellen.
EVA Berlin 2016 – 09. November 2016
1
2
3
Liste derjenigen Dokumente der Mendelsohn-Briefe,
in denen „New York“ auftaucht (nach Häufigkeit sortiert)
EVA Berlin 2016 – 09. November 2016
Schlussfolgerungen
• Kuratierungstechnologien können Wissensarbeiter beim
Verarbeiten von Inhalten und Wissen unterstützen.
• Großes Interesse an dem Ansatz und den bislang im
DFKI entwickelten Technologien.
• Aktuell: Erstes Inventar von Services.
• Enormes Potential für Folgeaktivitäten.
• Erweitertes Set von Services, automatischere Ansätze,
zusätzliche Branchen, zusätzliche Wissensquellen.
• Speziell: Zusammenstellung neuer Inhaltsprodukte,
Semantic Storytelling, Textgenerierung, Linked Data.
EVA Berlin 2016 – 09. November 2016
Vielen Dank!
http://www.digitale-kuratierung.de
EVA Berlin 2016 – 09. November 2016

More Related Content

Similar to Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungsszenarien

Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenGeorg Rehm
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
Europeana Newspapers German infoday - OCR @ CCS
Europeana Newspapers German infoday - OCR @ CCS Europeana Newspapers German infoday - OCR @ CCS
Europeana Newspapers German infoday - OCR @ CCS Europeana Newspapers
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Joachim Kemper
 
CeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der DiensteCeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der Diensteacosta-consult
 
Menschen verändern Bibliotheken!
Menschen verändern Bibliotheken!Menschen verändern Bibliotheken!
Menschen verändern Bibliotheken!Dr. Achim Bonte
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienGeorg Rehm
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineMax Kaiser
 
Horizon Report 2015 Library Edition
Horizon Report 2015 Library EditionHorizon Report 2015 Library Edition
Horizon Report 2015 Library EditionRudolf Mumenthaler
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)Georg Eck
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Matthias Arnold
 
Wissenschaftliches Publizieren mit Bibliotheken
Wissenschaftliches Publizieren mit BibliothekenWissenschaftliches Publizieren mit Bibliotheken
Wissenschaftliches Publizieren mit Bibliothekenstabihh
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Ralf Stockmann
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...ag-digitalisierung
 
Christian Hasiewicz: Kunden, Services, Technologien
Christian Hasiewicz: Kunden, Services, TechnologienChristian Hasiewicz: Kunden, Services, Technologien
Christian Hasiewicz: Kunden, Services, TechnologienZukunftswerkstatt
 
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...AlineDeicke
 
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und PerspektivenDigitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektivenintranda GmbH
 
Der Horizon Report Library Edition - ein kollaborativ entwickelter Trendreport
Der Horizon Report Library Edition - ein kollaborativ entwickelter TrendreportDer Horizon Report Library Edition - ein kollaborativ entwickelter Trendreport
Der Horizon Report Library Edition - ein kollaborativ entwickelter TrendreportRudolf Mumenthaler
 

Similar to Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungsszenarien (20)

Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Europeana Newspapers German infoday - OCR @ CCS
Europeana Newspapers German infoday - OCR @ CCS Europeana Newspapers German infoday - OCR @ CCS
Europeana Newspapers German infoday - OCR @ CCS
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
 
CeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der DiensteCeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der Dienste
 
Menschen verändern Bibliotheken!
Menschen verändern Bibliotheken!Menschen verändern Bibliotheken!
Menschen verändern Bibliotheken!
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books Online
 
Horizon Report 2015 Library Edition
Horizon Report 2015 Library EditionHorizon Report 2015 Library Edition
Horizon Report 2015 Library Edition
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
Publikationsstrategien im 21. Jahrhundert - Go Mobile (#tekom | TH-Nürnberg)
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
 
Wissenschaftliches Publizieren mit Bibliotheken
Wissenschaftliches Publizieren mit BibliothekenWissenschaftliches Publizieren mit Bibliotheken
Wissenschaftliches Publizieren mit Bibliotheken
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
 
Christian Hasiewicz: Kunden, Services, Technologien
Christian Hasiewicz: Kunden, Services, TechnologienChristian Hasiewicz: Kunden, Services, Technologien
Christian Hasiewicz: Kunden, Services, Technologien
 
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
 
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und PerspektivenDigitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
 
Projektvorstellung DHVLab (22.11.2016)
Projektvorstellung DHVLab (22.11.2016)Projektvorstellung DHVLab (22.11.2016)
Projektvorstellung DHVLab (22.11.2016)
 
Der Horizon Report Library Edition - ein kollaborativ entwickelter Trendreport
Der Horizon Report Library Edition - ein kollaborativ entwickelter TrendreportDer Horizon Report Library Edition - ein kollaborativ entwickelter Trendreport
Der Horizon Report Library Edition - ein kollaborativ entwickelter Trendreport
 

More from Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureGeorg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryGeorg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CGeorg Rehm
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeGeorg Rehm
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital EuropeGeorg Rehm
 
Curation Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeCuration Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeGeorg Rehm
 
The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9Georg Rehm
 
Web Annotations – A Game Changer for Language Technology?
Web Annotations – A Game Changer for Language Technology?Web Annotations – A Game Changer for Language Technology?
Web Annotations – A Game Changer for Language Technology?Georg Rehm
 

More from Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 
Curation Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeCuration Technologies for Multilingual Europe
Curation Technologies for Multilingual Europe
 
The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9
 
Web Annotations – A Game Changer for Language Technology?
Web Annotations – A Game Changer for Language Technology?Web Annotations – A Game Changer for Language Technology?
Web Annotations – A Game Changer for Language Technology?
 

Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungsszenarien

  • 1. Georg Rehm georg.rehm@dfki.de DFKI GmbH, Berlin EVA Berlin 2016 – 09. November 2016 Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungsszenarien
  • 2. Überblick • Was ist digitale Kuratierung? • BMBF-Projekt Digitale Kuratierungstechnologien • DFKI-Teilprojekt – Kuratierungstechnologien (Beispiele) – Kuratierungs-Dashboard • Ausblick und Schlussfolgerungen EVA Berlin 2016 – 09. November 2016
  • 3. Was ist digitale Kuratierung? EVA Berlin 2016 – 09. November 2016 Information Information Information Information Information Information Information Information Information Information
  • 4. Was ist digitale Kuratierung? EVA Berlin 2016 – 09. November 2016 Information Information Information Information Information Information Information Information Information ? ? ? ?Information
  • 5. Was ist digitale Kuratierung? EVA Berlin 2016 – 09. November 2016 Information Information Information Information Information Information Information Information Information ? Information OutputInput SoftwareProzesse ? ? ?
  • 6. Branchen Input Prozesse Software Output Tweet Analysieren Textverarbeitung Zeitungsartikel Zeitungsartikel Auswählen Präsentationen Multimedia-Website Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag Facebook-Meldung Überarbeiten Email Ausstellungskatalog Suchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte) SMS Gestalten Branchenapplikationen Textbeitrag Konzept Recherchieren CMS Konzept Textdateien Bewerten ECMS Zeitstrahl Video Evaluieren CRM Fachartikel Karte Ordnen Unternehmens-Software Studie Stockfotos Sortieren Grafik-/Layout-Software Präsentation In-house Datenbank Strukturieren Telefonie Faktensammlung Kalendereintrag Zusammenfassen etc. Exponatsartikel Spreadsheets Kürzen Analysen Archiv Übersetzen etc. etc. Informieren Kombinieren Abstrahieren Einordnen Visualisieren Generieren Annotieren Referenzieren etc. Beobachtungen • Inhalte: textzentriert, mehrsprachig, multimedial • Kuratierung: zeit- und wissensintensiv, interdisziplinär, evtl. durchgeführt in verteilten Teams • Branche: domänen-/branchenspezifische Anforderungen • Einschränkung: Traditionelle CMS-Systeme bieten kaum Unterstützung für Kuratierungsprozesse! • Sprachtechnologie kann helfen – Kombinierung von Komponenten zu branchenspezifischen Workflows
  • 7. DKT Kick-off-Veranstaltung – 25. September 2015 Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016 Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015 • Unterstützung und Optimierung digitaler Kuratierung durch Sprach- und Wissenstechnologien. • Entwicklung innovativer Prototypen bei den KMU-Partnern. • Weiterentwicklung der DFKI-Technologien und Transfer mittels Plattform für digitale Kuratierungstechnologien. Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  • 8. Visualisierung, UIs, Ausstellungskuratierung Kuratierung für Medien- Redaktionen durch innovative Empfehlungen Semantic Story Telling für Online-Redaktionen Journalistische Kuratierungsworkflows für die digitalen Geschäftsmodelle klassischer Printmedien Sprach- und Wissenstechnologien als Basis digitaler Kuratierungstechnologien DKT besteht aus fünf Teilprojekten
  • 9. Branche: Museen, Showrooms, Ausstellungen Branche: TV, Radio, Web-TV, Medien Branche: Öffentliche Archive Branche: Journalismus
  • 10. Technologieplattform – Ziele • Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche und finanzielle Aufwände reduzieren • Flexible, robuste, skalierbare Services • Gemeinsamer Bau von Prototypen (proofs-of-concept) • Modulare Inhalte in neuen Produktionen aggregieren • Interoperabilität durch generische APIs • Human in the loop EVA Berlin 2016 – 09. November 2016 Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  • 11. Die DFKI-Forschungsthemen • Semantische Analyse und Generierung, Mehrsprachigkeit • Integration von Nutzerfeedback in Kuratierungsservices • Domänenadaptierbarkeit: individuelles Training und nutzerzentrische Anpassungsmöglichkeiten • Interoperabilität aller Services • Harmonisierung von Datenformaten • Hohe Qualität und Präzision • Kuratierungs-Dashboard EVA Berlin 2016 – 09. November 2016 DFKI-Teilprojekt: Sprach- und Wissenstechnologien als Basis digitaler Kuratierungstechnologien
  • 12. Plattform für digitale Kuratierungstechnologien Broker REST API Kuratierungsservice 1 Kuratierungsservice 2 Client nutzt das API Externer Service 1 Externer Service 2 Client nutzt das API Client nutzt das API Client nutzt das API Kuratierungs-Workflow EVA Berlin 2016 – 09. November 2016 • Kuratierungsservice: e-service, der per REST HTTP API bereitsteht. Der Service analysiert den Input und reichert diesen an. • Services können zu Pipelines bzw. Workflows kombiniert werden. Output
  • 13. Aktueller Stand • Plattform: Services und Service-Workflows • Implementierte Kuratierungsservices: – Named Entity Recognition – e-entityrecognition e-service – Geolocation – e-entityrecognition, Visualisierung – Temporal Analyser – e-entityrecognition, Visualisierung – Classification – e-classification e-service – Clustering – e-clustering e-service – Textzusammenfassen– e-summarisation e-service – Maschinelle Übersetzung – e-translation e-service – Semantic Storytelling – work in progress • Kuratierungs-Dashboard: Erster Prototyp EVA Berlin 2016 – 09. November 2016
  • 14. NER, Linking, Geolokalisierung EVA Berlin 2016 – 09. November 2016 ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries ... ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. … Plain Text NIF-Anreicherung Visualisierung http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php • Modus 1: Modell-basiert (für Domänen, für die annotierte Trainingsdaten verfügbar sind) • Modus 2: Wörterbuch-basiert (für Domänen, für die lediglich Namenslisten verfügbar sind) • Basiert auf OpenNLP (mit NIF-Integration) • Entity-Linking durch SPARQL-Querys auf DBPedia. • Für Lokationen werden GPS-Koordinaten bezogen. • Es werden Durchschnittsangaben berechnet auf Dokumentebene (über alle Lokationen), um diese auf einer Karte visualisieren zu können. Geolokalisierung als visuelles Zusammenfassen!
  • 15. EVA Berlin 2016 – 09. November 2016 NE Recognition und Linking • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict • Falls lediglich Listen von Namen oder Termen und deren URIs in einer Ontologie zur Verfügung stehen. • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner • Falls annotierte Trainingsdaten zur Verfügung stehen auf neuem Input nutzbar (auch gemeinsam) statistisches NER-Modell Datenbank-Dump der Mendelsohn-Briefe Hohe Qualität Benötigt annotierte Daten Mittlere Qualität Benötigt weniger annotierte Daten • Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B) vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden. • Diese Liste kann vom Wissensarbeiter überprüft und anschließend als Wörterbuch (A) eingesetzt werden. Mittlere Qualität Menschliche Intervention notwendig Benötigt keine annotierten Daten A B C • Linking per Extraktion der DBpedia-URI • NE-Typspezifische SPARQL-Querys für Personen (Geburtsdatum), Lokationen (Koordinaten), Organisationen (Typ) • Wörterbuch kann URIs enthalten
  • 16. EVA Berlin 2016 – 09. November 2016 Zeitausdrücke ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. ... ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries … 900 1600 http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp http://dev.digitale-kuratierung.de/admini/pages/timelining.php Plain-Text NIF-Anreicherung Visualisierung • Sortiert Dokumente auf einer chronologischen Skala. • Regelbasiertes System, um unsere Zielsprachen bestmöglich bedienen zu können (EN, DE). • Analyse von Zeitausdrücken in einem Dokument. • Berechnet Durchschnittswerte und Intervalle. • Plan: Mechanismus für nutzerbasierte Regeln. • Verwandte Arbeiten: SUTime, HeidelTime, Tango, Tarsgi.
  • 17. Maschinelle Übersetzung EVA Berlin 2016 – 09. November 2016 Workflow Language & Translation Models trained on DGT, News, Europarl, TED Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen. Mr Modi is located on a five-day trip to Japan to strengthen the economic ties with the third largest economy in the world. Named Entity Recognition Entity Linking Temporal Expressions Metadata Processing Post-Edit Retraining Beispiel • Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.) • Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a. • Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF • Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet) Eleftherios Avramidis, Aljoscha Burchardt, Vivien Macketanz, Ankit Srivastava. 2016. “DFKI’s System for WMT16 IT-domain Task, including Analysis of Systematic Errors”. In Proc. of the 1st Conf. on Machine Translation, Berlin, S. 415-422. Workflow Language & Translation Models trained on DGT, News, Europarl, TED
  • 18. Textanalytik für bessere MT EVA Berlin 2016 – 09. November 2016 Ankit Srivastava, Felix Sasaki, Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, und Georg Rehm. 2016. “How to Configure Statistical Machine Translation with Linked Open Data Resources”. In Proc. of Translating and Computer 38. London, November. Im Druck. Quellsprache: Englisch 1. A European Commission spokesman … 2. MS Paint is a good option. Zielsprache: Deutsch 1. Ein Sprecher der European Commission … 2. Frau Farbe ist eine gute wahl. • Korrektur von Übersetzungsfehlern durch Textanalytik. • Unbekanntes Wort: “European Commission” sollte als „Europäische Kommission“ übersetzt werden. Übersetzung kann aus Dbpedia bezogen werden. • Disambiguierung: “MS Paint” wird als Person und nicht als Produktname erkannt. Lösung: Term wird als benannte Entität getaggt und bleibt unübersetzt.
  • 19. Textzusammenfassen EVA Berlin 2016 – 09. November 2016 Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79 Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE- Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB- Werte jeweils bei 11,77 bzw. 2,13 liegen. Im letzten Monat und den letzten 3 Monaten verlor die RWE-Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. • Kuratierungsservice rankt Sätze – basierend auf div. Features – hinsichtlich ihrer Wichtigkeit. • Modul ist in der Entwicklung. • Beispiel: Artikel über den fallenden Aktienkurs von RWE (Daten stammen von Condat). • Ausblick: Integration der Analyseergebnisse anderer DKT-Services in den Algorithmus.
  • 20. Semantic Storytelling • Wichtige Funktionalität in allen KMU-Partner-Use Cases: Automatisches Hyperlinking von Dokumentkollektionen • Input: Kohärente, in sich geschlossene Kollektion • Output: Angereicherte Kollektion, die als Hypertext zugreifbar ist – für effizientes und intuitives Browsing • Semantic Storytelling – arbeitet auf diesem Hypertextgraph, den wir auf der ursprünglichen Kollektion erzeugen • Ermöglicht multiple Rezeptionspfade durch die Kollektion • Semantic Storytelling ist die Identifizierung, das Ranking und die Empfehlung sinnvoller Hypertextpfade • Es gibt noch zahlreiche Herausforderungen ... EVA Berlin 2016 – 09. November 2016
  • 21. EVA Berlin 2016 – 09. November 2016 Semantic Storytelling • Aktueller, experimenteller Stand: GUI erlaubt dynamischen Überblick, welche salienten, in einer Kollektion genannten Entitäten was und wo getan haben. • Nutzer sollen sich schnell einen Überblick über den Inhalt verschaffen können.
  • 22. EVA Berlin 2016 – 09. November 2016 (Vergrößerung) Julián Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016. Peter Bourgonje, Julián Moreno Schneider, Georg Rehm und Felix Sasaki. Processing Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the 2nd International Workshop on Natural Language Generation and the Semantic Web (WebNLG 2016), S. 13-16, Edinburgh, UK, September 2016. The Association for Computational Linguistics. Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic Web: ESWC 2016 Satellite Events, Juni 2016. Ausblick • Automatisches Hyperlinking • Integration in das Dashboard • Generierung von Story-Pfaden • Relationsextraktion und Dependenzparsing • Textgenerierung
  • 23. Tool 1: Automatisches Glossar • Automatisches Glossar (Personen, Orte, Organis.) • Informieren über unbekannte Begriffe in einer Sammlung. • Links verweisen auf die Vorkommen in Dokumenten. • Bekannt aus Büchern und somit direkt verständlich. Glossar der Mendelsohn-Briefe EVA Berlin 2016 – 09. November 2016
  • 24. Tool 2: Autoritative Dokumente • Über eine Entität informieren, die in einer Kollektion auftaucht (1). • Dokumentauswahl listet alle Entitäten auf (2). • Klick listet Vorkommen in Kollektion auf, sortiert nach Frequenz (3). • Hilft, diejenigen Doku- mente zu finden, die eine Entität häufig erwähnen und daher eine „Autorität“ bzgl. dieser Entität darstellen. EVA Berlin 2016 – 09. November 2016 1 2 3 Liste derjenigen Dokumente der Mendelsohn-Briefe, in denen „New York“ auftaucht (nach Häufigkeit sortiert)
  • 25. EVA Berlin 2016 – 09. November 2016
  • 26. Schlussfolgerungen • Kuratierungstechnologien können Wissensarbeiter beim Verarbeiten von Inhalten und Wissen unterstützen. • Großes Interesse an dem Ansatz und den bislang im DFKI entwickelten Technologien. • Aktuell: Erstes Inventar von Services. • Enormes Potential für Folgeaktivitäten. • Erweitertes Set von Services, automatischere Ansätze, zusätzliche Branchen, zusätzliche Wissensquellen. • Speziell: Zusammenstellung neuer Inhaltsprodukte, Semantic Storytelling, Textgenerierung, Linked Data. EVA Berlin 2016 – 09. November 2016