Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Georg Rehm
georg.rehm@dfki.de
DFKI GmbH, Berlin
#DKT16: Smarte Technologien für Wissensarbeiter
11. Oktober 2016 – Humbold...
Semantic Media Web 2014
Einführung des Konzepts „Digitale Kuratierung“
Semantic Media Web – #DKT15
Vorstellung des neuen B...
Überblick
• Was ist digitale Kuratierung?
• BMBF-Projekt Digitale Kuratierungstechnologien
• DFKI-Teilprojekt
– Kuratierun...
Was ist digitale Kuratierung?
#DKT16 – 11. Oktober 2016
Information
Information
Information
Information
Information
Inform...
Was ist digitale Kuratierung?
#DKT16 – 11. Oktober 2016
Information
Information
Information
Information
Information
Inform...
Was ist digitale Kuratierung?
#DKT16 – 11. Oktober 2016
Information
Information
Information
Information
Information
Inform...
Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präse...
DKT Kick-off-Veranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digital Curation
Technologies.” In Proceedin...
9
Visualisierung, UIs,
Ausstellungskuratierung
Kuratierung für Medien-
Redaktionen durch
innovative Empfehlungen
Semantic ...
10
Branche:
Museen, Showrooms,
Ausstellungen
Branche:
TV, Radio, Web-TV, Medien
Branche:
Öffentliche Archive
Branche:
Jour...
Technologieplattform – Ziele
• Durch (Semi-)Automatisierung der Kuratierungsprozesse
zeitliche und finanzielle Aufwände re...
Die DFKI-Forschungsthemen
• Semantische Analyse und Generierung, Mehrsprachigkeit
• Integration von Nutzerfeedback in Kura...
Plattform für digitale Kuratierungstechnologien
Broker REST API
Kuratierungsservice 1
Kuratierungsservice 2
Client nutzt
d...
NLP Interchange Format – NIF
• RDF/OWL-basiertes Format für NLP-Anwendungen
• Ermöglicht Interoperabilität zwischen Tools ...
Aktueller Stand
• Plattform: Services und Service-Workflows
• Implementierte Kuratierungsservices:
– Named Entity Recognit...
NER, Linking, Geolokalisierung
#DKT16 – 11. Oktober 2016
...
In the Viking colony of Iceland,
an extraordinary vernacular
...
#DKT16 – 11. Oktober 2016
NE Recognition und Linking
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=di...
#DKT16 – 11. Oktober 2016
Zeitausdrücke
...
The ships were scuttled there
in the 11th century, to block a
navigation chann...
Maschinelle Übersetzung
#DKT16 – 11. Oktober 2016
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, T...
Textanalytik für bessere MT
#DKT16 – 11. Oktober 2016
Ankit Srivastava, Felix Sasaki, Peter Bourgonje, Julian Moreno-Schne...
Textzusammenfassen
#DKT16 – 11. Oktober 2016
Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte ...
Semantic Storytelling
• Wichtige Funktionalität in allen KMU-Partner-Use Cases:
Automatisches Hyperlinking von Dokumentkol...
#DKT16 – 11. Oktober 2016
<http://d-nb.info/gnd/11858071X, met, http://d-nb.info/gnd/129094722>
http://dev.digitale-kurati...
#DKT16 – 11. Oktober 2016
Semantic Storytelling
• Aktueller, experimenteller Stand: GUI erlaubt dynamischen Überblick, wel...
#DKT16 – 11. Oktober 2016
(Vergrößerung)
Julián Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix
Sasaki, ...
Tool 1: Automatisches Glossar
• Automatisches
Glossar (Personen,
Orte, Organis.)
• Informieren über
unbekannte
Begriffe in...
Tool 2: Autoritative Dokumente
• Über eine Entität
informieren, die in einer
Kollektion auftaucht (1).
• Dokumentauswahl l...
#DKT16 – 11. Oktober 2016 28
29
Branche:
Museen, Showrooms,
Ausstellungen
Branche:
TV, Radio, Web-TV, Medien
Branche:
Öffentliche Archive
Branche:
Jour...
30
Branche:
Museen, Showrooms,
Ausstellungen
Branche:
TV, Radio, Web-TV, Medien
Branche:
Öffentliche Archive
Branche:
Jour...
31
Branche:
Museen, Showrooms,
Ausstellungen
Branche:
TV, Radio, Web-TV, Medien
Branche:
Öffentliche Archive
Branche:
Jour...
Schlussfolgerungen
• Kuratierungstechnologien können Wissensarbeiter beim
Verarbeiten von Inhalten und Wissen unterstützen...
Vielen Dank!
http://www.digitale-kuratierung.de
33
Das DFKI-DKT-Team:
#DKT16 – 11. Oktober 2016
Upcoming SlideShare
Loading in …5
×

Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergründe, Beispiele, Prototypen.

110 views

Published on

Georg Rehm. Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergründe, Beispiele, Prototypen. #DKT16 - Smarte Technologien für Wissensarbeiter, Berlin, Germany, October 2016. October 11, 2016. Invited keynote talk.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergründe, Beispiele, Prototypen.

  1. 1. Georg Rehm georg.rehm@dfki.de DFKI GmbH, Berlin #DKT16: Smarte Technologien für Wissensarbeiter 11. Oktober 2016 – Humboldt Universität zu Berlin Generische Kuratierungstechnologien für spezifische Anwendungsfälle
  2. 2. Semantic Media Web 2014 Einführung des Konzepts „Digitale Kuratierung“ Semantic Media Web – #DKT15 Vorstellung des neuen BMBF-Projekts „Digitale Kuratierungstechnologien“ Semantic Media Web – #DKT16 Halbzeit im BMBF-Projekt – Vorstellung der ersten Ergebnisse
  3. 3. Überblick • Was ist digitale Kuratierung? • BMBF-Projekt Digitale Kuratierungstechnologien • DFKI-Teilprojekt – Kuratierungstechnologien (Beispiele) – Kuratierungs-Dashboard • Ausblick und Schlussfolgerungen #DKT16 – 11. Oktober 2016 3
  4. 4. Was ist digitale Kuratierung? #DKT16 – 11. Oktober 2016 Information Information Information Information Information Information Information Information Information Information 4
  5. 5. Was ist digitale Kuratierung? #DKT16 – 11. Oktober 2016 Information Information Information Information Information Information Information Information Information ? ? ? ?Information 5
  6. 6. Was ist digitale Kuratierung? #DKT16 – 11. Oktober 2016 Information Information Information Information Information Information Information Information Information ? Information OutputInput SoftwareProzesse 6 ? ? ?
  7. 7. Branchen Input Prozesse Software Output Tweet Analysieren Textverarbeitung Zeitungsartikel Zeitungsartikel Auswählen Präsentationen Multimedia-Website Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag Facebook-Meldung Überarbeiten Email Ausstellungskatalog Suchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte) SMS Gestalten Branchenapplikationen Textbeitrag Konzept Recherchieren CMS Konzept Textdateien Bewerten ECMS Zeitstrahl Video Evaluieren CRM Fachartikel Karte Ordnen Unternehmens-Software Studie Stockfotos Sortieren Grafik-/Layout-Software Präsentation In-house Datenbank Strukturieren Telefonie Faktensammlung Kalendereintrag Zusammenfassen etc. Exponatsartikel Spreadsheets Kürzen Analysen Archiv Übersetzen etc. etc. Informieren Kombinieren Abstrahieren Einordnen Visualisieren Generieren Annotieren Referenzieren etc. Beobachtungen • Inhalte: textzentriert, mehrsprachig, multimedial • Kuratierung: zeit- und wissensintensiv, interdisziplinär, evtl. durchgeführt in verteilten Teams • Branche: domänen-/branchenspezifische Anforderungen • Einschränkung: Traditionelle CMS-Systeme bieten kaum Unterstützung für Kuratierungsprozesse! • Sprachtechnologie kann helfen – Kombinierung von Komponenten zu branchenspezifischen Workflows
  8. 8. DKT Kick-off-Veranstaltung – 25. September 2015 Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016 Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015 • Unterstützung und Optimierung digitaler Kuratierung durch Sprach- und Wissenstechnologien. • Entwicklung innovativer Prototypen bei den KMU-Partnern. • Weiterentwicklung der DFKI-Technologien und Transfer mittels Plattform für digitale Kuratierungstechnologien. Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  9. 9. 9 Visualisierung, UIs, Ausstellungskuratierung Kuratierung für Medien- Redaktionen durch innovative Empfehlungen Semantic Story Telling für Online-Redaktionen Journalistische Kuratierungsworkflows für die digitalen Geschäftsmodelle klassischer Printmedien Sprach- und Wissenstechnologien als Basis digitaler Kuratierungstechnologien DKT besteht aus fünf Teilprojekten
  10. 10. 10 Branche: Museen, Showrooms, Ausstellungen Branche: TV, Radio, Web-TV, Medien Branche: Öffentliche Archive Branche: Journalismus
  11. 11. Technologieplattform – Ziele • Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche und finanzielle Aufwände reduzieren • Flexible, robuste, skalierbare Services • Gemeinsamer Bau von Prototypen (proofs-of-concept) • Modulare Inhalte in neuen Produktionen aggregieren • Interoperabilität durch generische APIs • Human in the loop #DKT16 – 11. Oktober 2016 11 Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  12. 12. Die DFKI-Forschungsthemen • Semantische Analyse und Generierung, Mehrsprachigkeit • Integration von Nutzerfeedback in Kuratierungsservices • Domänenadaptierbarkeit: individuelles Training und nutzerzentrische Anpassungsmöglichkeiten • Interoperabilität aller Services • Harmonisierung von Datenformaten • Hohe Qualität und Präzision • Kuratierungs-Dashboard #DKT16 – 11. Oktober 2016 12 DFKI-Teilprojekt: Sprach- und Wissenstechnologien als Basis digitaler Kuratierungstechnologien
  13. 13. Plattform für digitale Kuratierungstechnologien Broker REST API Kuratierungsservice 1 Kuratierungsservice 2 Client nutzt das API Externer Service 1 Externer Service 2 Client nutzt das API Client nutzt das API Client nutzt das API Kuratierungs-Workflow #DKT16 – 11. Oktober 2016 • Kuratierungsservice: e-service, der per REST HTTP API bereitsteht. Der Service analysiert den Input und reichert diesen an. • Services können zu Pipelines bzw. Workflows kombiniert werden. Output 13
  14. 14. NLP Interchange Format – NIF • RDF/OWL-basiertes Format für NLP-Anwendungen • Ermöglicht Interoperabilität zwischen Tools und Ressourcen • Durch pures RDF „natürliche“ Integration von Linked Data • Entwickelt von der Unversität Leipzig #DKT16 – 11. Oktober 2016 14 { "@graph" : [ { "@id" : "http://dev.digitale-kuratierung.de/#char=0,20", "@type" : [ "nif:RFC5147String", "nif:Context ], "beginIndex" : "0", "endIndex" : "20", "isString" : "Willkommen in Berlin", "referenceContext" : "http://dev.digitale-kuratierung.de/#char=0,20", }, { "@id" : "http://dev.digitale-kuratierung.de/#char=14,20", "@type" : [ "nif:RFC5147String", "nif:Word" ], "anchorOf" : "Berlin", "beginIndex" : "14", "endIndex" : "20", "taIdentRef" : "http://dbpedia.org/resource/Berlin" } ] } Dokument-URI Eingabedokument Annotation-URI Character-Offset DBPedia-Link
  15. 15. Aktueller Stand • Plattform: Services und Service-Workflows • Implementierte Kuratierungsservices: – Named Entity Recognition – e-entityrecognition e-service – Geolocation – e-entityrecognition, Visualisierung – Temporal Analyser – e-entityrecognition, Visualisierung – Classification – e-classification e-service – Clustering – e-clustering e-service – Textzusammenfassen– e-summarisation e-service – Maschinelle Übersetzung – e-translation e-service – Semantic Storytelling – work in progress • Kuratierungsdashboard: Erster Prototyp #DKT16 – 11. Oktober 2016 15
  16. 16. NER, Linking, Geolokalisierung #DKT16 – 11. Oktober 2016 ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries ... ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. … Plain Text NIF-Anreicherung Visualisierung http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php • Modus 1: Modell-basiert (für Domänen, für die annotierte Trainingsdaten verfügbar sind) • Modus 2: Wörterbuch-basiert (für Domänen, für die lediglich Namenslisten verfügbar sind) • Basiert auf OpenNLP (mit NIF-Integration) • Entity-Linking durch SPARQL-Querys auf DBPedia. • Für Lokationen werden GPS-Koordinaten bezogen. • Es werden Durchschnittsangaben berechnet auf Dokumentebene (über alle Lokationen), um diese auf einer Karte visualisieren zu können. Geolokalisierung als visuelles Zusammenfassen! 16
  17. 17. #DKT16 – 11. Oktober 2016 NE Recognition und Linking • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict • Falls lediglich Listen von Namen oder Termen und deren URIs in einer Ontologie zur Verfügung stehen. • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner • Falls annotierte Trainingsdaten zur Verfügung stehen auf neuem Input nutzbar (auch gemeinsam) statistisches NER-Modell Datenbank-Dump der Mendelsohn-Briefe Hohe Qualität Benötigt annotierte Daten Mittlere Qualität Benötigt weniger annotierte Daten • Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B) vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden. • Diese Liste kann vom Wissensarbeiter überprüft und anschließend als Wörterbuch (A) eingesetzt werden. Mittlere Qualität Menschliche Intervention notwendig Benötigt keine annotierten Daten A B C • Linking per Extraktion der DBpedia-URI • NE-Typspezifische SPARQL-Querys für Personen (Geburtsdatum), Lokationen (Koordinaten), Organisationen (Typ) • Wörterbuch kann URIs enthalten 17
  18. 18. #DKT16 – 11. Oktober 2016 Zeitausdrücke ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. ... ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries … 900 1600 http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp http://dev.digitale-kuratierung.de/admini/pages/timelining.php Plain-Text NIF-Anreicherung Visualisierung • Sortiert Dokumente auf einer chronologischen Skala. • Regelbasiertes System, um unsere Zielsprachen bestmöglich bedienen zu können (EN, DE). • Analyse von Zeitausdrücken in einem Dokument. • Berechnet Durchschnittswerte und Intervalle. • Plan: Mechanismus für nutzerbasierte Regeln. • Verwandte Arbeiten: SUTime, HeidelTime, Tango, Tarsgi. 18
  19. 19. Maschinelle Übersetzung #DKT16 – 11. Oktober 2016 Workflow Language & Translation Models trained on DGT, News, Europarl, TED Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen. Mr Modi is located on a five-day trip to Japan to strengthen the economic ties with the third largest economy in the world. Named Entity Recognition Entity Linking Temporal Expressions Metadata Processing Post-Edit Retraining Beispiel • Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.) • Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a. • Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF • Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet) Eleftherios Avramidis, Aljoscha Burchardt, Vivien Macketanz, Ankit Srivastava. 2016. “DFKI’s System for WMT16 IT-domain Task, including Analysis of Systematic Errors”. In Proc. of the 1st Conf. on Machine Translation, Berlin, S. 415-422. Workflow Language & Translation Models trained on DGT, News, Europarl, TED 19
  20. 20. Textanalytik für bessere MT #DKT16 – 11. Oktober 2016 Ankit Srivastava, Felix Sasaki, Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, und Georg Rehm. 2016. “How to Configure Statistical Machine Translation with Linked Open Data Resources”. In Proc. of Translating and Computer 38. London, November. Im Druck. Quellsprache: Englisch 1. A European Commission spokesman … 2. MS Paint is a good option. Zielsprache: Deutsch 1. Ein Sprecher der European Commission … 2. Frau Farbe ist eine gute wahl. • Korrektur von Übersetzungsfehlern durch Textanalytik. • Unbekanntes Wort: “European Commission” sollte als „Europäische Kommission“ übersetzt werden. Übersetzung kann aus Dbpedia bezogen werden. • Disambiguierung: “MS Paint” wird als Person und nicht als Produktname erkannt. Lösung: Term wird als benannte Entität getaggt und bleibt unübersetzt. 20
  21. 21. Textzusammenfassen #DKT16 – 11. Oktober 2016 Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79 Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE- Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB- Werte jeweils bei 11,77 bzw. 2,13 liegen. Im letzten Monat und den letzten 3 Monaten verlor die RWE-Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. • Kuratierungsservice rankt Sätze – basierend auf div. Features – hinsichtlich ihrer Wichtigkeit. • Modul ist in der Entwicklung. • Beispiel: Artikel über den fallenden Aktienkurs von RWE (Daten stammen von Condat) • Ausblick: Integration der Analyseergebnisse anderer DKT-Services in den Algorithmus. 21
  22. 22. Semantic Storytelling • Wichtige Funktionalität in allen KMU-Partner-Use Cases: Automatisches Hyperlinking von Dokumentkollektionen • Input: Kohärente, in sich geschlossene Kollektion • Output: Angereicherte Kollektion, die als Hypertext zugreifbar ist – für effizientes und intuitives Browsing • Semantic Storytelling – arbeitet auf diesem Hypertextgraph, den wir auf der ursprünglichen Kollektion erzeugen • Ermöglicht multiple Rezeptionspfade durch die Kollektion • Semantic Storytelling ist die Identifizierung, das Ranking und die Empfehlung sinnvoller Hypertextpfade • Es gibt noch zahlreiche Herausforderungen ... #DKT16 – 11. Oktober 2016 22
  23. 23. #DKT16 – 11. Oktober 2016 <http://d-nb.info/gnd/11858071X, met, http://d-nb.info/gnd/129094722> http://dev.digitale-kuratierung.de/2ds3/index.php <http://d-nb.info/gnd/118589768, wrote, http://d-nb.info/gnd/118623230> <http://d-nb.info/gnd/123242231, visited, http://d-nb.info/gnd/188402519> <http://d-nb.info/gnd/118569015, said, http://d-nb.info/gnd/11947509X> <http://d-nb.info/gnd/119173425, was, http://d-nb.info/gnd/118629867> <http://d-nb.info/gnd/119178893, designed, http://d-<nb.info/gnd/118629867> <http://d-nb.info/gnd/118876759, love, http://d-nb.info/gnd/118629867> <http://d-nb.info/gnd/118545892, depart, http://d-nb.info/gnd/107363569> <http://d-nb.info/gnd/128830751, write, http://d-nb.info/gnd/118606026> <http://d-nb.info/gnd/11858071X, protect, http://d-nb.info/gnd/39650438> <http://d-nb.info/gnd/116713704, married, http://d-nb.info/gnd/52754181> … 1 2 3 45 23 Dokument- sammlung Semantische Analyse Extraktion von Konzepten und Relationen Semantische Relationen zwischen Entitäten Interaktive Oberfläche zur Exploration des semantischen Netzes
  24. 24. #DKT16 – 11. Oktober 2016 Semantic Storytelling • Aktueller, experimenteller Stand: GUI erlaubt dynamischen Überblick, welche salienten, in einer Kollektion genannten Entitäten was und wo getan haben. • Nutzer sollen sich schnell einen Überblick über den Inhalt verschaffen können. 24
  25. 25. #DKT16 – 11. Oktober 2016 (Vergrößerung) Julián Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016. Peter Bourgonje, Julián Moreno Schneider, Georg Rehm und Felix Sasaki. Processing Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the 2nd International Workshop on Natural Language Generation and the Semantic Web (WebNLG 2016), S. 13-16, Edinburgh, UK, September 2016. The Association for Computational Linguistics. Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic Web: ESWC 2016 Satellite Events, Juni 2016. 25 Ausblick • Automatisches Hyperlinking • Integration in das Dashboard • Generierung von Story-Pfaden • Relationsextraktion und Dependenzparsing • Textgenerierung
  26. 26. Tool 1: Automatisches Glossar • Automatisches Glossar (Personen, Orte, Organis.) • Informieren über unbekannte Begriffe in einer Sammlung. • Links verweisen auf die Vorkommen in Dokumenten. • Bekannt aus Büchern und somit direkt verständlich. Glossar der Mendelsohn-Briefe #DKT16 – 11. Oktober 2016 26
  27. 27. Tool 2: Autoritative Dokumente • Über eine Entität informieren, die in einer Kollektion auftaucht (1). • Dokumentauswahl listet alle Entitäten auf (2). • Klick listet Vorkommen in Kollektion auf, sortiert nach Frequenz (3). • Hilft, diejenigen Doku- mente zu finden, die eine Entität häufig erwähnen und daher eine „Autorität“ bzgl. dieser Entität darstellen. #DKT16 – 11. Oktober 2016 27 1 2 3 Liste derjenigen Dokumente der Mendelsohn-Briefe, in denen „New York“ auftaucht (nach Häufigkeit sortiert)
  28. 28. #DKT16 – 11. Oktober 2016 28
  29. 29. 29 Branche: Museen, Showrooms, Ausstellungen Branche: TV, Radio, Web-TV, Medien Branche: Öffentliche Archive Branche: Journalismus
  30. 30. 30 Branche: Museen, Showrooms, Ausstellungen Branche: TV, Radio, Web-TV, Medien Branche: Öffentliche Archive Branche: Journalismus Branche: Bibliotheken Branche: Wissenschaft Branche: Corporate/Enterprise Branche: Medizin, Healthcare Forensische Linguistik Investigativer Journalismus CRM, SEO, etc.
  31. 31. 31 Branche: Museen, Showrooms, Ausstellungen Branche: TV, Radio, Web-TV, Medien Branche: Öffentliche Archive Branche: Journalismus Branche: Bibliotheken Branche: Wissenschaft Branche: Corporate/Enterprise Branche: Medizin, Healthcare Forensische Linguistik Investigativer Journalismus CRM, SEO, etc. Clemens Neudecker und Georg Rehm. „Digitale Kuratierungstechnologien für Bibliotheken“. Zeitschrift für Bibliothekskultur 027.7, Open Access. Nov. 2016. Im Druck. Georg Rehm. Der Mensch bleibt im Mittelpunkt – Smarte Technologien für alle Branchen. Vitako Aktuell. Zeitschrift der Bundes-Arbeitsgemeinschaft der Kommunalen IT-Dienstleister e.V., 2-2016:26-27, 2016.
  32. 32. Schlussfolgerungen • Kuratierungstechnologien können Wissensarbeiter beim Verarbeiten von Inhalten und Wissen unterstützen. • Großes Interesse an dem Ansatz und den bislang im DFKI entwickelten Technologien. • Aktuell: Gutes erstes Inventar von Services. • Enormes Potential für Folgeaktivitäten. • Erweitertes Set von Services, automatischere Ansätze, zusätzliche Branchen, zusätzliche Wissensquellen. • Speziell: Semantic Storytelling, Textgenerierung, Linked Data, Zusammenstellung neuer Inhaltsprodukte. #DKT16 – 11. Oktober 2016 32
  33. 33. Vielen Dank! http://www.digitale-kuratierung.de 33 Das DFKI-DKT-Team: #DKT16 – 11. Oktober 2016

×