Researcher at DFKI GmbH, W3C German/Austrian Office (World Wide Web Consortium)
Oct. 13, 2017•0 likes•1,302 views
1 of 47
Kuratieren im Zeitalter der KI
Oct. 13, 2017•0 likes•1,302 views
Report
Technology
Georg Rehm. Kuratieren im Zeitalter der KI. #DKT17 - Kuratieren im Zeitalter der KI, Berlin, Germany, October 2017. October 12, 2017. Invited keynote talk.
1. Georg Rehm
georg.rehm@dfki.de
DFKI GmbH, Berlin
#DKT17: Kuratieren im Zeitalter der KI
12. Oktober 2017 – Humboldt Universität zu Berlin
Kuratieren im Zeitalter der KI
2. Semantic Media Web 2014
Einführung des Konzepts „Digitale Kuratierung“
Semantic Media Web 2015 – #DKT15
Vorstellung des neuen BMBF-Projekts
„Digitale Kuratierungstechnologien“
Semantic Media Web 2016 – #DKT16
Bergfest – erste Ergebnisse
Semantic Media Web 2017 – #DKT17
Der Projektabschluss steht kurz bevor.
3. Überblick
• Was ist digitale Kuratierung?
• BMBF-Projekt Digitale Kuratierungstechnologien
• Zusätzliche Branchen und Anwendungsszenarien
• Persönliche Kuratierungstechnologien
• Schlussfolgerungen
#DKT17 – 12. Oktober 2017 3
9. Digitale Medien im Jahr 2017
• Das WWW begann 1989 als eine Art digitales Archiv
• 2017: Hochgradig dynamische Informations-,
Kommunikations- und E-Commerce-Maschine
• Milliarden von Nutzern, diverse Typen von Endgeräten
• Content ist ein wichtiger Treibstoff der Maschine
• Immer breitere Diversifizierung (Branchen und Nischen)
• Politische, gesellschaftliche und ökonomische Relevanz
• In zahlreichen Branchen und Bereichen herrscht sehr
großer Druck, regelmäßig Content zu publizieren
• Große Herausforderung: Effizienter Umgang mit Content
#DKT17 – 12. Oktober 2017 9
14. #DKT17 – 12. Oktober 2017 14
Daten Intelligenz
Aktuelle Durchbrüche mit maschinellen Lernverfahren (Deep Learning)
Ebenfalls noch immer im Einsatz: symbolische, regelbasierte Methoden
Künstliche Intelligenz
• Selbstfahrende Autos, Robotik, Bilderkennung, maschinelle Übersetzung
• Ermöglicht durch tiefe Lernverfahren (neuronale Netze)
• Immenses Potenzial für Disruptionen in allen Branchen
• Tiefes Sprachverstehen – nächste große Herausforderung der KI-Forschung!
16. Was ist digitale Kuratierung?
#DKT17 – 12. Oktober 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
Information
16
17. Was ist digitale Kuratierung?
#DKT17 – 12. Oktober 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
? ?
?
?Information
17
18. Was ist digitale Kuratierung?
#DKT17 – 12. Oktober 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
? Information
OutputInput SoftwareProzesse
?
?
?
18
19. Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präsentationen Multimedia-Website
Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag
Facebook-Meldung Überarbeiten Email Ausstellungskatalog
Suchergebnis Einlesen Browser Mobile Applikation
Email Schreiben Groupware Mashup (z.B. Karte)
SMS Gestalten Branchenapplikationen Textbeitrag
Konzept Recherchieren CMS Konzept
Textdateien Bewerten ECMS Zeitstrahl
Video Evaluieren CRM Fachartikel
Karte Ordnen Unternehmens-Software Studie
Stockfotos Sortieren Grafik-/Layout-Software Präsentation
In-house Datenbank Strukturieren Telefonie Faktensammlung
Kalendereintrag Zusammenfassen etc. Exponatsartikel
Spreadsheets Kürzen Analysen
Archiv Übersetzen etc.
etc. Informieren
Kombinieren
Abstrahieren
Einordnen
Visualisieren
Generieren
Annotieren
Referenzieren
etc.
Beobachtungen
• Content: textzentriert, mehrsprachig, multimedial
• Kuratierung: zeit- und wissensintensiv, interdisziplinär,
evtl. durchgeführt in verteilten Teams
• Branche: domänen-/branchenspezifische Anforderungen
• Einschränkung: Traditionelle CMS-Systeme bieten
kaum Unterstützung für Kuratierungsprozesse!
• Sprachtechnologie kann helfen – Kombinierung von
Komponenten zu branchenspezifischen Workflows
21. DKT Kick-off-Veranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digital Curation
Technologies.” In Proceedings of the 19th Annual
Conference of the European Association for Machine
Translation (EAMT 2016), Riga, Lettland, Mai 2016
Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die
effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger
Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für
Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015
• Unterstützung und Optimierung digitaler Kuratierung durch
Sprach- und Wissenstechnologien.
• Entwicklung innovativer Prototypen bei den KMU-Partnern.
• Weiterentwicklung der DFKI-Technologien und Transfer mittels
Plattform für digitale Kuratierungstechnologien.
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
22. Plattform für digitale Kuratierungstechnologien
Broker REST API
Kuratierungsservice 1
Kuratierungsservice 2
Client nutzt
das API
Externer
Service 1
Externer
Service 2
Client nutzt
das API
Client nutzt
das API
Client nutzt
das API
Kuratierungs-Workflow
Output
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix itsrdf: <http://www.w3.org/2005/11/its/rdf#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos/> .
@prefix nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#> .
<http://link.omitted/documents/document1#char=0,26>
a nif:RFC5147String , nif:String , nif:Context ;
nif:beginIndex "0"^^xsd:nonNegativeInteger ;
nif:endIndex "26"^^xsd:nonNegativeInteger ;
nif:isString "Welcome to Berlin in 2016. "^^xsd:string ;
dfkinif:averageLatitude "52.516666666666666"^^xsd:double ;
dfkinif:averageLongitude "13.383333333333333"^^xsd:double ;
dfkinif:stdDevLatitude "0.0"^^xsd:double ;
dfkinif:stdDevLongitude "0.0"^^xsd:double ;
nif:meanDateRange "20160101010000_20170101010000"^^xsd:string .
<http://link.omitted/documents/document1#char=21,25>
a nif:RFC5147String , nif:String ;
itsrdf:taIdentRef <http://link.omitted/ontologies/nif#date=20160101000000_20170101000000> ;
nif:anchorOf "2016"^^xsd:string ;
nif:beginIndex "21"^^xsd:nonNegativeInteger ;
nif:endIndex "25"^^xsd:nonNegativeInteger ;
nif:entity <http://link.omitted/ontologies/nif#date>.
<http://link.omitted/documents/#char=11,17>
a nif:RFC5147String , nif:String ;
nif:anchorOf "Berlin"^^xsd:string ;
nif:beginIndex "11"^^xsd:nonNegativeInteger ;
nif:endIndex "17"^^xsd:nonNegativeInteger ;
itsrdf:taClassRef <http://dbpedia.org/ontology/Location> ;
nif:referenceContext <http://link.omitted/documents/#char=0,26> ;
geo:lat "52.516666666666666"^^xsd:double ;
geo:long "13.383333333333333"^^xsd:double ;
itsrdf:taIdentRef <http://dbpedia.org/resource/Berlin> .
NLP Interchange
Format (NIF)
“Welcome to Berlin in 2016.”
• RDF/OWL-basiertes Format für NLP-
Anwendungen
• Ermöglicht Interoperabilität
• Durch pures RDF „natürliche“
Integration von Linked-Data-Daten
• Entwickelt von der Universität Leipzig
• Plattform unterstützt neben NIF auch
Web Annotations
Prototypisch implementierte Plattform und Services
• Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche
und finanzielle Aufwände reduzieren
• Flexible, robuste, skalierbare Services
• Gemeinsamer Bau von Prototypen (proofs-of-concept)
• Modulare Inhalte in neuen Produktionen aggregieren
• Interoperabilität durch generische APIs
• Human in the loop
23. Prototypische Services
#DKT17 – 12. Oktober 2017 23
NER, Linking, Geolokalisierung
Technologien für Digitale Medien – Georg Rehm
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
...
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
…
Plain Text NIF-Anreicherung Visualisierung
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php
• Modus 1: Modell-basiert (für Domänen, für
die annotierte Trainingsdaten verfügbar sind)
• Modus 2: Wörterbuch-basiert (für Domänen,
für die lediglich Namenslisten verfügbar sind)
• Basiert auf OpenNLP (mit NIF-Integration)
• Entity-Linking durch SPARQL-Querys auf DBPedia.
• Für Lokationen werden GPS-Koordinaten bezogen.
• Es werden Durchschnittsangaben berechnet auf
Dokumentebene (über alle Lokationen), um diese auf
einer Karte visualisieren zu können.
Geolokalisierung als visuelles Zusammenfassen!
53 Technologien für Digitale Medien – Georg Rehm
NER und Linking
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict
• Falls lediglich Listen von Namen oder Termen und deren URIs in einer
Ontologie zur Verfügung stehen.
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner
• Falls annotierte Trainingsdaten zur Verfügung stehen
auf neuem Input nutzbar
(auch gemeinsam)
statistisches
NER-Modell
Datenbank-Dump der
Mendelsohn-Briefe
Hohe Qualität
Benötigt annotierte Daten
Mittlere Qualität
Benötigt weniger annotierte Daten
• Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B)
vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden.
• Diese Liste kann vom Wissensarbeiter überprüft und anschließend als
Wörterbuch (A) eingesetzt werden.
Mittlere Qualität
Menschliche Intervention notwendig
Benötigt keine annotierten Daten
A B
C
• Linking per Extraktion der DBpedia-URI
• NE-Typspezifische SPARQL-Querys für
Personen (Geburtsdatum), Lokationen
(Koordinaten), Organisationen (Typ)
• Wörterbuch kann URIs enthalten
54 Technologien für Digitale Medien – Georg Rehm
Zeitausdrücke
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
...
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
…
900
1600
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp
http://dev.digitale-kuratierung.de/admini/pages/timelining.php
Plain-Text NIF-Anreicherung Visualisierung
• Sortiert Dokumente auf einer
chronologischen Skala.
• Regelbasiertes System, um
unsere Zielsprachen
bestmöglich bedienen zu
können (EN, DE).
• Analyse von Zeitausdrücken
in einem Dokument.
• Berechnet Durchschnittswerte
und Intervalle.
• Plan: Mechanismus für
nutzerbasierte Regeln.
• Verwandte Arbeiten: SUTime,
HeidelTime, Tango, Tarsgi.
55
Maschinelle Übersetzung
Technologien für Digitale Medien – Georg Rehm
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
Herr Modi befindet sich auf einer fünftägigen
Reise nach Japan, um die wirtschaftlichen
Beziehungen mit der drittgrößten
Wirtschaftsnation der Welt zu festigen.
Mr Modi is located on a five-day trip to Japan to
strengthen the economic ties with the third largest
economy in the world.
Named Entity
Recognition
Entity Linking
Temporal
Expressions
Metadata
Processing
Post-Edit
Retraining
Beispiel
• Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.)
• Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a.
• Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF
• Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet)
Ankit Srivastava, Georg Rehm, and Felix Sasaki. Improving Machine
Translation through Linked Data. The Prague Bulletin of Mathematical
Linguistics, 108(1):355-366, June 2017. Proceedings of the 20th Annual
Conference of the European Association for Machine Translation (EAMT 2017).
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
56
Textzusammenfassen
Technologien für Digitale Medien – Georg Rehm
Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am
Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79
Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen
bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE-
Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der
Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB-
Werte jeweils bei 11,77 bzw. 2,13 liegen.
Im letzten Monat und den letzten
3 Monaten verlor die RWE-Aktie
3,79% bzw. 18,95% und in den
letzten 3 Tagen 3,55%.
• Kuratierungsservice rankt Sätze – basierend auf div.
Features – hinsichtlich ihrer Wichtigkeit.
• Modul ist in der Entwicklung.
• Beispiel: Artikel über den fallenden Aktienkurs von
RWE (Daten stammen von Condat).
• Ausblick: Integration der Analyseergebnisse anderer
DKT-Services in den Algorithmus.
57
Semantic Storytelling
• Eingabe: Kohärente, in sich geschlossene Textkollektion
• Ausgabe: Semantisch angereicherte Kollektion
• Idee: Aufgabenspezifisch multiple Rezeptionspfade
generieren, vorschlagen, präsentieren
• Lösung: Identifizierung, Ranking und Empfehlung
sinnvoller, überraschender Hypertextpfade
• Es gibt noch zahlreiche Herausforderungen.
Technologien für Digitale Medien – Georg Rehm 58
Julian Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit
Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry
Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language
Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016.
Peter Bourgonje, Julian Moreno Schneider, Georg Rehm und Felix Sasaki. Processing
Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies
for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the
2nd International Workshop on Natural Language Generation and the Semantic Web
(WebNLG 2016), S. 13-16, Edinburgh, UK, Sept. 2016. Association for Comp.Linguistics.
Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki
und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text
Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine
Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic
Web: ESWC 2016 Satellite Events, Juni 2016.
24. Storytelling
Wunschfunktionalität bei den Partnern: Semantic Storytelling
• Eingabe: Kohärente, in sich geschlossene Textkollektion
• Ausgabe: Semantisch angereicherte Kollektion
• Idee: Aufgabenspezifisch multiple Rezeptionspfade
generieren, vorschlagen, präsentieren
• Lösung: Identifizierung, Ranking und Empfehlung
sinnvoller, überraschender Hypertextpfade
• Derzeit noch experimentelle Avantgarde-Technologie
• Es gibt noch zahlreiche Herausforderungen ...
#DKT17 – 12. Oktober 2017 24
25. RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained documentcollection
• Example:Mendelsohn letters,2796 documents,
written in German, English,French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
differenttext types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-outformats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual,including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of MovementAction Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Beispiel: Die Mendelsohn-Briefe
Experiment:
Überführung einer
Sammlung von Briefen
in einen Reisebericht
Georg Rehm, Julian Moreno Schneider,
Peter Bourgonje, Ankit Srivastava, Jan
Nehring, Armin Berger, Luca König, Sören
Räuchle, and Jens Gerth. Event Detection
and Semantic Storytelling: Generating a
Travelogue from a large Collection of
Personal Letters. In Tommaso Caselli, Ben
Miller, Marieke van Erp, Piek Vossen,
Martha Palmer, Eduard Hovy, and Teruko
Mitamura, editors, Proceedings of the
Events and Stories in the News Workshop,
Vancouver, Canada, August 2017.
Association for Computational Linguistics.
Co-located with ACL 2017.
26. #DKT17 – 12. Oktober 2017 26
Beispiel: Die Mendelsohn-Briefe
27. #DKT17 – 12. Oktober 2017 27
Georg Rehm, Julian Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Jan Nehring, Armin Berger, Luca König, Sören Räuchle, and Jens Gerth.
Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters. In Tommaso Caselli, Ben Miller,
Marieke van Erp, Piek Vossen, Martha Palmer, Eduard Hovy, and Teruko Mitamura, editors, Proceedings of the Events and Stories in the News
Workshop, Vancouver, Canada, August 2017. Association for Computational Linguistics. Co-located with ACL 2017.
Branche: Öffentliche Archive
28. #DKT17 – 12. Oktober 2017 28
Julian Moreno-Schneider, Ankit Srivastava, Peter Bourgonje, David Wabnitz, and Georg Rehm. Semantic Storytelling, Cross-
lingual Event Detection and other Semantic Services for a Newsroom Content Curation Dashboard. In Octavian Popescu and
Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism - EMNLP 2017 Workshop (NLPMJ
2017), Copenhagen, Denmark, September 2017. 7. September.
Branche: Journalismus
29. Branche: Museen,
Showrooms, Ausstellungen
#DKT17 – 12. Oktober 2017 29
Georg Rehm, Jing He, Julian Moreno Schneider, Jan Nehring, and Joachim Quantz. Designing User Interfaces
for Curation Technologies. In Sakae Yamamoto, editor, Human Interface and the Management of Information:
Information, Knowledge and Interaction Design, 19th International Conference, HCI International 2017, number
10273 in Lecture Notes in Computer Science (LNCS), pages 388-406, Vancouver, Canada, July 2017. Springer.
30. #DKT17 – 12. Oktober 2017 30
Georg Rehm, Julián Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Rolf Fricke, Jan Thomsen, Jing He,
Joachim Quantz, Armin Berger, Luca König, Sören Räuchle, Jens Gerth, and David Wabnitz. Different Types of
Automated and Semi-Automated Semantic Storytelling: Curation Technologies for Different Sectors. In Georg Rehm
and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the
GSCL Conference 2017, Lecture Notes in Artificial Intelligence (LNAI), Heidelberg etc., September 2017. Gesellschaft
für Sprachtechnologie und Computerlinguistik e.V., Springer. 13.-15. September 2017.
Branche: TV, Web-TV, Medien
33. • BMBF-Projekt Digitale Kuratierungstechnologien:
– Museen, Showrooms, Ausstellungen
– TV, Web-TV, Medien
– Öffentliche Archive
– Journalismus
• Außerdem Kuratierungstechnologien konzipiert für:
– Bibliothekswissenschaft und Digital Libraries
– Customer-Relationship-Management (u.a. Chatbots)
– Juristische und regulatorische Inhalte
– Medizinische Inhalte
– Digital Humanities
– Film- und Kinobranche
#DKT17 – 12. Oktober 2017 33
Clemens Neudecker und Georg Rehm. „Digitale Kuratierungstechnologien für Bibliotheken“.
Zeitschrift für Bibliothekskultur 027.7, Open Access. Nov. 2016.
Georg Rehm. Der Mensch bleibt im Mittelpunkt – Smarte Technologien für alle Branchen. Vitako
Aktuell. Zeitschrift der Bundes-Arbeitsgemeinschaft der Kommunalen IT-Dienstleister e.V., 2-
2016:26-27, 2016.
Georg Rehm. Artificial Intelligence for the Film Industry. FilmTech Meetup Berlin, July 25, 2017.
Georg Rehm. KI für die Kundenkommunikation: Der Markt der Zukunft. Rethink! Connected
Customer 360°. Hamburg, June 22/23, 2017.
34. Propellor | Forum #1 – Interessante Resultate:
• Any Film, Anywhere – user model, watchlist, loc, reco
• Bubble Buster – user model, reco (safe & surprising)
• Super AI Brain – user model, reco
• Data of the Movie – user model, reco, biofeedback
• AI-based Storytelling – user model, audience
clustering, Big Data-based storytelling
#DKT17 – 12. Oktober 2017 34
http://www.propellorfilmtech.com/forum
38. Viralität und Filterblasen
• Inhalte werden ohne Kontrollinstanz publiziert, über
soziale Medien entdeckt und, falls relevant, zügig geteilt
• Das Teilen erfolgt oft ohne Lektüre oder kritische Prüfung
• Ziel: Viralität ➟ Reichweite ➟ Klicks ➟ Werbeerlöse
• Nicht alle „journalistisch“ aussehenden Inhalte fühlen
sich tatsächlich der Wahrheit verpflichtet
• Bürde der kritischen Prüfung liegt heute bei den Lesern
• „Fake News“: Etikett für diverse Klassen von Inhalten
#DKT17 – 12. Oktober 2017 38
39. Sieben
Klassen von
Falsch-
nachrichten
Satire oder
Parodie:
führt
Menschen
aber
dennoch
manchmal
auf das
Glatteis
Falscher
Zusam-
menhang:
wenn Titel
und Fotos
den Inhalt
nicht
stützen
Irreführen-
der Inhalt:
Nutzung
von
Informatio-
nen, um
etwas/jmd.
In ein
schlechtes
Licht zu
rücken
Falscher
Kontext:
wenn echte
Inhalte im
falschen
Kontext
präsentiert
werden
Betrüge-
rische
Inhalte:
wenn echte
Quellen
imitiert
werden
Manipulier-
ter Inhalt:
Manipula-
tion von
Inhalten
zum Zweck
der
Täuschung
Fabrizierter
Inhalt:
basiert zu
100% nicht
auf
Tatsachen,
geschrie-
ben um zu
täuschen
Charakteristika
Clickbait X X ? ? ?
Desinformation X X X X
Politisch gefärbt ? X ? ? X
Schlechter
Journalismus X X X
IntentionenderUrheber
Parodie X ? ?
Provokation X X X
Profit ? X X X
Täuschung X X X X X X
Politik beeinflussen X X X X
Meinungen
beeinflussen X X X X X
Unterschiedliche Klassen von Falschnachrichten und ihre jeweiligen Charakteristika und Intentionen
(nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017)
39
40. #DKT17 – 12. Oktober 2017
Annotierte Titel/Artikel-Paare 49.972 100%
Klasse: unrelated 36.545 73%
Schritt 1: Klassifikation related vs.
unrelated = Clickbait-Erkennung
Klasse: discuss 8.909 18%
Schritt 2: Nur wenn sich der Titel auf den
Text bezieht, kann discuss, agree,
disagree klassifiziert werden.
Klasse: agree 3.678 7%
Klasse: disagree 840 2%
40
DFKI-
System
Relatedness 93,29
Drei Klassen 88,36
Gewichtet 89,59
Mit einer Präzision von 89,59
haben wir bei der ersten Fake
News Challenge (FNC1) Platz 9
von 50 Teams erreicht.
Peter Bourgonje, Julian Moreno Schneider, and Georg Rehm. “From Clickbait to Fake News Detection: An Approach based on
Detecting the Stance of Headlines to Articles”. In Octavian Popescu and Carlo Strapparava, editors, Proceedings of Natural Language
Processing meets Journalism – EMNLP 2017 Workshop (NLPMJ 2017), Copenhagen, Denmark, September 2017. 7. September.
Beispiel: Clickbait-Erkennung
• Vollautomatische Prüfung arbiträrer Behauptungen bis auf Weiteres technisch unmöglich
• Annäherung: Ermittlung der Haltung eines Textes zu einem Thema („Stance Detection“)
41. Übergreifende Infrastruktur
• Inhalte werden im/über das World Wide Web konsumiert
• Daher Einbettung der Infrastruktur in den Browser
• Ziel: Leser im Umgang mit Inhalten unterstützen, Fakten
prüfen, Täuschungsversuche erkennen etc.
• Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün
• Somit Filterblasen- und Netzwerkeffekte ausbalancieren
• Kombination aus automatischen Werkzeugen und
menschlicher Schwarmintelligenz
#DKT17 – 12. Oktober 2017 41
Georg Rehm. “An Infrastructure for Empowering Internet Users to handle Fake News and other Online Media Phenomena”. In Georg
Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL
Conference 2017, Berlin, September 2017. Gesellschaft für Sprachtechnologie und Computerlinguistik e.V. 13.-15. September 2017.
42. Website
mit Inhalten
Tool1
Browser unterstützt Infrastruktur nativ und aggregiert
unterschiedlichen Bewertungen, Kommentare und Meinungen
über einen Inhalt in klare Botschaften oder Warnungen
Web
Annotations
DB1
Web
Annotations
DB2
Tool3
Tool2
UGA: User-generierte Annotationen (Freitext)
UGM: User-generierte Metadaten (standardisiert)
MGM: Maschinen-generated Metadaten (standardisiert)
MGM
MGM
MGM
Dezentrale Filter verarbeiten Inhalte automatisch und schicken
Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)
UGA
Web
Annotations
DB4UGM
Beispiel: Nutzer bewertet Qualität
eines Inhalts im Hinblick auf
ein standardisiertes Schema
Annotationen anderer Nutzer
andere
Nutzer
Web
Annotations
DB3
UGA
UGM
UGM
UGA
Dezentralle Repositorien
speichern alle Annotationen
Detektion von
Hassrede Klassifikation des
politischen Spektrums
Faktenchecker
43. Website
mit Inhalten
Tool1
Browser unterstützt Infrastruktur nativ und aggregiert
unterschiedlichen Bewertungen, Kommentare und Meinungen
über einen Inhalt in klare Botschaften oder Warnungen
Web
Annotations
DB1
Web
Annotations
DB2
Tool3
Tool2
UGA: User-generierte Annotationen (Freitext)
UGM: User-generierte Metadaten (standardisiert)
MGM: Maschinen-generated Metadaten (standardisiert)
MGM
MGM
MGM
Dezentrale Filter verarbeiten Inhalte automatisch und schicken
Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)
UGA
Web
Annotations
DB4UGM
Beispiel: Nutzer bewertet Qualität
eines Inhalts im Hinblick auf
ein standardisiertes Schema
Annotationen anderer Nutzer
andere
Nutzer
Web
Annotations
DB3
UGA
UGM
UGM
UGA
Dezentralle Repositorien
speichern alle Annotationen
Detektion von
Hassrede Klassifikation des
politischen Spektrums
Faktenchecker
Ziel: Nutzern Technologien an die Hand geben, mit
denen sie digitale Inhalte und Medien besser
rezipieren, einschätzen, analysieren, verifizieren und
verarbeiten können und die automatisch Hinweise auf
problematische Inhalte liefern.
44. DFKI organisierte GSCL 2017
• „Sprachtechnologien für die Herausfor-
derungen des Digitalen Zeitalters“
• 100+ Teilnehmer
• 13./14. September 2017 – HU Berlin
• Vier Beiträge von DKT!
• Proceedings erscheinen in Kürze bei
Springer (LNAI) – unterstützt von DKT!
#DKT17 – 12. Oktober 2017 44
45. Schlussfolgerungen
• Wissensarbeiter können bei der Kuratierung von Inhalten
und Wissen durch Technologien unterstützt werden
• In diversen Branchen sehr großes Interesse an dem
Ansatz und den bislang entwickelten Prototypen
• Enormes Potential für Folgeaktivitäten
• Erweitertes Set von Services, automatischere Ansätze,
zusätzliche Wissensquellen, flexiblere Orchestrierung
• EU-Projekt zu Kuratierungstechnologien für juristische
Inhalte startet im Dezember 2017
• Kuratierungstechnologien für das mehrsprachige Europa
#DKT17 – 12. Oktober 2017 45
46. Challenges
• Increasingly important role of Social Media as news provider, shift in fact-checking and quality control responsibilities from journalist (content creator) to reader (content consumer).
• Definitive solution to Fake News challenges requires input from several disciplines (communication science, law, etc.), trying to contribute from a Language Technology perspective.
• Following FNC-1 (http://www.fakenewschallenge.org), we deploy a stance detection system.
• With “truth labelling” being a highly difficult, ambiguous and perspective-dependent task, stance detection is a valid first step, because combined with a (post-facto) truth label, or
trustworthiness information, dubious claims can be brought to the attention of fact checkers, or directly to news consumers.
• Insights from sentiment analysis may give hints on stance, but the latter has broader scope (the target of a proposition may not be included in the phrase itself).
From Clickbait to Fake News Detection:
An Approach based on Detecting the Stance of Headlines to Articles
Peter Bourgonje, Julián Moreno Schneider, Georg Rehm
DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany
Corresponding author: georg.rehm@dfki.de
… to Fake News Detection
• Integration in Digital Curation platform
(http://digitale-kuratierung.de), from smart and
semantically enriched content to contextualised
content.
• Large potential, but also large potential for abuse:
decentralised repositories, open, event-based
knowledge graph for automated content verification.
Classifying stance of headlines to articles based on the Emergent data set (Ferreira & Vlachos, 2016) and on the first Fake News Challenge (FNC-1) setup.
Integrated in a digital curation platform, with a proposal for a framework for fake news detection.
Unique headlines 1.648
Unique articles 1.668
Annotated pairs 49.972 100%
Class Total Ratio
Unrelated 36.545 73%
Discuss 8.909 18%
Agree 3.678 7%
Disagree 840 2%
Majority
vote
3-class
classifier
Combined
classifiers
Relatedness
score
93.27 93.26 93.29
Three-class
score
61.51 75.34 88.36
Weighted
score
69.45 79.82 89.59
Headline: "ADVISORY-Islamist rebel leader killed in U.S.
strike - Somali government"
Article: "MOGADISHU, Sept 5 (Reuters) - The alert and
story on Sept. 5 headlined ""Islamist rebel leader killed in
U.S. strike-Somali government"" is withdrawn and no
substitute story will be issued. The story was sourced to a
website purporting to be the Somali prime minister's
Facebook page. A Somali government spokesman said the
page was not official and said the government had not yet
commented on whether Ahmed Godane, the head of the
Somali Islamist militant group al Shabaab, had been killed
in a U.S. strike on Monday. STORY_NUMBER:
L5N0R62Q3 STORY_DATE: 05/09/2014 STORY_TIME:
1324 GMT (Writing by Edmund Blair; Editing by Sonya
Hepinstall)"
Stance: disagree
Evaluation
Dataset Results
Headline: "Return of the Mac: Seth Rogen in talks to star
as Apple co-founder Steve Wozniak in upcoming Steve
Jobs biopic"
Article: "Afghanistan veteran Sam Arnold uploaded this
spine-chilling video of a US Marine getting a direct
headshot from a Taliban sniper—only to be saved by his
kevlar helmet. It's incredible to watch, especially the face of
relief and disbelief of the impact victim. That was a really
close call. According to Arnold, ""the Marines were
conducting a joint helicopter raid in the Now Zad district,
Helmand Province in 2013. The shot occurs right at the :45
mark in the video."""
Stance: unrelated
From Clickbait …
• Classifying pairs into related vs. unrelated, based on ngram-matching of header and article
• Classifying related pairs into disagree, agree or discuss, first using a 3-class (Maximum
Entropy) classifier. If the distance between best and second-best scoring class is under some
threshold:
• Using specialized binary (maxent) classifiers (disagree vs. agree, disagree vs. discuss and
discuss vs. agree)
where
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
Digitale Kuratierungstechnologien is supported
by the German Federal Ministry of Education
and Research (BMBF), Unternehmen Region,
Wachstumskern-Potenzial (No. 03WKP45).
1. Semantic Storytelling
• Approach that bundles a flexible set of semantic services for the production of digital content,
to recommend interesting storylines to human experts from large collections of documents
• Processing a coherent and self-contained collection of documents to identify and to suggest
one or more potential story paths that can then be used to structure an actual story around
them or, generally, a new piece of content
Event Detection and Semantic Storytelling:
Generating a Travelogue from a large Collection of Personal Letters
Georg Rehm*, Julián Moreno Schneider*, Peter Bourgonje*, Ankit Srivastava*, Jan Nehring*, Armin Berger§, Luca König§, Sören Räuchle§, Jens Gerth§
* DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany § 3pc GmbH Neue Kommunikation, Prinzessinnenstraße 1, 10969 Berlin, Germany
Corresponding author: georg.rehm@dfki.de
3. Smart Authoring Environment
4. Movement Action Events (MAEs)
Based on NER, Temporal Expression, Geolocations, Movement Verbs and Events
person, origin, destination, departure time, arrival time, mode of transport
2. Digital Curation Technologies
5. MAE Extraction Results
RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained document collection
• Example: Mendelsohn letters, 2796 documents,
written in German, English, French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
different text types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-out formats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual, including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of Movement Action Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Obama, Brasilia, Rio de
Janeiro, [], [], [].
Mr Obama arrived in Rio de
Janeiro after a day of talks in the
capital, Brasilia, with Ms Rousseff
and business leaders.
Mendelsohn Corpus Results
[], [], Cleveland, May 06 12:00
2017, [], []
My discussion here will, I hope, be
finished before I leave for Cleveland
tomorrow night.
th=0 th=.25 th=.5 th=.75
A1 591 328 98 0
A3 563 253 54 0
A5 116 60 11 0
Obama Corpus Results
th=0 th=.25 th=.5 th=.75
A1 13030 9700 5314 0
A3 7841 4511 2784 0
A5 2545 1768 1328 0
• Generic curation services:
Named entity recognition,
entity linking, summarisation,
machine translation, analysis
of temporal expressions,
geolocation tagging etc.
• Enable knowledge workers
(digital curators, journalists,
exhibition planners etc.) to be
more efficient and produce
output of higher quality
Abstract: Identifying a specific class of events, movement action events (MAEs), in ca.
2,800 personal letters exchanged by the German architect Erich Mendelsohn and his wife,
Luise. A backend system uses these and other semantic analysis results as input for an
authoring environment that curators can use to produce new pieces of content (travelogue).
2.2 Generic Event Extraction
• Implemented a joint extraction of events and entities within a
document context trained on the English section of the ACE
2005 data, to extract generic events in the Mendelsohn
letters (English as well as German translated into English)
• Most relevant event type for MAE is the Transport event; In
the Mendelsohn dataset, 45% labelled events were
Transport in English and 40% were Transport in German
2.1 Data Sets
• Mendelsohn letters: 2,796 letters (2,481 in
German, 312 in English and 3 in French),
written between 1910 and 1953, by Erich
(1,410) and Luise Mendelsohn (1,328)
• Obama corpus: 487 news articles (English)
on the multiple trips of Barack Obama
We apply five approaches:
A1) using all entities in an event
A2) like A1 but including metadata of the
letters as entities (author, location, date)
A3) using all entities but avoiding similar
locations for LO and LD and similar dates for
tD and tA
A4) like A3 but including the metadata
A5) like A3 but only including the MAEs from
sentences that include a trigger element
Instantiation of MAE Six-Tuples
1) Delete general event not containing a trigger element
2) Include metadata information if there is no participant,
location, or temporal expression
3) Generate MAE candidate six-tuples by filling the
six-tuple with available entities getting a score:
!"#$% = !"' + !")* + !")+ + !",-
+ !",.
+ !"/
4) Delete MAEs under a certain threshold.
MAE Visualisation
Temple Washington affair promising. Have been
there on Tuesday night from 9.30 to 1, returned to
Baltimore at 2A.M. […] Due in St. Louis around
The hectic days of St. Louis, my beloved, are
drawing to their close. I am leaving tonight for
Davenport midnight.
For consecutive MAEs, we assume that
LD is LO of the next trip
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
Digitale Kuratierungstechnologien is supported
by the German Federal Ministry of Education
and Research (BMBF), Unternehmen Region,
Wachstumskern-Potenzial (No. 03WKP45).
1. Content Curation Dashboard
• Superdesk (http://www.superdesk.org) extension
for keyword alerts, content exploration, related
content discovery.
• Visualisation and annotation of news documents,
using Linked Data knowledge graphs.
• From documents to smaller content components
(i.e., individual event representations) as atomic
building blocks for story line generation.
Semantic Storytelling, Cross-lingual Event Detection and other
Semantic Services for a Newsroom Content Curation Dashboard
Julián Moreno Schneider*, Ankit Srivastava*, Peter Bourgonje*, David Wabnitz§, Georg Rehm*
* DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany § Kreuzwerker GmbH, Ritterstraße 12-14, 10969 Berlin, Germany
Corresponding author: georg.rehm@dfki.de
3. Evaluation
• Qualitative evaluation of story line clusters.
• English: Global news. The Obama corpus contains 487 files with news articles on
the multiple trips of Barack Obama.
• German: Regional news. Corpus provided by a project partner, containing news
1,037 articles, general (regional-level) domain with no specific topic.
• Events based on NER, Temporal Expression, Geolocations, Movement Verbs an
Events, represented by:
Person, Origin, Destination, Departure Time, Arrival Time, Transportation
2. Semantic Storytelling
Language Technology backend based
on typical components like NER,
Entity Linking, Temporal Analysis,
Summarisation, to arrive at Event
Extraction and finally visualisation.
Semantic Storytelling based on clustering of events, collected through cross-lingual event
extraction. Resulting in a tool aiding journalists in the creation of storylines for several
different domains, granularities and use cases.
2.3 Visualisation
By cluster, temporal or geographical dimension:
Instantiation of MAE Six-Tuples
1) Delete general event not containing a trigger element
2) Include metadata information if there is no participant,
location, or temporal expression
3) Generate MAE candidate six-tuples by filling the six-
tuple with available entities getting a score:
!"#$% = !"' + !")* + !")+ + !",-
+ !",.
+ !"/
4) Delete MAEs under a threshold.
2.1 Event Extraction
• English Event Extraction module trained
on ACE2005 (news domain) data
• German text translated using Moses,
Machine Translation, analysed using
English Event Extraction module, events
projected back to German input text.
2.2 Event Clustering
Conclusion
• Feasible approach for automatic
generation of semantic content for
stories in large collections with topic
heterogeneity (Obama corpus).
• Limited performance for cross-lingual
approach (German regional news
corpus) due to pipeline approach
(limited performance of MT
component not specifically trained for
the domain)
Initial(Search(and Filtering
Annotated Entities Searching Related Content
• Clustering found events
on entities appearing in
them and sorting by
frequency.
• Found clusters form the
logical structure of new
content.
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
Digitale Kuratierungstechnologien is supported
by the German Federal Ministry of Education
and Research (BMBF), Unternehmen Region,
Wachstumskern-Potenzial (No. 03WKP45).
1. Task Description, Data & Tools
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
DFKI-DKT at SemEval-2017 Task 8:
Ankit Srivastava,"Georg/Rehm,"Julian/Moreno/Schneider
DFKI"GmbH,"Language"Technology"Lab,"Alt9Moabit"91c,"10559"Berlin,"Germany
{ankit.srivastava,"georg.rehm,"julian.moreno_schneider}@dfki.de
Rumour Detection & Classification using Cascading Heuristics
3. Experimental Analysis
!RumourEval Shared"Task":Analysing"and"determining"veracity"of"social"media"content
!Given"a"set"of"Twitter"conversation"on"a"specific"topic:"identify"rumours"&"classify"stance
!Subtask/A:"Classify"whether"a"reply"tweet"Supports,"Denies,"Queries"(ask"for"additional"
evidence)"or"merely"Comments"on"a"given"rumourous tweet"[Fig."1]
!Subtask/B/(closed):"Identify"whether"a"tweet"is"the"Truth"or"Falsehood"(rumour)"[Fig."2]
!Training"/"Development"/"Test"Data:"Available"from"the"Pheme Project
!3"Classifiers"from"MALLET"(MAchine Learning"for"LanguagE Toolkit)"– Naïve"Bayes,"
Maximum"Entropy,"Winnow"Classification
!Heuristics"(Hand9coded"rules)"as"a"post9classification"process"in"a"cascading"fashion
2. DFKI-DKT System
0,635
0,393
0,621
0,387
0,63
0,4
0,705
0,422
SUBTASK A SUBTASK B
MaxEnt NvBayes Winnow EnsembleSystem"Workflow
For both subtasks, we employ a hybrid system consisting
of a classifier (either single or ensemble of three [voting9
based combination]) followed by heuristics (decision rules)
inferred from a statistical distribution of features in the
training data [Fig. 3]
Fig."3
Heuristics
Features
Subtask A
Subtask B
Fig."1:"Example"of"
Subtask"A:"Stance"
Classification
!Ensemble Classifier demonstrates best
classification performance on both subtasks
[purple bar in Fig. 4]
!Number of correct categories (blue bar)
classified accurately in both subtasks [Fig. 5]
!Textual Features and Twitter Metadata help in
heuristics (decision rules)
Fig."2:"Example"of"
Subtask"B:"Rumour"
Identification
Fig."4:"Classifier"
Accuracies"for"
Subtasks"A"&"B
Fig."5:"Example"of"
Subtask"B:"Rumour"
Identification
Digitale Kuratierungstechnologien is supported
by the German Federal Ministry of Education
and Research (BMBF), Unternehmen Region,
Wachstumskern-Potenzial (No. 03WKP45).
An Infrastructure for Empowering Internet Users to Handle
Fake News and other Online Media Phenomena
Georg Rehm
DFKI GmbH, Forschungsbereich Sprachtechnologie – Alt-Moabit 91c, 10559 Berlin
georg.rehm@dfki.de
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
Digitale Kuratierungstechnologien wird unterstützt
vom Bundesministerium für Bildung und Forschung
(BMBF), Unternehmen Region, Wachstumskern-
Potenzial (Nr. 03WKP45).
• Inhalte werden im/über das World Wide Web konsumiert
• Daher Einbettung der Infrastruktur in den Browser
• Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün
• Somit Filterblasen- und Netzwerkeffekte ausbalancieren
• Hybrider Ansatz: automatische Werkzeuge und menschliche
Schwarmintelligenz
• Ambition: Infrastruktur für Millionen von Nutzern, beliebige Klassen von
Inhalten und Hunderte Sprachen
• Ziel: Nutzern Technologien an die Hand geben, mit denen sie digitale
Inhalte und Medien besser rezipieren, einschätzen, analysieren,
verifizieren und verarbeiten können und die automatisch Hinweise auf
problematische Inhalte liefern.
• Digitale Medien und digitale
Kommunikation: Immense
politische, gesellschaftliche
und ökonomische Relevanz
• Diese wird in Zukunft immer
weiter zunehmen
• Interessante Phänomene
bezüglich der Produktion,
Distribution, Rezeption und
Auswirkung von Medien
Satire oder
Parodie:
führt
Menschen
aber dennoch
manchmal auf
das Glatteis
Falscher
Zusam-
menhang:
wenn Titel und
Fotos den
Inhalt nicht
stützen
Irreführender
Inhalt:
Nutzung von
Informatio-
nen, um
etwas/jmd. In
ein schlechtes
Licht zu
rücken
Falscher
Kontext: wenn
echte Inhalte
im falschen
Kontext
präsentiert
werden
Betrügerische
Inhalte:
wenn echte
Quellen
imitiert werden
Manipulierter
Inhalt:
Manipulation
von Inhalten
zum Zweck
der
Täuschung
Fabrizierter
Inhalt:
basiert zu
100% nicht
auf Tatsachen,
geschrieben
um zu
täuschen
Charakteristika
Clickbait X X ? ? ?
Desinformation X X X X
Politisch gefärbt ? X ? ? X
Schlechter Journalismus X X X
IntentionenderUrheber
Parodie X ? ?
Provokation X X X
Profit ? X X X
Täuschung X X X X X X
Politik beeinflussen X X X X
Meinungen beeinflussen X X X X X
Beispiel 1: Clickbait-Erkennung
Vollautomatische Prüfung arbiträrer Behauptungen
ist bis auf Weiteres technisch unmöglich
Annäherung: Ermittlung der Haltung eines Textes zu
einem Thema („Stance Detection“)
Annotierte Titel/Artikel-Paare 49.972 100%
Klasse: unrelated 36.545 73%
Schritt 1: Klassifikation related vs.
unrelated = Clickbait-Erkennung
Klasse: discuss 8.909 18%
Schritt 2: Nur wenn sich der Titel auf den
Text bezieht, kann discuss, agree,
disagree klassifiziert werden.
Klasse: agree 3.678 7%
Klasse: disagree 840 2%
DFKI-
System
Relatedness 93,29
Drei Klassen 88,36
Gewichtet 89,59
Mit einer Präzision von 89,59
haben wir bei der ersten Fake
News Challenge (FNC1) Platz 9
von 50 Teams erreicht.
Tweets EN
(15.979)
Tweets DE
(469)
Wikipedia A1
(11.304)
Wikipedia A2
(11.304)
Precision 85,67 78,19 80,90 80,42
Recall 77,45 78,16 80,97 80,46
Schlussfolgerung: Viel versprechende Ergebnisse; bislang nur
einzelne Experimente mit wenigen Typen problematischer Inhalte!
• Beleidigende Beiträge verhindern konstruktive Online-Debatten
• Klassifikationsexperimente mit verschiedenen Datensets
• Englische Tweets: neutral, rassistisch, sexistisch
• Deutsche Tweets: hasserfüllt vs. nicht hasserfüllt
• Wikipedia-Talk-Seiten mit Nutzerkommentaren
• A1: Angriff auf eine Person vs. kein Angriff auf eine Person
• A2: Aggression vs. keine Aggression
Beispiel 2: Beleidigende Sprache
Schlussfolgerungen
und nächste Schritte
• Nutzern den Ausbruch aus der Filterblase und
einen kritischeren Umgang mit digitalen Medien
ermöglichen
• Lösung: Maschinelle Verfahren in Verbindung mit
Schwarmintelligenz
• Herbst: Einbringung der Idee in „Next Generation
Internet“-Initiative der EC – deren Ziel: ein
„menschlicheres Internet“
• Herbst: Bau eines Prototyps; Diskussion dieser
Themen im World Wide Web Consortium (W3C)
Online Medien: Status Quo
Idee: Bau einer Infrastruktur, die automatische Analysen und Annotationen von
Nutzern ermöglicht, um die Herausforderungen des digitalen Zeitalters zu lösen.
• Das World Wide Web ermöglicht es – ohne Kontroll-instanz – Inhalte
zu publizieren und zu verbreiten
• Content wird heute über soziale Medien entdeckt
• Relevanter Content wird zügig geteilt – oft ohne Lektüre, kritisches
Hinterfragen oder Prüfen der Inhalte
• Ziel: Viralität Reichweite Klicks Werbeerlöse
• Filterblase: Nur vom Nutzermodell als „relevant“ eingestufte Inhalte
werden auf der Timeline präsentiert
• Kontroverse Inhalte und Meinungen bleiben außen vor
• Filterblase wirkt wie eine verstärkende Echokammer
Übergreifende Infrastruktur
Website
mit Inhalten
Tool1
Browser unterstützt Infrastruktur nativ und aggregiert
unterschiedlichen Bewertungen, Kommentare und Meinungen
über einen Inhalt in klare Botschaften oder Warnungen
Web
Annotations
DB1
Web
Annotations
DB2
Tool3
Tool2
UGA: User-generierte Annotationen (Freitext)
UGM: User-generierte Metadaten (standardisiert)
MGM: Maschinen-generated Metadaten (standardisiert)
MGM
MGM
MGM
Dezentrale Filter verarbeiten Inhalte automatisch und schicken
Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)
UGA
Web
Annotations
DB4UGM
Beispiel: Nutzer bewertet Qualität
eines Inhalts im Hinblick auf
ein standardisiertes Schema
Annotationen anderer Nutzer
andere
Nutzer
Web
Annotations
DB3
UGA
UGM
UGM
UGA
Dezentralle Repositorien
speichern alle Annotationen
Detektion von
Hassrede Klassifikation des
politischen Spektrums
Faktenchecker
Unterschiedliche Typen falscher Nachrichten und ihre jeweiligen Charakteristika und Intentionen
(nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017)