Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Kuratieren im Zeitalter der KI

196 views

Published on

Georg Rehm. Kuratieren im Zeitalter der KI. #DKT17 - Kuratieren im Zeitalter der KI, Berlin, Germany, October 2017. October 12, 2017. Invited keynote talk.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Kuratieren im Zeitalter der KI

  1. 1. Georg Rehm georg.rehm@dfki.de DFKI GmbH, Berlin #DKT17: Kuratieren im Zeitalter der KI 12. Oktober 2017 – Humboldt Universität zu Berlin Kuratieren im Zeitalter der KI
  2. 2. Semantic Media Web 2014 Einführung des Konzepts „Digitale Kuratierung“ Semantic Media Web 2015 – #DKT15 Vorstellung des neuen BMBF-Projekts „Digitale Kuratierungstechnologien“ Semantic Media Web 2016 – #DKT16 Bergfest – erste Ergebnisse Semantic Media Web 2017 – #DKT17 Der Projektabschluss steht kurz bevor.
  3. 3. Überblick • Was ist digitale Kuratierung? • BMBF-Projekt Digitale Kuratierungstechnologien • Zusätzliche Branchen und Anwendungsszenarien • Persönliche Kuratierungstechnologien • Schlussfolgerungen #DKT17 – 12. Oktober 2017 3
  4. 4. Digitale Medien im Jahr 2017 #DKT17 – 12. Oktober 2017 4
  5. 5. #DKT17 – 12. Oktober 2017 5
  6. 6. #DKT17 – 12. Oktober 2017 6
  7. 7. #DKT17 – 12. Oktober 2017 7
  8. 8. #DKT17 – 12. Oktober 2017 8
  9. 9. Digitale Medien im Jahr 2017 • Das WWW begann 1989 als eine Art digitales Archiv • 2017: Hochgradig dynamische Informations-, Kommunikations- und E-Commerce-Maschine • Milliarden von Nutzern, diverse Typen von Endgeräten • Content ist ein wichtiger Treibstoff der Maschine • Immer breitere Diversifizierung (Branchen und Nischen) • Politische, gesellschaftliche und ökonomische Relevanz • In zahlreichen Branchen und Bereichen herrscht sehr großer Druck, regelmäßig Content zu publizieren • Große Herausforderung: Effizienter Umgang mit Content #DKT17 – 12. Oktober 2017 9
  10. 10. KI im Jahr 2017 #DKT17 – 12. Oktober 2017 10
  11. 11. #DKT17 – 12. Oktober 2017 11
  12. 12. #DKT17 – 12. Oktober 2017 12
  13. 13. #DKT17 – 12. Oktober 2017 13
  14. 14. #DKT17 – 12. Oktober 2017 14 Daten Intelligenz Aktuelle Durchbrüche mit maschinellen Lernverfahren (Deep Learning) Ebenfalls noch immer im Einsatz: symbolische, regelbasierte Methoden Künstliche Intelligenz • Selbstfahrende Autos, Robotik, Bilderkennung, maschinelle Übersetzung • Ermöglicht durch tiefe Lernverfahren (neuronale Netze) • Immenses Potenzial für Disruptionen in allen Branchen • Tiefes Sprachverstehen – nächste große Herausforderung der KI-Forschung!
  15. 15. Was ist digitale Kuratierung? #DKT17 – 12. Oktober 2017 15
  16. 16. Was ist digitale Kuratierung? #DKT17 – 12. Oktober 2017 Information Information Information Information Information Information Information Information Information Information 16
  17. 17. Was ist digitale Kuratierung? #DKT17 – 12. Oktober 2017 Information Information Information Information Information Information Information Information Information ? ? ? ?Information 17
  18. 18. Was ist digitale Kuratierung? #DKT17 – 12. Oktober 2017 Information Information Information Information Information Information Information Information Information ? Information OutputInput SoftwareProzesse ? ? ? 18
  19. 19. Branchen Input Prozesse Software Output Tweet Analysieren Textverarbeitung Zeitungsartikel Zeitungsartikel Auswählen Präsentationen Multimedia-Website Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag Facebook-Meldung Überarbeiten Email Ausstellungskatalog Suchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte) SMS Gestalten Branchenapplikationen Textbeitrag Konzept Recherchieren CMS Konzept Textdateien Bewerten ECMS Zeitstrahl Video Evaluieren CRM Fachartikel Karte Ordnen Unternehmens-Software Studie Stockfotos Sortieren Grafik-/Layout-Software Präsentation In-house Datenbank Strukturieren Telefonie Faktensammlung Kalendereintrag Zusammenfassen etc. Exponatsartikel Spreadsheets Kürzen Analysen Archiv Übersetzen etc. etc. Informieren Kombinieren Abstrahieren Einordnen Visualisieren Generieren Annotieren Referenzieren etc. Beobachtungen • Content: textzentriert, mehrsprachig, multimedial • Kuratierung: zeit- und wissensintensiv, interdisziplinär, evtl. durchgeführt in verteilten Teams • Branche: domänen-/branchenspezifische Anforderungen • Einschränkung: Traditionelle CMS-Systeme bieten kaum Unterstützung für Kuratierungsprozesse! • Sprachtechnologie kann helfen – Kombinierung von Komponenten zu branchenspezifischen Workflows
  20. 20. Das BMBF-Projekt Digitale Kuratierungstechnologien #DKT17 – 12. Oktober 2017 20
  21. 21. DKT Kick-off-Veranstaltung – 25. September 2015 Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016 Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015 • Unterstützung und Optimierung digitaler Kuratierung durch Sprach- und Wissenstechnologien. • Entwicklung innovativer Prototypen bei den KMU-Partnern. • Weiterentwicklung der DFKI-Technologien und Transfer mittels Plattform für digitale Kuratierungstechnologien. Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  22. 22. Plattform für digitale Kuratierungstechnologien Broker REST API Kuratierungsservice 1 Kuratierungsservice 2 Client nutzt das API Externer Service 1 Externer Service 2 Client nutzt das API Client nutzt das API Client nutzt das API Kuratierungs-Workflow Output @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . @prefix itsrdf: <http://www.w3.org/2005/11/its/rdf#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos/> . @prefix nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#> . <http://link.omitted/documents/document1#char=0,26> a nif:RFC5147String , nif:String , nif:Context ; nif:beginIndex "0"^^xsd:nonNegativeInteger ; nif:endIndex "26"^^xsd:nonNegativeInteger ; nif:isString "Welcome to Berlin in 2016. "^^xsd:string ; dfkinif:averageLatitude "52.516666666666666"^^xsd:double ; dfkinif:averageLongitude "13.383333333333333"^^xsd:double ; dfkinif:stdDevLatitude "0.0"^^xsd:double ; dfkinif:stdDevLongitude "0.0"^^xsd:double ; nif:meanDateRange "20160101010000_20170101010000"^^xsd:string . <http://link.omitted/documents/document1#char=21,25> a nif:RFC5147String , nif:String ; itsrdf:taIdentRef <http://link.omitted/ontologies/nif#date=20160101000000_20170101000000> ; nif:anchorOf "2016"^^xsd:string ; nif:beginIndex "21"^^xsd:nonNegativeInteger ; nif:endIndex "25"^^xsd:nonNegativeInteger ; nif:entity <http://link.omitted/ontologies/nif#date>. <http://link.omitted/documents/#char=11,17> a nif:RFC5147String , nif:String ; nif:anchorOf "Berlin"^^xsd:string ; nif:beginIndex "11"^^xsd:nonNegativeInteger ; nif:endIndex "17"^^xsd:nonNegativeInteger ; itsrdf:taClassRef <http://dbpedia.org/ontology/Location> ; nif:referenceContext <http://link.omitted/documents/#char=0,26> ; geo:lat "52.516666666666666"^^xsd:double ; geo:long "13.383333333333333"^^xsd:double ; itsrdf:taIdentRef <http://dbpedia.org/resource/Berlin> . NLP Interchange Format (NIF) “Welcome to Berlin in 2016.” • RDF/OWL-basiertes Format für NLP- Anwendungen • Ermöglicht Interoperabilität • Durch pures RDF „natürliche“ Integration von Linked-Data-Daten • Entwickelt von der Universität Leipzig • Plattform unterstützt neben NIF auch Web Annotations Prototypisch implementierte Plattform und Services • Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche und finanzielle Aufwände reduzieren • Flexible, robuste, skalierbare Services • Gemeinsamer Bau von Prototypen (proofs-of-concept) • Modulare Inhalte in neuen Produktionen aggregieren • Interoperabilität durch generische APIs • Human in the loop
  23. 23. Prototypische Services #DKT17 – 12. Oktober 2017 23 NER, Linking, Geolokalisierung Technologien für Digitale Medien – Georg Rehm ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries ... ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. … Plain Text NIF-Anreicherung Visualisierung http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php • Modus 1: Modell-basiert (für Domänen, für die annotierte Trainingsdaten verfügbar sind) • Modus 2: Wörterbuch-basiert (für Domänen, für die lediglich Namenslisten verfügbar sind) • Basiert auf OpenNLP (mit NIF-Integration) • Entity-Linking durch SPARQL-Querys auf DBPedia. • Für Lokationen werden GPS-Koordinaten bezogen. • Es werden Durchschnittsangaben berechnet auf Dokumentebene (über alle Lokationen), um diese auf einer Karte visualisieren zu können. Geolokalisierung als visuelles Zusammenfassen! 53 Technologien für Digitale Medien – Georg Rehm NER und Linking • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict • Falls lediglich Listen von Namen oder Termen und deren URIs in einer Ontologie zur Verfügung stehen. • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner • Falls annotierte Trainingsdaten zur Verfügung stehen auf neuem Input nutzbar (auch gemeinsam) statistisches NER-Modell Datenbank-Dump der Mendelsohn-Briefe Hohe Qualität Benötigt annotierte Daten Mittlere Qualität Benötigt weniger annotierte Daten • Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B) vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden. • Diese Liste kann vom Wissensarbeiter überprüft und anschließend als Wörterbuch (A) eingesetzt werden. Mittlere Qualität Menschliche Intervention notwendig Benötigt keine annotierten Daten A B C • Linking per Extraktion der DBpedia-URI • NE-Typspezifische SPARQL-Querys für Personen (Geburtsdatum), Lokationen (Koordinaten), Organisationen (Typ) • Wörterbuch kann URIs enthalten 54 Technologien für Digitale Medien – Georg Rehm Zeitausdrücke ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. ... ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries … 900 1600 http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp http://dev.digitale-kuratierung.de/admini/pages/timelining.php Plain-Text NIF-Anreicherung Visualisierung • Sortiert Dokumente auf einer chronologischen Skala. • Regelbasiertes System, um unsere Zielsprachen bestmöglich bedienen zu können (EN, DE). • Analyse von Zeitausdrücken in einem Dokument. • Berechnet Durchschnittswerte und Intervalle. • Plan: Mechanismus für nutzerbasierte Regeln. • Verwandte Arbeiten: SUTime, HeidelTime, Tango, Tarsgi. 55 Maschinelle Übersetzung Technologien für Digitale Medien – Georg Rehm Workflow Language & Translation Models trained on DGT, News, Europarl, TED Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen. Mr Modi is located on a five-day trip to Japan to strengthen the economic ties with the third largest economy in the world. Named Entity Recognition Entity Linking Temporal Expressions Metadata Processing Post-Edit Retraining Beispiel • Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.) • Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a. • Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF • Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet) Ankit Srivastava, Georg Rehm, and Felix Sasaki. Improving Machine Translation through Linked Data. The Prague Bulletin of Mathematical Linguistics, 108(1):355-366, June 2017. Proceedings of the 20th Annual Conference of the European Association for Machine Translation (EAMT 2017). Workflow Language & Translation Models trained on DGT, News, Europarl, TED 56 Textzusammenfassen Technologien für Digitale Medien – Georg Rehm Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79 Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE- Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB- Werte jeweils bei 11,77 bzw. 2,13 liegen. Im letzten Monat und den letzten 3 Monaten verlor die RWE-Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. • Kuratierungsservice rankt Sätze – basierend auf div. Features – hinsichtlich ihrer Wichtigkeit. • Modul ist in der Entwicklung. • Beispiel: Artikel über den fallenden Aktienkurs von RWE (Daten stammen von Condat). • Ausblick: Integration der Analyseergebnisse anderer DKT-Services in den Algorithmus. 57 Semantic Storytelling • Eingabe: Kohärente, in sich geschlossene Textkollektion • Ausgabe: Semantisch angereicherte Kollektion • Idee: Aufgabenspezifisch multiple Rezeptionspfade generieren, vorschlagen, präsentieren • Lösung: Identifizierung, Ranking und Empfehlung sinnvoller, überraschender Hypertextpfade • Es gibt noch zahlreiche Herausforderungen. Technologien für Digitale Medien – Georg Rehm 58 Julian Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016. Peter Bourgonje, Julian Moreno Schneider, Georg Rehm und Felix Sasaki. Processing Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the 2nd International Workshop on Natural Language Generation and the Semantic Web (WebNLG 2016), S. 13-16, Edinburgh, UK, Sept. 2016. Association for Comp.Linguistics. Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic Web: ESWC 2016 Satellite Events, Juni 2016.
  24. 24. Storytelling Wunschfunktionalität bei den Partnern: Semantic Storytelling • Eingabe: Kohärente, in sich geschlossene Textkollektion • Ausgabe: Semantisch angereicherte Kollektion • Idee: Aufgabenspezifisch multiple Rezeptionspfade generieren, vorschlagen, präsentieren • Lösung: Identifizierung, Ranking und Empfehlung sinnvoller, überraschender Hypertextpfade • Derzeit noch experimentelle Avantgarde-Technologie • Es gibt noch zahlreiche Herausforderungen ... #DKT17 – 12. Oktober 2017 24
  25. 25. RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained documentcollection • Example:Mendelsohn letters,2796 documents, written in German, English,French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of differenttext types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-outformats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual,including German and French, through machine translation) • Mode of transportation analysis • Identification of MovementAction Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Beispiel: Die Mendelsohn-Briefe Experiment: Überführung einer Sammlung von Briefen in einen Reisebericht Georg Rehm, Julian Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Jan Nehring, Armin Berger, Luca König, Sören Räuchle, and Jens Gerth. Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters. In Tommaso Caselli, Ben Miller, Marieke van Erp, Piek Vossen, Martha Palmer, Eduard Hovy, and Teruko Mitamura, editors, Proceedings of the Events and Stories in the News Workshop, Vancouver, Canada, August 2017. Association for Computational Linguistics. Co-located with ACL 2017.
  26. 26. #DKT17 – 12. Oktober 2017 26 Beispiel: Die Mendelsohn-Briefe
  27. 27. #DKT17 – 12. Oktober 2017 27 Georg Rehm, Julian Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Jan Nehring, Armin Berger, Luca König, Sören Räuchle, and Jens Gerth. Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters. In Tommaso Caselli, Ben Miller, Marieke van Erp, Piek Vossen, Martha Palmer, Eduard Hovy, and Teruko Mitamura, editors, Proceedings of the Events and Stories in the News Workshop, Vancouver, Canada, August 2017. Association for Computational Linguistics. Co-located with ACL 2017. Branche: Öffentliche Archive
  28. 28. #DKT17 – 12. Oktober 2017 28 Julian Moreno-Schneider, Ankit Srivastava, Peter Bourgonje, David Wabnitz, and Georg Rehm. Semantic Storytelling, Cross- lingual Event Detection and other Semantic Services for a Newsroom Content Curation Dashboard. In Octavian Popescu and Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism - EMNLP 2017 Workshop (NLPMJ 2017), Copenhagen, Denmark, September 2017. 7. September. Branche: Journalismus
  29. 29. Branche: Museen, Showrooms, Ausstellungen #DKT17 – 12. Oktober 2017 29 Georg Rehm, Jing He, Julian Moreno Schneider, Jan Nehring, and Joachim Quantz. Designing User Interfaces for Curation Technologies. In Sakae Yamamoto, editor, Human Interface and the Management of Information: Information, Knowledge and Interaction Design, 19th International Conference, HCI International 2017, number 10273 in Lecture Notes in Computer Science (LNCS), pages 388-406, Vancouver, Canada, July 2017. Springer.
  30. 30. #DKT17 – 12. Oktober 2017 30 Georg Rehm, Julián Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Rolf Fricke, Jan Thomsen, Jing He, Joachim Quantz, Armin Berger, Luca König, Sören Räuchle, Jens Gerth, and David Wabnitz. Different Types of Automated and Semi-Automated Semantic Storytelling: Curation Technologies for Different Sectors. In Georg Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL Conference 2017, Lecture Notes in Artificial Intelligence (LNAI), Heidelberg etc., September 2017. Gesellschaft für Sprachtechnologie und Computerlinguistik e.V., Springer. 13.-15. September 2017. Branche: TV, Web-TV, Medien
  31. 31. Kuratierungstechnologien für zusätzliche Branchen und Anwendungsfälle #DKT17 – 12. Oktober 2017 31
  32. 32. • BMBF-Projekt Digitale Kuratierungstechnologien: – Museen, Showrooms, Ausstellungen – TV, Web-TV, Medien – Öffentliche Archive – Journalismus #DKT17 – 12. Oktober 2017 32
  33. 33. • BMBF-Projekt Digitale Kuratierungstechnologien: – Museen, Showrooms, Ausstellungen – TV, Web-TV, Medien – Öffentliche Archive – Journalismus • Außerdem Kuratierungstechnologien konzipiert für: – Bibliothekswissenschaft und Digital Libraries – Customer-Relationship-Management (u.a. Chatbots) – Juristische und regulatorische Inhalte – Medizinische Inhalte – Digital Humanities – Film- und Kinobranche #DKT17 – 12. Oktober 2017 33 Clemens Neudecker und Georg Rehm. „Digitale Kuratierungstechnologien für Bibliotheken“. Zeitschrift für Bibliothekskultur 027.7, Open Access. Nov. 2016. Georg Rehm. Der Mensch bleibt im Mittelpunkt – Smarte Technologien für alle Branchen. Vitako Aktuell. Zeitschrift der Bundes-Arbeitsgemeinschaft der Kommunalen IT-Dienstleister e.V., 2- 2016:26-27, 2016. Georg Rehm. Artificial Intelligence for the Film Industry. FilmTech Meetup Berlin, July 25, 2017. Georg Rehm. KI für die Kundenkommunikation: Der Markt der Zukunft. Rethink! Connected Customer 360°. Hamburg, June 22/23, 2017.
  34. 34. Propellor | Forum #1 – Interessante Resultate: • Any Film, Anywhere – user model, watchlist, loc, reco • Bubble Buster – user model, reco (safe & surprising) • Super AI Brain – user model, reco • Data of the Movie – user model, reco, biofeedback • AI-based Storytelling – user model, audience clustering, Big Data-based storytelling #DKT17 – 12. Oktober 2017 34 http://www.propellorfilmtech.com/forum
  35. 35. Persönliche Kuratierungstechnologien #DKT17 – 12. Oktober 2017 35
  36. 36. #DKT17 – 12. Oktober 2017 36
  37. 37. #DKT17 – 12. Oktober 2017 37
  38. 38. Viralität und Filterblasen • Inhalte werden ohne Kontrollinstanz publiziert, über soziale Medien entdeckt und, falls relevant, zügig geteilt • Das Teilen erfolgt oft ohne Lektüre oder kritische Prüfung • Ziel: Viralität ➟ Reichweite ➟ Klicks ➟ Werbeerlöse • Nicht alle „journalistisch“ aussehenden Inhalte fühlen sich tatsächlich der Wahrheit verpflichtet • Bürde der kritischen Prüfung liegt heute bei den Lesern • „Fake News“: Etikett für diverse Klassen von Inhalten #DKT17 – 12. Oktober 2017 38
  39. 39. Sieben Klassen von Falsch- nachrichten Satire oder Parodie: führt Menschen aber dennoch manchmal auf das Glatteis Falscher Zusam- menhang: wenn Titel und Fotos den Inhalt nicht stützen Irreführen- der Inhalt: Nutzung von Informatio- nen, um etwas/jmd. In ein schlechtes Licht zu rücken Falscher Kontext: wenn echte Inhalte im falschen Kontext präsentiert werden Betrüge- rische Inhalte: wenn echte Quellen imitiert werden Manipulier- ter Inhalt: Manipula- tion von Inhalten zum Zweck der Täuschung Fabrizierter Inhalt: basiert zu 100% nicht auf Tatsachen, geschrie- ben um zu täuschen Charakteristika Clickbait X X ? ? ? Desinformation X X X X Politisch gefärbt ? X ? ? X Schlechter Journalismus X X X IntentionenderUrheber Parodie X ? ? Provokation X X X Profit ? X X X Täuschung X X X X X X Politik beeinflussen X X X X Meinungen beeinflussen X X X X X Unterschiedliche Klassen von Falschnachrichten und ihre jeweiligen Charakteristika und Intentionen (nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017) 39
  40. 40. #DKT17 – 12. Oktober 2017 Annotierte Titel/Artikel-Paare 49.972 100% Klasse: unrelated 36.545 73% Schritt 1: Klassifikation related vs. unrelated = Clickbait-Erkennung Klasse: discuss 8.909 18% Schritt 2: Nur wenn sich der Titel auf den Text bezieht, kann discuss, agree, disagree klassifiziert werden. Klasse: agree 3.678 7% Klasse: disagree 840 2% 40 DFKI- System Relatedness 93,29 Drei Klassen 88,36 Gewichtet 89,59 Mit einer Präzision von 89,59 haben wir bei der ersten Fake News Challenge (FNC1) Platz 9 von 50 Teams erreicht. Peter Bourgonje, Julian Moreno Schneider, and Georg Rehm. “From Clickbait to Fake News Detection: An Approach based on Detecting the Stance of Headlines to Articles”. In Octavian Popescu and Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism – EMNLP 2017 Workshop (NLPMJ 2017), Copenhagen, Denmark, September 2017. 7. September. Beispiel: Clickbait-Erkennung • Vollautomatische Prüfung arbiträrer Behauptungen bis auf Weiteres technisch unmöglich • Annäherung: Ermittlung der Haltung eines Textes zu einem Thema („Stance Detection“)
  41. 41. Übergreifende Infrastruktur • Inhalte werden im/über das World Wide Web konsumiert • Daher Einbettung der Infrastruktur in den Browser • Ziel: Leser im Umgang mit Inhalten unterstützen, Fakten prüfen, Täuschungsversuche erkennen etc. • Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün • Somit Filterblasen- und Netzwerkeffekte ausbalancieren • Kombination aus automatischen Werkzeugen und menschlicher Schwarmintelligenz #DKT17 – 12. Oktober 2017 41 Georg Rehm. “An Infrastructure for Empowering Internet Users to handle Fake News and other Online Media Phenomena”. In Georg Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL Conference 2017, Berlin, September 2017. Gesellschaft für Sprachtechnologie und Computerlinguistik e.V. 13.-15. September 2017.
  42. 42. Website mit Inhalten Tool1 Browser unterstützt Infrastruktur nativ und aggregiert unterschiedlichen Bewertungen, Kommentare und Meinungen über einen Inhalt in klare Botschaften oder Warnungen Web Annotations DB1 Web Annotations DB2 Tool3 Tool2 UGA: User-generierte Annotationen (Freitext) UGM: User-generierte Metadaten (standardisiert) MGM: Maschinen-generated Metadaten (standardisiert) MGM MGM MGM Dezentrale Filter verarbeiten Inhalte automatisch und schicken Ergebnisse zum Browser (wichtig: Mehrsprachigkeit) UGA Web Annotations DB4UGM Beispiel: Nutzer bewertet Qualität eines Inhalts im Hinblick auf ein standardisiertes Schema Annotationen anderer Nutzer andere Nutzer Web Annotations DB3 UGA UGM UGM UGA Dezentralle Repositorien speichern alle Annotationen Detektion von Hassrede Klassifikation des politischen Spektrums Faktenchecker
  43. 43. Website mit Inhalten Tool1 Browser unterstützt Infrastruktur nativ und aggregiert unterschiedlichen Bewertungen, Kommentare und Meinungen über einen Inhalt in klare Botschaften oder Warnungen Web Annotations DB1 Web Annotations DB2 Tool3 Tool2 UGA: User-generierte Annotationen (Freitext) UGM: User-generierte Metadaten (standardisiert) MGM: Maschinen-generated Metadaten (standardisiert) MGM MGM MGM Dezentrale Filter verarbeiten Inhalte automatisch und schicken Ergebnisse zum Browser (wichtig: Mehrsprachigkeit) UGA Web Annotations DB4UGM Beispiel: Nutzer bewertet Qualität eines Inhalts im Hinblick auf ein standardisiertes Schema Annotationen anderer Nutzer andere Nutzer Web Annotations DB3 UGA UGM UGM UGA Dezentralle Repositorien speichern alle Annotationen Detektion von Hassrede Klassifikation des politischen Spektrums Faktenchecker Ziel: Nutzern Technologien an die Hand geben, mit denen sie digitale Inhalte und Medien besser rezipieren, einschätzen, analysieren, verifizieren und verarbeiten können und die automatisch Hinweise auf problematische Inhalte liefern.
  44. 44. DFKI organisierte GSCL 2017 • „Sprachtechnologien für die Herausfor- derungen des Digitalen Zeitalters“ • 100+ Teilnehmer • 13./14. September 2017 – HU Berlin • Vier Beiträge von DKT! • Proceedings erscheinen in Kürze bei Springer (LNAI) – unterstützt von DKT! #DKT17 – 12. Oktober 2017 44
  45. 45. Schlussfolgerungen • Wissensarbeiter können bei der Kuratierung von Inhalten und Wissen durch Technologien unterstützt werden • In diversen Branchen sehr großes Interesse an dem Ansatz und den bislang entwickelten Prototypen • Enormes Potential für Folgeaktivitäten • Erweitertes Set von Services, automatischere Ansätze, zusätzliche Wissensquellen, flexiblere Orchestrierung • EU-Projekt zu Kuratierungstechnologien für juristische Inhalte startet im Dezember 2017 • Kuratierungstechnologien für das mehrsprachige Europa #DKT17 – 12. Oktober 2017 45
  46. 46. Challenges • Increasingly important role of Social Media as news provider, shift in fact-checking and quality control responsibilities from journalist (content creator) to reader (content consumer). • Definitive solution to Fake News challenges requires input from several disciplines (communication science, law, etc.), trying to contribute from a Language Technology perspective. • Following FNC-1 (http://www.fakenewschallenge.org), we deploy a stance detection system. • With “truth labelling” being a highly difficult, ambiguous and perspective-dependent task, stance detection is a valid first step, because combined with a (post-facto) truth label, or trustworthiness information, dubious claims can be brought to the attention of fact checkers, or directly to news consumers. • Insights from sentiment analysis may give hints on stance, but the latter has broader scope (the target of a proposition may not be included in the phrase itself). From Clickbait to Fake News Detection: An Approach based on Detecting the Stance of Headlines to Articles Peter Bourgonje, Julián Moreno Schneider, Georg Rehm DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany Corresponding author: georg.rehm@dfki.de … to Fake News Detection • Integration in Digital Curation platform (http://digitale-kuratierung.de), from smart and semantically enriched content to contextualised content. • Large potential, but also large potential for abuse: decentralised repositories, open, event-based knowledge graph for automated content verification. Classifying stance of headlines to articles based on the Emergent data set (Ferreira & Vlachos, 2016) and on the first Fake News Challenge (FNC-1) setup. Integrated in a digital curation platform, with a proposal for a framework for fake news detection. Unique headlines 1.648 Unique articles 1.668 Annotated pairs 49.972 100% Class Total Ratio Unrelated 36.545 73% Discuss 8.909 18% Agree 3.678 7% Disagree 840 2% Majority vote 3-class classifier Combined classifiers Relatedness score 93.27 93.26 93.29 Three-class score 61.51 75.34 88.36 Weighted score 69.45 79.82 89.59 Headline: "ADVISORY-Islamist rebel leader killed in U.S. strike - Somali government" Article: "MOGADISHU, Sept 5 (Reuters) - The alert and story on Sept. 5 headlined ""Islamist rebel leader killed in U.S. strike-Somali government"" is withdrawn and no substitute story will be issued. The story was sourced to a website purporting to be the Somali prime minister's Facebook page. A Somali government spokesman said the page was not official and said the government had not yet commented on whether Ahmed Godane, the head of the Somali Islamist militant group al Shabaab, had been killed in a U.S. strike on Monday. STORY_NUMBER: L5N0R62Q3 STORY_DATE: 05/09/2014 STORY_TIME: 1324 GMT (Writing by Edmund Blair; Editing by Sonya Hepinstall)" Stance: disagree Evaluation Dataset Results Headline: "Return of the Mac: Seth Rogen in talks to star as Apple co-founder Steve Wozniak in upcoming Steve Jobs biopic" Article: "Afghanistan veteran Sam Arnold uploaded this spine-chilling video of a US Marine getting a direct headshot from a Taliban sniper—only to be saved by his kevlar helmet. It's incredible to watch, especially the face of relief and disbelief of the impact victim. That was a really close call. According to Arnold, ""the Marines were conducting a joint helicopter raid in the Now Zad district, Helmand Province in 2013. The shot occurs right at the :45 mark in the video.""" Stance: unrelated From Clickbait … • Classifying pairs into related vs. unrelated, based on ngram-matching of header and article • Classifying related pairs into disagree, agree or discuss, first using a 3-class (Maximum Entropy) classifier. If the distance between best and second-best scoring class is under some threshold: • Using specialized binary (maxent) classifiers (disagree vs. agree, disagree vs. discuss and discuss vs. agree) where #DKT17 – Kuratieren im Zeitalter der KI, Berlin Digitale Kuratierungstechnologien is supported by the German Federal Ministry of Education and Research (BMBF), Unternehmen Region, Wachstumskern-Potenzial (No. 03WKP45). 1. Semantic Storytelling • Approach that bundles a flexible set of semantic services for the production of digital content, to recommend interesting storylines to human experts from large collections of documents • Processing a coherent and self-contained collection of documents to identify and to suggest one or more potential story paths that can then be used to structure an actual story around them or, generally, a new piece of content Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters Georg Rehm*, Julián Moreno Schneider*, Peter Bourgonje*, Ankit Srivastava*, Jan Nehring*, Armin Berger§, Luca König§, Sören Räuchle§, Jens Gerth§ * DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany § 3pc GmbH Neue Kommunikation, Prinzessinnenstraße 1, 10969 Berlin, Germany Corresponding author: georg.rehm@dfki.de 3. Smart Authoring Environment 4. Movement Action Events (MAEs) Based on NER, Temporal Expression, Geolocations, Movement Verbs and Events person, origin, destination, departure time, arrival time, mode of transport 2. Digital Curation Technologies 5. MAE Extraction Results RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained document collection • Example: Mendelsohn letters, 2796 documents, written in German, English, French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of different text types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-out formats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual, including German and French, through machine translation) • Mode of transportation analysis • Identification of Movement Action Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Obama, Brasilia, Rio de Janeiro, [], [], []. Mr Obama arrived in Rio de Janeiro after a day of talks in the capital, Brasilia, with Ms Rousseff and business leaders. Mendelsohn Corpus Results [], [], Cleveland, May 06 12:00 2017, [], [] My discussion here will, I hope, be finished before I leave for Cleveland tomorrow night. th=0 th=.25 th=.5 th=.75 A1 591 328 98 0 A3 563 253 54 0 A5 116 60 11 0 Obama Corpus Results th=0 th=.25 th=.5 th=.75 A1 13030 9700 5314 0 A3 7841 4511 2784 0 A5 2545 1768 1328 0 • Generic curation services: Named entity recognition, entity linking, summarisation, machine translation, analysis of temporal expressions, geolocation tagging etc. • Enable knowledge workers (digital curators, journalists, exhibition planners etc.) to be more efficient and produce output of higher quality Abstract: Identifying a specific class of events, movement action events (MAEs), in ca. 2,800 personal letters exchanged by the German architect Erich Mendelsohn and his wife, Luise. A backend system uses these and other semantic analysis results as input for an authoring environment that curators can use to produce new pieces of content (travelogue). 2.2 Generic Event Extraction • Implemented a joint extraction of events and entities within a document context trained on the English section of the ACE 2005 data, to extract generic events in the Mendelsohn letters (English as well as German translated into English) • Most relevant event type for MAE is the Transport event; In the Mendelsohn dataset, 45% labelled events were Transport in English and 40% were Transport in German 2.1 Data Sets • Mendelsohn letters: 2,796 letters (2,481 in German, 312 in English and 3 in French), written between 1910 and 1953, by Erich (1,410) and Luise Mendelsohn (1,328) • Obama corpus: 487 news articles (English) on the multiple trips of Barack Obama We apply five approaches: A1) using all entities in an event A2) like A1 but including metadata of the letters as entities (author, location, date) A3) using all entities but avoiding similar locations for LO and LD and similar dates for tD and tA A4) like A3 but including the metadata A5) like A3 but only including the MAEs from sentences that include a trigger element Instantiation of MAE Six-Tuples 1) Delete general event not containing a trigger element 2) Include metadata information if there is no participant, location, or temporal expression 3) Generate MAE candidate six-tuples by filling the six-tuple with available entities getting a score: !"#$% = !"' + !")* + !")+ + !",- + !",. + !"/ 4) Delete MAEs under a certain threshold. MAE Visualisation Temple Washington affair promising. Have been there on Tuesday night from 9.30 to 1, returned to Baltimore at 2A.M. […] Due in St. Louis around The hectic days of St. Louis, my beloved, are drawing to their close. I am leaving tonight for Davenport midnight. For consecutive MAEs, we assume that LD is LO of the next trip #DKT17 – Kuratieren im Zeitalter der KI, Berlin Digitale Kuratierungstechnologien is supported by the German Federal Ministry of Education and Research (BMBF), Unternehmen Region, Wachstumskern-Potenzial (No. 03WKP45). 1. Content Curation Dashboard • Superdesk (http://www.superdesk.org) extension for keyword alerts, content exploration, related content discovery. • Visualisation and annotation of news documents, using Linked Data knowledge graphs. • From documents to smaller content components (i.e., individual event representations) as atomic building blocks for story line generation. Semantic Storytelling, Cross-lingual Event Detection and other Semantic Services for a Newsroom Content Curation Dashboard Julián Moreno Schneider*, Ankit Srivastava*, Peter Bourgonje*, David Wabnitz§, Georg Rehm* * DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany § Kreuzwerker GmbH, Ritterstraße 12-14, 10969 Berlin, Germany Corresponding author: georg.rehm@dfki.de 3. Evaluation • Qualitative evaluation of story line clusters. • English: Global news. The Obama corpus contains 487 files with news articles on the multiple trips of Barack Obama. • German: Regional news. Corpus provided by a project partner, containing news 1,037 articles, general (regional-level) domain with no specific topic. • Events based on NER, Temporal Expression, Geolocations, Movement Verbs an Events, represented by: Person, Origin, Destination, Departure Time, Arrival Time, Transportation 2. Semantic Storytelling Language Technology backend based on typical components like NER, Entity Linking, Temporal Analysis, Summarisation, to arrive at Event Extraction and finally visualisation. Semantic Storytelling based on clustering of events, collected through cross-lingual event extraction. Resulting in a tool aiding journalists in the creation of storylines for several different domains, granularities and use cases. 2.3 Visualisation By cluster, temporal or geographical dimension: Instantiation of MAE Six-Tuples 1) Delete general event not containing a trigger element 2) Include metadata information if there is no participant, location, or temporal expression 3) Generate MAE candidate six-tuples by filling the six- tuple with available entities getting a score: !"#$% = !"' + !")* + !")+ + !",- + !",. + !"/ 4) Delete MAEs under a threshold. 2.1 Event Extraction • English Event Extraction module trained on ACE2005 (news domain) data • German text translated using Moses, Machine Translation, analysed using English Event Extraction module, events projected back to German input text. 2.2 Event Clustering Conclusion • Feasible approach for automatic generation of semantic content for stories in large collections with topic heterogeneity (Obama corpus). • Limited performance for cross-lingual approach (German regional news corpus) due to pipeline approach (limited performance of MT component not specifically trained for the domain) Initial(Search(and Filtering Annotated Entities Searching Related Content • Clustering found events on entities appearing in them and sorting by frequency. • Found clusters form the logical structure of new content. #DKT17 – Kuratieren im Zeitalter der KI, Berlin Digitale Kuratierungstechnologien is supported by the German Federal Ministry of Education and Research (BMBF), Unternehmen Region, Wachstumskern-Potenzial (No. 03WKP45). 1. Task Description, Data & Tools #DKT17 – Kuratieren im Zeitalter der KI, Berlin DFKI-DKT at SemEval-2017 Task 8: Ankit Srivastava,"Georg/Rehm,"Julian/Moreno/Schneider DFKI"GmbH,"Language"Technology"Lab,"Alt9Moabit"91c,"10559"Berlin,"Germany {ankit.srivastava,"georg.rehm,"julian.moreno_schneider}@dfki.de Rumour Detection & Classification using Cascading Heuristics 3. Experimental Analysis !RumourEval Shared"Task":Analysing"and"determining"veracity"of"social"media"content !Given"a"set"of"Twitter"conversation"on"a"specific"topic:"identify"rumours"&"classify"stance !Subtask/A:"Classify"whether"a"reply"tweet"Supports,"Denies,"Queries"(ask"for"additional" evidence)"or"merely"Comments"on"a"given"rumourous tweet"[Fig."1] !Subtask/B/(closed):"Identify"whether"a"tweet"is"the"Truth"or"Falsehood"(rumour)"[Fig."2] !Training"/"Development"/"Test"Data:"Available"from"the"Pheme Project !3"Classifiers"from"MALLET"(MAchine Learning"for"LanguagE Toolkit)"– Naïve"Bayes," Maximum"Entropy,"Winnow"Classification !Heuristics"(Hand9coded"rules)"as"a"post9classification"process"in"a"cascading"fashion 2. DFKI-DKT System 0,635 0,393 0,621 0,387 0,63 0,4 0,705 0,422 SUBTASK A SUBTASK B MaxEnt NvBayes Winnow EnsembleSystem"Workflow For both subtasks, we employ a hybrid system consisting of a classifier (either single or ensemble of three [voting9 based combination]) followed by heuristics (decision rules) inferred from a statistical distribution of features in the training data [Fig. 3] Fig."3 Heuristics Features Subtask A Subtask B Fig."1:"Example"of" Subtask"A:"Stance" Classification !Ensemble Classifier demonstrates best classification performance on both subtasks [purple bar in Fig. 4] !Number of correct categories (blue bar) classified accurately in both subtasks [Fig. 5] !Textual Features and Twitter Metadata help in heuristics (decision rules) Fig."2:"Example"of" Subtask"B:"Rumour" Identification Fig."4:"Classifier" Accuracies"for" Subtasks"A"&"B Fig."5:"Example"of" Subtask"B:"Rumour" Identification Digitale Kuratierungstechnologien is supported by the German Federal Ministry of Education and Research (BMBF), Unternehmen Region, Wachstumskern-Potenzial (No. 03WKP45). An Infrastructure for Empowering Internet Users to Handle Fake News and other Online Media Phenomena Georg Rehm DFKI GmbH, Forschungsbereich Sprachtechnologie – Alt-Moabit 91c, 10559 Berlin georg.rehm@dfki.de #DKT17 – Kuratieren im Zeitalter der KI, Berlin Digitale Kuratierungstechnologien wird unterstützt vom Bundesministerium für Bildung und Forschung (BMBF), Unternehmen Region, Wachstumskern- Potenzial (Nr. 03WKP45). • Inhalte werden im/über das World Wide Web konsumiert • Daher Einbettung der Infrastruktur in den Browser • Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün • Somit Filterblasen- und Netzwerkeffekte ausbalancieren • Hybrider Ansatz: automatische Werkzeuge und menschliche Schwarmintelligenz • Ambition: Infrastruktur für Millionen von Nutzern, beliebige Klassen von Inhalten und Hunderte Sprachen • Ziel: Nutzern Technologien an die Hand geben, mit denen sie digitale Inhalte und Medien besser rezipieren, einschätzen, analysieren, verifizieren und verarbeiten können und die automatisch Hinweise auf problematische Inhalte liefern. • Digitale Medien und digitale Kommunikation: Immense politische, gesellschaftliche und ökonomische Relevanz • Diese wird in Zukunft immer weiter zunehmen • Interessante Phänomene bezüglich der Produktion, Distribution, Rezeption und Auswirkung von Medien Satire oder Parodie: führt Menschen aber dennoch manchmal auf das Glatteis Falscher Zusam- menhang: wenn Titel und Fotos den Inhalt nicht stützen Irreführender Inhalt: Nutzung von Informatio- nen, um etwas/jmd. In ein schlechtes Licht zu rücken Falscher Kontext: wenn echte Inhalte im falschen Kontext präsentiert werden Betrügerische Inhalte: wenn echte Quellen imitiert werden Manipulierter Inhalt: Manipulation von Inhalten zum Zweck der Täuschung Fabrizierter Inhalt: basiert zu 100% nicht auf Tatsachen, geschrieben um zu täuschen Charakteristika Clickbait X X ? ? ? Desinformation X X X X Politisch gefärbt ? X ? ? X Schlechter Journalismus X X X IntentionenderUrheber Parodie X ? ? Provokation X X X Profit ? X X X Täuschung X X X X X X Politik beeinflussen X X X X Meinungen beeinflussen X X X X X Beispiel 1: Clickbait-Erkennung Vollautomatische Prüfung arbiträrer Behauptungen ist bis auf Weiteres technisch unmöglich Annäherung: Ermittlung der Haltung eines Textes zu einem Thema („Stance Detection“) Annotierte Titel/Artikel-Paare 49.972 100% Klasse: unrelated 36.545 73% Schritt 1: Klassifikation related vs. unrelated = Clickbait-Erkennung Klasse: discuss 8.909 18% Schritt 2: Nur wenn sich der Titel auf den Text bezieht, kann discuss, agree, disagree klassifiziert werden. Klasse: agree 3.678 7% Klasse: disagree 840 2% DFKI- System Relatedness 93,29 Drei Klassen 88,36 Gewichtet 89,59 Mit einer Präzision von 89,59 haben wir bei der ersten Fake News Challenge (FNC1) Platz 9 von 50 Teams erreicht. Tweets EN (15.979) Tweets DE (469) Wikipedia A1 (11.304) Wikipedia A2 (11.304) Precision 85,67 78,19 80,90 80,42 Recall 77,45 78,16 80,97 80,46 Schlussfolgerung: Viel versprechende Ergebnisse; bislang nur einzelne Experimente mit wenigen Typen problematischer Inhalte! • Beleidigende Beiträge verhindern konstruktive Online-Debatten • Klassifikationsexperimente mit verschiedenen Datensets • Englische Tweets: neutral, rassistisch, sexistisch • Deutsche Tweets: hasserfüllt vs. nicht hasserfüllt • Wikipedia-Talk-Seiten mit Nutzerkommentaren • A1: Angriff auf eine Person vs. kein Angriff auf eine Person • A2: Aggression vs. keine Aggression Beispiel 2: Beleidigende Sprache Schlussfolgerungen und nächste Schritte • Nutzern den Ausbruch aus der Filterblase und einen kritischeren Umgang mit digitalen Medien ermöglichen • Lösung: Maschinelle Verfahren in Verbindung mit Schwarmintelligenz • Herbst: Einbringung der Idee in „Next Generation Internet“-Initiative der EC – deren Ziel: ein „menschlicheres Internet“ • Herbst: Bau eines Prototyps; Diskussion dieser Themen im World Wide Web Consortium (W3C) Online Medien: Status Quo Idee: Bau einer Infrastruktur, die automatische Analysen und Annotationen von Nutzern ermöglicht, um die Herausforderungen des digitalen Zeitalters zu lösen. • Das World Wide Web ermöglicht es – ohne Kontroll-instanz – Inhalte zu publizieren und zu verbreiten • Content wird heute über soziale Medien entdeckt • Relevanter Content wird zügig geteilt – oft ohne Lektüre, kritisches Hinterfragen oder Prüfen der Inhalte • Ziel: Viralität Reichweite Klicks Werbeerlöse • Filterblase: Nur vom Nutzermodell als „relevant“ eingestufte Inhalte werden auf der Timeline präsentiert • Kontroverse Inhalte und Meinungen bleiben außen vor • Filterblase wirkt wie eine verstärkende Echokammer Übergreifende Infrastruktur Website mit Inhalten Tool1 Browser unterstützt Infrastruktur nativ und aggregiert unterschiedlichen Bewertungen, Kommentare und Meinungen über einen Inhalt in klare Botschaften oder Warnungen Web Annotations DB1 Web Annotations DB2 Tool3 Tool2 UGA: User-generierte Annotationen (Freitext) UGM: User-generierte Metadaten (standardisiert) MGM: Maschinen-generated Metadaten (standardisiert) MGM MGM MGM Dezentrale Filter verarbeiten Inhalte automatisch und schicken Ergebnisse zum Browser (wichtig: Mehrsprachigkeit) UGA Web Annotations DB4UGM Beispiel: Nutzer bewertet Qualität eines Inhalts im Hinblick auf ein standardisiertes Schema Annotationen anderer Nutzer andere Nutzer Web Annotations DB3 UGA UGM UGM UGA Dezentralle Repositorien speichern alle Annotationen Detektion von Hassrede Klassifikation des politischen Spektrums Faktenchecker Unterschiedliche Typen falscher Nachrichten und ihre jeweiligen Charakteristika und Intentionen (nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017)
  47. 47. Vielen Dank! http://www.digitale-kuratierung.de Das DFKI-DKT-Team: #DKT17 – 12. Oktober 2017 47

×