Themen- und Trenderkennung in Agenturmeldungen

1,085 views

Published on

Vortrag beim #LSWT2013 zum Thema Themen- und Trenderkennung in Meldungen von NAchrichtenagenturen - Der Vortrag umreißt den aktuellen Stand des Forschungsprojekts Topic/S

http://aksw.org/Events/2013/LeipzigerSemanticWebTag/Kerntag.html
http://topic-s.de/

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,085
On SlideShare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
2
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Themen- und Trenderkennung in Agenturmeldungen

  1. 1. Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677 http://topic-s.de/ Martin Voigt, Michael Aleythe, Peter Wehner
  2. 2. Wer sind wir? fink & PARTNER Media Services GmbH Medien Management für Verlage Einige Kunde Lehrstuhl für Multimedia Technologie, TU Dresden Forschungsfelder Adaptive, komposite Rich Internet Applications Semantisches Document Life Cycle Management Friday, 14.06.2013 Topic/S Slide 1
  3. 3. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 2
  4. 4. Motivation Newsroom Montag, 23.09.2013 Topic/S @ LSWT Slide 3 Quelle: ringier.com
  5. 5. Problem Überwältigende Datenmenge für den Redakteur z.B. WAZ  5000 Artikel/Tag (Agenturen & in-house) Montag, 23.09.2013 Topic/S @ LSWT DPA Reuters KNA Twitter Facebook Blogs … Nachrichtenagenturen Web, Social Media … In-house Produktion Archive Online Slide 4
  6. 6. Vision Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem) Identifikation von Thementrends Information-Push statt Pull Montag, 23.09.2013 Topic/S @ LSWT Slide 5
  7. 7. Struktur Motivation, Probleme und Ziele Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 6
  8. 8. Workflow Montag, 23.09.2013 Topic/S @ LSWT Slide 7 Mehr in [Voigt2013]
  9. 9. Informationsextraktion Montag, 23.09.2013 Topic/S @ LSWT Spracherkennung (DE, EN) Regelbasiert Kategorisierung Quellenabhängig Slide 8 Source: onelanguageoneposter.com Agentur Genauigkeit KNA 80,3 % DPA 94,4 % EPD 80,3 % Reuters 90,8 % OTS 93,5 % AFP 86 %
  10. 10. Informationsextraktion Montag, 23.09.2013 Topic/S @ LSWT Spracherkennung (DE, EN) Regelbasiert Kategorisierung Quellenabhängig Named Entity Recognition Wortlisten- & Statistik-basiert Disambiguierung interne & externe Datenbasis Slide 9 Source: onelanguageoneposter.com
  11. 11. Semantisches Model Montag, 23.09.2013 Topic/S @ LSWT Slide 10 Media SemItemMatch SemItem Quellen: freemake.com, samepage.io, free-vectors.com, trendwatching.com, viamusical.de
  12. 12. Semantische Fakten Keine Wortlisten für NER! preferred und alternative Namen vorgehalten ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller Namen: Rene Muller, Rene Müller, René Muller, René Müller Triples ohne SemItems: 31,3 Mio. Montag, 23.09.2013 Topic/S @ LSWT Slide 11 SemItem Anzahl (alternative Namen) Person 1.504.341 (2.499.962) Organization 63.332 (98.127) Place 89.702 (95.178) Keyword 1351
  13. 13. Speicherung Oracle 11gR2 Benchmark von Triple Stores [Voigt2012] Pros Bereits im Unternehmen für große Datenmengen im Einsatz Integrierte Anfrage an relationale und semantische Daten Cons Inferenz Unvollständiger SPARQL 1.1 Support Einsatz von eigenen Regeln kaum möglich Montag, 23.09.2013 Topic/S @ LSWT Slide 12 Quelle: musingmonika.com
  14. 14. Themenerkennung Montag, 23.09.2013 Topic/S @ LSWT Clustering hierarchisches, agglomeratives Verfahren Grundlage: Artikel und deren Entitäten Eigenimplementierung aufgrund spezieller Herausforderungen Ausführung und Zusammenfassung im Intervall  Trend Slide 13
  15. 15. Top-Cluster (vom 19.09.2013) Themenerkennung Montag, 23.09.2013 Topic/S @ LSWT Artikel 5 wichtigsten SemItems HotTopic 68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein 52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja 44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD Ja 32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA Ja 28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja 26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja 22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja 18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja 15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja Slide 14
  16. 16. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 15
  17. 17. Live Demo Montag, 23.09.2013 Topic/S @ LSWT Slide 16
  18. 18. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 17
  19. 19. Sum it up! Ergebnis Themenerkennung und Präsentation gegenüber dem Redakteur Lessons learned NER: Schlecht für Non-English, Kombination notwendig Stete Modeloptimierung hinsichtlich der Anfragen Spezielle UI notwendig Mögliche, nächste Schritte „Vorhersage“ von Themen aufgrund von kausalen und temporalen Beziehungen Montag, 23.09.2013 Topic/S @ LSWT Slide 18 Quelle: ooltapulta.com http://www.w3.org/community/swisig/
  20. 20. Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677 http://topic-s.de/ Danke! Fragen? http://topic-s.de/
  21. 21. Quellen [Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012 [Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013 Montag, 23.09.2013 Topic/S @ LSWT Slide 20

×