5. Vision
Automatische Themenerkennung unter Verwendung
von Named Entities und anderen Stichworten
(SemItem)
Media
Named
Assets
Entities
Topics
E1
Identifikation von Thementrends
E2
T1
E3
MA1
E4
T2
E5
MA2
Information-Push statt Pull
E6
T3
E7
Pre-Processing
Montag, 23.09.2013
Topic/S @ LSWT
Slide 4
Post-Processing
6. Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Überblick
Informationsextraktion
Speicherung
Themenerkennung
Demo
Zusammenfassung
Montag, 23.09.2013
Topic/S @ LSWT
Slide 5
10. Semantische Fakten
Keine Wortlisten für NER!
SemItem
Anzahl (alternative Namen)
Person
1.504.341 (2.499.962)
Organization
63.332 (98.127)
Place
89.702 (95.178)
Keyword
1351
preferred und alternative Namen vorgehalten
ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller
Namen: Rene Muller, Rene Müller, René Muller, René Müller
Triples ohne SemItems: 31,3 Mio.
Montag, 23.09.2013
Topic/S @ LSWT
Slide 10
11. Speicherung
Oracle 11gR2
Benchmark von Triple Stores [Voigt2012]
Pros
Bereits im Unternehmen für große Datenmengen im Einsatz
Integrierte Anfrage an relationale und semantische Daten
Cons
Inferenz
Unvollständiger SPARQL 1.1 Support
Einsatz von eigenen Regeln kaum möglich
Quelle: musingmonika.com
Montag, 23.09.2013
Topic/S @ LSWT
Slide 11
12. Themenerkennung
Clustering
hierarchisches, agglomeratives Verfahren
Grundlage: Artikel und deren Entitäten
Eigenimplementierung aufgrund spezieller Herausforderungen
Ausführung und Zusammenfassung im Intervall
Alternative für
Deutschland
Entschädigung
Urteil
Euro
Deutschland
Umfrage
Bundestagswahl
Bundesgerichtshof
Milliarde
Montag, 23.09.2013
Topic/S @ LSWT
Lufthansa
Auftrag
Slide 12
13. Themenerkennung
Top-Cluster (vom 19.09.2013)
Artikel
5 wichtigsten SemItems
HotTopic
68
Euro / Kind / Deutschland / Berlin / Bundeswehr
Nein
52
Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen
Ja
44
Alternative für Deutschland / Partei / Umfrage / Bundestagswahl /
SPD
Ja
32
Federal Reserve System / US-Notenbank / Entscheidung / Dollar /
USA
Ja
28
SPD / Partei / CDU / Bundestagswahl / Wahlkampf
Ja
26
Syrien / Vernichtung / Vereinte Nationen / USA / Washington
Ja
22
Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger
Ja
18
Präsident / Hassan Rowhani / USA / Regierung / Washington
Ja
15
FDP / CDU / SPD / Berlin / Bundestagswahl
Ja
Montag, 23.09.2013
Topic/S @ LSWT
Slide 13
17. Sum it up!
Ergebnis
Themenerkennung und Präsentation
gegenüber dem Redakteur
Lessons learned
NER: Schlecht für Non-English,
Kombination notwendig
Quelle: ooltapulta.com
Stete Modeloptimierung hinsichtlich
der Anfragen
http://www.w3.org/community/swisig/
Spezielle UI notwendig
Mögliche, nächste Schritte
„Vorhersage“ von Themen aufgrund
von kausalen und temporalen
Beziehungen
Montag, 23.09.2013
Topic/S @ LSWT
Slide 17
19. Quellen
[Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple
Store Benchmark? Practical Experiences with Real-World Data
Proc. of. the 2nd International Workshop on Semantic Digital
Archives (SDA), 2012
[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards
Topics-based, Semantics-assisted News Search.
Proceedings of the 3rd International Conference on Web
Intelligence, Mining and Semantics (WIMS'13), ACM,2013
Montag, 23.09.2013
Topic/S @ LSWT
Slide 19
20. Workflow: Preprocessor
Named Entity Recognition
word list
Tool: LingPipe + Extension
Quelle: churchthought.com
Sources: LOD (DBPedia, Geonames, YAGO2, GND)
Advantages: controlled vocabulary, guarantied
recognition of entities
statistics
Tool: Stanford NLP
Source: pre-trained model
Advantage: Recognition of unknown entities
Montag, 23.09.2013
Topic/S @ LSWT
Slide 20
23. Disambiguation
Identification of
Entity Cluster
Michael Jackson
Internal Facts
Beer
Michael Jackson
Beer
Whiskey
Michael Jackson
External Facts
(DBpedia, etc.)
Music
King of Pop
Problem: not all SemItems available in the LOD
Montag, 23.09.2013
Topic/S @ LSWT
Slide 23