SlideShare a Scribd company logo
1 of 23
Download to read offline
http://topic-s.de/

Martin Voigt, Michael Aleythe, Peter Wehner

Sächsische AufbauBank
Forschung und Entwicklung - Projektförderung
Projektnummer - 99457/2677
Struktur
Motivation, Probleme und Ziele

Topic/S Workflow
Demo
Zusammenfassung

Montag, 23.09.2013

Topic/S @ LSWT

Slide 1
Motivation
Newsroom

Quelle: ringier.com

Montag, 23.09.2013

Topic/S @ LSWT

Slide 2
Problem
In-house Produktion
Archive

Nachrichtenagenturen

Web, Social Media

Online

DPA

Twitter

Reuters

Facebook

KNA

Blogs

…

…

Überwältigende Datenmenge für den Redakteur
z.B. WAZ  5000 Artikel/Tag (Agenturen & in-house)
Montag, 23.09.2013

Topic/S @ LSWT

Slide 3
Vision
Automatische Themenerkennung unter Verwendung
von Named Entities und anderen Stichworten
(SemItem)
Media
Named
Assets

Entities

Topics

E1

Identifikation von Thementrends

E2

T1

E3

MA1

E4

T2

E5
MA2

Information-Push statt Pull

E6

T3

E7

Pre-Processing

Montag, 23.09.2013

Topic/S @ LSWT

Slide 4

Post-Processing
Struktur
Motivation, Probleme und Ziele

Topic/S Workflow
Überblick
Informationsextraktion
Speicherung
Themenerkennung
Demo
Zusammenfassung

Montag, 23.09.2013

Topic/S @ LSWT

Slide 5
Workflow

1

Pre-Processing

2
Data Storage
4

Search

3

Post-Processing

Mehr in [Voigt2013]
Montag, 23.09.2013

Topic/S @ LSWT

Slide 6
Informationsextraktion
Spracherkennung (DE, EN)
Regelbasiert
1

Pre-Processing
Language
Detection

Disambiguation

Categorizer

Kategorisierung
Quellenabhängig

Source: onelanguageoneposter.com

80,3 %
94,4 %

EPD

80,3 %
90,8 %

OTS

93,5 %

AFP

Montag, 23.09.2013

KNA

Reuters

Statistical NER

Genauigkeit

DPA

Wordlist-based
NER

Agentur

86 %

Topic/S @ LSWT

Slide 7
Informationsextraktion
Spracherkennung (DE, EN)
Regelbasiert
1

Pre-Processing
Language
Detection

Disambiguation

Categorizer

Wordlist-based
NER

Statistical NER

Montag, 23.09.2013

Kategorisierung
Quellenabhängig

Source: onelanguageoneposter.com

Named Entity Recognition
Wortlisten- & Statistik-basiert
Disambiguierung
interne & externe Datenbasis

Topic/S @ LSWT

Slide 8
Semantische Fakten
Keine Wortlisten für NER!
SemItem

Anzahl (alternative Namen)

Person

1.504.341 (2.499.962)

Organization

63.332 (98.127)

Place

89.702 (95.178)

Keyword

1351

preferred und alternative Namen vorgehalten
ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller
Namen: Rene Muller, Rene Müller, René Muller, René Müller

Triples ohne SemItems: 31,3 Mio.

Montag, 23.09.2013

Topic/S @ LSWT

Slide 10
Speicherung
Oracle 11gR2
Benchmark von Triple Stores [Voigt2012]
Pros
Bereits im Unternehmen für große Datenmengen im Einsatz

Integrierte Anfrage an relationale und semantische Daten
Cons
Inferenz
Unvollständiger SPARQL 1.1 Support
Einsatz von eigenen Regeln kaum möglich
Quelle: musingmonika.com

Montag, 23.09.2013

Topic/S @ LSWT

Slide 11
Themenerkennung
Clustering
hierarchisches, agglomeratives Verfahren
Grundlage: Artikel und deren Entitäten
Eigenimplementierung aufgrund spezieller Herausforderungen
Ausführung und Zusammenfassung im Intervall
Alternative für
Deutschland

Entschädigung
Urteil

Euro
Deutschland

Umfrage
Bundestagswahl

Bundesgerichtshof

Milliarde

Montag, 23.09.2013

Topic/S @ LSWT

Lufthansa
Auftrag

Slide 12
Themenerkennung
Top-Cluster (vom 19.09.2013)
Artikel

5 wichtigsten SemItems

HotTopic

68

Euro / Kind / Deutschland / Berlin / Bundeswehr

Nein

52

Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen

Ja

44

Alternative für Deutschland / Partei / Umfrage / Bundestagswahl /
SPD

Ja

32

Federal Reserve System / US-Notenbank / Entscheidung / Dollar /
USA

Ja

28

SPD / Partei / CDU / Bundestagswahl / Wahlkampf

Ja

26

Syrien / Vernichtung / Vereinte Nationen / USA / Washington

Ja

22

Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger

Ja

18

Präsident / Hassan Rowhani / USA / Regierung / Washington

Ja

15

FDP / CDU / SPD / Berlin / Bundestagswahl

Ja

Montag, 23.09.2013

Topic/S @ LSWT

Slide 13
Struktur
Motivation, Probleme und Ziele

Topic/S Workflow
Demo
Zusammenfassung

Montag, 23.09.2013

Topic/S @ LSWT

Slide 14
Live Demo

Montag, 23.09.2013

Topic/S @ LSWT

Slide 15
Struktur
Motivation, Probleme und Ziele

Topic/S Workflow
Demo
Zusammenfassung

Montag, 23.09.2013

Topic/S @ LSWT

Slide 16
Sum it up!
Ergebnis
Themenerkennung und Präsentation
gegenüber dem Redakteur
Lessons learned
NER: Schlecht für Non-English,
Kombination notwendig
Quelle: ooltapulta.com
Stete Modeloptimierung hinsichtlich
der Anfragen
http://www.w3.org/community/swisig/
Spezielle UI notwendig
Mögliche, nächste Schritte
„Vorhersage“ von Themen aufgrund
von kausalen und temporalen
Beziehungen
Montag, 23.09.2013

Topic/S @ LSWT

Slide 17
http://topic-s.de/

Danke! Fragen?
http://topic-s.de/

Sächsische AufbauBank
Forschung und Entwicklung - Projektförderung
Projektnummer - 99457/2677
Quellen
[Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple
Store Benchmark? Practical Experiences with Real-World Data
Proc. of. the 2nd International Workshop on Semantic Digital
Archives (SDA), 2012
[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards
Topics-based, Semantics-assisted News Search.
Proceedings of the 3rd International Conference on Web
Intelligence, Mining and Semantics (WIMS'13), ACM,2013

Montag, 23.09.2013

Topic/S @ LSWT

Slide 19
Workflow: Preprocessor
Named Entity Recognition
word list
Tool: LingPipe + Extension
Quelle: churchthought.com
Sources: LOD (DBPedia, Geonames, YAGO2, GND)
Advantages: controlled vocabulary, guarantied
recognition of entities

statistics
Tool: Stanford NLP
Source: pre-trained model
Advantage: Recognition of unknown entities
Montag, 23.09.2013

Topic/S @ LSWT

Slide 20
Workflow: Preprocessor
Keywords
Lemmatization

Quelle: hugdaily.org

Developing a word list

Extraction using the word list
Bonus: frequent terms of an article

Montag, 23.09.2013

Topic/S @ LSWT

Slide 21
Disambiguation

Quelle: de.wikipedia.org

Quelle: fansshare.com

Quelle: lounge.espdisk.com

Montag, 23.09.2013

Topic/S @ LSWT

Slide 22
Disambiguation
Identification of
Entity Cluster

Michael Jackson
Internal Facts

Beer
Michael Jackson
Beer

Whiskey
Michael Jackson
External Facts
(DBpedia, etc.)

Music
King of Pop

Problem: not all SemItems available in the LOD
Montag, 23.09.2013

Topic/S @ LSWT

Slide 23

More Related Content

Viewers also liked

Seeing and Doing - Learning in Community Groups (McCabe) 25 Sept 2013
Seeing and Doing - Learning in Community Groups (McCabe) 25 Sept 2013Seeing and Doing - Learning in Community Groups (McCabe) 25 Sept 2013
Seeing and Doing - Learning in Community Groups (McCabe) 25 Sept 2013Third Sector Research Centre
 
H Διατροφουλα και ο Λιχούδης
H  Διατροφουλα και ο ΛιχούδηςH  Διατροφουλα και ο Λιχούδης
H Διατροφουλα και ο Λιχούδηςmanomou
 
ηλιος και μυθολογια!
ηλιος και μυθολογια!ηλιος και μυθολογια!
ηλιος και μυθολογια!ntanavara
 
PRESENTACION DE COMPUTACION
PRESENTACION DE COMPUTACIONPRESENTACION DE COMPUTACION
PRESENTACION DE COMPUTACIONMiguel Novoa
 
Why does my business need social marketing?
Why does my business need social marketing?   Why does my business need social marketing?
Why does my business need social marketing? Sherina Kapany
 
Observatoire cetelem-automobile-2014
Observatoire cetelem-automobile-2014Observatoire cetelem-automobile-2014
Observatoire cetelem-automobile-2014Stéphane BARBUSSE
 
Studiu media usage 2013 - Sorel Radu (eResearch)
Studiu media usage 2013 - Sorel Radu (eResearch)Studiu media usage 2013 - Sorel Radu (eResearch)
Studiu media usage 2013 - Sorel Radu (eResearch)Constantin Cocioaba
 
Chicago vs New York - What is the difference?
Chicago vs New York - What is the difference?Chicago vs New York - What is the difference?
Chicago vs New York - What is the difference?CityPASS
 

Viewers also liked (15)

SIMM-TGI en France
SIMM-TGI en FranceSIMM-TGI en France
SIMM-TGI en France
 
Teatro do oprimido 274-283
Teatro do oprimido  274-283Teatro do oprimido  274-283
Teatro do oprimido 274-283
 
Sesión 9 - METODOLOGÌA
Sesión 9 - METODOLOGÌASesión 9 - METODOLOGÌA
Sesión 9 - METODOLOGÌA
 
Seeing and Doing - Learning in Community Groups (McCabe) 25 Sept 2013
Seeing and Doing - Learning in Community Groups (McCabe) 25 Sept 2013Seeing and Doing - Learning in Community Groups (McCabe) 25 Sept 2013
Seeing and Doing - Learning in Community Groups (McCabe) 25 Sept 2013
 
Ple
PlePle
Ple
 
H Διατροφουλα και ο Λιχούδης
H  Διατροφουλα και ο ΛιχούδηςH  Διατροφουλα και ο Λιχούδης
H Διατροφουλα και ο Λιχούδης
 
ηλιος και μυθολογια!
ηλιος και μυθολογια!ηλιος και μυθολογια!
ηλιος και μυθολογια!
 
PRESENTACION DE COMPUTACION
PRESENTACION DE COMPUTACIONPRESENTACION DE COMPUTACION
PRESENTACION DE COMPUTACION
 
Why does my business need social marketing?
Why does my business need social marketing?   Why does my business need social marketing?
Why does my business need social marketing?
 
Bahan email work site II
Bahan email work site IIBahan email work site II
Bahan email work site II
 
4 gip webinar dic 2013
4 gip webinar dic 20134 gip webinar dic 2013
4 gip webinar dic 2013
 
Place in the Sun presentatie
Place in the Sun presentatiePlace in the Sun presentatie
Place in the Sun presentatie
 
Observatoire cetelem-automobile-2014
Observatoire cetelem-automobile-2014Observatoire cetelem-automobile-2014
Observatoire cetelem-automobile-2014
 
Studiu media usage 2013 - Sorel Radu (eResearch)
Studiu media usage 2013 - Sorel Radu (eResearch)Studiu media usage 2013 - Sorel Radu (eResearch)
Studiu media usage 2013 - Sorel Radu (eResearch)
 
Chicago vs New York - What is the difference?
Chicago vs New York - What is the difference?Chicago vs New York - What is the difference?
Chicago vs New York - What is the difference?
 

More from Fink & Partner Media Services GmbH

More from Fink & Partner Media Services GmbH (6)

SENSE: Vorschlagsgenerierung bei freier Oberflächenkomposition
SENSE: Vorschlagsgenerierung bei freier OberflächenkompositionSENSE: Vorschlagsgenerierung bei freier Oberflächenkomposition
SENSE: Vorschlagsgenerierung bei freier Oberflächenkomposition
 
SENSE: Medien-Demonstrator
SENSE: Medien-DemonstratorSENSE: Medien-Demonstrator
SENSE: Medien-Demonstrator
 
Topic/S – A Topic and Trend Recognition Approach in News-Media, I-Semantics13
Topic/S – A Topic and Trend Recognition Approach in News-Media, I-Semantics13Topic/S – A Topic and Trend Recognition Approach in News-Media, I-Semantics13
Topic/S – A Topic and Trend Recognition Approach in News-Media, I-Semantics13
 
huGO®/ePaper - Das Beste zweier Welten
huGO®/ePaper - Das Beste zweier WeltenhuGO®/ePaper - Das Beste zweier Welten
huGO®/ePaper - Das Beste zweier Welten
 
Semantic-guided Communication & Composition in a Widget/Dashboard Environment...
Semantic-guided Communication & Composition in a Widget/Dashboard Environment...Semantic-guided Communication & Composition in a Widget/Dashboard Environment...
Semantic-guided Communication & Composition in a Widget/Dashboard Environment...
 
Towards Topics-based, Semantics-assisted News Search | WIMS13
Towards Topics-based, Semantics-assisted News Search | WIMS13Towards Topics-based, Semantics-assisted News Search | WIMS13
Towards Topics-based, Semantics-assisted News Search | WIMS13
 

Themen- und Trenderkennung in Agenturmeldungen, LSWT2013