Krachtige monitoring van uw merkomgeving, complexe analyse van uw media impact : Auxipress analyseert de complete Belgische media in real time door gebruik te maken van voornamelijk tekst data. Deze use case bespreekt de uitdagingen, de bekomen oplossing en toekomstvisie.
5. Gebruikte data
Volledige Belgische Media
Kranten (print en online) worden dagelijks ‘s morgens digitaal ontvangen
Artikels worden digitaal geknipt en voorzien van meta data
Weekbladen
Radio/TV
Abonnement op Facebook/Twitter gegevens
Extra Media on-demand
Politieke partij programma’s
Vakbladen
Dossiers, ....
Frankrijk/Nederland
6. Bijna uitsluitend ongestructureerde data
Tekst
XML, OCR, Transcripts
8.000 artikels / dag
Nederlands/Frans/Engels
MetaData
Publicatie Datum
Bron
Taal
7. Configuratie
Hardware : 64 Cores / 64 GB Memory / 6 Terrabyte HD
InterSystems Caché platform
Caché Database voor opslag van alle artikels en tabellen (momenteel 1,4 Terrabyte)
iKnow NLP voor Detecteren van Concepten (multi-woord groepen) uit teksten in 3 talen
(custom) iFind voor Matchen van Dictionary
DeepSee BI voor visualisatie en analyse
9. Aanpak
Automatische import van media via .XML
Artikels worden via InterSystems iKnow NLP naar Concepten omgezet
Concepten worden gematcht met een Dictionary
Elk artikel wordt gecategoriseerd
Nieuwe Relevante Concepten worden gedecteerd om in de Dictionary te worden bijgevoegd
• Xml tags
• Split
articles
Input
• UTF8
• Html
• Custom
Clean
• Concepts
• Concept-
Relation-
Concept
NLP
• Match
Dictionary
• Categorize
Match
11. Challenges
Constante bijsturing nodig (learn-as-you-go)
1 Sales kan meer bijkomende features verzinnen dan 100 IT’ers kunnen oplossen
Altijd grotere volumes data
Kleine details worden grote problemen
Adhoc klanten queries
Te groot voor Excel
Aanpassingen in structuur van dictionary of herrekenen van oude artikels op nieuwe
concepten (200 miljoen zinnen)
17. Conclusie
Tekst omzetten naar Kennis is mogelijk
NLP brengt Tekst naar Concept niveau
Concepten worden door Dictionary vertaald naar Categorieën/Thema’s
BI / Queries op Categorieën