SlideShare a Scribd company logo
1 of 32
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GOEDE TIJDEN SLECHTE TIJDEN, IENS AJAX?
TEXT ANALYTICS EN MACHINE LEARNING IN ACTION
Longhow Lam -- Data Scientist
Heliview – Business Analytics
https://www.linkedin.com/today/author/7434679
https://longhowlam.wordpress.com/
@longhowlam
http://www.slideshare.net/LonghowLam
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
AGENDA
 Inleiding Text mining & Machine learning
 Ludieke voorbeelden
 Goede tijden Slechte tijden
 IENS Reviews
 Ajax wedstrijden
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
INLEIDING TEXT MINING EN
MACHINE LEARNING
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
TEXT MINING BASIS
Document 1: “Ik loop over straat in Amsterdam, 1057DK, met mijn fiets”
Document 2: “Zij liep niet maar fietste met haar blauwe fieets, //bitly.com/sdrtw”
Document 3: “Mijn tweewieler is kapot, wat een slecht stuk ijzer, @#$%$@!”
Terms Doc 1 Doc 2 Doc 3
+Fiets (znmw) 1 1 1
Fietsen (ww) 0 1 0
Blauwe (bvg) 0 1 0
Amsterdam (locatie) 1 0 0
+Lopen (ww) 1 1 0
Straat (znmw) 1 0 0
Kapot (bijw) 0 0 1
Slecht 0 0 1
Stuk Ijzer 0 0 1
1057DK (postcode) 1 0 0
//bitly.com/sdrtw (Internet) 0 1 0
TERM DOCUMENT MATRIX: A
• Elk document is een (zeer) lange vector van
tellingen (vaak veel nullen!)
• Teksten / ongestructureerde data is zijn nu
“gewone data” geworden.
• Comprimeer / reduceer deze matrix A
• Pas machine learning toe op gereduceerde
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
TEXT MINING BASIS
“Geavanceerd” woordjes tellen
 Parse & Filter
 Part of speech
 Entity detection
 Mixed / numeric / abbrev.
 Stemming
 Spell checks, Stop lijst, Synoniem lijst
 Multi-term woorden
 Pas Traditionele data mining toe
 Clustering
 Prediction / machine learning
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
TEXT MINING VOORSPELLEN OF CLUSTEREN
Combineer teksten en “gewone data” om gedrag te voorspellen (churn / fraude)
Pas machine learning toe om
gedrag Y te voorspellen met een
model f
Maak automatisch topics / clusters in hoge stapels documenten
Pas cluster technieken toe om documenten
in clusters (topics) in te delen
Topic 1 Topic 2 Topic 3
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
MACHINE LEARNING ENKELE TECHNIEKEN
Voorspellen
Trees
Random Forests
Clusteren
K-means
Hiërarchisch clusteren
DBSCAN
Lineaire regressie
f
y = f(x) = a0 + a1x1 + a2x2+…anxn
Neurale netwerken y = f(g(h(x)))
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
TEXT MINING VOORBEELDEN
ECHTE DATA MAAR LUDIEKE VOORBEELDEN
Ludieke voorbeelden met directe toepassingen
 Goede tijden slechte tijden Soap analytics
 Iens Restaurant analytics
 Ajax Wedstrijd verslagen
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS TEXT ANALYTICS
Business pain
Kijkend naar een paar GTST afleveringen: waar gaat dit over, zijn
er trends in de serie, is het niet allemaal het zelfde?
Aanpak
Neem alle duizenden samenvattingen en pas SAS text mining toe
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS TEXT ANALYTICS
Business pain
Kijkend naar een paar GTST afleveringen: waar gaat dit over, zijn
er trends in de serie, is het niet allemaal het zelfde?
Aanpak
Neem alle duizenden samenvattingen en pas SAS text mining toe
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS RESULTATEN
Hoofd topics in 5000 afleveringen
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS RESULTATEN
Hoofd topics in 5000 afleveringen
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS RELATIE TUSSEN TOPICS
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS INZOOMEND OP EEN TOPIC
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS INZOOMEND OP EEN TOPIC
Sub-topics van een hoofd topic: topic 16 (Ludo, Isabelle, Martine, Janine)
 Het eenzaam voelen van Harmsen.
 Plan van Jack, gevaarlijk
 Afscheidsbrief schrijven
 Paniek, angst,
 Vragen opdracht kind geven
 Geld terug krijgen betalen
Business validatie: De trouwe GTST kijker bij SAS kan zich hierin vinden…..
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS RESULTATEN
Trends over tijd m.b.v. een Bayesian belief netwerk
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS TRENDS OVER TIJD
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
GTST ANALYSIS GELIJKENIS AFLEVERINGEN OVER DE JAREN
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
IENS RESTAURANT PATH ANALYTICS
Business pain
Ik heb Chinees gegeten. Waar moet ik de volgende keer eten?
Kan ik het sentiment voorspellen?
Aanpak
Kijk naar wat andere doen, IENS restaurant reviewers!
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
IENS RESTAURANT PATH ANALYTICS
Business pain
Ik heb Chinees gegeten. Waar moet ik de volgende keer eten?
Kan ik het sentiment voorspellen?
Aanpak
Kijk naar wat andere doen, IENS restaurant reviewers!
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
EERST EEN PAAR
LUDIEKE FEITJES
IENS DATA (TRADITIONELE BI)
Meest voorkomende naam (39 keer)
Onder “Hollandse”
restaurant (6 keer)
Duurzame keukens
Biologisch (67%)
Frans (58%)
Vis (44%)
Vegetarisch (39%)
Regionaal (36%)
…
…
Chinees (3%)
Zo’n 700 reviews op een “normale” zaterdag
Valentijn 2015 1200 reviews (1.7 keer)
23 keer
12 keer
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
IENS RESTAURANT PATH ANALYSIS: GEGENEREERDE REGELS
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
IENS RESTAURANT PATH ANALYSIS: GEGENEREERDE REGELS
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
IENS REVIEWS VOORSPEL SENTIMENT M.B.V. DE REVIEWS ZELF
 Text miner om te parsen, filteren en reduceren
 Machine learning om eet cijfer te voorspellen
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
IENS REVIEWS HET EET CIJFER VOORSPELLEN
Neuraal network (2 X 20) R2 van 0.65
Random forest (250 trees) R2 van 0.63
Linear regressie model R2 van 0.56
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
Voorspelde score versus de Gegeven score
IENS REVIEWS HET EET CIJFER VOORSPELLEN
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
IENS REVIEWS SENTIMENT ANALYSE / PREDICTIVE MODELING
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
AJAX VOETBAL VERSLAGEN
Business pain
Ik kan niet mee praten op mijn werk over voetbal
Kan ik wat tips meegeven aan ons SAS NL voetbal team?
Aanpak
Text mine alle Ajax voetbal verslagen en leer wat
interessante resultaten uit je hoofd.
Er zijn 476 voetbal verslagen. Ik heb gescraped
van seizoen 2000/01 tot 2014/15.
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
AJAX CONCEPT LINKING VOETBAL TIPS EN STOF OM OVER MEE TE PRATEN
Het verdedigingstrio van der Wiel,
Vertongen, Anita
Wie herinnert zich niet de mooie passes
van Aldewereld naar Boerrigter
Chivu, Machlas en Heitinga worden
vaak geassocieerd met overtredingen
Zorg niet voor veel balverlies, is een
domper zorgt voor onrust en leidt niet tot
een overwinning
De Jong en Chivu worden vaak met
verlies geassocieerd.
Knullig spelen levert ook grote kans op
verlies…..
Score binnen 23 minuten! Leidt vaak tot winst
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
AJAX CONCEPT LINKING VOETBAL TIPS EN STOF OM OVER MEE TE PRATEN
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
WERKT HET ? SAS NEDERLAND VOETBAL TEAM
Twee weken geleden 6e geworden i.p.v. altijd laatste !!!!
Copyright © 2012, SAS Institute Inc. All rights reserv ed.
SAMENVATTEND
 Analyse op teksten is makkelijk te doen.
 Snel inzichten uit teksten te halen
 Business validatie nodig en belangrijk!
 Dit is ludiek! Maar talrijke serieuze toepassingen

More Related Content

Viewers also liked

Machine Learning with Applications in Categorization, Popularity and Sequence...
Machine Learning with Applications in Categorization, Popularity and Sequence...Machine Learning with Applications in Categorization, Popularity and Sequence...
Machine Learning with Applications in Categorization, Popularity and Sequence...Nicolas Nicolov
 
Machine Learning With R
Machine Learning With RMachine Learning With R
Machine Learning With RDavid Chiu
 
Applications of Machine Learning at USC
Applications of Machine Learning at USCApplications of Machine Learning at USC
Applications of Machine Learning at USCSri Ambati
 
Machine learning in image processing
Machine learning in image processingMachine learning in image processing
Machine learning in image processingData Science Thailand
 
Machine Learning and Real-World Applications
Machine Learning and Real-World ApplicationsMachine Learning and Real-World Applications
Machine Learning and Real-World ApplicationsMachinePulse
 
Analysis-of-Major-Trends-in-big-data-analytics-slim-baltagi-hadoop-summit
Analysis-of-Major-Trends-in-big-data-analytics-slim-baltagi-hadoop-summitAnalysis-of-Major-Trends-in-big-data-analytics-slim-baltagi-hadoop-summit
Analysis-of-Major-Trends-in-big-data-analytics-slim-baltagi-hadoop-summitSlim Baltagi
 

Viewers also liked (6)

Machine Learning with Applications in Categorization, Popularity and Sequence...
Machine Learning with Applications in Categorization, Popularity and Sequence...Machine Learning with Applications in Categorization, Popularity and Sequence...
Machine Learning with Applications in Categorization, Popularity and Sequence...
 
Machine Learning With R
Machine Learning With RMachine Learning With R
Machine Learning With R
 
Applications of Machine Learning at USC
Applications of Machine Learning at USCApplications of Machine Learning at USC
Applications of Machine Learning at USC
 
Machine learning in image processing
Machine learning in image processingMachine learning in image processing
Machine learning in image processing
 
Machine Learning and Real-World Applications
Machine Learning and Real-World ApplicationsMachine Learning and Real-World Applications
Machine Learning and Real-World Applications
 
Analysis-of-Major-Trends-in-big-data-analytics-slim-baltagi-hadoop-summit
Analysis-of-Major-Trends-in-big-data-analytics-slim-baltagi-hadoop-summitAnalysis-of-Major-Trends-in-big-data-analytics-slim-baltagi-hadoop-summit
Analysis-of-Major-Trends-in-big-data-analytics-slim-baltagi-hadoop-summit
 

More from Longhow Lam

Xomia_20220602.pptx
Xomia_20220602.pptxXomia_20220602.pptx
Xomia_20220602.pptxLonghow Lam
 
A Unifying theory for blockchain and AI
A Unifying theory for blockchain and AIA Unifying theory for blockchain and AI
A Unifying theory for blockchain and AILonghow Lam
 
Data science inspiratie_sessie
Data science inspiratie_sessieData science inspiratie_sessie
Data science inspiratie_sessieLonghow Lam
 
Jaap Huisprijzen, GTST, The Bold, IKEA en Iens
Jaap Huisprijzen, GTST, The Bold, IKEA en IensJaap Huisprijzen, GTST, The Bold, IKEA en Iens
Jaap Huisprijzen, GTST, The Bold, IKEA en IensLonghow Lam
 
text2vec SatRDay Amsterdam
text2vec SatRDay Amsterdamtext2vec SatRDay Amsterdam
text2vec SatRDay AmsterdamLonghow Lam
 
Dataiku meetup 12 july 2018 Amsterdam
Dataiku meetup 12 july 2018 AmsterdamDataiku meetup 12 july 2018 Amsterdam
Dataiku meetup 12 july 2018 AmsterdamLonghow Lam
 
Data science in action
Data science in actionData science in action
Data science in actionLonghow Lam
 
MasterSearch_Meetup_AdvancedAnalytics
MasterSearch_Meetup_AdvancedAnalyticsMasterSearch_Meetup_AdvancedAnalytics
MasterSearch_Meetup_AdvancedAnalyticsLonghow Lam
 
Keras on tensorflow in R & Python
Keras on tensorflow in R & PythonKeras on tensorflow in R & Python
Keras on tensorflow in R & PythonLonghow Lam
 
Latent transwarp neural networks
Latent transwarp neural networksLatent transwarp neural networks
Latent transwarp neural networksLonghow Lam
 
MathPaperPublished
MathPaperPublishedMathPaperPublished
MathPaperPublishedLonghow Lam
 
Parameter estimation in a non stationary markov model
Parameter estimation in a non stationary markov modelParameter estimation in a non stationary markov model
Parameter estimation in a non stationary markov modelLonghow Lam
 
The analysis of doubly censored survival data
The analysis of doubly censored survival dataThe analysis of doubly censored survival data
The analysis of doubly censored survival dataLonghow Lam
 
Machine learning overview (with SAS software)
Machine learning overview (with SAS software)Machine learning overview (with SAS software)
Machine learning overview (with SAS software)Longhow Lam
 

More from Longhow Lam (14)

Xomia_20220602.pptx
Xomia_20220602.pptxXomia_20220602.pptx
Xomia_20220602.pptx
 
A Unifying theory for blockchain and AI
A Unifying theory for blockchain and AIA Unifying theory for blockchain and AI
A Unifying theory for blockchain and AI
 
Data science inspiratie_sessie
Data science inspiratie_sessieData science inspiratie_sessie
Data science inspiratie_sessie
 
Jaap Huisprijzen, GTST, The Bold, IKEA en Iens
Jaap Huisprijzen, GTST, The Bold, IKEA en IensJaap Huisprijzen, GTST, The Bold, IKEA en Iens
Jaap Huisprijzen, GTST, The Bold, IKEA en Iens
 
text2vec SatRDay Amsterdam
text2vec SatRDay Amsterdamtext2vec SatRDay Amsterdam
text2vec SatRDay Amsterdam
 
Dataiku meetup 12 july 2018 Amsterdam
Dataiku meetup 12 july 2018 AmsterdamDataiku meetup 12 july 2018 Amsterdam
Dataiku meetup 12 july 2018 Amsterdam
 
Data science in action
Data science in actionData science in action
Data science in action
 
MasterSearch_Meetup_AdvancedAnalytics
MasterSearch_Meetup_AdvancedAnalyticsMasterSearch_Meetup_AdvancedAnalytics
MasterSearch_Meetup_AdvancedAnalytics
 
Keras on tensorflow in R & Python
Keras on tensorflow in R & PythonKeras on tensorflow in R & Python
Keras on tensorflow in R & Python
 
Latent transwarp neural networks
Latent transwarp neural networksLatent transwarp neural networks
Latent transwarp neural networks
 
MathPaperPublished
MathPaperPublishedMathPaperPublished
MathPaperPublished
 
Parameter estimation in a non stationary markov model
Parameter estimation in a non stationary markov modelParameter estimation in a non stationary markov model
Parameter estimation in a non stationary markov model
 
The analysis of doubly censored survival data
The analysis of doubly censored survival dataThe analysis of doubly censored survival data
The analysis of doubly censored survival data
 
Machine learning overview (with SAS software)
Machine learning overview (with SAS software)Machine learning overview (with SAS software)
Machine learning overview (with SAS software)
 

Heliview 29sep2015 slideshare

  • 1. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GOEDE TIJDEN SLECHTE TIJDEN, IENS AJAX? TEXT ANALYTICS EN MACHINE LEARNING IN ACTION Longhow Lam -- Data Scientist Heliview – Business Analytics https://www.linkedin.com/today/author/7434679 https://longhowlam.wordpress.com/ @longhowlam http://www.slideshare.net/LonghowLam
  • 2. Copyright © 2012, SAS Institute Inc. All rights reserv ed. AGENDA  Inleiding Text mining & Machine learning  Ludieke voorbeelden  Goede tijden Slechte tijden  IENS Reviews  Ajax wedstrijden
  • 3. Copyright © 2012, SAS Institute Inc. All rights reserv ed. INLEIDING TEXT MINING EN MACHINE LEARNING
  • 4. Copyright © 2012, SAS Institute Inc. All rights reserv ed. TEXT MINING BASIS Document 1: “Ik loop over straat in Amsterdam, 1057DK, met mijn fiets” Document 2: “Zij liep niet maar fietste met haar blauwe fieets, //bitly.com/sdrtw” Document 3: “Mijn tweewieler is kapot, wat een slecht stuk ijzer, @#$%$@!” Terms Doc 1 Doc 2 Doc 3 +Fiets (znmw) 1 1 1 Fietsen (ww) 0 1 0 Blauwe (bvg) 0 1 0 Amsterdam (locatie) 1 0 0 +Lopen (ww) 1 1 0 Straat (znmw) 1 0 0 Kapot (bijw) 0 0 1 Slecht 0 0 1 Stuk Ijzer 0 0 1 1057DK (postcode) 1 0 0 //bitly.com/sdrtw (Internet) 0 1 0 TERM DOCUMENT MATRIX: A • Elk document is een (zeer) lange vector van tellingen (vaak veel nullen!) • Teksten / ongestructureerde data is zijn nu “gewone data” geworden. • Comprimeer / reduceer deze matrix A • Pas machine learning toe op gereduceerde
  • 5. Copyright © 2012, SAS Institute Inc. All rights reserv ed. TEXT MINING BASIS “Geavanceerd” woordjes tellen  Parse & Filter  Part of speech  Entity detection  Mixed / numeric / abbrev.  Stemming  Spell checks, Stop lijst, Synoniem lijst  Multi-term woorden  Pas Traditionele data mining toe  Clustering  Prediction / machine learning
  • 6. Copyright © 2012, SAS Institute Inc. All rights reserv ed. TEXT MINING VOORSPELLEN OF CLUSTEREN Combineer teksten en “gewone data” om gedrag te voorspellen (churn / fraude) Pas machine learning toe om gedrag Y te voorspellen met een model f Maak automatisch topics / clusters in hoge stapels documenten Pas cluster technieken toe om documenten in clusters (topics) in te delen Topic 1 Topic 2 Topic 3
  • 7. Copyright © 2012, SAS Institute Inc. All rights reserv ed. MACHINE LEARNING ENKELE TECHNIEKEN Voorspellen Trees Random Forests Clusteren K-means Hiërarchisch clusteren DBSCAN Lineaire regressie f y = f(x) = a0 + a1x1 + a2x2+…anxn Neurale netwerken y = f(g(h(x)))
  • 8. Copyright © 2012, SAS Institute Inc. All rights reserv ed. TEXT MINING VOORBEELDEN ECHTE DATA MAAR LUDIEKE VOORBEELDEN Ludieke voorbeelden met directe toepassingen  Goede tijden slechte tijden Soap analytics  Iens Restaurant analytics  Ajax Wedstrijd verslagen
  • 9. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS TEXT ANALYTICS Business pain Kijkend naar een paar GTST afleveringen: waar gaat dit over, zijn er trends in de serie, is het niet allemaal het zelfde? Aanpak Neem alle duizenden samenvattingen en pas SAS text mining toe
  • 10. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS TEXT ANALYTICS Business pain Kijkend naar een paar GTST afleveringen: waar gaat dit over, zijn er trends in de serie, is het niet allemaal het zelfde? Aanpak Neem alle duizenden samenvattingen en pas SAS text mining toe
  • 11. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS RESULTATEN Hoofd topics in 5000 afleveringen
  • 12. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS RESULTATEN Hoofd topics in 5000 afleveringen
  • 13. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS RELATIE TUSSEN TOPICS
  • 14. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS INZOOMEND OP EEN TOPIC
  • 15. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS INZOOMEND OP EEN TOPIC Sub-topics van een hoofd topic: topic 16 (Ludo, Isabelle, Martine, Janine)  Het eenzaam voelen van Harmsen.  Plan van Jack, gevaarlijk  Afscheidsbrief schrijven  Paniek, angst,  Vragen opdracht kind geven  Geld terug krijgen betalen Business validatie: De trouwe GTST kijker bij SAS kan zich hierin vinden…..
  • 16. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS RESULTATEN Trends over tijd m.b.v. een Bayesian belief netwerk
  • 17. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS TRENDS OVER TIJD
  • 18. Copyright © 2012, SAS Institute Inc. All rights reserv ed. GTST ANALYSIS GELIJKENIS AFLEVERINGEN OVER DE JAREN
  • 19. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS RESTAURANT PATH ANALYTICS Business pain Ik heb Chinees gegeten. Waar moet ik de volgende keer eten? Kan ik het sentiment voorspellen? Aanpak Kijk naar wat andere doen, IENS restaurant reviewers!
  • 20. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS RESTAURANT PATH ANALYTICS Business pain Ik heb Chinees gegeten. Waar moet ik de volgende keer eten? Kan ik het sentiment voorspellen? Aanpak Kijk naar wat andere doen, IENS restaurant reviewers!
  • 21. Copyright © 2012, SAS Institute Inc. All rights reserv ed. EERST EEN PAAR LUDIEKE FEITJES IENS DATA (TRADITIONELE BI) Meest voorkomende naam (39 keer) Onder “Hollandse” restaurant (6 keer) Duurzame keukens Biologisch (67%) Frans (58%) Vis (44%) Vegetarisch (39%) Regionaal (36%) … … Chinees (3%) Zo’n 700 reviews op een “normale” zaterdag Valentijn 2015 1200 reviews (1.7 keer) 23 keer 12 keer
  • 22. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS RESTAURANT PATH ANALYSIS: GEGENEREERDE REGELS
  • 23. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS RESTAURANT PATH ANALYSIS: GEGENEREERDE REGELS
  • 24. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS REVIEWS VOORSPEL SENTIMENT M.B.V. DE REVIEWS ZELF  Text miner om te parsen, filteren en reduceren  Machine learning om eet cijfer te voorspellen
  • 25. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS REVIEWS HET EET CIJFER VOORSPELLEN Neuraal network (2 X 20) R2 van 0.65 Random forest (250 trees) R2 van 0.63 Linear regressie model R2 van 0.56
  • 26. Copyright © 2012, SAS Institute Inc. All rights reserv ed. Voorspelde score versus de Gegeven score IENS REVIEWS HET EET CIJFER VOORSPELLEN
  • 27. Copyright © 2012, SAS Institute Inc. All rights reserv ed. IENS REVIEWS SENTIMENT ANALYSE / PREDICTIVE MODELING
  • 28. Copyright © 2012, SAS Institute Inc. All rights reserv ed. AJAX VOETBAL VERSLAGEN Business pain Ik kan niet mee praten op mijn werk over voetbal Kan ik wat tips meegeven aan ons SAS NL voetbal team? Aanpak Text mine alle Ajax voetbal verslagen en leer wat interessante resultaten uit je hoofd. Er zijn 476 voetbal verslagen. Ik heb gescraped van seizoen 2000/01 tot 2014/15.
  • 29. Copyright © 2012, SAS Institute Inc. All rights reserv ed. AJAX CONCEPT LINKING VOETBAL TIPS EN STOF OM OVER MEE TE PRATEN Het verdedigingstrio van der Wiel, Vertongen, Anita Wie herinnert zich niet de mooie passes van Aldewereld naar Boerrigter Chivu, Machlas en Heitinga worden vaak geassocieerd met overtredingen Zorg niet voor veel balverlies, is een domper zorgt voor onrust en leidt niet tot een overwinning De Jong en Chivu worden vaak met verlies geassocieerd. Knullig spelen levert ook grote kans op verlies….. Score binnen 23 minuten! Leidt vaak tot winst
  • 30. Copyright © 2012, SAS Institute Inc. All rights reserv ed. AJAX CONCEPT LINKING VOETBAL TIPS EN STOF OM OVER MEE TE PRATEN
  • 31. Copyright © 2012, SAS Institute Inc. All rights reserv ed. WERKT HET ? SAS NEDERLAND VOETBAL TEAM Twee weken geleden 6e geworden i.p.v. altijd laatste !!!!
  • 32. Copyright © 2012, SAS Institute Inc. All rights reserv ed. SAMENVATTEND  Analyse op teksten is makkelijk te doen.  Snel inzichten uit teksten te halen  Business validatie nodig en belangrijk!  Dit is ludiek! Maar talrijke serieuze toepassingen