Dit keer voor de minor Big Data, een gastcollege gebaseerd op de eerste versie (https://www.slideshare.net/IvoEverts/guest-lecture-of-godatadrivens-ivo-everts)
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
1. GoDataDriven
PROUDLY PART OF THE XEBIA GROUP
@ivoeverts
ivoeverts@godatadriven.com
GoDataDriven @ HvA
Gastcollege minor Big Data,Amsterdam, 31/08/2017
Ivo Everts
Data Scientist
2. Wat gaan we doen
•GoDataDriven: wat doen we, waarom doen we
het, hoe doen we het.
•Wat doe ik daar.
•Uitdiepen van client cases.
3. Ik hoop dat jullie enthousiast
raken over data-gedreven
werken in het algemeen want dat
is de toekomst.
5. GoDataDriven
•We zijn een groep van ~30 data specialisten
•5 chiefs: ops, tech, marketing, sales, general
•Technical consultants:
•~50% data engineers
•~50% data scientists
•Dochterbedrijf van Xebia, groot geworden in
software ontwikkeling en consultancy
? Wat is het verschil tussen een data engineer en een data scientist ?
6. GoDataDriven
•Als gevolg van de automatisering hebben
bedrijven te maken met steeds meer data
•Veel bedrijven bewegen nu van data opslag naar
beschrijvende en voorspellende data verwerking
? Wat voor data hebben deze bedrijven en wat kan je daarmee ?
7. GoDataDriven
•Bij de klant zien we vaak de volgende fases:
•Inspiratie: workshops om de data-driven use-
cases te ontdekken
•Transpiratie: de rest :)
•Infrastructuur aanleggen
•Statistische modellen testen
•Software in productie nemen
? Hoe zou je het voorspellend vermogen van een model testen ?
9. GoDataDriven
Typische data science workflow
real-time aanbevelingen online retailer
clickstreams
user profiles
geo-filtering
missing data
item features
user features
item similarity
user similarity
sales, CTR
user satisfaction
11. Ivo @ GoDataDriven
•Ik werk hier nu ~3 jaar als data scientist
•Grote projecten voor ING en NS
•Trainingen, workshops, presentaties, PoC's,
hackathons
•Gewerkt voor een startup vanuit de
onderzoeksgroep (SightCorp)
•Eigen bedrijfje voor bouwen van webapplicaties
•BSc + MSc + PhD in beeldverwerking en
toegepaste kunstmatige intelligentie
12. Ivo @ GoDataDriven
•Filmpjes kijken
•Afstudeeropdracht: object tracking with
multiple cameras
•Deel van proefschrift: human activity
recognition
•Werk bij SightCorp:
•InSight
•CrowdSight
14. Ivo @ GoDataDriven
Typische data science workflow
human activity recognition in video
youtube
videos
formaat
converteren
beweging,
kleur, vorm
support vector
machine
accuracy
15. Ivo @ GoDataDriven
Wat is nou een machine learning model
Support vector machine
Decision tree / random forest
18. Client case: NPO
•Gepersonaliseerd nieuws en video aanbod op
basis van surf gedrag
•Clickstream data afgevangen met Divolte, onze
eigen in-house opensource tool
•Hadoop data platform ontworpen en ingericht
•Team en werkwijze opgestart
19. Client case: NPO
•Hoe goed kunnen we het aantal lezers van een
artikel voorspellen?
? Wat voor impact heeft dit op de advertentie verkoop ?
20. Client case: NPO
•Hoe verhoudt de lengte van een video zich tot
het percentage van mensen dat niet wegklikt?
? Zou dit gevolgen kunnen hebben voor de business ?
21. Client case: NPO
•Verdeling over jaartal van bekeken content op
basis van rule-based aanbevelingen vs
algoritmische aanbevelingen
? Wie worden hier blij van en waarom ?
22. Client case: NPO
•Mik niet alleen op CTR: vaak is je doel niet een op dit moment zo hoog
mogelijke CTR te halen, maar ligt dat (veel) hoger. Zo is het op een site als de
NPO heel makkelijk om een hoge CTR te halen met een zeker fragment dat
draait om de voorgevel van Katja Schuurman, maar is dat natuurlijk juist niet wat
je wil tonen. — Copyright Vincent.
•Realiseer je goed wat je meet. Een CTR kan je makkelijk definiëren als “aantal
keer getoond” gedeeld door “aantal keer geklikt”, maar als je zoals bij de NPO
elke keer als een stream gepauzeerd wordt als “een keer getoond” rekent dan
ben je in feite de CTR maal (1+”aantal keer gepauzeerd”) aan het meten. Dat
scheelt al snel een factor vier.
•Realiseer je goed waar je data vandaan komt, en dat deze soms heel vies is. Bij
eBay komt ruim 1/3 van alle searchqueries van bots vandaan. Als je dan
geïnteresseerd bent in waar men naar zoekt zal je die eerst weg moeten filteren.
25. •Integreren van machine learning
Client case:Transavia
? Wat is 'oude' technologie en wat is 'nieuwe' technologie ?
26. Client case: Bakkersland
•Mooi voorbeeld van hoe steeds meer 'normale'
bedrijven data gedreven gaan werken
•Bakkersland bakt brood en levert aan de
supermarkt
•De data bestaat uit kassa bonnetjes die 's avonds
naar een ftp server worden gekopieerd
? Wat is de case ?
29. Client case: NS - luchtlekkage
•Credits:Wan-Jui Lee
•De remmen en deuren werken op luchtdruk
•Dus als er niet genoeg lucht is, is er niet genoeg
druk om te remmen
•'Luchtlekkage' vertraagt het bijvullen door de
compressor
•Gebeurt ~1.5x per trein per jaar
•Is moeilijk te detecteren tijdens inspectie
32. Client case: NS - Hotwheels
•Credits: Margot Peters
•Met het slijten van de as lagers, stijgt de
temperatuur bij de wielen
•Te hoge temperatuur schommeling => slijtage
van de as lager => wiel kapot
33. Client case: NS - Hotwheels
•De sleutel voor het voorspellen van de slijtage zit
'm in het links/rechts temperatuur verschil
36. GoDataDriven
PROUDLY PART OF THE XEBIA GROUP
@ivoeverts
ivoeverts@godatadriven.com
GoDataDriven @ HvA
Gastcollege minor Big Data,Amsterdam, 31/08/2017
Dank!
Ivo Everts
Data Scientist