BI Dutch data science Piet Daas

1,337 views

Published on

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,337
On SlideShare
0
From Embeds
0
Number of Embeds
13
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

BI Dutch data science Piet Daas

  1. 1. ‘Enkele voorbeelden’ Data Science, Big Data en de officiële statistiek Piet Daas, Edwin de Jonge, May Offermans, Martijn Tennekes Alex Priem en Paul van den Hurk
  2. 2. Overzicht 2 • Het CBS • Data en bronnen • Waarom Big Data & Data Science? • 3V’s en uitdagingen • Voorbeelden • Virtuele volkstelling • Polisadministratie •Verkeerslussen • Mobiele telefoons • Sociale mediaberichten
  3. 3. Het CBS “Het CBS produceerde in 2012 ongeveer 5000 officiële publicaties en tabellen” Daar hebben we DATADATA voor nodig! 3
  4. 4. Twee soorten databronnen Primaire data Secondaire data Onze eigen ‘vragenlijsten’ Data van ‘anderen’ - Administratieve bronnen - ‘Nieuwe’ databronnen
  5. 5. –– Data, data everywhere!Data, data everywhere! X
  6. 6. Waarom Big Data? Snel beschikbaar Hoeveelheid Complex/’Lastig’ • Informatie extractie • Populatie en dynamiek 6 3V’s
  7. 7. Uitdagingen bij aanvang – Praktisch ‐ Hoe komen we aan Big Data? ‐ Waar en hoe doen we de analyses? – Juridisch ‐ Mogen we dit? ‐ Netjes werken: rekening houden met privacy gevoelige data (WBP) – Kosten ‐ Het CBS betaald niet voor administratieve data. ‐ En voor Big Data? – Methodologisch ‐ Methoden nodig om grote hoeveelheden data te analyseren – Technisch ‐ Leren van ‘computational statistics’ gerelateerde onderzoeksgebieden ‐ High Performance Computing technieken (parallelle verwerking) – Mensen ‐ Hebben ‘data scientists’ nodig: statistisch denkende mensen die kunnen programmeren, nieuwsgierig zijn en: ‐ buiten het traditionele steekproef paradigma kunnen denken! 7
  8. 8. Onderzoek door het CBS Bevindingen onderzoek ‘grote’ data bronnen Visualisaties: 1) Virtuele Volkstelling (17 miljoen records) 2) Polisadministratie (20 miljoen records) Big Data: 3) Verkeerslussen (100 miljoen records) 4) Mobiele telefonie (~500 miljoen records) 5) Sociale media (12 miljoen - 2 miljard records) 8
  9. 9. Voorbeeld 1. Virtuele Volkstelling ‐ Volkstelling is verplicht, eens in 10-jaar ‐ In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 ‐ Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren van resultaat • Hoe? • Met een visualisatiemethode: Tableplot 9
  10. 10. Uitleg maken Tableplot 1. Bestand laden 17 miljoen records 2. Records sorteren op waarde 17 miljoen records van sleutelvariabele • in dit geval leeftijd 3. Samenvoegen records 100 groepen (elk 170.000 records) • Numerieke variabelen • Bereken gemiddelde (gem. leeftijd) • Categoriale variabelen • Verhouding aanwezige categorieën (man vs vrouw) 4. Plaatje ‘plotten’ van geselecteerd aantal variabelen • Kleurgebruik belangrijk tot 12 10
  11. 11. Een tableplot van het testbestand 11
  12. 12. Data verwerking Ruwe (originele) data Gecontroleerde data Uiteindelijk data 12
  13. 13. Voorbeeld 2: Polisadministratie – Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland ‐ Verzameld door Belastingdienst en UWV ‐ Elke maand 20 miljoen records ‐ Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat map 13
  14. 14. Heatmap: Leeftijd, ‘Inkomen’
  15. 15. leeftijd In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘indikken’ leeftijd
  16. 16. Voorbeeld 3: Verkeerslussen Verkeerslussen ‐ Elke minuut (24/7) wordt het aantal passerende voertuigen op >10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën ‐ Mooie bron om verkeer- en vervoer- statistieken mee te maken (en meer) • Veel data, zo’n 100 miljoen records per dag Locaties 16
  17. 17. Aantal gedetecteerde voertuigen op één dag in NL 17
  18. 18. Registratie activiteit verkeerslussen (eerste 10 min) 18
  19. 19. Correctie voor ontbrekende gegevens Corrigeren in ‘blokken’ van 5 min. Voor Na Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%) 19
  20. 20. Totaal voertuigen gedurende de dag (snapshots)
  21. 21. Voor verschillende lengtecategorieën Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 1 categorie 3 categoriën 5 categoriën Totaal Totaal Totaal <= 5.6m > 1.85 & <= 2.4m > 5.6 & <= 12.2m > 2.4 & <= 5.6m > 12.2m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m 21
  22. 22. Kleine voertuigen Tijd (uur) ~75% van totaal 22
  23. 23. Kleine & gemiddelde voertuigen Tijd (uur) 23
  24. 24. Kleine, gemiddelde & grote voertuigen Tijd (uur) 24
  25. 25. Afzonderlijke lussen 25
  26. 26. Containeroverslag in Rotterdam 51.941,4.02836 !!! Echter !!! Tijd (uur)26
  27. 27. Voorbeeld 4: Mobiele telefoons Vrijwel elke Nederlander heeft een ‘mobieltje’ ‐ Bijna altijd bij zich en staat vrijwel altijd aan Ideale informatiebron om: ‐ Met behulp van gegevens van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) 27
  28. 28. ‘Dag’-populatie Woonadres in GBA - Waar personen s‘nachts verblijven Wat doen ze overdag? - Locatie van mobieltje bepalen bij bel/sms/data actviteit a.h.v. mastlocatie Data van één provider - Data Dec 2012 en Jan 2013 - Eerste begin ‘Dag-populatie’ 28
  29. 29. Voorbeeld 5: Sociale media – Nederlanders zijn erg actief op sociale media ‐ Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! – Mogelijke informatiebron voor: ‐ Welke onderwerpen zijn actueel: • Aantal berichten en sentiment hierover ‐ Als meetinstrument te gebruiken voor: • . Map by Eric Fischer (via Fast Company)
  30. 30. Sociale media: Nederlandstalige berichten – Nederlanders zijn erg actief op sociale media ‐ Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om nut en bruikbaarheid te controleren a. Inhoud: - Zelf NL Twitter-berichten verzameld: in totaal 12 miljoen b. Sentiment - Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard 30
  31. 31. Sociale media: Twitter Onderwerpen Twitter Bijdrage (%) 0 10 20 30 40 50 Thema's Overige Media Sport Cultuur/events Vakantie Vrije tijd Vervoer Veiligheid Politiek Onderwijs Gezondheid ICT Weer Milieu Economie Wonen Relaties Werk (46%) (10%) (7%) (3%) (5%) 12 miljoen berichten31
  32. 32. Sentiment in Sociale media – Toegang tot Coosto database gekocht ‐ > 2 miljard publiek beschikbare NL-berichten • Twitter, Facebook, Hyves, Webfora, Blogs etc. ‐ Sentiment van elk bericht • Positief, negatief of neutraal ‐ Van alles geprobeerd • Interessante insteek • Gekeken naar ‘Mood of the nation’ en vergeleken met het Consumenten vertrouwen van het CBS 32
  33. 33. Consumenten vertrouwen, enquête data Sentiment t.a.v. het economisch klimaat ~1000 respondenten/maand (pos–neg)as%oftotal(pos–neg)als%vantotaal Tijd 33
  34. 34. Consumentenvertrouwen vs. sociale media Corr: 0.88 ~25 miljoen berichten/maand Sentiment t.a.v. het economisch klimaat & In sociale mediaberichten(pos–neg)als%vantotaal Tijd 34
  35. 35. Uitdagingen: Big Data en CBS – Juridisch ‐ Routinematige toegang (niet alleen voor onderzoek)? ‐ Goed uitzoeken – Praktisch ‐ Gaan we alle (micro)data ‘in huis’ analyseren? ‐ Of bij de bronhouder of in de ‘Cloud’ ? – Methodologisch ‐ Big data bronnen registeren ‘events’ ‐ En zijn niet het gevolg van een steekproefontwerp ‐ Grote behoefte aan theorievorming op dit terrein! – Mensen ‐ Behoefte aan ‘Data scientists’ op het CBS ‐ Zijn er momenteel niet veel (opleiden?) 35
  36. 36. De toekomst van het CBS?

×