Your SlideShare is downloading. ×
Bi dutch meeting data science
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Bi dutch meeting data science

105
views

Published on

Presentation at the BI dutch meeting on June 27

Presentation at the BI dutch meeting on June 27

Published in: Education

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
105
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. ‘Enkele voorbeelden’ Data Science, Big Data en de officiële statistiek Piet Daas, Edwin de Jonge, May Offermans, Martijn Tennekes Alex Priem en Paul van den Hurk
  • 2. Overzicht 2 • Het CBS • Data en bronnen • Waarom Big Data & Data Science? • 3V’s en uitdagingen • Voorbeelden • Virtuele volkstelling • Polisadministratie •Verkeerslussen • Mobiele telefoons • Sociale mediaberichten
  • 3. Het CBS “Het CBS produceerde in 2012 ongeveer 5000 officiële publicaties en tabellen” Daar hebben we DATADATA voor nodig! 3
  • 4. Twee soorten databronnen Primaire data Secondaire data Onze eigen ‘vragenlijsten’ Data van ‘anderen’ - Administratieve bronnen - ‘Nieuwe’ databronnen
  • 5. –– Data, data everywhere!Data, data everywhere! X
  • 6. Waarom Big Data? Snel beschikbaar Hoeveelheid Complex/’Lastig’ • Informatie extractie • Populatie en dynamiek 6 3V’s
  • 7. Uitdagingen bij aanvang – Praktisch ‐ Hoe komen we aan Big Data? ‐ Waar en hoe doen we de analyses? – Juridisch ‐ Mogen we dit? ‐ Netjes werken: rekening houden met privacy gevoelige data (WBP) – Kosten ‐ Het CBS betaald niet voor administratieve data. ‐ En voor Big Data? – Methodologisch ‐ Methoden nodig om grote hoeveelheden data te analyseren – Technisch ‐ Leren van ‘computational statistics’ gerelateerde onderzoeksgebieden ‐ High Performance Computing technieken (parallelle verwerking) – Mensen ‐ Hebben ‘data scientists’ nodig: statistisch denkende mensen die kunnen programmeren, nieuwsgierig zijn en: ‐ buiten het traditionele steekproef paradigma kunnen denken! 7
  • 8. Onderzoek door het CBS Bevindingen onderzoek ‘grote’ data bronnen Visualisaties: 1) Virtuele Volkstelling (17 miljoen records) 2) Polisadministratie (20 miljoen records) Big Data: 3) Verkeerslussen (100 miljoen records) 4) Mobiele telefonie (~500 miljoen records) 5) Sociale media (12 miljoen - 2 miljard records) 8
  • 9. Voorbeeld 1. Virtuele Volkstelling ‐ Volkstelling is verplicht, eens in 10-jaar ‐ In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 ‐ Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren van resultaat • Hoe? • Met een visualisatiemethode: Tableplot 9
  • 10. Uitleg maken Tableplot 1. Bestand laden 17 miljoen records 2. Records sorteren op waarde 17 miljoen records van sleutelvariabele • in dit geval leeftijd 3. Samenvoegen records 100 groepen (elk 170.000 records) • Numerieke variabelen • Bereken gemiddelde (gem. leeftijd) • Categoriale variabelen • Verhouding aanwezige categorieën (man vs vrouw) 4. Plaatje ‘plotten’ van geselecteerd aantal variabelen • Kleurgebruik belangrijk tot 12 10
  • 11. Een tableplot van het testbestand 11
  • 12. Data verwerking Ruwe (originele) data Gecontroleerde data Uiteindelijk data 12
  • 13. Voorbeeld 2: Polisadministratie – Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland ‐ Verzameld door Belastingdienst en UWV ‐ Elke maand 20 miljoen records ‐ Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat map 13
  • 14. Heatmap: Leeftijd, ‘Inkomen’
  • 15. leeftijd In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘indikken’ leeftijd
  • 16. Voorbeeld 3: Verkeerslussen Verkeerslussen ‐ Elke minuut (24/7) wordt het aantal passerende voertuigen op >10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën ‐ Mooie bron om verkeer- en vervoer- statistieken mee te maken (en meer) • Veel data, zo’n 100 miljoen records per dag Locaties 16
  • 17. Aantal gedetecteerde voertuigen op één dag in NL 17
  • 18. Registratie activiteit verkeerslussen (eerste 10 min) 18
  • 19. Correctie voor ontbrekende gegevens Corrigeren in ‘blokken’ van 5 min. Voor Na Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%) 19
  • 20. Totaal voertuigen gedurende de dag (snapshots)
  • 21. Voor verschillende lengtecategorieën Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 1 categorie 3 categoriën 5 categoriën Totaal Totaal Totaal <= 5.6m > 1.85 & <= 2.4m > 5.6 & <= 12.2m > 2.4 & <= 5.6m > 12.2m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m 21
  • 22. Kleine voertuigen Tijd (uur) ~75% van totaal 22
  • 23. Kleine & gemiddelde voertuigen Tijd (uur) 23
  • 24. Kleine, gemiddelde & grote voertuigen Tijd (uur) 24
  • 25. Afzonderlijke lussen 25
  • 26. Containeroverslag in Rotterdam 51.941,4.02836 !!! Echter !!! Tijd (uur)26
  • 27. Voorbeeld 4: Mobiele telefoons Vrijwel elke Nederlander heeft een ‘mobieltje’ ‐ Bijna altijd bij zich en staat vrijwel altijd aan Ideale informatiebron om: ‐ Met behulp van gegevens van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) 27
  • 28. ‘Dag’-populatie Woonadres in GBA - Waar personen s‘nachts verblijven Wat doen ze overdag? - Locatie van mobieltje bepalen bij bel/sms/data actviteit a.h.v. mastlocatie Data van één provider - Data Dec 2012 en Jan 2013 - Eerste begin ‘Dag-populatie’ 28
  • 29. Voorbeeld 5: Sociale media – Nederlanders zijn erg actief op sociale media ‐ Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! – Mogelijke informatiebron voor: ‐ Welke onderwerpen zijn actueel: • Aantal berichten en sentiment hierover ‐ Als meetinstrument te gebruiken voor: • . Map by Eric Fischer (via Fast Company)
  • 30. Sociale media: Nederlandstalige berichten – Nederlanders zijn erg actief op sociale media ‐ Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om nut en bruikbaarheid te controleren a. Inhoud: - Zelf NL Twitter-berichten verzameld: in totaal 12 miljoen b. Sentiment - Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard 30
  • 31. Sociale media: Twitter Onderwerpen Twitter Bijdrage (%) 0 10 20 30 40 50 Thema's Overige Media Sport Cultuur/events Vakantie Vrije tijd Vervoer Veiligheid Politiek Onderwijs Gezondheid ICT Weer Milieu Economie Wonen Relaties Werk (46%) (10%) (7%) (3%) (5%) 12 miljoen berichten31
  • 32. Sentiment in Sociale media – Toegang tot Coosto database gekocht ‐ > 2 miljard publiek beschikbare NL-berichten • Twitter, Facebook, Hyves, Webfora, Blogs etc. ‐ Sentiment van elk bericht • Positief, negatief of neutraal ‐ Van alles geprobeerd • Interessante insteek • Gekeken naar ‘Mood of the nation’ en vergeleken met het Consumenten vertrouwen van het CBS 32
  • 33. Consumenten vertrouwen, enquête data Sentiment t.a.v. het economisch klimaat ~1000 respondenten/maand (pos–neg)as%oftotal(pos–neg)als%vantotaal Tijd 33
  • 34. Consumentenvertrouwen vs. sociale media Corr: 0.88 ~25 miljoen berichten/maand Sentiment t.a.v. het economisch klimaat & In sociale mediaberichten(pos–neg)als%vantotaal Tijd 34
  • 35. Uitdagingen: Big Data en CBS – Juridisch ‐ Routinematige toegang (niet alleen voor onderzoek)? ‐ Goed uitzoeken – Praktisch ‐ Gaan we alle (micro)data ‘in huis’ analyseren? ‐ Of bij de bronhouder of in de ‘Cloud’ ? – Methodologisch ‐ Big data bronnen registeren ‘events’ ‐ En zijn niet het gevolg van een steekproefontwerp ‐ Grote behoefte aan theorievorming op dit terrein! – Mensen ‐ Behoefte aan ‘Data scientists’ op het CBS ‐ Zijn er momenteel niet veel (opleiden?) 35
  • 36. De toekomst van het CBS?