Statistiek en Big Data:De kracht vandatavisualisaties Piet Daas, Martijn Tennekes, Edwin de Jonge, Alex Priem en Merijn va...
Centraal Bureau voor de Statistiek• Taak: “het publiceren van betrouwbare en  samenhangende statistische informatie, die  ...
CBS en gegevensFlinke verandering in gebruik beschikbare informatie voorstatistiekproductie:   1. Enquêtegegevens (steeds ...
CBS en gegevens (2)• Er is steeds meer en steeds vaker data beschikbaar:   • Van ‘Data schaarste’ (steekproef-) naar ‘Data...
Nieuwe ontwikkelingen•    Voorbeelden uit de praktijk    1) Visualisatie-methoden om snel inzicht te krijgen        in gro...
Voorbeeld a. Virtuele Volkstelling    • Volkstelling is verplicht, eens in 10-jaar    • In Nederland niet meer met vragenl...
Uitleg maken Tableplot1.        Bestand laden                             17 miljoen records2.        Records sorteren op ...
Big Data Symposium 27 Sept. Nyenrode   Een tableplot van het testbestand
Voorbeeld b: Polisadministratie• Bestand met de financiële gegevens van  alle banen, uitkeringen en pensioenen in  Nederla...
Heatmap: Leeftijd, ‘Inkomen’Big Data Symposium 27 Sept. Nyenrode   9
In 3D heatmap: Leeftijd, Inkomen, Aantal                                                        Na ‘in                    ...
Voorbeeld c: Verkeerslusgegevens• Verkeerslussen    • Elke minuut (24/7) wordt het aantal      passerende voertuigen op ~1...
Aantal gedetecteerde voertuigen op één dag in NL                                         Alle locaties  Big Data Symposium...
Registratie activiteit verkeerslussen (eerste 10 min) Big Data Symposium 27 Sept. Nyenrode              13
Aantal gedetecteerde voertuigen op één dag in NL                                                              Alle locatie...
Grote voertuigen vs alle voertuigen                                          Wagens > 5.6 m                               ...
Op niveau van de afzonderlijke lussenBig Data Symposium 27 Sept. Nyenrode    16
Voorbeeld d: Mobiele telefoon• Vrijwel elke Nederlander heeft een ‘mobieltje’     • Bijna altijd bij zich en staat vrijwel...
Verplaatsingsgedrag mobiele telefoons                                       Verplaatsingen van zeer                       ...
Voorbeeld e: Sociale media• Nederlanders zijn erg actief op sociale media    • Bijna altijd bij zich en staat vrijwel alti...
Sociale media: Nederlandstalige berichten   • Nederlanders zijn erg actief op sociale media     • Mogelijke informatiebron...
Sociale media: Twitter onderwerpen                                                 Onderwerpen Twitter                    ...
Afsluitend: Statistiek en ‘Big Data’   • Geschikt maken voor statistisch gebruik is veel werk      • Vooronderzoek nodig, ...
Big Data Symposium 27 Sept. Nyenrode   De toekomst van het CBS?
Upcoming SlideShare
Loading in …5
×

Big Data - Piet Daas (CBS)

1,646 views

Published on

Published in: Business
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,646
On SlideShare
0
From Embeds
0
Number of Embeds
480
Actions
Shares
0
Downloads
16
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Big Data - Piet Daas (CBS)

  1. 1. Statistiek en Big Data:De kracht vandatavisualisaties Piet Daas, Martijn Tennekes, Edwin de Jonge, Alex Priem en Merijn van Pelt Centraal Bureau voor de Statistiek Big Data Symposium, 27 September Nyenrode
  2. 2. Centraal Bureau voor de Statistiek• Taak: “het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving”. • in 2012 zo’n kleine 5000 officiële publicaties & tabellen• Doel: maximale vermindering van administratieve lasten • Door bestaande administratieve bestanden te hergebruiken. • Kijken naar de nieuwe bronnen van informatie: Big Data! Big Data Symposium 27 Sept. Nyenrode 1
  3. 3. CBS en gegevensFlinke verandering in gebruik beschikbare informatie voorstatistiekproductie: 1. Enquêtegegevens (steeds minder)  Per enquête tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer)  Per bron tot 20 miljoen records per maand 3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)  Per bron zo’n ~80 miljoen records per dag Big Data Symposium 27 Sept. Nyenrode 2
  4. 4. CBS en gegevens (2)• Er is steeds meer en steeds vaker data beschikbaar: • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’ • Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden • Meer aandacht voor selectiviteit en datatransformatie • Meer mogelijkheden voor snelle cijfers (‘real-time statistics’) • Behoefte aan nieuwe methoden en tools • Statistische methoden geschikt voor grote datasets • Denk aan: visualisatie methoden en data-, tekst- en stream-mining technieken Big Data Symposium 27 Sept. Nyenrode 3
  5. 5. Nieuwe ontwikkelingen• Voorbeelden uit de praktijk 1) Visualisatie-methoden om snel inzicht te krijgen in grote hoeveelheden gegevens a. Virtuele Volkstelling (17 miljoen records) b. Polisadministratie (20 miljoen records) 2) Bevindingen van onderzoek gebruik Big Data bronnen c. Verkeerslusgegevens (80 miljoen records) d. Mobiele telefonie (~500 miljoen records) e. Sociale media (12 milj. - 1 miljard records)Big Data Symposium 27 Sept. Nyenrode 4
  6. 6. Voorbeeld a. Virtuele Volkstelling • Volkstelling is verplicht, eens in 10-jaar • In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 • Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren en bijschatten • Hoe controleren? • Met een visualisatiemethode: TableplotBig Data Symposium 27 Sept. Nyenrode 5
  7. 7. Uitleg maken Tableplot1. Bestand laden 17 miljoen records2. Records sorteren op waarde 17 miljoen records van sleutelvariabele • in dit geval leeftijd3. Samenvoegen records 100 groepen (elk 170.000 records) • Numerieke variabelen • Bereken gemiddelde (gem. leeftijd) • Categoriale variabelen • Verhouding aanwezige categorieën (man vs vrouw)4. Plaatje ‘plotten’ van geselecteerd aantal variabelen • Kleurgebruik belangrijk Big Data Symposium 27 Sept. Nyenrode 6
  8. 8. Big Data Symposium 27 Sept. Nyenrode Een tableplot van het testbestand
  9. 9. Voorbeeld b: Polisadministratie• Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland • Verzameld door Belastingdienst en UWV • Elke maand 20 miljoen records • Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat mapBig Data Symposium 27 Sept. Nyenrode 8
  10. 10. Heatmap: Leeftijd, ‘Inkomen’Big Data Symposium 27 Sept. Nyenrode 9
  11. 11. In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘in dikken ’ l eef tijd l eef tijd Big Data Symposium 27 Sept. Nyenrode 10
  12. 12. Voorbeeld c: Verkeerslusgegevens• Verkeerslussen • Elke minuut (24/7) wordt het aantal passerende voertuigen op ~10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën • Mooie bron om verkeer- en vervoerstatistieken mee te maken • Veel data, zo’n 80 miljoen records per dagBig Data Symposium 27 Sept. Nyenrode 11
  13. 13. Aantal gedetecteerde voertuigen op één dag in NL Alle locaties Big Data Symposium 27 Sept. Nyenrode 12
  14. 14. Registratie activiteit verkeerslussen (eerste 10 min) Big Data Symposium 27 Sept. Nyenrode 13
  15. 15. Aantal gedetecteerde voertuigen op één dag in NL Alle locaties Totaal = ~ 295 miljoen Big Data Symposium 27 Sept. Nyenrode 14
  16. 16. Grote voertuigen vs alle voertuigen Wagens > 5.6 m (vrachtwagens) Alle voertuigen Na normaliserenBig Data Symposium 27 Sept. Nyenrode 15
  17. 17. Op niveau van de afzonderlijke lussenBig Data Symposium 27 Sept. Nyenrode 16
  18. 18. Voorbeeld d: Mobiele telefoon• Vrijwel elke Nederlander heeft een ‘mobieltje’ • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone!• Ideale informatiebron om: • Met behulp van registraties van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) • Als meetinstrument te gebruiken voor: • Vragenlijsten (via App, SMS of browser) • Maken van foto’s van producten, kassabonnen en streepjescodes • Doorgeven exacte locatie (GPS) • Etc.Big Data Symposium 27 Sept. Nyenrode 17
  19. 19. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers - gedurende 14 dagen - van één provider Gebaseerd op: - Bel- en SMS-activiteit meer dan 1x / dag - Locatie telefoonmasten Duidelijk selectief: - Wel de grote steden - Nauwelijks ‘t noorden en ZeelandBig Data Symposium 27 Sept. Nyenrode 18
  20. 20. Voorbeeld e: Sociale media• Nederlanders zijn erg actief op sociale media • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone!• Mogelijke informatiebron voor: • Welke onderwerpen zijn actueel: • Aantal berichten en sentiment hierover • Als meetinstrument te gebruiken voor: • . Map by Eric Fischer (via Fast Company)Big Data Symposium 27 Sept. Nyenrode 19
  21. 21. Sociale media: Nederlandstalige berichten • Nederlanders zijn erg actief op sociale media • Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om het nut te controlerenDatabase met meer dan een miljard openbare Nederlandstalige berichten Big Data Symposium 27 Sept. Nyenrode 20
  22. 22. Sociale media: Twitter onderwerpen Onderwerpen Twitter Werk (5%) Relaties Wonen Economie Milieu Weer ICT Gezondheid Onderwijs (3%) Politiek VeiligheidThemas Vervoer Vrije tijd (10%) Vakantie Cultuur/events Sport (7%) Media Overige (46%) 0 10 20 30 40 50 Bijdrage (%) 12 miljoen berichten Big Data Symposium 27 Sept. Nyenrode 21
  23. 23. Afsluitend: Statistiek en ‘Big Data’ • Geschikt maken voor statistisch gebruik is veel werk • Vooronderzoek nodig, kost veel tijd • Informatiereductie nodig (‘indikken’; ‘small’ data) • Risico: ‘garbage in’ ‘garbage statistics out’ • Traditionele aanpak schiet te kort • Het zijn geen steekproefgegevens meer • Betreft vaak een selectief maar groot deel van de populatie • Soms te veel data (overdekking & teveel detail) • Bij standaard analyses wordt alles significant! • Meer behoefte aan: • Visualisatiemethoden (om snel inzicht te krijgen) • Snelle methoden en niet-lineaire schatters • ‘Computational statistics’ (& snelle hardware) • Privacy-eisen worden hoger! Big Data Symposium 27 Sept. Nyenrode 22
  24. 24. Big Data Symposium 27 Sept. Nyenrode De toekomst van het CBS?

×