Statistiek en grote databestandenPiet Daas, Martijn Tennekes, Edwin de Jonge,Alex Priem en Merijn van PeltCentraal Bureau ...
Centraal Bureau voor de Statistiek• Taak: “het publiceren van betrouwbare en  samenhangende statistische informatie, die  ...
CBS en gegevensFlinke verandering in gebruik beschikbare informatie voorstatistiekproductie:   1. Enquêtegegevens (steeds ...
CBS en gegevens (2)• Er is steeds meer en steeds vaker data beschikbaar:   • Van ‘Data schaarste’ (steekproef-) naar ‘Data...
Nieuwe ontwikkelingen•    Voorbeelden uit de praktijk    1) Visualisatie-methoden om snel inzicht te krijgen        in gro...
Voorbeeld a. Virtuele Volkstelling     • Volkstelling is verplicht, eens in 10-jaar     • In Nederland niet meer met vrage...
Big Data Analytics 14 Juni Almere   Een tableplot van het testbestand
Voorbeeld b: Polisadministratie• Bestand met de financiële gegevens van  alle banen, uitkeringen en pensioenen in  Nederla...
Heatmap: Leeftijd, ‘Inkomen’Big Data Analytics 14 Juni Almere   8
In 3D heatmap: Leeftijd, Inkomen, Aantal                                                     Na ‘in                       ...
Voorbeeld c: Verkeerslusgegevens• Verkeerslussen     • Elke minuut (24/7) wordt het aantal       passerende voertuigen op ...
Aantal gedetecteerde voertuigen op één dag in NL                                                        Alle locaties     ...
Registratie activiteit verkeerslussen (eerste 10 min) Big Data Analytics 14 Juni Almere                 12
Na ‘gaafmaken’ van lusdata (op macroniveau)                                     Maar op microniveau Big Data Analytics 14 ...
Nog steeds op microniveau veel ‘ruis’Big Data Analytics 14 Juni Almere           14
Kijk naar trend: voortschrijdend gemiddelde                                    60 min gem.                                ...
Voorbeeld d: Mobiele telefoon• Vrijwel elke Nederlander heeft een ‘mobieltje’      • Bijna altijd bij zich en staat vrijwe...
Verplaatsingsgedrag mobiele telefoons                                    Verplaatsingen van zeer                          ...
Afsluitend: Statistiek en ‘Big Data’   • Geschikt maken voor statistisch gebruik is veel werk      • Vooronderzoek nodig, ...
Big Data Analytics 14 Juni Almere   De toekomst van het CBS?
Upcoming SlideShare
Loading in...5
×

Statistiek en grote databestanden

317

Published on

Presentatie voor het Big Data Analytics seminar, Almere, Nederland.

Published in: Education
1 Comment
0 Likes
Statistics
Notes
  • Be the first to like this

No Downloads
Views
Total Views
317
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
1
Likes
0
Embeds 0
No embeds

No notes for slide

Statistiek en grote databestanden

  1. 1. Statistiek en grote databestandenPiet Daas, Martijn Tennekes, Edwin de Jonge,Alex Priem en Merijn van PeltCentraal Bureau voor de Statistiek Big Data Analytics, 14 Juni Almere
  2. 2. Centraal Bureau voor de Statistiek• Taak: “het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving”. • in 2012 zo’n kleine 5000 officiële publicaties & tabellen• Doel: maximale vermindering van administratieve lasten • Door bestaande administratieve bestanden te hergebruiken. • Kijken naar de nieuwe bronnen van informatie: Big Data! Big Data Analytics 14 Juni Almere 1
  3. 3. CBS en gegevensFlinke verandering in gebruik beschikbare informatie voorstatistiekproductie: 1. Enquêtegegevens (steeds minder)  Per enquête tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer)  Per bron tot 20 miljoen records per maand 3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)  Per bron zo’n 40-80 miljoen records per dag Big Data Analytics 14 Juni Almere 2
  4. 4. CBS en gegevens (2)• Er is steeds meer en steeds vaker data beschikbaar: • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’ • Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden • Meer aandacht voor selectiviteit en datatransformatie • Meer mogelijkheden voor snelle cijfers (‘real-time statistics’) • Behoefte aan nieuwe methoden en tools • Statistische methoden geschikt voor grote datasets • Denk aan: visualisatie methoden en data-, tekst- en stream-mining technieken Big Data Analytics 14 Juni Almere 3
  5. 5. Nieuwe ontwikkelingen• Voorbeelden uit de praktijk 1) Visualisatie-methoden om snel inzicht te krijgen in grote hoeveelheden gegevens a. Virtuele Volkstelling (17 miljoen records) b. Polisadministratie (20 miljoen records) 2) Bevindingen van onderzoek gebruik Big Data bronnen c. Verkeerslusgegevens (80 miljoen records) d. Mobiele telefonie (~500 miljoen records)Big Data Analytics 14 Juni Almere 4
  6. 6. Voorbeeld a. Virtuele Volkstelling • Volkstelling is verplicht, eens in 10-jaar • In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 • Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren en bijschatten • Hoe controleren? • Met een visualisatiemethode: TableplotBig Data Analytics 14 Juni Almere 5
  7. 7. Big Data Analytics 14 Juni Almere Een tableplot van het testbestand
  8. 8. Voorbeeld b: Polisadministratie• Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland • Verzameld door Belastingdienst en UWV • Elke maand 20 miljoen records • Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat mapBig Data Analytics 14 Juni Almere 7
  9. 9. Heatmap: Leeftijd, ‘Inkomen’Big Data Analytics 14 Juni Almere 8
  10. 10. In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘in dikken ’ l eef tijd l eef tijd Big Data Analytics 14 Juni Almere 9
  11. 11. Voorbeeld c: Verkeerslusgegevens• Verkeerslussen • Elke minuut (24/7) wordt het aantal passerende voertuigen op ~10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën • Mooie bron om verkeer- en vervoerstatistieken mee te maken • Veel data, zo’n 80 miljoen records per dagBig Data Analytics 14 Juni Almere 10
  12. 12. Aantal gedetecteerde voertuigen op één dag in NL Alle locaties Totaal = ~ 294 miljoen Big Data Analytics 14 Juni Almere 11
  13. 13. Registratie activiteit verkeerslussen (eerste 10 min) Big Data Analytics 14 Juni Almere 12
  14. 14. Na ‘gaafmaken’ van lusdata (op macroniveau) Maar op microniveau Big Data Analytics 14 Juni Almere 13
  15. 15. Nog steeds op microniveau veel ‘ruis’Big Data Analytics 14 Juni Almere 14
  16. 16. Kijk naar trend: voortschrijdend gemiddelde 60 min gem. 30 min gem. 20 min gem. 10 min gem. 5 min gem. origineelBig Data Analytics 14 Juni Almere 15
  17. 17. Voorbeeld d: Mobiele telefoon• Vrijwel elke Nederlander heeft een ‘mobieltje’ • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone!• Ideale informatiebron om: • Met behulp van registraties van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) • Als meetinstrument te gebruiken voor: • Vragenlijsten (via App, SMS of browser) • Maken van foto’s van producten, kassabonnen en streepjescodes • Doorgeven exacte locatie (GPS) • Etc.Big Data Analytics 14 Juni Almere 16
  18. 18. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers - gedurende 14 dagen - van één provider Gebaseerd op: - Bel- en SMS-activiteit meer dan 1x / dag - Locatie telefoonmasten Duidelijk selectief: - Wel de grote steden - Nauwelijks ‘t noorden en zeelandBig Data Analytics 14 Juni Almere 17
  19. 19. Afsluitend: Statistiek en ‘Big Data’ • Geschikt maken voor statistisch gebruik is veel werk • Vooronderzoek nodig, kost veel tijd • Informatiereductie (‘indikken’) nodig • Risico: ‘garbage in’ ‘garbage statistics out’ • Traditionele aanpak schiet te kort • Zijn geen steekproefgegevens meer • Betreft vaak een selectief deel van de populatie • Soms te veel data (overdekking & teveel detail) • Bij standaard analyses wordt alles significant! • Meer behoefte aan: • Visualisatiemethoden (om snel inzicht te krijgen) • Snelle methoden en niet-lineaire schatters • ‘Computational statistics’ (& snelle hardware) • Privacy-eisen worden hoger! Big Data Analytics 14 Juni Almere 18
  20. 20. Big Data Analytics 14 Juni Almere De toekomst van het CBS?

×