Your SlideShare is downloading. ×
Dr. Piet Daas (CBS) - Statistiek en grote data bestanden
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Dr. Piet Daas (CBS) - Statistiek en grote data bestanden

1,147
views

Published on

Presentatie van Dr. Piet Daas (CBS): 'Statistiek en grote data bestanden' tijdens het Big Data Analytics seminar 14 juni van Almere DataCapital in Almere. …

Presentatie van Dr. Piet Daas (CBS): 'Statistiek en grote data bestanden' tijdens het Big Data Analytics seminar 14 juni van Almere DataCapital in Almere.


0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,147
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Statistiek en grote databestandenPiet Daas, Martijn Tennekes, Edwin de Jonge,Alex Priem en Merijn van PeltCentraal Bureau voor de Statistiek Big Data Analytics, 14 Juni Almere
  • 2. Centraal Bureau voor de Statistiek• Taak: “het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving”. • in 2012 zo’n kleine 5000 officiële publicaties & tabellen• Doel: maximale vermindering van administratieve lasten • Door bestaande administratieve bestanden te hergebruiken. • Kijken naar de nieuwe bronnen van informatie: Big Data! Big Data Analytics 14 Juni Almere 1
  • 3. CBS en gegevensFlinke verandering in gebruik beschikbare informatie voorstatistiekproductie: 1. Enquêtegegevens (steeds minder)  Per enquête tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer)  Per bron tot 20 miljoen records per maand • Ook steeds meer ‘nieuwe’ bronnen (Big Data)  Per bron zo’n 40-80 miljoen records per dag Big Data Analytics 14 Juni Almere 2
  • 4. CBS en gegevens (2)• Er is steeds meer en steeds vaker data beschikbaar: • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’ • Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden • Meer aandacht voor selectiviteit en datatransformatie • Meer mogelijkheden voor snelle cijfers (‘real-time statistics’) • Behoefte aan nieuwe methoden en tools • Statistische methoden geschikt voor grote datasets • Denk aan: visualisatie methoden en data-, tekst- en stream-mining technieken Big Data Analytics 14 Juni Almere 3
  • 5. Nieuwe ontwikkelingen• Voorbeelden uit de praktijk 1) Visualisatie-methoden om snel inzicht te krijgen in grote hoeveelheden gegevens a. Virtuele Volkstelling (17 miljoen records) b. Polisadministratie (20 miljoen records) 2) Bevindingen van onderzoek gebruik Big Data bronnen c. Verkeerslusgegevens (80 miljoen records) • Mobiele telefonie (~500 miljoen records)Big Data Analytics 14 Juni Almere 4
  • 6. Voorbeeld a. Virtuele Volkstelling • Volkstelling is verplicht, eens in 10-jaar • In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 • Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren en bijschatten • Hoe controleren? • Met een visualisatiemethode: TableplotBig Data Analytics 14 Juni Almere 5
  • 7. Big Data Analytics 14 Juni Almere Een tableplot van het testbestand
  • 8. Voorbeeld b: Polisadministratie• Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland • Verzameld door Belastingdienst en UWV • Elke maand 20 miljoen records • Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat mapBig Data Analytics 14 Juni Almere 7
  • 9. Heatmap: Leeftijd, ‘Inkomen’Big Data Analytics 14 Juni Almere 8
  • 10. In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘in dikken ’ leef tijd leef tijd Big Data Analytics 14 Juni Almere 9
  • 11. Voorbeeld c: Verkeerslusgegevens• Verkeerslussen • Elke minuut (24/7) wordt het aantal passerende voertuigen op ~10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën • Mooie bron om verkeer- en vervoerstatistieken mee te maken • Veel data, zo’n 80 miljoen records per dagBig Data Analytics 14 Juni Almere 10
  • 12. Aantal gedetecteerde voertuigen op één dag in NL Alle locaties Totaal = ~ 294 miljoen Big Data Analytics 14 Juni Almere 11
  • 13. Registratie activiteit verkeerslussen (eerste 10 min) Big Data Analytics 14 Juni Almere 12
  • 14. Na ‘gaafmaken’ van lusdata (op macroniveau) Maar op microniveau Big Data Analytics 14 Juni Almere 13
  • 15. Nog steeds op microniveau veel ‘ruis’Big Data Analytics 14 Juni Almere 14
  • 16. Kijk naar trend: voortschrijdend gemiddelde 60 min gem. 30 min gem. 20 min gem. 10 min gem. 5 min gem. origineel Big Data Analytics 14 Juni Almere 15
  • 17. Voorbeeld d: Mobiele telefoon• Vrijwel elke Nederlander heeft een ‘mobieltje’ • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone!• Ideale informatiebron om: • Met behulp van registraties van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) • Als meetinstrument te gebruiken voor: • Vragenlijsten (via App, SMS of browser) • Maken van foto’s van producten, kassabonnen en streepjescodes • Doorgeven exacte locatie (GPS) • Etc.Big Data Analytics 14 Juni Almere 16
  • 18. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers - gedurende 14 dagen - van één provider Gebaseerd op: - Bel- en SMS-activiteit meer dan 1x / dag - Locatie telefoonmasten Duidelijk selectief: - Wel de grote steden - Nauwelijks ‘t noorden en zeelandBig Data Analytics 14 Juni Almere 17
  • 19. Afsluitend: Statistiek en ‘Big Data’ • Geschikt maken voor statistisch gebruik is veel werk • Vooronderzoek nodig, kost veel tijd • Informatiereductie (‘indikken’) nodig • Risico: ‘garbage in’ ‘garbage statistics out’ • Traditionele aanpak schiet te kort • Zijn geen steekproefgegevens meer • Betreft vaak een selectief deel van de populatie • Soms te veel data (overdekking & teveel detail) • Bij standaard analyses wordt alles significant! • Meer behoefte aan: • Visualisatiemethoden (om snel inzicht te krijgen) • Snelle methoden en niet-lineaire schatters • ‘Computational statistics’ (& snelle hardware) • Privacy-eisen worden hoger! Big Data Analytics 14 Juni Almere 18
  • 20. Big Data Analytics 14 Juni Almere De toekomst van het CBS?