Big data en officiële statistiek

1,033 views
932 views

Published on

Presentatie voor de NGI in Utrecht op 17 jan. 2013

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,033
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Big data en officiële statistiek

  1. 1. Big Data en officiële statistiek Piet Daas (en vele collega’s)* Centraal Bureau voor de Statistiek*Martijn Tennekes, Edwin de Jonge, Alex Priem, Bart Buelens, Merijn van Pelt, Paul van den Hurk Ngi, 17 Jan. Utrecht
  2. 2. Inhoud• Centraal Bureau voor de Statistiek • Publiceert officiële ‘cijfers’• Data, Big Data en de CBS-wet • Er is steeds meer data beschikbaar• Overzicht van CBS-werk op dit terrein • Voorbeelden van recente resultaten v/h Big Data onderzoekNgi, 17 Januari, Utrecht 2
  3. 3. Inleiding “Het CBS produceerde in 2012 ongeveer 5000 officiële publicaties en tabellen” Daar hebben we DATA voor nodigNgi, 17 Januari, Utrecht 3
  4. 4. Twee soorten databronnen Primaire data Secondaire data Data van ‘anderen’ Onze eigen enquêtes - Administratieve bronnen - ‘Nieuwe’ databronnenNgi, 17 Januari, Utrecht 4
  5. 5. Wet voor het Centraal Bureau voor de Statistiek• Het CBS zorgt ervoor dat “de verwerving van gegevens op zodanige wijze geschiedt dat de daaruit voortvloeiende administratieve lasten voor ondernemingen, vrije beroepsbeoefenaren (enz.) zo laag mogelijk zijn” • Door (her)gebruik van bestaande administratieve bronnen van overheidsinstellingen en door de overheid gefinancierde organisaties. • En door de mogelijkheden van nieuwe bronnen van informatie te bestuderen Ngi, 17 Januari, Utrecht 5
  6. 6. • Data, data everywhere! XNgi, 17 Januari, Utrecht 6
  7. 7. Ngi, 17 Januari, Utrecht 7
  8. 8. Wat is Big Data?• Volgens Wikipedia Big data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target currently ranging from a few dozen terabytes to many petabytes of data in a single data set.• Volgens Gartner In a 2001 research report and related conference presentations, then META Group (now Gartner) analyst, Doug Laney, defined data growth challenges (and opportunities) as being three-dimensional, i.e. increasing volume (amount of data), velocity (speed of data in/out), and variety (range of data types, sources). Gartner continues to use this model for describing big data• Volgens een gebruiker These slogans Data so big that it becomes awkward to work with are so vagueNgi, 17 Januari, Utrecht 8
  9. 9. 3 meest belangrijke eigenschappen van Big Data Hoeveel heid Variabiliteit / Complexiteit Snelheid Ngi, 17 Januari, Utrecht 9
  10. 10. CBS en gegevensFlinke verandering in gebruik beschikbare informatie voorstatistiekproductie: 1. Enquêtegegevens (steeds minder) Per enquête tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer) Per bron tot 20 miljoen records per maand 3. Ook steeds meer ‘nieuwe’ bronnen (Big Data) Per bron zo’n ~80 miljoen records per dag Ngi, 17 Januari, Utrecht 10
  11. 11. CBS en gegevens (2)• Er is steeds meer en steeds vaker data beschikbaar: • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’ (administratieve en Big data bronnen) • Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden • Steeds meer bronnen combineren • Meer mogelijkheden voor snelle cijfers (‘real-time statistics’) • Behoefte aan nieuwe methoden en tools 1. Methoden die snel informatie uit grote hoeveelheden data kunnen extraheren. Denk aan visualisatie-methoden en data-, tekst- en stream-mining technieken (‘making Big Data small’), maar ook aan ‘High Performance Computing’ 2. Methoden om deze informatie in het statistisch proces te integreren. Zoals:grootschalig koppelen, macro/meso integratie, statistische methoden specifiek voor grote datasets Ngi, 17 Januari, Utrecht 11
  12. 12. Nieuwe ontwikkelingen• Voorbeelden uit de praktijk 1) Visualisatie-methoden om snel inzicht te krijgen in grote hoeveelheden gegevens a. Virtuele Volkstelling (17 miljoen records) b. Polisadministratie (20 miljoen records) 2) Bevindingen van onderzoek ‘nieuwe’ bronnen c. Verkeerslusgegevens (80 miljoen records) d. Mobiele telefonie (~500 miljoen records) e. Sociale media (12 milj. - 1 miljard records)Ngi, 17 Januari, Utrecht 12
  13. 13. Voorbeeld a. Virtuele Volkstelling • Volkstelling is verplicht, eens in 10-jaar • In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 • Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren van resultaat • Hoe? • Met een visualisatiemethode: TableplotNgi, 17 Januari, Utrecht 13
  14. 14. Uitleg maken Tableplot1. Bestand laden 17 miljoen records2. Records sorteren op waarde 17 miljoen records van sleutelvariabele • in dit geval leeftijd3. Samenvoegen records 100 groepen (elk 170.000 records) • Numerieke variabelen • Bereken gemiddelde (gem. leeftijd) • Categoriale variabelen • Verhouding aanwezige categorieën (man vs vrouw)4. Plaatje ‘plotten’ van geselecteerd aantal variabelen • Kleurgebruik belangrijk tot 12 Ngi, 17 Januari, Utrecht 14
  15. 15. Ngi, 17 Januari, Utrecht Een tableplot van het testbestand
  16. 16. Data verwerking Ruwe (originele) data Gecontroleerde data Uiteindelijke data Ngi, 17 Januari, Utrecht
  17. 17. Voorbeeld b: Polisadministratie• Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland • Verzameld door Belastingdienst en UWV • Elke maand 20 miljoen records • Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat mapNgi, 17 Januari, Utrecht 17
  18. 18. Heatmap: Leeftijd, ‘Inkomen’Ngi, 17 Januari, Utrecht 18
  19. 19. In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘in dikken ’ le e f tijd le e f tijd Ngi, 17 Januari, Utrecht 19
  20. 20. Voorbeeld c: Verkeerslusgegevens• Verkeerslussen • Elke minuut (24/7) wordt het aantal passerende voertuigen op >10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën • Mooie bron om verkeer- en vervoer- statistieken mee te maken (en meer) • Veel data, zo’n 80 miljoen records per dag LocatiesNgi, 17 Januari, Utrecht 20
  21. 21. Aantal gedetecteerde voertuigen op één dag in NL Tijd (uur) Ngi, 17 Januari, Utrecht 21
  22. 22. Registratie activiteit verkeerslussen (eerste 10 min) Ngi, 17 Januari, Utrecht 22
  23. 23. Correctie voor ontbrekende gegevens • Corrigeren in ‘blokken’ van 5 min. Voor Na Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%)Ngi, 17 Januari, Utrecht 23
  24. 24. - 300 - 200 - 100 -0Ngi, 17 Januari, Utrecht 24
  25. 25. Totaal voertuigen gedurende de dag (snapshots) Ngi, 17 Januari, Utrecht 25
  26. 26. Voor verschillende lengtecategorieën 1 categorie 3 categoriën 5 categoriën Totaal Totaal Totaal <= 5.6m > 1.85 & <= 2.4m > 5.6 & <= 12.2m > 2.4 & <= 5.6m > 12.2m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 mNgi, 17 Januari, Utrecht 26
  27. 27. Kleine voertuigen Tijd (uur)Ngi, 17 Januari, Utrecht 27
  28. 28. Kleine & gemiddelde voertuigen Tijd (uur)Ngi, 17 Januari, Utrecht 28
  29. 29. Kleine, gemiddelde & grote voertuigen Tijd (uur)Ngi, 17 Januari, Utrecht 29
  30. 30. Op niveau van de afzonderlijke lussenNgi, 17 Januari, Utrecht 30
  31. 31. Containeroverslag in Rotterdam !!! Echter !!! 51.941,4.02836 Tijd (uur)Ngi, 17 Januari, Utrecht 31
  32. 32. Voorbeeld d: Mobiele telefoon• Vrijwel elke Nederlander heeft een ‘mobieltje’ • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone!• Ideale informatiebron om: • Met behulp van registraties van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) • Als meetinstrument te gebruiken voor: • Vragenlijsten (via App, SMS of browser) • Maken van foto’s van producten, kassabonnen en streepjescodes • Doorgeven exacte locatie (GPS) • Etc.Ngi, 17 Januari, Utrecht 32
  33. 33. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers - gedurende 14 dagen - van één provider Gebaseerd op: - Bel- en SMS-activiteit meer dan 1x / dag - Locatie telefoonmasten Duidelijk selectief: - Wel de grote steden - Nauwelijks ‘t noorden en ZeelandNgi, 17 Januari, Utrecht 33
  34. 34. Voorbeeld e: Sociale media• Nederlanders zijn erg actief op sociale media • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone!• Mogelijke informatiebron voor: • Welke onderwerpen zijn actueel: • Aantal berichten en sentiment hierover • Als meetinstrument te gebruiken voor: • . Map by Eric Fischer (via Fast Company)Ngi, 17 Januari, Utrecht 34
  35. 35. Sociale media: Nederlandstalige berichten• Nederlanders zijn erg actief op sociale media • Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om het nut te controleren Eerst zelf Twitter bestudeerdNgi, 17 Januari, Utrecht 35
  36. 36. Sociale media: Twitter onderwerpen Onderwerpen Twitter Werk (5%) Relaties Wonen Economie Milieu Weer ICT Gezondheid Themas Onderwijs (3%) Politiek Veiligheid Vervoer Vrije tijd (10%) Vakantie Cultuur/events Sport (7%) Media Overige (46%) 0 10 20 30 40 50 Bijdrage (%) 12 miljoen berichten Ngi, 17 Januari, Utrecht 36
  37. 37. Sentiment in Sociale media• Toegang tot Coosto database gekocht • > 1.5 miljard publiek beschikbare NL-berichten • Twitter, Facebook, Hyves, Webfora, Blogs etc. • Sentiment van elk bericht • Positief, negatief of neutraal • Interessante insteek • ‘Mood of the nation’ bekeken Ngi, 17 Januari, Utrecht 37
  38. 38. Consumenten vertrouwen: t.a.v economieCBS enquête data (maandcijfers) (pos – neg) als % of totaal Tijd Ngi, 17 Januari, Utrecht 38
  39. 39. Afsluitend: CBS en ‘Big Data’ • Geschikt maken voor statistisch gebruik is veel werk • Vooronderzoek nodig, kost veel tijd • Informatie-extractie nodig (‘making Big data small’) • Risico: ‘garbage in’ ‘garbage statistics out’ • Traditionele aanpak schiet te kort • Het zijn echt geen steekproefgegevens meer • Betreft vaak een selectief maar groot deel van de populatie • Soms gewoon te veel data (teveel details) • Bij standaard analyses wordt alles significant! • Meer behoefte aan: • Visualisatiemethoden (om snel inzicht te krijgen) • Statistische methoden specifiek voor grote datasets (snel en robuust) en niet-lineaire schatters (datamining-achtig) • ‘Computational statistics’ (& snelle hardware) • Privacy-eisen worden hoger! Ngi, 17 Januari, Utrecht 43
  40. 40. Ngi, 17 Januari, Utrecht De toekomst van het CBS?

×