SlideShare a Scribd company logo
1 of 20
Statistiek en grote data
bestanden


Piet Daas, Martijn Tennekes, Edwin de Jonge,
Alex Priem en Merijn van Pelt

Centraal Bureau voor de Statistiek

                                     Big Data Analytics, 14 Juni Almere
Centraal Bureau voor de Statistiek
• Taak: “het publiceren van betrouwbare en
  samenhangende statistische informatie, die
  inspeelt op de behoefte van de samenleving”.
  • in 2012 zo’n kleine 5000 officiële publicaties & tabellen

• Doel: maximale vermindering van administratieve
  lasten
  • Door bestaande administratieve bestanden te
    hergebruiken.
  • Kijken naar de nieuwe bronnen van informatie: Big Data!

 Big Data Analytics 14 Juni Almere                              1
CBS en gegevens
Flinke verandering in gebruik beschikbare informatie voor
statistiekproductie:
   1. Enquêtegegevens (steeds minder)
             Per enquête tot max. 100.000 records per jaar

   2. Administratieve bronnen (steeds meer)
             Per bron tot 20 miljoen records per maand

   3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)
             Per bron zo’n 40-80 miljoen records per dag


  Big Data Analytics 14 Juni Almere                           2
CBS en gegevens (2)

• Er is steeds meer en steeds vaker data beschikbaar:
   • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’
     • Steeds grotere hoeveelheden data moeten snel
       gecontroleerd, verwerkt en geanalyseerd worden
     • Meer aandacht voor selectiviteit en datatransformatie
     • Meer mogelijkheden voor snelle cijfers (‘real-time
       statistics’)
   • Behoefte aan nieuwe methoden en tools
     • Statistische methoden geschikt voor grote datasets
     • Denk aan: visualisatie methoden en data-, tekst- en
       stream-mining technieken

   Big Data Analytics 14 Juni Almere                         3
Nieuwe ontwikkelingen

•    Voorbeelden uit de praktijk
    1) Visualisatie-methoden om snel inzicht te krijgen
        in grote hoeveelheden gegevens
         a. Virtuele Volkstelling   (17 miljoen records)
         b. Polisadministratie      (20 miljoen records)

    2) Bevindingen van onderzoek gebruik Big Data
        bronnen
         c. Verkeerslusgegevens     (80 miljoen records)
         d. Mobiele telefonie       (~500 miljoen records)


Big Data Analytics 14 Juni Almere                            4
Voorbeeld a. Virtuele Volkstelling

     • Volkstelling is verplicht, eens in 10-jaar
     • In Nederland niet meer met vragenlijsten
          • Laatste traditionele volkstelling in 1971
     • Nu door (her)gebruik van reeds verzamelde
       informatie
          • Grootschalig koppelen van administratieve bronnen en
            enquêtegegevens
          • Controleren en bijschatten
          • Hoe controleren?
              • Met een visualisatiemethode: Tableplot


Big Data Analytics 14 Juni Almere                                  5
Big Data Analytics 14 Juni Almere   Een tableplot van het testbestand
Voorbeeld b: Polisadministratie

• Bestand met de financiële gegevens van
  alle banen, uitkeringen en pensioenen in
  Nederland
     • Verzameld door Belastingdienst en UWV
     • Elke maand 20 miljoen records

     • Hoe krijgen we inzicht in deze enorme bak
       data?
          • Met een visualisatie: heat map



Big Data Analytics 14 Juni Almere                  7
Heatmap: Leeftijd, ‘Inkomen’




Big Data Analytics 14 Juni Almere   8
In 3D heatmap: Leeftijd, Inkomen, Aantal
                                                     Na ‘in
                                                            dikken
                                                                   ’




           l eef
                   tijd
                                      l eef
                                              tijd




  Big Data Analytics 14 Juni Almere                                9
Voorbeeld c: Verkeerslusgegevens

• Verkeerslussen
     • Elke minuut (24/7) wordt het aantal
       passerende voertuigen op ~10.000
       meetpunten in Nederland geteld
          • Totaal en in verschillende lengtecategorieën


     • Mooie bron om verkeer- en vervoerstatistieken
       mee te maken
          • Veel data, zo’n 80 miljoen records per dag



Big Data Analytics 14 Juni Almere                          10
Aantal gedetecteerde voertuigen op één dag in NL




                                                        Alle locaties




                                      Totaal = ~ 294 miljoen

  Big Data Analytics 14 Juni Almere                                 11
Registratie activiteit verkeerslussen (eerste 10 min)




 Big Data Analytics 14 Juni Almere                 12
Na ‘gaafmaken’ van lusdata (op macroniveau)
                                     Maar op microniveau




 Big Data Analytics 14 Juni Almere                   13
Nog steeds op microniveau veel ‘ruis’




Big Data Analytics 14 Juni Almere           14
Kijk naar trend: voortschrijdend gemiddelde



                                    60 min gem.

                                    30 min gem.

                                    20 min gem.

                                    10 min gem.

                                     5 min gem.

                                       origineel




Big Data Analytics 14 Juni Almere                  15
Voorbeeld d: Mobiele telefoon
• Vrijwel elke Nederlander heeft een ‘mobieltje’
      • Bijna altijd bij zich en staat vrijwel altijd aan
          • Steeds meer mensen hebben een smartphone!

• Ideale informatiebron om:
      • Met behulp van registraties van providers:
          • Verplaatsingsgedrag (‘Dag’-populatie)
          • Toerisme (nieuwe aanmeldingen op netwerk)
          • Mensenmassa’s (bijv. bij evenementen)
      • Als meetinstrument te gebruiken voor:
          •   Vragenlijsten (via App, SMS of browser)
          •   Maken van foto’s van producten, kassabonnen en streepjescodes
          •   Doorgeven exacte locatie (GPS)
          •   Etc.


Big Data Analytics 14 Juni Almere                                             16
Verplaatsingsgedrag mobiele telefoons
                                    Verplaatsingen van zeer
                                    actieve mobiele gebruikers
                                       - gedurende 14 dagen
                                       - van één provider

                                    Gebaseerd op:
                                       - Bel- en SMS-activiteit
                                           meer dan 1x / dag
                                       - Locatie telefoonmasten

                                    Duidelijk selectief:
                                       - Wel de grote steden
                                       - Nauwelijks ‘t noorden
                                         en zeeland


Big Data Analytics 14 Juni Almere                                 17
Afsluitend: Statistiek en ‘Big Data’
   • Geschikt maken voor statistisch gebruik is veel werk
      • Vooronderzoek nodig, kost veel tijd
      • Informatiereductie (‘indikken’) nodig
      • Risico: ‘garbage in’     ‘garbage statistics out’
   • Traditionele aanpak schiet te kort
      • Zijn geen steekproefgegevens meer
      • Betreft vaak een selectief deel van de populatie
      • Soms te veel data (overdekking & teveel detail)
      • Bij standaard analyses wordt alles significant!
   • Meer behoefte aan:
      • Visualisatiemethoden (om snel inzicht te krijgen)
      • Snelle methoden en niet-lineaire schatters
      • ‘Computational statistics’ (& snelle hardware)
      • Privacy-eisen worden hoger!


  Big Data Analytics 14 Juni Almere                         18
Big Data Analytics 14 Juni Almere   De toekomst van het CBS?

More Related Content

What's hot

Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daasPiet J.H. Daas
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker
 
gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres EindhovenAppsForGhent
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalRosseau Bart
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentRosseau Bart
 
Realisatiedag 7 juni Drachten data sturing
Realisatiedag 7 juni Drachten data sturing Realisatiedag 7 juni Drachten data sturing
Realisatiedag 7 juni Drachten data sturing VNG Realisatie
 
Exploit the masses! Big Data en de Archivaris (kvan14)
Exploit the masses! Big Data en de Archivaris (kvan14)Exploit the masses! Big Data en de Archivaris (kvan14)
Exploit the masses! Big Data en de Archivaris (kvan14)adviesch
 
Exploit the Masses! Big Data en de Archivaris
Exploit the Masses! Big Data en de ArchivarisExploit the Masses! Big Data en de Archivaris
Exploit the Masses! Big Data en de ArchivarisKVANdagen
 
04 DSD-NL 2016 - Delft-FEWS Gebruikersdag - 2016 Digitale Delta - Arnold Lobb...
04 DSD-NL 2016 - Delft-FEWS Gebruikersdag - 2016 Digitale Delta - Arnold Lobb...04 DSD-NL 2016 - Delft-FEWS Gebruikersdag - 2016 Digitale Delta - Arnold Lobb...
04 DSD-NL 2016 - Delft-FEWS Gebruikersdag - 2016 Digitale Delta - Arnold Lobb...Deltares
 
Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)Erik Van Der Zee
 
Big data intelligence en veiligheid
Big data intelligence en veiligheidBig data intelligence en veiligheid
Big data intelligence en veiligheidTNO
 
Danny Holten (Synerscope) @ Tech Update Big Data Visualisatie
Danny Holten (Synerscope) @ Tech Update Big Data VisualisatieDanny Holten (Synerscope) @ Tech Update Big Data Visualisatie
Danny Holten (Synerscope) @ Tech Update Big Data VisualisatieMedia Perspectives
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenVNG Realisatie
 
Oscar Wijsman @ Tech Update Big Data Visualisatie
Oscar Wijsman @ Tech Update Big Data VisualisatieOscar Wijsman @ Tech Update Big Data Visualisatie
Oscar Wijsman @ Tech Update Big Data VisualisatieMedia Perspectives
 

What's hot (16)

Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daas
 
Big data @ CBS
Big data @ CBSBig data @ CBS
Big data @ CBS
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
 
gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhoven
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie Leiedal
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagent
 
Realisatiedag 7 juni Drachten data sturing
Realisatiedag 7 juni Drachten data sturing Realisatiedag 7 juni Drachten data sturing
Realisatiedag 7 juni Drachten data sturing
 
Exploit the masses! Big Data en de Archivaris (kvan14)
Exploit the masses! Big Data en de Archivaris (kvan14)Exploit the masses! Big Data en de Archivaris (kvan14)
Exploit the masses! Big Data en de Archivaris (kvan14)
 
Exploit the Masses! Big Data en de Archivaris
Exploit the Masses! Big Data en de ArchivarisExploit the Masses! Big Data en de Archivaris
Exploit the Masses! Big Data en de Archivaris
 
04 DSD-NL 2016 - Delft-FEWS Gebruikersdag - 2016 Digitale Delta - Arnold Lobb...
04 DSD-NL 2016 - Delft-FEWS Gebruikersdag - 2016 Digitale Delta - Arnold Lobb...04 DSD-NL 2016 - Delft-FEWS Gebruikersdag - 2016 Digitale Delta - Arnold Lobb...
04 DSD-NL 2016 - Delft-FEWS Gebruikersdag - 2016 Digitale Delta - Arnold Lobb...
 
Themasessie geo
Themasessie geoThemasessie geo
Themasessie geo
 
Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)
 
Big data intelligence en veiligheid
Big data intelligence en veiligheidBig data intelligence en veiligheid
Big data intelligence en veiligheid
 
Danny Holten (Synerscope) @ Tech Update Big Data Visualisatie
Danny Holten (Synerscope) @ Tech Update Big Data VisualisatieDanny Holten (Synerscope) @ Tech Update Big Data Visualisatie
Danny Holten (Synerscope) @ Tech Update Big Data Visualisatie
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
 
Oscar Wijsman @ Tech Update Big Data Visualisatie
Oscar Wijsman @ Tech Update Big Data VisualisatieOscar Wijsman @ Tech Update Big Data Visualisatie
Oscar Wijsman @ Tech Update Big Data Visualisatie
 

Similar to Statistiek en grote databestanden

Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'ScienceWorks
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small dataNMITSymposium
 
Presentatie Big data & IoT van hype naar doen
Presentatie Big data & IoT van hype naar doenPresentatie Big data & IoT van hype naar doen
Presentatie Big data & IoT van hype naar doenCmotions
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTDutch Power
 
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieDoorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieherbold
 
ITI workshop open data
ITI workshop open dataITI workshop open data
ITI workshop open dataMarcel de Rink
 
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn  28 juli 2014 Open DataAlphen aan den rijn  28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open DataAd Steenbakkers
 
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) IntoTheMinds
 
Big en open data, Cascadis jaarcongres 2014
Big en open data, Cascadis jaarcongres 2014Big en open data, Cascadis jaarcongres 2014
Big en open data, Cascadis jaarcongres 2014Robbert Jellinek
 
Eduvision - Big data voor de Overheid
Eduvision - Big data voor de OverheidEduvision - Big data voor de Overheid
Eduvision - Big data voor de OverheidEduvision Opleidingen
 
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankBig Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankLisette van Beusekom
 
Big Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstBig Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstOscar Wijsman
 
20130618 presentatie big data in financiële sector v1.0 Dutch
20130618 presentatie big data in financiële sector v1.0 Dutch20130618 presentatie big data in financiële sector v1.0 Dutch
20130618 presentatie big data in financiële sector v1.0 DutchPascal Spelier
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...Ikinnoveer
 
Presentatie big data in verkoop (cevora) gent 16 Mei 2017
Presentatie big data in verkoop (cevora) gent 16 Mei 2017Presentatie big data in verkoop (cevora) gent 16 Mei 2017
Presentatie big data in verkoop (cevora) gent 16 Mei 2017IntoTheMinds
 
Big data x big archives = great opportunities
Big data x big archives = great opportunitiesBig data x big archives = great opportunities
Big data x big archives = great opportunitiesKVANdagen
 
Vodafone en NRC bijlage De slimme stad
Vodafone en NRC bijlage De slimme stadVodafone en NRC bijlage De slimme stad
Vodafone en NRC bijlage De slimme stadChantal de Lie
 
Caspar de Jonge - Congres 'Data gedreven Beleidsontwikkeling'
Caspar de Jonge - Congres 'Data gedreven Beleidsontwikkeling'Caspar de Jonge - Congres 'Data gedreven Beleidsontwikkeling'
Caspar de Jonge - Congres 'Data gedreven Beleidsontwikkeling'ScienceWorks
 

Similar to Statistiek en grote databestanden (20)

Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small data
 
Presentatie Big data & IoT van hype naar doen
Presentatie Big data & IoT van hype naar doenPresentatie Big data & IoT van hype naar doen
Presentatie Big data & IoT van hype naar doen
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
 
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieDoorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatie
 
ITI workshop open data
ITI workshop open dataITI workshop open data
ITI workshop open data
 
Datajournalistiek
DatajournalistiekDatajournalistiek
Datajournalistiek
 
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn  28 juli 2014 Open DataAlphen aan den rijn  28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open Data
 
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora)
 
Big en open data, Cascadis jaarcongres 2014
Big en open data, Cascadis jaarcongres 2014Big en open data, Cascadis jaarcongres 2014
Big en open data, Cascadis jaarcongres 2014
 
Eduvision - Big data voor de Overheid
Eduvision - Big data voor de OverheidEduvision - Big data voor de Overheid
Eduvision - Big data voor de Overheid
 
Big Data in zicht - Nationale Denktank
Big Data in zicht - Nationale DenktankBig Data in zicht - Nationale Denktank
Big Data in zicht - Nationale Denktank
 
Bigdata
BigdataBigdata
Bigdata
 
Big Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomstBig Data - een kijk in jouw toekomst
Big Data - een kijk in jouw toekomst
 
20130618 presentatie big data in financiële sector v1.0 Dutch
20130618 presentatie big data in financiële sector v1.0 Dutch20130618 presentatie big data in financiële sector v1.0 Dutch
20130618 presentatie big data in financiële sector v1.0 Dutch
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
 
Presentatie big data in verkoop (cevora) gent 16 Mei 2017
Presentatie big data in verkoop (cevora) gent 16 Mei 2017Presentatie big data in verkoop (cevora) gent 16 Mei 2017
Presentatie big data in verkoop (cevora) gent 16 Mei 2017
 
Big data x big archives = great opportunities
Big data x big archives = great opportunitiesBig data x big archives = great opportunities
Big data x big archives = great opportunities
 
Vodafone en NRC bijlage De slimme stad
Vodafone en NRC bijlage De slimme stadVodafone en NRC bijlage De slimme stad
Vodafone en NRC bijlage De slimme stad
 
Caspar de Jonge - Congres 'Data gedreven Beleidsontwikkeling'
Caspar de Jonge - Congres 'Data gedreven Beleidsontwikkeling'Caspar de Jonge - Congres 'Data gedreven Beleidsontwikkeling'
Caspar de Jonge - Congres 'Data gedreven Beleidsontwikkeling'
 

More from Piet J.H. Daas

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their usePiet J.H. Daas
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsPiet J.H. Daas
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)Piet J.H. Daas
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesPiet J.H. Daas
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statisticsPiet J.H. Daas
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasPiet J.H. Daas
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsPiet J.H. Daas
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSPiet J.H. Daas
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45Piet J.H. Daas
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation MannheimPiet J.H. Daas
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media dataPiet J.H. Daas
 
Gebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekGebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekPiet J.H. Daas
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityPiet J.H. Daas
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyPiet J.H. Daas
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenPiet J.H. Daas
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaPiet J.H. Daas
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statisticsPiet J.H. Daas
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big DataPiet J.H. Daas
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidencePiet J.H. Daas
 

More from Piet J.H. Daas (20)

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statistics
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation Mannheim
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media data
 
Gebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekGebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiek
 
Big Data @ CBS
Big Data @ CBSBig Data @ CBS
Big Data @ CBS
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statistics
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big Data
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidence
 

Statistiek en grote databestanden

  • 1. Statistiek en grote data bestanden Piet Daas, Martijn Tennekes, Edwin de Jonge, Alex Priem en Merijn van Pelt Centraal Bureau voor de Statistiek Big Data Analytics, 14 Juni Almere
  • 2. Centraal Bureau voor de Statistiek • Taak: “het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving”. • in 2012 zo’n kleine 5000 officiële publicaties & tabellen • Doel: maximale vermindering van administratieve lasten • Door bestaande administratieve bestanden te hergebruiken. • Kijken naar de nieuwe bronnen van informatie: Big Data! Big Data Analytics 14 Juni Almere 1
  • 3. CBS en gegevens Flinke verandering in gebruik beschikbare informatie voor statistiekproductie: 1. Enquêtegegevens (steeds minder)  Per enquête tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer)  Per bron tot 20 miljoen records per maand 3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)  Per bron zo’n 40-80 miljoen records per dag Big Data Analytics 14 Juni Almere 2
  • 4. CBS en gegevens (2) • Er is steeds meer en steeds vaker data beschikbaar: • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’ • Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden • Meer aandacht voor selectiviteit en datatransformatie • Meer mogelijkheden voor snelle cijfers (‘real-time statistics’) • Behoefte aan nieuwe methoden en tools • Statistische methoden geschikt voor grote datasets • Denk aan: visualisatie methoden en data-, tekst- en stream-mining technieken Big Data Analytics 14 Juni Almere 3
  • 5. Nieuwe ontwikkelingen • Voorbeelden uit de praktijk 1) Visualisatie-methoden om snel inzicht te krijgen in grote hoeveelheden gegevens a. Virtuele Volkstelling (17 miljoen records) b. Polisadministratie (20 miljoen records) 2) Bevindingen van onderzoek gebruik Big Data bronnen c. Verkeerslusgegevens (80 miljoen records) d. Mobiele telefonie (~500 miljoen records) Big Data Analytics 14 Juni Almere 4
  • 6. Voorbeeld a. Virtuele Volkstelling • Volkstelling is verplicht, eens in 10-jaar • In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 • Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren en bijschatten • Hoe controleren? • Met een visualisatiemethode: Tableplot Big Data Analytics 14 Juni Almere 5
  • 7. Big Data Analytics 14 Juni Almere Een tableplot van het testbestand
  • 8. Voorbeeld b: Polisadministratie • Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland • Verzameld door Belastingdienst en UWV • Elke maand 20 miljoen records • Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat map Big Data Analytics 14 Juni Almere 7
  • 9. Heatmap: Leeftijd, ‘Inkomen’ Big Data Analytics 14 Juni Almere 8
  • 10. In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘in dikken ’ l eef tijd l eef tijd Big Data Analytics 14 Juni Almere 9
  • 11. Voorbeeld c: Verkeerslusgegevens • Verkeerslussen • Elke minuut (24/7) wordt het aantal passerende voertuigen op ~10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën • Mooie bron om verkeer- en vervoerstatistieken mee te maken • Veel data, zo’n 80 miljoen records per dag Big Data Analytics 14 Juni Almere 10
  • 12. Aantal gedetecteerde voertuigen op één dag in NL Alle locaties Totaal = ~ 294 miljoen Big Data Analytics 14 Juni Almere 11
  • 13. Registratie activiteit verkeerslussen (eerste 10 min) Big Data Analytics 14 Juni Almere 12
  • 14. Na ‘gaafmaken’ van lusdata (op macroniveau) Maar op microniveau Big Data Analytics 14 Juni Almere 13
  • 15. Nog steeds op microniveau veel ‘ruis’ Big Data Analytics 14 Juni Almere 14
  • 16. Kijk naar trend: voortschrijdend gemiddelde 60 min gem. 30 min gem. 20 min gem. 10 min gem. 5 min gem. origineel Big Data Analytics 14 Juni Almere 15
  • 17. Voorbeeld d: Mobiele telefoon • Vrijwel elke Nederlander heeft een ‘mobieltje’ • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! • Ideale informatiebron om: • Met behulp van registraties van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) • Als meetinstrument te gebruiken voor: • Vragenlijsten (via App, SMS of browser) • Maken van foto’s van producten, kassabonnen en streepjescodes • Doorgeven exacte locatie (GPS) • Etc. Big Data Analytics 14 Juni Almere 16
  • 18. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers - gedurende 14 dagen - van één provider Gebaseerd op: - Bel- en SMS-activiteit meer dan 1x / dag - Locatie telefoonmasten Duidelijk selectief: - Wel de grote steden - Nauwelijks ‘t noorden en zeeland Big Data Analytics 14 Juni Almere 17
  • 19. Afsluitend: Statistiek en ‘Big Data’ • Geschikt maken voor statistisch gebruik is veel werk • Vooronderzoek nodig, kost veel tijd • Informatiereductie (‘indikken’) nodig • Risico: ‘garbage in’ ‘garbage statistics out’ • Traditionele aanpak schiet te kort • Zijn geen steekproefgegevens meer • Betreft vaak een selectief deel van de populatie • Soms te veel data (overdekking & teveel detail) • Bij standaard analyses wordt alles significant! • Meer behoefte aan: • Visualisatiemethoden (om snel inzicht te krijgen) • Snelle methoden en niet-lineaire schatters • ‘Computational statistics’ (& snelle hardware) • Privacy-eisen worden hoger! Big Data Analytics 14 Juni Almere 18
  • 20. Big Data Analytics 14 Juni Almere De toekomst van het CBS?