SlideShare a Scribd company logo
Big Data
   en officiële statistiek

       Piet Daas (en vele collega’s)*

       Centraal Bureau voor de Statistiek

*Martijn Tennekes, Edwin de Jonge, Alex Priem, Bart Buelens, Merijn van Pelt, Paul van den Hurk

                                                                          Ngi, 17 Jan. Utrecht
Inhoud

• Centraal Bureau voor de Statistiek
     • Publiceert officiële ‘cijfers’
• Data, Big Data en de CBS-wet
     • Er is steeds meer data beschikbaar
• Overzicht van CBS-werk op dit terrein
     • Voorbeelden van recente resultaten v/h Big
       Data onderzoek


Ngi, 17 Januari, Utrecht                            2
Inleiding




  “Het CBS produceerde in 2012
  ongeveer 5000 officiële publicaties en
  tabellen”
      Daar hebben we DATA voor nodig




Ngi, 17 Januari, Utrecht                   3
Twee soorten databronnen




        Primaire data       Secondaire data




                           Data van ‘anderen’
    Onze eigen enquêtes     - Administratieve bronnen
                            - ‘Nieuwe’ databronnen
Ngi, 17 Januari, Utrecht                                4
Wet voor het Centraal Bureau voor de
 Statistiek

• Het CBS zorgt ervoor dat “de verwerving van
  gegevens op zodanige wijze geschiedt dat de
  daaruit voortvloeiende administratieve lasten voor
  ondernemingen, vrije beroepsbeoefenaren (enz.)
  zo laag mogelijk zijn”
   • Door (her)gebruik van bestaande administratieve
     bronnen van overheidsinstellingen en door de overheid
     gefinancierde organisaties.
   • En door de mogelijkheden van nieuwe bronnen
     van informatie te bestuderen

 Ngi, 17 Januari, Utrecht                                    5
• Data, data everywhere!




  X

Ngi, 17 Januari, Utrecht   6
Ngi, 17 Januari, Utrecht   7
Wat is Big Data?
• Volgens Wikipedia
    Big data is a term applied to data sets whose size is beyond the ability
    of commonly used software tools to capture, manage, and process the
    data within a tolerable elapsed time. Big data sizes are a constantly
    moving target currently ranging from a few dozen terabytes to many
    petabytes of data in a single data set.

• Volgens Gartner
    In a 2001 research report and related conference presentations, then
    META Group (now Gartner) analyst, Doug Laney, defined data growth
    challenges (and opportunities) as being three-dimensional, i.e.
    increasing volume (amount of data), velocity (speed of data in/out), and
    variety (range of data types, sources). Gartner continues to use this
    model for describing big data

• Volgens een gebruiker
                                                                     These slogans
    Data so big that it becomes awkward to work with
                                                                      are so vague

Ngi, 17 Januari, Utrecht                                                         8
3 meest belangrijke eigenschappen van Big Data
                              Hoeveel
                               heid




         Variabiliteit /
         Complexiteit                   Snelheid


   Ngi, 17 Januari, Utrecht                        9
CBS en gegevens
Flinke verandering in gebruik beschikbare informatie voor
statistiekproductie:
    1. Enquêtegegevens (steeds minder)
              Per enquête tot max. 100.000 records per jaar

    2. Administratieve bronnen (steeds meer)
              Per bron tot 20 miljoen records per maand

    3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)
              Per bron zo’n ~80 miljoen records per dag


  Ngi, 17 Januari, Utrecht                                    10
CBS en gegevens (2)

•   Er is steeds meer en steeds vaker data beschikbaar:
    •     Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’
          (administratieve en Big data bronnen)
          •    Steeds grotere hoeveelheden data moeten snel gecontroleerd,
               verwerkt en geanalyseerd worden
          •    Steeds meer bronnen combineren
          •    Meer mogelijkheden voor snelle cijfers (‘real-time statistics’)
    •     Behoefte aan nieuwe methoden en tools
          1. Methoden die snel informatie uit grote hoeveelheden data kunnen
             extraheren. Denk aan visualisatie-methoden en data-, tekst- en
             stream-mining technieken (‘making Big Data small’), maar ook aan
             ‘High Performance Computing’
          2. Methoden om deze informatie in het statistisch proces te
             integreren. Zoals:grootschalig koppelen, macro/meso integratie,
             statistische methoden specifiek voor grote datasets

        Ngi, 17 Januari, Utrecht                                                 11
Nieuwe ontwikkelingen

•    Voorbeelden uit de praktijk
    1) Visualisatie-methoden om snel inzicht te krijgen
        in grote hoeveelheden gegevens
          a. Virtuele Volkstelling   (17 miljoen records)
          b. Polisadministratie      (20 miljoen records)

    2) Bevindingen van onderzoek ‘nieuwe’ bronnen
          c. Verkeerslusgegevens     (80 miljoen records)
          d. Mobiele telefonie       (~500 miljoen records)
          e. Sociale media           (12 milj. - 1 miljard records)


Ngi, 17 Januari, Utrecht                                              12
Voorbeeld a. Virtuele Volkstelling

     • Volkstelling is verplicht, eens in 10-jaar
     • In Nederland niet meer met vragenlijsten
          • Laatste traditionele volkstelling in 1971
     • Nu door (her)gebruik van reeds verzamelde
       informatie
          • Grootschalig koppelen van administratieve bronnen en
            enquêtegegevens
          • Controleren van resultaat
          • Hoe?
              • Met een visualisatiemethode: Tableplot


Ngi, 17 Januari, Utrecht                                           13
Uitleg maken Tableplot
1.         Bestand laden                             17 miljoen records
2.         Records sorteren op waarde                17 miljoen records
           van sleutelvariabele
       •          in dit geval leeftijd
3.         Samenvoegen records                       100 groepen (elk 170.000 records)
       •          Numerieke variabelen
              •      Bereken gemiddelde (gem. leeftijd)
       •          Categoriale variabelen
              •      Verhouding aanwezige categorieën (man vs vrouw)
4.         Plaatje ‘plotten’                         van geselecteerd aantal variabelen
              •      Kleurgebruik belangrijk          tot 12



     Ngi, 17 Januari, Utrecht                                                       14
Ngi, 17 Januari, Utrecht   Een tableplot van het testbestand
Data verwerking

     Ruwe (originele) data




                                Gecontroleerde data




           Uiteindelijke data


  Ngi, 17 Januari, Utrecht
Voorbeeld b: Polisadministratie

• Bestand met de financiële gegevens van
  alle banen, uitkeringen en pensioenen in
  Nederland
     • Verzameld door Belastingdienst en UWV
     • Elke maand 20 miljoen records

     • Hoe krijgen we inzicht in deze enorme bak
       data?
          • Met een visualisatie: heat map



Ngi, 17 Januari, Utrecht                           17
Heatmap: Leeftijd, ‘Inkomen’




Ngi, 17 Januari, Utrecht       18
In 3D heatmap: Leeftijd, Inkomen, Aantal
                                                Na ‘in
                                                       dikken
                                                              ’




           le e f
                    tijd
                                le e f
                                         tijd




  Ngi, 17 Januari, Utrecht                                    19
Voorbeeld c: Verkeerslusgegevens

• Verkeerslussen
    • Elke minuut (24/7) wordt het aantal
      passerende voertuigen op >10.000
      meetpunten in Nederland geteld
          • Totaal en in verschillende lengtecategorieën


    • Mooie bron om verkeer- en vervoer-
      statistieken mee te maken (en meer)
          • Veel data, zo’n 80 miljoen records per dag
                                                           Locaties


Ngi, 17 Januari, Utrecht                                          20
Aantal gedetecteerde voertuigen op één dag in NL




                             Tijd (uur)

  Ngi, 17 Januari, Utrecht                    21
Registratie activiteit verkeerslussen (eerste 10 min)




 Ngi, 17 Januari, Utrecht                          22
Correctie voor ontbrekende gegevens
 • Corrigeren in ‘blokken’ van 5 min.

            Voor                            Na




                 Totaal = ~ 295 miljoen   Totaal = ~ 330 miljoen (+ 12%)

Ngi, 17 Januari, Utrecht                                              23
- 300




                            - 200




                            - 100




                            -0




Ngi, 17 Januari, Utrecht   24
Totaal voertuigen gedurende de dag (snapshots)




  Ngi, 17 Januari, Utrecht                   25
Voor verschillende lengtecategorieën

       1 categorie         3 categoriën       5 categoriën

       Totaal              Totaal             Totaal
                           <= 5.6m            > 1.85 & <= 2.4m
                           > 5.6 & <= 12.2m   > 2.4 & <= 5.6m
                           > 12.2m            > 5.6 & <= 11.5m
                                              > 11.5 & <= 12.2m
                                              > 12.2m



 Kleine voertuigen <= 5.6 m
 Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m
 Grote voertuigen > 12.2 m


Ngi, 17 Januari, Utrecht                                          26
Kleine voertuigen




                           Tijd (uur)

Ngi, 17 Januari, Utrecht                27
Kleine & gemiddelde voertuigen




                           Tijd (uur)

Ngi, 17 Januari, Utrecht                28
Kleine, gemiddelde & grote voertuigen




                           Tijd (uur)

Ngi, 17 Januari, Utrecht                29
Op niveau van de afzonderlijke lussen




Ngi, 17 Januari, Utrecht                  30
Containeroverslag in Rotterdam

              !!! Echter !!!




                                         51.941,4.02836
                           Tijd (uur)

Ngi, 17 Januari, Utrecht                                  31
Voorbeeld d: Mobiele telefoon
• Vrijwel elke Nederlander heeft een ‘mobieltje’
      • Bijna altijd bij zich en staat vrijwel altijd aan
           • Steeds meer mensen hebben een smartphone!

• Ideale informatiebron om:
      • Met behulp van registraties van providers:
           • Verplaatsingsgedrag (‘Dag’-populatie)
           • Toerisme (nieuwe aanmeldingen op netwerk)
           • Mensenmassa’s (bijv. bij evenementen)
      • Als meetinstrument te gebruiken voor:
           •   Vragenlijsten (via App, SMS of browser)
           •   Maken van foto’s van producten, kassabonnen en streepjescodes
           •   Doorgeven exacte locatie (GPS)
           •   Etc.


Ngi, 17 Januari, Utrecht                                                       32
Verplaatsingsgedrag mobiele telefoons
                           Verplaatsingen van zeer
                           actieve mobiele gebruikers
                              - gedurende 14 dagen
                              - van één provider

                           Gebaseerd op:
                              - Bel- en SMS-activiteit
                                  meer dan 1x / dag
                              - Locatie telefoonmasten

                           Duidelijk selectief:
                              - Wel de grote steden
                              - Nauwelijks ‘t noorden
                                en Zeeland


Ngi, 17 Januari, Utrecht                                 33
Voorbeeld e: Sociale media

• Nederlanders zijn erg actief op sociale media
     • Bijna altijd bij zich en staat vrijwel altijd aan
          • Steeds meer mensen hebben een smartphone!

• Mogelijke informatiebron voor:
     • Welke onderwerpen zijn actueel:
          • Aantal berichten en sentiment hierover


     • Als meetinstrument te gebruiken voor:
          • .
                                                     Map by Eric Fischer (via Fast Company)



Ngi, 17 Januari, Utrecht                                                                      34
Sociale media: Nederlandstalige berichten
• Nederlanders zijn erg actief op sociale media
  • Mogelijke informatiebron:
           • Aantal berichten over en sentiment t.a.v. bepaalde
             onderwerpen (snel beschikbaar!)
           • Testen om het nut te controleren




                      Eerst zelf Twitter bestudeerd

Ngi, 17 Januari, Utrecht                                          35
Sociale media: Twitter onderwerpen
                                                  Onderwerpen Twitter

                      Werk            (5%)
                  Relaties
                    Wonen
                Economie
                     Milieu
                      Weer
                        ICT
              Gezondheid
 Thema's




                Onderwijs           (3%)
                    Politiek
                 Veiligheid
                   Vervoer
                   Vrije tijd                 (10%)
                  Vakantie
            Cultuur/events
                      Sport
                                           (7%)
                     Media
                   Overige                                                            (46%)

                                0           10        20          30    40       50

                                                       Bijdrage (%)          12 miljoen berichten

           Ngi, 17 Januari, Utrecht                                                           36
Sentiment in Sociale media

• Toegang tot Coosto database gekocht
  • > 1.5 miljard publiek beschikbare NL-berichten
       • Twitter, Facebook, Hyves, Webfora, Blogs etc.
  • Sentiment van elk bericht
       • Positief, negatief of neutraal
  • Interessante insteek
       • ‘Mood of the nation’ bekeken



  Ngi, 17 Januari, Utrecht                               37
Consumenten vertrouwen: t.a.v economie
CBS enquête data (maandcijfers)

           (pos – neg) als % of totaal




                                         Tijd

   Ngi, 17 Januari, Utrecht                     38
Afsluitend: CBS en ‘Big Data’
   • Geschikt maken voor statistisch gebruik is veel werk
      • Vooronderzoek nodig, kost veel tijd
      • Informatie-extractie nodig (‘making Big data small’)
      • Risico: ‘garbage in’    ‘garbage statistics out’
   • Traditionele aanpak schiet te kort
      • Het zijn echt geen steekproefgegevens meer
      • Betreft vaak een selectief maar groot deel van de populatie
      • Soms gewoon te veel data (teveel details)
      • Bij standaard analyses wordt alles significant!
   • Meer behoefte aan:
      • Visualisatiemethoden (om snel inzicht te krijgen)
      • Statistische methoden specifiek voor grote datasets (snel en
        robuust) en niet-lineaire schatters (datamining-achtig)
      • ‘Computational statistics’ (& snelle hardware)
      • Privacy-eisen worden hoger!

  Ngi, 17 Januari, Utrecht                                             43
Ngi, 17 Januari, Utrecht   De toekomst van het CBS?

More Related Content

Viewers also liked

International Open Data Day 2015 Bari
International Open Data Day 2015 BariInternational Open Data Day 2015 Bari
International Open Data Day 2015 Bari
Vincenzo Patruno
 
Data Journalism Lab 2014 - I prezzi del gasolio
Data Journalism Lab 2014 - I prezzi del gasolioData Journalism Lab 2014 - I prezzi del gasolio
Data Journalism Lab 2014 - I prezzi del gasolio
Vincenzo Patruno
 
cambiare i processi partecipativi con nuove forme di opengovernance, traspare...
cambiare i processi partecipativi con nuove forme di opengovernance, traspare...cambiare i processi partecipativi con nuove forme di opengovernance, traspare...
cambiare i processi partecipativi con nuove forme di opengovernance, traspare...
Vincenzo Patruno
 
L’innovazione dei dati, dei big data e degli open data
L’innovazione dei dati, dei big data e degli open dataL’innovazione dei dati, dei big data e degli open data
L’innovazione dei dati, dei big data e degli open data
Vincenzo Patruno
 
What does “BIG DATA” mean for official statistics?
What does “BIG DATA” mean for official statistics?What does “BIG DATA” mean for official statistics?
What does “BIG DATA” mean for official statistics?
Vincenzo Patruno
 
How To Create An Impacting Startup Name
How To Create An Impacting Startup NameHow To Create An Impacting Startup Name
How To Create An Impacting Startup Name
Tommaso Di Bartolo
 

Viewers also liked (6)

International Open Data Day 2015 Bari
International Open Data Day 2015 BariInternational Open Data Day 2015 Bari
International Open Data Day 2015 Bari
 
Data Journalism Lab 2014 - I prezzi del gasolio
Data Journalism Lab 2014 - I prezzi del gasolioData Journalism Lab 2014 - I prezzi del gasolio
Data Journalism Lab 2014 - I prezzi del gasolio
 
cambiare i processi partecipativi con nuove forme di opengovernance, traspare...
cambiare i processi partecipativi con nuove forme di opengovernance, traspare...cambiare i processi partecipativi con nuove forme di opengovernance, traspare...
cambiare i processi partecipativi con nuove forme di opengovernance, traspare...
 
L’innovazione dei dati, dei big data e degli open data
L’innovazione dei dati, dei big data e degli open dataL’innovazione dei dati, dei big data e degli open data
L’innovazione dei dati, dei big data e degli open data
 
What does “BIG DATA” mean for official statistics?
What does “BIG DATA” mean for official statistics?What does “BIG DATA” mean for official statistics?
What does “BIG DATA” mean for official statistics?
 
How To Create An Impacting Startup Name
How To Create An Impacting Startup NameHow To Create An Impacting Startup Name
How To Create An Impacting Startup Name
 

Similar to Big data en officiële statistiek

Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Erik Van Der Zee
 
gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhoven
AppsForGhent
 
Big data @ CBS
Big data @ CBSBig data @ CBS
Big data @ CBS
Piet J.H. Daas
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small data
NMITSymposium
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker
 
Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daas
Piet J.H. Daas
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie Leiedal
Rosseau Bart
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagent
Rosseau Bart
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRJasmina Tepic MA
 
Tussentijdse presentatie - 21/11/2012
Tussentijdse presentatie - 21/11/2012Tussentijdse presentatie - 21/11/2012
Tussentijdse presentatie - 21/11/2012StijnAdams
 
Open Data
Open Data Open Data
Open Data
saskiamenkel
 
Toepassing van Big Data in de Fysieke Leefomgeving
Toepassing van Big Data in de Fysieke LeefomgevingToepassing van Big Data in de Fysieke Leefomgeving
Toepassing van Big Data in de Fysieke Leefomgeving
Erik Van Der Zee
 
Presentatie Marije Stronks 11 Juni Holapress
Presentatie Marije Stronks   11 Juni HolapressPresentatie Marije Stronks   11 Juni Holapress
Presentatie Marije Stronks 11 Juni Holapress
Eric Heersink
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
VNG Realisatie
 
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieDoorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatie
herbold
 
Presentatie open spending symposium algemene rekenkamer (Ron van der Lans)
Presentatie open spending symposium algemene rekenkamer (Ron van der Lans)Presentatie open spending symposium algemene rekenkamer (Ron van der Lans)
Presentatie open spending symposium algemene rekenkamer (Ron van der Lans)Rudi Turksema
 
Presentatie symposium open spending algemene rekenkamer (Ron van der Lans)
Presentatie symposium open spending algemene rekenkamer (Ron van der Lans)Presentatie symposium open spending algemene rekenkamer (Ron van der Lans)
Presentatie symposium open spending algemene rekenkamer (Ron van der Lans)Rudi Turksema
 
Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)
Erik Van Der Zee
 
Big (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City InteroperabilityBig (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City Interoperability
Erik Van Der Zee
 
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
ScienceWorks
 

Similar to Big data en officiële statistiek (20)

Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
 
gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhoven
 
Big data @ CBS
Big data @ CBSBig data @ CBS
Big data @ CBS
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small data
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
 
Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daas
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie Leiedal
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagent
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
 
Tussentijdse presentatie - 21/11/2012
Tussentijdse presentatie - 21/11/2012Tussentijdse presentatie - 21/11/2012
Tussentijdse presentatie - 21/11/2012
 
Open Data
Open Data Open Data
Open Data
 
Toepassing van Big Data in de Fysieke Leefomgeving
Toepassing van Big Data in de Fysieke LeefomgevingToepassing van Big Data in de Fysieke Leefomgeving
Toepassing van Big Data in de Fysieke Leefomgeving
 
Presentatie Marije Stronks 11 Juni Holapress
Presentatie Marije Stronks   11 Juni HolapressPresentatie Marije Stronks   11 Juni Holapress
Presentatie Marije Stronks 11 Juni Holapress
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
 
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieDoorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatie
 
Presentatie open spending symposium algemene rekenkamer (Ron van der Lans)
Presentatie open spending symposium algemene rekenkamer (Ron van der Lans)Presentatie open spending symposium algemene rekenkamer (Ron van der Lans)
Presentatie open spending symposium algemene rekenkamer (Ron van der Lans)
 
Presentatie symposium open spending algemene rekenkamer (Ron van der Lans)
Presentatie symposium open spending algemene rekenkamer (Ron van der Lans)Presentatie symposium open spending algemene rekenkamer (Ron van der Lans)
Presentatie symposium open spending algemene rekenkamer (Ron van der Lans)
 
Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)Presentatie big data provincie Noord-Holland (concern dag)
Presentatie big data provincie Noord-Holland (concern dag)
 
Big (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City InteroperabilityBig (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City Interoperability
 
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
Marijn Fraanje - Congres 'Data gedreven Beleidsontwikkeling'
 

More from Piet J.H. Daas

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
Piet J.H. Daas
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
Piet J.H. Daas
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
Piet J.H. Daas
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statistics
Piet J.H. Daas
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
Piet J.H. Daas
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
Piet J.H. Daas
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
Piet J.H. Daas
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45
Piet J.H. Daas
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation Mannheim
Piet J.H. Daas
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media data
Piet J.H. Daas
 
Gebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekGebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiek
Piet J.H. Daas
 
Big Data @ CBS
Big Data @ CBSBig Data @ CBS
Big Data @ CBS
Piet J.H. Daas
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
Piet J.H. Daas
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Piet J.H. Daas
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
Piet J.H. Daas
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
Piet J.H. Daas
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statistics
Piet J.H. Daas
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big Data
Piet J.H. Daas
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidence
Piet J.H. Daas
 

More from Piet J.H. Daas (20)

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statistics
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation Mannheim
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media data
 
Gebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekGebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiek
 
Big Data @ CBS
Big Data @ CBSBig Data @ CBS
Big Data @ CBS
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statistics
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big Data
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidence
 

Big data en officiële statistiek

  • 1. Big Data en officiële statistiek Piet Daas (en vele collega’s)* Centraal Bureau voor de Statistiek *Martijn Tennekes, Edwin de Jonge, Alex Priem, Bart Buelens, Merijn van Pelt, Paul van den Hurk Ngi, 17 Jan. Utrecht
  • 2. Inhoud • Centraal Bureau voor de Statistiek • Publiceert officiële ‘cijfers’ • Data, Big Data en de CBS-wet • Er is steeds meer data beschikbaar • Overzicht van CBS-werk op dit terrein • Voorbeelden van recente resultaten v/h Big Data onderzoek Ngi, 17 Januari, Utrecht 2
  • 3. Inleiding “Het CBS produceerde in 2012 ongeveer 5000 officiële publicaties en tabellen” Daar hebben we DATA voor nodig Ngi, 17 Januari, Utrecht 3
  • 4. Twee soorten databronnen Primaire data Secondaire data Data van ‘anderen’ Onze eigen enquêtes - Administratieve bronnen - ‘Nieuwe’ databronnen Ngi, 17 Januari, Utrecht 4
  • 5. Wet voor het Centraal Bureau voor de Statistiek • Het CBS zorgt ervoor dat “de verwerving van gegevens op zodanige wijze geschiedt dat de daaruit voortvloeiende administratieve lasten voor ondernemingen, vrije beroepsbeoefenaren (enz.) zo laag mogelijk zijn” • Door (her)gebruik van bestaande administratieve bronnen van overheidsinstellingen en door de overheid gefinancierde organisaties. • En door de mogelijkheden van nieuwe bronnen van informatie te bestuderen Ngi, 17 Januari, Utrecht 5
  • 6. • Data, data everywhere! X Ngi, 17 Januari, Utrecht 6
  • 7. Ngi, 17 Januari, Utrecht 7
  • 8. Wat is Big Data? • Volgens Wikipedia Big data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target currently ranging from a few dozen terabytes to many petabytes of data in a single data set. • Volgens Gartner In a 2001 research report and related conference presentations, then META Group (now Gartner) analyst, Doug Laney, defined data growth challenges (and opportunities) as being three-dimensional, i.e. increasing volume (amount of data), velocity (speed of data in/out), and variety (range of data types, sources). Gartner continues to use this model for describing big data • Volgens een gebruiker These slogans Data so big that it becomes awkward to work with are so vague Ngi, 17 Januari, Utrecht 8
  • 9. 3 meest belangrijke eigenschappen van Big Data Hoeveel heid Variabiliteit / Complexiteit Snelheid Ngi, 17 Januari, Utrecht 9
  • 10. CBS en gegevens Flinke verandering in gebruik beschikbare informatie voor statistiekproductie: 1. Enquêtegegevens (steeds minder) Per enquête tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer) Per bron tot 20 miljoen records per maand 3. Ook steeds meer ‘nieuwe’ bronnen (Big Data) Per bron zo’n ~80 miljoen records per dag Ngi, 17 Januari, Utrecht 10
  • 11. CBS en gegevens (2) • Er is steeds meer en steeds vaker data beschikbaar: • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’ (administratieve en Big data bronnen) • Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden • Steeds meer bronnen combineren • Meer mogelijkheden voor snelle cijfers (‘real-time statistics’) • Behoefte aan nieuwe methoden en tools 1. Methoden die snel informatie uit grote hoeveelheden data kunnen extraheren. Denk aan visualisatie-methoden en data-, tekst- en stream-mining technieken (‘making Big Data small’), maar ook aan ‘High Performance Computing’ 2. Methoden om deze informatie in het statistisch proces te integreren. Zoals:grootschalig koppelen, macro/meso integratie, statistische methoden specifiek voor grote datasets Ngi, 17 Januari, Utrecht 11
  • 12. Nieuwe ontwikkelingen • Voorbeelden uit de praktijk 1) Visualisatie-methoden om snel inzicht te krijgen in grote hoeveelheden gegevens a. Virtuele Volkstelling (17 miljoen records) b. Polisadministratie (20 miljoen records) 2) Bevindingen van onderzoek ‘nieuwe’ bronnen c. Verkeerslusgegevens (80 miljoen records) d. Mobiele telefonie (~500 miljoen records) e. Sociale media (12 milj. - 1 miljard records) Ngi, 17 Januari, Utrecht 12
  • 13. Voorbeeld a. Virtuele Volkstelling • Volkstelling is verplicht, eens in 10-jaar • In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 • Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren van resultaat • Hoe? • Met een visualisatiemethode: Tableplot Ngi, 17 Januari, Utrecht 13
  • 14. Uitleg maken Tableplot 1. Bestand laden 17 miljoen records 2. Records sorteren op waarde 17 miljoen records van sleutelvariabele • in dit geval leeftijd 3. Samenvoegen records 100 groepen (elk 170.000 records) • Numerieke variabelen • Bereken gemiddelde (gem. leeftijd) • Categoriale variabelen • Verhouding aanwezige categorieën (man vs vrouw) 4. Plaatje ‘plotten’ van geselecteerd aantal variabelen • Kleurgebruik belangrijk tot 12 Ngi, 17 Januari, Utrecht 14
  • 15. Ngi, 17 Januari, Utrecht Een tableplot van het testbestand
  • 16. Data verwerking Ruwe (originele) data Gecontroleerde data Uiteindelijke data Ngi, 17 Januari, Utrecht
  • 17. Voorbeeld b: Polisadministratie • Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland • Verzameld door Belastingdienst en UWV • Elke maand 20 miljoen records • Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat map Ngi, 17 Januari, Utrecht 17
  • 18. Heatmap: Leeftijd, ‘Inkomen’ Ngi, 17 Januari, Utrecht 18
  • 19. In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘in dikken ’ le e f tijd le e f tijd Ngi, 17 Januari, Utrecht 19
  • 20. Voorbeeld c: Verkeerslusgegevens • Verkeerslussen • Elke minuut (24/7) wordt het aantal passerende voertuigen op >10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën • Mooie bron om verkeer- en vervoer- statistieken mee te maken (en meer) • Veel data, zo’n 80 miljoen records per dag Locaties Ngi, 17 Januari, Utrecht 20
  • 21. Aantal gedetecteerde voertuigen op één dag in NL Tijd (uur) Ngi, 17 Januari, Utrecht 21
  • 22. Registratie activiteit verkeerslussen (eerste 10 min) Ngi, 17 Januari, Utrecht 22
  • 23. Correctie voor ontbrekende gegevens • Corrigeren in ‘blokken’ van 5 min. Voor Na Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%) Ngi, 17 Januari, Utrecht 23
  • 24. - 300 - 200 - 100 -0 Ngi, 17 Januari, Utrecht 24
  • 25. Totaal voertuigen gedurende de dag (snapshots) Ngi, 17 Januari, Utrecht 25
  • 26. Voor verschillende lengtecategorieën 1 categorie 3 categoriën 5 categoriën Totaal Totaal Totaal <= 5.6m > 1.85 & <= 2.4m > 5.6 & <= 12.2m > 2.4 & <= 5.6m > 12.2m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m Ngi, 17 Januari, Utrecht 26
  • 27. Kleine voertuigen Tijd (uur) Ngi, 17 Januari, Utrecht 27
  • 28. Kleine & gemiddelde voertuigen Tijd (uur) Ngi, 17 Januari, Utrecht 28
  • 29. Kleine, gemiddelde & grote voertuigen Tijd (uur) Ngi, 17 Januari, Utrecht 29
  • 30. Op niveau van de afzonderlijke lussen Ngi, 17 Januari, Utrecht 30
  • 31. Containeroverslag in Rotterdam !!! Echter !!! 51.941,4.02836 Tijd (uur) Ngi, 17 Januari, Utrecht 31
  • 32. Voorbeeld d: Mobiele telefoon • Vrijwel elke Nederlander heeft een ‘mobieltje’ • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! • Ideale informatiebron om: • Met behulp van registraties van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) • Als meetinstrument te gebruiken voor: • Vragenlijsten (via App, SMS of browser) • Maken van foto’s van producten, kassabonnen en streepjescodes • Doorgeven exacte locatie (GPS) • Etc. Ngi, 17 Januari, Utrecht 32
  • 33. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers - gedurende 14 dagen - van één provider Gebaseerd op: - Bel- en SMS-activiteit meer dan 1x / dag - Locatie telefoonmasten Duidelijk selectief: - Wel de grote steden - Nauwelijks ‘t noorden en Zeeland Ngi, 17 Januari, Utrecht 33
  • 34. Voorbeeld e: Sociale media • Nederlanders zijn erg actief op sociale media • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! • Mogelijke informatiebron voor: • Welke onderwerpen zijn actueel: • Aantal berichten en sentiment hierover • Als meetinstrument te gebruiken voor: • . Map by Eric Fischer (via Fast Company) Ngi, 17 Januari, Utrecht 34
  • 35. Sociale media: Nederlandstalige berichten • Nederlanders zijn erg actief op sociale media • Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om het nut te controleren Eerst zelf Twitter bestudeerd Ngi, 17 Januari, Utrecht 35
  • 36. Sociale media: Twitter onderwerpen Onderwerpen Twitter Werk (5%) Relaties Wonen Economie Milieu Weer ICT Gezondheid Thema's Onderwijs (3%) Politiek Veiligheid Vervoer Vrije tijd (10%) Vakantie Cultuur/events Sport (7%) Media Overige (46%) 0 10 20 30 40 50 Bijdrage (%) 12 miljoen berichten Ngi, 17 Januari, Utrecht 36
  • 37. Sentiment in Sociale media • Toegang tot Coosto database gekocht • > 1.5 miljard publiek beschikbare NL-berichten • Twitter, Facebook, Hyves, Webfora, Blogs etc. • Sentiment van elk bericht • Positief, negatief of neutraal • Interessante insteek • ‘Mood of the nation’ bekeken Ngi, 17 Januari, Utrecht 37
  • 38. Consumenten vertrouwen: t.a.v economie CBS enquête data (maandcijfers) (pos – neg) als % of totaal Tijd Ngi, 17 Januari, Utrecht 38
  • 39. Afsluitend: CBS en ‘Big Data’ • Geschikt maken voor statistisch gebruik is veel werk • Vooronderzoek nodig, kost veel tijd • Informatie-extractie nodig (‘making Big data small’) • Risico: ‘garbage in’ ‘garbage statistics out’ • Traditionele aanpak schiet te kort • Het zijn echt geen steekproefgegevens meer • Betreft vaak een selectief maar groot deel van de populatie • Soms gewoon te veel data (teveel details) • Bij standaard analyses wordt alles significant! • Meer behoefte aan: • Visualisatiemethoden (om snel inzicht te krijgen) • Statistische methoden specifiek voor grote datasets (snel en robuust) en niet-lineaire schatters (datamining-achtig) • ‘Computational statistics’ (& snelle hardware) • Privacy-eisen worden hoger! Ngi, 17 Januari, Utrecht 43
  • 40. Ngi, 17 Januari, Utrecht De toekomst van het CBS?