Big data en officiële statistiek

Big Data
en officiële statistiek

Piet Daas (en vele collega’s)*

Centraal Bureau voor de Statistiek

*Martijn Tennekes, Edwin de Jonge, Alex Priem, Bart Buelens, Merijn van Pelt, Paul van den Hurk

Ngi, 17 Jan. Utrecht

Inhoud

• Centraal Bureau voor de Statistiek
• Publiceert officiële ‘cijfers’
• Data, Big Data en de CBS-wet
• Er is steeds meer data beschikbaar
• Overzicht van CBS-werk op dit terrein
• Voorbeelden van recente resultaten v/h Big
Data onderzoek

Ngi, 17 Januari, Utrecht 2

Inleiding

“Het CBS produceerde in 2012
ongeveer 5000 officiële publicaties en
tabellen”
Daar hebben we DATA voor nodig


Twee soorten databronnen

Primaire data Secondaire data

Data van ‘anderen’
Onze eigen enquêtes - Administratieve bronnen
- ‘Nieuwe’ databronnen

Wet voor het Centraal Bureau voor de
Statistiek

• Het CBS zorgt ervoor dat “de verwerving van
gegevens op zodanige wijze geschiedt dat de
daaruit voortvloeiende administratieve lasten voor
ondernemingen, vrije beroepsbeoefenaren (enz.)
zo laag mogelijk zijn”
• Door (her)gebruik van bestaande administratieve
bronnen van overheidsinstellingen en door de overheid
gefinancierde organisaties.
• En door de mogelijkheden van nieuwe bronnen
van informatie te bestuderen


• Data, data everywhere!

X


Wat is Big Data?
• Volgens Wikipedia
Big data is a term applied to data sets whose size is beyond the ability
of commonly used software tools to capture, manage, and process the
data within a tolerable elapsed time. Big data sizes are a constantly
moving target currently ranging from a few dozen terabytes to many
petabytes of data in a single data set.

• Volgens Gartner
In a 2001 research report and related conference presentations, then
META Group (now Gartner) analyst, Doug Laney, defined data growth
challenges (and opportunities) as being three-dimensional, i.e.
increasing volume (amount of data), velocity (speed of data in/out), and
variety (range of data types, sources). Gartner continues to use this
model for describing big data

• Volgens een gebruiker
These slogans
Data so big that it becomes awkward to work with
are so vague


3 meest belangrijke eigenschappen van Big Data
Hoeveel
heid

Variabiliteit /
Complexiteit Snelheid


CBS en gegevens
Flinke verandering in gebruik beschikbare informatie voor
statistiekproductie:
1. Enquêtegegevens (steeds minder)
Per enquête tot max. 100.000 records per jaar

2. Administratieve bronnen (steeds meer)
Per bron tot 20 miljoen records per maand

3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)
Per bron zo’n ~80 miljoen records per dag


CBS en gegevens (2)

• Er is steeds meer en steeds vaker data beschikbaar:
• Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’
(administratieve en Big data bronnen)
• Steeds grotere hoeveelheden data moeten snel gecontroleerd,
verwerkt en geanalyseerd worden
• Steeds meer bronnen combineren
• Meer mogelijkheden voor snelle cijfers (‘real-time statistics’)
• Behoefte aan nieuwe methoden en tools
1. Methoden die snel informatie uit grote hoeveelheden data kunnen
extraheren. Denk aan visualisatie-methoden en data-, tekst- en
stream-mining technieken (‘making Big Data small’), maar ook aan
‘High Performance Computing’
2. Methoden om deze informatie in het statistisch proces te
integreren. Zoals:grootschalig koppelen, macro/meso integratie,
statistische methoden specifiek voor grote datasets


Nieuwe ontwikkelingen

• Voorbeelden uit de praktijk
1) Visualisatie-methoden om snel inzicht te krijgen
in grote hoeveelheden gegevens
a. Virtuele Volkstelling (17 miljoen records)
b. Polisadministratie (20 miljoen records)

2) Bevindingen van onderzoek ‘nieuwe’ bronnen
c. Verkeerslusgegevens (80 miljoen records)
d. Mobiele telefonie (~500 miljoen records)
e. Sociale media (12 milj. - 1 miljard records)


Voorbeeld a. Virtuele Volkstelling

• Volkstelling is verplicht, eens in 10-jaar
• In Nederland niet meer met vragenlijsten
• Laatste traditionele volkstelling in 1971
• Nu door (her)gebruik van reeds verzamelde
informatie
• Grootschalig koppelen van administratieve bronnen en
enquêtegegevens
• Controleren van resultaat
• Hoe?
• Met een visualisatiemethode: Tableplot


Uitleg maken Tableplot
1. Bestand laden 17 miljoen records
2. Records sorteren op waarde 17 miljoen records
van sleutelvariabele
• in dit geval leeftijd
3. Samenvoegen records 100 groepen (elk 170.000 records)
• Numerieke variabelen
• Bereken gemiddelde (gem. leeftijd)
• Categoriale variabelen
• Verhouding aanwezige categorieën (man vs vrouw)
4. Plaatje ‘plotten’ van geselecteerd aantal variabelen
• Kleurgebruik belangrijk tot 12


Ngi, 17 Januari, Utrecht Een tableplot van het testbestand

Data verwerking

Ruwe (originele) data

Gecontroleerde data

Uiteindelijke data

Ngi, 17 Januari, Utrecht

Voorbeeld b: Polisadministratie

• Bestand met de financiële gegevens van
alle banen, uitkeringen en pensioenen in
Nederland
• Verzameld door Belastingdienst en UWV
• Elke maand 20 miljoen records

• Hoe krijgen we inzicht in deze enorme bak
data?
• Met een visualisatie: heat map


Heatmap: Leeftijd, ‘Inkomen’


In 3D heatmap: Leeftijd, Inkomen, Aantal
Na ‘in
dikken
’

le e f
tijd
le e f
tijd


Voorbeeld c: Verkeerslusgegevens

• Verkeerslussen
• Elke minuut (24/7) wordt het aantal
passerende voertuigen op >10.000
meetpunten in Nederland geteld
• Totaal en in verschillende lengtecategorieën

• Mooie bron om verkeer- en vervoer-
statistieken mee te maken (en meer)
• Veel data, zo’n 80 miljoen records per dag
Locaties


Aantal gedetecteerde voertuigen op één dag in NL

Tijd (uur)


Registratie activiteit verkeerslussen (eerste 10 min)


Correctie voor ontbrekende gegevens
• Corrigeren in ‘blokken’ van 5 min.

Voor Na

Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%)


- 300

- 200

- 100

-0


Totaal voertuigen gedurende de dag (snapshots)


Voor verschillende lengtecategorieën

1 categorie 3 categoriën 5 categoriën

Totaal Totaal Totaal
<= 5.6m > 1.85 & <= 2.4m
> 5.6 & <= 12.2m > 2.4 & <= 5.6m
> 12.2m > 5.6 & <= 11.5m
> 11.5 & <= 12.2m
> 12.2m

Kleine voertuigen <= 5.6 m
Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m
Grote voertuigen > 12.2 m


Kleine voertuigen

Tijd (uur)


Kleine & gemiddelde voertuigen

Tijd (uur)


Kleine, gemiddelde & grote voertuigen

Tijd (uur)


Op niveau van de afzonderlijke lussen


Containeroverslag in Rotterdam

!!! Echter !!!

51.941,4.02836
Tijd (uur)


Voorbeeld d: Mobiele telefoon
• Vrijwel elke Nederlander heeft een ‘mobieltje’
• Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!

• Ideale informatiebron om:
• Met behulp van registraties van providers:
• Verplaatsingsgedrag (‘Dag’-populatie)
• Toerisme (nieuwe aanmeldingen op netwerk)
• Mensenmassa’s (bijv. bij evenementen)
• Als meetinstrument te gebruiken voor:
• Vragenlijsten (via App, SMS of browser)
• Maken van foto’s van producten, kassabonnen en streepjescodes
• Doorgeven exacte locatie (GPS)
• Etc.


Verplaatsingsgedrag mobiele telefoons
Verplaatsingen van zeer
actieve mobiele gebruikers
- gedurende 14 dagen
- van één provider

Gebaseerd op:
- Bel- en SMS-activiteit
meer dan 1x / dag
- Locatie telefoonmasten

Duidelijk selectief:
- Wel de grote steden
- Nauwelijks ‘t noorden
en Zeeland


Voorbeeld e: Sociale media

• Nederlanders zijn erg actief op sociale media
• Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!

• Mogelijke informatiebron voor:
• Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover

• Als meetinstrument te gebruiken voor:
• .
Map by Eric Fischer (via Fast Company)


Sociale media: Nederlandstalige berichten
• Nederlanders zijn erg actief op sociale media
• Mogelijke informatiebron:
• Aantal berichten over en sentiment t.a.v. bepaalde
onderwerpen (snel beschikbaar!)
• Testen om het nut te controleren

Eerst zelf Twitter bestudeerd


Sociale media: Twitter onderwerpen
Onderwerpen Twitter

Werk (5%)
Relaties
Wonen
Economie
Milieu
Weer
ICT
Gezondheid
Thema's

Onderwijs (3%)
Politiek
Veiligheid
Vervoer
Vrije tijd (10%)
Vakantie
Cultuur/events
Sport
(7%)
Media
Overige (46%)

0 10 20 30 40 50

Bijdrage (%) 12 miljoen berichten


Sentiment in Sociale media

• Toegang tot Coosto database gekocht
• > 1.5 miljard publiek beschikbare NL-berichten
• Twitter, Facebook, Hyves, Webfora, Blogs etc.
• Sentiment van elk bericht
• Positief, negatief of neutraal
• Interessante insteek
• ‘Mood of the nation’ bekeken


Consumenten vertrouwen: t.a.v economie
CBS enquête data (maandcijfers)

(pos – neg) als % of totaal

Tijd


Afsluitend: CBS en ‘Big Data’
• Geschikt maken voor statistisch gebruik is veel werk
• Vooronderzoek nodig, kost veel tijd
• Informatie-extractie nodig (‘making Big data small’)
• Risico: ‘garbage in’ ‘garbage statistics out’
• Traditionele aanpak schiet te kort
• Het zijn echt geen steekproefgegevens meer
• Betreft vaak een selectief maar groot deel van de populatie
• Soms gewoon te veel data (teveel details)
• Bij standaard analyses wordt alles significant!
• Meer behoefte aan:
• Visualisatiemethoden (om snel inzicht te krijgen)
• Statistische methoden specifiek voor grote datasets (snel en
robuust) en niet-lineaire schatters (datamining-achtig)
• ‘Computational statistics’ (& snelle hardware)
• Privacy-eisen worden hoger!


Ngi, 17 Januari, Utrecht De toekomst van het CBS?

Big data en officiële statistiek

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (6)

Similar to Big data en officiële statistiek

Similar to Big data en officiële statistiek (20)

More from Piet J.H. Daas

More from Piet J.H. Daas (20)

Big data en officiële statistiek