Dr. Piet Daas (CBS) - Statistiek en grote data bestandenAlmereDataCapital
Presentatie van Dr. Piet Daas (CBS): 'Statistiek en grote data bestanden' tijdens het Big Data Analytics seminar 14 juni van Almere DataCapital in Almere.
Dr. Piet Daas (CBS) - Statistiek en grote data bestandenAlmereDataCapital
Presentatie van Dr. Piet Daas (CBS): 'Statistiek en grote data bestanden' tijdens het Big Data Analytics seminar 14 juni van Almere DataCapital in Almere.
What does “BIG DATA” mean for official statistics?Vincenzo Patruno
In our modern world more and more data are generated on the web and produced by sensors in the ever growing number of electronic devices surrounding us. The amount of data and the frequency at which they are produced have led to the concept of 'Big data'. Big data is characterized as data sets of increasing volume, velocity and variety; the 3 V's. Big data is often largely unstructured, meaning that it has no pre-defined data model and/or does not fit well into conventional relational databases.
Choosing a startup name is an important decision that will impact how people connect with the brand and the company's ability to get funding and recognition. The best way to choose a name is to brainstorm with others and come up with something short, simple, relevant, memorable and verb-able. After settling on a name, companies should secure the matching domain name and make sure the name properly conveys the brand.
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
Key-Note presentatie op het Big Data symposium voor gezamenlijke provincies op 13 april 2016, georganiseerd door Geonovum in samenwerking met het Provinciaal Platform GEO (PP-GEO).
In deze presentatie wordt een beknopt overzicht van Big Data. Het geeft een introductie van het begrip big data, en de relatie met andere begrippen als Smart Cities, Internet of Things, en Open Data. Daarnaast komen een aantal "kwesties" aan de orde die met big data verbonden zijn, zoals privacy & security, opleiding, standaarden en architectuur, en worden een aantal huidige toepassingen van Big Data binnen de Nederlandse overheid uitgelicht. De presentatie geeft ook een visie op hoe provincies een coördinerende en verbindende rol kunnen vervullen bij de ontwikkeling van Smart Provincies, en geeft aan hoe het Platform Making Sense for Society van Geonovum daarbij kan ondersteunen
Toepassing van Big Data in de Fysieke LeefomgevingErik Van Der Zee
Keynote presentatie over Big Data gerelateerd aan de Fysieke Leefomgeving op het Jong Leefomgeving mini symposium over Big Data op 19 mei 2016. De centrale vraag van deze middag luidt "Wat is de impact van Big Data op het werkveld van de fysieke leefomgeving?". Dit mini symposium is een initiatief van het Ministerie van Infrastructuur en Milieu, TNO en Netwerk Jong Leefomgeving
Doorbraakproject open geodata, grondstof voor groei en innovatieherbold
Het kabinet Rutte II zet in op het gebruik van ICT als middel om de economie te stimuleren en de concurrentiepositie van Nederland te verbeteren. Hiervoor zijn 10 doorbraakprojecten gedefinieerd die zich richten op het vergroten van gebruik en kennis van ICT. Deze projecten versterken het nationale ICT-beleid zoals dat is vastgelegd in de Digitale Agenda en worden uitgevoerd in een samenwerking tussen overheid, onderzoek & wetenschap en het bedrijfsleven. Het doorbraakproject "Open (geo)data als grondstof voor groei en innovatie" richt zich op het op gang brengen van het gebruik van de Open Data en het wegnemen van belemmeringen die ondernemers ondervinden in het gebruiken van Open Data van de Nederlandse overheid. Het project kiest hierbij nadrukkelijk het perspectief van de vraag en zal vanuit die positie belemmeringen zoals privacy, bestuurlijke ambitie en de dynamiek markt/overheid agenderen. Het op gang brengen van de vraag zal gedaan worden door het organiseren van een aantal sectorgerichte Open Data estafettebijeenkomsten die maatschappelijke vraag, ondernemers die toepassingen ontwikkelen en aanbieders van open data bij elkaar brengt.
What does “BIG DATA” mean for official statistics?Vincenzo Patruno
In our modern world more and more data are generated on the web and produced by sensors in the ever growing number of electronic devices surrounding us. The amount of data and the frequency at which they are produced have led to the concept of 'Big data'. Big data is characterized as data sets of increasing volume, velocity and variety; the 3 V's. Big data is often largely unstructured, meaning that it has no pre-defined data model and/or does not fit well into conventional relational databases.
Choosing a startup name is an important decision that will impact how people connect with the brand and the company's ability to get funding and recognition. The best way to choose a name is to brainstorm with others and come up with something short, simple, relevant, memorable and verb-able. After settling on a name, companies should secure the matching domain name and make sure the name properly conveys the brand.
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
Key-Note presentatie op het Big Data symposium voor gezamenlijke provincies op 13 april 2016, georganiseerd door Geonovum in samenwerking met het Provinciaal Platform GEO (PP-GEO).
In deze presentatie wordt een beknopt overzicht van Big Data. Het geeft een introductie van het begrip big data, en de relatie met andere begrippen als Smart Cities, Internet of Things, en Open Data. Daarnaast komen een aantal "kwesties" aan de orde die met big data verbonden zijn, zoals privacy & security, opleiding, standaarden en architectuur, en worden een aantal huidige toepassingen van Big Data binnen de Nederlandse overheid uitgelicht. De presentatie geeft ook een visie op hoe provincies een coördinerende en verbindende rol kunnen vervullen bij de ontwikkeling van Smart Provincies, en geeft aan hoe het Platform Making Sense for Society van Geonovum daarbij kan ondersteunen
Toepassing van Big Data in de Fysieke LeefomgevingErik Van Der Zee
Keynote presentatie over Big Data gerelateerd aan de Fysieke Leefomgeving op het Jong Leefomgeving mini symposium over Big Data op 19 mei 2016. De centrale vraag van deze middag luidt "Wat is de impact van Big Data op het werkveld van de fysieke leefomgeving?". Dit mini symposium is een initiatief van het Ministerie van Infrastructuur en Milieu, TNO en Netwerk Jong Leefomgeving
Doorbraakproject open geodata, grondstof voor groei en innovatieherbold
Het kabinet Rutte II zet in op het gebruik van ICT als middel om de economie te stimuleren en de concurrentiepositie van Nederland te verbeteren. Hiervoor zijn 10 doorbraakprojecten gedefinieerd die zich richten op het vergroten van gebruik en kennis van ICT. Deze projecten versterken het nationale ICT-beleid zoals dat is vastgelegd in de Digitale Agenda en worden uitgevoerd in een samenwerking tussen overheid, onderzoek & wetenschap en het bedrijfsleven. Het doorbraakproject "Open (geo)data als grondstof voor groei en innovatie" richt zich op het op gang brengen van het gebruik van de Open Data en het wegnemen van belemmeringen die ondernemers ondervinden in het gebruiken van Open Data van de Nederlandse overheid. Het project kiest hierbij nadrukkelijk het perspectief van de vraag en zal vanuit die positie belemmeringen zoals privacy, bestuurlijke ambitie en de dynamiek markt/overheid agenderen. Het op gang brengen van de vraag zal gedaan worden door het organiseren van een aantal sectorgerichte Open Data estafettebijeenkomsten die maatschappelijke vraag, ondernemers die toepassingen ontwikkelen en aanbieders van open data bij elkaar brengt.
Big (sensor) Data and Smart City InteroperabilityErik Van Der Zee
Presentation for the Programmaraad Geonovum 9 juni 2016 about Big (sensor) Data and Smart City interoperability. In this presentation I stress the importance of the usage of international IoT standaards such as OGC SensorThings to prevent re-inventing the wheel and vendor lock-in. OGC SensorThings API facilitates smooth integration between smart city systems, using a standardized data model for sensing and actuating. Ideas to connect SensorThings and existing spatial information models in the Netherlands like IMGEO (which contains definitions of assets in public spaces, that can become smart assets in the near future)
De presentatie van Marijn Fraanje, tijdens de parallelle sessie 'BOLD Cities' van het congres 'Data gedreven Beleidsontwikkeling' in Den Haag op 28 november 2017.
Big Data and official statistics with examples of their usePiet J.H. Daas
The document provides an overview of the work done by the Center for Big Data Statistics (CBDS) at Statistics Netherlands. It discusses several examples of using big data sources to produce official statistics:
1) Road sensor data was used to produce the first official big data-based statistics on traffic intensity and its correlation with GDP.
2) Mobile phone data was analyzed to produce statistics on mobility patterns, daytime population, and tourism.
3) AIS ship tracking data was analyzed to study ship movements and transhipment locations.
4) Web scraping and text analysis of company websites was used to identify innovative companies, including small companies not covered by traditional surveys.
5) Sentiment analysis and
ESSnet Big Data WP8 Methodology (+ Quality, +IT)Piet J.H. Daas
1. The documents discuss methodology, quality, and IT aspects of big data within the ESSnet Big Data project.
2. Key topics addressed include the big data processing lifecycle, metadata management challenges, and quality aspects like coverage, accuracy, and comparability over time.
3. Common themes that emerged across work packages include the need for a unified framework for data integration and metadata, and the value of shared software and training resources.
Piet Daas and Marco Puts from Statistics Netherlands presented on big data methods and techniques. They discussed the four phases of working with big data: collect, process, analyze, and disseminate. They provided examples of each phase using road sensor data to measure traffic, scraping company websites to identify innovative firms, and using aerial images to detect solar panels. They emphasized the need to preprocess and clean big data due to its noisy nature. When analyzing big data, they discussed dealing with imbalanced datasets, such as through oversampling rare cases. They concluded by showing examples of visualizing big data results as dot maps and animations.
Isi 2017 presentation on Big Data and biasPiet J.H. Daas
1) The document discusses three types of using big data in statistics: (1) combined with survey data, (2) from a single complete source, and (3) from a single incomplete source.
2) Examples of type 2 include road sensor traffic data and web-scraped price data. These sources completely cover their target populations.
3) Examples of type 3 include social media data and mobile phone data. Only part of the target population is included, so ways must be found to deal with the missing part, such as determining the characteristics of the included population.
Responsible Data Science at Statistics NetherlandsPiet J.H. Daas
Piet Daas presents on responsible data science at Statistics Netherlands and implications for big data research. Some key points:
- Statistics Netherlands uses a variety of administrative data and surveys in its Social Statistical Database to produce statistics, ensuring privacy through anonymization and access restrictions.
- The Center for Big Data Statistics aims to produce new real-time statistics using big data sources while reducing data collection burdens and advancing methodology. Challenges include a lack of established big data methods and ensuring transparency of models.
- Responsible data science principles of fairness, accuracy, confidentiality and transparency must be further developed to fully leverage big data's potential while preventing harms, such as through de-identification and model explainability.
CBS lecture at the opening of Data Science Campus of ONSPiet J.H. Daas
The document summarizes work done at the Center for Big Data Statistics, including case studies and methodological research. Some examples of projects are:
1) Visualizing income data in 2D and 3D heat maps showing relationships between age, income, and amount.
2) Analyzing road sensor data to show relationships between traffic intensity and GDP.
3) Tracking "ginger bread" product sales from scanner data around Saint Nicolas festivities.
4) Developing a social tension indicator using Twitter data.
5) Identifying web-only shops and innovative companies using web page archives.
1) Statistics Netherlands is working on several Big Data projects to produce new official statistics in a timely manner using large alternative data sources like road sensors.
2) Their Center for Big Data Statistics aims to reduce response burden, deepen methodological knowledge, and stimulate cooperation using an ecosystem of partners.
3) As a proof of concept, they have produced the first Big Data-based official statistic on regional traffic intensity using minute-level road sensor data from 20,000 sensors on Dutch highways. This required data cleaning, transformation, estimation techniques, and integrating skills from statistics, IT, and subject-matter expertise.
Extracting information from ' messy' social media dataPiet J.H. Daas
This document summarizes research conducted by Statistics Netherlands on using social media data for official statistics. It discusses (1) determining sentiment in social media and its correlation with consumer confidence surveys, (2) developing an initial social media-based (un)safety monitor, and (3) analyzing the composition of social media users to determine background characteristics like gender. Key findings include high correlation between sentiment and surveys, the ability to predict consumer confidence from sentiment, and developing accurate methods to classify user gender using multiple social media signals.
This document summarizes the experiences of Statistics Netherlands with big data research. It discusses two types of data - primary data collected through surveys and secondary data from administrative sources and big data. It provides examples of big data research conducted using road sensor data, mobile phone data, and social media data. Lessons learned include the need for skills in accessing and analyzing large datasets, dealing with noisy unstructured data, and addressing privacy and costs. Important future research topics mentioned are profiling units in big data, data editing at large scale, and data reduction techniques.
Profiling Big Data sources to assess their selectivityPiet J.H. Daas
This document discusses profiling Big Data sources to assess their selectivity. It analyzes a random sample of 1,000 Dutch Twitter users to determine gender selectivity. Several methods are used to infer gender from profile elements: (1) First names are analyzed using a Dutch name database, (2) Bios and tweets are examined for gendered language, (3) Pictures are processed with face recognition software. Overall results show first names provided the highest diagnostic odds ratio for determining gender, while profile pictures provided the lowest. The study aims to develop clever ways to combine these methods for more accurate gender profiling of social media users.
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyPiet J.H. Daas
This document discusses using road sensor data for official statistics in the Netherlands. It describes challenges around dealing with large volumes of data, creating historical time series, and ensuring accuracy. A statistical process is outlined that cleans, transforms, selects, estimates from and frames the raw road sensor data, which records over 230 million vehicle counts per day. Key steps include selecting only necessary variables from valid data on main routes, putting daily records together, cleaning using recursive Bayesian estimation and a hidden Markov model, and estimating traffic indices from the cleaned data.
Big Data @ CBS for Fontys students in EindhovenPiet J.H. Daas
This document summarizes the experiences of Statistics Netherlands with big data. It discusses two types of data - primary data from their own surveys and secondary data from other sources like administrative records and big data. It provides examples of exploratory big data studies conducted using road sensor data, mobile phone data, and social media data. It finds that combining IT skills with statistical methodology is important for working with big data. Skills in data science, machine learning, and extracting information from diverse sources like text and images are needed. The document also discusses lessons learned regarding the types of big data, accessing and analyzing large volumes of data, dealing with noisy and unstructured data, and moving beyond simple correlation.
Quality challenges in modernising business statisticsPiet J.H. Daas
This document discusses quality challenges in modernizing official business statistics due to two fundamental changes: commercialization of statistics and globalization. It notes these changes have resulted in different statistics being needed and different ways of producing statistics, using available administrative data, secondary sources, and modernizing survey methodology. It evaluates the qualities and disqualities of various data sources like surveys, administrative data, and big data. Finally, it tentatively concludes statistical systems need to develop new indicators and integrate multiple data sources using their individual qualities, while also modernizing business surveys. The goal is to update multi-source and mixed-mode strategies for producing official statistics.
This document discusses quality approaches for big data in statistics. It outlines limitations of established quality frameworks for big data, including population not being known, unbalanced data coverage, and unclear relevance of data sources. Options presented to address these limitations include deriving background information, using modeling approaches, and calibration or correlation studies. The document advocates that statistical organizations validate information from other big data producers, get to know big data sources, use big data for efficiency and early indicators, and create an environment conducive to innovative big data approaches.
Social media sentiment and consumer confidencePiet J.H. Daas
This document summarizes a workshop on using big data for forecasting and statistics. It discusses using social media sentiment data from over 3.5 billion Dutch messages to analyze consumer confidence. Sentiment is determined from words and averages sentiment per time period. Facebook sentiment most strongly correlates with later consumer confidence figures. Sentiment from the first half of the month best predicts the consumer confidence published around the 20th, indicating sentiment may rapidly forecast consumer attitudes. While units differ, social media sentiment seems to track the "mood of the nation" and could provide a rapid indicator of consumer confidence.
1. Big Data
en officiële statistiek
Piet Daas (en vele collega’s)*
Centraal Bureau voor de Statistiek
*Martijn Tennekes, Edwin de Jonge, Alex Priem, Bart Buelens, Merijn van Pelt, Paul van den Hurk
Ngi, 17 Jan. Utrecht
2. Inhoud
• Centraal Bureau voor de Statistiek
• Publiceert officiële ‘cijfers’
• Data, Big Data en de CBS-wet
• Er is steeds meer data beschikbaar
• Overzicht van CBS-werk op dit terrein
• Voorbeelden van recente resultaten v/h Big
Data onderzoek
Ngi, 17 Januari, Utrecht 2
3. Inleiding
“Het CBS produceerde in 2012
ongeveer 5000 officiële publicaties en
tabellen”
Daar hebben we DATA voor nodig
Ngi, 17 Januari, Utrecht 3
4. Twee soorten databronnen
Primaire data Secondaire data
Data van ‘anderen’
Onze eigen enquêtes - Administratieve bronnen
- ‘Nieuwe’ databronnen
Ngi, 17 Januari, Utrecht 4
5. Wet voor het Centraal Bureau voor de
Statistiek
• Het CBS zorgt ervoor dat “de verwerving van
gegevens op zodanige wijze geschiedt dat de
daaruit voortvloeiende administratieve lasten voor
ondernemingen, vrije beroepsbeoefenaren (enz.)
zo laag mogelijk zijn”
• Door (her)gebruik van bestaande administratieve
bronnen van overheidsinstellingen en door de overheid
gefinancierde organisaties.
• En door de mogelijkheden van nieuwe bronnen
van informatie te bestuderen
Ngi, 17 Januari, Utrecht 5
6. • Data, data everywhere!
X
Ngi, 17 Januari, Utrecht 6
8. Wat is Big Data?
• Volgens Wikipedia
Big data is a term applied to data sets whose size is beyond the ability
of commonly used software tools to capture, manage, and process the
data within a tolerable elapsed time. Big data sizes are a constantly
moving target currently ranging from a few dozen terabytes to many
petabytes of data in a single data set.
• Volgens Gartner
In a 2001 research report and related conference presentations, then
META Group (now Gartner) analyst, Doug Laney, defined data growth
challenges (and opportunities) as being three-dimensional, i.e.
increasing volume (amount of data), velocity (speed of data in/out), and
variety (range of data types, sources). Gartner continues to use this
model for describing big data
• Volgens een gebruiker
These slogans
Data so big that it becomes awkward to work with
are so vague
Ngi, 17 Januari, Utrecht 8
9. 3 meest belangrijke eigenschappen van Big Data
Hoeveel
heid
Variabiliteit /
Complexiteit Snelheid
Ngi, 17 Januari, Utrecht 9
10. CBS en gegevens
Flinke verandering in gebruik beschikbare informatie voor
statistiekproductie:
1. Enquêtegegevens (steeds minder)
Per enquête tot max. 100.000 records per jaar
2. Administratieve bronnen (steeds meer)
Per bron tot 20 miljoen records per maand
3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)
Per bron zo’n ~80 miljoen records per dag
Ngi, 17 Januari, Utrecht 10
11. CBS en gegevens (2)
• Er is steeds meer en steeds vaker data beschikbaar:
• Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’
(administratieve en Big data bronnen)
• Steeds grotere hoeveelheden data moeten snel gecontroleerd,
verwerkt en geanalyseerd worden
• Steeds meer bronnen combineren
• Meer mogelijkheden voor snelle cijfers (‘real-time statistics’)
• Behoefte aan nieuwe methoden en tools
1. Methoden die snel informatie uit grote hoeveelheden data kunnen
extraheren. Denk aan visualisatie-methoden en data-, tekst- en
stream-mining technieken (‘making Big Data small’), maar ook aan
‘High Performance Computing’
2. Methoden om deze informatie in het statistisch proces te
integreren. Zoals:grootschalig koppelen, macro/meso integratie,
statistische methoden specifiek voor grote datasets
Ngi, 17 Januari, Utrecht 11
12. Nieuwe ontwikkelingen
• Voorbeelden uit de praktijk
1) Visualisatie-methoden om snel inzicht te krijgen
in grote hoeveelheden gegevens
a. Virtuele Volkstelling (17 miljoen records)
b. Polisadministratie (20 miljoen records)
2) Bevindingen van onderzoek ‘nieuwe’ bronnen
c. Verkeerslusgegevens (80 miljoen records)
d. Mobiele telefonie (~500 miljoen records)
e. Sociale media (12 milj. - 1 miljard records)
Ngi, 17 Januari, Utrecht 12
13. Voorbeeld a. Virtuele Volkstelling
• Volkstelling is verplicht, eens in 10-jaar
• In Nederland niet meer met vragenlijsten
• Laatste traditionele volkstelling in 1971
• Nu door (her)gebruik van reeds verzamelde
informatie
• Grootschalig koppelen van administratieve bronnen en
enquêtegegevens
• Controleren van resultaat
• Hoe?
• Met een visualisatiemethode: Tableplot
Ngi, 17 Januari, Utrecht 13
14. Uitleg maken Tableplot
1. Bestand laden 17 miljoen records
2. Records sorteren op waarde 17 miljoen records
van sleutelvariabele
• in dit geval leeftijd
3. Samenvoegen records 100 groepen (elk 170.000 records)
• Numerieke variabelen
• Bereken gemiddelde (gem. leeftijd)
• Categoriale variabelen
• Verhouding aanwezige categorieën (man vs vrouw)
4. Plaatje ‘plotten’ van geselecteerd aantal variabelen
• Kleurgebruik belangrijk tot 12
Ngi, 17 Januari, Utrecht 14
16. Data verwerking
Ruwe (originele) data
Gecontroleerde data
Uiteindelijke data
Ngi, 17 Januari, Utrecht
17. Voorbeeld b: Polisadministratie
• Bestand met de financiële gegevens van
alle banen, uitkeringen en pensioenen in
Nederland
• Verzameld door Belastingdienst en UWV
• Elke maand 20 miljoen records
• Hoe krijgen we inzicht in deze enorme bak
data?
• Met een visualisatie: heat map
Ngi, 17 Januari, Utrecht 17
19. In 3D heatmap: Leeftijd, Inkomen, Aantal
Na ‘in
dikken
’
le e f
tijd
le e f
tijd
Ngi, 17 Januari, Utrecht 19
20. Voorbeeld c: Verkeerslusgegevens
• Verkeerslussen
• Elke minuut (24/7) wordt het aantal
passerende voertuigen op >10.000
meetpunten in Nederland geteld
• Totaal en in verschillende lengtecategorieën
• Mooie bron om verkeer- en vervoer-
statistieken mee te maken (en meer)
• Veel data, zo’n 80 miljoen records per dag
Locaties
Ngi, 17 Januari, Utrecht 20
23. Correctie voor ontbrekende gegevens
• Corrigeren in ‘blokken’ van 5 min.
Voor Na
Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%)
Ngi, 17 Januari, Utrecht 23
32. Voorbeeld d: Mobiele telefoon
• Vrijwel elke Nederlander heeft een ‘mobieltje’
• Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
• Ideale informatiebron om:
• Met behulp van registraties van providers:
• Verplaatsingsgedrag (‘Dag’-populatie)
• Toerisme (nieuwe aanmeldingen op netwerk)
• Mensenmassa’s (bijv. bij evenementen)
• Als meetinstrument te gebruiken voor:
• Vragenlijsten (via App, SMS of browser)
• Maken van foto’s van producten, kassabonnen en streepjescodes
• Doorgeven exacte locatie (GPS)
• Etc.
Ngi, 17 Januari, Utrecht 32
33. Verplaatsingsgedrag mobiele telefoons
Verplaatsingen van zeer
actieve mobiele gebruikers
- gedurende 14 dagen
- van één provider
Gebaseerd op:
- Bel- en SMS-activiteit
meer dan 1x / dag
- Locatie telefoonmasten
Duidelijk selectief:
- Wel de grote steden
- Nauwelijks ‘t noorden
en Zeeland
Ngi, 17 Januari, Utrecht 33
34. Voorbeeld e: Sociale media
• Nederlanders zijn erg actief op sociale media
• Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
• Mogelijke informatiebron voor:
• Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover
• Als meetinstrument te gebruiken voor:
• .
Map by Eric Fischer (via Fast Company)
Ngi, 17 Januari, Utrecht 34
35. Sociale media: Nederlandstalige berichten
• Nederlanders zijn erg actief op sociale media
• Mogelijke informatiebron:
• Aantal berichten over en sentiment t.a.v. bepaalde
onderwerpen (snel beschikbaar!)
• Testen om het nut te controleren
Eerst zelf Twitter bestudeerd
Ngi, 17 Januari, Utrecht 35
36. Sociale media: Twitter onderwerpen
Onderwerpen Twitter
Werk (5%)
Relaties
Wonen
Economie
Milieu
Weer
ICT
Gezondheid
Thema's
Onderwijs (3%)
Politiek
Veiligheid
Vervoer
Vrije tijd (10%)
Vakantie
Cultuur/events
Sport
(7%)
Media
Overige (46%)
0 10 20 30 40 50
Bijdrage (%) 12 miljoen berichten
Ngi, 17 Januari, Utrecht 36
37. Sentiment in Sociale media
• Toegang tot Coosto database gekocht
• > 1.5 miljard publiek beschikbare NL-berichten
• Twitter, Facebook, Hyves, Webfora, Blogs etc.
• Sentiment van elk bericht
• Positief, negatief of neutraal
• Interessante insteek
• ‘Mood of the nation’ bekeken
Ngi, 17 Januari, Utrecht 37
38. Consumenten vertrouwen: t.a.v economie
CBS enquête data (maandcijfers)
(pos – neg) als % of totaal
Tijd
Ngi, 17 Januari, Utrecht 38
39. Afsluitend: CBS en ‘Big Data’
• Geschikt maken voor statistisch gebruik is veel werk
• Vooronderzoek nodig, kost veel tijd
• Informatie-extractie nodig (‘making Big data small’)
• Risico: ‘garbage in’ ‘garbage statistics out’
• Traditionele aanpak schiet te kort
• Het zijn echt geen steekproefgegevens meer
• Betreft vaak een selectief maar groot deel van de populatie
• Soms gewoon te veel data (teveel details)
• Bij standaard analyses wordt alles significant!
• Meer behoefte aan:
• Visualisatiemethoden (om snel inzicht te krijgen)
• Statistische methoden specifiek voor grote datasets (snel en
robuust) en niet-lineaire schatters (datamining-achtig)
• ‘Computational statistics’ (& snelle hardware)
• Privacy-eisen worden hoger!
Ngi, 17 Januari, Utrecht 43