SlideShare a Scribd company logo

Gebruik van sociale media voor de officiële statistiek

Presentation for the NPSO

1 of 31
Gebruik van social media
voor de officiële statistiek:
Dr. Piet J.H. Daas
Senior-Methodoloog, Big Data onderzoek coördinator
en Marco Puts, Martijn Tennekes, Marco Paragini, ….
22 Sept., NPSO
Statistics
Netherlands
Een top-down (Big Data) aanpak
Overzicht
2
• Uitgangspunt
• Voorbeelden
• Rijp en groen door elkaar
• Afsluitende opmerkingen
Twee soorten data
Primaire data Secundaire data
Onze ‘eigen’ vragenlijsten
Data van ‘anderen’
- Administratieve bronnen
- Big Data
-zoals social media
CBS
3
Big Data onderzoek bij het CBS
– Exploratief, ‘data gedreven’
‐ Case studies:Verkeers’lussen’, Mobiele telefoon data, Sociale media
‐ Er is nog geen Big Data methodologie (werken we aan)
– Combinatie van IT, methodologie en inhoud (Data Science)
– Belangrijke onderwerpen voor de officiële statistiek
‐ Structurele toegang tot data krijgen
‐ Selectiviteit (representativiteit)
‐ Grote hoeveelheden data controleren en corrigeren
‐ Omvang data verminderen
(zonder informatieverlies)
4
5
Waarom social media?
– Nederlanders zijn erg actief op sociale media!
– Zo’n 70% volgens een recent onderzoek
– Snel beschikbaar
– Mogelijke bron van informatie over wat er leeft onder de
‘Nederlanders’ (actief op social media)
‐ Als aanvullende bron? Naast surveys en admin. data
– Zijn er nog meer mogelijkheden?
‐ Exploratief onderzoeken!
‐ lt
Map by Eric Fischer (via Fast Company)
Onderzoek naar social media op CBS
1. Relatie inhoudTwitter en thema’s CBS publicaties
2. Relatie sentiment in social media en consumenten
vertrouwen
3. ‘Meten’ andere emoties in social media berichten
4. Sociale samenhang enTwitter (in specifieke regio)
5. Selectiviteit: mogelijkheden ‘feature extractie’ van
Twitter
6

Recommended

Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daasPiet J.H. Daas
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media dataPiet J.H. Daas
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityPiet J.H. Daas
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation MannheimPiet J.H. Daas
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45Piet J.H. Daas
 
Sociale media voor specifieke doelgroepen 15 11-2011
Sociale media voor specifieke doelgroepen 15 11-2011Sociale media voor specifieke doelgroepen 15 11-2011
Sociale media voor specifieke doelgroepen 15 11-2011B Walburgh Schmidt
 
Social Media training voor Gemeenten Utrecht 31-10-13
Social Media training voor Gemeenten Utrecht 31-10-13Social Media training voor Gemeenten Utrecht 31-10-13
Social Media training voor Gemeenten Utrecht 31-10-13Herwin Wevers
 

More Related Content

Similar to Gebruik van sociale media voor de officiële statistiek

NL - Module 3- Using external Data
NL - Module 3- Using external Data NL - Module 3- Using external Data
NL - Module 3- Using external Data caniceconsulting
 
Social media conference - Sanne ten Tije
Social media conference - Sanne ten TijeSocial media conference - Sanne ten Tije
Social media conference - Sanne ten TijeOpening-up.eu
 
Opening up social media publiek Nederland
Opening up social media publiek NederlandOpening up social media publiek Nederland
Opening up social media publiek Nederlandsannetentije
 
Online Tools & Social Media (werkcollege 1)
Online Tools & Social Media (werkcollege 1)Online Tools & Social Media (werkcollege 1)
Online Tools & Social Media (werkcollege 1)Sumit Mehra
 
Sociale media factor van invloed op onrustsituaties
Sociale media factor van invloed op onrustsituatiesSociale media factor van invloed op onrustsituaties
Sociale media factor van invloed op onrustsituatiesTwittercrisis
 
Scriptie basslutter
Scriptie basslutterScriptie basslutter
Scriptie basslutterFrank Smilda
 
Scriptie basslutter
Scriptie basslutterScriptie basslutter
Scriptie basslutterFrank Smilda
 
Sociale media voor zorgbestuurders 3 feb 2012
Sociale media voor zorgbestuurders 3 feb 2012Sociale media voor zorgbestuurders 3 feb 2012
Sociale media voor zorgbestuurders 3 feb 2012Gitta Bartling
 
tam tam - patrick klerks - landschapsbeheer
tam tam - patrick klerks - landschapsbeheertam tam - patrick klerks - landschapsbeheer
tam tam - patrick klerks - landschapsbeheerPatrick Klerks
 
Sociale media in de opsporing Een verkennend onderzoek naar de mogelijkhede...
Sociale media in de opsporing   Een verkennend onderzoek naar de mogelijkhede...Sociale media in de opsporing   Een verkennend onderzoek naar de mogelijkhede...
Sociale media in de opsporing Een verkennend onderzoek naar de mogelijkhede...Twittercrisis
 
ROC Week van het ondernemen
ROC Week van het ondernemenROC Week van het ondernemen
ROC Week van het ondernemenBoth social
 
Sociale media; doorpakken (3 feb 2012)
Sociale media; doorpakken (3 feb 2012)Sociale media; doorpakken (3 feb 2012)
Sociale media; doorpakken (3 feb 2012)Gitta Bartling
 
Onderweg Naar Enschede 2.0 25 Aug 2009
Onderweg Naar Enschede 2.0 25 Aug 2009Onderweg Naar Enschede 2.0 25 Aug 2009
Onderweg Naar Enschede 2.0 25 Aug 2009Present Media
 
SWOCC Socialmediabelevingonderzoek
SWOCC SocialmediabelevingonderzoekSWOCC Socialmediabelevingonderzoek
SWOCC SocialmediabelevingonderzoekSWOCC
 
Sociale media in de eerste lijn kansloos of kansrijk agora 2013
Sociale media in de eerste lijn kansloos of kansrijk agora 2013Sociale media in de eerste lijn kansloos of kansrijk agora 2013
Sociale media in de eerste lijn kansloos of kansrijk agora 2013Raedelijn
 
Social media strategie regionale omroepen - Annewil Neervens
Social media strategie regionale omroepen - Annewil NeervensSocial media strategie regionale omroepen - Annewil Neervens
Social media strategie regionale omroepen - Annewil NeervensHave A Nice Day
 
Social media strategie regionale omroepen - Annewil Neervens
Social media strategie regionale omroepen - Annewil NeervensSocial media strategie regionale omroepen - Annewil Neervens
Social media strategie regionale omroepen - Annewil NeervensHave A Nice Day
 
Minor wonen: Onderzoek social media
Minor wonen: Onderzoek social media Minor wonen: Onderzoek social media
Minor wonen: Onderzoek social media BCsocialmedia1
 
Pioniers swot analyse sociale media Politie Gent
Pioniers swot analyse sociale media Politie GentPioniers swot analyse sociale media Politie Gent
Pioniers swot analyse sociale media Politie GentKim Covent
 

Similar to Gebruik van sociale media voor de officiële statistiek (20)

NL - Module 3- Using external Data
NL - Module 3- Using external Data NL - Module 3- Using external Data
NL - Module 3- Using external Data
 
Social media conference - Sanne ten Tije
Social media conference - Sanne ten TijeSocial media conference - Sanne ten Tije
Social media conference - Sanne ten Tije
 
Opening up social media publiek Nederland
Opening up social media publiek NederlandOpening up social media publiek Nederland
Opening up social media publiek Nederland
 
Online Tools & Social Media (werkcollege 1)
Online Tools & Social Media (werkcollege 1)Online Tools & Social Media (werkcollege 1)
Online Tools & Social Media (werkcollege 1)
 
Social media in politiek
Social media in politiekSocial media in politiek
Social media in politiek
 
Sociale media factor van invloed op onrustsituaties
Sociale media factor van invloed op onrustsituatiesSociale media factor van invloed op onrustsituaties
Sociale media factor van invloed op onrustsituaties
 
Scriptie basslutter
Scriptie basslutterScriptie basslutter
Scriptie basslutter
 
Scriptie basslutter
Scriptie basslutterScriptie basslutter
Scriptie basslutter
 
Sociale media voor zorgbestuurders 3 feb 2012
Sociale media voor zorgbestuurders 3 feb 2012Sociale media voor zorgbestuurders 3 feb 2012
Sociale media voor zorgbestuurders 3 feb 2012
 
tam tam - patrick klerks - landschapsbeheer
tam tam - patrick klerks - landschapsbeheertam tam - patrick klerks - landschapsbeheer
tam tam - patrick klerks - landschapsbeheer
 
Sociale media in de opsporing Een verkennend onderzoek naar de mogelijkhede...
Sociale media in de opsporing   Een verkennend onderzoek naar de mogelijkhede...Sociale media in de opsporing   Een verkennend onderzoek naar de mogelijkhede...
Sociale media in de opsporing Een verkennend onderzoek naar de mogelijkhede...
 
ROC Week van het ondernemen
ROC Week van het ondernemenROC Week van het ondernemen
ROC Week van het ondernemen
 
Sociale media; doorpakken (3 feb 2012)
Sociale media; doorpakken (3 feb 2012)Sociale media; doorpakken (3 feb 2012)
Sociale media; doorpakken (3 feb 2012)
 
Onderweg Naar Enschede 2.0 25 Aug 2009
Onderweg Naar Enschede 2.0 25 Aug 2009Onderweg Naar Enschede 2.0 25 Aug 2009
Onderweg Naar Enschede 2.0 25 Aug 2009
 
SWOCC Socialmediabelevingonderzoek
SWOCC SocialmediabelevingonderzoekSWOCC Socialmediabelevingonderzoek
SWOCC Socialmediabelevingonderzoek
 
Sociale media in de eerste lijn kansloos of kansrijk agora 2013
Sociale media in de eerste lijn kansloos of kansrijk agora 2013Sociale media in de eerste lijn kansloos of kansrijk agora 2013
Sociale media in de eerste lijn kansloos of kansrijk agora 2013
 
Social media strategie regionale omroepen - Annewil Neervens
Social media strategie regionale omroepen - Annewil NeervensSocial media strategie regionale omroepen - Annewil Neervens
Social media strategie regionale omroepen - Annewil Neervens
 
Social media strategie regionale omroepen - Annewil Neervens
Social media strategie regionale omroepen - Annewil NeervensSocial media strategie regionale omroepen - Annewil Neervens
Social media strategie regionale omroepen - Annewil Neervens
 
Minor wonen: Onderzoek social media
Minor wonen: Onderzoek social media Minor wonen: Onderzoek social media
Minor wonen: Onderzoek social media
 
Pioniers swot analyse sociale media Politie Gent
Pioniers swot analyse sociale media Politie GentPioniers swot analyse sociale media Politie Gent
Pioniers swot analyse sociale media Politie Gent
 

More from Piet J.H. Daas

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their usePiet J.H. Daas
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsPiet J.H. Daas
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)Piet J.H. Daas
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesPiet J.H. Daas
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statisticsPiet J.H. Daas
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasPiet J.H. Daas
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsPiet J.H. Daas
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSPiet J.H. Daas
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyPiet J.H. Daas
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenPiet J.H. Daas
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaPiet J.H. Daas
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statisticsPiet J.H. Daas
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big DataPiet J.H. Daas
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidencePiet J.H. Daas
 
Opportunities and methodological challenges of Big Data for official statist...
Opportunities and methodological challenges of  Big Data for official statist...Opportunities and methodological challenges of  Big Data for official statist...
Opportunities and methodological challenges of Big Data for official statist...Piet J.H. Daas
 
Strata Big data presentation
Strata Big data presentationStrata Big data presentation
Strata Big data presentationPiet J.H. Daas
 
Big Data, the Future of Statistics: Experiences at Statistics Netherlands
Big Data, the Future of Statistics: Experiences at Statistics NetherlandsBig Data, the Future of Statistics: Experiences at Statistics Netherlands
Big Data, the Future of Statistics: Experiences at Statistics NetherlandsPiet J.H. Daas
 
Bi dutch meeting data science
Bi dutch meeting data scienceBi dutch meeting data science
Bi dutch meeting data sciencePiet J.H. Daas
 

More from Piet J.H. Daas (20)

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statistics
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statistics
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big Data
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidence
 
Opportunities and methodological challenges of Big Data for official statist...
Opportunities and methodological challenges of  Big Data for official statist...Opportunities and methodological challenges of  Big Data for official statist...
Opportunities and methodological challenges of Big Data for official statist...
 
Big data @ CBS
Big data @ CBSBig data @ CBS
Big data @ CBS
 
Strata Big data presentation
Strata Big data presentationStrata Big data presentation
Strata Big data presentation
 
Big Data, the Future of Statistics: Experiences at Statistics Netherlands
Big Data, the Future of Statistics: Experiences at Statistics NetherlandsBig Data, the Future of Statistics: Experiences at Statistics Netherlands
Big Data, the Future of Statistics: Experiences at Statistics Netherlands
 
Big data Big impact?
Big data Big impact?Big data Big impact?
Big data Big impact?
 
Bi dutch meeting data science
Bi dutch meeting data scienceBi dutch meeting data science
Bi dutch meeting data science
 

Gebruik van sociale media voor de officiële statistiek

  • 1. Gebruik van social media voor de officiële statistiek: Dr. Piet J.H. Daas Senior-Methodoloog, Big Data onderzoek coördinator en Marco Puts, Martijn Tennekes, Marco Paragini, …. 22 Sept., NPSO Statistics Netherlands Een top-down (Big Data) aanpak
  • 2. Overzicht 2 • Uitgangspunt • Voorbeelden • Rijp en groen door elkaar • Afsluitende opmerkingen
  • 3. Twee soorten data Primaire data Secundaire data Onze ‘eigen’ vragenlijsten Data van ‘anderen’ - Administratieve bronnen - Big Data -zoals social media CBS 3
  • 4. Big Data onderzoek bij het CBS – Exploratief, ‘data gedreven’ ‐ Case studies:Verkeers’lussen’, Mobiele telefoon data, Sociale media ‐ Er is nog geen Big Data methodologie (werken we aan) – Combinatie van IT, methodologie en inhoud (Data Science) – Belangrijke onderwerpen voor de officiële statistiek ‐ Structurele toegang tot data krijgen ‐ Selectiviteit (representativiteit) ‐ Grote hoeveelheden data controleren en corrigeren ‐ Omvang data verminderen (zonder informatieverlies) 4
  • 5. 5 Waarom social media? – Nederlanders zijn erg actief op sociale media! – Zo’n 70% volgens een recent onderzoek – Snel beschikbaar – Mogelijke bron van informatie over wat er leeft onder de ‘Nederlanders’ (actief op social media) ‐ Als aanvullende bron? Naast surveys en admin. data – Zijn er nog meer mogelijkheden? ‐ Exploratief onderzoeken! ‐ lt Map by Eric Fischer (via Fast Company)
  • 6. Onderzoek naar social media op CBS 1. Relatie inhoudTwitter en thema’s CBS publicaties 2. Relatie sentiment in social media en consumenten vertrouwen 3. ‘Meten’ andere emoties in social media berichten 4. Sociale samenhang enTwitter (in specifieke regio) 5. Selectiviteit: mogelijkheden ‘feature extractie’ van Twitter 6
  • 7. Onderwerpen Twitter Bijdrage (%) 0 10 20 30 40 50 Thema's Overige Media Sport Cultuur/events Vakantie Vrije tijd Vervoer Veiligheid Politiek Onderwijs Gezondheid ICT Weer Milieu Economie Wonen Relaties Werk 1) Onderwerpen in NLTwitterberichten (46%) (10%) (7%) (3%) (5%) 12 miljoen berichten van 330.000 users met locatie in NL 7
  • 8. 8 2) Sentiment in NL Sociale media – De gegevens ‐ NL bedrijf dat continueALLE publieke Nederlandstalige sociale media berichten verzameld ‐ Dataset van meer dan 4 miljard berichten! • Vanaf 2010 tot heden • Zo’n 3-4 miljoen nieuwe berichten per dag – Over het bepalen van het sentiment ‐ ‘Bag of words’ aanpak • Lijst van NL-woorden en hun sentiment • Additionele lijst van sociale media specifieke ‘woorden’ (‘FAIL’, ‘LOL’, etc.) ‐ Overall score bepaald het uiteindelijke sentiment • Is positief, negatief of neutraal ‐ Gemiddelde sentiment per periode (dag / week / maand) • (#positief - #negatief)/#totaal * 100%
  • 9. Dag, week, maand sentiment 9
  • 11. Table 1. Social media messages properties for various platforms and their correlation with consumer confidence Correlation coefficient of Social media platform Number of social Number of messages as monthly sentiment index and media messages1 percentage of total (%) consumer confidence ( r )2 All platforms combined 3,153,002,327 100 0.75 0.78 Facebook 334,854,088 10.6 0.81* 0.85* Twitter 2,526,481,479 80.1 0.68 0.70 Hyves 45,182,025 1.4 0.50 0.58 News sites 56,027,686 1.8 0.37 0.26 Blogs 48,600,987 1.5 0.25 0.22 Google+ 644,039 0.02 -0.04 -0.09 Linkedin 565,811 0.02 -0.23 -0.25 Youtube 5,661,274 0.2 -0.37 -0.41 Forums 134,98,938 4.3 -0.45 -0.49 1 period covered June 2010 untill November 2013 2 confirmed by visual inspecting scatterplots and additional checks (see text) *cointegrated Platform specifieke resultaten 11
  • 12. Schematisch overzicht 12 Vorige maand Maand Consumenten Vertr. Publicatie datum (~20e) Social media sentiment Dag 1-7 Dag 8-14 Dag 15-21 Dag 22-28 Vorige maand Huidige maand Dag 1-7 Dag 8-14 Dag 15-21 Dag 22-28 Sentiment
  • 13. Resultaten verschillende perioden 13 Consumenten Vertr. Facebook Facebook Facebook + Twitter * Twitter 0.81* 0.84* 0.86* 0.85* 0.87* 0.89* 0.82 0.85 0.87 0.82* 0.85* 0.89* 0.79* 0.82* 0.84* 0.79 0.83 0.84 0.82* 0.86* 0.89* 0.79* 0.83* 0.87* 0.75* 0.80* 0.81* LOOCV resultaten*cointegratie
  • 14. Uiteindelijke resultaten 14 – Correlatie en cointegratie ‐ 1e ‘week’ van ConsumentenVertrouwen geeft meestal 70% respons ‐ Beste correlatie en cointegratie met het sentiment van de 2e week • Highest correlation 0.93* (all Facebook * specific word filteredTwitter) – Granger causaliteit ‐ Veranderingen in ConsumentenVertrouwen lopen voor op veranderingen in het Sociale media sentiment ‐ Voor alle combinaties! – Voorspellen? ‐ Iets beter dan ‘random chance’ ‐ Beste resultaat voor de 4e week v/d maand
  • 15. ‘Sentiment’ indicator voor NL (beta-versie) 15 Gebaseerd op het gemiddelde sentiment van publieke NL-talige Facebook enTwitter berichten
  • 16. 3) Basis emoties in social media 16 Enkele basis emoties Vreugde Verdriet Woede Angst Tederheid Opgewonden
  • 18. 4) Sociale samenhang en social media – Wat zijn de mogelijkheden van social media om sociale samenhang te bestuderen? – Studie naar een gemeente in Limburg ‐ Samen met Hans Schmeets – Verzamelen van actieveTwittergebruikers in die gemeente ‐ In totaal ~2000 accounts ‐ Locatie van de gebruikers (dorp) ‐ Onderlinge relatie bepaald (volgers/vrienden) ‐ Nog te doen: Onderwerpen tweets 18
  • 19. Eerste resultaten: netwerk van ‘vrienden’ 19
  • 20. 5) Selectiviteit: kenmerken Twitteraars – OpTwitter is slechts een selectie van alle Nederlanders actief – Willen we deze bron kunnen gebruiken dan moeten we meer van de gebruikers afweten – Dit kan o.a. door bepalen van (achtergrond)kenmerken – Zoals geslacht, leeftijd, inkomen, opleidingsniveau etc. – Wat zijn de mogelijkheden? ‐ Voor geslacht 20
  • 21. 21 1)Naam 2) Korte bio 3) Inhoud berichten 4) Foto
  • 22. Resultaten van een subset – Uit een lijst vanTwitter gebruikers (~330.000) – Een random sample van 1000 unieke id’s geselecteerd – Hiervan bleek: ‐ 844 profielen bestonden nog • 844 hadden een naam • 583 hadden een korte bio • 473 hadden ‘getweet’ • 804 hadden een ‘niet‐standaard’ foto • 409 Mannen (49%) • 282Vrouwen (33%) • 153 ‘Overige’ (18%) • bedrijven, organisaties, hond, katten, ‘bots’.. 22 StandaardTwitter foto
  • 23. Geslacht bepalen: 1) Voornaam 23 – Hebben de ‘Voornamenbank’ website gebruikt (Meertens instituut) – Score tussen 0 en 1 (vrouw – man); 676 v/d 844 (80%) namen kwamen voor – Onbekende namen -1 (vaak bedrijven/organisaties)
  • 24. 24 Geslacht bepalen: 2) Korte bio – Als er een korte bio omschrijving is ‐ Best wel wat mensen vermelden hun ‘positie’ in de familie • Mother, father, papa, mama, ‘son of’, etc. ‐ Soms zelfs hun beroep (‘studente’) ‐ Voor 155 v/d 583 (27%) was hun geslacht hieruit af te leiden ‐ Je moet zowel naar Nederlandse en Engels termen zoeken
  • 25. Geslacht bepalen: 3) Inhoud Tweets – Samen met Universiteit Twente (Dong Nguyen) – Machine learning aanpak die geslacht specifieke schrijfstijl kan herkennen ‐ Alleen Nederlandstalige berichten! ‐ 437 v/d 473 (92%) personen hadden tweets die bruikbaar waren
  • 26. Geslacht bepalen 4) Profiel foto – OpenCV software gebruikt om foto's te bewerken 1) Gezichten herkennen 2) Standaardiseren van gezichten (uitknippen, herschalen en roteren) 3) Gezichten classificeren a.d.h.v. geslacht - op 603 v/d 804 (75%) profiel foto’s werden 1 of meer gezichten herkend 1 2 3
  • 27. Geslacht bepalen: algemene resultaten 27 Diagnostic Odds Ratio = (TP/FN) / (FP/TN) random guessing log(DOR) = 0 ‐ Resultaten van meerdere methoden • Hoe combineer je die het best? • Ook rekening houden met efficiëntie v/d methode Diagnostic Odds Ratio (log) Voornaam 6.41 Korte bio 3.50 InhoudTweets 2.36 Foto (gezichten) 0.72
  • 28. Afsluitende opmerkingen – Social media is een erg lastige bron om te analyseren – Bevat veel ‘ruis’ – Social media is een secundaire bron ‐ Hierdoor moet je anders denken/werken • kwaliteit verbeteren (ruis onderdrukken, aggregeren) gebruik maken van de grote hoeveelheden aan data – Teksten en foto’s analyseren is een vak apart ‐ Zelf expertise opdoen & samenwerken – Interessante resultaten maar ‐ het is relatief nieuw terrein, dus nog veel uit te zoeken – We zien mogelijkheden voor de officiële statistiek maar ‐ Is het bureau er al aan toe? 28
  • 31. Bedankt voor u aandacht !@pietdaas