SlideShare a Scribd company logo
1 of 22
Download to read offline
Social	
  Media,	
  Big	
  Data	
  &	
  Sta1s1cs




                           Voices from the Blogs
                                      we capture the sentiment of the net


Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs
Cosa	
  si	
  intende	
  per	
  Big	
  Data?


 35% della popolazione mondiale sul Web (raddoppiata tra il 2006 e il 2011)
 il 72% di questi scrive e partecipa sui social media
 500 milioni di tweet al giorno in tutto il mondo e oltre 500 milioni di account
 15% della popolazione USA su Twitter, l’8% ogni giorno
 10 milioni di tweet durante le ore dei dibattiti presidenziali Obama-Romney




               !!!
Cosa	
  si	
  intende	
  per	
  Big	
  Data	
  in	
  Italia?


               75% della popolazione italiana usa Internet
               40% della popolazione italiana è attivo sui social media
               20% parla di temi politici e sociali in rete
               19 milioni di italiani accendono ad internet in mobilità mobile
               400 mila tweet nella prima serata di Sanremo
               4.7 milioni di account Twitter attivi settimanalmente




                                                Quali	
  sfide	
  
                                              per	
  la	
  Sta1s1ca?
Cara<eris1che	
  dell’analisi	
  dei	
  Social	
  Media
 dati geo-localizzati (Twitter)
 analisi retrospettive (catturare l’opinione nel momento in cui
 viene espressa)
 analisi real-time (monitoraggio continuo dei temi di interesse)
 velocità di esecuzione di analisi
 raccolta di opinioni non sollecitate
 analisi censuarie: si analizza l’intera popolazione di tweet
 espressi su un particolare tema



                    popolazione sui social media non rappresentativa di quella
                    demografica
                    non si possono fare domande, si può solo ascoltare
                    se un tema non interessa i social, non si può indagare
                    analisi testuale, il linguaggio cambia a seconda dei temi



                    very   Big          data
Ogge<o	
  dell’analisi:	
  distribuzione	
  aggregata

Ciò	
  che	
  interessa	
  non	
  è	
  la	
  classificazione	
  dell’opinione	
  in	
  un	
  
singolo	
  testo	
  ma	
  la	
  distribuzione	
  aggregata	
  delle	
  opinioni

 Non	
  ci	
  interessa	
  l’ago	
  nel	
  pagliaio...




                                      ...ma	
  cara2erizzare	
  l’intero	
  pagliaio!
Problema	
  sta1s1co:	
  errore	
  di	
  classificazione

Anche	
  il	
  miglior	
  classificatore	
  
sta1s1co	
  a<ribuisce	
  una	
  
risposta	
  ad	
  un	
  testo	
  non	
  le<o	
  
con	
  una	
  certa	
  probabilità	
  <	
  1

L’errore	
  di	
  missclassifica4on	
  
sia	
  amplifica	
  quando	
  si	
  
aggregano	
  le	
  s1me	
  anziché	
  
ridursi

Risultato:	
  s1me	
  fortemente	
  
distorte	
  e	
  con	
  alta	
  variabilità
Come	
  funziona	
  in	
  pra1ca?

                      Codifica                        Stemming
                      manuale



                                             Word:
              Post
                         Cat       Word:
                                   nuclear    fear
                                                      Word:
                                                     radiation
                                                                  Word:
                                                                 pollution
                                                                             Word:
                                                                             waste
                                                                                       Word:
                                                                                     economic

             post#1
train set               a favore     1        0         0           0         0         1

test set     post#2
                          NA         1        0         0           0         1         0
train set    post#3
                        contro       1        1         1           1         1         0
             post#4
train set               contro       1        1         1           1         1         0
train set    post#5
                        a favore     1        0         1           0         0         1

               ...         ...       ...      ...      ...         ...        ...      ...

test set    post#1000
                          NA         1        0         0           0         0         1
Come	
  funziona	
  in	
  pra1ca?

             Post               Word:       Word:        Word:           Word:
                       Di       nuclear      fear       radiation       pollution
                                                                                       Word:
                                                                                       waste
                                                                                                   Word:
                                                                                                 economic

            post#1
                     a favore     1           0            0                0           0            1



     Di = “a favore”                              Si = (1,0,0,0,0,1)

   Goal: stima della distribuzione P(D)
                                                                      40%
           0,4
                       30%
           0,3
                                           20%
           0,2
                                                                                               10%
           0,1
test set
            0
                     a favore         ok, ma ho paura               contrario       contrario, ma economico
Come	
  funziona	
  in	
  pra1ca?

Approccio	
  sta1s1co	
  classico

           goal             train & test                  train+test

     P(D) = P(D|S) * P(S)
                        modello	
  sta1s1co	
  classico    distribuzione	
  degli	
  stem
                        produce	
  missclassifica1on

                   S1m
                            e	
  dis
                  alta	
             t
                           varia orte
                                   bilità




test set
Come	
  funziona	
  in	
  pra1ca?

Approccio	
  sta1s1co	
  innova1vo	
  (King&Hopkins,	
  2010)
           train+test             train            goal

           P(S) = P(S|D) * P(D)
                        -1
     P(S|D) * P(S) = P(D)

                                                            ed ecco
                                                             il goal

test set
                        Semplice	
  quanto	
  inver1re	
  una	
  matrice
                        Nessun	
  problema	
  di	
  Big	
  Data
Accorgimen1	
  necessari

U1lizzare	
  tecniche	
  supervised,	
  cioè	
  con	
  codificatori	
  umani	
  
NO:	
  dizionari	
  ontologici
NO:	
  pure	
  machine	
  learning                Why human and not
                                                           ontological dictionaries?
                                                         ๏ “What a nice rip-off”    (“che bella fregatura”)

                                                                     50% positive & 50% negative

   Semantic rules do work ?                                                       =
                                                                          misclassification


๏ Language evolves continuously: one cannot code all                        100% negative
                                                                                   =
  possible semantic rules unless reading the posts !!!                    no misclassification

                                “horses and
             ???                bayonets” ?




             ironic !
                                                              Guardare	
  ai	
  da1

                                                              Guardare	
  nei	
  da1
Soluzione:	
  l’approccio	
  di	
  Voices	
  from	
  the	
  Blogs
                     Screening
                   (di cosa parlano i testi?)          Fase di
    Crawler                                            codifica




                                                       Analisi
                                                      Statistica
                     Stemming
Esempio1:	
  Monitoraggio	
  con1nuo	
  di	
  Twi<er-­‐Felicità
49	
  Milioni	
  di	
  tweet	
  in	
  12	
  mesi,	
  media	
  di	
  130mila	
  a	
  secmana
Esempio2:	
  Analisi	
  retrospecva	
  geolocalizzata
5,8	
  Milioni	
  di	
  tweet	
  in	
  12	
  mesi	
  su	
  5	
  paesi	
  in	
  5	
  lingue
                                                                                                      Italy on                                                                                   Spain on
    Germany on                                                                                       Mario Monti                                                                               Mariano Rajoy
   Angela Merkel                                                                                                                                      time frame

                                                                                                                                                                                                                                                       Periodo	
  
                               5.823.373                                                                                                            october 2011
                                  total                                                                                                            september 2012
                                 tweets
                                analyzed                                                                                                                                                                                                               o<.	
  2011-­‐o<.2012
                                                                                                                                                  5
                                                                                              Popularity: 44%                              5 diff countrie
                                                                                                                                                 erent       s                              Popularity: 36%
Popularity: 34%                                                                               430.945 posts - Males: 59%                               langu
                                                                                                                                                             ages                          2.018.509 posts - Males: 69%
123.887 posts - Males: 81%


                                                                                                                                                           France on
                                    UK on                                                                                                                                                                                                                        Monti   Merkel     Hollande   Rajoy    Cameron
                                                                                                                                                       François Hollande
                                David Cameron                                                                                                                                                                                      50




                              Popularity: 32%                                                                                                          Popularity: 27%
                             1.539.921 posts - Males: 72%                                                                                           1.710.111 posts - Males: 65%
                                                                                                                                                                                                                                   40

                                                                                                                Monti   Merkel     Hollande    Rajoy    Cameron


                                                                                                                                                                                                                 % di favorevoli
                                                                                                                                                                                                               Popularity
                                        numero di post in scala logaritmica




                                                                              10000
                                           Number of tweets - log scale




                                                                                                                                                                                                                                   30




                                                                               100




                                                                                                                                                                                                                                   20

                                                                                      Ott11   Nov11 Dic11    Gen12 Feb12 Mar12     Apr12 Mag12 Giu12 Lug12 Ago12           Set12   Ott12
                                                                                       Oct11 Nov11   Dec11   Jan12   Feb12 Mar12   Apr12   May12   Jun12 Jul12    Aug12   Sep12 Oct12                                                   Ott11   Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12                Ott12
                                                                                                                                                                                                                                        Oct11 Nov11   Dec11   Jan12   Feb12 Mar12   Apr12   May12   Jun12 Jul12   Aug12   Sep12 Oct12
Esempio3:	
  Analisi	
  retrospecva	
  geolocalizzata
2,4	
  Milioni	
  di	
  tweet,	
  Gen-­‐Ago	
  2012,	
  analisi	
  su	
  Europa	
  a	
  15
                                                                                                 0.55
      Euro Sentiment
     2.413.971 Tweet
                                                                                                 0.50
   15 European Countries


                                                                                                                  Euroscetticismo
   January - August 2012                   21%              33%
                                                                                                 0.45



                                                                                                 0.40
                                  44%
  16%       15%             54%                                                                  0.35

                           51%    23%            Eurobarometro
                                                                                                 0.30

                                                      e
                                          36%
                                                     p
                    47%                           ro
                                                 Eu
                                                                                              60%
                                    41%                                                          0.25
                                                                                                          Correlation = 0.55
                                                                                                                                                                                Belgium

 45%    40%                                           37%                                     50%0.20
                                                                                                                                        France
                                                                                                                                                                  Netherlands

                                                                  Euro Sentiment on Twitter                                                         Portugal                        Denmark
                                                                                                 0.15
                                                                                                                                                          Italy
                                                                                              40%                                           Spain
                                                                                                                                                                              Luxemburg
                                                                                                                               Greece                Austria

                                                                                              30%                                                                   Finland

                                                                                                                                                                   Sweden
                                                                                                                                            Germany
                                                                                              20%
                                                                                                                                  Ireland
                                                                                                                   UK
                                                                                              10%
                                                                                                    10%         20%            30%                   40%             50%                  60%
                                                                                                          Eurobarometer (source: European Commission)
Esempio4:	
  Previsioni	
  ele<orali	
  presidenziali	
  USA

                                                                                                                               50	
  Milioni	
  di	
  tweet	
  in	
  40	
  gg
                              #US2012 Presidential Elections
                                                                                                                               Follower:	
  Obama	
  16,8	
  M
                                         Obama                                   Romney
                                                                                                                               	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Romney	
  0,6	
  M
   50,0%
                                                                                                           #revenge/love
                                                                                                                               Distanza	
  guardando	
  alle	
  
                                                                                           #Mourdock                           intenzioni	
  di	
  voto	
  molto	
  
   45,0%                                                                                          #Sandy                       minore
 #who cares of “47%”

   40,0%
                                                                                             #Benghazi                         Da1	
  simili	
  a	
  quelli	
  dei	
  
                                                                                                                               sondaggi	
  tradizionali	
  
                          First                              Second               Third                                        ma	
  in	
  tempo	
  reale
                         debate                              debate               debate
   35,0%      28/9 30/9 2/10 4/10 6/10 8/10 10/10 12/10 14/10 16/10 18/10 20/10 22/10 24/10 26/10 28/10 30/10 1/11 3/11 5/11

                                                                                                                               La	
  rete	
  amplifica	
  i	
  
                           (“Other” & “Don’t know” omitted)
                                                                                                                               cambiamen1	
  di	
  opinione	
  e	
  
                                                                                                                               an1cipa	
  le	
  espressioni	
  di	
  
                                                                                                                               voto
Esempio4:	
  Previsioni	
  ele<orali	
  presidenziali	
  USA

Previsione: Obama +3,5%, Effettivo +2,8%




    5 Nov, 24h ora italiana
      Porta a Porta, Rai1




                      Sbagliati solo 2 stati, solo Nate Silver ci ha battuto!
Esempio5:	
  Fes1val	
  di	
  Sanremo	
  2013

           Indovina1	
  2	
  vincitori	
  del	
  Fes1val
Esempio6:	
  Popolarità	
  dei	
  leader
Esempio7:	
  Elezioni	
  Poli1che	
  2013


      E’	
  possibile	
  prevedere	
  la	
  propensione	
  
      al	
  voto	
  ascoltando	
  Twi<er?

      Sì,	
  ma...
Esempio7:	
  Elezioni	
  Poli1che	
  2013


      E’	
  possibile	
  prevedere	
  la	
  propensione	
  
      al	
  voto	
  ascoltando	
  Twi<er?

      Sì,	
  ma...	
  	
  AGCOM	
  blocca	
  lo	
  speciale	
  
      Elezioni	
  del	
  Corriere	
  della	
  Sera	
  che	
  
      mostra	
  l’analisi	
  di	
  VfB	
  poiché	
  il	
  dato	
  è	
  
      ritenuto	
  equiparabile	
  a	
  sondaggio	
  di	
  
      opinione
Conclusioni

La	
  società	
  è	
  cambiata	
  e	
  si	
  organizza	
  in	
  re1	
  virtuali	
  e	
  fisiche

Siamo	
  sempre	
  più	
  connessi	
  in	
  rete	
  e	
  interconnessi

CATI	
  &	
  CAWI	
  sono	
  ormai	
  strumen1	
  supera1

I	
  campioni	
  “rappresenta1vi”	
  non	
  sono	
  più	
  tali	
  (tassi	
  di	
  
risposta	
  a<orno	
  al	
  10%	
  e	
  ricampionamen1	
  anche	
  tramite	
  
randomizzazione	
  dei	
  numeri	
  di	
  cellulare!!!)

L’analisi	
  dei	
  da1	
  provenien1	
  dai	
  social	
  network	
  è	
  oggi	
  uno	
  
strumento	
  indispensabile	
  (ma	
  non	
  esclusivo)	
  per	
  la	
  
conoscenza	
  ma	
  servono	
  tecniche	
  sta1s1che	
  adeguate

More Related Content

More from Istituto nazionale di statistica

More from Istituto nazionale di statistica (20)

Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
14a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica1414a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica14
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 

S.M. Iacus - Social Media, Big Data & Statistics

  • 1. Social  Media,  Big  Data  &  Sta1s1cs Voices from the Blogs we capture the sentiment of the net Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs
  • 2. Cosa  si  intende  per  Big  Data? 35% della popolazione mondiale sul Web (raddoppiata tra il 2006 e il 2011) il 72% di questi scrive e partecipa sui social media 500 milioni di tweet al giorno in tutto il mondo e oltre 500 milioni di account 15% della popolazione USA su Twitter, l’8% ogni giorno 10 milioni di tweet durante le ore dei dibattiti presidenziali Obama-Romney !!!
  • 3. Cosa  si  intende  per  Big  Data  in  Italia? 75% della popolazione italiana usa Internet 40% della popolazione italiana è attivo sui social media 20% parla di temi politici e sociali in rete 19 milioni di italiani accendono ad internet in mobilità mobile 400 mila tweet nella prima serata di Sanremo 4.7 milioni di account Twitter attivi settimanalmente Quali  sfide   per  la  Sta1s1ca?
  • 4. Cara<eris1che  dell’analisi  dei  Social  Media dati geo-localizzati (Twitter) analisi retrospettive (catturare l’opinione nel momento in cui viene espressa) analisi real-time (monitoraggio continuo dei temi di interesse) velocità di esecuzione di analisi raccolta di opinioni non sollecitate analisi censuarie: si analizza l’intera popolazione di tweet espressi su un particolare tema popolazione sui social media non rappresentativa di quella demografica non si possono fare domande, si può solo ascoltare se un tema non interessa i social, non si può indagare analisi testuale, il linguaggio cambia a seconda dei temi very Big data
  • 5. Ogge<o  dell’analisi:  distribuzione  aggregata Ciò  che  interessa  non  è  la  classificazione  dell’opinione  in  un   singolo  testo  ma  la  distribuzione  aggregata  delle  opinioni Non  ci  interessa  l’ago  nel  pagliaio... ...ma  cara2erizzare  l’intero  pagliaio!
  • 6. Problema  sta1s1co:  errore  di  classificazione Anche  il  miglior  classificatore   sta1s1co  a<ribuisce  una   risposta  ad  un  testo  non  le<o   con  una  certa  probabilità  <  1 L’errore  di  missclassifica4on   sia  amplifica  quando  si   aggregano  le  s1me  anziché   ridursi Risultato:  s1me  fortemente   distorte  e  con  alta  variabilità
  • 7. Come  funziona  in  pra1ca? Codifica Stemming manuale Word: Post Cat Word: nuclear fear Word: radiation Word: pollution Word: waste Word: economic post#1 train set a favore 1 0 0 0 0 1 test set post#2 NA 1 0 0 0 1 0 train set post#3 contro 1 1 1 1 1 0 post#4 train set contro 1 1 1 1 1 0 train set post#5 a favore 1 0 1 0 0 1 ... ... ... ... ... ... ... ... test set post#1000 NA 1 0 0 0 0 1
  • 8. Come  funziona  in  pra1ca? Post Word: Word: Word: Word: Di nuclear fear radiation pollution Word: waste Word: economic post#1 a favore 1 0 0 0 0 1 Di = “a favore” Si = (1,0,0,0,0,1) Goal: stima della distribuzione P(D) 40% 0,4 30% 0,3 20% 0,2 10% 0,1 test set 0 a favore ok, ma ho paura contrario contrario, ma economico
  • 9. Come  funziona  in  pra1ca? Approccio  sta1s1co  classico goal train & test train+test P(D) = P(D|S) * P(S) modello  sta1s1co  classico distribuzione  degli  stem produce  missclassifica1on S1m e  dis alta   t varia orte bilità test set
  • 10. Come  funziona  in  pra1ca? Approccio  sta1s1co  innova1vo  (King&Hopkins,  2010) train+test train goal P(S) = P(S|D) * P(D) -1 P(S|D) * P(S) = P(D) ed ecco il goal test set Semplice  quanto  inver1re  una  matrice Nessun  problema  di  Big  Data
  • 11. Accorgimen1  necessari U1lizzare  tecniche  supervised,  cioè  con  codificatori  umani   NO:  dizionari  ontologici NO:  pure  machine  learning Why human and not ontological dictionaries? ๏ “What a nice rip-off” (“che bella fregatura”) 50% positive & 50% negative Semantic rules do work ? = misclassification ๏ Language evolves continuously: one cannot code all 100% negative = possible semantic rules unless reading the posts !!! no misclassification “horses and ??? bayonets” ? ironic ! Guardare  ai  da1 Guardare  nei  da1
  • 12. Soluzione:  l’approccio  di  Voices  from  the  Blogs Screening (di cosa parlano i testi?) Fase di Crawler codifica Analisi Statistica Stemming
  • 13. Esempio1:  Monitoraggio  con1nuo  di  Twi<er-­‐Felicità 49  Milioni  di  tweet  in  12  mesi,  media  di  130mila  a  secmana
  • 14. Esempio2:  Analisi  retrospecva  geolocalizzata 5,8  Milioni  di  tweet  in  12  mesi  su  5  paesi  in  5  lingue Italy on Spain on Germany on Mario Monti Mariano Rajoy Angela Merkel time frame Periodo   5.823.373 october 2011 total september 2012 tweets analyzed o<.  2011-­‐o<.2012 5 Popularity: 44% 5 diff countrie erent s Popularity: 36% Popularity: 34% 430.945 posts - Males: 59% langu ages 2.018.509 posts - Males: 69% 123.887 posts - Males: 81% France on UK on Monti Merkel Hollande Rajoy Cameron François Hollande David Cameron 50 Popularity: 32% Popularity: 27% 1.539.921 posts - Males: 72% 1.710.111 posts - Males: 65% 40 Monti Merkel Hollande Rajoy Cameron % di favorevoli Popularity numero di post in scala logaritmica 10000 Number of tweets - log scale 30 100 20 Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12 Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12 Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12 Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12
  • 15. Esempio3:  Analisi  retrospecva  geolocalizzata 2,4  Milioni  di  tweet,  Gen-­‐Ago  2012,  analisi  su  Europa  a  15 0.55 Euro Sentiment 2.413.971 Tweet 0.50 15 European Countries Euroscetticismo January - August 2012 21% 33% 0.45 0.40 44% 16% 15% 54% 0.35 51% 23% Eurobarometro 0.30 e 36% p 47% ro Eu 60% 41% 0.25 Correlation = 0.55 Belgium 45% 40% 37% 50%0.20 France Netherlands Euro Sentiment on Twitter Portugal Denmark 0.15 Italy 40% Spain Luxemburg Greece Austria 30% Finland Sweden Germany 20% Ireland UK 10% 10% 20% 30% 40% 50% 60% Eurobarometer (source: European Commission)
  • 16. Esempio4:  Previsioni  ele<orali  presidenziali  USA 50  Milioni  di  tweet  in  40  gg #US2012 Presidential Elections Follower:  Obama  16,8  M Obama Romney                                    Romney  0,6  M 50,0% #revenge/love Distanza  guardando  alle   #Mourdock intenzioni  di  voto  molto   45,0% #Sandy minore #who cares of “47%” 40,0% #Benghazi Da1  simili  a  quelli  dei   sondaggi  tradizionali   First Second Third ma  in  tempo  reale debate debate debate 35,0% 28/9 30/9 2/10 4/10 6/10 8/10 10/10 12/10 14/10 16/10 18/10 20/10 22/10 24/10 26/10 28/10 30/10 1/11 3/11 5/11 La  rete  amplifica  i   (“Other” & “Don’t know” omitted) cambiamen1  di  opinione  e   an1cipa  le  espressioni  di   voto
  • 17. Esempio4:  Previsioni  ele<orali  presidenziali  USA Previsione: Obama +3,5%, Effettivo +2,8% 5 Nov, 24h ora italiana Porta a Porta, Rai1 Sbagliati solo 2 stati, solo Nate Silver ci ha battuto!
  • 18. Esempio5:  Fes1val  di  Sanremo  2013 Indovina1  2  vincitori  del  Fes1val
  • 20. Esempio7:  Elezioni  Poli1che  2013 E’  possibile  prevedere  la  propensione   al  voto  ascoltando  Twi<er? Sì,  ma...
  • 21. Esempio7:  Elezioni  Poli1che  2013 E’  possibile  prevedere  la  propensione   al  voto  ascoltando  Twi<er? Sì,  ma...    AGCOM  blocca  lo  speciale   Elezioni  del  Corriere  della  Sera  che   mostra  l’analisi  di  VfB  poiché  il  dato  è   ritenuto  equiparabile  a  sondaggio  di   opinione
  • 22. Conclusioni La  società  è  cambiata  e  si  organizza  in  re1  virtuali  e  fisiche Siamo  sempre  più  connessi  in  rete  e  interconnessi CATI  &  CAWI  sono  ormai  strumen1  supera1 I  campioni  “rappresenta1vi”  non  sono  più  tali  (tassi  di   risposta  a<orno  al  10%  e  ricampionamen1  anche  tramite   randomizzazione  dei  numeri  di  cellulare!!!) L’analisi  dei  da1  provenien1  dai  social  network  è  oggi  uno   strumento  indispensabile  (ma  non  esclusivo)  per  la   conoscenza  ma  servono  tecniche  sta1s1che  adeguate