1. Social
Media,
Big
Data
&
Sta1s1cs
Voices from the Blogs
we capture the sentiment of the net
Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs
2. Cosa
si
intende
per
Big
Data?
35% della popolazione mondiale sul Web (raddoppiata tra il 2006 e il 2011)
il 72% di questi scrive e partecipa sui social media
500 milioni di tweet al giorno in tutto il mondo e oltre 500 milioni di account
15% della popolazione USA su Twitter, l’8% ogni giorno
10 milioni di tweet durante le ore dei dibattiti presidenziali Obama-Romney
!!!
3. Cosa
si
intende
per
Big
Data
in
Italia?
75% della popolazione italiana usa Internet
40% della popolazione italiana è attivo sui social media
20% parla di temi politici e sociali in rete
19 milioni di italiani accendono ad internet in mobilità mobile
400 mila tweet nella prima serata di Sanremo
4.7 milioni di account Twitter attivi settimanalmente
Quali
sfide
per
la
Sta1s1ca?
4. Cara<eris1che
dell’analisi
dei
Social
Media
dati geo-localizzati (Twitter)
analisi retrospettive (catturare l’opinione nel momento in cui
viene espressa)
analisi real-time (monitoraggio continuo dei temi di interesse)
velocità di esecuzione di analisi
raccolta di opinioni non sollecitate
analisi censuarie: si analizza l’intera popolazione di tweet
espressi su un particolare tema
popolazione sui social media non rappresentativa di quella
demografica
non si possono fare domande, si può solo ascoltare
se un tema non interessa i social, non si può indagare
analisi testuale, il linguaggio cambia a seconda dei temi
very Big data
5. Ogge<o
dell’analisi:
distribuzione
aggregata
Ciò
che
interessa
non
è
la
classificazione
dell’opinione
in
un
singolo
testo
ma
la
distribuzione
aggregata
delle
opinioni
Non
ci
interessa
l’ago
nel
pagliaio...
...ma
cara2erizzare
l’intero
pagliaio!
6. Problema
sta1s1co:
errore
di
classificazione
Anche
il
miglior
classificatore
sta1s1co
a<ribuisce
una
risposta
ad
un
testo
non
le<o
con
una
certa
probabilità
<
1
L’errore
di
missclassifica4on
sia
amplifica
quando
si
aggregano
le
s1me
anziché
ridursi
Risultato:
s1me
fortemente
distorte
e
con
alta
variabilità
7. Come
funziona
in
pra1ca?
Codifica Stemming
manuale
Word:
Post
Cat Word:
nuclear fear
Word:
radiation
Word:
pollution
Word:
waste
Word:
economic
post#1
train set a favore 1 0 0 0 0 1
test set post#2
NA 1 0 0 0 1 0
train set post#3
contro 1 1 1 1 1 0
post#4
train set contro 1 1 1 1 1 0
train set post#5
a favore 1 0 1 0 0 1
... ... ... ... ... ... ... ...
test set post#1000
NA 1 0 0 0 0 1
8. Come
funziona
in
pra1ca?
Post Word: Word: Word: Word:
Di nuclear fear radiation pollution
Word:
waste
Word:
economic
post#1
a favore 1 0 0 0 0 1
Di = “a favore” Si = (1,0,0,0,0,1)
Goal: stima della distribuzione P(D)
40%
0,4
30%
0,3
20%
0,2
10%
0,1
test set
0
a favore ok, ma ho paura contrario contrario, ma economico
9. Come
funziona
in
pra1ca?
Approccio
sta1s1co
classico
goal train & test train+test
P(D) = P(D|S) * P(S)
modello
sta1s1co
classico distribuzione
degli
stem
produce
missclassifica1on
S1m
e
dis
alta
t
varia orte
bilità
test set
10. Come
funziona
in
pra1ca?
Approccio
sta1s1co
innova1vo
(King&Hopkins,
2010)
train+test train goal
P(S) = P(S|D) * P(D)
-1
P(S|D) * P(S) = P(D)
ed ecco
il goal
test set
Semplice
quanto
inver1re
una
matrice
Nessun
problema
di
Big
Data
11. Accorgimen1
necessari
U1lizzare
tecniche
supervised,
cioè
con
codificatori
umani
NO:
dizionari
ontologici
NO:
pure
machine
learning Why human and not
ontological dictionaries?
๏ “What a nice rip-off” (“che bella fregatura”)
50% positive & 50% negative
Semantic rules do work ? =
misclassification
๏ Language evolves continuously: one cannot code all 100% negative
=
possible semantic rules unless reading the posts !!! no misclassification
“horses and
??? bayonets” ?
ironic !
Guardare
ai
da1
Guardare
nei
da1
12. Soluzione:
l’approccio
di
Voices
from
the
Blogs
Screening
(di cosa parlano i testi?) Fase di
Crawler codifica
Analisi
Statistica
Stemming
14. Esempio2:
Analisi
retrospecva
geolocalizzata
5,8
Milioni
di
tweet
in
12
mesi
su
5
paesi
in
5
lingue
Italy on Spain on
Germany on Mario Monti Mariano Rajoy
Angela Merkel time frame
Periodo
5.823.373 october 2011
total september 2012
tweets
analyzed o<.
2011-‐o<.2012
5
Popularity: 44% 5 diff countrie
erent s Popularity: 36%
Popularity: 34% 430.945 posts - Males: 59% langu
ages 2.018.509 posts - Males: 69%
123.887 posts - Males: 81%
France on
UK on Monti Merkel Hollande Rajoy Cameron
François Hollande
David Cameron 50
Popularity: 32% Popularity: 27%
1.539.921 posts - Males: 72% 1.710.111 posts - Males: 65%
40
Monti Merkel Hollande Rajoy Cameron
% di favorevoli
Popularity
numero di post in scala logaritmica
10000
Number of tweets - log scale
30
100
20
Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12
Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12 Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12
Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12
15. Esempio3:
Analisi
retrospecva
geolocalizzata
2,4
Milioni
di
tweet,
Gen-‐Ago
2012,
analisi
su
Europa
a
15
0.55
Euro Sentiment
2.413.971 Tweet
0.50
15 European Countries
Euroscetticismo
January - August 2012 21% 33%
0.45
0.40
44%
16% 15% 54% 0.35
51% 23% Eurobarometro
0.30
e
36%
p
47% ro
Eu
60%
41% 0.25
Correlation = 0.55
Belgium
45% 40% 37% 50%0.20
France
Netherlands
Euro Sentiment on Twitter Portugal Denmark
0.15
Italy
40% Spain
Luxemburg
Greece Austria
30% Finland
Sweden
Germany
20%
Ireland
UK
10%
10% 20% 30% 40% 50% 60%
Eurobarometer (source: European Commission)
16. Esempio4:
Previsioni
ele<orali
presidenziali
USA
50
Milioni
di
tweet
in
40
gg
#US2012 Presidential Elections
Follower:
Obama
16,8
M
Obama Romney
Romney
0,6
M
50,0%
#revenge/love
Distanza
guardando
alle
#Mourdock intenzioni
di
voto
molto
45,0% #Sandy minore
#who cares of “47%”
40,0%
#Benghazi Da1
simili
a
quelli
dei
sondaggi
tradizionali
First Second Third ma
in
tempo
reale
debate debate debate
35,0% 28/9 30/9 2/10 4/10 6/10 8/10 10/10 12/10 14/10 16/10 18/10 20/10 22/10 24/10 26/10 28/10 30/10 1/11 3/11 5/11
La
rete
amplifica
i
(“Other” & “Don’t know” omitted)
cambiamen1
di
opinione
e
an1cipa
le
espressioni
di
voto
17. Esempio4:
Previsioni
ele<orali
presidenziali
USA
Previsione: Obama +3,5%, Effettivo +2,8%
5 Nov, 24h ora italiana
Porta a Porta, Rai1
Sbagliati solo 2 stati, solo Nate Silver ci ha battuto!
21. Esempio7:
Elezioni
Poli1che
2013
E’
possibile
prevedere
la
propensione
al
voto
ascoltando
Twi<er?
Sì,
ma...
AGCOM
blocca
lo
speciale
Elezioni
del
Corriere
della
Sera
che
mostra
l’analisi
di
VfB
poiché
il
dato
è
ritenuto
equiparabile
a
sondaggio
di
opinione
22. Conclusioni
La
società
è
cambiata
e
si
organizza
in
re1
virtuali
e
fisiche
Siamo
sempre
più
connessi
in
rete
e
interconnessi
CATI
&
CAWI
sono
ormai
strumen1
supera1
I
campioni
“rappresenta1vi”
non
sono
più
tali
(tassi
di
risposta
a<orno
al
10%
e
ricampionamen1
anche
tramite
randomizzazione
dei
numeri
di
cellulare!!!)
L’analisi
dei
da1
provenien1
dai
social
network
è
oggi
uno
strumento
indispensabile
(ma
non
esclusivo)
per
la
conoscenza
ma
servono
tecniche
sta1s1che
adeguate