S.M. Iacus - Social Media, Big Data & Statistics

Social
Media,
Big
Data
&
Sta1s1cs

Voices from the Blogs
we capture the sentiment of the net

Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs

Cosa
si
intende
per
Big
Data?

35% della popolazione mondiale sul Web (raddoppiata tra il 2006 e il 2011)
il 72% di questi scrive e partecipa sui social media
500 milioni di tweet al giorno in tutto il mondo e oltre 500 milioni di account
15% della popolazione USA su Twitter, l’8% ogni giorno
10 milioni di tweet durante le ore dei dibattiti presidenziali Obama-Romney

!!!

Cosa
si
intende
per
Big
Data
in
Italia?

75% della popolazione italiana usa Internet
40% della popolazione italiana è attivo sui social media
20% parla di temi politici e sociali in rete
19 milioni di italiani accendono ad internet in mobilità mobile
400 mila tweet nella prima serata di Sanremo
4.7 milioni di account Twitter attivi settimanalmente

Quali
sﬁde

per
la
Sta1s1ca?

Cara<eris1che
dell’analisi
dei
Social
Media
dati geo-localizzati (Twitter)
analisi retrospettive (catturare l’opinione nel momento in cui
viene espressa)
analisi real-time (monitoraggio continuo dei temi di interesse)
velocità di esecuzione di analisi
raccolta di opinioni non sollecitate
analisi censuarie: si analizza l’intera popolazione di tweet
espressi su un particolare tema

popolazione sui social media non rappresentativa di quella
demografica
non si possono fare domande, si può solo ascoltare
se un tema non interessa i social, non si può indagare
analisi testuale, il linguaggio cambia a seconda dei temi

very Big data

Ogge<o
dell’analisi:
distribuzione
aggregata

Ciò
che
interessa
non
è
la
classiﬁcazione
dell’opinione
in
un

singolo
testo
ma
la
distribuzione
aggregata
delle
opinioni

Non
ci
interessa
l’ago
nel
pagliaio...

...ma
cara2erizzare
l’intero
pagliaio!

Problema
sta1s1co:
errore
di
classificazione

Anche
il
miglior
classificatore

sta1s1co
a<ribuisce
una

risposta
ad
un
testo
non
le<o

con
una
certa
probabilità
<
1

L’errore
di
missclassifica4on

sia
amplifica
quando
si

aggregano
le
s1me
anziché

ridursi

Risultato:
s1me
fortemente

distorte
e
con
alta
variabilità

Come
funziona
in
pra1ca?

Codiﬁca Stemming
manuale

Word:
Post
Cat Word:
nuclear fear
Word:
radiation
Word:
pollution
Word:
waste
Word:
economic

post#1
train set a favore 1 0 0 0 0 1

test set post#2
NA 1 0 0 0 1 0
train set post#3
contro 1 1 1 1 1 0
post#4
train set contro 1 1 1 1 1 0
train set post#5
a favore 1 0 1 0 0 1

... ... ... ... ... ... ... ...

test set post#1000
NA 1 0 0 0 0 1

Come
funziona
in
pra1ca?

Post Word: Word: Word: Word:
Di nuclear fear radiation pollution
Word:
waste
Word:
economic

post#1
a favore 1 0 0 0 0 1

Di = “a favore” Si = (1,0,0,0,0,1)

Goal: stima della distribuzione P(D)
40%
0,4
30%
0,3
20%
0,2
10%
0,1
test set
0
a favore ok, ma ho paura contrario contrario, ma economico

Come
funziona
in
pra1ca?

Approccio
sta1s1co
classico

goal train & test train+test

P(D) = P(D|S) * P(S)
modello
sta1s1co
classico distribuzione
degli
stem
produce
missclassiﬁca1on

S1m
e
dis
alta
t
varia orte
bilità

test set

Come
funziona
in
pra1ca?

Approccio
sta1s1co
innova1vo
(King&Hopkins,
2010)
train+test train goal

P(S) = P(S|D) * P(D)
-1
P(S|D) * P(S) = P(D)

ed ecco
il goal

test set
Semplice
quanto
inver1re
una
matrice
Nessun
problema
di
Big
Data

Accorgimen1
necessari

U1lizzare
tecniche
supervised,
cioè
con
codificatori
umani

NO:
dizionari
ontologici
NO:
pure
machine
learning Why human and not
ontological dictionaries?
๏ “What a nice rip-off” (“che bella fregatura”)

50% positive & 50% negative

Semantic rules do work ? =
misclassification

๏ Language evolves continuously: one cannot code all 100% negative
=
possible semantic rules unless reading the posts !!! no misclassification

“horses and
??? bayonets” ?

ironic !
Guardare
ai
da1

Guardare
nei
da1

Soluzione:
l’approccio
di
Voices
from
the
Blogs
Screening
(di cosa parlano i testi?) Fase di
Crawler codiﬁca

Analisi
Statistica
Stemming

Esempio1:
Monitoraggio
con1nuo
di
Twi<er-‐Felicità
49
Milioni
di
tweet
in
12
mesi,
media
di
130mila
a
secmana

Esempio2:
Analisi
retrospecva
geolocalizzata
5,8
Milioni
di
tweet
in
12
mesi
su
5
paesi
in
5
lingue
Italy on Spain on
Germany on Mario Monti Mariano Rajoy
Angela Merkel time frame

Periodo

5.823.373 october 2011
total september 2012
tweets
analyzed o<.
2011-‐o<.2012
5
Popularity: 44% 5 diff countrie
erent s Popularity: 36%
Popularity: 34% 430.945 posts - Males: 59% langu
ages 2.018.509 posts - Males: 69%
123.887 posts - Males: 81%

France on
UK on Monti Merkel Hollande Rajoy Cameron
François Hollande
David Cameron 50

Popularity: 32% Popularity: 27%
1.539.921 posts - Males: 72% 1.710.111 posts - Males: 65%
40

Monti Merkel Hollande Rajoy Cameron

% di favorevoli
Popularity
numero di post in scala logaritmica

10000
Number of tweets - log scale

30

100

20

Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12
Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12 Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12
Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12

Esempio3:
Analisi
retrospecva
geolocalizzata
2,4
Milioni
di
tweet,
Gen-‐Ago
2012,
analisi
su
Europa
a
15
0.55
Euro Sentiment
2.413.971 Tweet
0.50
15 European Countries

Euroscetticismo
January - August 2012 21% 33%
0.45

0.40
44%
16% 15% 54% 0.35

51% 23% Eurobarometro
0.30

e
36%
p
47% ro
Eu
60%
41% 0.25
Correlation = 0.55
Belgium

45% 40% 37% 50%0.20
France
Netherlands

Euro Sentiment on Twitter Portugal Denmark
0.15
Italy
40% Spain
Luxemburg
Greece Austria

30% Finland

Sweden
Germany
20%
Ireland
UK
10%
10% 20% 30% 40% 50% 60%
Eurobarometer (source: European Commission)

Esempio4:
Previsioni
ele<orali
presidenziali
USA

50
Milioni
di
tweet
in
40
gg
#US2012 Presidential Elections
Follower:
Obama
16,8
M
Obama Romney

Romney
0,6
M
50,0%
#revenge/love
Distanza
guardando
alle

#Mourdock intenzioni
di
voto
molto

45,0% #Sandy minore
#who cares of “47%”

40,0%
#Benghazi Da1
simili
a
quelli
dei

sondaggi
tradizionali

First Second Third ma
in
tempo
reale
debate debate debate
35,0% 28/9 30/9 2/10 4/10 6/10 8/10 10/10 12/10 14/10 16/10 18/10 20/10 22/10 24/10 26/10 28/10 30/10 1/11 3/11 5/11

La
rete
ampliﬁca
i

(“Other” & “Don’t know” omitted)
cambiamen1
di
opinione
e

an1cipa
le
espressioni
di

voto

Esempio4:
Previsioni
ele<orali
presidenziali
USA

Previsione: Obama +3,5%, Effettivo +2,8%

5 Nov, 24h ora italiana
Porta a Porta, Rai1

Sbagliati solo 2 stati, solo Nate Silver ci ha battuto!

Esempio5:
Fes1val
di
Sanremo
2013

Indovina1
2
vincitori
del
Fes1val

Esempio6:
Popolarità
dei
leader

Esempio7:
Elezioni
Poli1che
2013

E’
possibile
prevedere
la
propensione

al
voto
ascoltando
Twi<er?

Sì,
ma...

Esempio7:
Elezioni
Poli1che
2013

E’
possibile
prevedere
la
propensione

al
voto
ascoltando
Twi<er?

Sì,
ma...

AGCOM
blocca
lo
speciale

Elezioni
del
Corriere
della
Sera
che

mostra
l’analisi
di
VfB
poiché
il
dato
è

ritenuto
equiparabile
a
sondaggio
di

opinione

Conclusioni

La
società
è
cambiata
e
si
organizza
in
re1
virtuali
e
ﬁsiche

Siamo
sempre
più
connessi
in
rete
e
interconnessi

CATI
&
CAWI
sono
ormai
strumen1
supera1

I
campioni
“rappresenta1vi”
non
sono
più
tali
(tassi
di

risposta
a<orno
al
10%
e
ricampionamen1
anche
tramite

randomizzazione
dei
numeri
di
cellulare!!!)

L’analisi
dei
da1
provenien1
dai
social
network
è
oggi
uno

strumento
indispensabile
(ma
non
esclusivo)
per
la

conoscenza
ma
servono
tecniche
sta1s1che
adeguate

S.M. Iacus - Social Media, Big Data & Statistics

Recommended

Recommended

More Related Content

More from Istituto nazionale di statistica

More from Istituto nazionale di statistica (20)

S.M. Iacus - Social Media, Big Data & Statistics