3. @estebanmoro
> Big Data, Better answers
Mejorar problemas que ya tenían respuesta
Gran escala, tiempo real (nowcasting/forecasting)
> Big data, Big new questions
Responder a problemas que no tenían respuesta
> Implicaciones/Problemas
6. @estebanmoro
Nowcasting/forecasting de desempleo
¿Qué comportamientos en las redes sociales reflejan el desempleo de una zona?
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.4040.4540.5040.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando En paro
Menor movilidad geográfica, más probabilidad de estar en paro
10km
7. @estebanmoro
Nowcasting/forecasting de desempleo
¿Qué comportamientos en las redes sociales reflejan el desempleo de una zona?
http://portal.uc3m.es/portal/page/portal/actualidad_cientifica/noticias/conversacion_politica_en_twitter
Torrijos, 26% paro
Sobrarbe, 7% paro
2
4
6
8
5 10 15 20
hour
fraction
0 4 8 12 16 20
2%
Fraccióndetweets
4%
6%
8%
Hora
8. @estebanmoro
Nowcasting/forecasting de desempleo
¿Qué comportamientos en las redes sociales reflejan el desempleo de una zona?
http://portal.uc3m.es/portal/page/portal/actualidad_cientifica/noticias/conversacion_politica_en_twitter
x
y
5 10 15 20 25
510152025
% Unemployment (real)
%Unemployment(predicted)
Penetración
Disparidad social
Actividad por la mañana
Número de “misspellers”
Menciones a la “empleo”
0 10 20 30 40
% weight in the model
9. @estebanmoro
Nowcasting de enfermedades/síntomas
Correlación entre opiniones en redes sociales y comportamientos relacionados con la
salud
60 80 100 120 140
0100200300
tagl[, 1]
(tagl[,3]/tagl[,2])*1e+05/4
60 80 100 120 140
0200400600800
tagl[, 1]
(tagl[,3]/tagl[,2])*1e+05/4
60 80 100 120 140
02006001000
tagl[, 1]
(tagl[,3]/tagl[,2])*1e+05/4
gripe
Alergia
dolor de cabeza
Semanas desde Enero 2012
Incidencia(en100k
60 80 100 120 140
050010001500
tagl[, 1]
(tagl[,3]/tagl[,2])*1e+05/4
fiebre
dolor de cabeza
gripe
Incidencia
alta
media
baja
10. @estebanmoro
Nowcasting el daño económico de un desastre
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
11. @estebanmoro
Nowcasting el daño económico de un desastre
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
12. @estebanmoro
Nowcasting el daño económico de un desastre
Podemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros?
Huracán Sandy, 29 de Octubre de 2012
Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users
Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015
http://arxiv.org/abs/1504.06827
Número de tweets
Sentimiento de los
tweets
Ayudas (FEMA)
Reclamaciones
Seguros
Correlaciónconimpactoeconómico
Horas desde toma de tierra
actividad
sentimiento
13. @estebanmoro
Detección de opinión política
Estudio de usuarios de twitter que siguen a partidos políticos. Mayo 2015.
Elecciones andaluzas (85000 cuentas)
http://portal.uc3m.es/portal/page/portal/actualidad_cientifica/noticias/conversacion_politica_en_twitter
14. @estebanmoro
Detección de opinión política
Estudio de usuarios de twitter que siguen a partidos políticos. Marzo 2015.
Elecciones andaluzas
http://portal.uc3m.es/portal/page/portal/actualidad_cientifica/noticias/conversacion_politica_en_twitter
16. @estebanmoro
Nowcasting economía surmergida
Detectamos más o menos paro que oficialmente se declara? (por provincias)
Error = ModeloParo(Actividad) - Paro declarado
(Tweets geolocalizados)
Dataset: 19.6 Million geolocalized tweets
A. Llorente, EM, et al, 2015
http://arxiv.org/abs/1411.3140
15 20 25 30 35
−0.3−0.10.00.10.20.3
tt$sumergida
error
30%
20%
10%
0%
-10%
-20%
-30%
Error
% Economía Sumergida
15 20 25 30 35
El modelo predice
menos paro que el
oficial en las
provincias con
mayor economía
sumergida
18. @estebanmoro
Límites a la movilización social
Si la información viaja tan rápido en las redes sociales, ¿las podemos utilizar para
movilizar a la sociedad en situaciones criticas?
Solo 8 horas, pero muy arriesgado A. Rutherford, EM et al, PNAS 2013
20. @estebanmoro
Implicaciones/problemas
• Sociedades/gobiernos basadas en datos
• Transparencia: el proceso de
toma de datos no depende
de personas
• Responsabilidad: decisiones
basadas en datos/algoritmos
• Política con A/B Testing
• http://www.wired.com/2012/04/ff_abtesting/all/1
• http://www.fastcompany.com/3042630/first-us-chief-data-scientist-dj-patilscientist-dj-patil
21. @estebanmoro
Implicaciones/problemas
• Privacidad ~ 1 / Valor
• Trazabilidad ¿Quién/dónde/
como utiliza nuestros datos?
• Valor: Los datos son de
empresas, pero ¿y el valor de
los mismos?
• Medida: ¿cuánta privacidad
perdemos al ser usados
nuestros datos? ¿cuanto valen
nuestros datos?
FT.com http://on.ft.com/14yjj65
22. @estebanmoro
Implicaciones/problemas
• N ≠ ALL
• Algunos sectores sociales pueden
no estar incluidos
• Introduce sesgos a los más
jóvenes, más ricos, etc.
• Necesitamos métodos de las
ciencias sociales (segmentación)