4. Considerar las Nuevas Fuentes de Datos para
Complementar a las Tradicionales.
Fuentes sin un diseño original, en una diversidad
de fines posibles, normalmente ajenos a las
causas que permitieron la generación
@abxda
6. Internet de las Personas
Internet de las Cosas
Sensores
{ json }
< xml >
c,s,v
Redes Sociales
Internet de las Ideas
Crowdsourcing
Sistemas de Archivos
Distribuidos
Computo Paralelo y
Concurrente
Programación Funcional
Razonamiento Algebraico
Estadística
Análisis Multivariado
Machine Learning
Análisis de Interacción Espacial
{ json }
< xml >
c,s,v
{ json }
< xml >
c,s,v
Bases de Datos
NoSQL
Visualización
Panorama Tecnológico
Infraestructura de Cómputo
7. %Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda
Estratificación de 1.2 M de Manzanas (2013)
En la misma Pc de 4 Procesadores:
(2013)
Software Tiempo Manzanas
Big Data 8 Seg. 1’221,180
Tradicional
(R)
8 Seg. 2,666
https://spark.apache.org/
8. TWITTER COMO FUENTE DE BIG DATA
Para medir el pulso emotivo de México
…y mucho más …
@abxda
9. 2009 2010 2011 2012 2013 2014 2015
(Junio) GIVAS =
Global Pulse
(2010) UNECE-
CES crea HLG-
BAS = HLG on
Modernisation
of Statistical
Production and
Services
(Oct. 2010) Día Mundial
de la Estadística.
“Tendencias actuales
de la estadística
aplicada”, por John
Brocklebank, SAS
(Agosto 2011)
ISI Dublin sesión
sobre Análisis
Estadístico de
Redes Sociales.
(Nov. 2012)
HLG_BAS
“IDENTIFYING KEY
PRIORITIES FOR
2013 AND
BEYOND”
menciona, por fin,
Big Data y Open
Data.
(Agosto 2013)
propuesta BigData
– Fondo Conacyt
Inegi.
DGAI Inicia
con
Herramientas
Big Data
(Octubre 2013)
Encuentro con
Seligman en
Monterrey en
evento de Tec
Milenio Institu
to de ciencias
de la felicidad.
(Diciembre
2013) Visita
de Upenn a
INEGI
(Febrero
2014) Inicia
recolección
de Tuits
(Hydra)
(Junio 2014)
Seminario
Internacional
Inegi Big Data
en INFOTEC
(Julio 2014)
SECTUR y
mapa
resultado y
paper.
(Agosto
2014) Inicia
Pioanálisis
(Nov.
2014)
Concluye
clasificac
ión de
Twits.
(Diciembre
2014)
Involucramien
to Infotec-
Geo etiquetad
o de tuits
(Febrero
2015) Viaje
a UPenn
(Febrero
2015)
Seminario
Infotec-
CentroGeo-
Inegi.
(Abril 2015)
Herramienta
de Medición
de Bienestar
en Tiempo
Real
(Junio 2015)
Entrega del
primer conjunto
de 60M
clasificado por
INFOTEC
(Julio 2015)
Herramienta
de
Visualización
@abxda
10. OBJETIVO DEL PROYECTO
Generar indicadores experimentales, nuevos o que
complementen los generados por métodos tradicionales,
utilizando técnicas de Big Data para la extracción,
almacenamiento, procesamiento, análisis y visualización de
los datos.
@abxda
16. Proceso de Machine Learning
Muestra de Tuits
Etiquetado Manual
Representación numérica
http://scikit-learn.org/
http://www.r-project.org/
Machine Learning
Tuits en Tiempo Real
Clasificador
Indicador
de sentimiento
@abxda
Entrenamiento
Producción
Nota:
El tema de Big Data es tan nuevo para la generación de la Estadística Oficial, que no existe un modelo único, en varios Organismos Internacionales y Oficinas Nacionales de Estadística se están llevando a cabo proyectos piloto como el de INEGI, para tener la oportunidad de adquirir experiencia práctica en el tema.