Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI

Ciencia de Datos y Big Data en el
INEGI
Proyectos 2011 - 2017
@abxda
Abel Coronado Iruegas

Agenda
• Los Inicios del Proyecto
– Antecedentes
– Big Data en el INEGI
• Primeros Resultados
• Nueva Versión del Ánimo Tuitero
– Arquitectura del Proyecto
• Próximos Proyectos
– Movilidad
– Imágenes de Satélite
• Lo que hemos aprendido
@abxda

https://goo.gl/ANEnEx
Antecedentes de Big Data y Ciencia de
Datos
Realizar una herramienta que permita a los usuarios de la información realizar estratificaciones de la
información del Censo 2010.
@abxda

• Transform, Binning
• Temporal, Text, Image, etc
• Feature Selection
Feature
Engineering
• Algorithms, Ensemble
• Hyper-parameter Tuning
• Retraining
Model Fitting
• Cross Validation
• Model ReportingModel
Evaluation
• On-Premises vs Cloud
• Database vs Files Data Source
• Streaming vs Batch
• Low vs High Frequency Pipeline
• Structured vs Unstructured
• Data Validation and Cleanup
• Visualization
Data
Wrangling
• Database vs Data Lake vs …
• Small vs Medium vs Big Data
Analytics
Environment
Customer
Acceptance
END
START
Intelligent
Applications
Web
Services
Model
Store
Management-Group: The managers of the
Entire data science unit.
• Chief Data Scientist
• Domain Experts (Staff)
• Research Scientists (Staff)
• Agile Master (Staff)
• Systems Engineering Expert (Staff)
• Data Engineering Team
• Data Engineer
• SysAdmin
• Statistician
• Geomatic Engineer
• Dataviz Expert
• GPU Developer
• IoT Expert
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
• Data Product Team
• Data Engineer
• Software Architect
• UX Expert
• App Developer
• Web Developer
• Dev-Sec-Ops
Basado en: https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from-
Dr. Alfredo Bustos
M.C. Abel Coronado
M.I. Oswaldo Diaz
L.I. Brenda Alejandra Muñoz
M.C. Miriam Romo
M.C. Abel Coronado
M.C. Abel Coronado
L.D.G. Marco Ibarra
I.S.C. Ricardo Olvera
M.I. Oswaldo Diaz
7

Producto de Datos (Desde 2011)
API RESTHTML5 WEB SERVER R SERVER @abxda

Tecnologías Involucradas
@abxda

https://goo.gl/ID5mTi
Big Data y Ciencia de Datos
• Propuesta de indicadores obtenidos a partir de fuentes Big Data
• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.
• Producción científica de los académicos participantes
@abxda

Iniciamos la Recolección de Tweets (Feb 2014)
@abxda

Elaboración de una base de datos de
entrenamiento (2015)
http://cienciadedatos.inegi.org.mx/pioanalisis
5,000 estudiantes de la Universidad Tec
Milenio, contribuyeron a la clasificación
de cerca de 200,000 Tuits, con lo que
se generó una base de datos de
alrededor de 40,000 tuits etiquetados
manualmente.
Crowdsourcing @abxda

Base de datos de entrenamiento
@abxda

• Transform, Binning
• Temporal, Text, Image, etc
• Feature Selection
Feature
Engineering
• Algorithms, Ensemble
• Hyper-parameter Tuning
• Retraining
Model Fitting
• Cross Validation
• Model ReportingModel
Evaluation
• Database vs Files Data Source
• Streaming vs Batch
• Low vs High Frequency Pipeline
• Structured vs Unstructured
• Data Validation and Cleanup
• Visualization
Data
Wrangling
• Database vs Data Lake vs …
• Small vs Medium vs Big Data
Analytics
Environment
Customer
Acceptance
END
START
Intelligent
Applications
Web
Services
Model
Store
Management-Group: The managers of the
Entire data science unit.
• Chief Data Scientist
• Domain Experts (Staff)
• Research Scientists (Staff)
• Agile Master (Staff)
• Systems Engineering Expert (Staff)
• Data Engineering Team
• Data Engineer
• SysAdmin
• Statistician
• Geomatic Engineer
• Dataviz Expert
• GPU Developer
• IoT Expert
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
• Data Product Team
• Data Engineer
• Software Architect
• UX Expert
• App Developer
• Web Developer
Basado en: https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from-
Dr. Gerardo Leyva
Dr. Alfredo Bustos
M.C. Abel Coronado
Ing. Victor Silva
M.I. Oswaldo Diaz
C. Dr. Elio Villaseñor
Dr. Mario Graff
Dr. Eric Tellez
Dr. Sabino Miranda
Dra. Daniela Moctezuma
Dr. Oscar S. Siordia
L.D.G. Marco Ibarra
I.S.C. Ricardo Olvera
M.I. Oswaldo Diaz
https://goo.gl/tegYae https://goo.gl/tzzbR0
13

Animo Tuitero (2015)
http://www.inegi.org.mx/inegi/contenidos/investigacion/experimentales/animotuitero/default.aspx
{JSON:File}
@abxda

Animo Tuitero (2017)
LOGSTASH
(2 Cores)
Location Query
Free Access
Apache Spark
(16 Cores)
Clean & Sentiment Analysis
Tweets
Procesamiento
Diario (6 Min)
(3 a.m.)
300 K
Geo-Tweets
Minimal
Representation
~8 Redhat Servers (8 Gb Ram, 4 Cores)
~300 Milliones of Geo-Tweets
~150 Milliones dentro de México
> 3 Years ~ 24/7
@abxda

Scripts de Procesamiento
Reubicación de Información
para procesamiento
Script Bash de Reubicación. (Reubica los
archivos de Recolección para su
procesamiento (“SPARK”) )
Recolección INEGI
Recolección Azure
Server Apache
Spark
Selección de Archivo a
Procesar
Script Bash de Selección. (Elige el
archivo que contenga mayor número de
tweets)
Server Apache
Spark
Procesamiento de Información
Server Apache
Spark
Script Apache Spark(“Scala”). (Procesa la
información recolectada.
• Agrega nombre y siga de estados.
• Filtra solo los tweets de México.
• Clasifica el sentimiento.
• Almacena resultados en Base Datos
NoSQL )
Clúster ElasticSearch - Hydra
@abxda

NUEVA VERSIÓN DEL ÁNIMO DE LOS
TUITEROS

Siguientes Proyectos
(Experiencia en 2014)
https://goo.gl/wHG0xE
@abxda

Estudiar la movilidad es un proceso
complejo
@abxda

Mediados de 2017
Herramienta de Consulta de la Movilidad de los Tuiteros
@abxda

Detección del crecimiento de localidades
urbanas usando Twitter
@abxda

https://www.technologyreview.com/s/603706/the-startup-thats-in-charge-of-the-biggest-private-satellite-fleet/ http://www.bbc.com/news/science-environment-39183353
@abxda

Extender los trabajos a otras fuentes de
datos
Landsat 8
https://aws.amazon.com/es/public-datasets/landsat/
Tiempo de Revisita es de 16 días
30 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCub
e.jpg
@abxda

Extender los trabajos a otras fuentes de
datos
Sentinel 2 A & B
https://scihub.copernicus.eu/
Tiempo de Revisita es de 5 días
10 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCub
e.jpg
http://www.mallontechnology.com/blog/view/198/sentinel-data-helping-downstream-space-industry-deliver-31-billion-in-benefits
@abxda

LANDSAT & SENTINEL
LANDSAT 8 (30 m) SENTINEL 2 (10 m) @abxda

Proceso de clasificación de imágenes de
satélite Selección del Modelo de Clasificación
Clases de cobertura
de suelo
Imágenes de Satélite
(30 m y 10 m)
Clasificación realizada por
Expertos
INEGI
15m, Modelo Digital de Elevación
Información Auxiliar
+
Extracción / Selección
/ Generación de
Carácterísticas
Conjunto de Entrenamiento y
Pruebas
Experimentos
mediante
validación cruzada
Clasificador
Seleccionado
Random Forest
SVM
Redes
Neuronales
@abxda

Lo que hemos aprendido
• Se requiere involucramiento y liderazgo de expertos del negocio.
• No se requiere gran inversión en hardware, se pueden hacer los
primeros proyectos con practicamente cero recursos para
hardware.
• En proyectos de clasificación supervisada lo mas valioso es
construir y mantener actualizada una base de entrenamiento.
• Los proyectos de Big Data / Ciencia de Datos son proyectos de
investigación, NO HAY GARANTIAS DE ÉXITO.
@abxda

¿Preguntas?
Abel.Coronado@inegi.org.mx
M.Sc. Abel Coronado
@abxda

Conociendo México
01 800 111 46 34
www.inegi.org.mx
atencion.usuarios@inegi.org.mx
@inegi_informa INEGI Informa

Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI

Similar to Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI (20)

More from Abel Alejandro Coronado Iruegas

More from Abel Alejandro Coronado Iruegas (20)

Recently uploaded

Recently uploaded (20)

Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI