Este documento resume los proyectos de ciencia de datos y big data del INEGI entre 2011 y 2017, incluyendo el desarrollo inicial de herramientas de análisis de datos masivos, la recolección y clasificación de tweets para medir el sentimiento público, y planes futuros para analizar movilidad y clasificar imágenes de satélite.
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
1. Ciencia de Datos y Big Data en el
INEGI
Proyectos 2011 - 2017
@abxda
Abel Coronado Iruegas
2. Agenda
• Los Inicios del Proyecto
– Antecedentes
– Big Data en el INEGI
• Primeros Resultados
• Nueva Versión del Ánimo Tuitero
– Arquitectura del Proyecto
• Próximos Proyectos
– Movilidad
– Imágenes de Satélite
• Lo que hemos aprendido
@abxda
3.
4. https://goo.gl/ANEnEx
Antecedentes de Big Data y Ciencia de
Datos
Realizar una herramienta que permita a los usuarios de la información realizar estratificaciones de la
información del Censo 2010.
@abxda
5. • Transform, Binning
• Temporal, Text, Image, etc
• Feature Selection
Feature
Engineering
• Algorithms, Ensemble
• Hyper-parameter Tuning
• Retraining
Model Fitting
• Cross Validation
• Model ReportingModel
Evaluation
• On-Premises vs Cloud
• Database vs Files Data Source
• Streaming vs Batch
• Low vs High Frequency Pipeline
• Structured vs Unstructured
• Data Validation and Cleanup
• Visualization
Data
Wrangling
• On-Premises vs Cloud
• Database vs Data Lake vs …
• Small vs Medium vs Big Data
Analytics
Environment
Customer
Acceptance
END
START
Intelligent
Applications
Web
Services
Model
Store
Management-Group: The managers of the
Entire data science unit.
• Chief Data Scientist
• Domain Experts (Staff)
• Research Scientists (Staff)
• Agile Master (Staff)
• Systems Engineering Expert (Staff)
• Data Engineering Team
• Data Engineer
• SysAdmin
• Statistician
• Geomatic Engineer
• Dataviz Expert
• GPU Developer
• IoT Expert
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
• Data Product Team
• Data Engineer
• Software Architect
• UX Expert
• App Developer
• Web Developer
• Dev-Sec-Ops
Basado en: https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from-
Dr. Alfredo Bustos
M.C. Abel Coronado
M.I. Oswaldo Diaz
L.I. Brenda Alejandra Muñoz
M.C. Miriam Romo
M.C. Abel Coronado
M.C. Abel Coronado
L.D.G. Marco Ibarra
I.S.C. Ricardo Olvera
M.I. Oswaldo Diaz
7
6. Producto de Datos (Desde 2011)
API RESTHTML5 WEB SERVER R SERVER @abxda
9. https://goo.gl/ID5mTi
Big Data y Ciencia de Datos
• Propuesta de indicadores obtenidos a partir de fuentes Big Data
• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.
• Producción científica de los académicos participantes
@abxda
11. Elaboración de una base de datos de
entrenamiento (2015)
http://cienciadedatos.inegi.org.mx/pioanalisis
5,000 estudiantes de la Universidad Tec
Milenio, contribuyeron a la clasificación
de cerca de 200,000 Tuits, con lo que
se generó una base de datos de
alrededor de 40,000 tuits etiquetados
manualmente.
Crowdsourcing @abxda
13. • Transform, Binning
• Temporal, Text, Image, etc
• Feature Selection
Feature
Engineering
• Algorithms, Ensemble
• Hyper-parameter Tuning
• Retraining
Model Fitting
• Cross Validation
• Model ReportingModel
Evaluation
• On-Premises vs Cloud
• Database vs Files Data Source
• Streaming vs Batch
• Low vs High Frequency Pipeline
• Structured vs Unstructured
• Data Validation and Cleanup
• Visualization
Data
Wrangling
• On-Premises vs Cloud
• Database vs Data Lake vs …
• Small vs Medium vs Big Data
Analytics
Environment
Customer
Acceptance
END
START
Intelligent
Applications
Web
Services
Model
Store
Management-Group: The managers of the
Entire data science unit.
• Chief Data Scientist
• Domain Experts (Staff)
• Research Scientists (Staff)
• Agile Master (Staff)
• Systems Engineering Expert (Staff)
• Data Engineering Team
• Data Engineer
• SysAdmin
• Statistician
• Geomatic Engineer
• Dataviz Expert
• GPU Developer
• IoT Expert
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
• Data Product Team
• Data Engineer
• Software Architect
• UX Expert
• App Developer
• Web Developer
Basado en: https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from-
Dr. Gerardo Leyva
Dr. Alfredo Bustos
M.C. Abel Coronado
Ing. Victor Silva
M.I. Oswaldo Diaz
C. Dr. Elio Villaseñor
Dr. Mario Graff
Dr. Eric Tellez
Dr. Sabino Miranda
Dra. Daniela Moctezuma
Dr. Oscar S. Siordia
L.D.G. Marco Ibarra
I.S.C. Ricardo Olvera
M.I. Oswaldo Diaz
https://goo.gl/tegYae https://goo.gl/tzzbR0
13
16. Animo Tuitero (2017)
LOGSTASH
(2 Cores)
Location Query
Free Access
Apache Spark
(16 Cores)
Clean & Sentiment Analysis
Tweets
Procesamiento
Diario (6 Min)
(3 a.m.)
300 K
Geo-Tweets
Minimal
Representation
~8 Redhat Servers (8 Gb Ram, 4 Cores)
~300 Milliones of Geo-Tweets
~150 Milliones dentro de México
> 3 Years ~ 24/7
@abxda
17. Scripts de Procesamiento
Reubicación de Información
para procesamiento
Script Bash de Reubicación. (Reubica los
archivos de Recolección para su
procesamiento (“SPARK”) )
Recolección INEGI
Recolección Azure
Server Apache
Spark
Selección de Archivo a
Procesar
Script Bash de Selección. (Elige el
archivo que contenga mayor número de
tweets)
Server Apache
Spark
Procesamiento de Información
Server Apache
Spark
Script Apache Spark(“Scala”). (Procesa la
información recolectada.
• Agrega nombre y siga de estados.
• Filtra solo los tweets de México.
• Clasifica el sentimiento.
• Almacena resultados en Base Datos
NoSQL )
Clúster ElasticSearch - Hydra
@abxda
30. Extender los trabajos a otras fuentes de
datos
Landsat 8
https://aws.amazon.com/es/public-datasets/landsat/
Tiempo de Revisita es de 16 días
30 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCub
e.jpg
@abxda
31. Extender los trabajos a otras fuentes de
datos
Sentinel 2 A & B
https://scihub.copernicus.eu/
Tiempo de Revisita es de 5 días
10 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCub
e.jpg
http://www.mallontechnology.com/blog/view/198/sentinel-data-helping-downstream-space-industry-deliver-31-billion-in-benefits
@abxda
33. Proceso de clasificación de imágenes de
satélite Selección del Modelo de Clasificación
Clases de cobertura
de suelo
Imágenes de Satélite
(30 m y 10 m)
Clasificación realizada por
Expertos
INEGI
15m, Modelo Digital de Elevación
Información Auxiliar
+
Extracción / Selección
/ Generación de
Carácterísticas
Conjunto de Entrenamiento y
Pruebas
Experimentos
mediante
validación cruzada
Clasificador
Seleccionado
Random Forest
SVM
Redes
Neuronales
@abxda
34. Lo que hemos aprendido
• Se requiere involucramiento y liderazgo de expertos del negocio.
• No se requiere gran inversión en hardware, se pueden hacer los
primeros proyectos con practicamente cero recursos para
hardware.
• En proyectos de clasificación supervisada lo mas valioso es
construir y mantener actualizada una base de entrenamiento.
• Los proyectos de Big Data / Ciencia de Datos son proyectos de
investigación, NO HAY GARANTIAS DE ÉXITO.
@abxda