SlideShare a Scribd company logo
1 of 37
Ciencia de Datos y Big Data en el
INEGI
Proyectos 2011 - 2017
@abxda
Abel Coronado Iruegas
Agenda
• Los Inicios del Proyecto
– Antecedentes
– Big Data en el INEGI
• Primeros Resultados
• Nueva Versión del Ánimo Tuitero
– Arquitectura del Proyecto
• Próximos Proyectos
– Movilidad
– Imágenes de Satélite
• Lo que hemos aprendido
@abxda
https://goo.gl/ANEnEx
Antecedentes de Big Data y Ciencia de
Datos
Realizar una herramienta que permita a los usuarios de la información realizar estratificaciones de la
información del Censo 2010.
@abxda
• Transform, Binning
• Temporal, Text, Image, etc
• Feature Selection
Feature
Engineering
• Algorithms, Ensemble
• Hyper-parameter Tuning
• Retraining
Model Fitting
• Cross Validation
• Model ReportingModel
Evaluation
• On-Premises vs Cloud
• Database vs Files Data Source
• Streaming vs Batch
• Low vs High Frequency Pipeline
• Structured vs Unstructured
• Data Validation and Cleanup
• Visualization
Data
Wrangling
• On-Premises vs Cloud
• Database vs Data Lake vs …
• Small vs Medium vs Big Data
Analytics
Environment
Customer
Acceptance
END
START
Intelligent
Applications
Web
Services
Model
Store
Management-Group: The managers of the
Entire data science unit.
• Chief Data Scientist
• Domain Experts (Staff)
• Research Scientists (Staff)
• Agile Master (Staff)
• Systems Engineering Expert (Staff)
• Data Engineering Team
• Data Engineer
• SysAdmin
• Statistician
• Geomatic Engineer
• Dataviz Expert
• GPU Developer
• IoT Expert
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
• Data Product Team
• Data Engineer
• Software Architect
• UX Expert
• App Developer
• Web Developer
• Dev-Sec-Ops
Basado en: https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from-
Dr. Alfredo Bustos
M.C. Abel Coronado
M.I. Oswaldo Diaz
L.I. Brenda Alejandra Muñoz
M.C. Miriam Romo
M.C. Abel Coronado
M.C. Abel Coronado
L.D.G. Marco Ibarra
I.S.C. Ricardo Olvera
M.I. Oswaldo Diaz
7
Producto de Datos (Desde 2011)
API RESTHTML5 WEB SERVER R SERVER @abxda
@abxda
Tecnologías Involucradas
@abxda
https://goo.gl/ID5mTi
Big Data y Ciencia de Datos
• Propuesta de indicadores obtenidos a partir de fuentes Big Data
• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.
• Producción científica de los académicos participantes
@abxda
Iniciamos la Recolección de Tweets (Feb 2014)
@abxda
Elaboración de una base de datos de
entrenamiento (2015)
http://cienciadedatos.inegi.org.mx/pioanalisis
5,000 estudiantes de la Universidad Tec
Milenio, contribuyeron a la clasificación
de cerca de 200,000 Tuits, con lo que
se generó una base de datos de
alrededor de 40,000 tuits etiquetados
manualmente.
Crowdsourcing @abxda
Base de datos de entrenamiento
@abxda
• Transform, Binning
• Temporal, Text, Image, etc
• Feature Selection
Feature
Engineering
• Algorithms, Ensemble
• Hyper-parameter Tuning
• Retraining
Model Fitting
• Cross Validation
• Model ReportingModel
Evaluation
• On-Premises vs Cloud
• Database vs Files Data Source
• Streaming vs Batch
• Low vs High Frequency Pipeline
• Structured vs Unstructured
• Data Validation and Cleanup
• Visualization
Data
Wrangling
• On-Premises vs Cloud
• Database vs Data Lake vs …
• Small vs Medium vs Big Data
Analytics
Environment
Customer
Acceptance
END
START
Intelligent
Applications
Web
Services
Model
Store
Management-Group: The managers of the
Entire data science unit.
• Chief Data Scientist
• Domain Experts (Staff)
• Research Scientists (Staff)
• Agile Master (Staff)
• Systems Engineering Expert (Staff)
• Data Engineering Team
• Data Engineer
• SysAdmin
• Statistician
• Geomatic Engineer
• Dataviz Expert
• GPU Developer
• IoT Expert
• Data Science Team
• Data Scientist
• Statistician
• Mathematician
• Machine Learning Expert
• Deep Learning Expert
• Data Product Team
• Data Engineer
• Software Architect
• UX Expert
• App Developer
• Web Developer
Basado en: https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from-
Dr. Gerardo Leyva
Dr. Alfredo Bustos
M.C. Abel Coronado
Ing. Victor Silva
M.I. Oswaldo Diaz
C. Dr. Elio Villaseñor
Dr. Mario Graff
Dr. Eric Tellez
Dr. Sabino Miranda
Dra. Daniela Moctezuma
Dr. Oscar S. Siordia
L.D.G. Marco Ibarra
I.S.C. Ricardo Olvera
M.I. Oswaldo Diaz
https://goo.gl/tegYae https://goo.gl/tzzbR0
13
Animo Tuitero (2015)
http://www.inegi.org.mx/inegi/contenidos/investigacion/experimentales/animotuitero/default.aspx
{JSON:File}
@abxda
Animo Tuitero (2017)
LOGSTASH
(2 Cores)
Location Query
Free Access
Apache Spark
(16 Cores)
Clean & Sentiment Analysis
Tweets
Procesamiento
Diario (6 Min)
(3 a.m.)
300 K
Geo-Tweets
Minimal
Representation
~8 Redhat Servers (8 Gb Ram, 4 Cores)
~300 Milliones of Geo-Tweets
~150 Milliones dentro de México
> 3 Years ~ 24/7
@abxda
Scripts de Procesamiento
Reubicación de Información
para procesamiento
Script Bash de Reubicación. (Reubica los
archivos de Recolección para su
procesamiento (“SPARK”) )
Recolección INEGI
Recolección Azure
Server Apache
Spark
Selección de Archivo a
Procesar
Script Bash de Selección. (Elige el
archivo que contenga mayor número de
tweets)
Server Apache
Spark
Procesamiento de Información
Server Apache
Spark
Script Apache Spark(“Scala”). (Procesa la
información recolectada.
• Agrega nombre y siga de estados.
• Filtra solo los tweets de México.
• Clasifica el sentimiento.
• Almacena resultados en Base Datos
NoSQL )
Clúster ElasticSearch - Hydra
@abxda
@abxda
NUEVA VERSIÓN DEL ÁNIMO DE LOS
TUITEROS
@abxda
Siguientes Proyectos
(Experiencia en 2014)
https://goo.gl/wHG0xE
@abxda
Estudiar la movilidad es un proceso
complejo
@abxda
Mediados de 2017
Herramienta de Consulta de la Movilidad de los Tuiteros
@abxda
Detección del crecimiento de localidades
urbanas usando Twitter
@abxda
Detección del crecimiento de localidades
urbanas usando Twitter
@abxda
Detección del crecimiento de localidades
urbanas usando Twitter
@abxda
NUEVAS FUENTES DE DATOS
https://www.technologyreview.com/s/603706/the-startup-thats-in-charge-of-the-biggest-private-satellite-fleet/ http://www.bbc.com/news/science-environment-39183353
@abxda
Extender los trabajos a otras fuentes de
datos
Landsat 8
https://aws.amazon.com/es/public-datasets/landsat/
Tiempo de Revisita es de 16 días
30 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCub
e.jpg
@abxda
Extender los trabajos a otras fuentes de
datos
Sentinel 2 A & B
https://scihub.copernicus.eu/
Tiempo de Revisita es de 5 días
10 m
https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCub
e.jpg
http://www.mallontechnology.com/blog/view/198/sentinel-data-helping-downstream-space-industry-deliver-31-billion-in-benefits
@abxda
LANDSAT & SENTINEL
LANDSAT 8 (30 m) SENTINEL 2 (10 m) @abxda
Proceso de clasificación de imágenes de
satélite Selección del Modelo de Clasificación
Clases de cobertura
de suelo
Imágenes de Satélite
(30 m y 10 m)
Clasificación realizada por
Expertos
INEGI
15m, Modelo Digital de Elevación
Información Auxiliar
+
Extracción / Selección
/ Generación de
Carácterísticas
Conjunto de Entrenamiento y
Pruebas
Experimentos
mediante
validación cruzada
Clasificador
Seleccionado
Random Forest
SVM
Redes
Neuronales
@abxda
Lo que hemos aprendido
• Se requiere involucramiento y liderazgo de expertos del negocio.
• No se requiere gran inversión en hardware, se pueden hacer los
primeros proyectos con practicamente cero recursos para
hardware.
• En proyectos de clasificación supervisada lo mas valioso es
construir y mantener actualizada una base de entrenamiento.
• Los proyectos de Big Data / Ciencia de Datos son proyectos de
investigación, NO HAY GARANTIAS DE ÉXITO.
@abxda
GRACIAS!
¿Preguntas?
Abel.Coronado@inegi.org.mx
M.Sc. Abel Coronado
@abxda
Conociendo México
01 800 111 46 34
www.inegi.org.mx
atencion.usuarios@inegi.org.mx
@inegi_informa INEGI Informa

More Related Content

What's hot

Arquitectura de Bases de Datos Oracle
Arquitectura de Bases de Datos OracleArquitectura de Bases de Datos Oracle
Arquitectura de Bases de Datos Oraclevinivaldivieso
 
Distribuciones de Mac os X
Distribuciones de Mac os XDistribuciones de Mac os X
Distribuciones de Mac os XObed Isai
 
7. operadores y estructura secuencial
7. operadores y estructura secuencial7. operadores y estructura secuencial
7. operadores y estructura secuencialrcarrerah
 
Interoperabilidad Semántica
Interoperabilidad SemánticaInteroperabilidad Semántica
Interoperabilidad SemánticaAlejandro Barros
 
encapsulamiento
encapsulamientoencapsulamiento
encapsulamientozeta2015
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningDenodo
 
EJERCICIOS DE ALGORITMOS
EJERCICIOS DE ALGORITMOSEJERCICIOS DE ALGORITMOS
EJERCICIOS DE ALGORITMOS1002pc3
 
Arquitecturas de Bases de Datos Distribuidas
Arquitecturas de Bases de Datos DistribuidasArquitecturas de Bases de Datos Distribuidas
Arquitecturas de Bases de Datos DistribuidasAntonio Soria
 
Introduction to Big Data Analytics and Data Science
Introduction to Big Data Analytics and Data ScienceIntroduction to Big Data Analytics and Data Science
Introduction to Big Data Analytics and Data ScienceData Science Thailand
 
3 modelo er
3 modelo er3 modelo er
3 modelo erramume69
 
GRID COMPUTING
GRID COMPUTING  GRID COMPUTING
GRID COMPUTING poool666
 
Lista de adyacencia
Lista de adyacenciaLista de adyacencia
Lista de adyacenciaFrank Doria
 
Cuestionario sobre servidores
Cuestionario sobre servidoresCuestionario sobre servidores
Cuestionario sobre servidoresBlogger
 

What's hot (20)

Arquitectura de Bases de Datos Oracle
Arquitectura de Bases de Datos OracleArquitectura de Bases de Datos Oracle
Arquitectura de Bases de Datos Oracle
 
Distribuciones de Mac os X
Distribuciones de Mac os XDistribuciones de Mac os X
Distribuciones de Mac os X
 
1. Modelo de Datos
1. Modelo de Datos1. Modelo de Datos
1. Modelo de Datos
 
7. operadores y estructura secuencial
7. operadores y estructura secuencial7. operadores y estructura secuencial
7. operadores y estructura secuencial
 
INTRODUCCION A LA POO
INTRODUCCION A LA POOINTRODUCCION A LA POO
INTRODUCCION A LA POO
 
Interoperabilidad Semántica
Interoperabilidad SemánticaInteroperabilidad Semántica
Interoperabilidad Semántica
 
encapsulamiento
encapsulamientoencapsulamiento
encapsulamiento
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
 
Diagramas UML
Diagramas UMLDiagramas UML
Diagramas UML
 
EJERCICIOS DE ALGORITMOS
EJERCICIOS DE ALGORITMOSEJERCICIOS DE ALGORITMOS
EJERCICIOS DE ALGORITMOS
 
Diagrama de Colaboración
Diagrama de ColaboraciónDiagrama de Colaboración
Diagrama de Colaboración
 
Arquitecturas de Bases de Datos Distribuidas
Arquitecturas de Bases de Datos DistribuidasArquitecturas de Bases de Datos Distribuidas
Arquitecturas de Bases de Datos Distribuidas
 
Introduction to Big Data Analytics and Data Science
Introduction to Big Data Analytics and Data ScienceIntroduction to Big Data Analytics and Data Science
Introduction to Big Data Analytics and Data Science
 
3 modelo er
3 modelo er3 modelo er
3 modelo er
 
GRID COMPUTING
GRID COMPUTING  GRID COMPUTING
GRID COMPUTING
 
Metodología IWeb
Metodología IWebMetodología IWeb
Metodología IWeb
 
Lista de adyacencia
Lista de adyacenciaLista de adyacencia
Lista de adyacencia
 
Cuestionario sobre servidores
Cuestionario sobre servidoresCuestionario sobre servidores
Cuestionario sobre servidores
 
Java con base de datos
Java con base de datosJava con base de datos
Java con base de datos
 
Introduccion a Uml
Introduccion a Uml Introduccion a Uml
Introduccion a Uml
 

Viewers also liked

3 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 20173 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 2017Drift
 
44CON 2014: Using hadoop for malware, network, forensics and log analysis
44CON 2014: Using hadoop for malware, network, forensics and log analysis44CON 2014: Using hadoop for malware, network, forensics and log analysis
44CON 2014: Using hadoop for malware, network, forensics and log analysisMichael Boman
 
25 Discovery Call Questions
25 Discovery Call Questions25 Discovery Call Questions
25 Discovery Call QuestionsHubSpot
 
Class 1: Email Marketing Certification course: Email Marketing and Your Business
Class 1: Email Marketing Certification course: Email Marketing and Your BusinessClass 1: Email Marketing Certification course: Email Marketing and Your Business
Class 1: Email Marketing Certification course: Email Marketing and Your BusinessHubSpot
 
Behind the Scenes: Launching HubSpot Tokyo
Behind the Scenes: Launching HubSpot TokyoBehind the Scenes: Launching HubSpot Tokyo
Behind the Scenes: Launching HubSpot TokyoHubSpot
 
Why People Block Ads (And What It Means for Marketers and Advertisers) [New R...
Why People Block Ads (And What It Means for Marketers and Advertisers) [New R...Why People Block Ads (And What It Means for Marketers and Advertisers) [New R...
Why People Block Ads (And What It Means for Marketers and Advertisers) [New R...HubSpot
 
Design in Tech Report 2017
Design in Tech Report 2017Design in Tech Report 2017
Design in Tech Report 2017John Maeda
 
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky TheoryTaller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky TheoryMario Pérez Esteso
 
Winning the Tour de France, Research Data and Data Stewardship
Winning the Tour de France, Research Data and Data StewardshipWinning the Tour de France, Research Data and Data Stewardship
Winning the Tour de France, Research Data and Data StewardshipTU Delft, Netherlands
 
Optimizando la operación en campo
Optimizando la operación en campo Optimizando la operación en campo
Optimizando la operación en campo hobregon
 

Viewers also liked (20)

Big data big opportunities
Big data big opportunitiesBig data big opportunities
Big data big opportunities
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
INEGI ESS big data workshop
INEGI ESS big data workshopINEGI ESS big data workshop
INEGI ESS big data workshop
 
Big data lead colmex
Big data lead colmexBig data lead colmex
Big data lead colmex
 
3 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 20173 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 2017
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
 
Explorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUsExplorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUs
 
44CON 2014: Using hadoop for malware, network, forensics and log analysis
44CON 2014: Using hadoop for malware, network, forensics and log analysis44CON 2014: Using hadoop for malware, network, forensics and log analysis
44CON 2014: Using hadoop for malware, network, forensics and log analysis
 
Realidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en MéxicoRealidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en México
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
25 Discovery Call Questions
25 Discovery Call Questions25 Discovery Call Questions
25 Discovery Call Questions
 
Class 1: Email Marketing Certification course: Email Marketing and Your Business
Class 1: Email Marketing Certification course: Email Marketing and Your BusinessClass 1: Email Marketing Certification course: Email Marketing and Your Business
Class 1: Email Marketing Certification course: Email Marketing and Your Business
 
Behind the Scenes: Launching HubSpot Tokyo
Behind the Scenes: Launching HubSpot TokyoBehind the Scenes: Launching HubSpot Tokyo
Behind the Scenes: Launching HubSpot Tokyo
 
Why People Block Ads (And What It Means for Marketers and Advertisers) [New R...
Why People Block Ads (And What It Means for Marketers and Advertisers) [New R...Why People Block Ads (And What It Means for Marketers and Advertisers) [New R...
Why People Block Ads (And What It Means for Marketers and Advertisers) [New R...
 
Design in Tech Report 2017
Design in Tech Report 2017Design in Tech Report 2017
Design in Tech Report 2017
 
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky TheoryTaller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
 
Robotica aplicada a la medicina
Robotica aplicada a la medicinaRobotica aplicada a la medicina
Robotica aplicada a la medicina
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 
Winning the Tour de France, Research Data and Data Stewardship
Winning the Tour de France, Research Data and Data StewardshipWinning the Tour de France, Research Data and Data Stewardship
Winning the Tour de France, Research Data and Data Stewardship
 
Optimizando la operación en campo
Optimizando la operación en campo Optimizando la operación en campo
Optimizando la operación en campo
 

Similar to Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI

Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
Adiós a los ficheros, hola a los grafos de conocimientos estadísticos
Adiós a los ficheros, hola a los grafos de conocimientos estadísticosAdiós a los ficheros, hola a los grafos de conocimientos estadísticos
Adiós a los ficheros, hola a los grafos de conocimientos estadísticosOscar Corcho
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAlberto Diaz Martin
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoJavier Mijail Espadas Pech
 
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos HibridosNovedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos HibridosGonzalo Marcos Ansoain
 
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos HibridosNovedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos HibridosGonzalo Marcos
 
Servicios amazon en la nube.
Servicios amazon en la nube.Servicios amazon en la nube.
Servicios amazon en la nube.SusySotelo1
 
Introducción a U-SQL lenguaje que hace fácil el procesamiento de Big Data
Introducción a U-SQL lenguaje que hace fácil el procesamiento de Big DataIntroducción a U-SQL lenguaje que hace fácil el procesamiento de Big Data
Introducción a U-SQL lenguaje que hace fácil el procesamiento de Big DataJohn Bulla
 
Trabajo fin de master Dirección TI
Trabajo fin de master Dirección TITrabajo fin de master Dirección TI
Trabajo fin de master Dirección TIManolo Crespo
 
Mejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerMejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerSpanishPASSVC
 
Visualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónVisualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónIAB México
 
Diseñando un Big Pipeline para Big Data
Diseñando un Big Pipeline para Big DataDiseñando un Big Pipeline para Big Data
Diseñando un Big Pipeline para Big DataSoftware Guru
 
Presentación ingeniería web
Presentación ingeniería webPresentación ingeniería web
Presentación ingeniería webJORGE MONGUI
 
Ingenieria web
Ingenieria webIngenieria web
Ingenieria webMirsha01
 
SharePoint 2013 como centro de sus datos de negocio
SharePoint 2013 como centro de sus datos de negocioSharePoint 2013 como centro de sus datos de negocio
SharePoint 2013 como centro de sus datos de negocioJuan Carlos Gonzalez
 

Similar to Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI (20)

AWS Analytics Experience Argentina
AWS Analytics Experience Argentina AWS Analytics Experience Argentina
AWS Analytics Experience Argentina
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Adiós a los ficheros, hola a los grafos de conocimientos estadísticos
Adiós a los ficheros, hola a los grafos de conocimientos estadísticosAdiós a los ficheros, hola a los grafos de conocimientos estadísticos
Adiós a los ficheros, hola a los grafos de conocimientos estadísticos
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
 
Tecnologíahtml5
Tecnologíahtml5Tecnologíahtml5
Tecnologíahtml5
 
Novedades en SharePoint 2013
Novedades en SharePoint 2013Novedades en SharePoint 2013
Novedades en SharePoint 2013
 
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos HibridosNovedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
 
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos HibridosNovedades SharePoint 2016. Nuevos retos en Entonos Hibridos
Novedades SharePoint 2016. Nuevos retos en Entonos Hibridos
 
Servicios amazon en la nube.
Servicios amazon en la nube.Servicios amazon en la nube.
Servicios amazon en la nube.
 
Introducción a U-SQL lenguaje que hace fácil el procesamiento de Big Data
Introducción a U-SQL lenguaje que hace fácil el procesamiento de Big DataIntroducción a U-SQL lenguaje que hace fácil el procesamiento de Big Data
Introducción a U-SQL lenguaje que hace fácil el procesamiento de Big Data
 
Scala@real life
Scala@real lifeScala@real life
Scala@real life
 
Scala @ Real life
Scala @ Real lifeScala @ Real life
Scala @ Real life
 
Trabajo fin de master Dirección TI
Trabajo fin de master Dirección TITrabajo fin de master Dirección TI
Trabajo fin de master Dirección TI
 
Mejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerMejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint Server
 
Visualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónVisualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de Investigación
 
Diseñando un Big Pipeline para Big Data
Diseñando un Big Pipeline para Big DataDiseñando un Big Pipeline para Big Data
Diseñando un Big Pipeline para Big Data
 
Presentación ingeniería web
Presentación ingeniería webPresentación ingeniería web
Presentación ingeniería web
 
Ingenieria web
Ingenieria webIngenieria web
Ingenieria web
 
SharePoint 2013 como centro de sus datos de negocio
SharePoint 2013 como centro de sus datos de negocioSharePoint 2013 como centro de sus datos de negocio
SharePoint 2013 como centro de sus datos de negocio
 

More from Abel Alejandro Coronado Iruegas

Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Abel Alejandro Coronado Iruegas
 
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAnalisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAbel Alejandro Coronado Iruegas
 
Revelando los secretos de twitter, Festival de Software Libre 2014
Revelando los secretos de twitter, Festival de Software Libre 2014Revelando los secretos de twitter, Festival de Software Libre 2014
Revelando los secretos de twitter, Festival de Software Libre 2014Abel Alejandro Coronado Iruegas
 
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...Abel Alejandro Coronado Iruegas
 
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014Abel Alejandro Coronado Iruegas
 

More from Abel Alejandro Coronado Iruegas (20)

Mobility Master Class.pdf
Mobility Master Class.pdfMobility Master Class.pdf
Mobility Master Class.pdf
 
Live UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de MexicoLive UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de Mexico
 
Cubo de datos uaemex
Cubo de datos uaemexCubo de datos uaemex
Cubo de datos uaemex
 
Geo Big Data 4 Datalab
Geo Big Data 4 DatalabGeo Big Data 4 Datalab
Geo Big Data 4 Datalab
 
Catedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBEROCatedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBERO
 
Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...
 
Machine learning and Satellite Images
Machine learning and Satellite ImagesMachine learning and Satellite Images
Machine learning and Satellite Images
 
El Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de MexicoEl Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de Mexico
 
No Sql
No SqlNo Sql
No Sql
 
Cubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de MexicoCubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de Mexico
 
Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0
 
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAnalisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
 
Geo Big Data 2015
Geo Big Data 2015 Geo Big Data 2015
Geo Big Data 2015
 
Scala 1
Scala 1Scala 1
Scala 1
 
PresentacionParaINFOTEC
PresentacionParaINFOTECPresentacionParaINFOTEC
PresentacionParaINFOTEC
 
Revelando los secretos de twitter, Festival de Software Libre 2014
Revelando los secretos de twitter, Festival de Software Libre 2014Revelando los secretos de twitter, Festival de Software Libre 2014
Revelando los secretos de twitter, Festival de Software Libre 2014
 
Revelando los secretos de twitter en México sg virtual
Revelando los secretos de twitter en México sg virtualRevelando los secretos de twitter en México sg virtual
Revelando los secretos de twitter en México sg virtual
 
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
 
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
 
Revelando los secretos de las redes sociales
Revelando los secretos de las redes socialesRevelando los secretos de las redes sociales
Revelando los secretos de las redes sociales
 

Recently uploaded

Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfhees071224mmcrpna1
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfINTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfmaryisabelpantojavar
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptxKatherineFabianLoza1
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOsecundariatecnica891
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
stellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino morastellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino moraYessicaBrigithArdila
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 

Recently uploaded (20)

Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdf
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfINTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASO
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
stellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino morastellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino mora
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 

Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI

  • 1. Ciencia de Datos y Big Data en el INEGI Proyectos 2011 - 2017 @abxda Abel Coronado Iruegas
  • 2. Agenda • Los Inicios del Proyecto – Antecedentes – Big Data en el INEGI • Primeros Resultados • Nueva Versión del Ánimo Tuitero – Arquitectura del Proyecto • Próximos Proyectos – Movilidad – Imágenes de Satélite • Lo que hemos aprendido @abxda
  • 3.
  • 4. https://goo.gl/ANEnEx Antecedentes de Big Data y Ciencia de Datos Realizar una herramienta que permita a los usuarios de la información realizar estratificaciones de la información del Censo 2010. @abxda
  • 5. • Transform, Binning • Temporal, Text, Image, etc • Feature Selection Feature Engineering • Algorithms, Ensemble • Hyper-parameter Tuning • Retraining Model Fitting • Cross Validation • Model ReportingModel Evaluation • On-Premises vs Cloud • Database vs Files Data Source • Streaming vs Batch • Low vs High Frequency Pipeline • Structured vs Unstructured • Data Validation and Cleanup • Visualization Data Wrangling • On-Premises vs Cloud • Database vs Data Lake vs … • Small vs Medium vs Big Data Analytics Environment Customer Acceptance END START Intelligent Applications Web Services Model Store Management-Group: The managers of the Entire data science unit. • Chief Data Scientist • Domain Experts (Staff) • Research Scientists (Staff) • Agile Master (Staff) • Systems Engineering Expert (Staff) • Data Engineering Team • Data Engineer • SysAdmin • Statistician • Geomatic Engineer • Dataviz Expert • GPU Developer • IoT Expert • Data Science Team • Data Scientist • Statistician • Mathematician • Machine Learning Expert • Deep Learning Expert • Data Product Team • Data Engineer • Software Architect • UX Expert • App Developer • Web Developer • Dev-Sec-Ops Basado en: https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from- Dr. Alfredo Bustos M.C. Abel Coronado M.I. Oswaldo Diaz L.I. Brenda Alejandra Muñoz M.C. Miriam Romo M.C. Abel Coronado M.C. Abel Coronado L.D.G. Marco Ibarra I.S.C. Ricardo Olvera M.I. Oswaldo Diaz 7
  • 6. Producto de Datos (Desde 2011) API RESTHTML5 WEB SERVER R SERVER @abxda
  • 9. https://goo.gl/ID5mTi Big Data y Ciencia de Datos • Propuesta de indicadores obtenidos a partir de fuentes Big Data • Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial. • Producción científica de los académicos participantes @abxda
  • 10. Iniciamos la Recolección de Tweets (Feb 2014) @abxda
  • 11. Elaboración de una base de datos de entrenamiento (2015) http://cienciadedatos.inegi.org.mx/pioanalisis 5,000 estudiantes de la Universidad Tec Milenio, contribuyeron a la clasificación de cerca de 200,000 Tuits, con lo que se generó una base de datos de alrededor de 40,000 tuits etiquetados manualmente. Crowdsourcing @abxda
  • 12. Base de datos de entrenamiento @abxda
  • 13. • Transform, Binning • Temporal, Text, Image, etc • Feature Selection Feature Engineering • Algorithms, Ensemble • Hyper-parameter Tuning • Retraining Model Fitting • Cross Validation • Model ReportingModel Evaluation • On-Premises vs Cloud • Database vs Files Data Source • Streaming vs Batch • Low vs High Frequency Pipeline • Structured vs Unstructured • Data Validation and Cleanup • Visualization Data Wrangling • On-Premises vs Cloud • Database vs Data Lake vs … • Small vs Medium vs Big Data Analytics Environment Customer Acceptance END START Intelligent Applications Web Services Model Store Management-Group: The managers of the Entire data science unit. • Chief Data Scientist • Domain Experts (Staff) • Research Scientists (Staff) • Agile Master (Staff) • Systems Engineering Expert (Staff) • Data Engineering Team • Data Engineer • SysAdmin • Statistician • Geomatic Engineer • Dataviz Expert • GPU Developer • IoT Expert • Data Science Team • Data Scientist • Statistician • Mathematician • Machine Learning Expert • Deep Learning Expert • Data Product Team • Data Engineer • Software Architect • UX Expert • App Developer • Web Developer Basado en: https://blogs.technet.microsoft.com/machinelearning/2016/10/11/introducing-the-team-data-science-process-from- Dr. Gerardo Leyva Dr. Alfredo Bustos M.C. Abel Coronado Ing. Victor Silva M.I. Oswaldo Diaz C. Dr. Elio Villaseñor Dr. Mario Graff Dr. Eric Tellez Dr. Sabino Miranda Dra. Daniela Moctezuma Dr. Oscar S. Siordia L.D.G. Marco Ibarra I.S.C. Ricardo Olvera M.I. Oswaldo Diaz https://goo.gl/tegYae https://goo.gl/tzzbR0 13
  • 15.
  • 16. Animo Tuitero (2017) LOGSTASH (2 Cores) Location Query Free Access Apache Spark (16 Cores) Clean & Sentiment Analysis Tweets Procesamiento Diario (6 Min) (3 a.m.) 300 K Geo-Tweets Minimal Representation ~8 Redhat Servers (8 Gb Ram, 4 Cores) ~300 Milliones of Geo-Tweets ~150 Milliones dentro de México > 3 Years ~ 24/7 @abxda
  • 17. Scripts de Procesamiento Reubicación de Información para procesamiento Script Bash de Reubicación. (Reubica los archivos de Recolección para su procesamiento (“SPARK”) ) Recolección INEGI Recolección Azure Server Apache Spark Selección de Archivo a Procesar Script Bash de Selección. (Elige el archivo que contenga mayor número de tweets) Server Apache Spark Procesamiento de Información Server Apache Spark Script Apache Spark(“Scala”). (Procesa la información recolectada. • Agrega nombre y siga de estados. • Filtra solo los tweets de México. • Clasifica el sentimiento. • Almacena resultados en Base Datos NoSQL ) Clúster ElasticSearch - Hydra @abxda
  • 19. NUEVA VERSIÓN DEL ÁNIMO DE LOS TUITEROS
  • 21.
  • 22. Siguientes Proyectos (Experiencia en 2014) https://goo.gl/wHG0xE @abxda
  • 23. Estudiar la movilidad es un proceso complejo @abxda
  • 24. Mediados de 2017 Herramienta de Consulta de la Movilidad de los Tuiteros @abxda
  • 25. Detección del crecimiento de localidades urbanas usando Twitter @abxda
  • 26. Detección del crecimiento de localidades urbanas usando Twitter @abxda
  • 27. Detección del crecimiento de localidades urbanas usando Twitter @abxda
  • 30. Extender los trabajos a otras fuentes de datos Landsat 8 https://aws.amazon.com/es/public-datasets/landsat/ Tiempo de Revisita es de 16 días 30 m https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCub e.jpg @abxda
  • 31. Extender los trabajos a otras fuentes de datos Sentinel 2 A & B https://scihub.copernicus.eu/ Tiempo de Revisita es de 5 días 10 m https://upload.wikimedia.org/wikipedia/commons/4/48/HyperspectralCub e.jpg http://www.mallontechnology.com/blog/view/198/sentinel-data-helping-downstream-space-industry-deliver-31-billion-in-benefits @abxda
  • 32. LANDSAT & SENTINEL LANDSAT 8 (30 m) SENTINEL 2 (10 m) @abxda
  • 33. Proceso de clasificación de imágenes de satélite Selección del Modelo de Clasificación Clases de cobertura de suelo Imágenes de Satélite (30 m y 10 m) Clasificación realizada por Expertos INEGI 15m, Modelo Digital de Elevación Información Auxiliar + Extracción / Selección / Generación de Carácterísticas Conjunto de Entrenamiento y Pruebas Experimentos mediante validación cruzada Clasificador Seleccionado Random Forest SVM Redes Neuronales @abxda
  • 34. Lo que hemos aprendido • Se requiere involucramiento y liderazgo de expertos del negocio. • No se requiere gran inversión en hardware, se pueden hacer los primeros proyectos con practicamente cero recursos para hardware. • En proyectos de clasificación supervisada lo mas valioso es construir y mantener actualizada una base de entrenamiento. • Los proyectos de Big Data / Ciencia de Datos son proyectos de investigación, NO HAY GARANTIAS DE ÉXITO. @abxda
  • 37. Conociendo México 01 800 111 46 34 www.inegi.org.mx atencion.usuarios@inegi.org.mx @inegi_informa INEGI Informa