SlideShare a Scribd company logo
1 of 23
#BigDataHuejutla

http://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg

@abxda
#BigDataHuejutla

http://www.wordle.net

@abxda
#BigDataHuejutla

Según Gartner:
Big data is high-volume, high-velocity and high-variety information
assets that demand cost-effective, innovative forms of information
processing for enhanced insight and decision making.

Big Data es la Información en grandes volúmenes,
grandes velocidades y gran variedad que demanda
formas de procesamiento innovadoras y viables
económicamente que permitan mejorar la
comprensión profunda y la toma de decisiones.

http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf

@abxda
#BigDataHuejutla

Big Data y Ciencia de Datos
¿quién?
¿cuántos?
¿por qué?
¿qué?
¿dónde?

Internet de las Cosas

Internet de las Personas
Volumen
Internet de las Ideas
Internet de todo
…

Datos
Crudos

Ciencia de
Datos
(Transforma =>)

Información
(Significado)

Análisis de Datos
Estadística
Minería de Datos

http://www.datascienceassn.org/
http://en.wikipedia.org/wiki/DIKW_Pyramid

Machine Learning

Análisis de Redes (Grafos)
Muestreo
Estratificaciones
Mucho mas…
Análisis de Regresión

Tomar
Decisiones
Y Actuar
@abxda
#BigDataHuejutla

Científico de Datos
C#
Python
Scala
Java

R

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

@abxda
#BigDataHuejutla

¿Qué tanto es tantito?
8 Bits = 1Byte
1024 Bytes = 1 Kilobyte
1024 Kilobytes = 1 Megabyte
1024 Megabytes = 1 Gigabyte
1024 Gigabytes = 1 Terabyte
1024 Terabytes = 1 Petabyte
1024 Petabytes = 1 Exabyte

@abxda
#BigDataHuejutla

Era Multicore
35 años de Historia del Microprocesador

Primavera 2005 Inicia la era multicore
Diciembre 2004 -> MapReduce

@abxda
#BigDataHuejutla

Computo en Paralelo

Difícil de
Programar

MapReduce
(2004)
Google, Inc.
Fácil de
Programar

http://theory.stanford.edu/~sergei/papers/soda10-mrc.pdf
http://www.sciencedirect.com/science/article/pii/S1877050912001470
http://research.google.com/archive/mapreduce.html

@abxda
#BigDataHuejutla

MapReduce

Cientos o Miles
De Computadoras

Cientos o Miles
De Computadoras

http://research.google.com/archive/mapreduce.html

@abxda
#BigDataHuejutla

MapReduce
(Pseudocódigo para contar palabras)
map(String input_key, String input_value):
// input_key: document name
// input_value: document contents
for each word w in input_value:
EmitIntermediate(w, "1");

reduce(String output_key, Iterator intermediate_values):
// output_key: a word
// output_values: a list of counts
int result = 0;
for each v in intermediate_values:
result += ParseInt(v);
Emit(AsString(result));

@abxda
#BigDataHuejutla

Herramientas
STANDALONE
MULTICORE

CLUSTER
BIG DATA

PARALLEL PROGRAMMING

PARALLEL PROGRAMMING

HADOOP
MAPREDUCE
SCALA,PYTHON,JAVA

SPARK
Resilient Distributed Datasets (RDD)
SCALA,PYTHON,JAVA
• FAULT TOLERANCE
• LOAD BALANCING
• SYNCHRONISATION

R

http://hadoop.apache.org/
http://spark.incubator.apache.org/

PYTHON

JAVA

• FAULT TOLERANCE
• LOAD BALANCING
• SYNCHRONISATION
R

PYTHON

JAVA

@abxda
#BigDataHuejutla

Spark una plataforma Big Data

https://amplab.cs.berkeley.edu/software/
http://strataconf.com/strata2013/public/schedule/detail/27438

@abxda
#BigDataHuejutla

Ciencia de Datos en Acción

www.inegi.org.mx/est/contenidos/Proyectos/estratificador/

@abxda
#BigDataHuejutla

Tecnologías Involucradas

@abxda
#BigDataHuejutla

Big Data en el Laboratorio

@abxda
#BigDataHuejutla

Tecnologías Involucradas

@abxda
#BigDataHuejutla

Spark y MLBase

import org.apache.spark.mllib.clustering._
val manzanas = sc.textFile("/Users/abxda/…/datos.csv")
val subconjunto = manzanas.map(manzana => extractColumn(manzana))
points_nacional.cache
var modelo = KMeans.train(subconjunto, k=5, maxIterations=10)
val out = new PrintWriter("/Users/abxda/…/salida.csv")
subconjunto.collect.foreach(x => out.println(modelo.predict(x)))
out.close()

@abxda
#BigDataHuejutla

Shark
select
estrato,
avg(p_autom),
avg(p_pc),
avg(p_cel),
avg(p_inter),
count(*)
from salida group by estrato;

estrato
4
3
2
1
0

p_autom
0.536577059
0.851219807
0.254049418
0.20981258
0.693759231

0.9

0.8

0.7

0.6
4
0.5

3
2

0.4

1
0

0.3

0.2

0.1

0
p_autom

p_pc
0.46087735
0.777557128
0.139711048
0.055136755
0.176546203

p_cel
0.76176366
0.833951292
0.683405158
0.160281722
0.788936165

p_inter
0.340057367
0.712273104
0.076031984
0.030043591
0.084017414

p_pc

p_cel

p_inter

count(*)
308206
192934
376060
169243
174737
1’221,180

@abxda
#BigDataHuejutla

Promedios por variable

@abxda
#BigDataHuejutla

Equipo Big Data
– Cientificos de Datos, expertos en integracion de soluciones Big
Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística).
– Estadísticos, expertos en modelado estadistico, enfoque en
aprendizaje estadístico (R).
– Desarrolladores de Software, expertos en desarrollo de software
(JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s
REST).
– Diseñadores Gráficos, expertos en presentación de información
(HTML5, CSS3, JavaScript, Twitter Bootstrap).
– Administradores de Sistemas, expertos en arquitecturas de
computo, infraestructura. Desde redes a clusters de computadoras
(Linux).
@abxda
#BigDataHuejutla

La tarea
• Programación funcional
– Scala
– Akka

• Estadística
–
–
–
–

Probabilidad y Estadística
Muestreo
Machine Learning
R

• Almacenes de Datos NoSQL
–
–
–
–

Cassandra
MongoDB
Hbase
Neo4j

• Plataformas Big Data
– Hadoop
– Spark

• Visualización de Datos
– D3.js

@abxda
GRACIAS

Abel Alejandro Coronado Iruegas
Twitter : @abxda
http://abxda.wordpress.com/

More Related Content

What's hot

What's hot (15)

Big Data: Revelando los Secretos de Twitter en México
Big Data: Revelando los Secretos de Twitter en MéxicoBig Data: Revelando los Secretos de Twitter en México
Big Data: Revelando los Secretos de Twitter en México
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 
Big data lead colmex
Big data lead colmexBig data lead colmex
Big data lead colmex
 
Realidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en MéxicoRealidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en México
 
Explorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUsExplorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUs
 
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIEjemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache SparkTaller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
 
Big data big opportunities
Big data big opportunitiesBig data big opportunities
Big data big opportunities
 
Big data
Big dataBig data
Big data
 
Innovación Amazon
Innovación AmazonInnovación Amazon
Innovación Amazon
 
Introducción al BigData con Hadoop
Introducción al BigData con HadoopIntroducción al BigData con Hadoop
Introducción al BigData con Hadoop
 
Visualización de datos: Comunicación para la era del big data
Visualización de datos: Comunicación para la era del big data Visualización de datos: Comunicación para la era del big data
Visualización de datos: Comunicación para la era del big data
 
R project nube (1)
R project nube (1)R project nube (1)
R project nube (1)
 

Similar to Que es big data huejutla uaeh

Big Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuroBig Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuro
Antonio González Castro
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
mateo luquez
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
CICE, La Escuela Profesional de Nuevas Tecnologías
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
CICE
 

Similar to Que es big data huejutla uaeh (20)

Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
BigData
BigDataBigData
BigData
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Big Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuroBig Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuro
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData
 
Big Data Business
Big Data BusinessBig Data Business
Big Data Business
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdf
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UABBig data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Claves para entender el actual big data
Claves para entender el actual big dataClaves para entender el actual big data
Claves para entender el actual big data
 
Big Data
Big DataBig Data
Big Data
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 

More from Abel Alejandro Coronado Iruegas

More from Abel Alejandro Coronado Iruegas (14)

Mobility Master Class.pdf
Mobility Master Class.pdfMobility Master Class.pdf
Mobility Master Class.pdf
 
Live UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de MexicoLive UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de Mexico
 
Cubo de datos uaemex
Cubo de datos uaemexCubo de datos uaemex
Cubo de datos uaemex
 
Geo Big Data 4 Datalab
Geo Big Data 4 DatalabGeo Big Data 4 Datalab
Geo Big Data 4 Datalab
 
Catedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBEROCatedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBERO
 
Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...
 
Machine learning and Satellite Images
Machine learning and Satellite ImagesMachine learning and Satellite Images
Machine learning and Satellite Images
 
El Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de MexicoEl Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de Mexico
 
No Sql
No SqlNo Sql
No Sql
 
Cubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de MexicoCubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de Mexico
 
Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0
 
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAnalisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
 
INEGI ESS big data workshop
INEGI ESS big data workshopINEGI ESS big data workshop
INEGI ESS big data workshop
 
Scala 1
Scala 1Scala 1
Scala 1
 

Que es big data huejutla uaeh