#sgvirtual

http://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg

@abxda
#sgvirtual

@abxda
#sgvirtual

Según Gartner:
Big data is high-volume, high-velocity and highvariety information assets that demand costeffec...
#sgvirtual

Big Data y Ciencia de Datos
¿quién?
¿cuántos?
¿por qué?
¿qué?
¿dónde?

Internet de las Cosas

Internet de las ...
#sgvirtual

Científico de Datos

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

@abxda
#sgvirtual

¿Qué tanto es tantito?
8 Bits = 1Byte
1024 Bytes = 1 Kilobyte
1024 Kilobytes = 1 Megabyte
1024 Megabytes = 1 G...
#sgvirtual

Era Multicore
35 años de Historia del Microprocesador

Primavera 2005 Inicia la era multicore
Diciembre 2004 -...
#sgvirtual

Computo en Paralelo

Difícil de
Programar

MapReduce
(2004)
Google, Inc.
Fácil de
Programar

http://theory.sta...
#sgvirtual

MapReduce

Cientos o Miles
De Computadoras

Cientos o Miles
De Computadoras

http://research.google.com/archiv...
#sgvirtual

MapReduce
(Pseudocódigo para contar palabras)
map(String input_key, String input_value):
// input_key: documen...
#sgvirtual

Herramientas
STANDALONE
MULTICORE

CLUSTER
BIG DATA

PARALLEL PROGRAMMING

PARALLEL PROGRAMMING

HADOOP
MAPRED...
#sgvirtual

Spark una plataforma Big Data

https://amplab.cs.berkeley.edu/software/
http://strataconf.com/strata2013/publi...
#sgvirtual

Ciencia de Datos en Acción

www.inegi.org.mx/est/contenidos/Proyectos/estratificador/

@abxda
#sgvirtual

Tecnologías Involucradas

@abxda
#sgvirtual

Big Data en el Laboratorio

@abxda
#sgvirtual

Tecnologías Involucradas

@abxda
#sgvirtual

Spark y MLBase

import org.apache.spark.mllib.clustering._
val manzanas = sc.textFile("/Users/abxda/…/datos.cs...
#sgvirtual

Shark
select
estrato,
avg(p_autom),
avg(p_pc),
avg(p_cel),
avg(p_inter),
count(*)
from salida group by estrato...
#sgvirtual

Promedios por variable

@abxda
#sgvirtual

Equipo Big Data
– Cientificos de Datos, expertos en integracion de soluciones Big
Data (MapReduce, Scala, Mach...
#sgvirtual

La tarea
• Programación funcional
– Scala
– Akka

• Estadística
–
–
–
–

Probabilidad y Estadística
Muestreo
M...
GRACIAS

Abel Alejandro Coronado Iruegas
Twitter : @abxda
http://abxda.wordpress.com/
¿Qué es big data?
¿Qué es big data?
Upcoming SlideShare
Loading in...5
×

¿Qué es big data?

863

Published on

Un ejercicio de compartir hallazgos sobre el tema de Big Data

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
863
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

¿Qué es big data?

  1. 1. #sgvirtual http://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg @abxda
  2. 2. #sgvirtual @abxda
  3. 3. #sgvirtual Según Gartner: Big data is high-volume, high-velocity and highvariety information assets that demand costeffective, innovative forms of information processing for enhanced insight and decision making. http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda
  4. 4. #sgvirtual Big Data y Ciencia de Datos ¿quién? ¿cuántos? ¿por qué? ¿qué? ¿dónde? Internet de las Cosas Internet de las Personas Volumen Internet de las Ideas Internet de todo … Datos Crudos Ciencia de Datos (Transforma =>) Información (Significado) Análisis de Datos Estadística Minería de Datos http://www.datascienceassn.org/ http://en.wikipedia.org/wiki/DIKW_Pyramid Machine Learning Análisis de Redes (Grafos) Muestreo Estratificaciones Mucho mas… Análisis de Regresión Tomar Decisiones Y Actuar @abxda
  5. 5. #sgvirtual Científico de Datos http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram @abxda
  6. 6. #sgvirtual ¿Qué tanto es tantito? 8 Bits = 1Byte 1024 Bytes = 1 Kilobyte 1024 Kilobytes = 1 Megabyte 1024 Megabytes = 1 Gigabyte 1024 Gigabytes = 1 Terabyte 1024 Terabytes = 1 Petabyte 1024 Petabytes = 1 Exabyte @abxda
  7. 7. #sgvirtual Era Multicore 35 años de Historia del Microprocesador Primavera 2005 Inicia la era multicore Diciembre 2004 -> MapReduce @abxda
  8. 8. #sgvirtual Computo en Paralelo Difícil de Programar MapReduce (2004) Google, Inc. Fácil de Programar http://theory.stanford.edu/~sergei/papers/soda10-mrc.pdf http://www.sciencedirect.com/science/article/pii/S1877050912001470 http://research.google.com/archive/mapreduce.html @abxda
  9. 9. #sgvirtual MapReduce Cientos o Miles De Computadoras Cientos o Miles De Computadoras http://research.google.com/archive/mapreduce.html @abxda
  10. 10. #sgvirtual MapReduce (Pseudocódigo para contar palabras) map(String input_key, String input_value): // input_key: document name // input_value: document contents for each word w in input_value: EmitIntermediate(w, "1"); reduce(String output_key, Iterator intermediate_values): // output_key: a word // output_values: a list of counts int result = 0; for each v in intermediate_values: result += ParseInt(v); Emit(AsString(result)); @abxda
  11. 11. #sgvirtual Herramientas STANDALONE MULTICORE CLUSTER BIG DATA PARALLEL PROGRAMMING PARALLEL PROGRAMMING HADOOP MAPREDUCE SCALA,PYTHON,JAVA SPARK RDD, MAPREDUCE SCALA,PYTHON,JAVA • FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION R http://hadoop.apache.org/ http://spark.incubator.apache.org/ PYTHON JAVA • FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION R PYTHON JAVA @abxda
  12. 12. #sgvirtual Spark una plataforma Big Data https://amplab.cs.berkeley.edu/software/ http://strataconf.com/strata2013/public/schedule/detail/27438 @abxda
  13. 13. #sgvirtual Ciencia de Datos en Acción www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
  14. 14. #sgvirtual Tecnologías Involucradas @abxda
  15. 15. #sgvirtual Big Data en el Laboratorio @abxda
  16. 16. #sgvirtual Tecnologías Involucradas @abxda
  17. 17. #sgvirtual Spark y MLBase import org.apache.spark.mllib.clustering._ val manzanas = sc.textFile("/Users/abxda/…/datos.csv") val subconjunto = manzanas.map(manzana => extractColumn(manzana)) points_nacional.cache var modelo = KMeans.train(subconjunto, k=5, maxIterations=10) val out = new PrintWriter("/Users/abxda/…/salida.csv") subconjunto.collect.foreach(x => out.println(modelo.predict(x))) out.close() @abxda
  18. 18. #sgvirtual Shark select estrato, avg(p_autom), avg(p_pc), avg(p_cel), avg(p_inter), count(*) from salida group by estrato; estrato 4 3 2 1 0 p_autom 0.536577059 0.851219807 0.254049418 0.20981258 0.693759231 0.9 0.8 0.7 0.6 4 0.5 3 2 0.4 1 0 0.3 0.2 0.1 0 p_autom p_pc 0.46087735 0.777557128 0.139711048 0.055136755 0.176546203 p_cel 0.76176366 0.833951292 0.683405158 0.160281722 0.788936165 p_inter 0.340057367 0.712273104 0.076031984 0.030043591 0.084017414 p_pc p_cel p_inter count(*) 308206 192934 376060 169243 174737 1’221,180 @abxda
  19. 19. #sgvirtual Promedios por variable @abxda
  20. 20. #sgvirtual Equipo Big Data – Cientificos de Datos, expertos en integracion de soluciones Big Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística). – Estadisticos, expertos en modelado estadistico, enfoque en aprendizaje estadístico (R). – Desarrolladores de Software, expertos en desarrollo de software (JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s REST). – Diseñadores Gráficos, expertos en presentación de información (HTML5, CSS3, JavaScript, Twitter Bootstrap). – Administradores de Sistemas, expertos en arquitecturas de computo, infraestructura. Desde redes a clusters de computadoras (Linux). @abxda
  21. 21. #sgvirtual La tarea • Programación funcional – Scala – Akka • Estadística – – – – Probabilidad y Estadística Muestreo Machine Learning R • Almacenes de Datos NoSQL – – – – Cassandra MongoDB Hbase Neo4j • Plataformas Big Data – Hadoop – Spark • Visualización de Datos – D3.js @abxda
  22. 22. GRACIAS Abel Alejandro Coronado Iruegas Twitter : @abxda http://abxda.wordpress.com/
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×