Your SlideShare is downloading. ×
Que es big data huejutla uaeh
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Que es big data huejutla uaeh

182
views

Published on

¿Qué es Big Data?

¿Qué es Big Data?


0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
182
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. #BigDataHuejutla http://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg @abxda
  • 2. #BigDataHuejutla http://www.wordle.net @abxda
  • 3. #BigDataHuejutla Según Gartner: Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making. Big Data es la Información en grandes volúmenes, grandes velocidades y gran variedad que demanda formas de procesamiento innovadoras y viables económicamente que permitan mejorar la comprensión profunda y la toma de decisiones. http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda
  • 4. #BigDataHuejutla Big Data y Ciencia de Datos ¿quién? ¿cuántos? ¿por qué? ¿qué? ¿dónde? Internet de las Cosas Internet de las Personas Volumen Internet de las Ideas Internet de todo … Datos Crudos Ciencia de Datos (Transforma =>) Información (Significado) Análisis de Datos Estadística Minería de Datos http://www.datascienceassn.org/ http://en.wikipedia.org/wiki/DIKW_Pyramid Machine Learning Análisis de Redes (Grafos) Muestreo Estratificaciones Mucho mas… Análisis de Regresión Tomar Decisiones Y Actuar @abxda
  • 5. #BigDataHuejutla Científico de Datos C# Python Scala Java R http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram @abxda
  • 6. #BigDataHuejutla ¿Qué tanto es tantito? 8 Bits = 1Byte 1024 Bytes = 1 Kilobyte 1024 Kilobytes = 1 Megabyte 1024 Megabytes = 1 Gigabyte 1024 Gigabytes = 1 Terabyte 1024 Terabytes = 1 Petabyte 1024 Petabytes = 1 Exabyte @abxda
  • 7. #BigDataHuejutla Era Multicore 35 años de Historia del Microprocesador Primavera 2005 Inicia la era multicore Diciembre 2004 -> MapReduce @abxda
  • 8. #BigDataHuejutla Computo en Paralelo Difícil de Programar MapReduce (2004) Google, Inc. Fácil de Programar http://theory.stanford.edu/~sergei/papers/soda10-mrc.pdf http://www.sciencedirect.com/science/article/pii/S1877050912001470 http://research.google.com/archive/mapreduce.html @abxda
  • 9. #BigDataHuejutla MapReduce Cientos o Miles De Computadoras Cientos o Miles De Computadoras http://research.google.com/archive/mapreduce.html @abxda
  • 10. #BigDataHuejutla MapReduce (Pseudocódigo para contar palabras) map(String input_key, String input_value): // input_key: document name // input_value: document contents for each word w in input_value: EmitIntermediate(w, "1"); reduce(String output_key, Iterator intermediate_values): // output_key: a word // output_values: a list of counts int result = 0; for each v in intermediate_values: result += ParseInt(v); Emit(AsString(result)); @abxda
  • 11. #BigDataHuejutla Herramientas STANDALONE MULTICORE CLUSTER BIG DATA PARALLEL PROGRAMMING PARALLEL PROGRAMMING HADOOP MAPREDUCE SCALA,PYTHON,JAVA SPARK Resilient Distributed Datasets (RDD) SCALA,PYTHON,JAVA • FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION R http://hadoop.apache.org/ http://spark.incubator.apache.org/ PYTHON JAVA • FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION R PYTHON JAVA @abxda
  • 12. #BigDataHuejutla Spark una plataforma Big Data https://amplab.cs.berkeley.edu/software/ http://strataconf.com/strata2013/public/schedule/detail/27438 @abxda
  • 13. #BigDataHuejutla Ciencia de Datos en Acción www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
  • 14. #BigDataHuejutla Tecnologías Involucradas @abxda
  • 15. #BigDataHuejutla Big Data en el Laboratorio @abxda
  • 16. #BigDataHuejutla Tecnologías Involucradas @abxda
  • 17. #BigDataHuejutla Spark y MLBase import org.apache.spark.mllib.clustering._ val manzanas = sc.textFile("/Users/abxda/…/datos.csv") val subconjunto = manzanas.map(manzana => extractColumn(manzana)) points_nacional.cache var modelo = KMeans.train(subconjunto, k=5, maxIterations=10) val out = new PrintWriter("/Users/abxda/…/salida.csv") subconjunto.collect.foreach(x => out.println(modelo.predict(x))) out.close() @abxda
  • 18. #BigDataHuejutla Shark select estrato, avg(p_autom), avg(p_pc), avg(p_cel), avg(p_inter), count(*) from salida group by estrato; estrato 4 3 2 1 0 p_autom 0.536577059 0.851219807 0.254049418 0.20981258 0.693759231 0.9 0.8 0.7 0.6 4 0.5 3 2 0.4 1 0 0.3 0.2 0.1 0 p_autom p_pc 0.46087735 0.777557128 0.139711048 0.055136755 0.176546203 p_cel 0.76176366 0.833951292 0.683405158 0.160281722 0.788936165 p_inter 0.340057367 0.712273104 0.076031984 0.030043591 0.084017414 p_pc p_cel p_inter count(*) 308206 192934 376060 169243 174737 1’221,180 @abxda
  • 19. #BigDataHuejutla Promedios por variable @abxda
  • 20. #BigDataHuejutla Equipo Big Data – Cientificos de Datos, expertos en integracion de soluciones Big Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística). – Estadísticos, expertos en modelado estadistico, enfoque en aprendizaje estadístico (R). – Desarrolladores de Software, expertos en desarrollo de software (JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s REST). – Diseñadores Gráficos, expertos en presentación de información (HTML5, CSS3, JavaScript, Twitter Bootstrap). – Administradores de Sistemas, expertos en arquitecturas de computo, infraestructura. Desde redes a clusters de computadoras (Linux). @abxda
  • 21. #BigDataHuejutla La tarea • Programación funcional – Scala – Akka • Estadística – – – – Probabilidad y Estadística Muestreo Machine Learning R • Almacenes de Datos NoSQL – – – – Cassandra MongoDB Hbase Neo4j • Plataformas Big Data – Hadoop – Spark • Visualización de Datos – D3.js @abxda
  • 22. GRACIAS Abel Alejandro Coronado Iruegas Twitter : @abxda http://abxda.wordpress.com/

×