¿Qué es big data?
Upcoming SlideShare
Loading in...5
×
 

¿Qué es big data?

on

  • 562 views

Un ejercicio de compartir hallazgos sobre el tema de Big Data

Un ejercicio de compartir hallazgos sobre el tema de Big Data

Statistics

Views

Total Views
562
Views on SlideShare
403
Embed Views
159

Actions

Likes
0
Downloads
3
Comments
0

5 Embeds 159

http://abxda.wordpress.com 143
https://twitter.com 6
https://abxda.wordpress.com 6
http://www.linkedin.com 3
https://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

¿Qué es big data? ¿Qué es big data? Presentation Transcript

  • #sgvirtual http://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg @abxda
  • #sgvirtual @abxda
  • #sgvirtual Según Gartner: Big data is high-volume, high-velocity and highvariety information assets that demand costeffective, innovative forms of information processing for enhanced insight and decision making. http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda
  • #sgvirtual Big Data y Ciencia de Datos ¿quién? ¿cuántos? ¿por qué? ¿qué? ¿dónde? Internet de las Cosas Internet de las Personas Volumen Internet de las Ideas Internet de todo … Datos Crudos Ciencia de Datos (Transforma =>) Información (Significado) Análisis de Datos Estadística Minería de Datos http://www.datascienceassn.org/ http://en.wikipedia.org/wiki/DIKW_Pyramid Machine Learning Análisis de Redes (Grafos) Muestreo Estratificaciones Mucho mas… Análisis de Regresión Tomar Decisiones Y Actuar @abxda
  • #sgvirtual Científico de Datos http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram @abxda
  • #sgvirtual ¿Qué tanto es tantito? 8 Bits = 1Byte 1024 Bytes = 1 Kilobyte 1024 Kilobytes = 1 Megabyte 1024 Megabytes = 1 Gigabyte 1024 Gigabytes = 1 Terabyte 1024 Terabytes = 1 Petabyte 1024 Petabytes = 1 Exabyte @abxda
  • #sgvirtual Era Multicore 35 años de Historia del Microprocesador Primavera 2005 Inicia la era multicore Diciembre 2004 -> MapReduce @abxda
  • #sgvirtual Computo en Paralelo Difícil de Programar MapReduce (2004) Google, Inc. Fácil de Programar http://theory.stanford.edu/~sergei/papers/soda10-mrc.pdf http://www.sciencedirect.com/science/article/pii/S1877050912001470 http://research.google.com/archive/mapreduce.html @abxda
  • #sgvirtual MapReduce Cientos o Miles De Computadoras Cientos o Miles De Computadoras http://research.google.com/archive/mapreduce.html @abxda
  • #sgvirtual MapReduce (Pseudocódigo para contar palabras) map(String input_key, String input_value): // input_key: document name // input_value: document contents for each word w in input_value: EmitIntermediate(w, "1"); reduce(String output_key, Iterator intermediate_values): // output_key: a word // output_values: a list of counts int result = 0; for each v in intermediate_values: result += ParseInt(v); Emit(AsString(result)); @abxda
  • #sgvirtual Herramientas STANDALONE MULTICORE CLUSTER BIG DATA PARALLEL PROGRAMMING PARALLEL PROGRAMMING HADOOP MAPREDUCE SCALA,PYTHON,JAVA SPARK RDD, MAPREDUCE SCALA,PYTHON,JAVA • FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION R http://hadoop.apache.org/ http://spark.incubator.apache.org/ PYTHON JAVA • FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION R PYTHON JAVA @abxda
  • #sgvirtual Spark una plataforma Big Data https://amplab.cs.berkeley.edu/software/ http://strataconf.com/strata2013/public/schedule/detail/27438 @abxda
  • #sgvirtual Ciencia de Datos en Acción www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
  • #sgvirtual Tecnologías Involucradas @abxda
  • #sgvirtual Big Data en el Laboratorio @abxda
  • #sgvirtual Tecnologías Involucradas @abxda
  • #sgvirtual Spark y MLBase import org.apache.spark.mllib.clustering._ val manzanas = sc.textFile("/Users/abxda/…/datos.csv") val subconjunto = manzanas.map(manzana => extractColumn(manzana)) points_nacional.cache var modelo = KMeans.train(subconjunto, k=5, maxIterations=10) val out = new PrintWriter("/Users/abxda/…/salida.csv") subconjunto.collect.foreach(x => out.println(modelo.predict(x))) out.close() @abxda
  • #sgvirtual Shark select estrato, avg(p_autom), avg(p_pc), avg(p_cel), avg(p_inter), count(*) from salida group by estrato; estrato 4 3 2 1 0 p_autom 0.536577059 0.851219807 0.254049418 0.20981258 0.693759231 0.9 0.8 0.7 0.6 4 0.5 3 2 0.4 1 0 0.3 0.2 0.1 0 p_autom p_pc 0.46087735 0.777557128 0.139711048 0.055136755 0.176546203 p_cel 0.76176366 0.833951292 0.683405158 0.160281722 0.788936165 p_inter 0.340057367 0.712273104 0.076031984 0.030043591 0.084017414 p_pc p_cel p_inter count(*) 308206 192934 376060 169243 174737 1’221,180 @abxda
  • #sgvirtual Promedios por variable @abxda
  • #sgvirtual Equipo Big Data – Cientificos de Datos, expertos en integracion de soluciones Big Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística). – Estadisticos, expertos en modelado estadistico, enfoque en aprendizaje estadístico (R). – Desarrolladores de Software, expertos en desarrollo de software (JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s REST). – Diseñadores Gráficos, expertos en presentación de información (HTML5, CSS3, JavaScript, Twitter Bootstrap). – Administradores de Sistemas, expertos en arquitecturas de computo, infraestructura. Desde redes a clusters de computadoras (Linux). @abxda
  • #sgvirtual La tarea • Programación funcional – Scala – Akka • Estadística – – – – Probabilidad y Estadística Muestreo Machine Learning R • Almacenes de Datos NoSQL – – – – Cassandra MongoDB Hbase Neo4j • Plataformas Big Data – Hadoop – Spark • Visualización de Datos – D3.js @abxda
  • GRACIAS Abel Alejandro Coronado Iruegas Twitter : @abxda http://abxda.wordpress.com/