Big data: Valor y Mercado

1,642 views

Published on

¿Dónde se pueden aplicar soluciones Big Data? ¿Cuál es el Valor que aporta? ¿Qué herramientas se usan? ¿Hay que usar siempre Big Data?

Published in: Technology

Big data: Valor y Mercado

  1. 1. Big Data Valor y Mercado Óscar Marín Miró @outliers_es www.outliers.es 1
  2. 2. Contenidos ¿Qué es Big Data? ‣Historia ‣Las 3 V’s ‣Problema, Solución y Fenómeno Valor del Big Data ‣Los Gigantes de la Generación de Datos ‣Nadamos en un mar de datos ‣Sectores de Aplicación Pitfalls ‣Data vs Big Data ‣Data Science vs Big Data ‣Costes ocultos Herramientas +Escenarios ‣Ecosistema Hadoop ‣NoSQL ‣Real-time Bibliografía 2
  3. 3. ¿Qué es el Big Data? “Data will help us” - Jonathan Harris 3
  4. 4. Historia http:/ /assets.outliers.es/infographics/BigData_A_Brief_History.pdf 4
  5. 5. ¿Qué es el Big Data? “Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications” http://en.wikipedia.org/wiki/Big_data 5
  6. 6. ¿Qué es el Big Data? - Big Data y las 3 ‘V’ - Velocidad Volumen Variedad http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-DataVolume-Velocity-and-Variety.pdf 6
  7. 7. ¿Qué es el Big Data? (de verdad) - Twitter: 340 millones de tweets diarios (~= 1TB/día) - Facebook: 800 millones de status diarios - Google: 1000 millones de consultas diarias http:/ /www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocityand-volume-from-structuredata-2012 7
  8. 8. ¿Qué es el Big Data? (de verdad) Explosión de Uso Explosión Social Explosión Móvil 8
  9. 9. Big Data: Dimensiones ‣Problema: 3 V’s ‣Solución: Herramientas ‣Fenómeno: Posibilidades 9
  10. 10. El Valor de Big Data http://labratrevenge.com/pdx 10
  11. 11. El Valor de Big Data http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg 11
  12. 12. El Valor de Big Data: Big Data Analysis ‣Estadístico ‣Texto ‣Análisis de Redes Sociales ‣Análisis GeoEspacial 12
  13. 13. El Valor de Big Data: Ámbitos de Aplicación ‣Marketing/Publicidad/Comunicación ‣Customer Insights ‣Growth Hacking ‣Salud ‣Escalabilidad 13
  14. 14. El Valor de Big Data: Publicidad https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf 14
  15. 15. El Valor de Big Data: Customer Insights http://innovabbva.outliers.es/mapas.html 15
  16. 16. El Valor de Big Data: Growth Hacking ‣Impactos de tests A/B ‣Incrementar el Retention Rate ‣Incrementar los leads ‣Incremental el engagement 16
  17. 17. El Valor de Big Data: Growth Hacking https://www.youtube.com/watch?v=eqeS8US10_k 17
  18. 18. El Valor de Big Data: Salud https://www.23andme.com/ancestry/ 18
  19. 19. El Valor de Big Data Ciencias Sociales http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/ #network-type-6-support-network 19
  20. 20. El Valor de Big Data: Publicidad http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html 20
  21. 21. El Valor de Big Data Escalabilidad http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare 21
  22. 22. El Valor de Big Data Antropología http://www.ted.com/talks/what_we_learned_from_5_million_books.html http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/ 22
  23. 23. El Valor de Big Data Urbanismo http://bcnbeats.outliers.es/ 23
  24. 24. Big Data Pitfalls 24
  25. 25. Big Data vs Data ‣Big Data ~= MB/s o volúmenes de TB ‣El 90% de los trabajos hablan de Big Data y quieren decir Data ‣No es lo mismo coger datos de Twitter que ser Twitter ‣Se confunde el fenómeno con el problema 25
  26. 26. Data Science vs Big Data ‣Técnicamente: ‣Data Science crea modelos ‣Big Data provee de infraestructura ‣En la práctica: ‣Si creas un modelo a partir de una muestra de Big Data haces Big Data ‣Los perfiles son COMPLETAMENTE diferentes!! ‣Big Data sin Data Science no es NADA 26
  27. 27. Big Data: Costes Ocultos ‣Computer Science First, Big Data Second!! ‣Probar en muestras significativas, SIEMPRE ‣Llegar hasta la presentación de los datos con la muestra, lo más rápido posible ‣Funcionar con hipótesis 27
  28. 28. Herramientas 28
  29. 29. El ecosistema Hadoop ¿Qué es un Cluster Hadoop? Un conjunto de servidores (nodos), sobre el que se ejecutan procesos MapReduce y que comparten datos mediante HDFS (Hadoop Distributed File System 29
  30. 30. Ecosistema Hadoop MAPREDUCE: Divide y vencerás MAP: Función de procesado. Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’ La función ‘map’ es sin estado REDUCE Función de reducción La salida del map es la entrada del reduce Se usa para consolidar y eliminar redundancias 30
  31. 31. Ecosistema Hadoop MAPREDUCE: Contar las palabras de un fichero MAP: < Hello, 1> < World, 1> < Bye, 1> < World, 1> REDUCE: < Hello, 1> < World, 2> < Bye, 1> 31
  32. 32. Ecosistema Hadoop MAPREDUCE: Control ‣ Se ejecutan ‘jobs’ que el framework divide en ‘tasks’ ‣ Master JobTracker ‣ TaskTracker por nodo 32
  33. 33. Ecosistema Hadoop HDFS ‣ Implementa un único sistema de ficheros ‘juntando las capacidades’ de todos los nodos ‣ Es transparente para el programador ‣ Se implementa tolerancia a fallos con nodos de ‘backup’ 33
  34. 34. Ecosistema Hadoop HDFS http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfsand-mapreduce/ 34
  35. 35. Ecosistema Hadoop http://oreilly.com/data/radarreports/planning-for-big-data.csp 35
  36. 36. Soluciones NoSQL VS 36
  37. 37. Soluciones NoSQL: MongoDB 37
  38. 38. Problemas de las BBDD relacionales ‣ Leer datos completos es costoso (‘joins’) ‣ Transacciones (‘integridad’) ‣ Escalabilidad ‣ Cambio del modelo de datos (migraciones) 38
  39. 39. Soluciones NoSQL ‣ Almacenes clave-valor (Redis, BerkeleyDB, Tokyo Cabinet) ‣ Orientadas a documento (MongoDB, CouchDB, ElasticSearch, Solr) ‣ Orientadas a columnas (Cassandra, HBase, BigTable) 39
  40. 40. Real-time processing ‣ Batch vs Real-time ‣ Hadoop anclado en Java ‣ Spark (Scala) ‣ Storm (Clojure) http://www.ibm.com/developerworks/library/os-spark/#resources 40
  41. 41. Outliers Collective: Nuestras Herramientas ‣ Visualización: D3.js ‣ Análisis: ‣ Texto: Python + Pattern ‣ Redes: Networkx + Gephi ‣ Estadística: R ‣ Persistencia: MongoDB, ElasticSearch ‣ 41
  42. 42. Trabajos y ejemplos http://assets.outliers.es/15memociones/ 42
  43. 43. Outliers Collective+Prodigioso Volcán, 2014 http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/ 43
  44. 44. Outliers Collective, 2012 http://www.324.cat/eleccions-catalunya-2012/tuitometre 44
  45. 45. En Paradigma Tecnológico, 2009-2011 http://www.paginasamarillas.es/ 45
  46. 46. En Paradigma Tecnológico, 2008 http://www.lainformacion.com/ 46
  47. 47. Outliers Collective y Yolanda Quintana, 2013 http://viralgezi.outliers.es/ 47
  48. 48. Outliers Collective, Alberto González Paje, Rafael Höhr, 2013 http://innovabbva.outliers.es/ 48
  49. 49. Outliers Collective, 2013 http://flocker.outliers.es 49
  50. 50. Outliers Collective + Alberto González, 2013 http://assets.outliers.es/SocialGood/ 50
  51. 51. Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013 http://vimeo.com/71084828 http://bcnbeats.outliers.es/ 51
  52. 52. #LoQueCrece: IdeasForChange + Outliers Collective 52
  53. 53. Referencias http://www.goodreads.com/shelf/show/big-data 53
  54. 54. ¿Preguntas? ¡Gracias por el interés! 54

×