Big data: Valor y Mercado
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Big data: Valor y Mercado

  • 836 views
Uploaded on

¿Dónde se pueden aplicar soluciones Big Data? ¿Cuál es el Valor que aporta? ¿Qué herramientas se usan? ¿Hay que usar siempre Big Data?

¿Dónde se pueden aplicar soluciones Big Data? ¿Cuál es el Valor que aporta? ¿Qué herramientas se usan? ¿Hay que usar siempre Big Data?

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
836
On Slideshare
830
From Embeds
6
Number of Embeds
3

Actions

Shares
Downloads
34
Comments
0
Likes
2

Embeds 6

https://twitter.com 4
https://www.linkedin.com 1
http://www.slideee.com 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Big Data Valor y Mercado Óscar Marín Miró @outliers_es www.outliers.es 1
  • 2. Contenidos ¿Qué es Big Data? ‣Historia ‣Las 3 V’s ‣Problema, Solución y Fenómeno Valor del Big Data ‣Los Gigantes de la Generación de Datos ‣Nadamos en un mar de datos ‣Sectores de Aplicación Pitfalls ‣Data vs Big Data ‣Data Science vs Big Data ‣Costes ocultos Herramientas +Escenarios ‣Ecosistema Hadoop ‣NoSQL ‣Real-time Bibliografía 2
  • 3. ¿Qué es el Big Data? “Data will help us” - Jonathan Harris 3
  • 4. Historia http:/ /assets.outliers.es/infographics/BigData_A_Brief_History.pdf 4
  • 5. ¿Qué es el Big Data? “Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications” http://en.wikipedia.org/wiki/Big_data 5
  • 6. ¿Qué es el Big Data? - Big Data y las 3 ‘V’ - Velocidad Volumen Variedad http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-DataVolume-Velocity-and-Variety.pdf 6
  • 7. ¿Qué es el Big Data? (de verdad) - Twitter: 340 millones de tweets diarios (~= 1TB/día) - Facebook: 800 millones de status diarios - Google: 1000 millones de consultas diarias http:/ /www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocityand-volume-from-structuredata-2012 7
  • 8. ¿Qué es el Big Data? (de verdad) Explosión de Uso Explosión Social Explosión Móvil 8
  • 9. Big Data: Dimensiones ‣Problema: 3 V’s ‣Solución: Herramientas ‣Fenómeno: Posibilidades 9
  • 10. El Valor de Big Data http://labratrevenge.com/pdx 10
  • 11. El Valor de Big Data http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg 11
  • 12. El Valor de Big Data: Big Data Analysis ‣Estadístico ‣Texto ‣Análisis de Redes Sociales ‣Análisis GeoEspacial 12
  • 13. El Valor de Big Data: Ámbitos de Aplicación ‣Marketing/Publicidad/Comunicación ‣Customer Insights ‣Growth Hacking ‣Salud ‣Escalabilidad 13
  • 14. El Valor de Big Data: Publicidad https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf 14
  • 15. El Valor de Big Data: Customer Insights http://innovabbva.outliers.es/mapas.html 15
  • 16. El Valor de Big Data: Growth Hacking ‣Impactos de tests A/B ‣Incrementar el Retention Rate ‣Incrementar los leads ‣Incremental el engagement 16
  • 17. El Valor de Big Data: Growth Hacking https://www.youtube.com/watch?v=eqeS8US10_k 17
  • 18. El Valor de Big Data: Salud https://www.23andme.com/ancestry/ 18
  • 19. El Valor de Big Data Ciencias Sociales http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/ #network-type-6-support-network 19
  • 20. El Valor de Big Data: Publicidad http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html 20
  • 21. El Valor de Big Data Escalabilidad http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare 21
  • 22. El Valor de Big Data Antropología http://www.ted.com/talks/what_we_learned_from_5_million_books.html http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/ 22
  • 23. El Valor de Big Data Urbanismo http://bcnbeats.outliers.es/ 23
  • 24. Big Data Pitfalls 24
  • 25. Big Data vs Data ‣Big Data ~= MB/s o volúmenes de TB ‣El 90% de los trabajos hablan de Big Data y quieren decir Data ‣No es lo mismo coger datos de Twitter que ser Twitter ‣Se confunde el fenómeno con el problema 25
  • 26. Data Science vs Big Data ‣Técnicamente: ‣Data Science crea modelos ‣Big Data provee de infraestructura ‣En la práctica: ‣Si creas un modelo a partir de una muestra de Big Data haces Big Data ‣Los perfiles son COMPLETAMENTE diferentes!! ‣Big Data sin Data Science no es NADA 26
  • 27. Big Data: Costes Ocultos ‣Computer Science First, Big Data Second!! ‣Probar en muestras significativas, SIEMPRE ‣Llegar hasta la presentación de los datos con la muestra, lo más rápido posible ‣Funcionar con hipótesis 27
  • 28. Herramientas 28
  • 29. El ecosistema Hadoop ¿Qué es un Cluster Hadoop? Un conjunto de servidores (nodos), sobre el que se ejecutan procesos MapReduce y que comparten datos mediante HDFS (Hadoop Distributed File System 29
  • 30. Ecosistema Hadoop MAPREDUCE: Divide y vencerás MAP: Función de procesado. Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’ La función ‘map’ es sin estado REDUCE Función de reducción La salida del map es la entrada del reduce Se usa para consolidar y eliminar redundancias 30
  • 31. Ecosistema Hadoop MAPREDUCE: Contar las palabras de un fichero MAP: < Hello, 1> < World, 1> < Bye, 1> < World, 1> REDUCE: < Hello, 1> < World, 2> < Bye, 1> 31
  • 32. Ecosistema Hadoop MAPREDUCE: Control ‣ Se ejecutan ‘jobs’ que el framework divide en ‘tasks’ ‣ Master JobTracker ‣ TaskTracker por nodo 32
  • 33. Ecosistema Hadoop HDFS ‣ Implementa un único sistema de ficheros ‘juntando las capacidades’ de todos los nodos ‣ Es transparente para el programador ‣ Se implementa tolerancia a fallos con nodos de ‘backup’ 33
  • 34. Ecosistema Hadoop HDFS http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfsand-mapreduce/ 34
  • 35. Ecosistema Hadoop http://oreilly.com/data/radarreports/planning-for-big-data.csp 35
  • 36. Soluciones NoSQL VS 36
  • 37. Soluciones NoSQL: MongoDB 37
  • 38. Problemas de las BBDD relacionales ‣ Leer datos completos es costoso (‘joins’) ‣ Transacciones (‘integridad’) ‣ Escalabilidad ‣ Cambio del modelo de datos (migraciones) 38
  • 39. Soluciones NoSQL ‣ Almacenes clave-valor (Redis, BerkeleyDB, Tokyo Cabinet) ‣ Orientadas a documento (MongoDB, CouchDB, ElasticSearch, Solr) ‣ Orientadas a columnas (Cassandra, HBase, BigTable) 39
  • 40. Real-time processing ‣ Batch vs Real-time ‣ Hadoop anclado en Java ‣ Spark (Scala) ‣ Storm (Clojure) http://www.ibm.com/developerworks/library/os-spark/#resources 40
  • 41. Outliers Collective: Nuestras Herramientas ‣ Visualización: D3.js ‣ Análisis: ‣ Texto: Python + Pattern ‣ Redes: Networkx + Gephi ‣ Estadística: R ‣ Persistencia: MongoDB, ElasticSearch ‣ 41
  • 42. Trabajos y ejemplos http://assets.outliers.es/15memociones/ 42
  • 43. Outliers Collective+Prodigioso Volcán, 2014 http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/ 43
  • 44. Outliers Collective, 2012 http://www.324.cat/eleccions-catalunya-2012/tuitometre 44
  • 45. En Paradigma Tecnológico, 2009-2011 http://www.paginasamarillas.es/ 45
  • 46. En Paradigma Tecnológico, 2008 http://www.lainformacion.com/ 46
  • 47. Outliers Collective y Yolanda Quintana, 2013 http://viralgezi.outliers.es/ 47
  • 48. Outliers Collective, Alberto González Paje, Rafael Höhr, 2013 http://innovabbva.outliers.es/ 48
  • 49. Outliers Collective, 2013 http://flocker.outliers.es 49
  • 50. Outliers Collective + Alberto González, 2013 http://assets.outliers.es/SocialGood/ 50
  • 51. Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013 http://vimeo.com/71084828 http://bcnbeats.outliers.es/ 51
  • 52. #LoQueCrece: IdeasForChange + Outliers Collective 52
  • 53. Referencias http://www.goodreads.com/shelf/show/big-data 53
  • 54. ¿Preguntas? ¡Gracias por el interés! 54