Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB

  • 232 views
Uploaded on

Big Data: ¿Qué es? ¿Qué no es? Ejemplos y herramientas

Big Data: ¿Qué es? ¿Qué no es? Ejemplos y herramientas

More in: Data & Analytics
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
232
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
8
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Big Data Valor y Mercado Óscar Marín Miró @outliers_es www.outliers.es
  • 2. Contenidos ‣Historia ‣Las 3V’s ‣Problema, Solución y Fenómeno ¿Qué es Big Data? Pitfalls ‣Data vs Big Data ‣Data Science vs Big Data ‣Costes ocultos Herramientas +Escenarios ‣Ecosistema Hadoop ‣NoSQL ‣Real-time Valor del Big Data ‣Los Gigantes de la Generación de Datos ‣Nadamos en un mar de datos ‣Sectores de Aplicación Bibliografía
  • 3. ¿Qué es el Big Data? “Data will help us” - Jonathan Harris
  • 4. Historiahttp://assets.outliers.es/infographics/ BigData_A_Brief_History.pdf
  • 5. “Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications” http://en.wikipedia.org/wiki/Big_data ¿Qué es el Big Data?
  • 6. - Big Data y las 3 ‘V’ - Velocidad - Volumen - Variedad http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data- Volume-Velocity-and-Variety.pdf ¿Qué es el Big Data?
  • 7. ! - Twitter: 340 millones de tweets diarios (~= 1TB/día) - Facebook: 800 millones de status diarios - Google: 1000 millones de consultas diarias http://www.slideshare.net/gigaom/the-3vs-of-big-data- variety-velocity-and-volume-from-structuredata-2012 ¿Qué es el Big Data? (de verdad)
  • 8. Explosión de Uso Explosión Social Explosión Móvil ¿Qué es el Big Data? (de verdad)
  • 9. Big Data: Dimensiones ‣Problema: 3V’s ‣Solución: Herramientas ‣Fenómeno: Posibilidades
  • 10. ElValor de Big Data http://labratrevenge.com/pdx
  • 11. http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg ElValordeBigData
  • 12. ElValor de Big Data: Big Data Analysis ‣Estadístico ‣Texto ‣Análisis de Redes Sociales ‣Análisis GeoEspacial
  • 13. ElValor de Big Data: Ámbitos de Aplicación ‣Marketing/Publicidad/Comunicación ‣Customer Insights ‣Growth Hacking ‣Salud ‣Escalabilidad
  • 14. ElValor de Big Data: Publicidad https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf
  • 15. ElValor de Big Data: Customer Insights http://innovabbva.outliers.es/mapas.html
  • 16. ElValor de Big Data: Growth Hacking ‣Impactos de tests A/B ‣Incrementar el Retention Rate ‣Incrementar los leads ‣Incremental el engagement
  • 17. ElValor de Big Data: Growth Hacking https://www.youtube.com/watch?v=eqeS8US10_k
  • 18. ElValor de Big Data: Salud https://www.23andme.com/ancestry/
  • 19. ElValor de Big Data Ciencias Sociales http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/ #network-type-6-support-network
  • 20. ElValor de Big Data: Publicidad http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html
  • 21. ElValor de Big Data Escalabilidad http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare
  • 22. ElValor de Big Data Antropología http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/ http://www.ted.com/talks/what_we_learned_from_5_million_books.html
  • 23. ElValor de Big Data Urbanismo http://bcnbeats.com
  • 24. Big Data Pitfalls
  • 25. Big Data vs Data ‣Big Data ~= MB/s o volúmenes de TB ‣El 90% de los trabajos hablan de Big Data y quieren decir Data ‣No es lo mismo coger datos de Twitter que ser Twitter ‣Se confunde el fenómeno con el problema
  • 26. Data Science vs Big Data ‣Técnicamente: ‣Data Science crea modelos ‣Big Data provee de infraestructura ‣En la práctica: ‣Si creas un modelo a partir de una muestra de Big Data haces Big Data ‣Los perfiles son COMPLETAMENTE diferentes!! ‣Big Data sin Data Science no es NADA
  • 27. Big Data: Costes Ocultos ‣Computer Science First, Big Data Second!! ‣Probar en muestras significativas, SIEMPRE ‣Llegar hasta la presentación de los datos con la muestra, lo más rápido posible ‣Funcionar con hipótesis
  • 28. Herramientas
  • 29. ¿Qué es un Cluster Hadoop? ! Un conjunto de servidores (nodos), sobre el que se ejecutan procesos MapReduce y que comparten datos mediante HDFS (Hadoop Distributed File System El ecosistema Hadoop
  • 30. MAPREDUCE: Divide y vencerás MAP: Función de procesado. Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’ La función ‘map’ es sin estado REDUCE Función de reducción La salida del map es la entrada del reduce Se usa para consolidar y eliminar redundancias Ecosistema Hadoop
  • 31. MAPREDUCE: Contar las palabras de un fichero MAP: < Hello, 1> < World, 1> ! < Bye, 1> < World, 1> REDUCE: < Hello, 1> < World, 2> < Bye, 1> Ecosistema Hadoop
  • 32. MAPREDUCE: Control ! ‣ Se ejecutan ‘jobs’ que el framework divide en ‘tasks’ ‣ Master JobTracker ‣ TaskTracker por nodo Ecosistema Hadoop
  • 33. HDFS ! ‣ Implementa un único sistema de ficheros ‘juntando las capacidades’ de todos los nodos ‣ Es transparente para el programador ‣ Se implementa tolerancia a fallos con nodos de ‘backup’ Ecosistema Hadoop
  • 34. HDFS http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfs- and-mapreduce/ Ecosistema Hadoop
  • 35. http://oreilly.com/data/radarreports/planning-for-big-data.csp Ecosistema Hadoop
  • 36. VS Soluciones NoSQL
  • 37. Soluciones NoSQL: MongoDB
  • 38. Problemas de las BBDD relacionales ! ‣ Leer datos completos es costoso (‘joins’) ‣ Transacciones (‘integridad’) ‣ Escalabilidad ‣ Cambio del modelo de datos (migraciones)
  • 39. Soluciones NoSQL ! ‣ Almacenes clave-valor (Redis, BerkeleyDB, Tokyo Cabinet) ‣ Orientadas a documento (MongoDB, CouchDB, ElasticSearch, Solr) ‣ Orientadas a columnas (Cassandra, HBase, BigTable)
  • 40. Real-time processing ! ‣ Batch vs Real-time ‣ Hadoop anclado en Java ‣ Spark (Scala) ‣ Storm (Clojure) http://www.ibm.com/developerworks/library/os-spark/#resources
  • 41. Outliers Collective: Nuestras Herramientas! ‣ Visualización: D3.js ‣ Análisis: ‣ Texto: Python + Pattern ‣ Redes: Networkx + Gephi ‣ Estadística: R ‣ Persistencia: MongoDB, ElasticSearch
  • 42. Trabajos y ejemplos http://assets.outliers.es/15memociones/
  • 43. http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/ Outliers Collective+ProdigiosoVolcán, 2014
  • 44. http://www.324.cat/eleccions-catalunya-2012/tuitometre Outliers Collective, 2012
  • 45. http://www.paginasamarillas.es/ En Paradigma Tecnológico, 2009-2011
  • 46. http://www.lainformacion.com/ En Paradigma Tecnológico, 2008
  • 47. Outliers Collective yYolanda Quintana, 2013 http://viralgezi.outliers.es/
  • 48. Outliers Collective,Alberto González Paje, Rafael Höhr, 2013 http://innovabbva.outliers.es/
  • 49. http://flocker.outliers.es Outliers Collective, 2013
  • 50. http://assets.outliers.es/SocialGood/ Outliers Collective + Alberto González, 2013
  • 51. http://vimeo.com/71084828 http://bcnbeats.outliers.es/ Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013
  • 52. #LoQueCrece: IdeasForChange + Outliers Collective
  • 53. Referencias http://www.goodreads.com/shelf/show/big-data
  • 54. ¿Preguntas? ¡Gracias por el interés!