Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB

on

  • 246 views

Big Data: ¿Qué es? ¿Qué no es? Ejemplos y herramientas

Big Data: ¿Qué es? ¿Qué no es? Ejemplos y herramientas

Statistics

Views

Total Views
246
Views on SlideShare
245
Embed Views
1

Actions

Likes
0
Downloads
8
Comments
0

1 Embed 1

http://www.slideee.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB Presentation Transcript

  • 1. Big Data Valor y Mercado Óscar Marín Miró @outliers_es www.outliers.es
  • 2. Contenidos ‣Historia ‣Las 3V’s ‣Problema, Solución y Fenómeno ¿Qué es Big Data? Pitfalls ‣Data vs Big Data ‣Data Science vs Big Data ‣Costes ocultos Herramientas +Escenarios ‣Ecosistema Hadoop ‣NoSQL ‣Real-time Valor del Big Data ‣Los Gigantes de la Generación de Datos ‣Nadamos en un mar de datos ‣Sectores de Aplicación Bibliografía
  • 3. ¿Qué es el Big Data? “Data will help us” - Jonathan Harris
  • 4. Historiahttp://assets.outliers.es/infographics/ BigData_A_Brief_History.pdf
  • 5. “Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications” http://en.wikipedia.org/wiki/Big_data ¿Qué es el Big Data?
  • 6. - Big Data y las 3 ‘V’ - Velocidad - Volumen - Variedad http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data- Volume-Velocity-and-Variety.pdf ¿Qué es el Big Data?
  • 7. ! - Twitter: 340 millones de tweets diarios (~= 1TB/día) - Facebook: 800 millones de status diarios - Google: 1000 millones de consultas diarias http://www.slideshare.net/gigaom/the-3vs-of-big-data- variety-velocity-and-volume-from-structuredata-2012 ¿Qué es el Big Data? (de verdad)
  • 8. Explosión de Uso Explosión Social Explosión Móvil ¿Qué es el Big Data? (de verdad)
  • 9. Big Data: Dimensiones ‣Problema: 3V’s ‣Solución: Herramientas ‣Fenómeno: Posibilidades
  • 10. ElValor de Big Data http://labratrevenge.com/pdx
  • 11. http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg ElValordeBigData
  • 12. ElValor de Big Data: Big Data Analysis ‣Estadístico ‣Texto ‣Análisis de Redes Sociales ‣Análisis GeoEspacial
  • 13. ElValor de Big Data: Ámbitos de Aplicación ‣Marketing/Publicidad/Comunicación ‣Customer Insights ‣Growth Hacking ‣Salud ‣Escalabilidad
  • 14. ElValor de Big Data: Publicidad https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf
  • 15. ElValor de Big Data: Customer Insights http://innovabbva.outliers.es/mapas.html
  • 16. ElValor de Big Data: Growth Hacking ‣Impactos de tests A/B ‣Incrementar el Retention Rate ‣Incrementar los leads ‣Incremental el engagement
  • 17. ElValor de Big Data: Growth Hacking https://www.youtube.com/watch?v=eqeS8US10_k
  • 18. ElValor de Big Data: Salud https://www.23andme.com/ancestry/
  • 19. ElValor de Big Data Ciencias Sociales http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/ #network-type-6-support-network
  • 20. ElValor de Big Data: Publicidad http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html
  • 21. ElValor de Big Data Escalabilidad http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare
  • 22. ElValor de Big Data Antropología http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/ http://www.ted.com/talks/what_we_learned_from_5_million_books.html
  • 23. ElValor de Big Data Urbanismo http://bcnbeats.com
  • 24. Big Data Pitfalls
  • 25. Big Data vs Data ‣Big Data ~= MB/s o volúmenes de TB ‣El 90% de los trabajos hablan de Big Data y quieren decir Data ‣No es lo mismo coger datos de Twitter que ser Twitter ‣Se confunde el fenómeno con el problema
  • 26. Data Science vs Big Data ‣Técnicamente: ‣Data Science crea modelos ‣Big Data provee de infraestructura ‣En la práctica: ‣Si creas un modelo a partir de una muestra de Big Data haces Big Data ‣Los perfiles son COMPLETAMENTE diferentes!! ‣Big Data sin Data Science no es NADA
  • 27. Big Data: Costes Ocultos ‣Computer Science First, Big Data Second!! ‣Probar en muestras significativas, SIEMPRE ‣Llegar hasta la presentación de los datos con la muestra, lo más rápido posible ‣Funcionar con hipótesis
  • 28. Herramientas
  • 29. ¿Qué es un Cluster Hadoop? ! Un conjunto de servidores (nodos), sobre el que se ejecutan procesos MapReduce y que comparten datos mediante HDFS (Hadoop Distributed File System El ecosistema Hadoop
  • 30. MAPREDUCE: Divide y vencerás MAP: Función de procesado. Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’ La función ‘map’ es sin estado REDUCE Función de reducción La salida del map es la entrada del reduce Se usa para consolidar y eliminar redundancias Ecosistema Hadoop
  • 31. MAPREDUCE: Contar las palabras de un fichero MAP: < Hello, 1> < World, 1> ! < Bye, 1> < World, 1> REDUCE: < Hello, 1> < World, 2> < Bye, 1> Ecosistema Hadoop
  • 32. MAPREDUCE: Control ! ‣ Se ejecutan ‘jobs’ que el framework divide en ‘tasks’ ‣ Master JobTracker ‣ TaskTracker por nodo Ecosistema Hadoop
  • 33. HDFS ! ‣ Implementa un único sistema de ficheros ‘juntando las capacidades’ de todos los nodos ‣ Es transparente para el programador ‣ Se implementa tolerancia a fallos con nodos de ‘backup’ Ecosistema Hadoop
  • 34. HDFS http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfs- and-mapreduce/ Ecosistema Hadoop
  • 35. http://oreilly.com/data/radarreports/planning-for-big-data.csp Ecosistema Hadoop
  • 36. VS Soluciones NoSQL
  • 37. Soluciones NoSQL: MongoDB
  • 38. Problemas de las BBDD relacionales ! ‣ Leer datos completos es costoso (‘joins’) ‣ Transacciones (‘integridad’) ‣ Escalabilidad ‣ Cambio del modelo de datos (migraciones)
  • 39. Soluciones NoSQL ! ‣ Almacenes clave-valor (Redis, BerkeleyDB, Tokyo Cabinet) ‣ Orientadas a documento (MongoDB, CouchDB, ElasticSearch, Solr) ‣ Orientadas a columnas (Cassandra, HBase, BigTable)
  • 40. Real-time processing ! ‣ Batch vs Real-time ‣ Hadoop anclado en Java ‣ Spark (Scala) ‣ Storm (Clojure) http://www.ibm.com/developerworks/library/os-spark/#resources
  • 41. Outliers Collective: Nuestras Herramientas! ‣ Visualización: D3.js ‣ Análisis: ‣ Texto: Python + Pattern ‣ Redes: Networkx + Gephi ‣ Estadística: R ‣ Persistencia: MongoDB, ElasticSearch
  • 42. Trabajos y ejemplos http://assets.outliers.es/15memociones/
  • 43. http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/ Outliers Collective+ProdigiosoVolcán, 2014
  • 44. http://www.324.cat/eleccions-catalunya-2012/tuitometre Outliers Collective, 2012
  • 45. http://www.paginasamarillas.es/ En Paradigma Tecnológico, 2009-2011
  • 46. http://www.lainformacion.com/ En Paradigma Tecnológico, 2008
  • 47. Outliers Collective yYolanda Quintana, 2013 http://viralgezi.outliers.es/
  • 48. Outliers Collective,Alberto González Paje, Rafael Höhr, 2013 http://innovabbva.outliers.es/
  • 49. http://flocker.outliers.es Outliers Collective, 2013
  • 50. http://assets.outliers.es/SocialGood/ Outliers Collective + Alberto González, 2013
  • 51. http://vimeo.com/71084828 http://bcnbeats.outliers.es/ Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013
  • 52. #LoQueCrece: IdeasForChange + Outliers Collective
  • 53. Referencias http://www.goodreads.com/shelf/show/big-data
  • 54. ¿Preguntas? ¡Gracias por el interés!