Big Data
Valor y Mercado
Óscar Marín Miró	

@outliers_es	

www.outliers.es
Contenidos
‣Historia	

‣Las 3V’s	

‣Problema, Solución y Fenómeno	

¿Qué es Big Data? Pitfalls
‣Data vs Big Data	

‣Data S...
¿Qué es el Big Data?
“Data will help us” - Jonathan Harris
Historiahttp://assets.outliers.es/infographics/
BigData_A_Brief_History.pdf
“Big Data is a collection of data sets so large
and complex that it becomes difficult to
process using on-hand database man...
- Big Data y las 3 ‘V’	

- Velocidad	

- Volumen	

- Variedad
http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Da...
!
- Twitter: 340 millones de
tweets diarios (~= 1TB/día)	

- Facebook: 800 millones de
status diarios	

- Google: 1000 mil...
Explosión de Uso Explosión Social
Explosión Móvil
¿Qué es el Big Data? (de verdad)
Big Data: Dimensiones
‣Problema: 3V’s	

‣Solución: Herramientas	

‣Fenómeno: Posibilidades
ElValor de Big Data
http://labratrevenge.com/pdx
http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg
ElValordeBigData
ElValor de Big Data:	

Big Data Analysis
‣Estadístico	

‣Texto	

‣Análisis de Redes Sociales	

‣Análisis GeoEspacial
ElValor de Big Data:	

Ámbitos de Aplicación
‣Marketing/Publicidad/Comunicación	

‣Customer Insights	

‣Growth Hacking	

‣...
ElValor de Big Data:	

Publicidad
https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf
ElValor de Big Data:	

Customer Insights
http://innovabbva.outliers.es/mapas.html
ElValor de Big Data:	

Growth Hacking
‣Impactos de tests A/B	

‣Incrementar el Retention Rate	

‣Incrementar los leads	

‣...
ElValor de Big Data:	

Growth Hacking
https://www.youtube.com/watch?v=eqeS8US10_k
ElValor de Big Data:	

Salud
https://www.23andme.com/ancestry/
ElValor de Big Data	

Ciencias Sociales
http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-convers...
ElValor de Big Data:	

Publicidad
http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeti...
ElValor de Big Data	

Escalabilidad
http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare
ElValor de Big Data	

Antropología
http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/	

http://www.ted....
ElValor de Big Data	

Urbanismo
http://bcnbeats.com
Big Data Pitfalls
Big Data vs Data
‣Big Data ~= MB/s o volúmenes de TB	

‣El 90% de los trabajos hablan de Big Data y
quieren decir Data	

‣...
Data Science vs Big Data
‣Técnicamente:	

‣Data Science crea modelos	

‣Big Data provee de infraestructura 	

‣En la práct...
Big Data: Costes Ocultos
‣Computer Science First, Big Data Second!!	

‣Probar en muestras significativas, SIEMPRE	

‣Llegar...
Herramientas
¿Qué es un Cluster Hadoop?	

!
Un conjunto de servidores (nodos), sobre el que se
ejecutan procesos MapReduce y que compar...
MAPREDUCE: Divide y vencerás
MAP:	

Función de procesado.	

Los datos se particionan y se pasa cada ‘trozo’ a una función ...
MAPREDUCE: Contar las palabras de
un fichero
MAP:	

< Hello, 1> 	

< World, 1> 	

!
< Bye, 1> 	

< World, 1>
REDUCE:	

< He...
MAPREDUCE: Control
!
‣ Se ejecutan ‘jobs’ que el framework divide
en ‘tasks’	

‣ Master JobTracker	

‣ TaskTracker por nod...
HDFS
!
‣ Implementa un único sistema de ficheros
‘juntando las capacidades’ de todos los
nodos	

‣ Es transparente para el ...
HDFS
http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfs-
and-mapreduce/
Ecosistema Hadoop
http://oreilly.com/data/radarreports/planning-for-big-data.csp
Ecosistema Hadoop
VS
Soluciones NoSQL
Soluciones NoSQL: MongoDB
Problemas de las BBDD
relacionales
!
‣ Leer datos completos es costoso (‘joins’)	

‣ Transacciones (‘integridad’)	

‣ Esca...
Soluciones NoSQL
!
‣ Almacenes clave-valor (Redis, BerkeleyDB,
Tokyo Cabinet)	

‣ Orientadas a documento (MongoDB,
CouchDB...
Real-time processing
!
‣ Batch vs Real-time	

‣ Hadoop anclado en Java	

‣ Spark (Scala)	

‣ Storm (Clojure)
http://www.ib...
Outliers Collective: Nuestras
Herramientas!
‣ Visualización: D3.js	

‣ Análisis:	

‣ Texto: Python + Pattern	

‣ Redes: Ne...
Trabajos y ejemplos
http://assets.outliers.es/15memociones/
http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/
Outliers Collective+ProdigiosoVolcán, 2014
http://www.324.cat/eleccions-catalunya-2012/tuitometre
Outliers Collective, 2012
http://www.paginasamarillas.es/
En Paradigma Tecnológico, 2009-2011
http://www.lainformacion.com/
En Paradigma Tecnológico, 2008
Outliers Collective yYolanda Quintana, 2013
http://viralgezi.outliers.es/
Outliers Collective,Alberto González Paje, Rafael Höhr, 2013
http://innovabbva.outliers.es/
http://flocker.outliers.es
Outliers Collective, 2013
http://assets.outliers.es/SocialGood/
Outliers Collective + Alberto González, 2013
http://vimeo.com/71084828
http://bcnbeats.outliers.es/
Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez ...
#LoQueCrece: IdeasForChange + Outliers Collective
Referencias
http://www.goodreads.com/shelf/show/big-data
¿Preguntas?
¡Gracias por el interés!
Upcoming SlideShare
Loading in...5
×

Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB

340

Published on

Big Data: ¿Qué es? ¿Qué no es? Ejemplos y herramientas

Published in: Data & Analytics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
340
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB

  1. 1. Big Data Valor y Mercado Óscar Marín Miró @outliers_es www.outliers.es
  2. 2. Contenidos ‣Historia ‣Las 3V’s ‣Problema, Solución y Fenómeno ¿Qué es Big Data? Pitfalls ‣Data vs Big Data ‣Data Science vs Big Data ‣Costes ocultos Herramientas +Escenarios ‣Ecosistema Hadoop ‣NoSQL ‣Real-time Valor del Big Data ‣Los Gigantes de la Generación de Datos ‣Nadamos en un mar de datos ‣Sectores de Aplicación Bibliografía
  3. 3. ¿Qué es el Big Data? “Data will help us” - Jonathan Harris
  4. 4. Historiahttp://assets.outliers.es/infographics/ BigData_A_Brief_History.pdf
  5. 5. “Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications” http://en.wikipedia.org/wiki/Big_data ¿Qué es el Big Data?
  6. 6. - Big Data y las 3 ‘V’ - Velocidad - Volumen - Variedad http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data- Volume-Velocity-and-Variety.pdf ¿Qué es el Big Data?
  7. 7. ! - Twitter: 340 millones de tweets diarios (~= 1TB/día) - Facebook: 800 millones de status diarios - Google: 1000 millones de consultas diarias http://www.slideshare.net/gigaom/the-3vs-of-big-data- variety-velocity-and-volume-from-structuredata-2012 ¿Qué es el Big Data? (de verdad)
  8. 8. Explosión de Uso Explosión Social Explosión Móvil ¿Qué es el Big Data? (de verdad)
  9. 9. Big Data: Dimensiones ‣Problema: 3V’s ‣Solución: Herramientas ‣Fenómeno: Posibilidades
  10. 10. ElValor de Big Data http://labratrevenge.com/pdx
  11. 11. http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg ElValordeBigData
  12. 12. ElValor de Big Data: Big Data Analysis ‣Estadístico ‣Texto ‣Análisis de Redes Sociales ‣Análisis GeoEspacial
  13. 13. ElValor de Big Data: Ámbitos de Aplicación ‣Marketing/Publicidad/Comunicación ‣Customer Insights ‣Growth Hacking ‣Salud ‣Escalabilidad
  14. 14. ElValor de Big Data: Publicidad https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf
  15. 15. ElValor de Big Data: Customer Insights http://innovabbva.outliers.es/mapas.html
  16. 16. ElValor de Big Data: Growth Hacking ‣Impactos de tests A/B ‣Incrementar el Retention Rate ‣Incrementar los leads ‣Incremental el engagement
  17. 17. ElValor de Big Data: Growth Hacking https://www.youtube.com/watch?v=eqeS8US10_k
  18. 18. ElValor de Big Data: Salud https://www.23andme.com/ancestry/
  19. 19. ElValor de Big Data Ciencias Sociales http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/ #network-type-6-support-network
  20. 20. ElValor de Big Data: Publicidad http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html
  21. 21. ElValor de Big Data Escalabilidad http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare
  22. 22. ElValor de Big Data Antropología http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/ http://www.ted.com/talks/what_we_learned_from_5_million_books.html
  23. 23. ElValor de Big Data Urbanismo http://bcnbeats.com
  24. 24. Big Data Pitfalls
  25. 25. Big Data vs Data ‣Big Data ~= MB/s o volúmenes de TB ‣El 90% de los trabajos hablan de Big Data y quieren decir Data ‣No es lo mismo coger datos de Twitter que ser Twitter ‣Se confunde el fenómeno con el problema
  26. 26. Data Science vs Big Data ‣Técnicamente: ‣Data Science crea modelos ‣Big Data provee de infraestructura ‣En la práctica: ‣Si creas un modelo a partir de una muestra de Big Data haces Big Data ‣Los perfiles son COMPLETAMENTE diferentes!! ‣Big Data sin Data Science no es NADA
  27. 27. Big Data: Costes Ocultos ‣Computer Science First, Big Data Second!! ‣Probar en muestras significativas, SIEMPRE ‣Llegar hasta la presentación de los datos con la muestra, lo más rápido posible ‣Funcionar con hipótesis
  28. 28. Herramientas
  29. 29. ¿Qué es un Cluster Hadoop? ! Un conjunto de servidores (nodos), sobre el que se ejecutan procesos MapReduce y que comparten datos mediante HDFS (Hadoop Distributed File System El ecosistema Hadoop
  30. 30. MAPREDUCE: Divide y vencerás MAP: Función de procesado. Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’ La función ‘map’ es sin estado REDUCE Función de reducción La salida del map es la entrada del reduce Se usa para consolidar y eliminar redundancias Ecosistema Hadoop
  31. 31. MAPREDUCE: Contar las palabras de un fichero MAP: < Hello, 1> < World, 1> ! < Bye, 1> < World, 1> REDUCE: < Hello, 1> < World, 2> < Bye, 1> Ecosistema Hadoop
  32. 32. MAPREDUCE: Control ! ‣ Se ejecutan ‘jobs’ que el framework divide en ‘tasks’ ‣ Master JobTracker ‣ TaskTracker por nodo Ecosistema Hadoop
  33. 33. HDFS ! ‣ Implementa un único sistema de ficheros ‘juntando las capacidades’ de todos los nodos ‣ Es transparente para el programador ‣ Se implementa tolerancia a fallos con nodos de ‘backup’ Ecosistema Hadoop
  34. 34. HDFS http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfs- and-mapreduce/ Ecosistema Hadoop
  35. 35. http://oreilly.com/data/radarreports/planning-for-big-data.csp Ecosistema Hadoop
  36. 36. VS Soluciones NoSQL
  37. 37. Soluciones NoSQL: MongoDB
  38. 38. Problemas de las BBDD relacionales ! ‣ Leer datos completos es costoso (‘joins’) ‣ Transacciones (‘integridad’) ‣ Escalabilidad ‣ Cambio del modelo de datos (migraciones)
  39. 39. Soluciones NoSQL ! ‣ Almacenes clave-valor (Redis, BerkeleyDB, Tokyo Cabinet) ‣ Orientadas a documento (MongoDB, CouchDB, ElasticSearch, Solr) ‣ Orientadas a columnas (Cassandra, HBase, BigTable)
  40. 40. Real-time processing ! ‣ Batch vs Real-time ‣ Hadoop anclado en Java ‣ Spark (Scala) ‣ Storm (Clojure) http://www.ibm.com/developerworks/library/os-spark/#resources
  41. 41. Outliers Collective: Nuestras Herramientas! ‣ Visualización: D3.js ‣ Análisis: ‣ Texto: Python + Pattern ‣ Redes: Networkx + Gephi ‣ Estadística: R ‣ Persistencia: MongoDB, ElasticSearch
  42. 42. Trabajos y ejemplos http://assets.outliers.es/15memociones/
  43. 43. http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/ Outliers Collective+ProdigiosoVolcán, 2014
  44. 44. http://www.324.cat/eleccions-catalunya-2012/tuitometre Outliers Collective, 2012
  45. 45. http://www.paginasamarillas.es/ En Paradigma Tecnológico, 2009-2011
  46. 46. http://www.lainformacion.com/ En Paradigma Tecnológico, 2008
  47. 47. Outliers Collective yYolanda Quintana, 2013 http://viralgezi.outliers.es/
  48. 48. Outliers Collective,Alberto González Paje, Rafael Höhr, 2013 http://innovabbva.outliers.es/
  49. 49. http://flocker.outliers.es Outliers Collective, 2013
  50. 50. http://assets.outliers.es/SocialGood/ Outliers Collective + Alberto González, 2013
  51. 51. http://vimeo.com/71084828 http://bcnbeats.outliers.es/ Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013
  52. 52. #LoQueCrece: IdeasForChange + Outliers Collective
  53. 53. Referencias http://www.goodreads.com/shelf/show/big-data
  54. 54. ¿Preguntas? ¡Gracias por el interés!
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×