Your SlideShare is downloading. ×
0
Big Data

Valor y Mercado

Óscar Marín Miró
@outliers_es
www.outliers.es

1
Contenidos
¿Qué es Big Data?
‣Historia
‣Las 3 V’s
‣Problema, Solución y Fenómeno

Valor del Big Data
‣Los Gigantes de la G...
¿Qué es el Big Data?

“Data will help us” - Jonathan Harris
3
Historia

http:/
/assets.outliers.es/infographics/BigData_A_Brief_History.pdf

4
¿Qué es el Big Data?
“Big Data is a collection of data sets so large
and complex that it becomes difficult to
process using...
¿Qué es el Big Data?
-

Big Data y las 3 ‘V’

-

Velocidad
Volumen
Variedad

http://blogs.gartner.com/doug-laney/files/2012...
¿Qué es el Big Data? (de verdad)
- Twitter: 340 millones de

tweets diarios (~= 1TB/día)

- Facebook: 800 millones de
stat...
¿Qué es el Big Data? (de verdad)

Explosión de Uso

Explosión Social

Explosión Móvil
8
Big Data: Dimensiones
‣Problema: 3 V’s
‣Solución: Herramientas
‣Fenómeno: Posibilidades

9
El Valor de Big Data

http://labratrevenge.com/pdx

10
El Valor de Big Data
http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg
11
El Valor de Big Data:
Big Data Analysis
‣Estadístico
‣Texto
‣Análisis de Redes Sociales
‣Análisis GeoEspacial

12
El Valor de Big Data:
Ámbitos de Aplicación
‣Marketing/Publicidad/Comunicación
‣Customer Insights
‣Growth Hacking
‣Salud
‣...
El Valor de Big Data:
Publicidad

https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf
14
El Valor de Big Data:
Customer Insights

http://innovabbva.outliers.es/mapas.html
15
El Valor de Big Data:
Growth Hacking
‣Impactos de tests A/B
‣Incrementar el Retention Rate
‣Incrementar los leads
‣Increme...
El Valor de Big Data:
Growth Hacking

https://www.youtube.com/watch?v=eqeS8US10_k
17
El Valor de Big Data:
Salud

https://www.23andme.com/ancestry/
18
El Valor de Big Data
Ciencias Sociales

http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-convers...
El Valor de Big Data:
Publicidad

http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeti...
El Valor de Big Data
Escalabilidad

http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare
21
El Valor de Big Data
Antropología

http://www.ted.com/talks/what_we_learned_from_5_million_books.html
http://www.brainpick...
El Valor de Big Data
Urbanismo

http://bcnbeats.outliers.es/

23
Big Data Pitfalls

24
Big Data vs Data
‣Big Data ~= MB/s o volúmenes de TB
‣El 90% de los trabajos hablan de Big Data y
quieren decir Data
‣No e...
Data Science vs Big Data
‣Técnicamente:
‣Data Science crea modelos
‣Big Data provee de infraestructura
‣En la práctica:
‣S...
Big Data: Costes Ocultos
‣Computer Science First, Big Data Second!!
‣Probar en muestras significativas, SIEMPRE
‣Llegar has...
Herramientas

28
El ecosistema Hadoop
¿Qué es un Cluster Hadoop?
Un conjunto de servidores (nodos), sobre el que se
ejecutan procesos MapRe...
Ecosistema Hadoop
MAPREDUCE: Divide y vencerás
MAP:
Función de procesado.
Los datos se particionan y se pasa cada ‘trozo’ ...
Ecosistema Hadoop
MAPREDUCE: Contar las palabras de
un fichero
MAP:
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>
REDUCE:
<...
Ecosistema Hadoop
MAPREDUCE: Control

‣ Se ejecutan ‘jobs’ que el framework divide
en ‘tasks’

‣ Master JobTracker
‣ TaskT...
Ecosistema Hadoop
HDFS

‣ Implementa un único sistema de ficheros
‘juntando las capacidades’ de todos los
nodos

‣ Es trans...
Ecosistema Hadoop
HDFS

http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfsand-mapreduce/
34
Ecosistema Hadoop

http://oreilly.com/data/radarreports/planning-for-big-data.csp
35
Soluciones NoSQL

VS

36
Soluciones NoSQL: MongoDB

37
Problemas de las BBDD
relacionales

‣ Leer datos completos es costoso (‘joins’)
‣ Transacciones (‘integridad’)
‣ Escalabil...
Soluciones NoSQL

‣ Almacenes clave-valor (Redis, BerkeleyDB,
Tokyo Cabinet)

‣ Orientadas a documento (MongoDB,
CouchDB, ...
Real-time processing

‣ Batch vs Real-time
‣ Hadoop anclado en Java
‣ Spark (Scala)
‣ Storm (Clojure)
http://www.ibm.com/d...
Outliers Collective: Nuestras
Herramientas

‣ Visualización: D3.js
‣ Análisis:
‣ Texto: Python + Pattern
‣ Redes: Networkx...
Trabajos y ejemplos

http://assets.outliers.es/15memociones/

42
Outliers Collective+Prodigioso Volcán, 2014
http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/
43
Outliers Collective, 2012
http://www.324.cat/eleccions-catalunya-2012/tuitometre
44
En Paradigma Tecnológico, 2009-2011
http://www.paginasamarillas.es/

45
En Paradigma Tecnológico, 2008
http://www.lainformacion.com/
46
Outliers Collective y Yolanda Quintana, 2013
http://viralgezi.outliers.es/
47
Outliers Collective, Alberto González Paje, Rafael Höhr, 2013
http://innovabbva.outliers.es/
48
Outliers Collective, 2013
http://flocker.outliers.es

49
Outliers Collective + Alberto González, 2013
http://assets.outliers.es/SocialGood/

50
Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013
http://vimeo.com/71084828
http...
#LoQueCrece: IdeasForChange + Outliers Collective

52
Referencias

http://www.goodreads.com/shelf/show/big-data

53
¿Preguntas?
¡Gracias por el interés!

54
Upcoming SlideShare
Loading in...5
×

Big data: Valor y Mercado

843

Published on

¿Dónde se pueden aplicar soluciones Big Data? ¿Cuál es el Valor que aporta? ¿Qué herramientas se usan? ¿Hay que usar siempre Big Data?

Published in: Technology

Transcript of "Big data: Valor y Mercado"

  1. 1. Big Data Valor y Mercado Óscar Marín Miró @outliers_es www.outliers.es 1
  2. 2. Contenidos ¿Qué es Big Data? ‣Historia ‣Las 3 V’s ‣Problema, Solución y Fenómeno Valor del Big Data ‣Los Gigantes de la Generación de Datos ‣Nadamos en un mar de datos ‣Sectores de Aplicación Pitfalls ‣Data vs Big Data ‣Data Science vs Big Data ‣Costes ocultos Herramientas +Escenarios ‣Ecosistema Hadoop ‣NoSQL ‣Real-time Bibliografía 2
  3. 3. ¿Qué es el Big Data? “Data will help us” - Jonathan Harris 3
  4. 4. Historia http:/ /assets.outliers.es/infographics/BigData_A_Brief_History.pdf 4
  5. 5. ¿Qué es el Big Data? “Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications” http://en.wikipedia.org/wiki/Big_data 5
  6. 6. ¿Qué es el Big Data? - Big Data y las 3 ‘V’ - Velocidad Volumen Variedad http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-DataVolume-Velocity-and-Variety.pdf 6
  7. 7. ¿Qué es el Big Data? (de verdad) - Twitter: 340 millones de tweets diarios (~= 1TB/día) - Facebook: 800 millones de status diarios - Google: 1000 millones de consultas diarias http:/ /www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocityand-volume-from-structuredata-2012 7
  8. 8. ¿Qué es el Big Data? (de verdad) Explosión de Uso Explosión Social Explosión Móvil 8
  9. 9. Big Data: Dimensiones ‣Problema: 3 V’s ‣Solución: Herramientas ‣Fenómeno: Posibilidades 9
  10. 10. El Valor de Big Data http://labratrevenge.com/pdx 10
  11. 11. El Valor de Big Data http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg 11
  12. 12. El Valor de Big Data: Big Data Analysis ‣Estadístico ‣Texto ‣Análisis de Redes Sociales ‣Análisis GeoEspacial 12
  13. 13. El Valor de Big Data: Ámbitos de Aplicación ‣Marketing/Publicidad/Comunicación ‣Customer Insights ‣Growth Hacking ‣Salud ‣Escalabilidad 13
  14. 14. El Valor de Big Data: Publicidad https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf 14
  15. 15. El Valor de Big Data: Customer Insights http://innovabbva.outliers.es/mapas.html 15
  16. 16. El Valor de Big Data: Growth Hacking ‣Impactos de tests A/B ‣Incrementar el Retention Rate ‣Incrementar los leads ‣Incremental el engagement 16
  17. 17. El Valor de Big Data: Growth Hacking https://www.youtube.com/watch?v=eqeS8US10_k 17
  18. 18. El Valor de Big Data: Salud https://www.23andme.com/ancestry/ 18
  19. 19. El Valor de Big Data Ciencias Sociales http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/ #network-type-6-support-network 19
  20. 20. El Valor de Big Data: Publicidad http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html 20
  21. 21. El Valor de Big Data Escalabilidad http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare 21
  22. 22. El Valor de Big Data Antropología http://www.ted.com/talks/what_we_learned_from_5_million_books.html http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/ 22
  23. 23. El Valor de Big Data Urbanismo http://bcnbeats.outliers.es/ 23
  24. 24. Big Data Pitfalls 24
  25. 25. Big Data vs Data ‣Big Data ~= MB/s o volúmenes de TB ‣El 90% de los trabajos hablan de Big Data y quieren decir Data ‣No es lo mismo coger datos de Twitter que ser Twitter ‣Se confunde el fenómeno con el problema 25
  26. 26. Data Science vs Big Data ‣Técnicamente: ‣Data Science crea modelos ‣Big Data provee de infraestructura ‣En la práctica: ‣Si creas un modelo a partir de una muestra de Big Data haces Big Data ‣Los perfiles son COMPLETAMENTE diferentes!! ‣Big Data sin Data Science no es NADA 26
  27. 27. Big Data: Costes Ocultos ‣Computer Science First, Big Data Second!! ‣Probar en muestras significativas, SIEMPRE ‣Llegar hasta la presentación de los datos con la muestra, lo más rápido posible ‣Funcionar con hipótesis 27
  28. 28. Herramientas 28
  29. 29. El ecosistema Hadoop ¿Qué es un Cluster Hadoop? Un conjunto de servidores (nodos), sobre el que se ejecutan procesos MapReduce y que comparten datos mediante HDFS (Hadoop Distributed File System 29
  30. 30. Ecosistema Hadoop MAPREDUCE: Divide y vencerás MAP: Función de procesado. Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’ La función ‘map’ es sin estado REDUCE Función de reducción La salida del map es la entrada del reduce Se usa para consolidar y eliminar redundancias 30
  31. 31. Ecosistema Hadoop MAPREDUCE: Contar las palabras de un fichero MAP: < Hello, 1> < World, 1> < Bye, 1> < World, 1> REDUCE: < Hello, 1> < World, 2> < Bye, 1> 31
  32. 32. Ecosistema Hadoop MAPREDUCE: Control ‣ Se ejecutan ‘jobs’ que el framework divide en ‘tasks’ ‣ Master JobTracker ‣ TaskTracker por nodo 32
  33. 33. Ecosistema Hadoop HDFS ‣ Implementa un único sistema de ficheros ‘juntando las capacidades’ de todos los nodos ‣ Es transparente para el programador ‣ Se implementa tolerancia a fallos con nodos de ‘backup’ 33
  34. 34. Ecosistema Hadoop HDFS http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfsand-mapreduce/ 34
  35. 35. Ecosistema Hadoop http://oreilly.com/data/radarreports/planning-for-big-data.csp 35
  36. 36. Soluciones NoSQL VS 36
  37. 37. Soluciones NoSQL: MongoDB 37
  38. 38. Problemas de las BBDD relacionales ‣ Leer datos completos es costoso (‘joins’) ‣ Transacciones (‘integridad’) ‣ Escalabilidad ‣ Cambio del modelo de datos (migraciones) 38
  39. 39. Soluciones NoSQL ‣ Almacenes clave-valor (Redis, BerkeleyDB, Tokyo Cabinet) ‣ Orientadas a documento (MongoDB, CouchDB, ElasticSearch, Solr) ‣ Orientadas a columnas (Cassandra, HBase, BigTable) 39
  40. 40. Real-time processing ‣ Batch vs Real-time ‣ Hadoop anclado en Java ‣ Spark (Scala) ‣ Storm (Clojure) http://www.ibm.com/developerworks/library/os-spark/#resources 40
  41. 41. Outliers Collective: Nuestras Herramientas ‣ Visualización: D3.js ‣ Análisis: ‣ Texto: Python + Pattern ‣ Redes: Networkx + Gephi ‣ Estadística: R ‣ Persistencia: MongoDB, ElasticSearch ‣ 41
  42. 42. Trabajos y ejemplos http://assets.outliers.es/15memociones/ 42
  43. 43. Outliers Collective+Prodigioso Volcán, 2014 http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/ 43
  44. 44. Outliers Collective, 2012 http://www.324.cat/eleccions-catalunya-2012/tuitometre 44
  45. 45. En Paradigma Tecnológico, 2009-2011 http://www.paginasamarillas.es/ 45
  46. 46. En Paradigma Tecnológico, 2008 http://www.lainformacion.com/ 46
  47. 47. Outliers Collective y Yolanda Quintana, 2013 http://viralgezi.outliers.es/ 47
  48. 48. Outliers Collective, Alberto González Paje, Rafael Höhr, 2013 http://innovabbva.outliers.es/ 48
  49. 49. Outliers Collective, 2013 http://flocker.outliers.es 49
  50. 50. Outliers Collective + Alberto González, 2013 http://assets.outliers.es/SocialGood/ 50
  51. 51. Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013 http://vimeo.com/71084828 http://bcnbeats.outliers.es/ 51
  52. 52. #LoQueCrece: IdeasForChange + Outliers Collective 52
  53. 53. Referencias http://www.goodreads.com/shelf/show/big-data 53
  54. 54. ¿Preguntas? ¡Gracias por el interés! 54
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×