Your SlideShare is downloading. ×
0
www.consultec.es
Introducción a Big Data
www.consultec.es
¿Quiénes somos?
Gorka Armentia
Developer
garmentia@consultec.es
@joruus
MCSA: SQL Server 2012
MCSD: Appli...
Índice
1. Introducción
1. ¿Qué no es Big Data?
2. Situación actual
3. ¿Y entonces qué es Big Data exactamente?
4. Las 3 Vs...
www.consultec.es
Introducción
“Big Data” es desde hace dos o tres años una de las grandes
tendencias dentro del mundo de l...
www.consultec.es
¿Qué no es Big Data?
Antes de empezar, lo primero es desengañarnos.
• Big Data no es una base de datos en...
www.consultec.es
Situación actual
Bases de
Datos
Relacionales
Bases de
Datos
Analíticas
(Data
Warehouse)
Archivos
(XML,
Lo...
www.consultec.es
¿Y entonces qué es Big Data exactamente?
• Definiciones encontradas en internet
• Información que tiene u...
www.consultec.es
Las 3 Vs de Big Data
Volume: grandes volúmenes de información
• Se está pasando de hablar en Gigabytes o ...
www.consultec.es
Las 3 Vs de Big Data
Variety: información de tipos muy diversos
• Ya no solo tenemos información estructu...
www.consultec.es
Las 3 Vs de Big Data
Velocity: velocidad con la que se genera la información
• La velocidad a la que se g...
www.consultec.es
Retos actuales
• Dar sentido al gran volumen de datos
• Necesitamos las herramientas adecuadas para dar s...
www.consultec.es
Utilidades
Toma de decisiones
El valor del Big Data no es la información, sino la nueva forma de toma de
...
www.consultec.es
Utilidades
Experimentación
Una vez recopilados los datos que nos
interesan, la experimentación y la
explo...
www.consultec.es
Utilidades
Transparencia
Compartir y hacer accesible grandes volúmenes de datos a las partes interesadas
...
www.consultec.es
Utilidades
Innovación
Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crea...
www.consultec.es
Ejemplo real: Walmart
• Walmart es una multinacional de grandes almacenes
• Es la segunda mayor empresa d...
www.consultec.es
Ejemplo real: Walmart
• Algunos datos:
• 200 millones de clientes a la semana
• 10700 tiendas
• 27 países...
www.consultec.es
Ejemplo real: Walmart
Guardando todas las compras de todos los clientes se dieron cuenta que
en época de ...
www.consultec.es
Ejemplo real: Walmart
Hanna twitea:
“I love Salt!”.
En unos segundos el Tweet llega a los sistemas de Wal...
www.consultec.es
Ejemplo real: Walmart
• Social Genome
Base de conocimiento que captura entidades y relaciones del mundo
s...
www.consultec.es
Ejemplo real: Walmart
• Entidades: • Relaciones
• Una persona interesada en un tema
• Una persona que asi...
www.consultec.es
Ejemplo real: Walmart
• Resumiendo
www.consultec.es
Características Técnicas
Arquitectura
• Alta escalabilidad
• Procesamiento paralelo
• Baja latencia
• Dat...
www.consultec.es
Markets de Datos
Además de las fuentes de datos que tengamos en nuestra organización:
bases de datos, ema...
www.consultec.es
Hadoop
• Es una plataforma diseñada para almacenar y analizar grandes
volúmenes de datos de diferentes ti...
www.consultec.es
Hadoop
• Otros proyectos alrededor de Hadoop
• Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (“SQ...
www.consultec.es
Microsoft HDInsight
• Servicio basado en Hadoop.
• Dos versiones:
• Windows Azure HDInsight (on-demand)
•...
www.consultec.es
Microsoft HDInsight
• Acceso a todo tipo de usuarios, incluidos desarrolladores y
profesionales IT. Fácil...
www.consultec.es
Microsoft HDInsight
www.consultec.es
¿Dudas?
Gorka Armentia
Developer
garmentia@consultec.es
@joruus
MCSA: SQL Server 2012
MCSD: Application L...
www.consultec.es
Gracias!
Upcoming SlideShare
Loading in...5
×

Big Data Introducción

536

Published on

Introducción a Big Data, qué es, para qué sirve, cómo funciona, etc ...

Published in: Data & Analytics
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
536
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
35
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Big Data Introducción"

  1. 1. www.consultec.es Introducción a Big Data
  2. 2. www.consultec.es ¿Quiénes somos? Gorka Armentia Developer garmentia@consultec.es @joruus MCSA: SQL Server 2012 MCSD: Application Lifecycle Management Constantin Cuciurean Developer ccuciurean@consultec.es MCSA: SQL Server 2012 MCSD: Web Applications
  3. 3. Índice 1. Introducción 1. ¿Qué no es Big Data? 2. Situación actual 3. ¿Y entonces qué es Big Data exactamente? 4. Las 3 Vs de Big Data 5. Retos actuales 2. Big Data llevado a la práctica 1. Utilidades 2. Ejemplo real: Walmart 3. ¿Qué mueve Big Data? 1. Características Técnicas 2. Software 3. Markets de Datos 4. Hadoop 5. Microsoft HDInsight 4. Demos
  4. 4. www.consultec.es Introducción “Big Data” es desde hace dos o tres años una de las grandes tendencias dentro del mundo de la tecnología y del marketing, uno de esos “buzzwords” que en un momento dado empiezan a propagarse y aparecer por todo internet, las grandes empresas se interesan por ello, se crea una industria alrededor y, de repente, todo el mundo sabe lo que es Big Data. O no … BIG DATA
  5. 5. www.consultec.es ¿Qué no es Big Data? Antes de empezar, lo primero es desengañarnos. • Big Data no es una base de datos enorme • Big Data no es un data warehouse enorme • Big Data no es una nueva forma de Business Intelligence • Big Data no es llevar las base de datos a la nube • …
  6. 6. www.consultec.es Situación actual Bases de Datos Relacionales Bases de Datos Analíticas (Data Warehouse) Archivos (XML, Logs, …) ERP/CRM Redes Sociales Base de Datos NoSQL APIs Sensores RFID Información generada por apps móviles Y mucho más. Y lo que está por venir … Big Data GPS Internet de las Cosas Información generada por máquinas eMails
  7. 7. www.consultec.es ¿Y entonces qué es Big Data exactamente? • Definiciones encontradas en internet • Información que tiene un orden de magnitud más grande de lo que estamos acostumbrados. • Información que es muy grande, se mueve muy rápido y no se ajusta a las estructuras de las base de datos actuales. • Es un conjunto de datos cuyo tamaño está más allá de la capacidad de la mayoría de los software utilizados para capturar, gestionar y procesar la información dentro de un lapso tolerable de tiempo.
  8. 8. www.consultec.es Las 3 Vs de Big Data Volume: grandes volúmenes de información • Se está pasando de hablar en Gigabytes o Terabytes a tamaños de datos de Petabytes, Exabytes o Zettabytes. Volúmenes que se nos escapan.
  9. 9. www.consultec.es Las 3 Vs de Big Data Variety: información de tipos muy diversos • Ya no solo tenemos información estructurada en Bases de Datos o Archivos. Ahora empezamos a tener información con tipos diferentes y totalmente desestructurada.
  10. 10. www.consultec.es Las 3 Vs de Big Data Velocity: velocidad con la que se genera la información • La velocidad a la que se genera esta información hace imposible gestionarla con sistemas de base de datos convencionales. Las empresas y las personas ya no quieren estar al día, quieren “estar al segundo”.
  11. 11. www.consultec.es Retos actuales • Dar sentido al gran volumen de datos • Necesitamos las herramientas adecuadas para dar sentido de la abrumadora cantidad de datos generados por la disminución de los costos de hardware y de las fuentes de datos “complejas”. • La comprensión de una variedad cada vez mayor de datos • Debemos poder analizar datos tanto relacionales como no relacionales. Más del 85% de los datos capturados son desestructurados. • Habilitación de análisis en tiempo real de los datos • Los nuevos generadores de datos (Twitter, Facebook, Apps, …) están produciendo volúmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar eficazmente mediante procesos por lotes normales.
  12. 12. www.consultec.es Utilidades Toma de decisiones El valor del Big Data no es la información, sino la nueva forma de toma de decisiones basada en evidencias y datos empíricos. Tomar decisiones en base a datos empíricos y tendencias Tomar decisiones en base a corazonadas, instinto o experiencias pasadas
  13. 13. www.consultec.es Utilidades Experimentación Una vez recopilados los datos que nos interesan, la experimentación y la exploración de los mismos puede mostrarnos información que a primera vista nunca hubiésemos encontrado o que nunca se nos hubiese ocurrido buscar.
  14. 14. www.consultec.es Utilidades Transparencia Compartir y hacer accesible grandes volúmenes de datos a las partes interesadas y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.
  15. 15. www.consultec.es Utilidades Innovación Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear nuevos modelos de negocio.
  16. 16. www.consultec.es Ejemplo real: Walmart • Walmart es una multinacional de grandes almacenes • Es la segunda mayor empresa del mundo por ingresos
  17. 17. www.consultec.es Ejemplo real: Walmart • Algunos datos: • 200 millones de clientes a la semana • 10700 tiendas • 27 países • 2 millones de trabajadores • 1,5 millones de transacciones por hora • Varios Terabytes de información generada en tiempo real • Base de datos de 3 Petabytes
  18. 18. www.consultec.es Ejemplo real: Walmart Guardando todas las compras de todos los clientes se dieron cuenta que en época de huracanes los Walmart de las zonas afectadas vendían más cajas de Pop-Tarts que en otras épocas. Se indicó a los gerentes de las tiendas que en esas épocas pusiesen los Pop-Tarts en la entrada de las tiendas. Resultado: Aumento extraordinario de las ventas ¿A quién se le hubiese ocurrido cruzar los datos de ventas con los datos meteorológicos o con los calendarios de huracanes?
  19. 19. www.consultec.es Ejemplo real: Walmart Hanna twitea: “I love Salt!”. En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y unos minutos más tarde le llega a una amiga suya el siguiente email: “Buenos días! Nos pediste que te avisásemos cuando fuese el cumpleaños de Hanna. Pues ya está aquí y acaba de tweetear algo bueno sobre la película “Salt” de Angelina Jolie. ¿Quieres regalarle algo relacionado con ello? Tenemos algunas sugerencias que hacerte …”
  20. 20. www.consultec.es Ejemplo real: Walmart • Social Genome Base de conocimiento que captura entidades y relaciones del mundo social. Obtiene información de su base de datos, de otros datos tanto públicos como privados y de redes sociales. A partir de ahí identifican entidades “interesantes” y las relacionan entre sí, consiguiendo toda la información de la que son capaces. Es un sistema vivo, en constante evolución.
  21. 21. www.consultec.es Ejemplo real: Walmart • Entidades: • Relaciones • Una persona interesada en un tema • Una persona que asiste a un evento • Un evento sobre un tema • Una asociación entre empresa y producto
  22. 22. www.consultec.es Ejemplo real: Walmart • Resumiendo
  23. 23. www.consultec.es Características Técnicas Arquitectura • Alta escalabilidad • Procesamiento paralelo • Baja latencia • Datos no estructurados y estructurados • NoSQL • By-pass de datos – Alta disponibilidad
  24. 24. www.consultec.es Markets de Datos Además de las fuentes de datos que tengamos en nuestra organización: bases de datos, emails, logs, documentos, etc … Podemos acceder a grandes volúmenes de datos (Data Sets) en los markets. Hay gratuitos y de pago.
  25. 25. www.consultec.es Hadoop • Es una plataforma diseñada para almacenar y analizar grandes volúmenes de datos de diferentes tipos. Basada en Google Map/Reduce y Google Filesystem. • Map/Reduce: • Map: recoger los datos, estructurarlos, extraer la información interesante, etc … para poder trabajar con ellos. Los trabajos se distribuyen en los nodos para procesarse paralelamente. • Reduce: combina la información generada en los Map. • HDFS (Hadoop Distributed File System): • Sistema de archivos distribuidos, con replicación automática y optimizado para lectura. Cada fichero se particiona y se distribuye en todos los servidores.
  26. 26. www.consultec.es Hadoop • Otros proyectos alrededor de Hadoop • Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (“SQL”). • Pig: Lenguaje de script para consulta y análisis de la información. Desarrollado por Yahoo!. • Sqoop: Framework para la integración de bases de datos relacionales con Hadoop • Flume: Servicio para recolectar, agregar y mover grandes volúmenes de datos de eventos/logs y streaming. • …
  27. 27. www.consultec.es Microsoft HDInsight • Servicio basado en Hadoop. • Dos versiones: • Windows Azure HDInsight (on-demand) • HDInsight Server (on-premise)
  28. 28. www.consultec.es Microsoft HDInsight • Acceso a todo tipo de usuarios, incluidos desarrolladores y profesionales IT. Fácil instalación, administración y configuración. • Integración con herramientas conocidas como Excel, PowerPivot, PowerView, SQL Server Analysis Services o Reporting Services. • .NET SDK para Hadoop (a través e NuGet): • Map/Reduce • LINQ to Hive • WebHDFS Client
  29. 29. www.consultec.es Microsoft HDInsight
  30. 30. www.consultec.es ¿Dudas? Gorka Armentia Developer garmentia@consultec.es @joruus MCSA: SQL Server 2012 MCSD: Application Lifecycle Management Constantin Cuciurean Developer ccuciurean@consultec.es MCSA: SQL Server 2012 MCSD: Web Applications
  31. 31. www.consultec.es Gracias!
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×