Big Data en el Mundo Real™
Big Data en el Mundo Real™
Implementación de soluciones con tecnologías Microsoft
PABLO DOVAL
SQL/BI Team Lead

palvarez@plainconcepts.com

http://geeks.ms/blogs/palvarez

@PabloDoval
More Than Words - Extreme

Introducción
LAS TRES UVES…

Volumen
Variabilidad
Velocidad
VOLUMEN
VOLUMEN
VOLUMEN
Large Synoptic Survey Telescope (LSSD)
Unos 40TB/día
+100PB durante su expectativa de vida
VOLUMEN
Illumina HiSeq 2000

1Tb por día aproximadamente
Un solo laboratorio puede tener de 25 a 100 de estos
VOLUMEN
ALGUNAS ESTADÍSTICAS DE SQL SERVER
Categoría

Métrica

Mayor base de datos
Tabla mas grande
Mayor conjunto de datos en una...
FAST TRACK: ARQUITECTURA DE REFERENCIA
•
•
•

•
•
•
•
•
Diseño Hardware:
• Especificación concreta de servidores,
almacena...
PARALELL DATA WAREHOUSE
RDBMS distribuido, paralelo y “Shared-nothing”
• Particionado de consultas y datos
• Proporciona u...
ARQUITECTURA (v1)
Computación
Nodos de Control

SQL

(Activo / Pasivo)

Interfaz ETL

SQL

SQL

SQL

SQL

SQL

SQL

Nodo d...
ARQUITECTURA (v2)
2 WS SE, 2 SC SE

Control Server
Passive Failover Server

1 WS SE, 1 SC SE, 16
cores PDW
1 WS SE, 1 SC S...
VELOCIDAD
Ingeniería
• Mantenimiento Predictivo
• Gestión de Alarmas
Detección de Fraudes

• Análisis de Actividad
• Análi...
VARIABILIDAD
SISTEMA TRADICIONAL
BIG DATA NO ES…
… una base de
datos enorme

… un producto
comercial

Big Data
no es…
… una tecnología

… Hadoop
RESUMEN
Big Data es el cambio de paradigma que representa la búsqueda de
soluciones para almacenar y procesar Datos NO est...
Feed My Head – Richie Kotzen

Hadoop
APACHE HADOOP
Open Source data management with scale-out storage & processing

MapReduce
• Divide las tareas
entre procesa...
CARACTERÍSTICAS
–

–

–

Escalable
– Cantidades masivas de datos (Pb)
– Escalado (casi) lineal Almacenamiento Redundante
–...
RDBMS vs HADOOP
ECOSISTEMA HADOOP

Procesado Distribuido
(Map Reduce)
Almacenamiento Distribuido
(HDFS)
DEMO: Creación de un Clúster
Love Bites – Def Leppard

HDFS
HDFS
–
–

–

–

Sistema de Ficheros distribuido
Construido sobre Hardware no específico
– Ficheros replicados para soporta...
ARQUITECTURA HDFS

Data Node

Data Node

Data Node

Data Node
ARQUITECTURA HDFS

Data Node

Data Node

Data Node

Data Node
ARQUITECTURA HDFS

Data Node

Data Node

Data Node

Data Node
ARQUITECTURA HDFS

Data Node

Data Node

Data Node

Data Node
ARQUITECTURA HDFS
Name Node
Secondary Name
Node

NameSpace

Block Management

Data Node

Data Node

Data Node

Data Node
ORGANIZACIÓN DE LOS DATOS
–
–

Systema de Ficheros Lógico
Metadatos
–
–

–

Ficheros
–

–

–

Organización en ficheros y d...
CLUSTER HDFS
Tres componentes principales:
– Name Node:
–
–

–

Data Nodes:
–

–

–

Gestiona los Data Nodes
Guarda metada...
ACCESO A LOS FICHEROS
Name Node

JVM
1

Block Management

Distributed FS

Pig

Client Code

NameSpace

Hive

FS Data Outpu...
DEMO: HDFS
MOVIENDO DATOS DENTRO DEL CLUSTER
–

Generalmente se hacia por lotes
–

–

Automatizado como Jobs de CRON

No se necesita ...
OTROS MECANISMOS
–
–
–
–

SSIS
WebHDFS
FlumeNG
Sqoop
The One and Only – H.e.a.t.

Map/Reduce
¿QUE ES MAP REDUCE?
–
–

Un framework
Procesado y Analisis de „big data‟
–

–
–
–
–

Pensado para grandes conjuntos de dat...
ARQUITECTURA DE MAPREDUCE
MapReduce

Node

Node
Input
Format

Map

Partitioner

Sort

HDFS

HBase
Reduce

Output
Format
MAPREDUCE
HADOOP Y WINDOWS
–

Dos métodos principales:
–
–

Interfaz de Streaming
APIs específicas (.NET SDK for Hadoop)
STREAMING
SINTAXIS
Se trata de un .jar normal…
> Hadoop jar contrib/streaming/hadoop-x.x-streaming.jar
-input inputfile
-output outp...
.NET SDK FOR HADOOP
–

API para HDInsight
–

–

API C# que hace de wrapper sobre la interfaz de streaming

Otras cosas fin...
Tell Me – Gotthard

Consultas: Pig y Hive
PIG
–

Extension de Hadoop para simplificar las consultas sobre los datos

–

Dos componentes principales:
–
–

Lenguaje d...
EJEMPLO DE PIG
A = LOAD 'entrada' AS (x, y, z);
B = FILTER A BY x > 5;
DUMP B;
C = FOREACH B GENERATE y, z;
STORE C INTO „...
HIVE
–

–

Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre
el clúster.
Permite:
–
–

Definir una estruct...
HIVE NO…
–

… es un RDBMS
–

–

Usa una BD para los metadatos, pero los datos reales se almacenan en HDFS

… está diseñado...
DEMO: Hive
Future World - Helloween

El futuro presente
EVOLUCIÓN A HADOOP 2.0
HADOOP 2.0
MEJORAS A HIVE: 100X (STINGER)
STINGER - RESULTADOS DE PHASE 2
MEJORAS A HIVE: TEZ
Give Me Real – Gotthard

Big Data con Microsoft
BIG DATA CON MICROSOFT
CASO DE ÉXITO
SHARP
–

SCADA Historical Analysis and
Reporting Platform

–

Plataforma:
–
–
–
–

SCADA: Local, Central y Móvil
Datos His...
SHARP (ALMACENAMIENTO)
MAGU
S

Mongo
Export
Source
1

Loader
Origen
2

DAT
DAT

Loader

DAT
DAT

Source
2

Loader

Origen
...
SHARP (ANÁLISIS Y REPORTING)
Events

StreamInsight

Power
Pivot

DWH

Microsoft
Office

Reporting
Services

OLAP
Tabular

...
APROXIMACIÓN

Ecosistema
Microsoft
Infrastructur
a OnPremise

Reducir riesgos
Planificacion de iteraciones futuras

•
•

I...
IMPLEMENTACIÓN
Map
Reduc
e

HDFS

Load Service

DWH

HIVE

Hadoop
Azure
Storage

SSI
S

SSRS

PowerView
UN VISTAZO…
VARIAS GRANULARIDADES: SQL Y HADOOP

Export
VARIAS GRANULARIDADES: SQL Y HADOOP
VARIAS GRANULARIDADES: SQL Y HADOOP
Map/
Reduce
Job

Sqoop

…
SQL Server
SQL Server

SQL Server

SQL Server
VARIAS GRANULARIDADES: SQL Y HADOOP

…
SQL Server
SQL Server

SQL Server

Sqoop

Hadoop Cluster

SQL Server
POLYBASE
T-SQL Queries

SQL Server

SQL HDF
S
Improv. to HigHer Resolution Data
…
SQL Server
SQL Server

Hadoop Cluster

SQL Server

SQL Server
Polybase
Gracias!
http://spain.windowsazurebootcamp.org/
http://spain.windowsazurebootcamp.org/
Pablo Doval | Plain Concepts | Open Data
Upcoming SlideShare
Loading in...5
×

Pablo Doval | Plain Concepts | Open Data

284

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
284
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Pablo Doval | Plain Concepts | Open Data

  1. 1. Big Data en el Mundo Real™
  2. 2. Big Data en el Mundo Real™ Implementación de soluciones con tecnologías Microsoft
  3. 3. PABLO DOVAL SQL/BI Team Lead palvarez@plainconcepts.com http://geeks.ms/blogs/palvarez @PabloDoval
  4. 4. More Than Words - Extreme Introducción
  5. 5. LAS TRES UVES… Volumen Variabilidad Velocidad
  6. 6. VOLUMEN
  7. 7. VOLUMEN
  8. 8. VOLUMEN Large Synoptic Survey Telescope (LSSD) Unos 40TB/día +100PB durante su expectativa de vida
  9. 9. VOLUMEN Illumina HiSeq 2000 1Tb por día aproximadamente Un solo laboratorio puede tener de 25 a 100 de estos
  10. 10. VOLUMEN
  11. 11. ALGUNAS ESTADÍSTICAS DE SQL SERVER Categoría Métrica Mayor base de datos Tabla mas grande Mayor conjunto de datos en una sola aplicación Mayor número de transacciones/seg. (en 1 servidor) 100 TB 1.5 trillones de filas 92 PB 130,000 Subsistema de E/S más rápido (SQLIO: lecturas en 18 GB/s. serie de 64k) Menor latencia en cubo Latencia en ms. Carga de 1TB de datos Mayor cubo MOLAP 30 minutos 24 TB
  12. 12. FAST TRACK: ARQUITECTURA DE REFERENCIA • • • • • • • • Diseño Hardware: • Especificación concreta de servidores, almacenamiento y red. • Recursos Balanceados y Equilibrados • Servidores y Almacenamiento de última generación
  13. 13. PARALELL DATA WAREHOUSE RDBMS distribuido, paralelo y “Shared-nothing” • Particionado de consultas y datos • Proporciona una vista única de un cluster de SQL Servers Appliance • Software + hardware • HP y Dell Optimizado para DW • Bulk loads (1.2 – 2.0 TB/hora) • Scans (700 TB en 3 horas) Escala de Terabytes al rango de petabytes
  14. 14. ARQUITECTURA (v1) Computación Nodos de Control SQL (Activo / Pasivo) Interfaz ETL SQL SQL SQL SQL SQL SQL Nodo de Reserva Solución de Backup Dual Fiber Channel Monitorización SQL SQL Dual Infiniband Drivers Cliente (ODBC, OLEDB, ADO.NET)
  15. 15. ARQUITECTURA (v2) 2 WS SE, 2 SC SE Control Server Passive Failover Server 1 WS SE, 1 SC SE, 16 cores PDW 1 WS SE, 1 SC SE, 16 cores PDW Scale Compute Unit 3 (2 active compute servers)- 32 cores JBOD Storage 1 WS SE, 1 SC SE, 16 cores PDW 1 WS SE, 1 SC SE, 16 cores PDW Scale Compute Unit 2 (2 active compute servers)- 32 cores Base Unit CTL Host 1 Infiniband y Ethernet 2 WS SE, 2 SC SE Host 2 Host 3 JBOD Host 4 Direct attached SAS 1 WS SE, 1 SC SE, 16 cores PDW 1 WS SE, 1 SC SE, 16 cores PDW Scale Compute Unit 1 (2 active compute servers)- 32 cores JBOD Storage 1 WS SE, 1 SC SE, 16 cores PDW 1 WS SE, 1 SC SE, 16 cores PDW JBOD Storage Base Compute Unit (2 active servers)32 cores Infiniband y Ethernet JBOD Storage Scale Unit Host 3 JBOD Host 4 Direct attached SAS
  16. 16. VELOCIDAD Ingeniería • Mantenimiento Predictivo • Gestión de Alarmas Detección de Fraudes • Análisis de Actividad • Análisis de Logs Publicidad Online • Asignación de Anuncios • Calculo de Rutas de Exposición
  17. 17. VARIABILIDAD
  18. 18. SISTEMA TRADICIONAL
  19. 19. BIG DATA NO ES… … una base de datos enorme … un producto comercial Big Data no es… … una tecnología … Hadoop
  20. 20. RESUMEN Big Data es el cambio de paradigma que representa la búsqueda de soluciones para almacenar y procesar Datos NO estructurados Y Datos estructurados conjuntamente de un modo económico y escalable.
  21. 21. Feed My Head – Richie Kotzen Hadoop
  22. 22. APACHE HADOOP Open Source data management with scale-out storage & processing MapReduce • Divide las tareas entre procesadores „cercanos‟ a los datos • Compone los resultados HDFS • Almacenamiento distribuido • Auto-reparable • Redundante • Nodo maestro (NameNode)
  23. 23. CARACTERÍSTICAS – – – Escalable – Cantidades masivas de datos (Pb) – Escalado (casi) lineal Almacenamiento Redundante – Failover entre nodos y racks Flexible – Cualquier tipo de datos, en cualquier formato – El esquema se aplica en lectura Económico – Empleo de hardware no especifico
  24. 24. RDBMS vs HADOOP
  25. 25. ECOSISTEMA HADOOP Procesado Distribuido (Map Reduce) Almacenamiento Distribuido (HDFS)
  26. 26. DEMO: Creación de un Clúster
  27. 27. Love Bites – Def Leppard HDFS
  28. 28. HDFS – – – – Sistema de Ficheros distribuido Construido sobre Hardware no específico – Ficheros replicados para soportar fallos – Detección y Recuperación automática Optimizado para procesos por lotes (batch) – Lista de úbicaciones expuesta para minimizar trafico – Proporciona un ancho de banda agregado muy elevado Funciona en multiples OS (FS lógico)
  29. 29. ARQUITECTURA HDFS Data Node Data Node Data Node Data Node
  30. 30. ARQUITECTURA HDFS Data Node Data Node Data Node Data Node
  31. 31. ARQUITECTURA HDFS Data Node Data Node Data Node Data Node
  32. 32. ARQUITECTURA HDFS Data Node Data Node Data Node Data Node
  33. 33. ARQUITECTURA HDFS Name Node Secondary Name Node NameSpace Block Management Data Node Data Node Data Node Data Node
  34. 34. ORGANIZACIÓN DE LOS DATOS – – Systema de Ficheros Lógico Metadatos – – – Ficheros – – – Organización en ficheros y directorios Permisos POSIX Divididos en bloques de tamaño uniforme (64 MB por defecto) Distribuidos a lo largo de todo el clúster Consciente de rack
  35. 35. CLUSTER HDFS Tres componentes principales: – Name Node: – – – Data Nodes: – – – Gestiona los Data Nodes Guarda metadatos para todos los ficheros y bloques Almacenan los bloques de datos Se distribuyen por la topología de racks Clientes: – Hablan directamente con el Name Node, y después con los Data Nodes necesarios.
  36. 36. ACCESO A LOS FICHEROS Name Node JVM 1 Block Management Distributed FS Pig Client Code NameSpace Hive FS Data Output Stream HBase 2 3 4 5 6 Data Node
  37. 37. DEMO: HDFS
  38. 38. MOVIENDO DATOS DENTRO DEL CLUSTER – Generalmente se hacia por lotes – – Automatizado como Jobs de CRON No se necesita definir el schema a la hora de escribir los datos
  39. 39. OTROS MECANISMOS – – – – SSIS WebHDFS FlumeNG Sqoop
  40. 40. The One and Only – H.e.a.t. Map/Reduce
  41. 41. ¿QUE ES MAP REDUCE? – – Un framework Procesado y Analisis de „big data‟ – – – – – Pensado para grandes conjuntos de datos Computacion de datos locales Procesado paralelo Gestiona automáticamente los fallos Java
  42. 42. ARQUITECTURA DE MAPREDUCE MapReduce Node Node Input Format Map Partitioner Sort HDFS HBase Reduce Output Format
  43. 43. MAPREDUCE
  44. 44. HADOOP Y WINDOWS – Dos métodos principales: – – Interfaz de Streaming APIs específicas (.NET SDK for Hadoop)
  45. 45. STREAMING
  46. 46. SINTAXIS Se trata de un .jar normal… > Hadoop jar contrib/streaming/hadoop-x.x-streaming.jar -input inputfile -output outputfile -mapper myScript.py -file myScript.py -reducer c:/Windows/system32/sort.exe
  47. 47. .NET SDK FOR HADOOP – API para HDInsight – – API C# que hace de wrapper sobre la interfaz de streaming Otras cosas finas… ;) – – – – – LINQ to Hive WebHDFS client WebHCat cliente LINQ to Oozie Ambari
  48. 48. Tell Me – Gotthard Consultas: Pig y Hive
  49. 49. PIG – Extension de Hadoop para simplificar las consultas sobre los datos – Dos componentes principales: – – Lenguaje de procesado de datos (Pig Latin) Compilador y runtime de scripts pig latin
  50. 50. EJEMPLO DE PIG A = LOAD 'entrada' AS (x, y, z); B = FILTER A BY x > 5; DUMP B; C = FOREACH B GENERATE y, z; STORE C INTO „salida';
  51. 51. HIVE – – Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre el clúster. Permite: – – Definir una estructura tabular sobre los datos Consultar estos datos mediante HiveQL
  52. 52. HIVE NO… – … es un RDBMS – – Usa una BD para los metadatos, pero los datos reales se almacenan en HDFS … está diseñado para sistemas OLTP – – Olvidémonos de consultas en tiempo real Olvidémonos de actualización de filas
  53. 53. DEMO: Hive
  54. 54. Future World - Helloween El futuro presente
  55. 55. EVOLUCIÓN A HADOOP 2.0
  56. 56. HADOOP 2.0
  57. 57. MEJORAS A HIVE: 100X (STINGER)
  58. 58. STINGER - RESULTADOS DE PHASE 2
  59. 59. MEJORAS A HIVE: TEZ
  60. 60. Give Me Real – Gotthard Big Data con Microsoft
  61. 61. BIG DATA CON MICROSOFT
  62. 62. CASO DE ÉXITO
  63. 63. SHARP – SCADA Historical Analysis and Reporting Platform – Plataforma: – – – – SCADA: Local, Central y Móvil Datos Históricos: Gran volumen y gran velocidad Reporting Análisis
  64. 64. SHARP (ALMACENAMIENTO) MAGU S Mongo Export Source 1 Loader Origen 2 DAT DAT Loader DAT DAT Source 2 Loader Origen 4 Hadoop Loader DAT Source 3 Loader DAT DAT Loader Origen 6 Loader Source 7 DAT DW
  65. 65. SHARP (ANÁLISIS Y REPORTING) Events StreamInsight Power Pivot DWH Microsoft Office Reporting Services OLAP Tabular Power View OLAP Tabular Cloud? Production Centers Central
  66. 66. APROXIMACIÓN Ecosistema Microsoft Infrastructur a OnPremise Reducir riesgos Planificacion de iteraciones futuras • • Integración con la plataforma actual Aprovechar el conocimiento existente • Prueba de Concepto • • Entorno más controlado
  67. 67. IMPLEMENTACIÓN Map Reduc e HDFS Load Service DWH HIVE Hadoop Azure Storage SSI S SSRS PowerView
  68. 68. UN VISTAZO…
  69. 69. VARIAS GRANULARIDADES: SQL Y HADOOP Export
  70. 70. VARIAS GRANULARIDADES: SQL Y HADOOP
  71. 71. VARIAS GRANULARIDADES: SQL Y HADOOP Map/ Reduce Job Sqoop … SQL Server SQL Server SQL Server SQL Server
  72. 72. VARIAS GRANULARIDADES: SQL Y HADOOP … SQL Server SQL Server SQL Server Sqoop Hadoop Cluster SQL Server
  73. 73. POLYBASE T-SQL Queries SQL Server SQL HDF S
  74. 74. Improv. to HigHer Resolution Data … SQL Server SQL Server Hadoop Cluster SQL Server SQL Server
  75. 75. Polybase
  76. 76. Gracias!
  77. 77. http://spain.windowsazurebootcamp.org/
  78. 78. http://spain.windowsazurebootcamp.org/

×