Your SlideShare is downloading. ×
  • Like
  • Save
Pablo Doval | Plain Concepts | Open Data
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Pablo Doval | Plain Concepts | Open Data

  • 199 views
Published

 

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
199
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Big Data en el Mundo Real™
  • 2. Big Data en el Mundo Real™ Implementación de soluciones con tecnologías Microsoft
  • 3. PABLO DOVAL SQL/BI Team Lead palvarez@plainconcepts.com http://geeks.ms/blogs/palvarez @PabloDoval
  • 4. More Than Words - Extreme Introducción
  • 5. LAS TRES UVES… Volumen Variabilidad Velocidad
  • 6. VOLUMEN
  • 7. VOLUMEN
  • 8. VOLUMEN Large Synoptic Survey Telescope (LSSD) Unos 40TB/día +100PB durante su expectativa de vida
  • 9. VOLUMEN Illumina HiSeq 2000 1Tb por día aproximadamente Un solo laboratorio puede tener de 25 a 100 de estos
  • 10. VOLUMEN
  • 11. ALGUNAS ESTADÍSTICAS DE SQL SERVER Categoría Métrica Mayor base de datos Tabla mas grande Mayor conjunto de datos en una sola aplicación Mayor número de transacciones/seg. (en 1 servidor) 100 TB 1.5 trillones de filas 92 PB 130,000 Subsistema de E/S más rápido (SQLIO: lecturas en 18 GB/s. serie de 64k) Menor latencia en cubo Latencia en ms. Carga de 1TB de datos Mayor cubo MOLAP 30 minutos 24 TB
  • 12. FAST TRACK: ARQUITECTURA DE REFERENCIA • • • • • • • • Diseño Hardware: • Especificación concreta de servidores, almacenamiento y red. • Recursos Balanceados y Equilibrados • Servidores y Almacenamiento de última generación
  • 13. PARALELL DATA WAREHOUSE RDBMS distribuido, paralelo y “Shared-nothing” • Particionado de consultas y datos • Proporciona una vista única de un cluster de SQL Servers Appliance • Software + hardware • HP y Dell Optimizado para DW • Bulk loads (1.2 – 2.0 TB/hora) • Scans (700 TB en 3 horas) Escala de Terabytes al rango de petabytes
  • 14. ARQUITECTURA (v1) Computación Nodos de Control SQL (Activo / Pasivo) Interfaz ETL SQL SQL SQL SQL SQL SQL Nodo de Reserva Solución de Backup Dual Fiber Channel Monitorización SQL SQL Dual Infiniband Drivers Cliente (ODBC, OLEDB, ADO.NET)
  • 15. ARQUITECTURA (v2) 2 WS SE, 2 SC SE Control Server Passive Failover Server 1 WS SE, 1 SC SE, 16 cores PDW 1 WS SE, 1 SC SE, 16 cores PDW Scale Compute Unit 3 (2 active compute servers)- 32 cores JBOD Storage 1 WS SE, 1 SC SE, 16 cores PDW 1 WS SE, 1 SC SE, 16 cores PDW Scale Compute Unit 2 (2 active compute servers)- 32 cores Base Unit CTL Host 1 Infiniband y Ethernet 2 WS SE, 2 SC SE Host 2 Host 3 JBOD Host 4 Direct attached SAS 1 WS SE, 1 SC SE, 16 cores PDW 1 WS SE, 1 SC SE, 16 cores PDW Scale Compute Unit 1 (2 active compute servers)- 32 cores JBOD Storage 1 WS SE, 1 SC SE, 16 cores PDW 1 WS SE, 1 SC SE, 16 cores PDW JBOD Storage Base Compute Unit (2 active servers)32 cores Infiniband y Ethernet JBOD Storage Scale Unit Host 3 JBOD Host 4 Direct attached SAS
  • 16. VELOCIDAD Ingeniería • Mantenimiento Predictivo • Gestión de Alarmas Detección de Fraudes • Análisis de Actividad • Análisis de Logs Publicidad Online • Asignación de Anuncios • Calculo de Rutas de Exposición
  • 17. VARIABILIDAD
  • 18. SISTEMA TRADICIONAL
  • 19. BIG DATA NO ES… … una base de datos enorme … un producto comercial Big Data no es… … una tecnología … Hadoop
  • 20. RESUMEN Big Data es el cambio de paradigma que representa la búsqueda de soluciones para almacenar y procesar Datos NO estructurados Y Datos estructurados conjuntamente de un modo económico y escalable.
  • 21. Feed My Head – Richie Kotzen Hadoop
  • 22. APACHE HADOOP Open Source data management with scale-out storage & processing MapReduce • Divide las tareas entre procesadores „cercanos‟ a los datos • Compone los resultados HDFS • Almacenamiento distribuido • Auto-reparable • Redundante • Nodo maestro (NameNode)
  • 23. CARACTERÍSTICAS – – – Escalable – Cantidades masivas de datos (Pb) – Escalado (casi) lineal Almacenamiento Redundante – Failover entre nodos y racks Flexible – Cualquier tipo de datos, en cualquier formato – El esquema se aplica en lectura Económico – Empleo de hardware no especifico
  • 24. RDBMS vs HADOOP
  • 25. ECOSISTEMA HADOOP Procesado Distribuido (Map Reduce) Almacenamiento Distribuido (HDFS)
  • 26. DEMO: Creación de un Clúster
  • 27. Love Bites – Def Leppard HDFS
  • 28. HDFS – – – – Sistema de Ficheros distribuido Construido sobre Hardware no específico – Ficheros replicados para soportar fallos – Detección y Recuperación automática Optimizado para procesos por lotes (batch) – Lista de úbicaciones expuesta para minimizar trafico – Proporciona un ancho de banda agregado muy elevado Funciona en multiples OS (FS lógico)
  • 29. ARQUITECTURA HDFS Data Node Data Node Data Node Data Node
  • 30. ARQUITECTURA HDFS Data Node Data Node Data Node Data Node
  • 31. ARQUITECTURA HDFS Data Node Data Node Data Node Data Node
  • 32. ARQUITECTURA HDFS Data Node Data Node Data Node Data Node
  • 33. ARQUITECTURA HDFS Name Node Secondary Name Node NameSpace Block Management Data Node Data Node Data Node Data Node
  • 34. ORGANIZACIÓN DE LOS DATOS – – Systema de Ficheros Lógico Metadatos – – – Ficheros – – – Organización en ficheros y directorios Permisos POSIX Divididos en bloques de tamaño uniforme (64 MB por defecto) Distribuidos a lo largo de todo el clúster Consciente de rack
  • 35. CLUSTER HDFS Tres componentes principales: – Name Node: – – – Data Nodes: – – – Gestiona los Data Nodes Guarda metadatos para todos los ficheros y bloques Almacenan los bloques de datos Se distribuyen por la topología de racks Clientes: – Hablan directamente con el Name Node, y después con los Data Nodes necesarios.
  • 36. ACCESO A LOS FICHEROS Name Node JVM 1 Block Management Distributed FS Pig Client Code NameSpace Hive FS Data Output Stream HBase 2 3 4 5 6 Data Node
  • 37. DEMO: HDFS
  • 38. MOVIENDO DATOS DENTRO DEL CLUSTER – Generalmente se hacia por lotes – – Automatizado como Jobs de CRON No se necesita definir el schema a la hora de escribir los datos
  • 39. OTROS MECANISMOS – – – – SSIS WebHDFS FlumeNG Sqoop
  • 40. The One and Only – H.e.a.t. Map/Reduce
  • 41. ¿QUE ES MAP REDUCE? – – Un framework Procesado y Analisis de „big data‟ – – – – – Pensado para grandes conjuntos de datos Computacion de datos locales Procesado paralelo Gestiona automáticamente los fallos Java
  • 42. ARQUITECTURA DE MAPREDUCE MapReduce Node Node Input Format Map Partitioner Sort HDFS HBase Reduce Output Format
  • 43. MAPREDUCE
  • 44. HADOOP Y WINDOWS – Dos métodos principales: – – Interfaz de Streaming APIs específicas (.NET SDK for Hadoop)
  • 45. STREAMING
  • 46. SINTAXIS Se trata de un .jar normal… > Hadoop jar contrib/streaming/hadoop-x.x-streaming.jar -input inputfile -output outputfile -mapper myScript.py -file myScript.py -reducer c:/Windows/system32/sort.exe
  • 47. .NET SDK FOR HADOOP – API para HDInsight – – API C# que hace de wrapper sobre la interfaz de streaming Otras cosas finas… ;) – – – – – LINQ to Hive WebHDFS client WebHCat cliente LINQ to Oozie Ambari
  • 48. Tell Me – Gotthard Consultas: Pig y Hive
  • 49. PIG – Extension de Hadoop para simplificar las consultas sobre los datos – Dos componentes principales: – – Lenguaje de procesado de datos (Pig Latin) Compilador y runtime de scripts pig latin
  • 50. EJEMPLO DE PIG A = LOAD 'entrada' AS (x, y, z); B = FILTER A BY x > 5; DUMP B; C = FOREACH B GENERATE y, z; STORE C INTO „salida';
  • 51. HIVE – – Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre el clúster. Permite: – – Definir una estructura tabular sobre los datos Consultar estos datos mediante HiveQL
  • 52. HIVE NO… – … es un RDBMS – – Usa una BD para los metadatos, pero los datos reales se almacenan en HDFS … está diseñado para sistemas OLTP – – Olvidémonos de consultas en tiempo real Olvidémonos de actualización de filas
  • 53. DEMO: Hive
  • 54. Future World - Helloween El futuro presente
  • 55. EVOLUCIÓN A HADOOP 2.0
  • 56. HADOOP 2.0
  • 57. MEJORAS A HIVE: 100X (STINGER)
  • 58. STINGER - RESULTADOS DE PHASE 2
  • 59. MEJORAS A HIVE: TEZ
  • 60. Give Me Real – Gotthard Big Data con Microsoft
  • 61. BIG DATA CON MICROSOFT
  • 62. CASO DE ÉXITO
  • 63. SHARP – SCADA Historical Analysis and Reporting Platform – Plataforma: – – – – SCADA: Local, Central y Móvil Datos Históricos: Gran volumen y gran velocidad Reporting Análisis
  • 64. SHARP (ALMACENAMIENTO) MAGU S Mongo Export Source 1 Loader Origen 2 DAT DAT Loader DAT DAT Source 2 Loader Origen 4 Hadoop Loader DAT Source 3 Loader DAT DAT Loader Origen 6 Loader Source 7 DAT DW
  • 65. SHARP (ANÁLISIS Y REPORTING) Events StreamInsight Power Pivot DWH Microsoft Office Reporting Services OLAP Tabular Power View OLAP Tabular Cloud? Production Centers Central
  • 66. APROXIMACIÓN Ecosistema Microsoft Infrastructur a OnPremise Reducir riesgos Planificacion de iteraciones futuras • • Integración con la plataforma actual Aprovechar el conocimiento existente • Prueba de Concepto • • Entorno más controlado
  • 67. IMPLEMENTACIÓN Map Reduc e HDFS Load Service DWH HIVE Hadoop Azure Storage SSI S SSRS PowerView
  • 68. UN VISTAZO…
  • 69. VARIAS GRANULARIDADES: SQL Y HADOOP Export
  • 70. VARIAS GRANULARIDADES: SQL Y HADOOP
  • 71. VARIAS GRANULARIDADES: SQL Y HADOOP Map/ Reduce Job Sqoop … SQL Server SQL Server SQL Server SQL Server
  • 72. VARIAS GRANULARIDADES: SQL Y HADOOP … SQL Server SQL Server SQL Server Sqoop Hadoop Cluster SQL Server
  • 73. POLYBASE T-SQL Queries SQL Server SQL HDF S
  • 74. Improv. to HigHer Resolution Data … SQL Server SQL Server Hadoop Cluster SQL Server SQL Server
  • 75. Polybase
  • 76. Gracias!
  • 77. http://spain.windowsazurebootcamp.org/
  • 78. http://spain.windowsazurebootcamp.org/