• Save
Que debe saber un DBA de SQL Server sobre Hadoop
Upcoming SlideShare
Loading in...5
×
 

Que debe saber un DBA de SQL Server sobre Hadoop

on

  • 180 views

en esta presentacion se cubren los conceptos de big data y la integracion con productos SQL Server Microsoft

en esta presentacion se cubren los conceptos de big data y la integracion con productos SQL Server Microsoft

Statistics

Views

Total Views
180
Views on SlideShare
180
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Que debe saber un DBA de SQL Server sobre Hadoop Que debe saber un DBA de SQL Server sobre Hadoop Presentation Transcript

  • Que debe saber un DBA sobre Hadoop Big Data Ing. Eduardo Castro, PhD ecastro@simsasys.com Microsoft SQL Server MVP PASS Regional Mentor
  • SQL Saturday Sponsors Gold Sponsors Silver Sponsors Bronze Sponsors
  • Canal en YouTube  http://www.youtube.com/eduardocastrom
  • Introducción  En esta sesión se abarcan los conceptos principales de Big Data, así como las herramientas de implementación tales como Hadoop y su distribución de HD Insights y HortonWorks.  El DBA aprende la forma de integrar Hadoop dentro de sus soluciones de bases de datos y soluciones de Inteligencia de Negocios.
  • Agenda  Introducción a Big Data  HortonWorks  Micrsooft Azure HDInsight  Consumir HDInsight desde Excel  La obtención de datos en el mercado de datos Microsoft Azure
  • Introducción a los Big Data  ¿Qué es el Big Data?  ¿Qué es Hadoop?  Introducción a Map / Reduce  Soluciones de Big Data de Microsoft
  • Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024 Megabytes. Un Petabyte es una unidad de almacenamiento de información cuyo símbolo es PB, equivale a 1024 Terabytes = 1.125.899.906.842.624 de bytes.
  • Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php  1 Petabyte es suficiente para almacenar 13.3 años de video HD  1.5 Petabytes son necesarios para almacenar 10 Billones de fotos de Facebook  Google procesa alrededor de 24 Petabytes de información por día.  Avatar, la película de James Cameron del 2009, usó 1 Petabyte de información para realizar los efectos especiales.  AT&T, el carrier del iPhone en Estados Unidos, transmite 19 Petabytes de datos por mes.
  • Qué es Big Data? Megabytes Gigabytes Terabytes Petabytes Purchase detail Purchase record Payment record ERP CRM WEB BIG DATA Offer details Support Contacts Customer Touches Segmentation Web logs Offer history A/B testing Dynamic Pricing Affiliate Networks Search Marketing Behavioral Targeting Dynamic Funnels User Generated Content Mobile Web SMS/MMSSentiment External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Spatial & GPS Coordinates Incremento de variedad y cantidad de datos Transacciones + Interacciones + Observaciones = BIG DATA
  • ¿Qué es el Big Data?  Datos que son demasiado grandes o complejos para el análisis de bases de datos relacionales tradicionales  Caracterizado por las tres” V”  Volumen - Enormes cantidades de datos  Variedad - Una mezcla de datos estructurados y datos no estructurados  Velocidad - Nuevos datos generados extremadamente rápido
  • Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  • Casos en los cuales se utiliza Big Data  Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar.  Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.  Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  • Casos en los cuales se utiliza Big Data Sentiment Analysis  Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales  Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos.  El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  • Casos en los cuales se utiliza Big Data Modelado de riesgo  Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros  Para preparar la posible "qué pasaría si" los escenarios basados ​​en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  • Casos en los cuales se utiliza Big Data Motor de recomendación  Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados ​​en el análisis del perfil de usuario y los datos de comportamiento.  LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  • Casos en los cuales se utiliza Big Data Detección de Fraude  Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta.  Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  • Casos en los cuales se utiliza Big Data Análisis de la campaña de marketing  Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing.  Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  • Casos en los cuales se utiliza Big Data Análisis Social Graph  Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales.  Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  • Casos en los cuales se utiliza Big Data Customer Experience Analytics  Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes  Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
  • ¿Qué es Hadoop? • Clusters de Hadoop • Varios servidores con un sistema de archivos compartido denominado HDFS • Las solicitudes de cliente son atendidos por el “Name Node” • Varios nodos de datos procesan los datos mediante Map/Reduce • Proyectos relacionados • Hive • HCatalog • Pig • Oozie • Mahout
  • Facebook  Hadoop Datawarehouse en Facebook se ha convertido el clúster más grande de almacenamiento Hadoop en el mundo.  21 PB de almacenamiento en un único HDFS clúster  2000 nodos  12 TB por nodos (algunos tienen 24 TB cada uno)  1.200 máquinas con 8 núcleos cada una + 800 máquinas con 16 núcleos cada una  32 GB de RAM por máquina  15 trabajos de Map/Reduce por máquina http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/
  • Facebook  400 millones de usuarios activos mensuales, 25 millones de piezas de contenido compartido cada mes  12 TB de datos comprimidos se agregan por día  800 TB de datos comprimidos se escanean por día  25,000 trabajos de Map/Reduce por día  65 millones de archivos HDFS  30,000 conexiones simultáneas al HDFS NameNode http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/
  • Nuevos enfoques para el procesamiento y análisis de datos grandes
  • Introducción a Big Data y Hadoop  Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos  Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede:  Almacenar petabytes de información  Permite procedamiento distribuido  Principales atributos:  Redundante y confiable (no se pierden datos)  Centrado en el análisis por lotes  Facilidad de crear aplicaciones y procesamiento distribuido  Ejecuta en cualquier hardware
  • Componentes de Hadoop  Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en cualquier clúster Hadoop  NameNode: El nodo de un clúster Hadoop que proporciona la información al cliente sobre donde se almacenan los datos y si un nodo falla  Nodo secundario: Una copia de seguridad del NameNode, se replica periódicamente  Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce  Los nodos esclavos: Los nodos esclavos almacenan datos y procesan los datos desde el gestor de trabajo.
  • Clúster Hadoop Yahoo! Hadoop clúster, 2007. Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
  • Componentes de Hadoopa de Hardware
  • MapReduce Fundamentos de Hadoop
  • Introducción a Map/Reduce 1. Los datos se dividen entre los nodos de datos 2. La fase de Map genera pares clave / valor 3. La fase de reduce agrega los valores de cada clave Lorem ipsum sit amet magma sit elit Fusce magna sed sentarse amet magna Clave Valor Lorem 1 ipsum 1 sentarse 1 amet 1 magma 1 sentarse 1 elit 1 Clave Valor Fusce 1 magma 1 sed 1 sentarse 1 amet 1 magma 1 Clave Valor Lorem 1 ipsum 1 sentarse 3 amet 2 magma 3 elit 1 Fusce 1 sed 1
  • Hadoop Distributed Architecture
  • MapReduce: Mover Código a los Datos
  • Cómo trabaja?
  • Plataforma de Big Data Micrsooft
  • Soluciones Big Data Microsoft  SQL Server Parallel Data Warehouse  Appliance para data warehouse corporativo  Procesamiento paralelo masivo (MPP), arquitectura de Shared-Noting  Windows Azure HDInsight  Implementación de Hadoop basada en la nube  Disponible como un servicio de Microsoft Azure  Polibase  Tecnología de integración de SQL Server Parallel Data Warehouse y HDInsight
  • Integración con herramientas Microsoft Integración con las herramientas de Análisis de Microsoft APPLICATIONSDATASYSTEMS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DATASOURCES MOBILE DATA OLTP, POS SYSTEMS Fuentes tradicionales (RDBMS, OLTP, OLAP) Nuevas Fuentes (web logs, email, sensor data, social media)
  • Procesamiento de datos y análisis: The Old Way
  • HADOOP PARA WINDOWS
  • HDP para Windows Hortonworks Data Platform (HDP) For Windows 100% Open Source Enterprise Hadoop HORTONWORKS DATA PLATFORM (HDP) For Windows PLATFORM SERVICES HADOOP CORE Distributed Storage & Processing DATA SERVICES Store, Process and Access Data OPERATIONAL SERVICES Manage & Operate at Scale Manage & Operate at Scale Store, Process and Access Data Distributed Storage & Processing Enterprise Readiness
  • La distribución de Apache Hadoop distribución desarrollado por Hortonworks y Microsoft Integrado con Microsoft BI Microsoft HDInsight
  • Creciente volumenes de datos 1 En tiempo real datos 2 Nuevo datos fuentes y tipos 3 Nacido en la nube datos 4 El almacén de datos tradicional Las fuentes de datos
  • Big data + BI tradicional = BI Poderoso grandes cantidades de datos Microsoft HDInsight Tabular OLAP SQL 010101010101010101 1010101010101010 01010101010101 101010101010 Visualización PDW + Polibase
  •  Las fuentes de datos Los datos no relacionales El almacén de datos moderna
  • Alto rendimiento y optimizado en el hardware Autenticación del usuario final con Active Directory Accesible para todo el mundo con las herramientas de Microsoft BI Administrado y monitoreado utilizando System Center 100-por ciento Apache Hadoop SQL Server Parallel Data warehouse Microsoft HDInsight Polibase APS listo para la empresa Hadoop con HDInsight Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
  • Proporciona un único Modelo de consulta T- SQL para PDW y Hadoop con características de T-SQL, incluyendo joins sin ETL Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas Compatible con Windows Azure HDInsight para permitir escenarios híbridos de la nube Ofrece la posibilidad de consultar las distribuciones no Microsoft Hadoop, como Hortonworks y Cloudera SQL Server PDWMicrosoft Azure HDInsight Polibase Microsoft HDInsight Hortonworks para Windows y Linux Cloudera Conexión de islas de datos con polibase Trayendo soluciones de Hadoop y el almacén de datos Conjunto de resultados Seleccionar ...
  • (HDFS) Bridge Resultado s Acceso directo y paralelo a HDFS Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW Los datos no relacional Aplicaciones Social Sensor y RFID Móvil aplicaciones Web aplicaciones Hadoop Los datos relacionales Basado esquema tradicional almacén de datos PDWPuente HDFS Enhanced PDW query engine La tabla externa Los datos externos Archivo externo Regular T-SQL
  • HDFS File / Directory //hdfs/social_media/twitter //hdfs/social_media/twitter/Daily.log Hadoop Column filtering Dynamic binding Row filtering User Location Product Sentiment Rtwt Hour Date Sean Suz Audie Tom Sanjay Roger Steve CA WA CO IL MN TX AL xbox xbox excel sqls wp8 ssas ssrs -1 0 1 1 1 1 1 5 0 0 8 0 0 0 8 2 8 2 1 23 23 5-15-14 5-15-14 5-15-14 5-13-14 5-14-14 5-14-14 5-13-14 PolyBase – Predicate pushdown SELECT User, Product, Sentiment FROM Twitter_Table WHERE Hour = Current - 1 AND Date = Today AND Sentiment >= 0
  • Uso de Big Data para cualquier persona Integración con Microsoft BI Minimiza TI intervención para el descubrimiento de datos con herramientas como Microsoft Excel Permite a los usuarios DBA unir datos relacionales y Hadoop con T-SQL Ofrece herramientas de Hadoop como MapaReduce, Hive, y Pig para los científicos de datos Toma ventaja de la alta adopción de Excel, Power View, PowerPivot y SQL Server Analysis Services Los usuarios avanzados Científico de datos Todos los demás utilizando Herramientas de Microsoft BI
  • Microsoft Azure HDInsight  Cómo instalar un clúster HDInsight  Introducción a HDFS  Ejecución de una tarea de Map / Reduce  El procesamiento de los datos con Pig  Creación de tablas Hive  Cargando Tablas Datos en Hive  Consulta de Tablas con HiveQL
  • Windows Azure HDInsight Service Query & Metadata: Data Movement: Workflow: Monitoring:
  • Windows Azure HDInsight Service
  • Cómo Provisión de un clúster HDInsight  Dependencias  Windows Azure Storage  Windows Azure SQL Database (optional)  Configuración del Cluster  Name  Size  Version  Storage  Metadata store  Credentials  Conecciones remotas  Time-limited remote desktop access
  • Introducción a HDFS  Alojado en un blob container en Windows Azure Storage  No se borra aunque se borre el cluster de  Las rutas pueden ser ASV o HDFS  asv://data@myaccount.blob.core.windows.net/logs/file.txt  /logs/file.txt  Comandos de HDFS  ls  cp, copyToLocal, and copyFromLocal  mv, moveToLocal, and moveFromLocal  mkdir  rm and rmr  cat
  • Ejecución de una tarea Map / Reduce 1. Preparar el ambiente • Instalar Windows Azure PowerShell • Herramientas PowerShell para Windows Azure HDInsight • Descarga e importar los publishsettings 2. Ejecute el trabajo de Map / Reduce • New-AzureHDInsightMapReduceJobDefinition para definir la tarea • Start-AzureHDInsightJob para ejecutar la tarea 3. Ver los resultados de la tarea • Wait-AzureHDInsightJob para comprobar el estado de finalización • Get-AzureHDInsightJobOutput para comprobar si hay errores • Get-AzureStorageBlobContent para descargar los resultados
  • JS MapReduce Wordcount var mapa = Function (clave, valor, contexto) { var palabras = value.split(/ [^ A-zA-Z] /); for (var yo = 0; yo < words.length;yo+ +) { if (palabras [yo]! == "") { context.write(palabras [yo].toLowerCase(), 1); } } }; var reducir = Function (clave, valores, contexto) { var sum = 0; mientras que (values.hasNext()) { suma + = parseInt(values.next()); } context.write(Clave, suma); };
  • El procesamiento de los datos con Pig • Abstrae el Map/Reduce • Realizar las operaciones de datos utilizando sentencias de Pig Latin • Las sentencias son convertidas en tareas de Map/Reduce • Schema On Read • Los datos pueden almacenarse en cualquier formato • Esquema se determina en el tiempo de procesamiento • Los scripts de Pig describen una serie de operaciones • Cada operación define una relación • El Map/Reduce no se realiza hasta que exista una operación DUMP o STORE
  • Pig Latin Ejemplo - Todo está en paralelo! = primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query); houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, consulta; ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar (org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram; ngramed2 = DISTINCT ngramed1; hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora); ... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html] TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
  • Creación de tablas Hive • Utilice la sentencia CREATE TABLE HiveQL • Define los metadatos del esquema que se establece sobre los datos en una carpeta cuando se consulta la table • Especifica el formato de archivo y ubicación • Por defecto el formato es un archivo secuencial en la ruta /hive/warehouse/<table_name> • Crear tablas internas o tablas externas
  • Crear tabla externa CREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ]) {WITH ( DATA_SOURCE = <data_source>, FILE_FORMAT = <file_format>, LOCATION =‘<file_path>’, [REJECT_VALUE = <value>], …)}; Hacer referencia a la fuente de da externa 1 Hacer referencia a formato de archivo externo 2 Ruta de acceso del archivo / carpeta Hadoop 3 (Opcional) Rechazar parámetros4
  • Cargando Datos en Hive • Guarde los archivos de datos en los directories para tablas • Utilice la instrucción LOAD • Mueve o copia los archivos al directorio correspondiente • Utilice la sentencia INSERT • Inserta datos de una tabla a otra
  • Crear origen de datos externo CREATE EXTERNAL DATA SOURCE datasource_name {WITH ( TYPE = <data_source>, LOCATION =‘<location>’, [JOB_TRACKER_LOCATION = ‘<jb_location>’] }; Tipo de fuente de datos externa1 Lugar de origen de datos extern2 La activación o desactivación de la generación de trabajo MapReduce 3
  • Consulta de Tablas con HiveQL • Consultar datos utilizando la sentencia TSQL SELECT • Hive traduce la consulta en tareas de Map/Reduce y aplica el esquema de la tabla a los archivos de datos
  • Crear Formato de Archivo Externo CREATE EXTERNAL FILE FORMAT fileformat_name {WITH ( FORMAT_TYPE = <type>, [SERDE_METHOD = ‘<sede_method>’,] [DATA_COMPRESSION = ‘<compr_method>’, [FORMAT_OPTIONS (<format_options>)] }; Tipo de fuente de datos externa1 (De) método de serialización [Hive fichero de recursos] 2 Método de compresió3 (Opcional) Formato Opciones [Texto Archivos] 4
  • HDInsight en Excel  Acceso a HDInsight desde Excel  Uso del proveedor Hive ODBC  Uso de las consultas con HDInsight
  • Acceder HDInsight desde Excel • Driver Hive ODBC para HDInsight • Soporta sintaxis similar a T-SQL para consultar las tablas del clúster • Requiere un clúster HDInsight activo • PowerQuery • Soporta la importación de datos desde cualquier archivo en HDFS • Se puede utilizar cuando el clúster HDInsight está inactivo
  • Instalar el Hive ODBC Driver 1. Descargue e instale el driver Hive ODBC para HDInsight 2. Crear un nombre de origen de datos (DSN) para el clúster de HDInsight 3. Utilice el Asistente para la conexión de datos en Excel para importar datos
  • Importación de datos Windows Azure Marketplace En Excel • Puede importar datos de Windows Azure Marketplace directamente en Excel usando: • PowerQuery • PowerPivot • PowerView
  • 71 | Eduardo Castro ecastro@simsasys.com ecastrom.blogspot.com edocastro PREGUNTAS Y RESPUESTAS
  • Proxima sesion  Introducción al Análisis Predictivo con SQL Server