• Save
Big Data con Sql Server 2014 y la nube
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Big Data con Sql Server 2014 y la nube

  • 509 views
Uploaded on

En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data......

En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data Warehouse)

Saludos,

Eduardo Castro, PhD
SQL Server MVP
Comunidad Windows Costa Rica

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
509
On Slideshare
507
From Embeds
2
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 2

https://twitter.com 2

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Big Data con SQL Server 2014 y la nube Dr. Eduardo Castro, MBA
  • 2. Introducción para BI & Big Data DAX MDX Minería de Datos Excel BI Recursos adicionales
  • 3. Análisis de grandes cantidades de datos Big Data
  • 4. Objetivos
  • 5. Big data, o los datos sólo complejos? velocidad variedad complejidad volumen Datos interpretarpreparación
  • 6. Grandes volúmenes de datos de hoy en día, pocos datos del mañana Complejidad vs capacidades actuales FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
  • 7. Dominio Escenarios de grandes volúmenes datos comunes Servicios financieros Modelado riesgo verdadero Análisis de las amenazas y detección de fraude Vigilancia Comercio El puntaje de crédito y análisis Medios y Entretenimiento Los motores de recomendación Focalización Ad Buscar calidad Los abusos y detección de fraude de clics Venta al por menor Punto de análisis de las transacciones de ventas Análisis de la pérdida de clientes El análisis de sentimientos (sentiment analysis) Telecomunicaciones Cliente prevención del churn La optimización del rendimiento de la red Detalles de llamadas (CDR) y su análisis Predicción de fallos de red Gobierno Seguridad Cibernética (botnets, fraudes) La congestión del tráfico y re-enrutamiento Monitoreo Ambiental Monitoreo Antisocial través de medios sociales Salud La investigación del genoma La investigación del cáncer Pandemias detección temprana Monitoreo de la calidad del aire
  • 8. ¿Qué es BIG Data?
  • 9. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  • 10. Qué es Big Data? Megabytes Gigabytes Terabytes Petabytes Purchase detail Purchase record Payment record ERP CRM WEB BIG DATA Offer details Support Contacts Customer Touches Segmentation Web logs Offer history A/B testing Dynamic Pricing Affiliate Networks Search Marketing Behavioral Targeting Dynamic Funnels User Generated Content Mobile Web SMS/MMSSentiment External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Spatial & GPS Coordinates Incremento de variedad y cantidad de datos Transacciones + Interacciones + Observaciones = BIG DATA
  • 11. Procesamiento de datos y análisis: The Old Way
  • 12. La naturaleza cambiante del Big Data • Big Data tiene importantes cualidades distintivas que lo diferencian de los datos corporativos "tradicionales". • Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes
  • 13. La naturaleza cambiante del Big Data • La web • Dispositivos móviles • Infraestructura de TI • y otras fuentes está creciendo exponencialmente cada año. Volumen - La cantidad de datos que han creado las empresas a través de
  • 14. La naturaleza cambiante del Big Data Tipo - La variedad de tipos de datos es cada vez mayor, • No estructurados de datos basados ​​en texto • Datos semi-estructurados como los datos de los medios sociales • Los datos basados ​​en la localización • Datos de logs, ejemplo servidores Web
  • 15. La naturaleza cambiante del Big Data Velocidad • La velocidad a la que se está creando nuevos datos • La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.
  • 16. Principales fuentes de datos • Redes sociales y medios de comunicación • 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos • Dispositivos móviles • Más de 5 mil millones de teléfonos móviles en uso en todo el mundo • Transacciones en Internet • miles de millones de compras en línea, operaciones de bolsa y otras transacciones ocurren todos los días • Dispositivos de red y sensores
  • 17. Big Data
  • 18. Casos en los cuales se utiliza Big Data • Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar. • Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa. • Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  • 19. Casos en los cuales se utiliza Big Data Sentiment Analysis • Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales • Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos. • El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  • 20. Casos en los cuales se utiliza Big Data Modelado de riesgo • Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros • Para preparar la posible "qué pasaría si" los escenarios basados ​​en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  • 21. Casos en los cuales se utiliza Big Data Motor de recomendación • Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados ​​en el análisis del perfil de usuario y los datos de comportamiento. • LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  • 22. Casos en los cuales se utiliza Big Data Detección de Fraude • Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta. • Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  • 23. Casos en los cuales se utiliza Big Data Análisis de la campaña de marketing • Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing. • Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  • 24. Casos en los cuales se utiliza Big Data Análisis Social Graph • Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales. • Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  • 25. Casos en los cuales se utiliza Big Data Customer Experience Analytics • Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes • Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
  • 26. Nuevos Enfoques para el procesamiento y análisis de datos • Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes • Hadoop • NoSQL • Bases de datos analíticos masivamente paralelo
  • 27. Nuevos Enfoques para el procesamiento y análisis de datos grandes
  • 28. Introducción a Big Data y Hadoop • Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos • Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede: • Almacenar petabytes de información • Permite procedamiento distribuido • Principales atributos: • Redundante y confiable (no se pierden datos) • Centrado en el análisis por lotes • Facilidad de crear aplicaciones y procesamiento distribuido • Ejecuta en cualquier hardware
  • 29. Componentes de Hadoop • Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en cualquier clúster Hadoop dado; • Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan; • Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar; • Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos. • Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
  • 30. Arquitectura de Hardware
  • 31. Arquitectura de Software
  • 32. Hadoop Distributed Architecture
  • 33. MapReduce: Mover Código a los Datos
  • 34. Cómo trabaja?
  • 35. Principios de Hadoop Método práctico procesamiento paralelización de análisis masivo de datos
  • 36. Datos en Hadoop
  • 37. MapReduce De bajo nivel, fundamentos de Hadoop
  • 38. Clúster Hadoop Yahoo! Hadoop clúster, 2007. Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
  • 39. Clúster Hadoop Buster Cluster, un proyecto de investigación Miles Osborne, de la Universidad de Edimburgo, Facultad de Informática. Imagen utilizada con permiso. http://homepages.inf.ed.ac.uk/miles/
  • 40. Cluster Hadoop Nube Rent-A-Hadoop-cluster, o bien: "Superordenador de centavos" Windows Azure HD Insight
  • 41. Procesamiento de la lógica en HDInsight 1.6, 2.1, 3.0 Hadoop 1.x: Lote para el procesamiento
  • 42. Procesamiento de la lógica en HDInsight 3.0 Hadoop 2.2: interactivo, en línea, stream, o por lotes
  • 43. JS MapReduce Wordcount var mapa = Function (clave, valor, contexto) { var palabras = value.split(/ [^ A-zA-Z] /); for (var yo = 0; yo < words.length;yo+ +) { if (palabras [yo]! == "") { context.write(palabras [yo].toLowerCase(), 1); } } }; var reducir = Function (clave, valores, contexto) { var sum = 0; mientras que (values.hasNext()) { suma + = parseInt(values.next()); } context.write(Clave, suma); };
  • 44. Pig Latin Ejemplo - Todo está en paralelo! = primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query); houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, consulta; ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar (org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram; ngramed2 = DISTINCT ngramed1; hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora); ... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html] TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
  • 45. Ciencia de datos Hadoop Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no Filtrado colaborativo, recomendadores, clustering, singular value decomposition parallel frequent pattern mining, naïve Bayes, árbol de decisión
  • 46. Plataforma de Big Data Micrsooft
  • 47. Interoperatibilidad Integración con las herramientas de Análisis de Microsoft APPLICATIONSDATASYSTEMS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DATASOURCES MOBILE DATA OLTP, POS SYSTEMS Fuentes tradicionales (RDBMS, OLTP, OLAP) Nuevas Fuentes (web logs, email, sensor data, social media)
  • 48. Principios PDW • Procesamiento paralelo masivo (MPP) para las consultas • Dentro de la memoria de columnas • Múltiples nodos con CPU dedicada, memoria, almacenamiento • Incremental extensible • Escala de terabytes a múltiples petabytes
  • 49. Lapache Hadoop distribución Desarrollado por Hortonworks Y Microsoft Integrado con Microsoft BI Microsoft HDInsight
  • 50. Big data + BI tradicional = poderoso + easy Grandes, de datos rápida, o complejo Microsoft HDInsight Tabular OLAP SQL 010101010101010101 1010101010101010 01010101010101 101010101010 La interacción, exploración, rNFORMES, visualización PDW + Polibase
  • 51. Windows HADOOP • 2 Versiones • Cloud • Azure Service • On Permise • Integración con el Hadoop File System with Active Directory • Integración con BI • Herramientas de integración • Sqoop • Integración con SQL Server
  • 52. Introducción a HDInsight • HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop • Disponible tanto para Windows Server y como un servicio Windows Azure • Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel
  • 53. Windows Azure HDInsight Service Query & Metadata: Data Movement: Workflow: Monitoring:
  • 54. Windows Azure HDInsight Service
  • 55. HADOOP PARA WINDOWS
  • 56. HDP para Windows Hortonworks Data Platform (HDP) For Windows 100% Open Source Enterprise Hadoop HORTONWORKS DATA PLATFORM (HDP) For Windows PLATFORM SERVICES HADOOP CORE Distributed Storage & Processing DATA SERVICES Store, Process and Access Data OPERATIONAL SERVICES Manage & Operate at Scale Manage & Operate at Scale Store, Process and Access Data Distributed Storage & Processing Enterprise Readiness
  • 57. Modelando “Big Data” con PowerPivot • Big data puede ser integrado con otras fuentes de datos • Potencial de Autoservicio de BI: • PowerPivot puede cargar Big Data mediante el Table Import Wizard • ODBC para HDInsight • OLE DB para SQL Server con enlace a HDInsight • PowerPivot puede ser fuente para: • Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View • Otras herramientas de análisis (una vez publicado en SharePoint)
  • 58. Consideraciones de modelar “Big Data” con PowerPivot • Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria • Workaround: minizar la cantidad de datos consultados • Recuperar un periodo de tiempo más pequeño • Reducir las dimensiones o ser más granular • Una vez que está cargado el modelo puede ser manipulado con rapidez
  • 59. Formas de carga de datos
  • 60. Cómo consumir Resultados de HDInsight Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster SQL Server, Azure SQL DB Sqoop (Hadoop ecosystem project) Yes Excel Codename “Data Explorer” No Otra Blob Storage Account Azure Blob Storage REST APIs (Copy Blob, etc) No SQL Server Analysis Services Hive ODBC Driver Yes BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources) Yes
  • 61. Hadoop Connectors • SQL Server versions • Azure • PDW • SQL 2012 • SQL 2008 R2 • SQL Server 2014 http://www.microsoft.com/download/en/details.aspx?id=27584
  • 62. Resumen Siga: @rafaldotnet Email: rafal@projectbotticelli.com Descubra: rafal.net
  • 63. "... Almacenamiento de datos ha alcanzado el punto de inflexión más importante desde su creación. La gestión de datos en TI está cambiando. " - Gartner, "El estado de almacenamiento de datos en 2012"
  • 64. Creciente volumenes de datos 1 En tiempo real datos 2 Nuevo datos fuentes y tipos 3 Nacido en la nube datos 4 El almacén de datos tradicional Las fuentes de datos
  • 65.  Las fuentes de datos Los datos no relacional El almacén de datos moderna
  • 66. Técnicas de diseñadores toda tu datos Enriquecer y optimizar sus datos con fuentes no tradicional 6
  • 67. Mantener la inversión legado Comprar nuevo nivel uno dispositivo de hardware Adquirir Big Data solución Adquirir la inteligencia de negocios Obstáculos para un almacén de datos moderna Escalabilidad limitada y capacidad de gestionar nuevos tipos de datos Entrenamiento Alta adquisición y costos de migración Complejidad y adopción
  • 68. Introducción al sistema Microsoft Analytics Platform Un moderno dispositivo de almacenamiento de datos llave en mano • De datos relacionales y no relacionales en un único dispositivo • Hadoop lista para la empresa • Consultas integradas a través de Hadoop y PDW utilizando T-SQL • La integración directa con las herramientas de BI de Microsoft, como Microsoft Excel • Cerca de rendimiento en tiempo real con In-Memory Columnstore • Capacidad de escalabilidad para incluir cada vez mayor de datos • La eliminación del almacén de datos cuellos de botella con MPP SQL Server • Concurrencia que ayuda rápida adopción • Precio de appliance de datos más bajo por terabyte • Valor a través de una única solución • Valor con opciones de hardware flexibles utilizando hardware comercial
  • 69. Alto rendimiento y sintonizado en el hardware Autenticación del usuario final con Active Directory Accesible ideas para todo el mundo con las herramientas de Microsoft BI Administrado y monitoreado utilizando System Center 100-por ciento de Apache Hadoop SQL Server Parallel Data warehouse Microsoft HDInsight Polibase APS listo para la empresa Hadoop con HDInsight Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
  • 70. Carga en paralelo de depósito de datos HDInsight carga de trabajo Fabric Hardware Aparato Una región es un contenedor lógico dentro de un appliance Cada carga de trabajo contiene los siguientes límites: • Seguridad • Medida • Prestación de servicios Resumen hardware APS
  • 71. Proporciona un único Modelo de consulta T- SQL para PDW y Hadoop con ricas características de T-SQL, incluyendo joins sin ETL Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas Compatible con Windows Azure HDInsight para permitir escenarios híbrido de la nube Ofrece la posibilidad de consultar las distribuciones no Microsoft Hadoop, como Hortonworks y Cloudera SQL Server PDWMicrosoft Azure HDInsight Polibase Microsoft HDInsight Hortonworks para Windows y Linux Cloudera Conexión de islas de datos con polibase Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI Conjunto de resultados Seleccionar ...
  • 72. (HDFS) Bridge Resultado s Acceso directo y paralelo a HDFS Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW Los datos no relacional Aplicaciones Social Sensor y RFID Móvil aplicaciones Web aplicaciones Hadoop Los datos relacionales Basado esquema tradicional almacén de datos PDWPuente HDFS Enhanced PDW query engine La tabla externa Los datos externos Archivo externo Regular T-SQL
  • 73. Automatic MapReduce pushdown Hadoop / Data Lake (Cloudera, Hortonworks, HDInsight) Fuente sistemas Actualizar Día / Hora / Minuto SQL Server Data Marts SQL Server Reporting Services SQL Server Analysis Services APS MapReduce T-SQL Analytics / Ad-hoc / Visualización Microsoft HDInsight SQL Server Parallel Data Warehouse Polibase
  • 74. HDFS File / Directory //hdfs/social_media/twitter //hdfs/social_media/twitter/Daily.log Hadoop Column filtering Dynamic binding Row filtering User Location Product Sentiment Rtwt Hour Date Sean Suz Audie Tom Sanjay Roger Steve CA WA CO IL MN TX AL xbox xbox excel sqls wp8 ssas ssrs -1 0 1 1 1 1 1 5 0 0 8 0 0 0 8 2 8 2 1 23 23 5-15-14 5-15-14 5-15-14 5-13-14 5-14-14 5-14-14 5-13-14 PolyBase – Predicate pushdown SELECT User, Product, Sentiment FROM Twitter_Table WHERE Hour = Current - 1 AND Date = Today AND Sentiment >= 0
  • 75. Uso de Big Data para cualquier persona Integración con Microsoft BI Minimiza TI intervención para el descubrimiento de datos con herramientas como Microsoft Excel Permite a los usuarios DBA unir datos relacionales y Hadoop con T-SQL Ofrece herramientas de Hadoop como MapaReduce, Hive, y Pig para los científicos de datos Toma ventaja de la alta adopción de Excel, Power View, PowerPivot y SQL Server Analysis Services Los usuarios avanzados Científico de datos Todos los demás utilizando Herramientas de Microsoft BI
  • 76. Crear tabla externa CREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ]) {WITH ( DATA_SOURCE = <data_source>, FILE_FORMAT = <file_format>, LOCATION =‘<file_path>’, [REJECT_VALUE = <value>], …)}; Hacer referencia a la fuente de dato externa 1 Hacer referencia a formato de archivo externo 2 Ruta de acceso del archivo / carpeta Hadoop 3 (Opcional) Rechazar parámetros4
  • 77. Crear origen de datos externo CREATE EXTERNAL DATA SOURCE datasource_name {WITH ( TYPE = <data_source>, LOCATION =‘<location>’, [JOB_TRACKER_LOCATION = ‘<jb_location>’] }; Tipo de fuente de datos externa1 Lugar de origen de datos externos2 La activación o desactivación de la generación de trabajo MapReduce 3
  • 78. Crear Formato de Archivo Externo CREATE EXTERNAL FILE FORMAT fileformat_name {WITH ( FORMAT_TYPE = <type>, [SERDE_METHOD = ‘<sede_method>’,] [DATA_COMPRESSION = ‘<compr_method>’, [FORMAT_OPTIONS (<format_options>)] }; Tipo de fuente de datos externa1 (De) método de serialización [Hive fichero de recursos] 2 Método de compresión3 (Opcional) Formato Opciones [Texto Archivos] 4
  • 79. <Format Options> :: = [,FIELD_TERMINATOR = ‘value’], [,STRING_DELIMITER = ‘value’], [,DATE_FORMAT = ‘value’], [USE_TYPE_DEFAULT = ‘value’] Opciones de formato Delimitador de columna1 Carácter de separación para los tipos de datos de cadena 2 Para especificar un formato de fecha determinado 3 ¿Cómo se manejan las entradas que faltan 4
  • 80. PolyBase utilizando datos de Hadoop Traer islas de datos Hadoop juntos Ejecución de alta consultas de rendimiento contra los datos Hadoop De datos de almacenamiento de datos de archivado a Hadoop (mover) Exportación de datos relacionales para Hadoop (copia) Importación de datos de Hadoop en un dato almacén (copia)
  • 81. Múltiples nodos con CPU dedicada, memoria y almacenamiento Posibilidad de añadir de forma incremental hardware para la escalabilidad casi lineal a múltiples petabytes Capacidad para manejar complejidad de la consulta y la concurrencia y escalabilidad Capacidad para escalar HDInsight y PDW Escalada fuera sus datos a petabytes Escalabilidad de salida tecnologías en Sistema Analytics Platform PDW 0 terabytes 6 petabytes PDW / HDInsight PDW / HDInsight PDW / HDInsight PDW / HDInsight PDW / HDInsight PDW / HDInsight
  • 82. Un rendimiento increíblemente rápido MPP y In-Memory Columnstore para la próxima generación rendimiento • Datawarehouse con Column Store • Carga datos hacia o desde la memoria para rendimiento de próxima generación con una mejora de hasta 60% en la velocidad de carga de datos Hasta 100x más rápido Hasta 15x más compression Column Store Index Ejecución de consultas en paralelo
  • 83. Clustered columnstore index ¿Por qué es es importante? • Ahorra espacio • Proporciona una gestión más fácil, eliminando el mantenimiento de índices secundarios Espacio utilizado =tabla espacio + índice espacio 0.0 5.0 10.0 15.0 20.0 1 2 3 4 5 6 Space used in GB (table with 101 million rows) 91% de ahorro In-Memory Columnstore ¡se ofrece en el motor de almacenamiento en el PDW AU1
  • 84. Ejecución de consultas en paralelo y distribuidos Procesamiento de la ejecución de consultas relacionales Consultas SQL enviadas al nodo de control 1 El nodo de control crea plan de ejecución de la consulta 2 El plan de consulta crea consultas distribuidas para su ejecución en cada nodo de cómputo 3 Las consultas distribuidas enviados nodos en de cálculo (todos corriendo en paralelo) 4 El nodo de control recoge los resultados de la consulta y los devuelve al usuario 5 ControlCliente Calcular Calcular Calcular Calcular Administración Applicance Resultados de la consulta Consulta del usuario Crear una consulta plan Los resultados agregados de la consulta Operaciones del plan de consulta en paralelo
  • 85. Herramientas de BI Presentación de informes y cubos SMP SQL Server Concurrencia de datos Gran rendimiento con cargas de trabajo mixtas Analytics Platform SystemETL / ELT con SSIS, DQS, MDS ERP CRM LOB APPS ETL / ELT con DWLoader Hadoop / Big Data PDW HDInsight Polibase Consultas ad hoc Intra-Day Casi en tiempo real Fast ad hoc Almacén de columnas Polibase CRTAS Linked Table Real-Time ROLAP / MOLAP DirectQuery SNAC
  • 86. Hardware y software de ingeniería junto Co-dirigido con HP, Dell, Quanta y mejores prácticas Liderando el rendimiento con hardware comercial Pre-configurado, construido, y ajustado software y hardware Integrado apoyo con un solo contacto Microsoft PDW HDInsight Polybase
  • 87. PDW region Hardware architectureInfiniBand InfiniBand Ethernet Ethernet Control node Failover node Master node Failover node Economical disk storage Compute nodes Economical disk storage Compute nodes Economical disk storage Compute nodes Networking PDW region HDInsight region Rack #1 InfiniBand InfiniBand Ethernet Ethernet Failover node Economical disk storage Compute nodes Economical disk storage Compute nodes Economical disk storage Compute nodes HDI extension base unit HDI active scale unit HDI extension base unit HDI active scale unit Rack #2 HST-02 HST-01 HSA-01 HST-02 Economical disk storage IB and Ethernet Active Unit Dos nodos adicionales Passive Unit HDInsight Failover Node Alta Disponibilidad
  • 88. Arquitectura virtualizada PANORAMA Anfitrión 2 Anfitrión 1 Anfitrión 3 Anfitrión 4 Almacenami ento en disco IB y Ethernet Directo SAS adjunto Unidad BaseC T L Ma ssa ch us ett s D A D V M M Calcule 2 Calcule 1 • Motor PDW • DMS Manage • SQL Server 2012 Enterprise Edition (build PDW) Detalles de software • Todos los hosts ejecutan Windows Server 2012 Standard and Windows Azure Virtual Machines • Fabric o carga de trabajo en Hyper-V virtual Máquinas • PDW agente que se ejecuta en todos los hosts y es toda virtual máquinas • DWConfig y consola de administración • Ventanas espacios de almacenamiento y Azure Storage