Your SlideShare is downloading. ×
0
Big Data con SQL 
Server 2014 
Dr. Eduardo Castro, MAP 
Microsoft SQL Server MVP 
PASS Regional Mentor
Recursos adicionales 
Introducción para BI & Big Data 
DAX 
MDX 
Minería de Datos 
Excel BI
Canal en YouTube 
http://www.youtube.com/eduardocastrom
Análisis de 
grandes 
cantidades de 
datos 
Big Data
Objetivos
Qué es un Petabyte 
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php 
Un Terabyte son ...
Qué es un Petabyte 
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php 
• 1 Petabyte es ...
Big data, o los datos sólo complejos? 
preparación interpretar 
velocidad 
volumen 
Datos 
variedad complejidad
Grandes volúmenes de datos de hoy en día, pocos 
datos del mañana 
Complejidad vs capacidades actuales 
FAA estación inter...
Dominio Escenarios de grandes volúmenes datos comunes 
Servicios financieros Modelado riesgo verdadero 
Análisis de las am...
¿Qué es BIG Data?
Introducción a Big Data y Hadoop 
Big data es una colección de conjuntos de datos tan grande y 
complejo que se vuelve dif...
Qué es Big Data? 
Petabytes 
Terabytes 
Gigabytes 
Megabytes 
BIG DATA 
WEB 
CRM 
ERP 
Web logs 
Purchase detail 
Purchase...
Procesamiento de datos y análisis: The Old Way
La naturaleza cambiante del Big Data 
• Big Data tiene importantes cualidades distintivas 
que lo diferencian de los datos...
La naturaleza cambiante del Big Data 
Volumen - La cantidad de datos que han 
creado las empresas a través de 
• La web 
•...
La naturaleza cambiante del Big Data 
Tipo - La variedad de tipos de datos es cada vez 
mayor, 
• No estructurados de dato...
La naturaleza cambiante del Big Data 
Velocidad 
• La velocidad a la que se está creando nuevos datos 
• La necesidad de a...
Principales fuentes de datos 
• Redes sociales y medios de comunicación 
• 700 millones de usuarios de Facebook, 250 millo...
Big Data
Casos en los cuales se utiliza Big Data 
• Parte de lo que hace Hadoop y otras tecnologías y 
enfoques Big Data es encontr...
Casos en los cuales se utiliza Big Data 
Sentiment Analysis 
• Utilizado junto con Hadoop, herramientas avanzadas de análi...
Casos en los cuales se utiliza Big Data 
Modelado de riesgo 
• Las empresas financieras, bancos y otros utilizan Hadoop y ...
Casos en los cuales se utiliza Big Data 
Motor de recomendación 
• Los minoristas en línea utilizan Hadoop para igualar y ...
Casos en los cuales se utiliza Big Data 
Detección de Fraude 
• Utilizar técnicas de Big Data para combinar el comportamie...
Casos en los cuales se utiliza Big Data 
Análisis de la campaña de marketing 
• Los departamentos de marketing a través de...
Casos en los cuales se utiliza Big Data 
Análisis Social Graph 
• Junto con Hadoop los datos de redes sociales se extraen ...
Casos en los cuales se utiliza Big Data 
Customer Experience Analytics 
• Empresas orientadas al consumidor utilizan Hadoo...
Nuevos Enfoques para el procesamiento y análisis de datos 
• Hay varios métodos para procesar y analizar grandes 
volúmene...
Nuevos Enfoques para el procesamiento y análisis de datos grandes
Introducción a Big Data y Hadoop 
• Big data se enfrenta a complejidades de alto volumen, la 
velocidad y la variedad de l...
Componentes de Hadoop 
• Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto 
en cualquier clúste...
Arquitectura de Hardware
Arquitectura de Software
Hadoop Distributed Architecture
MapReduce: Mover Código a los Datos
Cómo trabaja?
Principios de Hadoop 
Método práctico 
procesamiento 
paralelización de análisis 
masivo de datos
Datos en Hadoop
MapReduce 
De bajo nivel, fundamentos de Hadoop
Clúster Hadoop 
Yahoo! Hadoop clúster, 2007. 
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
Clúster Hadoop 
Buster Cluster, un proyecto de investigación Miles Osborne, 
de la Universidad de Edimburgo, Facultad de I...
Cluster Hadoop 
Nube 
Rent-A-Hadoop-cluster, o bien: 
"Superordenador de centavos" 
Windows Azure HD Insight
Procesamiento de la lógica en HDInsight 
1.6, 2.1, 3.0 
Hadoop 1.x: Lote para el procesamiento
Procesamiento de la lógica en HDInsight 3.0 
Hadoop 2.2: interactivo, en línea, stream, o por lotes
JS MapReduce Wordcount 
var mapa = Function (clave, valor, contexto) { 
var palabras = value.split(/ [^ A-zA-Z] /); 
for (...
Pig Latin Ejemplo - Todo está en paralelo! 
= primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query); 
ho...
Ciencia de datos Hadoop 
Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no 
Filtrado colaborativo, 
recomendadores, cl...
Plataforma de Big Data Micrsooft
Interoperatibilidad 
Integración con 
las herramientas 
de Análisis de 
Microsoft 
DATA SYSTEMS APPLICATIONS 
Aplicaciones...
Principios PDW 
• Procesamiento paralelo masivo (MPP) para las 
consultas 
• Dentro de la memoria de columnas 
• Múltiples...
Microsoft HDInsight 
Lapache Hadoop distribución 
Desarrollado por Hortonworks Y Microsoft 
Integrado con Microsoft BI
Big data + BI tradicional = poderoso + easy 
Grandes, de 
datos 
rápida, o 
complejo 
Microsoft 
HDInsight 
Tabular 
OLAP ...
Windows HADOOP 
• 2 Versiones 
• Cloud 
• Azure Service 
• On Permise 
• Integración con el Hadoop File System with Active...
Introducción a HDInsight 
• HDInsight es una implementación de Microsoft 100% 
compatible con la distribución de Apache Ha...
Windows Azure HDInsight Service 
Query & 
Metadata: 
Data 
Movement: 
Workflow: Monitoring:
Windows Azure HDInsight Service
HADOOP PARA WINDOWS
HDP para Windows 
Hortonworks 
Data Platform (HDP) 
For Windows 
100% Open Source Enterprise Hadoop 
Manage & 
Operate at ...
Modelando “Big Data” con PowerPivot 
• Big data puede ser integrado con otras fuentes de 
datos 
• Potencial de Autoservic...
Consideraciones de modelar “Big Data” con PowerPivot 
• Los resultados de Big Data pueden ser muy grandes 
para almacenami...
Formas de carga de datos
Cómo consumir Resultados de HDInsight 
Destino Herramienta / Biblioteca Requiere Active HDInsight 
Cluster 
SQL Server, 
A...
Hadoop Connectors 
• SQL Server versions 
• Azure 
• PDW 
• SQL 2012 
• SQL 2008 R2 
• SQL Server 2014 
http://www.microso...
Resumen 
Siga: @rafaldotnet 
Email: rafal@projectbotticelli.com 
Descubra: rafal.net
"... Almacenamiento de datos ha alcanzado 
el punto de inflexión más importante 
desde su creación. La gestión de datos en...
Creciente 
volumenes de 
datos 
1 
En 
tiempo 
real 
datos 
2 
Nuevo datos 
fuentes y tipos 
3 
Nacido en 
la nube 
datos ...
 
El almacén de datos moderna 
Las fuentes de 
datos 
Los datos no relacional
Técnicas de diseñadores toda tu datos 
Enriquecer y optimizar sus datos con fuentes no tradicional 
6
Obstáculos para un almacén de datos moderna 
Mantener la inversión 
legado 
Comprar nuevo nivel 
uno dispositivo de 
hardw...
Introducción al sistema Microsoft Analytics Platform 
Un moderno dispositivo de almacenamiento de datos llave en mano 
• D...
APS listo para la empresa Hadoop con HDInsight 
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del...
Resumen hardware APS 
Carga en paralelo de 
depósito de datos 
HDInsight carga de trabajo 
Fabric 
Hardware 
Aparato 
Una ...
Conexión de islas de datos con polibase 
Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios...
(HDFS) Bridge 
Resultado 
s 
Acceso directo y paralelo a HDFS 
Data Movement Service (DMS) of APS APS para permitir la com...
Automatic MapReduce pushdown 
Hadoop / Data Lake 
(Cloudera, Hortonworks, 
HDInsight) 
Fuente sistemas 
Actualizar Día / H...
HDFS File / Directory 
//hdfs/social_media/twitter 
//hdfs/social_media/twitter/Daily.log 
1 
0 
Hadoop 
Dynamic binding 
...
Uso de Big Data para cualquier persona 
Integración con Microsoft BI 
Minimiza TI 
intervención para 
el descubrimiento 
d...
Crear tabla externa 
CREATE EXTERNAL TABLE table_name 
({<column_definition>}[,..n ]) 
{WITH ( 
DATA_SOURCE = <data_source...
Crear origen de datos externo 
CREATE EXTERNAL DATA SOURCE datasource_name 
{WITH ( 
TYPE = <data_source>, 
LOCATION =‘<lo...
Crear Formato de Archivo Externo 
CREATE EXTERNAL FILE FORMAT fileformat_name 
{WITH ( 
FORMAT_TYPE = <type>, 
[SERDE_METH...
Opciones de formato 
<Format Options> :: = 
[,FIELD_TERMINATOR = ‘value’], 
[,STRING_DELIMITER = ‘value’], 
[,DATE_FORMAT ...
PolyBase utilizando datos de Hadoop 
Traer islas de datos Hadoop juntos 
Ejecución de alta consultas de rendimiento contra...
Escalada fuera sus datos a petabytes 
Escalabilidad de salida tecnologías en Sistema Analytics Platform 
Múltiples nodos c...
Un rendimiento increíblemente rápido 
MPP y In-Memory Columnstore para la próxima generación rendimiento 
Hasta 100x 
más ...
Clustered columnstore index 
¿Por qué es es importante? 
• Ahorra espacio 
• Proporciona una gestión más fácil, eliminando...
Ejecución de consultas en paralelo y distribuidos 
Procesamiento de la ejecución de consultas relacionales 
Consultas SQL ...
SMP SQL Server 
Presentación de informes y cubos 
Herramientas de BI 
Concurrencia de datos 
Gran rendimiento con cargas d...
Hardware y software de ingeniería junto 
Co-dirigido con 
HP, Dell, Quanta 
y mejores 
prácticas 
Liderando el 
rendimient...
Hardware architecture InfiniBand 
InfiniBand 
PDW region 
Ethernet 
Ethernet 
Control node 
Failover node 
Master node 
Fa...
Arquitectura virtualizada PANORAMA 
• Motor PDW 
• DMS Manage 
• SQL Server 2012 Enterprise Edition (build PDW) 
Unidad Ba...
Big data con SQL Server 2014
Big data con SQL Server 2014
Big data con SQL Server 2014
Big data con SQL Server 2014
Big data con SQL Server 2014
Upcoming SlideShare
Loading in...5
×

Big data con SQL Server 2014

389

Published on

En esta presentación vemos aspectos de introducción a Big Data.

Saludos,

Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
http://tinyurl.com/comunidadwindows

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
389
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
16
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Big data con SQL Server 2014"

  1. 1. Big Data con SQL Server 2014 Dr. Eduardo Castro, MAP Microsoft SQL Server MVP PASS Regional Mentor
  2. 2. Recursos adicionales Introducción para BI & Big Data DAX MDX Minería de Datos Excel BI
  3. 3. Canal en YouTube http://www.youtube.com/eduardocastrom
  4. 4. Análisis de grandes cantidades de datos Big Data
  5. 5. Objetivos
  6. 6. Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024 Megabytes. Un Petabyte es una unidad de almacenamiento de información cuyo símbolo es PB, equivale a 1024 Terabytes = 1.125.899.906.842.624 de bytes.
  7. 7. Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php • 1 Petabyte es suficiente para almacenar 13.3 años de video HD • 1.5 Petabytes son necesarios para almacenar 10 Billones de fotos de Facebook • Google procesa alrededor de 24 Petabytes de información por día. • Avatar, la película de James Cameron del 2009, usó 1 Petabyte de información para realizar los efectos especiales. • AT&T, el carrier del iPhone en Estados Unidos, transmite 19 Petabytes de datos por mes.
  8. 8. Big data, o los datos sólo complejos? preparación interpretar velocidad volumen Datos variedad complejidad
  9. 9. Grandes volúmenes de datos de hoy en día, pocos datos del mañana Complejidad vs capacidades actuales FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
  10. 10. Dominio Escenarios de grandes volúmenes datos comunes Servicios financieros Modelado riesgo verdadero Análisis de las amenazas y detección de fraude Vigilancia Comercio El puntaje de crédito y análisis Medios y Entretenimiento Los motores de recomendación Focalización Ad Buscar calidad Los abusos y detección de fraude de clics Venta al por menor Punto de análisis de las transacciones de ventas Análisis de la pérdida de clientes El análisis de sentimientos (sentiment analysis) Telecomunicaciones Cliente prevención del churn La optimización del rendimiento de la red Detalles de llamadas (CDR) y su análisis Predicción de fallos de red Gobierno Seguridad Cibernética (botnets, fraudes) La congestión del tráfico y re-enrutamiento Monitoreo Ambiental Monitoreo Antisocial través de medios sociales Salud La investigación del genoma La investigación del cáncer Pandemias detección temprana Monitoreo de la calidad del aire
  11. 11. ¿Qué es BIG Data?
  12. 12. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  13. 13. Qué es Big Data? Petabytes Terabytes Gigabytes Megabytes BIG DATA WEB CRM ERP Web logs Purchase detail Purchase record Payment record Customer Touches Support Contacts Offer details Segmentation Transacciones + Interacciones + Observaciones Spatial & GPS Coordinates Search Marketing Offer history A/B testing Dynamic Pricing Affiliate Networks Behavioral Targeting Dynamic Funnels = BIG DATA User Generated Content Mobile Web Sentiment SMS/MMS External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Incremento de variedad y cantidad de datos
  14. 14. Procesamiento de datos y análisis: The Old Way
  15. 15. La naturaleza cambiante del Big Data • Big Data tiene importantes cualidades distintivas que lo diferencian de los datos corporativos "tradicionales". • Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes
  16. 16. La naturaleza cambiante del Big Data Volumen - La cantidad de datos que han creado las empresas a través de • La web • Dispositivos móviles • Infraestructura de TI • y otras fuentes está creciendo exponencialmente cada año.
  17. 17. La naturaleza cambiante del Big Data Tipo - La variedad de tipos de datos es cada vez mayor, • No estructurados de datos basados en texto • Datos semi-estructurados como los datos de los medios sociales • Los datos basados en la localización • Datos de logs, ejemplo servidores Web
  18. 18. La naturaleza cambiante del Big Data Velocidad • La velocidad a la que se está creando nuevos datos • La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.
  19. 19. Principales fuentes de datos • Redes sociales y medios de comunicación • 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos • Dispositivos móviles • Más de 5 mil millones de teléfonos móviles en uso en todo el mundo • Transacciones en Internet • miles de millones de compras en línea, operaciones de bolsa y otras transacciones ocurren todos los días • Dispositivos de red y sensores
  20. 20. Big Data
  21. 21. Casos en los cuales se utiliza Big Data • Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar. • Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa. • Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  22. 22. Casos en los cuales se utiliza Big Data Sentiment Analysis • Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales • Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos. • El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  23. 23. Casos en los cuales se utiliza Big Data Modelado de riesgo • Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros • Para preparar la posible "qué pasaría si" los escenarios basados en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  24. 24. Casos en los cuales se utiliza Big Data Motor de recomendación • Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados en el análisis del perfil de usuario y los datos de comportamiento. • LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  25. 25. Casos en los cuales se utiliza Big Data Detección de Fraude • Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta. • Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  26. 26. Casos en los cuales se utiliza Big Data Análisis de la campaña de marketing • Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing. • Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  27. 27. Casos en los cuales se utiliza Big Data Análisis Social Graph • Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales. • Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  28. 28. Casos en los cuales se utiliza Big Data Customer Experience Analytics • Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes • Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
  29. 29. Nuevos Enfoques para el procesamiento y análisis de datos • Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes • Hadoop • NoSQL • Bases de datos analíticos masivamente paralelo
  30. 30. Nuevos Enfoques para el procesamiento y análisis de datos grandes
  31. 31. Introducción a Big Data y Hadoop • Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos • Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede: • Almacenar petabytes de información • Permite procedamiento distribuido • Principales atributos: • Redundante y confiable (no se pierden datos) • Centrado en el análisis por lotes • Facilidad de crear aplicaciones y procesamiento distribuido • Ejecuta en cualquier hardware
  32. 32. Componentes de Hadoop • Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en cualquier clúster Hadoop dado; • Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan; • Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar; • Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos. • Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
  33. 33. Arquitectura de Hardware
  34. 34. Arquitectura de Software
  35. 35. Hadoop Distributed Architecture
  36. 36. MapReduce: Mover Código a los Datos
  37. 37. Cómo trabaja?
  38. 38. Principios de Hadoop Método práctico procesamiento paralelización de análisis masivo de datos
  39. 39. Datos en Hadoop
  40. 40. MapReduce De bajo nivel, fundamentos de Hadoop
  41. 41. Clúster Hadoop Yahoo! Hadoop clúster, 2007. Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
  42. 42. Clúster Hadoop Buster Cluster, un proyecto de investigación Miles Osborne, de la Universidad de Edimburgo, Facultad de Informática. Imagen utilizada con permiso. http://homepages.inf.ed.ac.uk/miles/
  43. 43. Cluster Hadoop Nube Rent-A-Hadoop-cluster, o bien: "Superordenador de centavos" Windows Azure HD Insight
  44. 44. Procesamiento de la lógica en HDInsight 1.6, 2.1, 3.0 Hadoop 1.x: Lote para el procesamiento
  45. 45. Procesamiento de la lógica en HDInsight 3.0 Hadoop 2.2: interactivo, en línea, stream, o por lotes
  46. 46. JS MapReduce Wordcount var mapa = Function (clave, valor, contexto) { var palabras = value.split(/ [^ A-zA-Z] /); for (var yo = 0; yo < words.length;yo+ +) { if (palabras [yo]! == "") { context.write(palabras [yo].toLowerCase(), 1); } } }; var reducir = Function (clave, valores, contexto) { var sum = 0; mientras que (values.hasNext()) { suma + = parseInt(values.next()); } context.write(Clave, suma); };
  47. 47. Pig Latin Ejemplo - Todo está en paralelo! = primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query); houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, consulta; ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar (org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram; ngramed2 = DISTINCT ngramed1; hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora); ... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html] TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
  48. 48. Ciencia de datos Hadoop Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no Filtrado colaborativo, recomendadores, clustering, singular value decomposition parallel frequent pattern mining, naïve Bayes, árbol de decisión
  49. 49. Plataforma de Big Data Micrsooft
  50. 50. Interoperatibilidad Integración con las herramientas de Análisis de Microsoft DATA SYSTEMS APPLICATIONS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DATA SOURCES MOBILE DATA Fuentes tradicionales (RDBMS, OLTP, OLAP) OLTP, POS SYSTEMS Nuevas Fuentes (web logs, email, sensor data, social media)
  51. 51. Principios PDW • Procesamiento paralelo masivo (MPP) para las consultas • Dentro de la memoria de columnas • Múltiples nodos con CPU dedicada, memoria, almacenamiento • Incremental extensible • Escala de terabytes a múltiples petabytes
  52. 52. Microsoft HDInsight Lapache Hadoop distribución Desarrollado por Hortonworks Y Microsoft Integrado con Microsoft BI
  53. 53. Big data + BI tradicional = poderoso + easy Grandes, de datos rápida, o complejo Microsoft HDInsight Tabular OLAP SQL 010101010101010101 1010101010101010 01010101010101 101010101010 La interacción, exploración, rNFORMES, visualización PDW + Polibase
  54. 54. Windows HADOOP • 2 Versiones • Cloud • Azure Service • On Permise • Integración con el Hadoop File System with Active Directory • Integración con BI • Herramientas de integración • Sqoop • Integración con SQL Server
  55. 55. Introducción a HDInsight • HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop • Disponible tanto para Windows Server y como un servicio Windows Azure • Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel
  56. 56. Windows Azure HDInsight Service Query & Metadata: Data Movement: Workflow: Monitoring:
  57. 57. Windows Azure HDInsight Service
  58. 58. HADOOP PARA WINDOWS
  59. 59. HDP para Windows Hortonworks Data Platform (HDP) For Windows 100% Open Source Enterprise Hadoop Manage & Operate at PLATFORM SERVICES HORTONWORKS DATA PLATFORM (HDP) For Windows HADOOP CORE DATA SERVICES Store, Process and Access Data OPERATIONAL SERVICES Manage & Operate at Scale Scale Store, Process and Access Data Distributed Storage & Processing Enterprise Readiness
  60. 60. Modelando “Big Data” con PowerPivot • Big data puede ser integrado con otras fuentes de datos • Potencial de Autoservicio de BI: • PowerPivot puede cargar Big Data mediante el Table Import Wizard • ODBC para HDInsight • OLE DB para SQL Server con enlace a HDInsight • PowerPivot puede ser fuente para: • Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View • Otras herramientas de análisis (una vez publicado en SharePoint)
  61. 61. Consideraciones de modelar “Big Data” con PowerPivot • Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria • Workaround: minizar la cantidad de datos consultados • Recuperar un periodo de tiempo más pequeño • Reducir las dimensiones o ser más granular • Una vez que está cargado el modelo puede ser manipulado con rapidez
  62. 62. Formas de carga de datos
  63. 63. Cómo consumir Resultados de HDInsight Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster SQL Server, Azure SQL DB Sqoop (Hadoop ecosystem project) Yes Excel Codename “Data Explorer” No Otra Blob Storage Azure Blob Storage REST APIs (Copy Blob, etc) No Account SQL Server Analysis Services Hive ODBC Driver Yes BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources) Yes
  64. 64. Hadoop Connectors • SQL Server versions • Azure • PDW • SQL 2012 • SQL 2008 R2 • SQL Server 2014 http://www.microsoft.com/download/en/details.aspx?id=27584
  65. 65. Resumen Siga: @rafaldotnet Email: rafal@projectbotticelli.com Descubra: rafal.net
  66. 66. "... Almacenamiento de datos ha alcanzado el punto de inflexión más importante desde su creación. La gestión de datos en TI está cambiando. " - Gartner, "El estado de almacenamiento de datos en 2012"
  67. 67. Creciente volumenes de datos 1 En tiempo real datos 2 Nuevo datos fuentes y tipos 3 Nacido en la nube datos 4 El almacén de datos tradicional Las fuentes de datos
  68. 68.  El almacén de datos moderna Las fuentes de datos Los datos no relacional
  69. 69. Técnicas de diseñadores toda tu datos Enriquecer y optimizar sus datos con fuentes no tradicional 6
  70. 70. Obstáculos para un almacén de datos moderna Mantener la inversión legado Comprar nuevo nivel uno dispositivo de hardware Adquirir Big Data solución Adquirir la inteligencia de negocios Escalabilidad limitada y capacidad de gestionar nuevos tipos de datos Entrenamiento Alta adquisición y costos de migración Complejidad y adopción
  71. 71. Introducción al sistema Microsoft Analytics Platform Un moderno dispositivo de almacenamiento de datos llave en mano • De datos relacionales y no relacionales en un único dispositivo • Hadoop lista para la empresa • Consultas integradas a través de Hadoop y PDW utilizando T-SQL • La integración directa con las herramientas de BI de Microsoft, como Microsoft Excel • Cerca de rendimiento en tiempo real con In-Memory Columnstore • Capacidad de escalabilidad para incluir cada vez mayor de datos • La eliminación del almacén de datos cuellos de botella con MPP SQL Server • Concurrencia que ayuda rápida adopción • Precio de appliance de datos más bajo por terabyte • Valor a través de una única solución • Valor con opciones de hardware flexibles utilizando hardware comercial
  72. 72. APS listo para la empresa Hadoop con HDInsight Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato Alto rendimiento y sintonizado en el hardware Autenticación del usuario final con Active Directory Accesible ideas para todo el mundo con las herramientas de Microsoft BI Administrado y monitoreado utilizando System Center 100-por ciento de Apache Hadoop SQL Server Parallel Data warehouse Polibase Microsoft HDInsight
  73. 73. Resumen hardware APS Carga en paralelo de depósito de datos HDInsight carga de trabajo Fabric Hardware Aparato Una región es un contenedor lógico dentro de un appliance Cada carga de trabajo contiene los siguientes límites: • Seguridad • Medida • Prestación de servicios
  74. 74. Conexión de islas de datos con polibase Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI Proporciona un único Modelo de consulta T-SQL para PDW y Hadoop con ricas características de T-SQL, incluyendo joins sin ETL Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas Compatible con Windows Azure HDInsight para permitir escenarios híbrido de la nube Ofrece la posibilidad de consultar las distribuciones no Microsoft Hadoop, como Hortonworks y Cloudera SQL Server Microsoft Azure PDW HDInsight Polibase Microsoft HDInsight Hortonworks para Windows y Linux Cloudera Conjunto de resultados Seleccionar ...
  75. 75. (HDFS) Bridge Resultado s Acceso directo y paralelo a HDFS Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW Los datos no relacional Aplicaciones Social Sensor y RFID Móvil aplicaciones Web aplicaciones Hadoop Los datos relacionales Basado esquema tradicional almacén de datos Regular T-SQL La tabla externa Los datos externos Archivo externo Enhanced PDW query engine Puente HDFS PDW
  76. 76. Automatic MapReduce pushdown Hadoop / Data Lake (Cloudera, Hortonworks, HDInsight) Fuente sistemas Actualizar Día / Hora / Minuto SQL Server Data Marts SQL Server Reporting Services SQL Server Analytics / Ad-hoc / Visualización MapReduce T-SQL SQL Server Parallel Data Warehouse Polibase Microsoft HDInsight Analysis Services APS
  77. 77. HDFS File / Directory //hdfs/social_media/twitter //hdfs/social_media/twitter/Daily.log 1 0 Hadoop Dynamic binding Column filtering Row filtering User Location Product Sentiment Rtwt Hour Date Sean Audie Suz Tom Sanjay Roger Steve CA CO WA IL MN TX AL xbox excel xbox sqls wp8 ssas ssrs -1 0 1 1 1 1 5 0 8 0 0 0 8 8 2 2 1 23 23 5-15-14 5-15-14 5-15-14 5-13-14 5-14-14 5-14-14 5-13-14 PolyBase – Predicate pushdown SELECT User, Product, Sentiment FROM Twitter_Table WHERE Hour = Current - 1 AND Date = Today AND Sentiment >= 0
  78. 78. Uso de Big Data para cualquier persona Integración con Microsoft BI Minimiza TI intervención para el descubrimiento de datos con herramientas como Microsoft Excel Permite a los usuarios DBA unir datos relacionales y Hadoop con T-SQL Toma ventaja de la alta adopción de Excel, Power View, PowerPivot y SQL Server Analysis Services Ofrece herramientas de Hadoop como MapaReduce, Hive, y Pig para los científicos de datos Todos los demás utilizando Herramientas de Microsoft BI Los usuarios avanzados Científico de datos
  79. 79. Crear tabla externa CREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ]) {WITH ( DATA_SOURCE = <data_source>, FILE_FORMAT = <file_format>, LOCATION =‘<file_path>’, [REJECT_VALUE = <value>], …)}; Hacer referencia a la fuente de datos externa 1 Hacer referencia a formato de archivo externo 2 Ruta de acceso del archivo / carpeta Hadoop 3 4 (Opcional) Rechazar parámetros
  80. 80. Crear origen de datos externo CREATE EXTERNAL DATA SOURCE datasource_name {WITH ( TYPE = <data_source>, LOCATION =‘<location>’, [JOB_TRACKER_LOCATION = ‘<jb_location>’] }; 1 Tipo de fuente de datos externa 2 Lugar de origen de datos externos La activación o desactivación de la generación de trabajo MapReduce 3
  81. 81. Crear Formato de Archivo Externo CREATE EXTERNAL FILE FORMAT fileformat_name {WITH ( FORMAT_TYPE = <type>, [SERDE_METHOD = ‘<sede_method>’,] [DATA_COMPRESSION = ‘<compr_method>’, [FORMAT_OPTIONS (<format_options>)] }; 1 Tipo de fuente de datos externa (De) método de serialización [Hive fichero de recursos] 2 3 Método de compresión (Opcional) Formato Opciones [Texto Archivos] 4
  82. 82. Opciones de formato <Format Options> :: = [,FIELD_TERMINATOR = ‘value’], [,STRING_DELIMITER = ‘value’], [,DATE_FORMAT = ‘value’], [USE_TYPE_DEFAULT = ‘value’] 1 Delimitador de columna Carácter de separación para los tipos de datos de cadena 2 Para especificar un formato de fecha determinado 3 ¿Cómo se manejan las entradas que faltan 4
  83. 83. PolyBase utilizando datos de Hadoop Traer islas de datos Hadoop juntos Ejecución de alta consultas de rendimiento contra los datos Hadoop De datos de almacenamiento de datos de archivado a Hadoop (mover) Exportación de datos relacionales para Hadoop (copia) Importación de datos de Hadoop en un dato almacén (copia)
  84. 84. Escalada fuera sus datos a petabytes Escalabilidad de salida tecnologías en Sistema Analytics Platform Múltiples nodos con CPU dedicada, memoria y almacenamiento Posibilidad de añadir de forma incremental hardware para la escalabilidad casi lineal a múltiples petabytes Capacidad para manejar complejidad de la consulta y la concurrencia y escalabilidad Capacidad para escalar HDInsight y PDW PDW / HDInsight PDW / HDInsight PDW / HDInsight PDW PDW / HDInsight PDW / HDInsight PDW / HDInsight 0 terabytes 6 petabytes
  85. 85. Un rendimiento increíblemente rápido MPP y In-Memory Columnstore para la próxima generación rendimiento Hasta 100x más rápido Hasta 15x más compression • Datawarehouse con Column Store • Carga datos hacia o desde la memoria para rendimiento de próxima generación con una mejora de hasta 60% en la velocidad de carga de datos Column Store Index Ejecución de consultas en paralelo
  86. 86. Clustered columnstore index ¿Por qué es es importante? • Ahorra espacio • Proporciona una gestión más fácil, eliminando el mantenimiento de índices secundarios Space used in GB (table with 101 million rows) Espacio utilizado =tabla espacio + índice espacio 20.0 15.0 10.0 5.0 0.0 91% de ahorro 1 2 3 4 5 6 In-Memory Columnstore ¡se ofrece en el motor de almacenamiento en el PDW AU1
  87. 87. Ejecución de consultas en paralelo y distribuidos Procesamiento de la ejecución de consultas relacionales Consultas SQL enviadas al nodo de control 1 El nodo de control crea plan de ejecución de la consulta 2 El plan de consulta crea consultas distribuidas para su ejecución en cada nodo de cómputo 3 Las consultas distribuidas enviados nodos en de cálculo (todos corriendo en paralelo) 4 El nodo de control recoge los resultados de la consulta y los devuelve al usuario 5 Crear una consulta plan Consulta del usuario Cliente Control Calcular Calcular Calcular Calcular Applicance Administración Resultados de la consulta Los resultados agregados de la consulta Operaciones del plan de consulta en paralelo
  88. 88. SMP SQL Server Presentación de informes y cubos Herramientas de BI Concurrencia de datos Gran rendimiento con cargas de trabajo mixtas Analytics Platform ETL / ELT con SSIS, DQS, MDS System ERP CRM LOB APPS ETL / ELT con DWLoader Hadoop / Big Data PDW Polibase HDInsight Consultas ad hoc Intra-Day Casi en tiempo real Fast ad hoc Almacén de columnas Polibase CRTAS Linked Table Real-Time ROLAP / MOLAP DirectQuery SNAC
  89. 89. Hardware y software de ingeniería junto Co-dirigido con HP, Dell, Quanta y mejores prácticas Liderando el rendimiento con hardware comercial Integrado apoyo con un solo contacto Microsoft Pre-configurado, construido, y ajustado software y hardware PDW Polybase HDInsight
  90. 90. Hardware architecture InfiniBand InfiniBand PDW region Ethernet Ethernet Control node Failover node Master node Failover node Compute nodes Economical disk storage Compute nodes Economical disk storage Compute nodes Economical disk storage Networking HDInsight region PDW region Rack #1 InfiniBand InfiniBand Ethernet Ethernet Failover node Compute nodes Economical disk storage Compute nodes Economical disk storage Compute nodes Economical disk storage HDI extension base unit HDI active scale unit HDI active scale unit HDI extension base unit Rack #2 HST-01 HST-02 HSA-01 HST-02 Economical disk storage IB and Ethernet Active Unit Dos nodos adicionales Passive Unit HDInsight Failover Node Alta Disponibilidad
  91. 91. Arquitectura virtualizada PANORAMA • Motor PDW • DMS Manage • SQL Server 2012 Enterprise Edition (build PDW) Unidad Base C T L Anfitrión 1 Anfitrión 2 Anfitrión 3 Anfitrión 4 Almacenami ento en disco IB y Ethernet Directo SAS adjunto Ma ssa ch us ett s D A D V M M Calcule 1 Calcule 2 Detalles de software • Todos los hosts ejecutan Windows Server 2012 Standard and Windows Azure Virtual Machines • Fabric o carga de trabajo en Hyper-V virtual Máquinas • PDW agente que se ejecuta en todos los hosts y es toda virtual máquinas • DWConfig y consola de administración • Ventanas espacios de almacenamiento y Azure Storage
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×