Your SlideShare is downloading. ×
0
#SQLSat288
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
ecastro@simsasys.com
http://www.youtube.com/eduardocastrom
Comunidad Win...
Canal en YouTube
http://www.youtube.com/
eduardocastrom
Más detalles sobre Big Data
http://tinyurl.com/BigDataEduardoCastro
Objetivos de la sesión
Qué es Big data
Introducción a HDInsight
Autoservicio de Inteligencia de Negocios (BI):
 Excel ...
Esquema
Introducción:
 Big Data y Hadoop
 HDInsight
 PowerPivot en Excel 2013
 Power View en Excel 2013
Modelaje de ...
Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difíc...
Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DA...
Procesamiento de datos y análisis: The Old Way
La naturaleza cambiante del Big Data
Big Data tiene importantes cualidades distintivas que lo
diferencian de los datos co...
La naturaleza cambiante del Big Data
Volumen - La cantidad de datos que han creado las empresas
a través de
 La web
 Di...
La naturaleza cambiante del Big Data
Tipo - La variedad de tipos de datos es cada vez mayor,
 No estructurados de datos ...
La naturaleza cambiante del Big Data
Velocidad
 La velocidad a la que se está creando nuevos datos
 La necesidad de aná...
Principales fuentes de datos
Redes sociales y medios de comunicación
  700 millones de usuarios de Facebook, 250 millone...
Big Data
Casos en los cuales se utiliza Big Data
Parte de lo que hace Hadoop y otras tecnologías y enfoques
Big Data es encontrar ...
Casos en los cuales se utiliza Big Data
Sentiment Analysis 
 Utilizado junto con Hadoop, herramientas avanzadas de análi...
Casos en los cuales se utiliza Big Data
Modelado de riesgo
 Las empresas financieras, bancos y otros utilizan Hadoop y N...
Casos en los cuales se utiliza Big Data
Motor de recomendación
 Los minoristas en línea utilizan Hadoop para igualar y r...
Casos en los cuales se utiliza Big Data
Detección de Fraude
Utilizar técnicas de Big Data para combinar el comportamient...
Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
Los departamentos de marketing a través de i...
Casos en los cuales se utiliza Big Data
Análisis Social Graph
Junto con Hadoop los datos de redes sociales se extraen pa...
Casos en los cuales se utiliza Big Data
Customer Experience Analytics
Empresas orientadas al consumidor utilizan Hadoop ...
Nuevos Enfoques para el procesamiento y análisis
de datos grandes
Hay varios métodos para procesar y analizar grandes
vol...
Nuevos Enfoques para el procesamiento y análisis
de datos grandes
Introducción a Big Data y Hadoop
 Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de
los...
Componentes de Hadoop
 Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en
cualquier clúster ...
Hadoop Ecosystem
Distributed Storage
(HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
Scripting
(Pig)
NoSQLDatabase
...
Arquitectura de Hardware
Arquitectura de Software
Hadoop Distributed Architecture
MapReduce
Layer
HDFS
Layer
Task trackerTask tracker
Job tracker
Name node
Data node Data n...
MapReduce: Mover Código a los Datos
FIRST, STORE THE DATA
Server
ServerServer
Files
Server
Cómo trabaja?
SECOND, TAKE THE PROCESSING TO THE DATA
// Map Reduce function in JavaScript
var map = function (key, value,...
Windows HADOOP
2 Versiones
 Cloud
 Azure Service
 On Permise
 Integración con el Hadoop File System with Active Direc...
Introducción a HDInsight
HDInsight es una implementación de Microsoft 100% compatible
con la distribución de Apache Hadoo...
Windows Azure HDInsight Service
Hadoop
Windows Azure Blob StorageHDFS
Hadoop Filesystem Interface
Hive Pig Map
Reduce
Quer...
Windows Azure HDInsight Service
Compute
NodeCompute
NodeCompute
NodeCompute
Node
Windows Azure
Blob StorageHead
Node
Gatew...
Hadoop para Windows
HDP para Windows
Hortonworks
Data Platform (HDP) For
Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM ...
Demostración
creación de un Hadoop Cluster
Ecosistema de Big Data de Microsoft
Plataforma de Big Data Micrsooft
Interoperatibilidad
Integración con las
herramientas de
Análisis de Microsoft
APP
LICA
TIO
NS
DAT
A
SYST
EMS
Aplicaciones ...
Introducción a PowerPivot
 PowerPivot permite que los usuarios creen modelos de datos
de autoservicio con Excel
 Se logr...
Introducción a PowerPivot
 Una ventana se puede utilizar para cargar, explorar,
relacionar y enriquecer datos con cálculo...
Introducción a Power View
 Power View una experiencia de exploración de datos,
visualización y presentación
 Experiencia...
Introducción a Power View
 En Excel 2013, se incluyen nuevas características:
• Maps
• Pie charts
• Hierarchies
• KPIs
• ...
Modelando “Big Data” con PowerPivot
Big data puede ser integrado con otras fuentes de datos
Potencial de Autoservicio de...
Consideraciones de modelar “Big Data” con
PowerPivot
Los resultados de Big Data pueden ser muy grandes para
almacenamient...
Formas de carga de datos
1.Creación de una solución con HDInsight
2.Crear un PowerPivot Workbook con HDInsight
3.Creación de repores en Excel
Demos...
Cargar datos al blog storage de Windows Azure
Para prototipos y ejemplos: #put
Para producción utilizer el blob storage ...
Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure...
DEMO
Consumir Result Sets – Excel & “Data
Explorer”
Hadoop Connectors
SQL Server versions
 Azure
 PDW
 SQL 2012
 SQL 2008 R2
http://www.microsoft.com/download/en/details...
SQL Server-Hadoop Connector
Sqoop-based connector
Import
 tables in SQL Server to delimited text files on HDFS
 tables...
Recursos Adicionales
Microsoft Big Data
http://www.microsoft.com/bigdata
Windows Azure HDInsight
https://www.hadooponazure...
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
Upcoming SlideShare
Loading in...5
×

HD Insight Integracion con SQL Server Power-Pivot Excel

288

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
288
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
11
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "HD Insight Integracion con SQL Server Power-Pivot Excel"

  1. 1. #SQLSat288
  2. 2. Ing. Eduardo Castro, PhD Microsoft SQL Server MVP ecastro@simsasys.com http://www.youtube.com/eduardocastrom Comunidad Windows Costa Rica HDInsight utilizando Hadoop + SQL con análisis en Excel
  3. 3. Canal en YouTube http://www.youtube.com/ eduardocastrom
  4. 4. Más detalles sobre Big Data http://tinyurl.com/BigDataEduardoCastro
  5. 5. Objetivos de la sesión Qué es Big data Introducción a HDInsight Autoservicio de Inteligencia de Negocios (BI):  Excel 2013 PowerPivot  Excel 2013 Power View Características de BI de Excel 2013 Creación de un solución de BI con Big Data BI dentro de Excel 2013
  6. 6. Esquema Introducción:  Big Data y Hadoop  HDInsight  PowerPivot en Excel 2013  Power View en Excel 2013 Modelaje de “Big Data” con PowerPivot:  Beneficios  Consideraciones Demostraciones
  7. 7. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  8. 8. Qué es Big Data? Megabytes Gigabytes Terabytes Petabytes Purchase detail Purchase record Payment record ERP CRM WEB BIG DATA Offer details Support Contacts Customer Touches Segmentation Web logs Offer history A/B testing Dynamic Pricing Affiliate Networks Search Marketing Behavioral Targeting Dynamic Funnels User Generated Content Mobile Web SMS/MMSSentiment External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Spatial & GPS Coordinates Incremento de variedad y cantidad de datos Transacciones + Interacciones + Observaciones = BIG DATA
  9. 9. Procesamiento de datos y análisis: The Old Way
  10. 10. La naturaleza cambiante del Big Data Big Data tiene importantes cualidades distintivas que lo diferencian de los datos corporativos "tradicionales".  Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes
  11. 11. La naturaleza cambiante del Big Data Volumen - La cantidad de datos que han creado las empresas a través de  La web  Dispositivos móviles  Infraestructura de TI  y otras fuentes está creciendo exponencialmente cada año.
  12. 12. La naturaleza cambiante del Big Data Tipo - La variedad de tipos de datos es cada vez mayor,  No estructurados de datos basados ​​en texto  Datos semi-estructurados como los datos de los medios sociales  Los datos basados ​​en la localización  Datos de logs, ejemplo servidores Web
  13. 13. La naturaleza cambiante del Big Data Velocidad  La velocidad a la que se está creando nuevos datos  La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.
  14. 14. Principales fuentes de datos Redes sociales y medios de comunicación   700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos Dispositivos móviles  Más de 5 mil millones de teléfonos móviles en uso en todo el mundo Transacciones en Internet  miles de millones de compras en línea, operaciones de bolsa y otras transacciones ocurren todos los días Dispositivos de red y sensores
  15. 15. Big Data
  16. 16. Casos en los cuales se utiliza Big Data Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar.  Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.  Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  17. 17. Casos en los cuales se utiliza Big Data Sentiment Analysis   Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales  Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos.   El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  18. 18. Casos en los cuales se utiliza Big Data Modelado de riesgo  Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros  Para preparar la posible "qué pasaría si" los escenarios basados ​​en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  19. 19. Casos en los cuales se utiliza Big Data Motor de recomendación  Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados ​​en el análisis del perfil de usuario y los datos de comportamiento.   LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  20. 20. Casos en los cuales se utiliza Big Data Detección de Fraude Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta.  Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  21. 21. Casos en los cuales se utiliza Big Data Análisis de la campaña de marketing Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing.  Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  22. 22. Casos en los cuales se utiliza Big Data Análisis Social Graph Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales.  Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  23. 23. Casos en los cuales se utiliza Big Data Customer Experience Analytics Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente. 
  24. 24. Nuevos Enfoques para el procesamiento y análisis de datos grandes Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes  Hadoop  NoSQL  Bases de datos analíticos masivamente paralelo
  25. 25. Nuevos Enfoques para el procesamiento y análisis de datos grandes
  26. 26. Introducción a Big Data y Hadoop  Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos  Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede:  Almacenar petabytes de información  Permite procedamiento distribuido  Principales atributos:  Redundante y confiable (no se pierden datos)  Centrado en el análisis por lotes  Facilidad de crear aplicaciones y procesamiento distribuido  Ejecuta en cualquier hardware
  27. 27. Componentes de Hadoop  Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en cualquier clúster Hadoop dado;  Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan;  Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar;  Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos.  Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
  28. 28. Hadoop Ecosystem Distributed Storage (HDFS) Query (Hive) Distributed Processing (MapReduce) Scripting (Pig) NoSQLDatabase (HBase) Metadata (HCatalog) DataIntegration (ODBC/SQOOP/REST) Relational (SQL Server) Machine Learning (Mahout) Graph (Pegasus) Stats processin g (RHadoop ) EventPipeline (Flume) Active Directory (Security) Monitoring & Deployment (System Center) C#, F#, .NET JavaScript Pipeline/Workflow (Oozie) Azure Storage Vault (ASV) PDWPolybase Business Intelligence (Excel,Power View,SSAS) World's Data (Azure Data Marketplace) Event Driven Processin g Legend Red = Core Hadoop Blue = Data processing Purple = Microsoft integration points and value adds Yellow = Data Movement Green = Packages Via Hadoop Ecosystem pptx, Cindy Gross. Used with permission
  29. 29. Arquitectura de Hardware
  30. 30. Arquitectura de Software
  31. 31. Hadoop Distributed Architecture MapReduce Layer HDFS Layer Task trackerTask tracker Job tracker Name node Data node Data node
  32. 32. MapReduce: Mover Código a los Datos FIRST, STORE THE DATA Server ServerServer Files Server
  33. 33. Cómo trabaja? SECOND, TAKE THE PROCESSING TO THE DATA // Map Reduce function in JavaScript var map = function (key, value, context) { var words = value.split(/[^a-zA-Z]/); for (var i = 0; i < words.length; i++) { if (words[i] !== "") context.write(words[i].toLowerCase(), 1);} }}; var reduce = function (key, values, context) { var sum = 0; while (values.hasNext()) { sum += parseInt(values.next()); } context.write(key, sum); }; ServerServer ServerServer RUNTIME Code
  34. 34. Windows HADOOP 2 Versiones  Cloud  Azure Service  On Permise  Integración con el Hadoop File System with Active Directory  Integración con BI  Herramientas de integración  Sqoop  Integración con SQL Server
  35. 35. Introducción a HDInsight HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop Disponible tanto para Windows Server y como un servicio Windows Azure Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel
  36. 36. Windows Azure HDInsight Service Hadoop Windows Azure Blob StorageHDFS Hadoop Filesystem Interface Hive Pig Map Reduce Query & Metadata: SqoopData Movement: OozieWorkflow: HCatalog Gateway (REST APIs) Carga/Descarga de Datos AmbariMonitoring: Job submission (hive query, etc)
  37. 37. Windows Azure HDInsight Service Compute NodeCompute NodeCompute NodeCompute Node Windows Azure Blob StorageHead Node Gateway (REST APIs) Hadoop Cluster Job submission (hive query, etc) Cluster Dashboard UI
  38. 38. Hadoop para Windows
  39. 39. HDP para Windows Hortonworks Data Platform (HDP) For Windows 100% Open Source Enterprise Hadoop HORTONWORKS DATA PLATFORM (HDP) For Windows PLATFORM SERVICES HADOOP CORE Distributed Storage & Processing DATA SERVICES Store, Process and Access Data OPERATIONAL SERVICES Manage & Operate at Scale Manage & Operate at Scale Store, Process and Access Data Distributed Storage & Processing Enterprise Readiness
  40. 40. Demostración creación de un Hadoop Cluster
  41. 41. Ecosistema de Big Data de Microsoft
  42. 42. Plataforma de Big Data Micrsooft
  43. 43. Interoperatibilidad Integración con las herramientas de Análisis de Microsoft APP LICA TIO NS DAT A SYST EMS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DAT A SOU RCE S MOBILE DATA OLTP, POS SYSTEMS Fuentes tradicionales (RDBMS, OLTP, OLAP) Nuevas Fuentes (web logs, email, sensor data, social media)
  44. 44. Introducción a PowerPivot  PowerPivot permite que los usuarios creen modelos de datos de autoservicio con Excel  Se logra mediante una versión del lado del cliente de of SQL Server Analysis Services conocido como xVelocity In-Memory Analytics Engine  Puede almacenar de forma eficiente volúmenes de datos más grandes que las hojas típicas de Excel
  45. 45. Introducción a PowerPivot  Una ventana se puede utilizar para cargar, explorar, relacionar y enriquecer datos con cálculos personalizados  Puede importar y relacionar datos de la empresa, datos locales, o distintos almacenes de datos  En el Excel 2013 Professional Plus edition, PowerPivot está instalado pero no habilitado
  46. 46. Introducción a Power View  Power View una experiencia de exploración de datos, visualización y presentación  Experiencia centrada en la interacción  Interacción con metadatos  Permite que los usuarios creen reportes ad-hoc  Los reportes pueden estár basado en modelos de datos tabulares, incluyen modelos de PowerPivot
  47. 47. Introducción a Power View  En Excel 2013, se incluyen nuevas características: • Maps • Pie charts • Hierarchies • KPIs • Drill down/Drill up • Report styles, themes and text resizing • Backgrounds with images • Hyperlinks
  48. 48. Modelando “Big Data” con PowerPivot Big data puede ser integrado con otras fuentes de datos Potencial de Autoservicio de BI:  PowerPivot puede cargar Big Data mediante el Table Import Wizard  ODBC para HDInsight  OLE DB para SQL Server con enlace a HDInsight  PowerPivot puede ser fuente para:  Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View  Otras herramientas de análisis (una vez publicado en SharePoint)
  49. 49. Consideraciones de modelar “Big Data” con PowerPivot Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria Workaround: minizar la cantidad de datos consultados  Recuperar un periodo de tiempo más pequeño  Reducir las dimensiones o ser más granular Una vez que está cargado el modelo puede ser manipulado con rapidez
  50. 50. Formas de carga de datos
  51. 51. 1.Creación de una solución con HDInsight 2.Crear un PowerPivot Workbook con HDInsight 3.Creación de repores en Excel Demostraciones
  52. 52. Cargar datos al blog storage de Windows Azure Para prototipos y ejemplos: #put Para producción utilizer el blob storage APIs. AzCopy Command Line CopyBlob REST API
  53. 53. Cómo consumir Resultados de HDInsight Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster SQL Server, Azure SQL DB Sqoop (Hadoop ecosystem project) Yes Excel Codename “Data Explorer” No Otra Blob Storage Account Azure Blob Storage REST APIs (Copy Blob, etc) No SQL Server Analysis Services Hive ODBC Driver Yes BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources) Yes
  54. 54. DEMO Consumir Result Sets – Excel & “Data Explorer”
  55. 55. Hadoop Connectors SQL Server versions  Azure  PDW  SQL 2012  SQL 2008 R2 http://www.microsoft.com/download/en/details.aspx?id=27584
  56. 56. SQL Server-Hadoop Connector Sqoop-based connector Import  tables in SQL Server to delimited text files on HDFS  tables in SQL Server to SequenceFiles files on HDFS  tables in SQL Server to tables in Hive  Result of queries executed on SQL Server to delimited text files on HDFS  Result of queries executed on SQL Server to SequenceFiles files on HDFS  Result of queries executed on SQL Server to tables in Hive Export  Delimited text files on HDFS to SQL Server
  57. 57. Recursos Adicionales Microsoft Big Data http://www.microsoft.com/bigdata Windows Azure HDInsight https://www.hadooponazure.com HDInsight Services for Windows Includes an excellent set of BI specific resources in the section named “Using HDInsight with Other BI Technologies” http://social.technet.microsoft.com/wiki/contents/articles/6204.hadoop-based- services-for-windows-en-us.aspx Blog: Big Data for Everyone: Using Microsoft’s Familiar BI Tools with Hadoop http://blogs.msdn.com/b/microsoft_business_intelligence1/archive/2012/02/24/big- data-for-everyone-using-microsoft-s-familiar-bi-tools-with-hadoop.aspx
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×