Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Azure Data
Introducción a HDInsight
Freddy Angarita C.
MVP SQL Server
@flacMVP | geeks.ms/blogs/fangarita/
@sqlpassmed
Application
Building Blocks
storagebig data
caching
CDN
database
identity
media
messaging
networking
traffic
cloud
services
Demo
Configuración Storage y HDInsight
Hadoop
• Framework
• Procesamiento distribuido
• Modelo de programación simple
• Diseñado para escalabilidad
• Cada Nodo o...
Hadoop -Componentes
• Framework de procesamiento
• HDFS (Hadoo Distributed File System)
Esquema de Datos Tecnología de Consumo
Relacionales SQL
No relacionales NoSql (Not Only SQL)
Hadoop MapReduce
Consumo de i...
MapReduce
• Consumo de Datos mediante trabajos
(normalmente Java)
• Alta Flexibilidad – Alta complejidad
• Ha aumentado su...
Distribuido en el clúster
• Los datos y el procesamiento se hospeda en
cada máquina
• Agrega redundancia y tolerancia a fa...
Cómo consulta
JobTracker
TaskTracker
TaskTracker
TaskTracker
TaskTracker
TaskTracker
HDFS
• Replica los datos en otros nodos (128M)
• NameNode: Dónde están los datos
• DataNodes: Almacenamiento de la
informa...
Demo
Ejecutar un Job desde PowerShell
Demo
Obtener Resultados del Job localmente
Demo
Conectar herramientas BI (Excel)
PowerQuery http://bit.ly/1loMSko
HIVE
• Consultas en paralelo usando MapReduce
• Lenguaje parecido a SQL – HiveQL
• Ideal para procesar grandes volúmenes d...
Ejecución Query HIVE
Ejemplo:
2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937
Ejecución Invoke-Hive
• Alternativa para escribir MapReduce
• Pasos
• Carga: lee la información a usar
• Transformación: Manipulación de los dat...
Acompáñanos mañana en
EAFIT en el Bloque 19,
Piso 4 desde las 9 a.m.
Evento de Comunidad
Upcoming SlideShare
Loading in …5
×

Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

3,169 views

Published on

Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es basado en Hadoop para proveer capacidades de almacenamiento y análisis de grandes volúmenes de datos en la nube (Azure)

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

  1. 1. Azure Data Introducción a HDInsight Freddy Angarita C. MVP SQL Server @flacMVP | geeks.ms/blogs/fangarita/ @sqlpassmed
  2. 2. Application Building Blocks storagebig data caching CDN database identity media messaging networking traffic cloud services
  3. 3. Demo Configuración Storage y HDInsight
  4. 4. Hadoop • Framework • Procesamiento distribuido • Modelo de programación simple • Diseñado para escalabilidad • Cada Nodo ofrece computación y almacenamiento • Diseñada para ser tolerante a fallos
  5. 5. Hadoop -Componentes • Framework de procesamiento • HDFS (Hadoo Distributed File System)
  6. 6. Esquema de Datos Tecnología de Consumo Relacionales SQL No relacionales NoSql (Not Only SQL) Hadoop MapReduce Consumo de información
  7. 7. MapReduce • Consumo de Datos mediante trabajos (normalmente Java) • Alta Flexibilidad – Alta complejidad • Ha aumentado su adopción pero como DW • Opciones • Hive – query en MapReduce
  8. 8. Distribuido en el clúster • Los datos y el procesamiento se hospeda en cada máquina • Agrega redundancia y tolerancia a fallos • El procesamiento ocurre localmente
  9. 9. Cómo consulta JobTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker
  10. 10. HDFS • Replica los datos en otros nodos (128M) • NameNode: Dónde están los datos • DataNodes: Almacenamiento de la información • Cada máquina: más procesamiento, más almacenamiento
  11. 11. Demo Ejecutar un Job desde PowerShell
  12. 12. Demo Obtener Resultados del Job localmente
  13. 13. Demo Conectar herramientas BI (Excel) PowerQuery http://bit.ly/1loMSko
  14. 14. HIVE • Consultas en paralelo usando MapReduce • Lenguaje parecido a SQL – HiveQL • Ideal para procesar grandes volúmenes de datos inmutables • No se recomienda para almacenamiento transaccional • Optimizado para • Escalabilidad • Extensibilidad • Tolerancia a Fallos • No se considera mucho la latencia
  15. 15. Ejecución Query HIVE Ejemplo: 2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937
  16. 16. Ejecución Invoke-Hive
  17. 17. • Alternativa para escribir MapReduce • Pasos • Carga: lee la información a usar • Transformación: Manipulación de los datos • Volcar o almacenar: Salida a pantalla o a almacenamiento PIG
  18. 18. Acompáñanos mañana en EAFIT en el Bloque 19, Piso 4 desde las 9 a.m. Evento de Comunidad

×