Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

  • 504 views
Uploaded on

Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es basado en Hadoop para proveer capacidades de almacenamiento y análisis de grandes volúmenes de datos en la nube (Azure)

Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es basado en Hadoop para proveer capacidades de almacenamiento y análisis de grandes volúmenes de datos en la nube (Azure)

More in: Data & Analytics
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
504
On Slideshare
375
From Embeds
129
Number of Embeds
8

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 129

http://feedly.com 58
http://geeks.ms 43
http://darmstadt3.rssing.com 10
http://www.feedspot.com 9
https://twitter.com 4
http://digg.com 2
http://www.slideee.com 2
http://portal.tecnoeduca.es 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Entrar al portalhttp://www.azure.com/#crearcuenta de almacenamiento:azurebootcampmed#CrearHDInsight 4 Nodos: azurebootcampmed
  • http://www.windowsazure.com/en-us/documentation/articles/hdinsight-get-started/#Conectarse a la cuentaAdd-AzureAccount#Nombre de la suscripciónGet-AzureSubscription#Establecer variables base $subscriptionName = "Visual Studio Ultimate with MSDN" $clusterName = "azurebootcamp20140329"# Definición del job MapReduce$wordCountJobDefinition = New-AzureHDInsightMapReduceJobDefinition -JarFile "wasb:///example/jars/hadoop-examples.jar" -ClassName "wordcount" -Arguments "wasb:///example/data/gutenberg/davinci.txt", "wasb:///example/data/WordCountOutput"# Enviar el trabajoSelect-AzureSubscription $subscriptionName$wordCountJob = Start-AzureHDInsightJob -Cluster $clusterName -JobDefinition $wordCountJobDefinition# Revisarsi el trabajo ha sidofinalizadoWait-AzureHDInsightJob -Job $wordCountJob -WaitTimeoutInSeconds 3600 # Obtener la salida del trabajoGet-AzureHDInsightJobOutput -Cluster $clusterName -JobId $wordCountJob.JobId -StandardError
  • #Creardirectoriod:mkdir \PruebasAzurecd \PruebasAzure#Establecerlas variables para los siguientescomandos$subscriptionName = "Visual Studio Ultimate with MSDN" $storageAccountName = "azurebootcamp20140329"$containerName = "azurebootcamp20140329"# Establece el objeto de contexto de la cuentadealmacenamiento (Storage Account)Select-AzureSubscription $subscriptionName$storageAccountKey = Get-AzureStorageKey $storageAccountName | %{ $_.Primary }$storageContext = New-AzureStorageContext -StorageAccountName $storageAccountName -StorageAccountKey $storageAccountKey# Descarga el resultado del Job a la estación de trabajoGet-AzureStorageBlobContent -Container $ContainerName -Blob example/data/WordCountOutput/part-r-00000 -Context $storageContext -Force# Visualizacion de Resultados (usandofindstr para laspalabras q tiene "there")cat ./example/data/WordCountOutput/part-r-00000 | findstr "there"
  • #BajarPowerQuery#abrir Excel#Conectar a Otrasfuentes#Pegar en addres: azurebootcamp20140329#En el portal: Administrar claves de acceso#Copiar clave deaccesoprimaria#Seleccionarsegundo item#Buscar part-r-00000
  • #AgregarcuentaAdd-AzureAccount#Configuración Variables$subscriptionName = "Visual Studio Ultimate with MSDN" $storageAccountName = "azurebootcamp20140329"$containerName = "azurebootcamp20140329"$clusterName = "azurebootcamp20140329"# HiveQL# TablaInterna$queryString = "DROP TABLE log4jLogs;" + "CREATE TABLE log4jLogs(t1 string, t2 string, t3 string, t4 string, t5 string, t6 string, t7 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ';" + "LOAD DATA INPATH 'wasb://$containerName@$storageAccountName.blob.core.windows.net/example/data/sample.log' OVERWRITE INTO TABLE log4jLogs;" + "SELECT t4 AS sev, COUNT(*) AS cnt FROM log4jLogs WHERE t4 = '[ERROR]' GROUP BY t4;"# Crear Job Hive$hiveJobDefinition = New-AzureHDInsightHiveJobDefinition -Query $queryString# Submit the job to the cluster Select-AzureSubscription $subscriptionName$hiveJob = Start-AzureHDInsightJob -Cluster $clusterName -JobDefinition $hiveJobDefinition# Wait for the Hive job to completeWait-AzureHDInsightJob -Job $hiveJob -WaitTimeoutInSeconds 3600# Print the standard error and the standard output of the Hive job.Get-AzureHDInsightJobOutput -Cluster $clusterName -JobId $hiveJob.JobId -StandardOutput
  • #Configuración Variables$subscriptionName = "Visual Studio Ultimate with MSDN" $storageAccountName = "azurebootcamp20140329"$containerName = "azurebootcamp20140329"$clusterName = "azurebootcamp20140329"Use-AzureHDInsightCluster $clusterName$response = Invoke-Hive -Query @" SELECT * FROM hivesampletable WHERE devicemake LIKE "HTC%" LIMIT 10; "@Write-Host $response

Transcript

  • 1. Azure Data Introducción a HDInsight Freddy Angarita C. MVP SQL Server @flacMVP | geeks.ms/blogs/fangarita/ @sqlpassmed
  • 2. Application Building Blocks storagebig data caching CDN database identity media messaging networking traffic cloud services
  • 3. Demo Configuración Storage y HDInsight
  • 4. Hadoop • Framework • Procesamiento distribuido • Modelo de programación simple • Diseñado para escalabilidad • Cada Nodo ofrece computación y almacenamiento • Diseñada para ser tolerante a fallos
  • 5. Hadoop -Componentes • Framework de procesamiento • HDFS (Hadoo Distributed File System)
  • 6. Esquema de Datos Tecnología de Consumo Relacionales SQL No relacionales NoSql (Not Only SQL) Hadoop MapReduce Consumo de información
  • 7. MapReduce • Consumo de Datos mediante trabajos (normalmente Java) • Alta Flexibilidad – Alta complejidad • Ha aumentado su adopción pero como DW • Opciones • Hive – query en MapReduce
  • 8. Distribuido en el clúster • Los datos y el procesamiento se hospeda en cada máquina • Agrega redundancia y tolerancia a fallos • El procesamiento ocurre localmente
  • 9. Cómo consulta JobTracker TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker
  • 10. HDFS • Replica los datos en otros nodos (128M) • NameNode: Dónde están los datos • DataNodes: Almacenamiento de la información • Cada máquina: más procesamiento, más almacenamiento
  • 11. Demo Ejecutar un Job desde PowerShell
  • 12. Demo Obtener Resultados del Job localmente
  • 13. Demo Conectar herramientas BI (Excel) PowerQuery http://bit.ly/1loMSko
  • 14. HIVE • Consultas en paralelo usando MapReduce • Lenguaje parecido a SQL – HiveQL • Ideal para procesar grandes volúmenes de datos inmutables • No se recomienda para almacenamiento transaccional • Optimizado para • Escalabilidad • Extensibilidad • Tolerancia a Fallos • No se considera mucho la latencia
  • 15. Ejecución Query HIVE Ejemplo: 2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937
  • 16. Ejecución Invoke-Hive
  • 17. • Alternativa para escribir MapReduce • Pasos • Carga: lee la información a usar • Transformación: Manipulación de los datos • Volcar o almacenar: Salida a pantalla o a almacenamiento PIG
  • 18. Acompáñanos mañana en EAFIT en el Bloque 19, Piso 4 desde las 9 a.m. Evento de Comunidad