Este documento proporciona una introducción a Microsoft Azure y HDInsight. Explica la arquitectura de Azure, incluidas las regiones geográficas y tipos de instancias. Luego describe HDInsight, un servicio de Azure para procesamiento de grandes datos usando Hadoop. Incluye detalles sobre precios y cómo crear un clúster HDInsight y almacenamiento de Azure. También presenta ejemplos de uso de Hive y MapReduce con HDInsight.
2. Índice
Introducción
Arquitectura
HDInsight
Inscripción
Creación de Almacenamiento
Creación de un clúster Hadoop
Hive en HDInsight
Azure PowerShell
Ejemplo: Word Count
Ejemplo: Hipotecas
Subiendo datos
Errores
2
4. Introducción
Anunciado el 27 de Octubre del año 2008
Lanzado el 1 de Febrero del año 2010
Anteriormente conocido como
Windows Azure y Azure Services Platform
Propiedad de Microsoft
Colección de servicios de computación en la nube
Almacenamiento, máquinas virtuales, sitios web,
bases de datos, multimedia, desarrollo, hadoop,
caché, …
Ofrece servicios fijos
Pagas por lo que utilizas
Siempre que esté funcionando
4
5. ¿Que ofrece?
Almacenaje
Discos duros, Bases de datos, …
Procesamiento
Hadoop, Machine learning
Servidores
Windows y Linux
Almacenamiento
Local, redundante, redundante solo lectura
Monitorización de servicios
Seguridad
Backups, …
Desarrollo
Visual Studio Online
…
6
6. Es utilizado por …
Telefónica
Empresa de telefonía
Maxcom Telecomunicaciones
Telefonía local e IP
DELSUR
Distribuidora de electricidad
Xerox
Proveedor de fotocopiadoras tóner
Y 361 más…
https://customers.microsoft.com/Pages/advanced
search.aspx?mrmcproducts=Microsoft Azure
7
8. Regiones
Geográficas I
20 regiones
3 nuevas en 2015
9
Azure Region Location
Centro de EE. UU. Iowa
Este de EE. UU. Virginia
Este de EE. UU. 2 Virginia
Gobierno de EE.UU. - Iowa Iowa
Gobierno de EE.UU. - Virginia Virginia
Centro y norte de EE. UU. Illinois
Centro y sur de EE. UU. Texas
Oeste de EE. UU. California
Norte de Europa Irlanda
Europa Occidental Países Bajos
Este de Asia Hong Kong
Sudeste de Asia Singapur
Este de Japón Tokio, Saitama
Oeste de Japón Osaka
Sur de Brasil Estado de Sao Paulo
Este de Australia Nueva Gales del Sur
Sudeste de Australia Victoria
10. Regiones Geográficas III
La región se selecciona en la creación del
componente
No todas tienen el mismo precio
No todas tienen todos los servicios
11
11. Regiones Geográficas IV
Permite replicar los datos
Localmente (LRS): Misma región
Redundancia de zona (ZRS): 1-2 regiones
Geográficamente: Región secundaria
Normal (GRS): En otra región cercana
Sólo lectura (RA-GRS)
En la localización secundaria. Mayor disponibilidad
12
12. Instancias
Tienen diferente precio según la región
Permite seleccionar por el número de nodos
(HDInsight)
1, 2, 4 u 8
4 instancias (Máquinas Virtuales)
A1, A2, A3 y A4
http://azure.microsoft.com/en-
us/pricing/details/virtual-machines/
Lo mejor, usar la calculadora
13
13. Calculadora de precios
Calculadora de precios
http://azure.microsoft.com/es-
es/pricing/calculator/
14
16. ¿Qué es?
Servicio Web de Microsoft Azure
Procesamiento de grandes volúmenes de datos
Utiliza Apache Hadoop
Utiliza el almacenamiento de Azure
Windows Server 2012 R2 o Ubuntu 12.04 LTS
Versiones
3.2 – Hadoop 2.6
3.1 – Hadoop 2.4 (Por defecto)
3.0 – Hadoop 2.2
Modos
Instancias por defecto
Personalizado
18
17. ¿Qué ofrece?
Versión oficial de Hadoop
Interfaz gráfica para crear la instancia
Editor Hive
Integración con herramientas de Microsoft
PowerShell
Excel
Integración con otras herramientas de Azure
Almacenamiento, BDD SQL, …
Otras herramientas Big Data
Pig, Hive, HBase, Oozie, Zookeeper, Mahout, …
SDK
Java, .NET
19
19. Ciclo de vida
Ciclo de uso
Crear el almacenamiento (si no existe)
Subir los datos
Crear el clúster
Hacer la consulta
PowerShell
Hadoop
Hive (requiere pasos previos)
22
37. Almacenamiento I
Servicio de Datos -> Almacenamiento ->
Creación rápida
NombreDeseado+.core.windows.net
Elegir Lugar
Por defecto, el de la cuenta
No en todos los sitios se paga lo mismo
Elegir tipo de redundancia
40
41. Almacenamiento V
Utiliza pares clave-valor para guardar los
datos
Permite el uso de “/” para simular
directorios
Los archivos de 0 bytes representan
carpetas vacías
Contienen metadatos de permisos y
propietarios
En verdad son ficheros
44
43. HDInsight I
Creamos el HDInsight cluster
HDInsight 3.2
Hadoop 2.6
http://azure.microsoft.com/en-
us/documentation/articles/hdinsight-
component-versioning/
NombreDeseado.azurehdinsight.net
Tamaño del clúster
A más tamaño mayor coste
https://azure.microsoft.com/es-
es/pricing/details/hdinsight/
Contraseña del Admin
Cuenta de almacenamiento
46
48. Hive en HDInsight
Usaremos Hive para consultar datos
Se puede utilizar la consola de consultas o
el PowerShell
Ejemplo proporcionado por HDInsight
Interfaz web
La tabla se llama “hivesampletable”
Contiene datos de móviles
Datos de fábrica, plataforma, modelo, …
51
49. Datos del ejemplo
Almacenamiento -> Contenedores ->
hive/warehouse/hivesampletable/HiveSampleData.txt
53
50. Consola de consultas
Seleccionamos el clúster Hadoop creado
Vamos a la opción “Consola de
consultas”
54
51. Autenticación
Introducimos la autenticación con la
clave que utilizamos antes
Si erráis, tendréis que cerrar la sesión y
entrar
55
52. Query Console
Getting Started Gallery
Introducción con ejemplos
Hive Editor
Editor de consultas Hive
Job History
Historial de ficheros con todas las consultas realizadas o en
ejecución
File Browser
Navegador de los archivos existentes
Hadoop UI (2015)
Interfaz de Hadoop del puerto 50700
Yarn UI (2015)
Interfaz de Yarn
56
61. Importación a Excel II
Especificamos el nombre del
almacenamiento
Sólo el nombre o la URL entera
65
62. Importación a Excel III
La contraseña hay que buscarla en
Almacenamiento -> Instancia -> Configurar
-> Administrar Claves de Acceso -> Clave
de acceso Primaria
66
80. Word Count
Uso de MapReduce
Usar el PowerShell
Se usa el mismo ejemplo WordCount.jar
Información en la pestaña de HDInsight ->
MapReduce en Azure
84
81. Nombre de la Suscripcion
Ir a Azure
Nombre -> Ver mi factura
Pulsar sobre: “Pase sobre Azure”
Editar detalles de la suscripción
Cambiar el nombre de la suscripción
Esto es necesario para el siguiente paso
para evitar problemas
85
82. Suscripción y Trabajo
Establecemos la suscripción a utilizar
Creamos una variable con el nombre del clúster
HDInsight
Definimos el trabajo
-JarFile: definimos el Jar a utilizar
Hadoop 2.1: hadoop-examples.jar
Hadoop 3.0+: hadoop-mapreduce-examples.jar
-ClassName: Nombre de la clase
-Arguments: Argumentos que se le pasan a Hadoop
Fichero de entrada
Fichero de salida
86
83. Trabajo y Resultado
Lanzamos el trabajo
Iréis obteniendo información en la
consola acerca del trabajo actual
Comprobamos la salida
87
89. Escritorio remoto I
Activaremos el uso remoto de Hadoop
HDInsight -> Seleccionar clúster ->
Configuración -> Habilitar de forma remota
Rellenamos el popup
97
90. Escritorio remoto II
Ahora clicamos en “Conectar”
Descargamos el archivo y lo ejecutamos
Esto nos abre un escritorio remoto a
nuestra máquina Hadoop 2.6
Para enviar datos a esta máquina
Los copiamos (Ctrl+C) de nuestra máquina
Los pegamos (Ctrl+V) en el remoto
Metedlos en la raíz de la unidad “C”
98
95. Opciones
Azure PowerShell
AzCopy
Azure Storage Explorer
Hadoop Command Line
Otras herramientas
http://blogs.msdn.com/b/windowsazurestor
age/archive/2014/03/11/windows-azure-
storage-explorers-2014.aspx
111
96. Azure PowerShell I
Establecemos las variables del Almacén
Establecemos las variables del fichero
Obtenemos la clave del Almacén
Creamos el objeto almacén
Subimos el fichero
112
100. Azure Storage Explorer III
Nombre de la cuenta y clave
Los mismos que para bajar los datos al Excel
Testeamos para comprobar que funcione
116
103. Error I – Ejecutar Acción
Comprobar que el reloj esté en hora
Solo admite un desajuste de 15 minutos
Otra causa de este error son los permisos de los
ficheros
Se pueden modificar desde la consola de
Almacenamiento
120
104. Error II – Ejecutar Acción
La sesión ha caducado
Debes volver a loguearte
Usar el comando Add-AzureAccount
121
105. Error III – Seleccionar
Suscripción
Ocurre si cambiaste el nombre de la
suscripción hace poco
Tienes que volver a hacer “login”
Después selecciona la suscripción deseada
122