Big Data con Windows Azure
HDInsight
Yolanda Olmedo Rodríguez
Data Platform Specialist
yolmedo@solidq.com
Antonio Soto
COO...
Agenda
•¿Qué es Big Data?
•Y… ¿Qué es Hadoop?
• HDFS
• Map Reduce
•HDInsight
•Ecosistema HDInsight
•Explotación de la info...
3© 2014 SolidQ
¿Qué es Big Data?
•Tratamiento y análisis de gran cantidad de datos.
•Alto volumen, alta velocidad y alta v...
4© 2014 SolidQ
¿Qué es Big Data? – Las 4 V’s
Volumen
Velocidad
Variedad
Variabilidad
5© 2014 SolidQ
Hadoop (I)
•Plataforma para almacenamiento de datos y análisis para Big Data
•Open Source
•Optimizado para ...
6© 2014 SolidQ
HDInsight
•HDInsight es la distribución de Microsoft de Apache Hadoop que
se ejecuta en Windows.
•On premis...
Distributed Storage
(HDFS)
Distributed Processing
(Map Reduce)
ODBC
World’s Data (Azure Data
Marketplace)
Windows Azure St...
DEMO
Creación cluster HDInsight
© 2014 SolidQ 9
HDFS
•Sistema de archivos distribuido para grandes conjuntos de datos
•Replicación de los datos
•Tolerancia a fallos
•Patr...
Map Reduce
•Map Reduce es el núcleo de Hadoop
•Modelo de procesamiento paralelo
•Divide un trabajo en pequeñas tareas
•Tol...
MapReduce
14© 2014 SolidQ
MapReduce
Mapper
Mapper
Mapper
Reducer
Reducer
Reducer
Mezcla
y
ordena
Escenario
Datos de clima y consumo de cerveza 
• Analizar grandes
volúmenes de información
respecto del clima y su
correl...
DEMO
Map Reduce
© 2014 SolidQ 16
Hadoop: Hive
•Sistema Data Warehouse para Hadoop
•Consultas Ad-hoc
•Lenguaje de consulta como SQL: HiveQL
•Por detás ejecu...
Hadoop: Sqoop
• Importación y Exportación: RDBMS  HDFS, Hive..
• SQL Server, MySQL, Oracle
© 2014 SolidQ 19
SQOOP
RDBMS
Explotación de la información
© 2014 SolidQ 20
Microsoft Excel
DEMO
Hadoop
© 2014 SolidQ 21
Si quieres disfrutar de las mejores sesiones de nuestros
mentores de España y Latino América, ésta es tu
oportunidad.
http...
Upcoming SlideShare
Loading in …5
×

Big Data con Windows Azure HDInsight | Lanzamiento SQL Server 2014

382 views

Published on

http://www.solidq.com
Presentación que se realizó en el evento de lanzamiento en Valencia y A Coruña los días 17 y 19 de Junio respectivamente.

Big Data con Windows Azure HDInsight, con

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
382
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Big Data con Windows Azure HDInsight | Lanzamiento SQL Server 2014

  1. 1. Big Data con Windows Azure HDInsight Yolanda Olmedo Rodríguez Data Platform Specialist yolmedo@solidq.com Antonio Soto COO asoto@solidq.com
  2. 2. Agenda •¿Qué es Big Data? •Y… ¿Qué es Hadoop? • HDFS • Map Reduce •HDInsight •Ecosistema HDInsight •Explotación de la información © 2014 SolidQ 2
  3. 3. 3© 2014 SolidQ ¿Qué es Big Data? •Tratamiento y análisis de gran cantidad de datos. •Alto volumen, alta velocidad y alta variedad de información que exigen un procesamiento rentable para la obtención de conomiciento y la toma de decisiones. Big Data
  4. 4. 4© 2014 SolidQ ¿Qué es Big Data? – Las 4 V’s Volumen Velocidad Variedad Variabilidad
  5. 5. 5© 2014 SolidQ Hadoop (I) •Plataforma para almacenamiento de datos y análisis para Big Data •Open Source •Optimizado para manejar • Datos masivos a través de paralelismo • Variedad de datos (estructurados y no estructurados) •No para OLTP / OLAP •Componentes principals • HDFS: Hadoop Distribution File System • MapReduce
  6. 6. 6© 2014 SolidQ HDInsight •HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows. •On premise. Instalación en Windows Server •On Azure: Despliegue en la nube
  7. 7. Distributed Storage (HDFS) Distributed Processing (Map Reduce) ODBC World’s Data (Azure Data Marketplace) Windows Azure Storage Ecosistema HDInsight/Hadoop © 2014 SolidQ 7
  8. 8. DEMO Creación cluster HDInsight © 2014 SolidQ 9
  9. 9. HDFS •Sistema de archivos distribuido para grandes conjuntos de datos •Replicación de los datos •Tolerancia a fallos •Patrón pocas escrituras, muchas lecturas © 2014 SolidQ 10
  10. 10. Map Reduce •Map Reduce es el núcleo de Hadoop •Modelo de procesamiento paralelo •Divide un trabajo en pequeñas tareas •Tolerancia a fallos •Se ejecuta en los nodos donde residan los datos © 2014 SolidQ 12
  11. 11. MapReduce 14© 2014 SolidQ MapReduce Mapper Mapper Mapper Reducer Reducer Reducer Mezcla y ordena
  12. 12. Escenario Datos de clima y consumo de cerveza  • Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales 15
  13. 13. DEMO Map Reduce © 2014 SolidQ 16
  14. 14. Hadoop: Hive •Sistema Data Warehouse para Hadoop •Consultas Ad-hoc •Lenguaje de consulta como SQL: HiveQL •Por detás ejecuta MapReduce HDFS Map Reduce Hive © 2014 SolidQ 17
  15. 15. Hadoop: Sqoop • Importación y Exportación: RDBMS  HDFS, Hive.. • SQL Server, MySQL, Oracle © 2014 SolidQ 19 SQOOP RDBMS
  16. 16. Explotación de la información © 2014 SolidQ 20 Microsoft Excel
  17. 17. DEMO Hadoop © 2014 SolidQ 21
  18. 18. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com Síguenos:

×