Cómo de grandes son tus         datos?Javier TorrenterasDirector Área BIjtorrenteras@solidq.com
The Big Data Picture
© SolidQ 2013   3
Agenda• ¿Por qué Big Data?• Entonces… Hadoop, ¿Qué es?  •   Ventajas  •   Componentes• Apache Hadoop y Microsoft BI  • HDI...
¿Por qué Big Data?Una arquitectura rígida impide disponer inmediatamentenuevas oportunidades de negocioEl reporting retros...
Las 4 V’s             Volumen            Velocidad             Variedad            Variabilidad
Ejemplos de Big Data              12 Tb        21 Pb                            Hadoop                 día                ...
Entonces…¿cómo obtengo insights?                             Datos estructurados    Datos                       Bases de...
Entonces…¿cómo obtengo insights?                                  Datos estructurados    Datos                           ...
Entonces…¿cómo obtengo insights?                                           Datos estructurados    Datos                  ...
Entonces…¿cómo obtengo insights?            Tipos de datos              20%                             Estructurado      ...
Insights de datos no estructuradosDEMO
¿Qué es Hadoop?• Open Source• Plataforma de almacenamiento de datos y análisis para Big Data• Optimizado para manejar  • D...
¿Qué es Hadoop?: VentajasEscalableEscala linealmente en capacidad de almacenamiento ycomputaciónTolerante a FallosProporci...
¿Qué es Hadoop?: Componentes     Mahout     Pegasus       Lucene   …              Pig      Hive              Map Reduce   ...
¿Qué es Hadoop?: Componentes     Mahout     Pegasus       Lucene   …              Pig      Hive              Map Reduce   ...
Hadoop Distributed File System (HDFS)• Sistema de ficheros distribuido diseñado para grandes conjuntos de datos• Fiable y ...
Hadoop Distributed File System (HDFS)  Block Size = 64 MbReplication Factor = 3   NameNode               DataNode         ...
¿Qué es Hadoop?: Componentes     Mahout     Pegasus       Lucene   …              Pig      Hive              Map Reduce   ...
Map Reduce Framework• Motor de planificación parar Procesamiento de carga distribuido  • Pares Clave-Valor  • Función Map ...
Map Reduce Framework              JobTracker                    TaskTracker            File   File   File       File    Fi...
¿Qué es Hadoop?: Componentes     Mahout     Pegasus       Lucene   …              Pig      Hive              Map Reduce   ...
Sqoop• Tecnología que sirve de interfaz entre HDFS y los Sistemas de información empresarial• Orígenes de datos relacional...
¿Qué es Hadoop?: Componentes     Mahout     Pegasus       Lucene   …              Pig      Hive              Map Reduce   ...
Pig• Lenguaje de flujo de datos de alto nivel y framework de ejecución• Lenguaje de consulta: PigLatin  •   Posibilidad de...
¿Qué es Hadoop?: Componentes     Mahout     Pegasus       Lucene   …              Pig      Hive              Map Reduce   ...
Hive• Infraestructura Data Warehouse desde Hadoop• Proporciona  •   Sumarización de Datos  •   Consultas Ad-hoc• Lenguaje ...
¿Qué es Hadoop?: Componentes     Mahout     Pegasus       Lucene   …              Pig      Hive              Map Reduce   ...
Otros componentes: Hadoop EcosystemMahout  • Minería de Datos y Machine LearningPegasus  • Page Rank yGraph Mining  • Soci...
MICROSOFT ON THE HADOOP
HDInsight• Project Isotope• Proporciona Apache Hadoop en  •   Windows Server  •   Windows Azure• Active Directory & System...
Hadoop: Componentes Originales Mahout     Pegasus       Lucene   …          Pig      Hive          Map Reduce             ...
HDinsight  Mahout      Pegasus       Lucene   …                                                Microsoft            Pig   ...
HDInsight Mahout       Pegasus       Lucene   …                                                Microsoft            Pig   ...
Windows Azure HDInsightDEMO
Características HDInsightHDFS• Basado en Windows• Compatibilidad con Directorio Activo• Almacenamiento compatible:   • HDF...
Características HDInsightHive• Consolta Interactiva• Complemento Hive para Excel 2010• Hive ODBC Driver• Potentes funcione...
Mezclando los datosDEMO
Si quieres disfrutar de las mejores sesiones de nuestros   mentores de España y Latino América, ésta es tu                ...
SolidQ Business             Analytics DayEladio Rincón           Javier TorrenterasDirector Área BBDD      Director BI    ...
Upcoming SlideShare
Loading in...5
×

SolidQ Business Analytics Day | Como de grandes son tus datos

668

Published on

Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España)
- ¿Por qué Big data?
- Entonces...Haddoop ¿Qué es?
- ventajas y Componentes de Hadoop
-HD Insight, Windows Azure HDInsight
-Grandes DW
www.bisql.com

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
668
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
20
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "SolidQ Business Analytics Day | Como de grandes son tus datos"

  1. 1. Cómo de grandes son tus datos?Javier TorrenterasDirector Área BIjtorrenteras@solidq.com
  2. 2. The Big Data Picture
  3. 3. © SolidQ 2013 3
  4. 4. Agenda• ¿Por qué Big Data?• Entonces… Hadoop, ¿Qué es? • Ventajas • Componentes• Apache Hadoop y Microsoft BI • HDInsight • Windows Azure HDInsight• Grandes DW
  5. 5. ¿Por qué Big Data?Una arquitectura rígida impide disponer inmediatamentenuevas oportunidades de negocioEl reporting retrospectivo no guía las decisiones de negocio.Datos móviles, sociales o de dispositivos no están disponiblesLa agregación destruye determinadas insights valiosos
  6. 6. Las 4 V’s Volumen Velocidad Variedad Variabilidad
  7. 7. Ejemplos de Big Data 12 Tb 21 Pb Hadoop día cluster 7 Pb mes 1 Tb 7 Tb tweets/dia datos/dia 75 4 Billion Million Graph edg/day scores/day 14 Tb Hadoop cluster
  8. 8. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionalesestructurados Registros  Bases de Datos analíticas
  9. 9. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionalesestructurados Registros  Bases de Datos analíticas BIG DATA
  10. 10. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionalesestructurados Registros  Bases de Datos analíticas Ficheros log  Datos menos estructurados  Intentar un ETL para transformarlo en relacional Datos Datos  Tiempo de desarrollo elevado menos públicos New  Son datos susceptibles a estructura Insights cambios de estructura Device dos outputs  Archivados y Borrados  Acceso caro Texto/ Imágenes
  11. 11. Entonces…¿cómo obtengo insights? Tipos de datos 20% Estructurado Menos estructurado 80%
  12. 12. Insights de datos no estructuradosDEMO
  13. 13. ¿Qué es Hadoop?• Open Source• Plataforma de almacenamiento de datos y análisis para Big Data• Optimizado para manejar • Datos masivos a través de paralelismo • Variedad de datos (Estructurados, No-estructurados, Menos estructurados) • Uso de hardware económico• No para OLTP / OLAP
  14. 14. ¿Qué es Hadoop?: VentajasEscalableEscala linealmente en capacidad de almacenamiento ycomputaciónTolerante a FallosProporcionado por el Sistema de ficheros distribuido yel framework de lecturaProcesamiento distribuidoSigue la estrategia de divide y vencerás
  15. 15. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  16. 16. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  17. 17. Hadoop Distributed File System (HDFS)• Sistema de ficheros distribuido diseñado para grandes conjuntos de datos• Fiable y con buen rendimiento • Alto rendimiento de acceso: Latencia de disco • Alto ancho de banda Almacenamiento Clustered auto- reparable• Divide los datos entre los nodos en un Cluster • NameNode: Mantiene el mapeo de bloques de ficheros a nodos esclavos • DataNode: Almacena y sirve bloques de datos
  18. 18. Hadoop Distributed File System (HDFS) Block Size = 64 MbReplication Factor = 3 NameNode DataNode File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File DataNode DataNode
  19. 19. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  20. 20. Map Reduce Framework• Motor de planificación parar Procesamiento de carga distribuido • Pares Clave-Valor • Función Map • Función Reduce• Lenguajes de Script : Java, python, Javascript…• Saca provecho de la distribución de datos de HDFS • JobTracker: Planifica los trabajos entre los TaskTrackers • TaskTracker: unidades de trabajo
  21. 21. Map Reduce Framework JobTracker TaskTracker File File File File File FileMapReduce Job File File File mapFile File File File Reduce File File map map File File File File File File File File File File File File File File File File File TaskTracker TaskTracker
  22. 22. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  23. 23. Sqoop• Tecnología que sirve de interfaz entre HDFS y los Sistemas de información empresarial• Orígenes de datos relacionales integrados • MySQL, Oracle, SQL Server …• Importación / Exportación (Bidireccional)
  24. 24. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  25. 25. Pig• Lenguaje de flujo de datos de alto nivel y framework de ejecución• Lenguaje de consulta: PigLatin • Posibilidad de join de tablas• Por detrás ejecuta trabajos MapReduce
  26. 26. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  27. 27. Hive• Infraestructura Data Warehouse desde Hadoop• Proporciona • Sumarización de Datos • Consultas Ad-hoc• Lenguaje consulta estilo SQL: HiveQL• Por detrás ejecuta trabajos MapReduce
  28. 28. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  29. 29. Otros componentes: Hadoop EcosystemMahout • Minería de Datos y Machine LearningPegasus • Page Rank yGraph Mining • Social Network AnalysisLucene • Technología de indexación y búsquedaAlgunos otros: Avro, Hbase, Flume, Oozie…
  30. 30. MICROSOFT ON THE HADOOP
  31. 31. HDInsight• Project Isotope• Proporciona Apache Hadoop en • Windows Server • Windows Azure• Active Directory & System Center
  32. 32. Hadoop: Componentes Originales Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  33. 33. HDinsight Mahout Pegasus Lucene … Microsoft Pig Hive Hive ODBC BI Platform Map Reduce HDFS Sqoop JDBC
  34. 34. HDInsight Mahout Pegasus Lucene … Microsoft Pig Hive Hive ODBC BI Platform Map Reduce HDFS Sqoop JDBC Windows Azure & Windows Server
  35. 35. Windows Azure HDInsightDEMO
  36. 36. Características HDInsightHDFS• Basado en Windows• Compatibilidad con Directorio Activo• Almacenamiento compatible: • HDFS • Azure Blob Storage • Amazon S3MapReduce Framework• Compatibilidad JavaScript• Hadoop Streaming con compatibilidad F# y C#
  37. 37. Características HDInsightHive• Consolta Interactiva• Complemento Hive para Excel 2010• Hive ODBC Driver• Potentes funciones regexPig• Consola InteractivaSqoop• Driver JDBC para SQL Server y SQL Server PDW
  38. 38. Mezclando los datosDEMO
  39. 39. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com/madrid/ Síguenos:
  40. 40. SolidQ Business Analytics DayEladio Rincón Javier TorrenterasDirector Área BBDD Director BI jtorrenteras@solidq.comerincon@solidq.com

×