SolidQ Business Analytics Day | Como de grandes son tus datos

999 views

Published on

Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España)
- ¿Por qué Big data?
- Entonces...Haddoop ¿Qué es?
- ventajas y Componentes de Hadoop
-HD Insight, Windows Azure HDInsight
-Grandes DW
www.bisql.com

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
999
On SlideShare
0
From Embeds
0
Number of Embeds
375
Actions
Shares
0
Downloads
20
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

SolidQ Business Analytics Day | Como de grandes son tus datos

  1. 1. Cómo de grandes son tus datos?Javier TorrenterasDirector Área BIjtorrenteras@solidq.com
  2. 2. The Big Data Picture
  3. 3. © SolidQ 2013 3
  4. 4. Agenda• ¿Por qué Big Data?• Entonces… Hadoop, ¿Qué es? • Ventajas • Componentes• Apache Hadoop y Microsoft BI • HDInsight • Windows Azure HDInsight• Grandes DW
  5. 5. ¿Por qué Big Data?Una arquitectura rígida impide disponer inmediatamentenuevas oportunidades de negocioEl reporting retrospectivo no guía las decisiones de negocio.Datos móviles, sociales o de dispositivos no están disponiblesLa agregación destruye determinadas insights valiosos
  6. 6. Las 4 V’s Volumen Velocidad Variedad Variabilidad
  7. 7. Ejemplos de Big Data 12 Tb 21 Pb Hadoop día cluster 7 Pb mes 1 Tb 7 Tb tweets/dia datos/dia 75 4 Billion Million Graph edg/day scores/day 14 Tb Hadoop cluster
  8. 8. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionalesestructurados Registros  Bases de Datos analíticas
  9. 9. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionalesestructurados Registros  Bases de Datos analíticas BIG DATA
  10. 10. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionalesestructurados Registros  Bases de Datos analíticas Ficheros log  Datos menos estructurados  Intentar un ETL para transformarlo en relacional Datos Datos  Tiempo de desarrollo elevado menos públicos New  Son datos susceptibles a estructura Insights cambios de estructura Device dos outputs  Archivados y Borrados  Acceso caro Texto/ Imágenes
  11. 11. Entonces…¿cómo obtengo insights? Tipos de datos 20% Estructurado Menos estructurado 80%
  12. 12. Insights de datos no estructuradosDEMO
  13. 13. ¿Qué es Hadoop?• Open Source• Plataforma de almacenamiento de datos y análisis para Big Data• Optimizado para manejar • Datos masivos a través de paralelismo • Variedad de datos (Estructurados, No-estructurados, Menos estructurados) • Uso de hardware económico• No para OLTP / OLAP
  14. 14. ¿Qué es Hadoop?: VentajasEscalableEscala linealmente en capacidad de almacenamiento ycomputaciónTolerante a FallosProporcionado por el Sistema de ficheros distribuido yel framework de lecturaProcesamiento distribuidoSigue la estrategia de divide y vencerás
  15. 15. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  16. 16. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  17. 17. Hadoop Distributed File System (HDFS)• Sistema de ficheros distribuido diseñado para grandes conjuntos de datos• Fiable y con buen rendimiento • Alto rendimiento de acceso: Latencia de disco • Alto ancho de banda Almacenamiento Clustered auto- reparable• Divide los datos entre los nodos en un Cluster • NameNode: Mantiene el mapeo de bloques de ficheros a nodos esclavos • DataNode: Almacena y sirve bloques de datos
  18. 18. Hadoop Distributed File System (HDFS) Block Size = 64 MbReplication Factor = 3 NameNode DataNode File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File DataNode DataNode
  19. 19. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  20. 20. Map Reduce Framework• Motor de planificación parar Procesamiento de carga distribuido • Pares Clave-Valor • Función Map • Función Reduce• Lenguajes de Script : Java, python, Javascript…• Saca provecho de la distribución de datos de HDFS • JobTracker: Planifica los trabajos entre los TaskTrackers • TaskTracker: unidades de trabajo
  21. 21. Map Reduce Framework JobTracker TaskTracker File File File File File FileMapReduce Job File File File mapFile File File File Reduce File File map map File File File File File File File File File File File File File File File File File TaskTracker TaskTracker
  22. 22. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  23. 23. Sqoop• Tecnología que sirve de interfaz entre HDFS y los Sistemas de información empresarial• Orígenes de datos relacionales integrados • MySQL, Oracle, SQL Server …• Importación / Exportación (Bidireccional)
  24. 24. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  25. 25. Pig• Lenguaje de flujo de datos de alto nivel y framework de ejecución• Lenguaje de consulta: PigLatin • Posibilidad de join de tablas• Por detrás ejecuta trabajos MapReduce
  26. 26. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  27. 27. Hive• Infraestructura Data Warehouse desde Hadoop• Proporciona • Sumarización de Datos • Consultas Ad-hoc• Lenguaje consulta estilo SQL: HiveQL• Por detrás ejecuta trabajos MapReduce
  28. 28. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  29. 29. Otros componentes: Hadoop EcosystemMahout • Minería de Datos y Machine LearningPegasus • Page Rank yGraph Mining • Social Network AnalysisLucene • Technología de indexación y búsquedaAlgunos otros: Avro, Hbase, Flume, Oozie…
  30. 30. MICROSOFT ON THE HADOOP
  31. 31. HDInsight• Project Isotope• Proporciona Apache Hadoop en • Windows Server • Windows Azure• Active Directory & System Center
  32. 32. Hadoop: Componentes Originales Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  33. 33. HDinsight Mahout Pegasus Lucene … Microsoft Pig Hive Hive ODBC BI Platform Map Reduce HDFS Sqoop JDBC
  34. 34. HDInsight Mahout Pegasus Lucene … Microsoft Pig Hive Hive ODBC BI Platform Map Reduce HDFS Sqoop JDBC Windows Azure & Windows Server
  35. 35. Windows Azure HDInsightDEMO
  36. 36. Características HDInsightHDFS• Basado en Windows• Compatibilidad con Directorio Activo• Almacenamiento compatible: • HDFS • Azure Blob Storage • Amazon S3MapReduce Framework• Compatibilidad JavaScript• Hadoop Streaming con compatibilidad F# y C#
  37. 37. Características HDInsightHive• Consolta Interactiva• Complemento Hive para Excel 2010• Hive ODBC Driver• Potentes funciones regexPig• Consola InteractivaSqoop• Driver JDBC para SQL Server y SQL Server PDW
  38. 38. Mezclando los datosDEMO
  39. 39. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com/madrid/ Síguenos:
  40. 40. SolidQ Business Analytics DayEladio Rincón Javier TorrenterasDirector Área BBDD Director BI jtorrenteras@solidq.comerincon@solidq.com

×