Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big data, Hadoop, HDInsight

2,635 views

Published on

Big data, Hadoop, HDInsight

Published in: Technology
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Big data, Hadoop, HDInsight

  1. 1. Big Data HDInsight Gustavo Alzate Sandoval Microsoft Azure
  2. 2. Big Data HDInsight @ElTavoDev www.eltavo.net @Avanet
  3. 3. Agenda  Conociendo Big Data  Conceptos Básicos  Escenarios  Hadoop  HDInsight
  4. 4. ¿Qué es Big Data? "Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Microsoft Azure
  5. 5. ¿Qué es Big Data? Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización. Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá Microsoft Azure
  6. 6. ¿Qué es Big Data? Big Data: “ Barreras para que una organización o equipo puedan almacenar, procesar y acceder todos los datos que necesitan para operar con eficiencia, tomar decisiones, reducir riesgos, etc.” Fuente: SolidQ Microsoft Azure
  7. 7. ¿Por que Big Data? Microsoft Azure
  8. 8. Tendencias Claves Microsoft Azure
  9. 9. Big Data – La revolución en los datos Los datos digitales crecerán40x próxima década En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti Microsoft Azure
  10. 10. ¿Qué es Big Data? Volumen Velocidad Variedad Variabilidad Microsoft Azure
  11. 11. Internet of Things ¿Qué es Big Data? Click Stream Sensors / RFID / Devices Wikis / Blogs Audio / Video Log Files Spatial & GPS Coordinates Text/Image Social Sentiment Data Market Feeds eGov Feeds Weather Mobile Modern Web Advertising eCommerce Collaboration Digital Marketing Search Marketing Web Logs Recommendations ERP / CRM Sales Pipeline Payables Payroll Inventory Contacts Deal Tracking Exabytes (10e18) Petabytes (10e15) Terabytes (10e12) Gigabytes (10e9) Velocidad | Variedad | Variabilidad Volumen ERP / CRM Modern Web Internet of Things Microsoft Azure
  12. 12. Ejemplos de Big Data 12 Tb día 21 Pb Hadoop cluster 7 Pb mes 1 Tb tweets/dia 75 Million scores/day 14 Tb Hadoop cluster 7 Tb datos/dia 4 Billion Graph edg/day Microsoft Azure
  13. 13. Flujo de datos de un tradicional E-Commerce
  14. 14. Nuevo flujo de Big Data de un E-Commerce
  15. 15. Conceptos básicos Microsoft Azure
  16. 16. Características de Big Data
  17. 17. ¿Qué es Hadoop? • Plataforma de almacenamiento de datos y análisis para Big Data • Open Source • Optimizado para manejar • Datos masivos a través de paralelismo • Variedad de datos (Estructurados, No-estructurados, Menos estructurados) • Uso de hardware económico • No para OLTP / OLAP
  18. 18. Sistema de archivos distribuidos (HDFS) • Sistema de archivos distribuidos y escalables escrito en Java • Replicación automática • Optimizado para operaciones de lectura • Distribuye y copia los ficheros en diferentes nodos para garantizar backup y disponibilidad de la información
  19. 19. MapReduce • Sistema de procesamiento distribuido (consume de datos) • Rastreador de trabajo (Job tracker) • Rastreador de tareas (Task tracker) • Resolución práctica de problemas susceptibles a ser paralelizados • Aborda problemas de set de datos de gran tamaño
  20. 20. RDBMS vs. Hadoop
  21. 21. Distributed Storage (HDFS) Query (Hive) Distributed Processing (MapReduce) ODBC Legend ■ Core Hadoop ■ Data processing ■ Data Movement ■ Packages Ecosistema Hadoop
  22. 22. Hive • Consultas en paralelo usando MapReduce • Lenguaje HiveQL (Símil Sql) • Permite procesar grandes volúmenes de datos • Escalabilidad • Tolerancia a fallos Microsoft Azure
  23. 23. Ejemplos HiveQL • Crear una Tabla Externa CREATE EXTERNAL TABLE iislogs( sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' LOCATION 'wasb://iis-logs@myapp.blob.core.windows.net/' • Ejecutar un query para retornar datos select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version, query_params['search_value'] as search_value from (select *, str_to_map(csuriquery, '&', '=') as query_params from iislogs ) version_logs where query_params['api-version'] is not null Microsoft Azure
  24. 24. Pig • Lenguaje script para expresar sentencias MapReduce • Usa paralelismo para ejecutar las sentencias • Optimizado para grandes volumenes de datos • Lenguaje PigLatin (Símil Sql) Microsoft Azure
  25. 25. Ejemplos PigLatin • Carga y Transformación de Datos A = load 'passwd' using PigStorage(':'); -- load the passwd file B = foreach A generate $0 as id; -- extract the user IDs store B into ‘id.out’; -- write the results to a file name id.out • Ejecutar un query para retornar y procesar datos LOGS = LOAD 'wasb:///example/data/sample.log'; LEVELS = foreach LOGS generate REGEX_EXTRACT($0, '(TRACE|DEBUG|INFO|WARN|ERROR|FATAL)', 1) as LOGLEVEL; FILTEREDLEVELS = FILTER LEVELS by LOGLEVEL is not null; GROUPEDLEVELS = GROUP FILTEREDLEVELS by LOGLEVEL; FREQUENCIES = foreach GROUPEDLEVELS generate group as LOGLEVEL, COUNT(FILTEREDLEVELS.LOGLEVEL) as COUNT; RESULT = order FREQUENCIES by COUNT desc; DUMP RESULT; Microsoft Azure
  26. 26. ¿Qué es HDInsight? • Project Isotope • HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows. • On premise: Instalación en Windows Server • Cloud: Despliegue en la nube Microsoft Azure
  27. 27. Ventajas Escale con total flexibilidad a petición • HDInsight se ha diseñado para poder hacer frente a cualquier cantidad de datos, con la capacidad de escalar de terabytes a petabytes a petición. Solamente se cobra por los recursos de proceso y almacenamiento que realmente usa.
  28. 28. Ventajas Estudie todos los datos: estructurados, semiestructurados, no estructurados • Dado que es 100% Apache Hadoop, HDInsight puede procesar datos no estructurados o semiestructurados desde secuencias de clics web, medios sociales, registros de servidor, dispositivos, sensores, etc.
  29. 29. Ventajas Desarrolle en su lenguaje favorito • HDInsight tiene extensiones de programación eficaces para lenguajes como C#, Java, .NET y más. Así, en Hadoop, podrá usar el lenguaje de programación de su elección para crear, configurar, enviar y supervisar trabajos de Hadoop
  30. 30. Ventajas Sin hardware que comprar o mantener • Con HDInsight, puede implementar Hadoop en la nube sin comprar nuevo hardware ni incurrir en otros costos iniciales. Además, la instalación y configuración se realizan de forma rápida. Azure se encarga de todo. Puede iniciar su primer clúster en minutos
  31. 31. Ventajas Use Excel para visualizar sus datos de Hadoop • Dado que se integra con Excel, HDInsight le permite visualizar y analizar los datos de Hadoop de nuevas y convincentes formas en una herramienta conocida para sus usuarios finales. Desde Excel, los usuarios pueden seleccionar Azure HDInsight como origen de datos
  32. 32. C#, F#, .NET Hadoop Core + Hive, Pig, HBase Azure Storage (WASB) Office 365 Power BI (Excel, PowerQuery, PowerView, BI Sites) World's Data (Azure Data Marketplace) HDInsight y Hadoop ODBC Sqoop for SQL Server PowerShell
  33. 33. Demo HDInsight en Microsoft Azure
  34. 34. Ofertas detalladas
  35. 35. Recursos
  36. 36. Gracias!! @ElTavoDev www.eltavo.net @Avanet
  37. 37. Big Data analytics Importante Microsoft Azure
  38. 38. Programando HDInsight Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus… C#, F# Map/Reduce, Microsoft .NET management clients PowerShell, cross-platform CLI tools
  39. 39. Construyendo experiencias de desarrollador Empleos de Autor Integración de App Creación de frameworks and lenguajes Conectividad Programabilidad Seguridad Combinados libremente Ligero Bajo costo de extender Escenario orientado Innovación fluye hacia arriba Nuevos modelos de computo Mejoras de rendimiento Extender la amplitud & profundidad Habilitar nuevos escenarios Integrar con cadenas actuales de herramientas
  40. 40. HDInsight y Hadoop Mahout Pegasus Flume Pig Hive Map Reduce HDFS Hive ODBC Sqoop JDBC Microsoft Azure & Windows Server Microsoft BI Platform

×