SlideShare a Scribd company logo
1 of 42
Download to read offline
www.datalytics.com   18D – Pentaho Big Data Architecture
Un punto de inflexión

           LOS DATOS SE
      40   DUPLICAN CADA 2 AÑOS                                        80%
      35                                                               DE LA INFORMACIÓN ES NO
      30                                                               ESTRUCTURADA
                                                                                               (Gartner, December 2011)
      25
 ZB
      20

      15                                                               LAS EMPRESAS MANEJARÁN
      10                                                               50X MÁS DATOS
       5                                                               EN LA PRÓXIMA DÉCADA
            2005       2010        2015      2020
                                                                                    (IDC Digital Universe Study, June 2011)
       0
           (IDC Digital Universe Study, June 2011)


“El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran
a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y
para almacenar, administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
Qué es Big Data?
   Big Data es el nombre que se le da a conjuntos de información que crecen de una
    manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
    métodos o técnicas tradicionales del mundo de base de datos relacionales.
   Big Data son tres V’s y una C:
        Velocidad: los datos se generan a un ritmo exponencial.
        Volumen: la irrupción de Big Data dejó en el
         pasado el Terabyte para hablar de Petabytes y
         Zetabytes.
        Variedad: datos estructurados y no estructurados,
         proveniente de la web 2.0, sensores, logs, etc.
        Complejidad: volumen de datos tal que no
         permite procesarlo con técnicas tradicionales
De dónde viene?
   Información transaccional
        Operaciones bancarias
        Servicios financieros, portales de bolsa
        Tiendas virtuales / e-commerce
   La nube
        World Wide Web / Blogs
        Redes sociales: Twitter, Facebook, LinkedIn
   Machine-generated data (MGD)
        Weblogs
        Centrales telefónicas
        Sensores de todo tipo
        Logs de aplicaciones
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
         de negocio que requieran de grandes volúmenes de información.
                                                                                            Big Data

        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
         de negocio que requieran de grandes volúmenes de información.
                                                                                            Big Data

        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Bases de datos Transaccionales
   Utilizadas en la mayoría de las empresas en la actualidad
                                                                           Atomicidad
   Motores transaccionales, diseñados y desarrollados para
    soportar transacciones y trabajar con pocos registros por
    operación.                                                    Durabilidad      Consistencia

   Las soluciones de Business Intelligence involucran cientos
    de miles (e inclusive millones) de registros en una única
                                                                            Isolación
    operación, y deben responder en un tiempo adecuado.
   Las bases de datos transaccionales no fueron diseñadas para responder a consultas
    analíticas sobre grandes volúmenes de información.
   La irrupción de Big Data comienza a dejar en evidencia estas falencias, debiendo utilizar
    complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de
    desarrollo y mantenimiento, obteniendo tiempos
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
         de negocio que requieran de grandes volúmenes de información.
                                                                                            Big Data

        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
         de negocio que requieran de grandes volúmenes de información.
                                                                                            Big Data

        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Bases de datos NoSQL
   Distintos tipos de bases para distintos tipos de aplicaciones: documentales, grafos, clave/valor,
    orientadas a objetos, tabulares, …
   Características
        SQL: Sin (o muy poco) soporte para SQL.
              Datos accedidos a través de programas Java, no consultas
        ACID: Sin integridad referencial, poco soporte transaccional
        Definición de estructuras de datos flexibles (sobre la marcha)
   Beneficios
        Facilidad de escalamiento horizontal (clusters baratos)
        Almacenamiento de grandes volúmenes (no generan cuellos de botella)
        Excelentes para lecturas masivas de registros tipo clave/valor.
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
         de negocio que requieran de grandes volúmenes de información.
                                                                                            Big Data

        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
         de negocio que requieran de grandes volúmenes de información.
                                                                                            Big Data

        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Bases de datos Analíticas
   Bases de datos diseñadas específicamente para ser utilizadas como motores de Data
    Warehouse.




   Estas bases de datos logran procesar grandes volúmenes de información a velocidades
    asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:
        Almacenamiento en columnas en lugar de filas (registros)
        Massively parallel processing (MPP)
        In-Memory Analytics
   Históricamente estas bases de datos tan especializadas tenían un costo muy elevado,
    pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de
    cada organización.
Presentando a
   Infobright es una compañía que desarrolla un motor de base de datos analítico orientada a
    columnas de alta performance que entrega rápidos tiempos de respuesta a consultas ad-
    hoc sobre grandes volúmenes de información (BIG DATA) con mínimo esfuerzo de
    administración, mantenimiento y costo de propiedad.
   Fundada en 2006, Infobright tiene HQ en Toronto (Canadá) y cuenta con oficinas en
    Boston (USA), Irlanda y Polonia.
   A diferencia de otras bases analíticas, la mejor performance de Infobright esta basada en
    modelos matemáticos, no en hardware.
   Modelo de negocios “Try & Buy” basado en una versión Enterprise (Infobright Enterprise
    Edition, IEE) y una versión Open Source (Infobright Community Edition, ICE).
   Socio tecnológico de varias empresas de BI como MicroStrategy, Pentaho, Informática, etc.
   Base de clientes en aumento, incluyendo empresas como Yahoo!, Xerox, Bwin, etc.
Características de Infobright

                Base de datos columnar orientada al análisis de información
                Excelente performance:
                     Análisis ad-hoc de grandes volúmenes de información
                     Tiempos de carga de 2TB/hour
                     Tasas de compresión de 10:1 a 40:1 (o aún más)
                Fácil administración e implementación:
                     Elimina la necesidad de mantener índices, tablas particionadas,
                      tablas agregadas, etc
                     Auto-tunning: la base va “aprendiendo” de las consultas que recibe
                     Se instala en minutos, y no tiene grandes requisitos de HW
                     Basada en arquitectura MySQL (BD más utilizada en el mundo)
                     Es una base relacional, por lo que dialoga SQL
                Modelo de suscripción Low Cost
Y por qué resulta mejor para BI?

     Base de datos      Potencia basada en    Administración
      orientada a       inteligencia, no en    simplificada
       columnas              Hardware

     Diseñada para                              No existe el
                          Knowledge Grid
    análisis de datos                          tuning manual


                                                 Tareas de
    Excelente tasa de
                          Motor iterativo      administración
       compresión
                                                 mínimas
Almacenamiento en columnas, no filas
 ID       Tarea      Departamento    Ciudad                      1          Envío       Operaciones   Medellín

 #                                                               2       Recepción      Operaciones   Medellín
 #                                                               3       Registración    Finanzas     Bogotá
 #
 #                                                        El almacenamiento en filas sirve si…
 #
 #
                                                           Todas las columnas son necesarias
                                                                Por ejemplo, el detalle de una compra de supermercado
                                                           Ideal para un mundo transaccional donde usualmente
                                                            se necesita todo el detalle de una entidad

                  Almacenamiento
                    en Columnas                           El almacenamiento en columnas sirve si…
                                                           Sólo se requieren algunas columnas para el análisis
      1              Envío       Operaciones   Medellín         Por ejemplo, el total vendido del producto X en cada una
                                                                  de las sucursales en los últimos 3 meses.
      2           Recepción      Operaciones   Medellín
                                                           Información consolidada (sumas, cantidades,
      3           Registración      Finanzas   Bogotá
                                                            promedios, …)
                                                           Ideal para un mundo analítico, donde la información se
                                                            concentra en métrica de distintas entidades
Almacenamiento en filas vs. columnas
                                                           30 columnas
Ejemplo de aplicación:
 50 días con información; 30
  columnas/variables por
  cada registro; un millón de
  registros por cada día
 El acceso a disco es un
  problema
 El almacenamiento en filas    50 millones de registros
  obliga a recuperar la
  información de todas las
  columnas
 Al incrementarse el tamaño
  de la tabla, se incrementan
  los índices
 La velocidad de carga se
  degrada dado que los
  índices deben recrearse al
  incorporarse nuevos datos
Almacenamiento en filas vs. columnas
                                                                              30 columnas
Objetivo: obtener el total de
ventas de una semana del
año.
 La consulta SQL sería algo
  como:
  Select sum(ventas)
  from tabla
  where semana = X              50 millones de registros




                                                           Día de la semana




                                                                                     Venta diaria
Almacenamiento en filas vs. columnas
                                                                                           30 columnas
Utilizando un esquema de
 almacenamiento en filas
 (esquema tradicional)
  Se recorren 7 millones de
   registros (un millón por cada
   día)
  Para acceder a un valor en
                                   50 millones de registros
   particular (el valor de la




                                                                        Día de la semana
   venta) es necesario leer las




                                                                                                  Venta diaria
   30 columnas, aún cuando                                    Información recuperada para el cálculo
   no tengan información                                            (210 millones de variables!)
   relevante.
  Se procesan TODAS las
   columnas (210 millones,
   30 x 7), y se DESCARTAN
   TODAS MENOS una.
  Es decir se procesó un 93%
   más de información.
Almacenamiento en columnas, no filas
Utilizando un esquema de
 almacenamiento en columnas
 (esquema utilizado por
 Infobright)
   Se recorren 7 millones de
    registros (un millón por cada
    día)
                                50 millones de registros
   Se procesan sólo las 2




                                                           Día de la semana




                                                                              Venta diaria
    columnas necesarias: día y
    venta diaria.
   Es decir, sólo se procesa la
    información necesaria.
   La inteligencia está en la
    forma de almacenamiento y
    en el algoritmo usado para                                                               93% menos de información
    extraer los datos.                                                                             recuperada!
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
         de negocio que requieran de grandes volúmenes de información.
                                                                                            Big Data

        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
         de negocio que requieran de grandes volúmenes de información.
                                                                                            Big Data

        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Hadoop (HDFS, Map/Reduce, Hive, Pig, …)
   Origen (Google): cómo hacer para indexar la web sin morir en el intento?
   Solución: arquitectura masivamente paralela, que incluye un sistema de archivos y
     un esquema de procesamiento distribuido.
   Permite almacenar y procesar grandes volúmenes de cualquier tipo
    de información
   Ideal para:
        Grandes volumenes de datos no
         estructurados que no cuadran en
         bases de datos transaccionales o
         NoSQL
        Emails, tweets, imágenes, logs,
         videos, …
   Hadoop = Almacenamiento + procesamiento (consultas)


                     HDFS + programas Map/Reduce (Java)
Ejemplo: Map/Reduce


       Cuantas veces
     aparece la palabra
       Datalytics en                                          Contá las
        Archivo.txt?                                        repeticiones
                                                           de Datalytics
                                                           en el Bloque C




          (*)             (*)                      (*)



         Cantidad = 3     Cantidad = 0             Cantidad = 11


                                     Archivo.txt

                                                    (*) Deben programarse en Java! 
Ejemplo: Map/Reduce


                                                         Sumá
                                                       “Datalytics”




        Resultados.txt     (*)
       (Datalytics = 14)



                           Datalytics   =0
      (*)                  (*)               (*)




                                                   (*) Deben programarse en Java! 
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
                                                                                            Big Data
         de negocio que requieran de grandes volúmenes de información.
        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
Tipos de bases de datos
   El concepto de base de datos que utilizábamos hasta hace 2 años cambió
   Distintos tipos de bases de datos, para distintos tipos de necesidades.
        Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
         las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
        NoSQL: para capturar de manera segura y escalable, grandes volúmenes
         de información continua generados por eventos.
        Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
                                                                                               Big Data
         de negocio que requieran de grandes volúmenes de información.
        Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de
         información estructurada o semi-estructurada.
   Desafíos…
        Son de distintos vendedores y no están integradas
        Estos tipos de DB’s se utilizan por lo general en conjunto
        Se utilizan y administran de distinta manera; utilizan distintos lenguajes: no SQL!
        Dependencia de sistemas: vuelta a las raíces?
Tipos de bases de datos
Tipos de bases de datos
Integración con Big Data
 Fuentes de                                     Repositorios
  BIG DATA                                       BIG DATA

    DATOS
ESTRUCTURADOS


                                                   Hadoop

CRM, POS, ERP, etc.




   DATOS NO
ESTRUCTURADOS                                      NoSQL
                                                  Databases
                              Cargar
                      Manipular & Transformar
                             Integrar
                                                   Analytic
                              Acceso              Databases
                            Modelado
Integración con Big Data




     Integración,       Enterprise & Ad Hoc           Data Discovery,
Manipulaciónn & Carga        Reporting                 Visualización     Análisis predictivo




            Hadoop                            NoSQL                     Analíticas
Integración con Big Data




                            Pasar de un desarrollo lento,
                           complejo y permeable a errores
Integración con Big Data




                           Desarrollo visual, hecho por el
                                     area de BI
Integración con Big Data
   Pentaho reduce drásticamente el tiempo para diseñar, desarrollar e implementar soluciones de Big
    Data llegando a ser hasta 15 veces más rápido
        Desarrollo 100% visual, 0% programación Java
        Procesos de análisis simplificado de punta a
         punta
        Plataforma completa, desde la extracción
         hasta las herramientas de análisis.
        Alta performance, incluyendo capacidad de
         ejecución dentro de Hadoop.
Integración con Big Data
   Pentaho reduce drásticamente el tiempo para diseñar, desarrollar e implementar soluciones de Big
    Data llegando a ser hasta 15 veces más rápido
        Toda la solución (ETL, cubos, reportes) se conecta con las distribuciones más importantes de
         Hadoop y las principales bases NoSQL y Analíticas
        Lenguaje visual unificado para todos los desarrollos
        Cargar/extraer archivos de Hadoop en un cluster local,
         en la nube, …
        Ejecutar desde PDI jobs de Map/Reduce o scripts en
         Pig desarrollados en PDI o Java dentro del cluster
        Integrar los distintos motores DB’s sin perder el
         foco en el usuario y en BI
Ejecución dentro del cluster Hadoop


                          PDI está desarrollado en Java: puede
                        ejecutarse dentro del cluster de Hadoop




                          Desarrollo fácil, misma performance
Enfoque tradicional vs. Pentaho


    Ejecutivos
                                                                                       Explo-
                                                                                       ración
  Usuario final

                                                                                                Predi-
     Analistas                                                                                  cción

                                                                              Mode-
                                                               DM / DW
       IT/DBA                                                                  lado


                       Extracción/Carga       Transformación
Programadores
                   0                      5                    10                     15
                                 20                    25                30                     35 Días

     Enfoque tradicional
Arquitectura de solución


   Structured Data
                                                                Column Store or MPP
                                                                     Database

                                                                                                      Dashboard
                                            PDI
                                      PDI           PDI


Semi-structured Data    PDI                               PDI                              Metadata    Report

                                     PDI          PDI
                                            PDI
                                                                                                      Analyzer

               Pentaho Data Integration                         Pentaho Data Integration

                        Carga                               Limpieza / Enriquecimiento

           Paseo / Validación / Consolidación              Administración de dimensiones

                       Workflow                                  Carga masiva a DB’s

                                                                       Workflow
Instaview: acceso rápido a fuentes complejas
                                                Sencillo, orientado al usuario final
                                                     Herramienta desktop para analistas de negocio
                                                     Simplifica drásticamente el acceso a fuentes de
                                                      información “Complejas” (Hadoop, NoSQL,
1. Selección de fuente de información                 fuentes de tiempo real, …)
                                                Big Data Analytics
                                                     Permite al analista acceder a fuentes de tiempo
                                                      real o complejas enmascarando la complejidad
                                                      subyacente.
 2. Preparado automático para análisis
                                                     Analistas consultan su información sin
                                                      intermediarios.




3. Visualización y exploración interactiva
Data Quality
   PDI cuenta con un plugin que permite realizar tareas avanzadas de Data Quality,
    incluyendo:
        Data Profiling: análisis de la calidad de la información.
        Data Cleaning: limpieza de la información.
        Data Monitoring: monitoreo y análisis de la evolución de la calidad de la información.
Muchas Gracias!

More Related Content

What's hot

Machine Learning Models in Production
Machine Learning Models in ProductionMachine Learning Models in Production
Machine Learning Models in ProductionDataWorks Summit
 
Achieving Lakehouse Models with Spark 3.0
Achieving Lakehouse Models with Spark 3.0Achieving Lakehouse Models with Spark 3.0
Achieving Lakehouse Models with Spark 3.0Databricks
 
Effective Data Lakes: Challenges and Design Patterns (ANT316) - AWS re:Invent...
Effective Data Lakes: Challenges and Design Patterns (ANT316) - AWS re:Invent...Effective Data Lakes: Challenges and Design Patterns (ANT316) - AWS re:Invent...
Effective Data Lakes: Challenges and Design Patterns (ANT316) - AWS re:Invent...Amazon Web Services
 
Build a Real-time Streaming Data Visualization System with Amazon Kinesis Ana...
Build a Real-time Streaming Data Visualization System with Amazon Kinesis Ana...Build a Real-time Streaming Data Visualization System with Amazon Kinesis Ana...
Build a Real-time Streaming Data Visualization System with Amazon Kinesis Ana...Amazon Web Services
 
Azure data platform overview
Azure data platform overviewAzure data platform overview
Azure data platform overviewJames Serra
 
S4H_399 2 SL _Onboarding Presentation (2).pptx
S4H_399 2  SL _Onboarding Presentation (2).pptxS4H_399 2  SL _Onboarding Presentation (2).pptx
S4H_399 2 SL _Onboarding Presentation (2).pptxchandramohan431817
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache SparkGustavo Arjones
 
Scaling Knowledge Graph Architectures with AI
Scaling Knowledge Graph Architectures with AIScaling Knowledge Graph Architectures with AI
Scaling Knowledge Graph Architectures with AIEnterprise Knowledge
 
A Thorough Comparison of Delta Lake, Iceberg and Hudi
A Thorough Comparison of Delta Lake, Iceberg and HudiA Thorough Comparison of Delta Lake, Iceberg and Hudi
A Thorough Comparison of Delta Lake, Iceberg and HudiDatabricks
 
Lambda Architecture in the Cloud with Azure Databricks with Andrei Varanovich
Lambda Architecture in the Cloud with Azure Databricks with Andrei VaranovichLambda Architecture in the Cloud with Azure Databricks with Andrei Varanovich
Lambda Architecture in the Cloud with Azure Databricks with Andrei VaranovichDatabricks
 
CI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on Databricks
CI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on DatabricksCI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on Databricks
CI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on DatabricksDatabricks
 
Databricks Platform.pptx
Databricks Platform.pptxDatabricks Platform.pptx
Databricks Platform.pptxAlex Ivy
 
Heterogenous Migration with DMS & SCT
Heterogenous Migration with DMS & SCTHeterogenous Migration with DMS & SCT
Heterogenous Migration with DMS & SCTAmazon Web Services
 
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...Denodo
 
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...Hortonworks
 
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Amazon Web Services
 
Got data?… now what? An introduction to modern data platforms
Got data?… now what?  An introduction to modern data platformsGot data?… now what?  An introduction to modern data platforms
Got data?… now what? An introduction to modern data platformsJamesAnderson599331
 

What's hot (20)

Machine Learning Models in Production
Machine Learning Models in ProductionMachine Learning Models in Production
Machine Learning Models in Production
 
Achieving Lakehouse Models with Spark 3.0
Achieving Lakehouse Models with Spark 3.0Achieving Lakehouse Models with Spark 3.0
Achieving Lakehouse Models with Spark 3.0
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Effective Data Lakes: Challenges and Design Patterns (ANT316) - AWS re:Invent...
Effective Data Lakes: Challenges and Design Patterns (ANT316) - AWS re:Invent...Effective Data Lakes: Challenges and Design Patterns (ANT316) - AWS re:Invent...
Effective Data Lakes: Challenges and Design Patterns (ANT316) - AWS re:Invent...
 
Build a Real-time Streaming Data Visualization System with Amazon Kinesis Ana...
Build a Real-time Streaming Data Visualization System with Amazon Kinesis Ana...Build a Real-time Streaming Data Visualization System with Amazon Kinesis Ana...
Build a Real-time Streaming Data Visualization System with Amazon Kinesis Ana...
 
Taller Power Bi caso practico
Taller Power Bi  caso practicoTaller Power Bi  caso practico
Taller Power Bi caso practico
 
Azure data platform overview
Azure data platform overviewAzure data platform overview
Azure data platform overview
 
S4H_399 2 SL _Onboarding Presentation (2).pptx
S4H_399 2  SL _Onboarding Presentation (2).pptxS4H_399 2  SL _Onboarding Presentation (2).pptx
S4H_399 2 SL _Onboarding Presentation (2).pptx
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Scaling Knowledge Graph Architectures with AI
Scaling Knowledge Graph Architectures with AIScaling Knowledge Graph Architectures with AI
Scaling Knowledge Graph Architectures with AI
 
A Thorough Comparison of Delta Lake, Iceberg and Hudi
A Thorough Comparison of Delta Lake, Iceberg and HudiA Thorough Comparison of Delta Lake, Iceberg and Hudi
A Thorough Comparison of Delta Lake, Iceberg and Hudi
 
Apache Spark Crash Course
Apache Spark Crash CourseApache Spark Crash Course
Apache Spark Crash Course
 
Lambda Architecture in the Cloud with Azure Databricks with Andrei Varanovich
Lambda Architecture in the Cloud with Azure Databricks with Andrei VaranovichLambda Architecture in the Cloud with Azure Databricks with Andrei Varanovich
Lambda Architecture in the Cloud with Azure Databricks with Andrei Varanovich
 
CI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on Databricks
CI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on DatabricksCI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on Databricks
CI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on Databricks
 
Databricks Platform.pptx
Databricks Platform.pptxDatabricks Platform.pptx
Databricks Platform.pptx
 
Heterogenous Migration with DMS & SCT
Heterogenous Migration with DMS & SCTHeterogenous Migration with DMS & SCT
Heterogenous Migration with DMS & SCT
 
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...
Denodo: Enabling a Data Mesh Architecture and Data Sharing Culture at Landsba...
 
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
 
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
 
Got data?… now what? An introduction to modern data platforms
Got data?… now what?  An introduction to modern data platformsGot data?… now what?  An introduction to modern data platforms
Got data?… now what? An introduction to modern data platforms
 

Viewers also liked

Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoDatalytics
 
投資事業瞭望台(1) - 破迷思
投資事業瞭望台(1) - 破迷思投資事業瞭望台(1) - 破迷思
投資事業瞭望台(1) - 破迷思City Cheng
 
Una base de datos de red
Una base de datos de redUna base de datos de red
Una base de datos de redweneliza99
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RLuis Joyanes
 
Modelo entidad relacion de base de datos
Modelo entidad relacion de base de datosModelo entidad relacion de base de datos
Modelo entidad relacion de base de datosjinethmarcelasanchez
 
Presentacion de Modelo entidad -relación de Base de Datos
Presentacion de Modelo entidad -relación de Base de Datos Presentacion de Modelo entidad -relación de Base de Datos
Presentacion de Modelo entidad -relación de Base de Datos Yarquiri Claudio
 
Modelo entidad relación de base de datos
Modelo entidad relación de base de datosModelo entidad relación de base de datos
Modelo entidad relación de base de datosani_tuza
 

Viewers also liked (13)

Upsa abril2014
Upsa abril2014Upsa abril2014
Upsa abril2014
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
 
投資事業瞭望台(1) - 破迷思
投資事業瞭望台(1) - 破迷思投資事業瞭望台(1) - 破迷思
投資事業瞭望台(1) - 破迷思
 
Una base de datos de red
Una base de datos de redUna base de datos de red
Una base de datos de red
 
Base de datos Transaccional
Base de datos TransaccionalBase de datos Transaccional
Base de datos Transaccional
 
Modelo Relacional
Modelo RelacionalModelo Relacional
Modelo Relacional
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacional
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
 
Modelo entidad relacion de base de datos
Modelo entidad relacion de base de datosModelo entidad relacion de base de datos
Modelo entidad relacion de base de datos
 
Modelos de red
Modelos de redModelos de red
Modelos de red
 
Presentacion de Modelo entidad -relación de Base de Datos
Presentacion de Modelo entidad -relación de Base de Datos Presentacion de Modelo entidad -relación de Base de Datos
Presentacion de Modelo entidad -relación de Base de Datos
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacional
 
Modelo entidad relación de base de datos
Modelo entidad relación de base de datosModelo entidad relación de base de datos
Modelo entidad relación de base de datos
 

Similar to Big Data Architecture con Pentaho

Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Peter Kroll
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Pedro Contreras Flores
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIDatalytics
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Javier Peña
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosMaría Isabel Bautista
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Luis Fernando Aguas Bucheli
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes socialesDatKnoSys
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 

Similar to Big Data Architecture con Pentaho (20)

Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BI
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datos
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Big data
Big dataBig data
Big data
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 

More from Datalytics

Data Visualization con Pentaho
Data Visualization con PentahoData Visualization con Pentaho
Data Visualization con PentahoDatalytics
 
Dashboards con MicroStrategy
Dashboards con MicroStrategyDashboards con MicroStrategy
Dashboards con MicroStrategyDatalytics
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoDatalytics
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTNDatalytics
 
Whats new in Pentaho 3.8
Whats new in Pentaho 3.8Whats new in Pentaho 3.8
Whats new in Pentaho 3.8Datalytics
 
Pentaho Roadmap 2011
Pentaho Roadmap 2011Pentaho Roadmap 2011
Pentaho Roadmap 2011Datalytics
 

More from Datalytics (6)

Data Visualization con Pentaho
Data Visualization con PentahoData Visualization con Pentaho
Data Visualization con Pentaho
 
Dashboards con MicroStrategy
Dashboards con MicroStrategyDashboards con MicroStrategy
Dashboards con MicroStrategy
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
 
Whats new in Pentaho 3.8
Whats new in Pentaho 3.8Whats new in Pentaho 3.8
Whats new in Pentaho 3.8
 
Pentaho Roadmap 2011
Pentaho Roadmap 2011Pentaho Roadmap 2011
Pentaho Roadmap 2011
 

Recently uploaded

Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónAntonia Yamilet Perez Palomares
 
Imágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónImágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónUniversidad de Sonora
 
innovacion banking & warehouse 2024 blog
innovacion banking & warehouse 2024 bloginnovacion banking & warehouse 2024 blog
innovacion banking & warehouse 2024 blogManuel Diaz
 
Electricidad Libro compendio de temas estudiados.docx
Electricidad Libro compendio de temas estudiados.docxElectricidad Libro compendio de temas estudiados.docx
Electricidad Libro compendio de temas estudiados.docxCsarNlsonMrquezContr
 
Tipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de DatosTipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de DatosYOMIRAVILLARREAL1
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .itzyrivera61103
 
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...dramosbrise1403
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docxssusere34b451
 
Desarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - EstradaDesarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - EstradaRicardoEstrada90
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).jcaballerosamayoa
 
Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.241534381
 
Chat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaChat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaEdwinGarca59
 
Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024NicolleAndrade7
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC6dwwcgtpfx
 
De Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxDe Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxdoloresolmosantiago
 
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxTipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxJOELGARCIA849853
 
el uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptxel uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptx221112876
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptxjarniel1
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALGuadalinfoHuscarGuad
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialEducática
 

Recently uploaded (20)

Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
 
Imágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónImágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la información
 
innovacion banking & warehouse 2024 blog
innovacion banking & warehouse 2024 bloginnovacion banking & warehouse 2024 blog
innovacion banking & warehouse 2024 blog
 
Electricidad Libro compendio de temas estudiados.docx
Electricidad Libro compendio de temas estudiados.docxElectricidad Libro compendio de temas estudiados.docx
Electricidad Libro compendio de temas estudiados.docx
 
Tipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de DatosTipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de Datos
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .
 
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docx
 
Desarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - EstradaDesarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - Estrada
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).
 
Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.
 
Chat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaChat GPT para la educación Latinoamerica
Chat GPT para la educación Latinoamerica
 
Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
 
De Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxDe Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptx
 
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxTipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
 
el uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptxel uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptx
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicial
 

Big Data Architecture con Pentaho

  • 1. www.datalytics.com 18D – Pentaho Big Data Architecture
  • 2. Un punto de inflexión LOS DATOS SE 40 DUPLICAN CADA 2 AÑOS 80% 35 DE LA INFORMACIÓN ES NO 30 ESTRUCTURADA (Gartner, December 2011) 25 ZB 20 15 LAS EMPRESAS MANEJARÁN 10 50X MÁS DATOS 5 EN LA PRÓXIMA DÉCADA 2005 2010 2015 2020 (IDC Digital Universe Study, June 2011) 0 (IDC Digital Universe Study, June 2011) “El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y para almacenar, administrar, manipular, analizar, e integrar datos. ” J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
  • 3. Qué es Big Data?  Big Data es el nombre que se le da a conjuntos de información que crecen de una manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con métodos o técnicas tradicionales del mundo de base de datos relacionales.  Big Data son tres V’s y una C:  Velocidad: los datos se generan a un ritmo exponencial.  Volumen: la irrupción de Big Data dejó en el pasado el Terabyte para hablar de Petabytes y Zetabytes.  Variedad: datos estructurados y no estructurados, proveniente de la web 2.0, sensores, logs, etc.  Complejidad: volumen de datos tal que no permite procesarlo con técnicas tradicionales
  • 4. De dónde viene?  Información transaccional  Operaciones bancarias  Servicios financieros, portales de bolsa  Tiendas virtuales / e-commerce  La nube  World Wide Web / Blogs  Redes sociales: Twitter, Facebook, LinkedIn  Machine-generated data (MGD)  Weblogs  Centrales telefónicas  Sensores de todo tipo  Logs de aplicaciones
  • 5. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Big Data  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 6. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Big Data  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 7. Bases de datos Transaccionales  Utilizadas en la mayoría de las empresas en la actualidad Atomicidad  Motores transaccionales, diseñados y desarrollados para soportar transacciones y trabajar con pocos registros por operación. Durabilidad Consistencia  Las soluciones de Business Intelligence involucran cientos de miles (e inclusive millones) de registros en una única Isolación operación, y deben responder en un tiempo adecuado.  Las bases de datos transaccionales no fueron diseñadas para responder a consultas analíticas sobre grandes volúmenes de información.  La irrupción de Big Data comienza a dejar en evidencia estas falencias, debiendo utilizar complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de desarrollo y mantenimiento, obteniendo tiempos
  • 8. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Big Data  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 9. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Big Data  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 10. Bases de datos NoSQL  Distintos tipos de bases para distintos tipos de aplicaciones: documentales, grafos, clave/valor, orientadas a objetos, tabulares, …  Características  SQL: Sin (o muy poco) soporte para SQL.  Datos accedidos a través de programas Java, no consultas  ACID: Sin integridad referencial, poco soporte transaccional  Definición de estructuras de datos flexibles (sobre la marcha)  Beneficios  Facilidad de escalamiento horizontal (clusters baratos)  Almacenamiento de grandes volúmenes (no generan cuellos de botella)  Excelentes para lecturas masivas de registros tipo clave/valor.
  • 11. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Big Data  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 12. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Big Data  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 13. Bases de datos Analíticas  Bases de datos diseñadas específicamente para ser utilizadas como motores de Data Warehouse.  Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:  Almacenamiento en columnas en lugar de filas (registros)  Massively parallel processing (MPP)  In-Memory Analytics  Históricamente estas bases de datos tan especializadas tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organización.
  • 14. Presentando a  Infobright es una compañía que desarrolla un motor de base de datos analítico orientada a columnas de alta performance que entrega rápidos tiempos de respuesta a consultas ad- hoc sobre grandes volúmenes de información (BIG DATA) con mínimo esfuerzo de administración, mantenimiento y costo de propiedad.  Fundada en 2006, Infobright tiene HQ en Toronto (Canadá) y cuenta con oficinas en Boston (USA), Irlanda y Polonia.  A diferencia de otras bases analíticas, la mejor performance de Infobright esta basada en modelos matemáticos, no en hardware.  Modelo de negocios “Try & Buy” basado en una versión Enterprise (Infobright Enterprise Edition, IEE) y una versión Open Source (Infobright Community Edition, ICE).  Socio tecnológico de varias empresas de BI como MicroStrategy, Pentaho, Informática, etc.  Base de clientes en aumento, incluyendo empresas como Yahoo!, Xerox, Bwin, etc.
  • 15. Características de Infobright  Base de datos columnar orientada al análisis de información  Excelente performance:  Análisis ad-hoc de grandes volúmenes de información  Tiempos de carga de 2TB/hour  Tasas de compresión de 10:1 a 40:1 (o aún más)  Fácil administración e implementación:  Elimina la necesidad de mantener índices, tablas particionadas, tablas agregadas, etc  Auto-tunning: la base va “aprendiendo” de las consultas que recibe  Se instala en minutos, y no tiene grandes requisitos de HW  Basada en arquitectura MySQL (BD más utilizada en el mundo)  Es una base relacional, por lo que dialoga SQL  Modelo de suscripción Low Cost
  • 16. Y por qué resulta mejor para BI? Base de datos Potencia basada en Administración orientada a inteligencia, no en simplificada columnas Hardware Diseñada para No existe el Knowledge Grid análisis de datos tuning manual Tareas de Excelente tasa de Motor iterativo administración compresión mínimas
  • 17. Almacenamiento en columnas, no filas ID Tarea Departamento Ciudad 1 Envío Operaciones Medellín # 2 Recepción Operaciones Medellín # 3 Registración Finanzas Bogotá # # El almacenamiento en filas sirve si… # #  Todas las columnas son necesarias  Por ejemplo, el detalle de una compra de supermercado  Ideal para un mundo transaccional donde usualmente se necesita todo el detalle de una entidad Almacenamiento en Columnas El almacenamiento en columnas sirve si…  Sólo se requieren algunas columnas para el análisis 1 Envío Operaciones Medellín  Por ejemplo, el total vendido del producto X en cada una de las sucursales en los últimos 3 meses. 2 Recepción Operaciones Medellín  Información consolidada (sumas, cantidades, 3 Registración Finanzas Bogotá promedios, …)  Ideal para un mundo analítico, donde la información se concentra en métrica de distintas entidades
  • 18. Almacenamiento en filas vs. columnas 30 columnas Ejemplo de aplicación:  50 días con información; 30 columnas/variables por cada registro; un millón de registros por cada día  El acceso a disco es un problema  El almacenamiento en filas 50 millones de registros obliga a recuperar la información de todas las columnas  Al incrementarse el tamaño de la tabla, se incrementan los índices  La velocidad de carga se degrada dado que los índices deben recrearse al incorporarse nuevos datos
  • 19. Almacenamiento en filas vs. columnas 30 columnas Objetivo: obtener el total de ventas de una semana del año.  La consulta SQL sería algo como: Select sum(ventas) from tabla where semana = X 50 millones de registros Día de la semana Venta diaria
  • 20. Almacenamiento en filas vs. columnas 30 columnas Utilizando un esquema de almacenamiento en filas (esquema tradicional)  Se recorren 7 millones de registros (un millón por cada día)  Para acceder a un valor en 50 millones de registros particular (el valor de la Día de la semana venta) es necesario leer las Venta diaria 30 columnas, aún cuando Información recuperada para el cálculo no tengan información (210 millones de variables!) relevante.  Se procesan TODAS las columnas (210 millones, 30 x 7), y se DESCARTAN TODAS MENOS una.  Es decir se procesó un 93% más de información.
  • 21. Almacenamiento en columnas, no filas Utilizando un esquema de almacenamiento en columnas (esquema utilizado por Infobright)  Se recorren 7 millones de registros (un millón por cada día) 50 millones de registros  Se procesan sólo las 2 Día de la semana Venta diaria columnas necesarias: día y venta diaria.  Es decir, sólo se procesa la información necesaria.  La inteligencia está en la forma de almacenamiento y en el algoritmo usado para 93% menos de información extraer los datos. recuperada!
  • 22. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Big Data  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 23. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Big Data  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 24. Hadoop (HDFS, Map/Reduce, Hive, Pig, …)  Origen (Google): cómo hacer para indexar la web sin morir en el intento?  Solución: arquitectura masivamente paralela, que incluye un sistema de archivos y un esquema de procesamiento distribuido.  Permite almacenar y procesar grandes volúmenes de cualquier tipo de información  Ideal para:  Grandes volumenes de datos no estructurados que no cuadran en bases de datos transaccionales o NoSQL  Emails, tweets, imágenes, logs, videos, …  Hadoop = Almacenamiento + procesamiento (consultas) HDFS + programas Map/Reduce (Java)
  • 25. Ejemplo: Map/Reduce Cuantas veces aparece la palabra Datalytics en Contá las Archivo.txt? repeticiones de Datalytics en el Bloque C (*) (*) (*) Cantidad = 3 Cantidad = 0 Cantidad = 11 Archivo.txt (*) Deben programarse en Java! 
  • 26. Ejemplo: Map/Reduce Sumá “Datalytics” Resultados.txt (*) (Datalytics = 14) Datalytics =0 (*) (*) (*) (*) Deben programarse en Java! 
  • 27. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas Big Data de negocio que requieran de grandes volúmenes de información.  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.
  • 28. Tipos de bases de datos  El concepto de base de datos que utilizábamos hasta hace 2 años cambió  Distintos tipos de bases de datos, para distintos tipos de necesidades.  Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)  NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas Big Data de negocio que requieran de grandes volúmenes de información.  Hadoop (HDFS & Hive): para almacenar y procesar grandes volúmenes de información estructurada o semi-estructurada.  Desafíos…  Son de distintos vendedores y no están integradas  Estos tipos de DB’s se utilizan por lo general en conjunto  Se utilizan y administran de distinta manera; utilizan distintos lenguajes: no SQL!  Dependencia de sistemas: vuelta a las raíces?
  • 29. Tipos de bases de datos
  • 30. Tipos de bases de datos
  • 31. Integración con Big Data Fuentes de Repositorios BIG DATA BIG DATA DATOS ESTRUCTURADOS Hadoop CRM, POS, ERP, etc. DATOS NO ESTRUCTURADOS NoSQL Databases Cargar Manipular & Transformar Integrar Analytic Acceso Databases Modelado
  • 32. Integración con Big Data Integración, Enterprise & Ad Hoc Data Discovery, Manipulaciónn & Carga Reporting Visualización Análisis predictivo Hadoop NoSQL Analíticas
  • 33. Integración con Big Data Pasar de un desarrollo lento, complejo y permeable a errores
  • 34. Integración con Big Data Desarrollo visual, hecho por el area de BI
  • 35. Integración con Big Data  Pentaho reduce drásticamente el tiempo para diseñar, desarrollar e implementar soluciones de Big Data llegando a ser hasta 15 veces más rápido  Desarrollo 100% visual, 0% programación Java  Procesos de análisis simplificado de punta a punta  Plataforma completa, desde la extracción hasta las herramientas de análisis.  Alta performance, incluyendo capacidad de ejecución dentro de Hadoop.
  • 36. Integración con Big Data  Pentaho reduce drásticamente el tiempo para diseñar, desarrollar e implementar soluciones de Big Data llegando a ser hasta 15 veces más rápido  Toda la solución (ETL, cubos, reportes) se conecta con las distribuciones más importantes de Hadoop y las principales bases NoSQL y Analíticas  Lenguaje visual unificado para todos los desarrollos  Cargar/extraer archivos de Hadoop en un cluster local, en la nube, …  Ejecutar desde PDI jobs de Map/Reduce o scripts en Pig desarrollados en PDI o Java dentro del cluster  Integrar los distintos motores DB’s sin perder el foco en el usuario y en BI
  • 37. Ejecución dentro del cluster Hadoop PDI está desarrollado en Java: puede ejecutarse dentro del cluster de Hadoop Desarrollo fácil, misma performance
  • 38. Enfoque tradicional vs. Pentaho Ejecutivos Explo- ración Usuario final Predi- Analistas cción Mode- DM / DW IT/DBA lado Extracción/Carga Transformación Programadores 0 5 10 15 20 25 30 35 Días Enfoque tradicional
  • 39. Arquitectura de solución Structured Data Column Store or MPP Database Dashboard PDI PDI PDI Semi-structured Data PDI PDI Metadata Report PDI PDI PDI Analyzer Pentaho Data Integration Pentaho Data Integration Carga Limpieza / Enriquecimiento Paseo / Validación / Consolidación Administración de dimensiones Workflow Carga masiva a DB’s Workflow
  • 40. Instaview: acceso rápido a fuentes complejas  Sencillo, orientado al usuario final  Herramienta desktop para analistas de negocio  Simplifica drásticamente el acceso a fuentes de información “Complejas” (Hadoop, NoSQL, 1. Selección de fuente de información fuentes de tiempo real, …)  Big Data Analytics  Permite al analista acceder a fuentes de tiempo real o complejas enmascarando la complejidad subyacente. 2. Preparado automático para análisis  Analistas consultan su información sin intermediarios. 3. Visualización y exploración interactiva
  • 41. Data Quality  PDI cuenta con un plugin que permite realizar tareas avanzadas de Data Quality, incluyendo:  Data Profiling: análisis de la calidad de la información.  Data Cleaning: limpieza de la información.  Data Monitoring: monitoreo y análisis de la evolución de la calidad de la información.