Webinar: Self-service Analytics con Virtualización de Datos

Anastasio Molano, Senior VP, Denodo
Julio 2018
Self-Service Analytics con
virtualización de datos

Agenda1. La promesa de la analítica “Self-Service” y su
realidad
2. Cómo construir una arquitectura que soporte la
analítica “Self-Service”
3. El catálogo de datos para descubrimiento y
exploración de los datos
4. Q&A
5. Next Steps
2

La promesa de la analítica “Self-
Service” y su realidad

4
La promesa de las iniciativas self-service
• Permite a los usuarios acceder a los datos que necesitan y evita que IT sea
un obstáculo
• Gracias a ello un mayor número de usuarios en la organización puede
beneficiarse del acceso a los datos: “Business users”, “Citizen analysts”,
“data scientists”, etc.
• El tiempo de acceso a la información es mucho menor al no depender de IT

5
Origen de las iniciativas self-service
• La primera corriente de iniciativas
self-service fue impulsada por "IT en
la sombra" y las hojas de cálculo
• Más recientemente, con el uso de
herramientas de analítica de
escritorio y de preparación de datos
• Tableau, Qlik, Trifacta…
• Pero ¿funcionan en la práctica estas
iniciativas?

6
La realidad de las iniciativas “Self-Service”
• Recientes estudios muestran la efectividad real del las iniciativas Self-Service:
• Más de un 60% de las organizaciones puntúan su experiencia con las
iniciativas Self-Service como “medias” o “bajas” [InsideAnalysis].
• Acaban produciendo un mayor número de peticiones de datos a IT ya que la
comunidad de usuarios es ahora mayor [InsideAnalysis]
• La inconsistencia de los informes (“report chaos”) puede minar estas
iniciativas [Inside Analysis]
• Los usuarios de negocio y los científicos de datos utilizan más de un 80% de
su tiempo en tareas de descubrimiento, acceso e integración de datos
[Forbes]

7
Rob van der Meulen, Gartner
Gartner predice que, en 2018, la mayoría de los usuarios de negocio
tendrán acceso a herramientas self-service, pero que sólo una de cada 10
iniciativas estará lo suficientemente bien gestionada como para evitar
incoherencias entre los datos que afecten negativamente al negocio.

8
¿Cuál es el principal problema de las iniciativas “Self-Service”?
• Para que las herramientas de “Self-Service” (herramientas BI, de preparación de
datos, etc.) sean efectivas IT tiene que haber creado previamente repositorios de
datos “curados” con información completamente integrada:
• Las tablas se corresponden con entidades de negocio
• Los nombres de las columnas siguen convenciones de negocio
• Todos los datos has sido centralizados en un único repositorio
• Sólo IT tiene la capacidad de crear tales repositorios de información curada y pre-
integrada.
• Repositorios origen muy heterogéneos en cuando a modelos de
representación de datos, protocolos de acceso, convenciones de nombrado,
etc.

Cómo construir una arquitectura
que soporte la analítica “Self-
Service”

10
Una arquitectura Self-Service basada en virtualización de datos
Sources
2. Data
Model
Combine,
Transform
&
Semantics
3. Publish
1. Source
Abstraction
Consuming Applications
4.Dev/Ops

11
1. Capa de abstracción de datos
Abstrae el acceso a fuentes dispersas de
datos en tiempo real
Actúa como un único repositorio de datos
virtual
Abstrae complejidades de acceso como la
localización, formato o el protocolo de
acceso
Oculta la complejidad de los datos y simplifica el acceso para los usuarios de negocio

12
2. Capa semántica de datos
Entidades de Negocio y Vistas Pre-integradas para Informes
Modelos de datos amigables
desacoplados de los modelos de las
fuentes origen
Multiple vistas de datos adaptadas a cada
usuario(s) de negocio (“virtual data
marts”)
Combinación y federación de datos
distribuidos en diferentes fuentes con
optimización de consultas avanzada
Transformación de datos “en línea” para
homogeneizar formatos

13
3. Flexibilidad de publicación de datos
SQL para aplicaciones, informes,
dashboards: JDBC, ODBC and ADO.NET
Data Services: SOAP, REST, OData
Catálogo de Datos para la exploración y
descubrimiento de los datos
Búsqueda basada en “keywords”
mediante integración nativa con Lucene y
ElasticSearch
Múltiples opciones para adaptarnos a las necesidades del consumidor

14
4. Gobierno y seguridad centralizada
Capa de Seguridad Unificada con autenticación y
autorización de accesos
Soporte para LDAP, Kerberos, SAML, OAuth, etc.
Gobierno de datos unificado con trazabilidad
complete de los datos, análisis de impacto ante
cambios, etc.
Auditoría: trazabilidad completa de accesos para
iniciativas de Compliance y gestion de la privacidad
(e.g. GDPR).
Simplifica la gestion de la seguridad, la privacidad y la auditoría

15
DATA CONSUMERS
DISPARATE DATA SOURCES
SQL Queries
(JDBC, ODBC, ADO.NET)
Web Services
(SOAP, REST, OData)
Web-based catalog
& search
Secure delivery
(SSL/TLS)
DATA CONSUMERS
MPP Processing
Relational and MPP
Cache
Corporate Security
Monitoring &
Auditing
Metadata
Repository
Execution
Engine &
Optimizer
Architectura de la Plataforma Denodo
DATA VIRTUALIZATION

16
La virtualización de datos en acción
Sources
Combine,
Transform
&
Integrate
Publish
Base View
(Source
Abstraction)Client Address Client
Type
Company Invoicing Service
Usage
Product Logs Web
Incidents
Customer Invoice Product
Customer Invoicing
Service Usage Incident
Hadoop Web SiteRest
Web Service
MultidimensionalSalesforceSQL ServerOracle
SQL, SOAP, REST, ODATA, etc. Denodo’s Information Self Service

17
Connectivity Layer
Integration Layer
Business Entities Layer
Application Layer
Web Services Layer
Vistas de datos en la capa de virtualización

18
Analítica self-service con virtualización de datos
Citizen analysts
acceden a las
vistas virtuales
publicadas por
IT
Enterprise
Systems
Hadoop
E
T
L
Enterprise
Data Warehouse
NoSQL
Data Virtualization
IT crea repositorios virtuales para
cada unidad de negocio, curados,
Pre-integrados y gobernados.
Business Users
acceden a los
datos pre-
integrados por
IT
Data Scientists
acceden a vistas
sobre los datos
en crudo para
análisis con ML,
etc.

19
Self-service con virtualización de datos
• Colaboración entre IT y los usuarios de negocio
• IT crea repositorios virtuales de datos preintegrados y precalculados
 Evita al usuario tener que hacerlo por sí mismo
 Garantiza la coherencia de cálculos, etc.
• Los usuarios de negocio pueden consumir dichos datos, crear nuevas vistas y
solicitar a IT su “operacionalización” si las ven interesantes
• IT gobierna la capa de provisión de datos
• Seguridad de Acceso (autorizaciones, etc.), Gestión de la carga sobre las fuentes, etc.

20
Self-service con virtualización de datos (II)
• Mediante la Virtualización de Datos IT puede crear fácilmente repositorios virtuales para
diferentes comunidades de usuarios:
• Las vistas de datos ofrecen una interfaz amigable a los usuarios de negocio:
• Sus nombres se corresponden con entidades de negocio con sentido para los usuarios (e.g. “Cuenta”,
“Lead”, “Factura”, etc.)
• Los campos son nombrados siguiendo convenciones de negocio, etc.
• IT puede preparar diferentes repositorios virtuales sobre los mismos datos físicos:
• E.g. El Departamento de Finanzas requiere una visión de datos diferente al de Ventas (e.g. para Ventas
un cliente es “Cliente” para Finanzas es “Cuenta”)
• Evita tener que crear repositorios físicos para cada unidad de negocio con su complejidad y costes asociados
• Toda la complejidad de acceso a los repositorios origen y la integración de los datos es gestionada por IT
• Los usuarios pueden generar sus propias vistas sobre las ya proporcionadas por IT, compartirlas y solicitar su
“operacionalización” a IT

21
Algunas normas sencillas…
1. Hay usuarios de muchos tipos
 ¿Quiénes son? ¿Qué datos necesitan? ¿Qué flexibilidad desean?
2. Conectarse a todos los datos (pero empezar con los más importantes)
 ¿Qué datos necesitan los usuarios? ¿Acceso libre o preagregado y precalculado?
3. Usar el idioma que entiende el negocio
 p. ej. para Finanzas es una "cuenta", pero para Atención al cliente es un "cliente".
No obligar a las personas a cambiar su terminología… Apoyar numerosos mapeos
semánticos (al idioma del consumidor)

22
Self-service con protección (“sobre raíles”)
• IT puede aplicar diferentes reglas de gobierno en
función de las comunidades de usuarios, distintos
dominios de confianza (“Trust Domains”):
 Reglas estrictas de gobierno para los usuarios de
negocio (evitar brechas de acceso de seguridad,
inconsistencia de los informes, etc.)
 Reglas más ligeras para los usuarios avanzados (“Citizen
Analysts”, “Data Scientists”, etc.) – “Cowboys de los
datos”
 E.g. Acceso a data sets en crudo a través de la capa
de virtualización pero siempre gestionado por IT

El catálogo de datos para ayudar a los
usuarios a descubrir y acceder a los
datos

24
¿Por qué un catálogo de datos?
Directorio empresarial de datasets disponibles para
consumo por usuarios de negocio y desarrolladores de
aplicaciones
Descubrir los datasets relevantes para una necesidad
particular y entender los datos que se proporcionan en los
mismos
Adaptar los datos para uso personal (“Customization”)
La capa de provisión de datos de Denod + el Data Catalog
proporcionan un auténtico “Data Marketplace” para el
negocio
Expone los datasets disponibles a usuarios de negocio y a desarrolladores

25
Catálogo para la provision de datos
Guarantiza que la información sobre los datasets está
totalmente actualizada y que los mismos pueden ser
accedidos por los usuariso
Acceso a todos los metadatos y también a los datos:
 Crucial para el descubrimiento de los datos
 Customization / preparación final para uso personal
Contextualiza el uso de los datasets:
 Quién usa qué y cuándo
 Qué datasets se utilizan conjuntamente
 Métricas de relevancia y de viveza de los datos
Catalogo de Datos ligado a la infraestructura de provision de Datos de Denodo

26
El rol del catálogo de datos
Catálogo de Vistas y Web Services
 Classifica las vistas existentes y los servicios Web utilizando categorías y
etiquetas de negocio
 Navegación y búsqueda sobre los metadatos y los datos utilizando multiples
criterios
 Permite visualizar las descripciones de los datasets, las relaciones entre los
mismos y la trazabilidad de los datos (data lineage)
 Ofrece información sobre el uso de los datos

28
Denodo Data Catalog: Business Categories

29
Denodo Data Catalog: Tagging

30
Denodo Data Catalog: Relationships

31
Denodo Data Catalog: Data Lineage

32
Pre-visualizar y encontrar datos
 Visualizar rápidamente los datos, tanto los metadatos como los contenidos
en sí
 Búsqueda semántica sobre el contenido:
 Patrones de búsqueda, similitud, búsqueda difusa, búsqueda por
proximidad, etc.
 Integración nativa con tecnología de indexación Lucene; también se
soporta Elastic Search para máxima escalabilidad

33
Denodo Data Catalog: Content Search

34
Preparación de los Datos
 Generar datos adaptados a cada usuario mediante Wizards de
transformación y combinación gráficos
 No es necesario conocimientos de SQL por parte del usuario
 Salvar “My queries” para uso personal y para colaboración con
otros usuarios
 Proponer nuevas entidades estándar de uso general mediante
su volcado a una base de datos virtual compartida con IT para su
revisión

35
Denodo Data Catalog: Data Preparation

36
Denodo Data Catalog: Save and Share

Indiana University – “Decision Support Initiative”
• Universidad del Estado de Indiana con multiples campus en el Estado
 110,000 estudiantes, 8,700 profesores, 9 campus
• Objetivo DSI: “To provide timely, relevant, and accurate data to decision makers
within the University system”
• Portal DSI que proporciona un ‘one stop shop’ para datos clave
 Datasets preparados para los
 Acceso en función de los roles
 Capa de provision de datos basada en Denodo Platform
• http://dsi.iu.edu
• Un auténtico “Data Marketplace”: https://ds.iu.edu/store
38

39
Indiana University – Decision Support Initiative

40
Indiana University – Decision Support Initiative

Demo
Cómo acelerar las iniciativas de self-service con un modelo
semántico universal

42
Resumen – Ideas clave
• El modelo semántico universal ofrece una visión común y coherente de los datos en
toda una organización
 No más discusiones sobre las fuentes y la veracidad de los datos 
• La virtualización de datos permite construir un modelo semántico flexible de forma
rápida y sencilla
 Constituye una plataforma para el self-service con protección
 Respalda tanto a “cowboys de datos“ como a usuarios de negocio habituales
• Acelera las iniciativas self-service (no más silos de análisis) conservando el control y
la gobernanza

Next steps
Descargar Denodo Express:
www.denodoexpress.com
Acceder a la plataforma Denodo en AWS:
www.denodo.com/en/denodo-platform/denodo-
platform-for-aws

Webinar: Self-service Analytics con Virtualización de Datos

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Webinar: Self-service Analytics con Virtualización de Datos

Similar to Webinar: Self-service Analytics con Virtualización de Datos (20)

More from Denodo

More from Denodo (20)

Recently uploaded

Recently uploaded (20)

Webinar: Self-service Analytics con Virtualización de Datos