Ver el webinar en completo aquí: https://goo.gl/dwGxLe
Los datos son una herramienta poderosa, pero a veces están fuera del alcance de las personas que más los necesitan. Con Self-service Analytics (Analítica de autoservicio) los usuarios de negocio pueden generar sus propios informes, ejecutar sus consultas y dirigir sus análisis sin depender siempre del personal de IT.
Pero las iniciativas self-service solo resultan eficaces cuando las visiones de los datos son holísticas y coherentes en distintas áreas de la empresa gracias a un Modelo Semántico Universal.
En este webinar explicamos la virtualización de datos elimina la brecha entre IT y Negocio y pone los datos al alcance de los usuarios que los necesitan sin comprometer la seguridad y la protección de la información.
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Webinar: Self-service Analytics con Virtualización de Datos
1. Anastasio Molano, Senior VP, Denodo
Julio 2018
Self-Service Analytics con
virtualización de datos
2. Agenda1. La promesa de la analítica “Self-Service” y su
realidad
2. Cómo construir una arquitectura que soporte la
analítica “Self-Service”
3. El catálogo de datos para descubrimiento y
exploración de los datos
4. Q&A
5. Next Steps
2
3. La promesa de la analítica “Self-
Service” y su realidad
4. 4
La promesa de las iniciativas self-service
• Permite a los usuarios acceder a los datos que necesitan y evita que IT sea
un obstáculo
• Gracias a ello un mayor número de usuarios en la organización puede
beneficiarse del acceso a los datos: “Business users”, “Citizen analysts”,
“data scientists”, etc.
• El tiempo de acceso a la información es mucho menor al no depender de IT
5. 5
Origen de las iniciativas self-service
• La primera corriente de iniciativas
self-service fue impulsada por "IT en
la sombra" y las hojas de cálculo
• Más recientemente, con el uso de
herramientas de analítica de
escritorio y de preparación de datos
• Tableau, Qlik, Trifacta…
• Pero ¿funcionan en la práctica estas
iniciativas?
6. 6
La realidad de las iniciativas “Self-Service”
• Recientes estudios muestran la efectividad real del las iniciativas Self-Service:
• Más de un 60% de las organizaciones puntúan su experiencia con las
iniciativas Self-Service como “medias” o “bajas” [InsideAnalysis].
• Acaban produciendo un mayor número de peticiones de datos a IT ya que la
comunidad de usuarios es ahora mayor [InsideAnalysis]
• La inconsistencia de los informes (“report chaos”) puede minar estas
iniciativas [Inside Analysis]
• Los usuarios de negocio y los científicos de datos utilizan más de un 80% de
su tiempo en tareas de descubrimiento, acceso e integración de datos
[Forbes]
7. 7
Rob van der Meulen, Gartner
Gartner predice que, en 2018, la mayoría de los usuarios de negocio
tendrán acceso a herramientas self-service, pero que sólo una de cada 10
iniciativas estará lo suficientemente bien gestionada como para evitar
incoherencias entre los datos que afecten negativamente al negocio.
8. 8
¿Cuál es el principal problema de las iniciativas “Self-Service”?
• Para que las herramientas de “Self-Service” (herramientas BI, de preparación de
datos, etc.) sean efectivas IT tiene que haber creado previamente repositorios de
datos “curados” con información completamente integrada:
• Las tablas se corresponden con entidades de negocio
• Los nombres de las columnas siguen convenciones de negocio
• Todos los datos has sido centralizados en un único repositorio
• Sólo IT tiene la capacidad de crear tales repositorios de información curada y pre-
integrada.
• Repositorios origen muy heterogéneos en cuando a modelos de
representación de datos, protocolos de acceso, convenciones de nombrado,
etc.
10. 10
Una arquitectura Self-Service basada en virtualización de datos
Sources
2. Data
Model
Combine,
Transform
&
Semantics
3. Publish
1. Source
Abstraction
Consuming Applications
4.Dev/Ops
11. 11
1. Capa de abstracción de datos
Abstrae el acceso a fuentes dispersas de
datos en tiempo real
Actúa como un único repositorio de datos
virtual
Abstrae complejidades de acceso como la
localización, formato o el protocolo de
acceso
Oculta la complejidad de los datos y simplifica el acceso para los usuarios de negocio
12. 12
2. Capa semántica de datos
Entidades de Negocio y Vistas Pre-integradas para Informes
Modelos de datos amigables
desacoplados de los modelos de las
fuentes origen
Multiple vistas de datos adaptadas a cada
usuario(s) de negocio (“virtual data
marts”)
Combinación y federación de datos
distribuidos en diferentes fuentes con
optimización de consultas avanzada
Transformación de datos “en línea” para
homogeneizar formatos
13. 13
3. Flexibilidad de publicación de datos
SQL para aplicaciones, informes,
dashboards: JDBC, ODBC and ADO.NET
Data Services: SOAP, REST, OData
Catálogo de Datos para la exploración y
descubrimiento de los datos
Búsqueda basada en “keywords”
mediante integración nativa con Lucene y
ElasticSearch
Múltiples opciones para adaptarnos a las necesidades del consumidor
14. 14
4. Gobierno y seguridad centralizada
Capa de Seguridad Unificada con autenticación y
autorización de accesos
Soporte para LDAP, Kerberos, SAML, OAuth, etc.
Gobierno de datos unificado con trazabilidad
complete de los datos, análisis de impacto ante
cambios, etc.
Auditoría: trazabilidad completa de accesos para
iniciativas de Compliance y gestion de la privacidad
(e.g. GDPR).
Simplifica la gestion de la seguridad, la privacidad y la auditoría
15. 15
DATA CONSUMERS
DISPARATE DATA SOURCES
SQL Queries
(JDBC, ODBC, ADO.NET)
Web Services
(SOAP, REST, OData)
Web-based catalog
& search
Secure delivery
(SSL/TLS)
DATA CONSUMERS
MPP Processing
Relational and MPP
Cache
Corporate Security
Monitoring &
Auditing
Metadata
Repository
Execution
Engine &
Optimizer
Architectura de la Plataforma Denodo
DATA VIRTUALIZATION
16. 16
La virtualización de datos en acción
Sources
Combine,
Transform
&
Integrate
Publish
Base View
(Source
Abstraction)Client Address Client
Type
Company Invoicing Service
Usage
Product Logs Web
Incidents
Customer Invoice Product
Customer Invoicing
Service Usage Incident
Hadoop Web SiteRest
Web Service
MultidimensionalSalesforceSQL ServerOracle
SQL, SOAP, REST, ODATA, etc. Denodo’s Information Self Service
18. 18
Analítica self-service con virtualización de datos
Citizen analysts
acceden a las
vistas virtuales
publicadas por
IT
Enterprise
Systems
Hadoop
E
T
L
Enterprise
Data Warehouse
NoSQL
Data Virtualization
IT crea repositorios virtuales para
cada unidad de negocio, curados,
Pre-integrados y gobernados.
Business Users
acceden a los
datos pre-
integrados por
IT
Data Scientists
acceden a vistas
sobre los datos
en crudo para
análisis con ML,
etc.
19. 19
Self-service con virtualización de datos
• Colaboración entre IT y los usuarios de negocio
• IT crea repositorios virtuales de datos preintegrados y precalculados
Evita al usuario tener que hacerlo por sí mismo
Garantiza la coherencia de cálculos, etc.
• Los usuarios de negocio pueden consumir dichos datos, crear nuevas vistas y
solicitar a IT su “operacionalización” si las ven interesantes
• IT gobierna la capa de provisión de datos
• Seguridad de Acceso (autorizaciones, etc.), Gestión de la carga sobre las fuentes, etc.
20. 20
Self-service con virtualización de datos (II)
• Mediante la Virtualización de Datos IT puede crear fácilmente repositorios virtuales para
diferentes comunidades de usuarios:
• Las vistas de datos ofrecen una interfaz amigable a los usuarios de negocio:
• Sus nombres se corresponden con entidades de negocio con sentido para los usuarios (e.g. “Cuenta”,
“Lead”, “Factura”, etc.)
• Los campos son nombrados siguiendo convenciones de negocio, etc.
• IT puede preparar diferentes repositorios virtuales sobre los mismos datos físicos:
• E.g. El Departamento de Finanzas requiere una visión de datos diferente al de Ventas (e.g. para Ventas
un cliente es “Cliente” para Finanzas es “Cuenta”)
• Evita tener que crear repositorios físicos para cada unidad de negocio con su complejidad y costes asociados
• Toda la complejidad de acceso a los repositorios origen y la integración de los datos es gestionada por IT
• Los usuarios pueden generar sus propias vistas sobre las ya proporcionadas por IT, compartirlas y solicitar su
“operacionalización” a IT
21. 21
Algunas normas sencillas…
1. Hay usuarios de muchos tipos
¿Quiénes son? ¿Qué datos necesitan? ¿Qué flexibilidad desean?
2. Conectarse a todos los datos (pero empezar con los más importantes)
¿Qué datos necesitan los usuarios? ¿Acceso libre o preagregado y precalculado?
3. Usar el idioma que entiende el negocio
p. ej. para Finanzas es una "cuenta", pero para Atención al cliente es un "cliente".
No obligar a las personas a cambiar su terminología… Apoyar numerosos mapeos
semánticos (al idioma del consumidor)
22. 22
Self-service con protección (“sobre raíles”)
• IT puede aplicar diferentes reglas de gobierno en
función de las comunidades de usuarios, distintos
dominios de confianza (“Trust Domains”):
Reglas estrictas de gobierno para los usuarios de
negocio (evitar brechas de acceso de seguridad,
inconsistencia de los informes, etc.)
Reglas más ligeras para los usuarios avanzados (“Citizen
Analysts”, “Data Scientists”, etc.) – “Cowboys de los
datos”
E.g. Acceso a data sets en crudo a través de la capa
de virtualización pero siempre gestionado por IT
23. El catálogo de datos para ayudar a los
usuarios a descubrir y acceder a los
datos
24. 24
¿Por qué un catálogo de datos?
Directorio empresarial de datasets disponibles para
consumo por usuarios de negocio y desarrolladores de
aplicaciones
Descubrir los datasets relevantes para una necesidad
particular y entender los datos que se proporcionan en los
mismos
Adaptar los datos para uso personal (“Customization”)
La capa de provisión de datos de Denod + el Data Catalog
proporcionan un auténtico “Data Marketplace” para el
negocio
Expone los datasets disponibles a usuarios de negocio y a desarrolladores
25. 25
Catálogo para la provision de datos
Guarantiza que la información sobre los datasets está
totalmente actualizada y que los mismos pueden ser
accedidos por los usuariso
Acceso a todos los metadatos y también a los datos:
Crucial para el descubrimiento de los datos
Customization / preparación final para uso personal
Contextualiza el uso de los datasets:
Quién usa qué y cuándo
Qué datasets se utilizan conjuntamente
Métricas de relevancia y de viveza de los datos
Catalogo de Datos ligado a la infraestructura de provision de Datos de Denodo
26. 26
El rol del catálogo de datos
Catálogo de Vistas y Web Services
Classifica las vistas existentes y los servicios Web utilizando categorías y
etiquetas de negocio
Navegación y búsqueda sobre los metadatos y los datos utilizando multiples
criterios
Permite visualizar las descripciones de los datasets, las relaciones entre los
mismos y la trazabilidad de los datos (data lineage)
Ofrece información sobre el uso de los datos
32. 32
El rol del catálogo de datos
Pre-visualizar y encontrar datos
Visualizar rápidamente los datos, tanto los metadatos como los contenidos
en sí
Búsqueda semántica sobre el contenido:
Patrones de búsqueda, similitud, búsqueda difusa, búsqueda por
proximidad, etc.
Integración nativa con tecnología de indexación Lucene; también se
soporta Elastic Search para máxima escalabilidad
34. 34
El rol del catálogo de datos
Preparación de los Datos
Generar datos adaptados a cada usuario mediante Wizards de
transformación y combinación gráficos
No es necesario conocimientos de SQL por parte del usuario
Salvar “My queries” para uso personal y para colaboración con
otros usuarios
Proponer nuevas entidades estándar de uso general mediante
su volcado a una base de datos virtual compartida con IT para su
revisión
38. Indiana University – “Decision Support Initiative”
• Universidad del Estado de Indiana con multiples campus en el Estado
110,000 estudiantes, 8,700 profesores, 9 campus
• Objetivo DSI: “To provide timely, relevant, and accurate data to decision makers
within the University system”
• Portal DSI que proporciona un ‘one stop shop’ para datos clave
Datasets preparados para los
Acceso en función de los roles
Capa de provision de datos basada en Denodo Platform
• http://dsi.iu.edu
• Un auténtico “Data Marketplace”: https://ds.iu.edu/store
38
42. 42
Resumen – Ideas clave
• El modelo semántico universal ofrece una visión común y coherente de los datos en
toda una organización
No más discusiones sobre las fuentes y la veracidad de los datos
• La virtualización de datos permite construir un modelo semántico flexible de forma
rápida y sencilla
Constituye una plataforma para el self-service con protección
Respalda tanto a “cowboys de datos“ como a usuarios de negocio habituales
• Acelera las iniciativas self-service (no más silos de análisis) conservando el control y
la gobernanza
44. Next steps
Descargar Denodo Express:
www.denodoexpress.com
Acceder a la plataforma Denodo en AWS:
www.denodo.com/en/denodo-platform/denodo-
platform-for-aws