1. El documento describe las capacidades de SAP para administrar grandes cantidades de datos (Big Data), incluyendo SAP VORA, SAP HANA, y Data Hub.
2. Aborda problemas como identificar datos valiosos, reducir costos, optimizar procesos, y mejorar la toma de decisiones.
3. Explica cómo SAP VORA y otras herramientas permiten el análisis de datos en Hadoop y la integración de datos estructurados y no estructurados.
2. 2 Problemas que aborda
BIG DATA
1 BIG DATA SAP
3 Que ofrece SAP?
4 SAP VORA
5 Gestionar BIG DATA
3. BIG DATA
Concepto
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
El verdadero problema que deriva del concepto Big Data no es el hecho de acumular grandes cantidades de
datos, sino qué hacer con los datos y cómo distinguir aquéllos que nos aportan un valor. Desde el punto de
vista de los desarrolladores de aplicativos el objetivo es extraer datos de cualquier fuente, separar aquéllos
que son relevantes y analizarlos para encontrar respuestas que permitan:
1.Reducir costes de procesos empresariales u organizativos.
2.Disminuir tiempos de procesos empresariales u organizativos.
3.Desarrollar nuevos productos que encajen con lo que el mercado demanda y optimizar la oferta de los
que ya están desarrollados.
4.Predecir cambios en el contexto de negocio y afinar en la toma de decisiones.
4. 1 BIG DATA SAP
2 Problemas que aborda
3 Que ofrece SAP?
4 SAP VORA
5 Gestionar BIG DATA
5. BIG DATA
Problemas que aborda
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
”La potencia de análisis de las herramientas SAP Business
Intelligence alimentadas por HANA nos brinda las
siguientes posibilidades”:
• Determinar la causa de errores, defectos y problemas en casi tiempo real, con la posibilidad de ahorro en
costes de correctivos y troubleshooting que esto supone.
• Optimizar rutas de envío en tiempo real para la flota de transporte, con el ahorro en tiempos, combustible y
mejora en servicio al cliente que ello supone.
• Capacidad de analizar millones de KPIs (Indicadores de Negocio) para poder definir precios de producto que
nos permiten maximizar el beneficio y reducir inventarios.
•Enviar recomendaciones y ofertas a medida a los dispositivos móviles de clientes que estén en el área en que
dichas promociones están teniendo lugar.
•Identificar y aislar a los clientes que más valor aportan a la empresa para ofrecerles un servicio y trato acorde
con su fidelidad.
• Servirse de Data-Mining y de la capacidad para monitorizar el clickstream de los usuarios para prevenir y
detectar comportamientos fraudulentos.
6. 1 BIG DATA SAP
3 Que ofrece SAP
2 Problemas que aborda
4 SAP VORA
5 Gestionar BIG DATA
7. BIG DATA
Que Ofrece SAP
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
8. 1 BIG DATA SAP
4 SAP VORA
2 Problemas que aborda
3 Que Ofrece SAP
5 Gestionar BIG DATA
9. BIG DATA
SAP VORA Y DATA HUB
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
SAP Data Hub y SAP Vora es el producto licencia por SAP para BIG DATA y ofrece beneficios tecnológicos y
comerciales como nuevas soluciones. SAP Vora permite a los analistas comerciales trabajar con Big Data en
modo autoservicio sin asistencia de TI, mientras que SAP Data Hub aborda los desafíos de integración de
datos, intercambio de datos e integración de datos que enfrentan las organizaciones modernas debido a un
panorama de datos cada vez más diverso y complejo.
10. BIG DATA
SAP VORA Y DATA HUB
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
11. BIG DATA
¿Qué aporta SAP Vora?
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
SAP Vora permite el análisis OLAP de datos Hadoop mediante mejoras en la jerarquía de datos en Apache
Spark,compilando consultas para acelerar su procesamiento.
SAP Vora pretende eliminar la brecha digital que existe entre Analistas,desarrolladores, DBA´s y Data
Scientists debido al uso de los datos así como su tratamiento mediante:
12. BIG DATA
¿Qué aporta SAP Vora?
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
Precisión en la toma de decisiones.
Mediante la integración de los datos
propios del negocio (business data)
y Big Data y permitiendo una
experiencia OLAP en Hadoop o drill-
down en datos HDFS.
Democratización en el acceso de datos.
Permite a los Data Scientists, desarrolladores, procesar
datos de Hadoop/Spark con Spark R, Spark ML.
Contando a su vez con un soporte de programación
extensa; Scala Phyton, C, C++, y Java.
13. BIG DATA
¿Qué aporta SAP Vora?
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
SAP Vora obviamente puede COMUNICARSE con HANA y al revés Tener en cuenta que los detalles de
implementación cambiaron entre lanzamientos anteriores como 1.X y 2.0
Hay dos direcciones para comunicarse. Acceder a los datos que actualmente viven en HANA desde un contexto
Spark (y potencialmente extraer algo de uno de los motores Vora) y acceder a los datos que actualmente se
encuentran en VORA desde HANA.
14. BIG DATA
Información contextual entre los datos de negocio y BIG DATA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
15. BIG DATA
SAP HANA VORA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
Puente entre el mundo empresarial estructurado y el Big Data!
16. BIG DATA
SAP HANA VORA DESDE EL PUNTO DE VISTA ESTRATÉGICO
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
SAP HANA
● Añade funcionalidades para las aplicaciones
empresariales
● Jerarquías
● Análisis y modelos OLAP
● Rendimiento SQL sin precedentes
● Acceso federado entre HANA y Hadoop
● Herramientas
17. BIG DATA
SAP HANA VORA TECNOLOGIA HANA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
En memoria SQL Columnar
Compresión Columnar Algoritmos de Caché
Procesamiento paralelo Generación de código
#FEA4339A
18. BIG DATA
SAP HANA VORA ACCESO
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
•
•
•
•
Todas las herramientas compatible
Scala, Java, Python, R.
Lumira
SPARK
Todas las herramientas compatibles con
thrift
• Zeppelin
….
y otros notebook como Jupyter
Files HDFS
Spark
Vora Spark
Integration
Vora
Engine
YARN
19. BIG DATA
SAP HANA VORA DEVELOPER EDITION
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
• Disponible en AWS similar a HANA One
• Limitada solamente para escenarios no
productivos
• Incluido Hortonworks HDP2.3, Spark1.4 a 1.6
y Vora 1.X - 2.X
20. Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
:-)
SAP HCP
Hadoop
Yarn
Map reduce
HDFS
Hive
DataLakeAnalítico
FuentesSAPHANA
Platform
AppsCloud
OLTP Estructurados Streams No estructurados M2M
SAP HANA Vora
Spark
NoSQL Impala
SAP HANA
ERP Aplicaciones Reporting Analítico Predictivo IBO SAP BI
SAP HANA VORA INFRAESTRUCTURA COMPLETA
21. BIG DATA
UI SAP VORA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
Como se mencionó anteriormente, puede acceder a Vora desde Spark. Pero también puedes usar la interfaz de
usuario de Vora Modeler. Es una interfaz gráfica de usuario basada en web que permite modelar y consultar
datos.
Esto es algo que falta actualmente en las populares distribuciones de Hadoop. Hue y Ambari Views tienen algo
similar hasta cierto punto, pero la interfaz de usuario de Vora Modeler es la mejor ,tiene una forma gráfica de
crear tablas y consultas que es muy agradable.
22. 1 BIG DATA SAP
4 Gestionar BIG DATA
2 Problemas que aborda
3 Que Ofrece SAP
4 SAP VORA
23. BIG DATA
Gestionar BIG DATA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
La principal solución de SAP es Hana Data Platform, una plataforma que permite el acceso instantáneo
a los datos que se quieran analizar y que tiene un funcionamiento similar a una base de datos avanzada.
Hadoop es otra de las herramientas de SAP la cual ofrece una capacidad de almacenamiento ilimitado de
información. La plataforma Data Scientist se encarga de contextualizar los datos y crea soluciones en
función de la información.
Bajo la premisa de un cambio de paradigma, el EMEA CoE principal for SAP Hana Data Platform.
La gestión del Big data a día de hoy tiene que hacer frente a algunos retos como la gestión de datos
antiguos, la falta de recursos o de acceso, o la complejidad para adaptar los datos a la tecnología
disponible. en SAP Innovación, un evento que ha contado con el apoyo de HP, Intel, OpenText y
Tecnocom, las distintas herramientas que SAP tiene a disposición de sus clientes para la gestión del Big
data.
Como ejemplo de uso del Big data para gestionar su negocio a eBay, que desde que utiliza Hadoop es
capaz de analizar los datos y las señales en 20 minutos, cuando antes tardaba tres semanas. Esto permite
a la popular tienda online estar siempre un paso por delante de las necesidades de sus clientes.
24. BIG DATA
Gestionar BIG DATA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
Un ejemplo de este uso del Big data para mejorar la eficiencia que ha expuesto SAP es el Análisis predictivo, en
la conferencia 'SAP InfiniteInsight: Predictive Analystic en un entorno Big data. El 'software' Infinite Insight es
una herramienta de la compañía que permite elaborar predicciones basadas en la gestión de gran
cantidad de datos y así poder anticiparse a las necesidades que puede presentar una empresa.
Concretamente, Infinite Insight utiliza variables para generar una predicción de incidencias, pero de una forma
más precisa que otras herramientas similares ya que permite hacer simulaciones y no deja datos en blanco,
que podrían desviar las predicciones de manera errónea, sino que los genera en función de los datos ya
existentes.
25. BIG DATA
Licencias VORA y Análisis Final
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
26. BIG DATA
NECESIDAD EMPRESARIAL DE COMBINACIÓN DE BIG DATA LAKES CON SAP HANA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
El volumen de datos de negocio crece continuamente, y los departamentos de IT se ven obligados a adoptar
estrategias para gestionar este crecimiento, tratando de evitar disparar los costes de licencias de almacenamiento
en memoria. El purgado de datos a menudo es una mala idea, ya que se pierden fuentes de información que aún
pueden aportar valor a la actividad.
Este problema aparece recurrentemente en diversas compañías que tienen SAP HANA, y se ha convertido en
una prioridad.
Mientras el volumen de datos y las necesidades de tiempo real van en aumento, paralelamente los datos
históricos se van “comiendo” la capacidad disponible de memoria. En estas circunstancias, las compañías con
SAP HANA requieren tener soluciones eficientes en coste que les permitan descargar parte de sus datos
históricos en opciones menos costosas, manteniendo simultáneamente un acceso único a SAP HANA, de forma
que el uso de varios repositorios resulte transparente para el usuario final.
Las opciones para extender SAP HANA con un repositorio big data (en otras palabras: un data lake) que permita
tanto a usuarios finales como a data scientists consumir información combinando datos de SAP HANA y del data
lake desde la misma interfaz de usuario de forma transparente y con un rendimiento aceptable.
27. BIG DATA
NECESIDAD EMPRESARIAL DE COMBINACIÓN DE BIG DATA LAKES CON SAP HANA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
Tratamos de asegurar que los datos críticos para el negocio (hot data) se encuentran siempre disponibles
en memoria, mientras que los datos de acceso esporádico (cold data) son alojados en el data lake. Gracias
a las capacidades de SAP HANA, ambos tipos de dato pueden ser combinados y entregados al usuario de
forma transparente.
DEFINICIONES DE “HOT” Y “WARM DATA”
En Gestión de la Información Empresarial (EIM), podemos clasificar los datos en función del concepto de
“temperatura”. Esta forma metafórica de clasificación categoriza los datos según su frecuencia de uso, de
manera que hot data, los datos calientes, serán los datos de acceso más frecuente, mientras que los datos
de acceso esporádico se etiquetan como cold data o “datos fríos”.
Basándonos en esta categorización de los datos, la información puede ser almacenada aplicando
diferentes estrategias, buscando siempre el equilibrio entre coste y rendimiento
28. BIG DATA
NECESIDAD EMPRESARIAL DE COMBINACIÓN DE BIG DATA LAKES CON SAP HANA
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
SAP HANA es actualmente la mejor plataforma de base de datos para datos de alta frecuencia de uso o hot
data. Ofrece la peculiaridad añadida de almacenar los datos y ejecutar las operaciones en memoria, lo que
representa una velocidad de respuesta hasta 1000 veces superior que en tecnologías tradicionales. Sin
embargo, el almacenamiento masivo de datos en SAP HANA puede convertirse en extremadamente costoso,
especialmente cuando la mayor parte de los datos son de acceso esporádico. Es en estos casos cuando la
opción de integrar un data lake conjuntamente con SAP HANA cobra todo el sentido.
SAP HANA ofrece distintas funciones para habilitar una configuración de almacenamiento basada en la
temperatura:
29. BIG DATA
Escenarios de Data Lake
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
• Sólo SAP HANA
• SAP HANA con Dynamic Tiering
• SAP HANA con VORA
• SAP HANA con Hadoop
• SAP HANA con Greenplum
• SAP HANA con SAP IQ
30. BIG DATA
Escenarios de Data Lake
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
Apache Hadoop es una de las soluciones big data más
usadas y conocidas, basada en un entorno de software
de código abierto que se ejecutan en agrupaciones de
computadoras construidas con componentes de gran
consumo. Apache Hadoop no es un sistema relacional
RDBMS (Relational Database System); se basa en un
componente de almacenamiento, el Hadoop Distributed
File System (HDFS), y un sistema de procesado, el
modelo de programación MapReduce. Apache Hadoop
resulta ideal para el almacenamiento de datos no
estructurados, pero no es la major opción para datos
estructurados. Para poder utilizar Hadoop para almacenar
datos estructurados con origen en HANA, necesitamos
utilizar uno de los componentes de Hadoop, HBase, un
componente que habilita una interfaz ACID/SQL sobre el
Hadoop Distributed File System. Con el uso de Hadoop
como Data Lake ganamos escalabilidad, flexibilidad y
disponibilidad. Sin embargo, podemos experimentar
tiempos de respuesta muy lentos.
Greenplum es una base de datos relacional basada en PostgreSQL. Gracias a sus
capacidades de agrupación (clustering) y de Procesado Masivo en Paralelo, sus
implementaciones pueden crecer hasta una escala de petabyte entregando un buen
rendimiento en consultas analíticas.
SAP Vora es una solución de big data ofrecida
por SAP y basada en el componente Spark. SAP
Vora permite manipulaciones de datos distribuidas
y consultas analíticas de alta velocidad. SAP Vora
proporciona una interfaz de usuario avanzada:
SAP HANA Vora tools, para el modelado de
datos. Está integrada asimismo con Apache
Zeppelin, que proporciona una mejor visualización
y control de los datos en el data lake. SAP Vora
viene además con Apache Spark, otro de los
frameworks de big data más utilizados,
considerado aún más potente que Apache
Hadoop.
SAP IQ ofrece una base de datos en columnas, como
SAP HANA, sin requerir un hardware tan potente.
Aprovecha además las capacidades de Dynamic
Tiering, que automatiza la mayoría de procesos de
almacenamiento por niveles. Requiere el pago de
licencias, en contraste con las soluciones
mencionadas anteriormente. Aunque sea quizás una
de las mejores opciones par implementar un Data
Lake con SAP HANA, SAP IQ no es una solución
distribuída ni ofrece las posibilidades de clustering
disponibles en otras opciones como SAP Vora,
Greenplum o Apache Hadoop.
32. BIG DATA
Conclusiones
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
Siendo un cliente SAP con un data warehouse SAP HANA en memoria, tenemos varias opciones a
considerar para avanzar hacia un escenario big data. La selección de la tecnología adecuada
dependerá de los casos de uso que se pretenda cubrir. Aunque descartemos desde un punto de
vista puro de costos las opciones de una instalación pura SAP HANA, así como complementada con
SAP IQ, estas opciones deberán ser incluidas en el proceso de selección, para asegurarse de que
todos los escenarios son comparados adecuadamente. Algunos puntos finales a destacar serían:
33. BIG DATA
Conclusiones
Sergio Fabian Cannelli
CONSULTOR SENIOR SAP(ABAP-HANA-FIORI )
• Almacenamiento dinámico por niveles o Dynamic Tiering tendrá siempre un coste adicional de licencias, y estará disponible solo en
casos con SAP IQ. LA descartaríamos entonces en escenarios con grandes data lakes distribuídos., aunque será una opción muy válida
para el resto de casos.
• Apache Hadoop no es la mejor opción para su uso en escenarios conjuntos con SAP HANA con propósitos de reporting y analítica, debido
a su pobre rendimiento. Hay varias otras opciones con capacidades de clustering igualmente eficientes en costes y que ofrecen un
rendimiento muy superior. Recomendaríamos Apache Hadoop para escenarios de “datos fríos” en los que no es necesario ejecutar consultas
analíticas.
• SAP Vora resulta ser la mejor solución en combinación con SAP HANA facilita el reporting analítico y ofrece herramientas de modelado
ausentes en el resto de soluciones. está en constante mejora. Además, es muy probable que en un futuro próximo SAP ofrezca soluciones
para automatizar el almacenamiento por niveles entre SAP HANA y SAP Vora.
• Greenplum es una solución de big data muy sólida y madura. Ofrece un rendimiento excepcional y es capaz de manejar virtualmente
cualquier volumen de datos. Carece sin embargo de las habituales herramientas de modelado de datos y almacenamiento por niveles que
permitirían una experiencia más integrada. Aunque estas funcionalidades deban ser implementadas manualmente, pensamos que en
combinación con SAP HANA, ambas soluciones trabajan perfectamente, y esta combinación es definitivamente una de las más válidas a
considerar.
Para clientes SAP HANA que deseen implementar escenarios big data, hay varias opciones disponibles.
Dependiendo del caso de uso, Se recomienda analizar las necesidades exactas, ya sean la mejor
combinación entre rendimiento y coste, el flujo de datos ente fuentes, el almacenamiento de grandes
volúmenes a bajo coste, o una combinación de todas, para decidir en consecuencia la mejor opción
disponible.