Carlos González, Hewlett Packard Enterprise, nos habla acerca en la implicación del mercado de Big Data en su negocio y el papel que una solución como Vertica juega en éste de la mano de Qlik.
Introducción a Vertica
Analytics siempre disponibles
Velocidad Escalabilidad Sencillez
Vertica proporciona una plataforma de analytics en tiempo real que ofrece:
► Low-latency para generar analytics “in-time”
► 50-1000x mejor desempeño en queries en comparación a otros manejadores
tradicionales y orientados a columnas
► Hasta 10x mejor desempeño en carga de datos
► Sencilla instalación/uso con auto-configuración y tuning
► Alta escalabilidad y paralelismo nativo. Uso de hardware x86 estándar en la
industria
► Arquitectura híbrida in-memory/on-disk
► Soporte para cargas de trabajo a gran escala
Sobre Vertica
• Fundada en: 2005
• Headquarters: Billerica, MA
• Adquirida por HP – Febrero
2011
• Clientes: +2500 incluyendo:
3000+ clientes y creciendo
Communications Consumer Marketing Online Web & Gaming Healthcare RetailFinancial Services
Clientes de Vertica en Latin America
Grupo Modelo
Mexico TSTT
Trinidad & Tobago
SIEMENS y FAPESP
Brasil
Selmec / Grupo Carso
Mexico
Telcel / Anritsu
Mexico
SBS
Ecuador
Entel
Chile
Seguros Consorcio
Chile
IMM
Uruguay
Secretos para mejorar el rendimiento
Almacenamiento
en columnas
Compresión
Escalabilidad
horizontal MPP
Consulta distribuida Previsiones
Acelera el tiempo de
consulta leyendo sólo
los datos necesarios
Reduce costoso I/O
para mejorar el
rendimiento global
Proporciona alta
escalabilidad en
clústeres sin nodo
maestro (name node) ni
otros puntos únicos de
falla
Cualquier nodo puede
iniciar las consultas y
utilizar otros nodos para
trabajar. Sin punto único
de falla
Combina la alta
disponibilidad con
optimizaciones
especiales para el
rendimiento de las
consultas
A B D C E A
Memoria
CPU
Disco
5
Funcionalidades principales: construido para la velocidad
Impulsamos el rendimiento
6
Tardaba Ahora tarda
1 hora 3,6 segundos
8 horas (toda la
noche)
Menos de 30
segundos
¿Qué significa 1000 %?
"Cuando hicimos las primeras consultas, tardaron
tan poco que creímos que eran erróneas".
- Michael Relich, Guess?
Alta Disponibilidad Nativa
Funcionalidad RAID al nivel de la Base de Datos
► Las Proyecciones están organizadas de modo que si un nodo falla, una copia estará disponible en
uno de los nodos sobrevivientes
► Automáticamente almacena datos con redundancia ordenados de manera diferente para obtener
también mejoras en el desempeño
► No se requieren Recoveries manuals basados en logs.
Queries & Loads siempre disponibles
► El Sistema continuará realizando cargas y consultas aún cuando existan nodos caídos en el cluster.
► Recuperación de datos en nodos fallidos con base en los demás nodos.
A3 B3 C3 A2 B2 C2
B1 A1 C1B2 A2 C2 B1 A1 C1
A3 B3 C3 A1 B1 C1
B3 A3 C3
MáquinaHadoopSocial
Plataforma de análisis de Vertica
HP Vertica Pulse
Extracción de entidad, opiniones
HP Vertica Place
Conector con redes sociales
HP Vertica Pulse
Realiza análisis de opiniones
Desafío
Los análisis de opiniones son
largos y pesados
– Extracción de entidades y análisis de
opiniones escalables en bases de datos
– Agregado y deducción de opiniones
– Primeros pasos fáciles
HP Vertica Pulse
Solución
8
Vertica Place
Análisis geoespacial
SELECT STV_Intersect(gid, geom
USING PARAMETERS
index=‘/dat/states.idx’)
OVER()
AS (call_gid, state_gid)
FROM calls;
Desafío
Análisis de
datos comprendiendo la
geometría y/o geografía
– Uniones espaciales optimizadas con
indexado geoespacial residente en la
memoria sustituyen los costosos análisis
por búsquedas sencillas
– Implementación basada en estándar OGC
fácil de usar con funciones espaciales para
computar: distancia, intersecciones
– Integración simple con aplicaciones de
terceros
HP Vertica Place
Solución
9
HP Vertica: Un ecosistema Big Data integrado
– Licenciamiento Flexible
– No por nodo, CPU o core
– Crece por necesidades
– Licencias perpetuas y por tiempo
– Paga sólo por producción
– Licencias gratuitas de Test / Dev y
Disaster
– Valor Agregado
– Flex Zone
– Conectores para HADOOP, ETL,
BI tools
– Soporte para Distributed R
– Pulse (Sentiment Analysis)
– Soporte GeoSpatial
– Funciones Análiticas SQL Nativas
– Cloud, VM, x86
– World Class Support
– 365 x 24 x 7 x 4 (1 hr Misión
Crítica)
– Basado en Estándares
– Arquitectura de costo eficiente x86
con almacenamiento DAS
– ODBC / JDBC
– Linux (RHEL, SUSE, Debian,
Centos)
– Solución Big Data Full Big Data
Solution in 120 MB
¿Cuál es el nivel de
desgaste de los
últimos 6 meses?
¿Qué clientes he
perdido?
¿Por qué ha
aumentado el índice
de desgaste?
¿Qué clientes es más
probable que
abandonen si no me
pongo en contacto
con ellos?
¿Cuáles lo harán si
me pongo en
contacto con ellos?
¿Qué clientes debo
intentar conservar?
¿Y si...?
¿Qué puedo ofrecer
antes de que el
cliente sea consciente
de la necesidad?
¿Valor añadido?
De la percepción retrospectiva al entendimiento y la previsión
INFORMACIÓN ENTENDIMIENTO DECISIÓN ACCIÓN
Descripción Diagnóstico Predicción Prescripción Prevención
¿Qué
ha pasado?
¿Por qué ha
pasado?
¿Qué
va a pasar?
¿Qué
debo hacer?
¿Qué más
puedo hacer?
11
Características de análisis de Vertica
Vertica SQL
Convenciones SQL-99 estándar
Vertica Extended-SQL
Análisis avanzados con SQL
Innovaciones de Vertica
Análisis avanzados usando Custom Logic
Extensiones definidas
por el usuario de
Vertica
Agregar Creación de sesiones Pruebas de regresión Análisis
– C++
– Java
– R
Conexión
– ODBC/JDBC
– HIVE
– Hadoop
– Flex Zone
Análisis Series de tiempo
– Intervalo
– Interpolación (constante y lineal)
– Relleno de huecos
– Agregar
Modelado estadístico
Funciones de ventana Ventanas basadas en eventos
– Evento de cambio condicional
– Evento verdadero condicional
Algoritmos de clasificación
Graph Uniones de series de eventos Categoría de página
Monte Carlo Redes sociales/pulso
– Análisis de texto
– Patrones/tendencias
Análisis de texto
Geoespacial Coincidencia de patrones
– Coincidir, definir, patrones de palabras
claves
– Análisis de embudo
Geoespacial (lugar)
Estadística
12
Comprendemos las necesidades de análisis de cada industria
Financial
services
Consumer goods Retail and
distribution
Telecom and
utilities
Government,
Health,
Education
Campaign analytics
(target marketing, up-sell)
Consumer insights
(needs, behavior, pricing)
Customer analytics
(target marketing, up-sell)
Customer value
(churn / loyalty, cross-sell)
Resource allocation
(GIS, segmentation, budgets)
Pricing analytics
(bundling, elasticity, discount)
Marketing effectiveness
(mix plg., promotion effect)
Marketing effectiveness
(mix plg., promotion effect)
Pricing analytics
(bundling, elasticity, discount)
Program analyses
(effectiveness, leakage)
Loss modeling
(claims forecast, fraud)
Supply chain analytics
(sourcing, inventory, network)
Supply chain analytics
(sourcing, inventory, network)
Supply chain analytics
(sourcing, inventory, network)
Staffing analytics
(schedule, perf, rewards)
Credit risk
(limits, authentication)
Distribution analytics
(network optim, capacity util)
Distribution analytics
(network optim, capacity util)
Customer svc analytics
(resolution, warranty, staff)
Loss modeling
(claims, leakage, fraud)
Collections
(dunning, optimization)
Channel performance
(store segment, coverage)
Store operations
(labor schedule, shelf-space)
Leakage analyses
(contracts, billing, costs)
Web analytics
(brand, traffic, commerce)
Market and Competitor intelligence
(research, insights)
Business performance management
(scorecards, scenarios)
Los datos son importantes con Vertica
Diseñado especialmente para los Big Data desde la primera línea de código
Consiga entendimiento
de sus datos entre 50 y
1000 veces más rápido
que con productos
heredados
Análisis en tiempo
real
Escala su solución hasta el
infinito añadiendo un número
ilimitado de nodos de bajo
coste
Escalabilidad masiva
Compatibilidad integrada con
Hadoop, R, y una serie de
herramientas de ETL e
inteligencia empresarial
Arquitectura abierta
Almacene entre 10 y 30 veces
más datos por servidor que las
bases de datos basadas en filas
con la compresión de columnas
patentada
Almacenamiento de
datos optimizado
14
In situ Nube privada Nube pública HadoopImplementa en:
Servicios profesionales de Vertica
Capacitación y asesoramiento dirigidos para la implementación de Vertica
Áreas de atención
Qué proporcionamos
– Asistencia sobre Vertica a
cargo de expertos
– Asesoramiento de equipo de
proyecto in situ
– Implementación de plataforma
Vertica y asesoramiento sobre
prácticas recomendadas
Recursos públicos, privados y
gratuitos
– Administradores de sistemas
– Administradores de bases de
datos
– Desarrolladores de
aplicaciones
– En línea y en persona
Formación
Asistencia de proyecto
proactiva para Vertica
– Instalación de software
– Carga de datos
– Ajuste del rendimiento de las
consultas
– Soporte de puesta en
funcionamiento
– Planificación de continuidad
– Mantenimiento de clústeres
Implementación
Verificación del estado de
Vertica
– Análisis y recopilación de
datos del sistema por expertos
in situ
– Informe detallado de auditoría
sobre los resultados
– Implementación de las
recomendaciones (opcional)
Evaluación
15
Winning Presidential Elections
– Challenge at DNC
• Demand data on everything,
measure everything, and
create an analytics team that
would make sure the DNC
made more well-informed,
intelligent decisions
• Fix the fragmented approach
that limited the usability of the
data
• Create new programs that get
more Democrats votes at the
polls
The U.S. Democratic National Committee for President Barack Obama
– HP Vertica Solution
• Created an environment that
let 100 data scientists pursue
their ideas with predictable
simplicity and high
performance
• Made correlations in the data
that would have been
impossible for the ’08 election
• Made more effective
utilization of television and
marketing budget by using
predictive modeling to
optimize when and where to
buy television ad time
(ultimately making twice as
many cable buys as
Romney’s team)
1 Exabyte is 1 Billion Gigabytes
Source: IDC Study # 243338, Where in the World Is Storage: A Look at Byte Density Across the Globe
Includes WW Raw capacity, consumers and enterprises
2012: 2,596 EB
2017: 7,235 EB
2013: 3,200 EB (estimated)
1 Exabyte is 1 Billion Gigabytes
Source: IDC Study # 243338, Where in the World Is Storage: A Look at Byte Density Across the Globe
Includes WW Raw capacity, consumers and enterprises
2012: 2,596 EB
2017: 7,235 EB
2013: 3,200 EB (estimated)
Live Product Development
Instrumented for Usage
Preference Testing
Connected Marketing
Location and Sentiment
Tailored to Customer Micro-segments
Real-Time Merchandising
Customized Offers, Assortment, Price
Optimized Placement and Design
Business Efficiency
Real-Time Metrics and Reports
Operational Decision Support
Las siguientes diapositivas describen cómo logramos un aumento del rendimiento tan espectacular
1 Exabyte is 1 Billion Gigabytes
Source: IDC Study # 243338, Where in the World Is Storage: A Look at Byte Density Across the Globe
Includes WW Raw capacity, consumers and enterprises
2012: 2,596 EB
2017: 7,235 EB
2013: 3,200 EB (estimated)
Descripción general de la plataforma de análisis Vertica
La plataforma de análisis HP Vertica resuelve desafíos reales de Big Data. Se ha diseñado especialmente para que organizaciones de todos los tamaños puedan monetizar datos a la hipervelocidad y escala masiva necesarias para diferenciarse en el entorno económico tan competitivo de hoy en día.
La plataforma de análisis HP Vertica entrega:
Análisis a velocidad de vértigo: obtenga entendimiento de sus datos prácticamente en tiempo real ejecutando consultas entre 50 y 1000 veces más rápidas que con productos heredados
Escalabilidad masiva: escale su solución hasta el infinito añadiendo un número ilimitado de servidores basados en estándares del sector
Arquitectura abierta: proteja y cuide su inversión en hardware y software con compatibilidad integrada para Hadoop, R, y una amplia gama de herramientas ETL y de inteligencia empresarial
Almacenamiento de datos optimizado: almacene entre 10 y 30 veces más datos por servidor que las bases de datos basadas en filas con la compresión de columnas patentada
La implementación depende de usted…
¿Qué puede hacer por usted la plataforma de análisis HP Vertica?
La plataforma de análisis HP Vertica se ha diseñado realmente para el análisis con tecnología nacida de la era moderna. No es una base de datos heredada de backend ni se limita a almacenar sus datos. La plataforma de análisis HP Vertica le permite conversar con sus datos a fin de encontrar las respuestas definitivas que necesita para monetizar los Big Data.
Was the most successful subject line of the 2012 Obama campaign, based on e-mail opens!