More Related Content Similar to 4.data mining (20) More from IDE-CESEM Business School. www.ide-cesem.com (20) 4.data mining1. Master Sistemas de Información
7. Introducción al Data Mining
Zigor de la Quintana (zdelaquintana@yahoo.es)
2. Los Sistemas de Soporte a la Decisión en la empresa
Página 2
Índice
· Introducción a data mining
· Técnicas de data mining
· Metodología Data Mining
· Soluciones Técnicas
· Casos prácticos
© 2009 IDE-CESEM.
3. Herramientas de descubrimiento de
conocimiento o data mining
Son las propias herramientas las que extraen modelos y
– Los seres humanos disponemos de una capacidad limitada para
analizar series de datos o correlaciones y encontrar modelos y
extrapolarlos al futuro.
– Gap datos Vs conocimientos
– Datos acumulados
– Sistema por el cual los analistas emplean herramientas de análisis
matemático y estadístico aplicadas sobre datos históricos y
relevantes para el negocio, para identificar relaciones entre variables
y modelos que permitan entender mejor procesos actuales o con
cierta probabilidad hechos futuros.
Los Sistemas de Soporte a la Decisión en la empresa
Página 3
tendencias de la información
Útiles debido a que:
Data Mining:
© 2009 IDE-CESEM.
4. ¿Por qué herramientas de descubrimiento de
conocimiento?
Ahora que disponemos de una herramienta OLAP, podemos
analizar y buscar por las dimensiones, pero ¿por dónde
empezamos para entender por qué el cliente abandonó la
compañía?
Los Sistemas de Soporte a la Decisión en la empresa
Página 4
10%
© 2009 IDE-CESEM.
8%
6%
4%
2%
0%
Customer Defection
Q3 2001 Q4 2001 Q1 2002 Q2 2002 Q3 2002 Q4 2002
East
Central
West
5. Los proveedores sostienen que Data Mining
genera el mayor ROI
Los Sistemas de Soporte a la Decisión en la empresa
Página 5
Positive
Returns
© 2009 IDE-CESEM.
Break Even
Operational
Systems
ROI (%) Negative
Returns
Time (Years)
Business
Intelligence
Predictive
Analytics
Cumulative ROI
Source: Jack Noonan, CEO SPSS, 2002
6. Los Sistemas de Soporte a la Decisión en la empresa
Página 6
Índice
· Introducción a data mining
· Técnicas de data mining
· Metodología Data Mining
· Soluciones Técnicas
· Casos prácticos
© 2009 IDE-CESEM.
7. 1. Regresiones
Identificación de una función capaz de describir la relación entre
variables independientes y las variables dependientes que interesan
al usuario
Los usuarios de negocio identifican esta función utilizando datos del
pasado y la utilizan para predecir datos del futuro.
Algunas de las preguntas que desean responder son:
– Ventas de mi próximo mes teniendo en cuenta factores estacionales (estamos en
– ¿Cómo puede afectar a mis ventas los gastos en publicidad?
Permiten realizar al usuario de negocio análisis de sensibilidad
– Se explora el efecto de cambiar algún parámetro en las variables dependientes.
– Análisis muy común, “elasticidad del precio”.
– *Si aumento en un 1% el precio de un artículo, cómo afectará a su demanda?
– ¿Si aumento el salario de mis empleados en un 2%, cómo mejorará su índice de
Los Sistemas de Soporte a la Decisión en la empresa
Página 7
Navidad o en época de rebajas)?
satisfacción?
© 2009 IDE-CESEM.
8. Los Sistemas de Soporte a la Decisión en la empresa
Página 8
1. Regresiones (cont)
Las regresiones también
pueden generar un análisis
probabilístico entre algunas
variables y la ocurrencia de un
evento.
– Probabilidad de que un cliente deje
la compañía
– Probabilidad de que un empleado
dimita
– Ratio de respuesta de un cliente a
una oferta comercial (mailing,
campañas de marketing…).
– Probabilidad de impago de un
cliente.
© 2009 IDE-CESEM.
9. 2. Clustering
Permite identificación de relaciones entre grupos de datos
Estadísticas y algoritmos creados por el software…
pretende partir grandes bases de datos en diferentes grupos de
Parece que clustering es una técnica idéntica a la definida en cuanto a
segmentación, pero:
– Técnicas de clustering están diseñadas para identificar agrupaciones de
variables similares sin tener en cuenta un objetivo en concreto.
– Las técnicas de segmentación miden dependencia de las variables con
Los Sistemas de Soporte a la Decisión en la empresa
Página 9
variables que ofrecen datos similares.
respecto a un objetivo.
© 2009 IDE-CESEM.
10. 2. Clustering. Herramientas y
técnicas: K-Means clustering (SAS
Enterprise Miner)
La herramienta identifica los subsegmentos de clientela
Los Sistemas de Soporte a la Decisión en la empresa
Página 10
© 2009 IDE-CESEM.
Age
Income
Decidir sobre el máximo número de
clusters
Asignar semillas (clientes)
aleatoriamente a los clusters.
Análisis
Analizar la distancia estadística entre
cada consumidor y cada semilla
(primero) o media de cada cluster.
Asignar cada cliente a la media del
cluster más cercano.
Mover cada cluster para posicionarlo
en torno a dos medidas de clientes.
Operar hasta que los clusters dejan
de moverse
11. Técnicas llamadas “no dirigidas”, ya que no precisan de intervención
No consume (comparado con otras técnicas) grandes cantidades de
capacidad de procesamiento en entornos masivos de datos.
Los Sistemas de Soporte a la Decisión en la empresa
Página 11
2. Clustering
Limitaciones:
– No ofrecen un gran detalle
– No tiene capacidad predictiva, tan solo explicativa.
– Útil, pero no exacta.
humana para su correcto funcionamiento.
© 2009 IDE-CESEM.
12. Identifican las variables independientes que afectan de manera más
– Usuario selecciona un determinado objetivo que quiere analizar (rentabilidad,
– Después selecciona el conjunto de variables que, según su entendimiento de
– Usuario interactúa con el análisis y redefine las variables.
– Perfiles de riesgo de clientes solicitantes de préstamos o tarjetas.
– Perfiles de empleados y clientes.
– Perfiles de clientes más rentables.
– Etc…
Los Sistemas de Soporte a la Decisión en la empresa
Página 12
(3) Segmentación
preeminente a las variables dependientes.
“Técnicas de data mining dirigidas”.
ingresos, probabilidad de abandono…)…
negocio, influyen en ese objetivo…
Algunas de las aplicaciones de estas técnicas son:
© 2009 IDE-CESEM.
13. (3) Segmentación
La técnica de segmentación se caracteriza por la utilización de árboles de
– Chaid (Chi Squared Automatic Interaction Detection), y
– CART (Classification and Regression Tree Technique).
Dividir las variables en subgrupos de variables y comprender su impacto en el
El resultado para el usuario final es una visión más veraz de las relaciones de
causa y efecto entre las variables y el objetivo seleccionado.
Los Sistemas de Soporte a la Decisión en la empresa
Página 13
decisión.
Los algorimos más empleados son:
objetivo a través de técnicas estadísticas.
© 2009 IDE-CESEM.
14. (3) Segmentación
Ejemplo: Conjunto de clientes, a los que se quiere segmentar teniendo
El proceso pretende agrupar a los clientes en función de las variables
que, en relación a los ingresos, presentan grupos con mayores
diferencias en sus medias.
En ejemplo se ha visto que existen tres grupos diferenciados,
Proceso vuelve a realizarse en cada subgrupo hasta que ningún
subgrupo puede ser dividido, de forma estadísticamente significativa
Los Sistemas de Soporte a la Decisión en la empresa
Página 14
en cuenta sus ingresos.
relacionados con la variable edad.
© 2009 IDE-CESEM.
15. (3) Segmentación
Ejemplo: aplicación de marketing. Identificación de personas
Se lanza primero una campaña enfocada a un grupo de test.
Se recoge como dato qué clientes responden al mail (valor
“1” y qué clientes no “valor 0”.
Ratio de respuesta del grupo es de 0,0206 (2,06%). Si sólo
envío mails a mujeres de la región “Noroeste” y a toda la
región Sur, estaré mejorando mi ratio de respuesta.
Los Sistemas de Soporte a la Decisión en la empresa
Página 15
objeto de una campaña de mailing.
© 2009 IDE-CESEM.
16. (3) Segmentación
Técnica complementaria a la de clustering.
Puede analizarse un conjunto de datos con la técnica de
clustering para determinar qué clientes están empleando una
determinada página web.
Comprender en profundidad a ese conjunto de clientes,
seleccionado un objetivo y las variables que entendemos que
afectan a su comportamiento.
El resultado del análisis puede aportar al usuario final una vista
con forma de árbol del impacto estadístico:
– Rangos de ingresos y sus correspondientes utilizaciones diferenciadas de
Los Sistemas de Soporte a la Decisión en la empresa
Página 16
la página web.
© 2009 IDE-CESEM.
17. (3) Segmentación
– ¿Puede el cliente intuitivamente nombrar cada segmento? Puede pensar
cómo utilizarlo desde un punto de vista de negocio?
Los Sistemas de Soporte a la Decisión en la empresa
Página 17
Analizar cada segmento con el cliente
© 2009 IDE-CESEM.
SEGMENT
1 2 3 4 5 6 All
Population 129,303 52,048 7,625 198,929 8,849 3,166 399,920
Percent 32% 13% 2% 50% 2% 1% 100%
Age 40 42 41 39 41 42 40
# of Accounts 1.15 1.30 1.32 1.17 1.27 1.75 1.19
Asset Level $29,201 $121,209 $340,565 $40,156 $45,106 $359,379 $55,527
Recency 126 36 32 54 42 32 74
Longevity 549 379 385 399 491 604 448
Income $18.76 $259.46 $1,533.18 $72.07 $317.02 $1,118.12 $120.78
Channel 1 $2.87 $13.34 $9.64 $5.27 $6.02 $28.13 $5.82
Channel 2 $13.49 $166.08 $879.96 $51.42 $277.08 $816.43 $80.93
Channel 3 $2.40 $80.05 $643.58 $15.38 $33.92 $273.56 $34.03
# Items Transacted 69 1,666 25,869 823 771 11,456 1,250
Safer 43 758 3,069 32 73 2,590 209
Aggressive 27 907 22,799 791 666 8,784 1,039
Safe Ratio 59.3% 56.1% 14.8% 8.6% 12.4% 25.6% 31.5%
# of Transactions 0.46 4.49 25.88 1.40 7.11 22.93 2.26
Type 1 0.44 4.38 25.84 1.36 1.45 13.95 2.02
Type 2 0.02 0.11 0.04 0.04 5.66 8.98 0.24
Type 1 Ratio 5.2% 2.4% 0.2% 3.0% 79.6% 39.2% 10.6%
Contracts 0.11 0.57 0.34 0.18 31.78 75.93 1.51
Type 1 Orders 1.06 15.66 92.05 4.69 5.03 44.30 6.93
Type 2 Orders 0.06 0.37 0.16 0.14 22.49 33.14 0.90
Testers Engaged Confident Conservative Risky High Rollers
Color Key
Highest Segment
2nd Place Segment
Lowest Segment
18. (4) Herramientas y Técnicas: Redes
Neuronales
Los Sistemas de Soporte a la Decisión en la empresa
Página 18
El principio es generar
conocimiento a través de
elementos
interconexionados.
Capaces de generar
algoritmos predictivos.
Imitan el proceso de
aprendizaje del cerebro
humano
Sistema “caja negra”, útiles
cuando es difícil modelizar
desde el principio.
© 2009 IDE-CESEM.
19. (4) Herramientas y Técnicas: Redes
Neuronales
Parecido con las regresiones,
Examinan datos históricos y generan la función que mejor relaciona las
variables independientes o explicatorias y las variables dependientes
El error entre lo que el modelo predice y lo que ha realmente ocurrido en
Construido el modelo, este se aplica al futuro para predecir hechos.
Aplicaciones de redes neuronales son similares a las descritas para el
caso de las regresiones, pero su capacidad predictiva, es muy superior.
lA igual que las técnicas de segmentación, es una de las más creíbles
Los Sistemas de Soporte a la Decisión en la empresa
Página 19
el pasado sea mínimo.
dentro del data mining.
© 2009 IDE-CESEM.
20. (4) Herramientas y Técnicas: Redes
Neuronales
Origen:
– Intento de replicar el funcionamiento del cerebro humano.
Cada neurona toma las sumas ponderadas de sus datos de
entrada y se aplica una función no lineal al resultado, lo que
permite realizar análisis no lineales.
Cualquier neurona puede ser conectada a otra, pero debe
Modo muy común: modelo de tres capas, cada capa de
neuronas está integrada con la capa anterior.
Los Sistemas de Soporte a la Decisión en la empresa
Página 20
mantenerse la dirección del análisis.
© 2009 IDE-CESEM.
21. (4) Herramientas y Técnicas: Redes
Neuronales
Utilizacion similar a casos de regresiones, aunque con
Las regresiones y redes neuronales intentan analizar no
solamente la validez del modelo definido…
Sino de analizar las desviaciones encontradas entre el
modelo resultante y los datos originales, si existen
algunas variables que podrían tener influencia en el
modelo y no se están considerando.
Esta capacidad de análisis sitúa a las técnicas de redes
neuronales por encima del resto de técnicas.
(clustering, segmentación…).
El modelo creado con las redes neuronales puede
utilizarse para predecir eventos futuros o realizar
análisis de sensibilidad.
Los Sistemas de Soporte a la Decisión en la empresa
Página 21
resultados más espectaculares.
© 2009 IDE-CESEM.
22. Un análisis de clustering permite identificar a “grosso
modo”, que tipos de clientes están utilizando una
determinada web site….
Un análisis de segmentación y clasificación identifica las
variables más relevantes y sectores de variables que
tiene un efecto en una variable objetivo (por ejemplo,
su grado reutilización).,,
Las redes neuronales pueden entonces ser utilizadas
para determinar si el modelo es creíble, cómo las
variables se influencian entre sí, y sí el modelo está
dejando alguna variable relevante de lado.
Los Sistemas de Soporte a la Decisión en la empresa
Página 22
Combinación de técnicas.
© 2009 IDE-CESEM.
23. (5) Análisis de asociaciones.
Esta técnica permite calcular probabilidades o propensiones
de que ocurra un determinado evento si ocurren otros
eventos.
Esta técnica emplea funciones de frecuencia y probabilidad
para estimar la probabilidad de que ocurra.
Algunas de las técnicas más utilizadas son:
– Análisis “Market basket” (p.e. en el verano cuando alguien compra
una hamburguesa, o salchichas o hielo, también comprarán
carbón vegetal el 74% de las veces, y estas compras representan
un 25% de las ventas totales de carbón vegetal).
– Control de calidad: (el 30% de los conmutadores eléctricos que no
pasan el control de calidad tienen problemas de cableado, y se
construyen los viernes en el turno de tarde).
Los Sistemas de Soporte a la Decisión en la empresa
Página 23
© 2009 IDE-CESEM.
24. Los Sistemas de Soporte a la Decisión en la empresa
Página 24
(6) Visualización
Tradicionalmente se ha
minusvalorado este
tipo de herramienta.
El ojo humano es una
poderosa herramienta
en cuanto a la
búsqueda de patrones.
Especialmente indicada
para analizar gran
cantidad de datos en
torno a una o pocas
variables.
– Algunos ejemplos
podrían ser los mercados
financieros, informes
económicos, etc…
© 2009 IDE-CESEM.
25. (6) Visualización
Esencial para comenzar un proyecto de Data Mining,
cuando hay un grupo de datos y variables muy elevados
Los Sistemas de Soporte a la Decisión en la empresa
Página 25
Es interesante para la
fase inicial de selección
de variables…
Análisis de la calidad de
datos del DW…
Y para la de control
(comparación del output
de los modelos para
validar efectividad)
© 2009 IDE-CESEM.
26. ,No cambiar el tipo de gráfico, sino mantener el mismo
gráfico todos los días.
– Usuario no tendrá que realizar un ejercicio de comprensión de los
ejes del gráfico cada vez que intenta analizar unos datos.
Los gráficos complejos introducen innecesariamente la
necesidad de que el usuario invierta tiempo en su
comprensión.
– Los mejores gráficos se crean habitualmente empleando los modelos
Por su utilidad, la mayoría de las soluciones de data
mining y OLAP incorporan estos gráficos a sus paquetes de
soluciones.
Los Sistemas de Soporte a la Decisión en la empresa
Página 26
más básicos y sencillos.
© 2009 IDE-CESEM.
27. Los Sistemas de Soporte a la Decisión en la empresa
Página 27
Índice
· Introducción a data mining
· Técnicas de data mining
· Metodología Data Mining
· Soluciones Técnicas
· Casos prácticos
© 2009 IDE-CESEM.
28. Herramientas de descubrimiento de
conocimiento
Requieren ser manejadas por usuarios muy avanzados
(casi siempre expertos en modelos matemáticos pero
con ciertos conocimientos de negocio)
– Aunque las herramientas están evolucionando para incorporar a
Algunos problemas que suelen encontrarse
– Exactitud del modelo: decisión de qué variables tienen sentido
para la creación del modelo y cuáles no.
– Importancia de la información: decisión de qué modelos y reglas
son suficientemente importantes como para ser comunicadas.
Los Sistemas de Soporte a la Decisión en la empresa
Página 28
usuarios intermedios.
© 2009 IDE-CESEM.
Nuevamente, debe conocerse bien el negocio
– Envío al usuario correcto: Las tendencias deben ser informadas a
un usuario que puede actuar para incidir sobre ellas y cuyo
performance está controlado numéricamente.
29. Metodología del entorno Data Mining
Empezar con muestra con significación estadística.
Usar técnicas estadísticas y de visualización para analizar variables.
El 70% de un proyecto de data mining consiste en analizar y preparar datos.
Confirm Business Objectives
Model
Verification
If … Then
...
c++
Reports
Los Sistemas de Soporte a la Decisión en la empresa
Página 29
Data Pre-
Processing
© 2009 IDE-CESEM.
Model
Validation
Data Exploration
Sampling
Data
Manipulation
Model
Construction
Training
Parameter
Setting
Determine
Accuracy and
Precision of
Model
Test Model
Against
Business
Knowledge
Knowledge
Transformation
Transform
Model into a
Deployable
Format
30. Utilización correcta de data Mining
Utilización del soluciones data mining conduce a resultados
Sólo si se emplea la técnica correctamente; no fácil:
– Complejidad matemática de los modelos
– Calidad y suficiencia de los datos almacenados
– Perfil del usuario del modelo (que debe ser un experto en
matemáticas con conocimientos de IT y, preferiblemente, del sector
en el que opera la compañía…)
– Inversión en la plataforma de data mining…
Además debe integrarse el resultado del análisis de data
mining con las herramientas adecuadas CRM operativo.
Los Sistemas de Soporte a la Decisión en la empresa
Página 30
espectaculares.
© 2009 IDE-CESEM.
31. Utilización correcta de data Mining (cont)
Imaginemos banco, en Diciembre, a la hora de lanzar su
campaña de captación de subscripciones a los planes de
pensiones…
Lanza un proyecto de data mining para identificar
compradores potenciales dentro de su clientela…
Debe poner esos datos a disposición de su call center, para
realizar llamadas de venta, y de sus vendedores en las
oficinas.
Para ello, debe contar con una buena solución de gestión
de campañas, y una buena plataforma de ventas.
Los comerciales deben preocuparse por dar feedback del
Los Sistemas de Soporte a la Decisión en la empresa
Página 31
resultado.
© 2009 IDE-CESEM.
32. Si almacenas los datos sin calidad o sin la granularidad mínima
precisa, estás destinado a fracasar con tu estrategia de data mining.
No existe herramienta ni metodología de data mining que sea capaz
de trabajar con entornos de datos inadeacuados.
¿Valen mis datos para algo?
En algunos casos se lanzan proyectos de data mining para ver si, con suerte,
la empresa es capaz de encontrar algo de información relevante en medio de
ese mar de datos en el que se ha convertido su data warehouse.
Los resultados son impredecibles y no siempre un proyecto de data mining
lanzado con este enfoque es capaz de llegar a un resultado mínimamente
satifactorio.
Un análisis más honesto de la calidad y cantidad de nuestros datos
debería llevarnos a la conclusión de qué tipo de análisis soporta.
Si sólo soporta análisis OLAP, debemos olvidarnos del data mining
hasta que se haya modificado el estado de los datos.
Los Sistemas de Soporte a la Decisión en la empresa
Página 32
Relevancia de los datos
© 2009 IDE-CESEM.
33. Nueve pasos para garantizar el éxito de una
estrategia de data Mining.
1. Decidir qué queremos saber.
Qué usos vamos a dar al data mining y por tanto qué técnicas de
data mining queremos emplear sobre nuestros datos.
Investigar qué técnicas son las más adecuadas y si existe una
2. Seleccionar cómo medimos lo que queremos saber
Imaginemos que queremos medir si una nueva marca de nuestra
empresa ha tenido éxito. Podemos hacerlo analizando el incremento
de ingresos o el reconocimiento de marca que muestran nuestros
clientes actuales o potenciales.
Ambas medidas pueden ser empleadas con éxito. Pero desde un
punto de vista de cálculo son absolutamente distintas. Por ello
tendremos que definir cuáles son las medidas cuya maximización
vamos a perseguir utilizando herramientas de data mining.
Los algoritmos de data mining van a necesitar que esa medida sea
un número, por lo que si se trata de una medida cualitativa tendrá
que ser traducida a una escala. Si la medida fuera un “si” o un “no”,
puede traducirse en término de unos y ceros.
Los Sistemas de Soporte a la Decisión en la empresa
Página 33
relación coste – beneficio de la inversión.
© 2009 IDE-CESEM.
34. Nueve pasos para garantizar el éxito de una
estrategia de data Mining (cont).
3. Decidir la granularidad y temporalidad de los datos.
Datos deben ser homogéneos.
y debe haber una cantidad suficiente de los mismos.
Si sólo hay unos cuantos medidas de meses o semanas
almacenados, por más que sean homogéneas, el resultado no será
adecuado.
– Técnicas de segmentación y clustering precisan cientos o miles de ellas.
– Regresiones y redes neuronales requieren menos datos por variable, a nivel de
Si, analizados este apartado, la empresa llega a la conclusión de que
no dispone de datos suficientes, se puede optar por las siguientes
opciones:
– Conseguir más datos, esperando más tiempo o base externa.
– Cambiar planes iniciales y utilizar otra técnica de data mining.
Problema disponer de demasiados datos: muestrear, agregar,
Los Sistemas de Soporte a la Decisión en la empresa
Página 34
cientos, y como mínimo 20.
segmentar…
© 2009 IDE-CESEM.
35. Nueve pasos para garantizar el éxito de una
estrategia de data Mining (cont).
4. Analizar factores clave
Los factores claves son variables que pueden tener un impacto en las
medidas que hemos identificado como relevantes en el apartado dos.
Por ejemplo, si queremos analizar el impacto de nuestras acciones
de marketing sobre el incremento de ventas, algunas de estas
variables podrían ser; “inversión en publicidad en televisión”.
“inversión en publicidad en radio”… Deberán tenerse en cuenta
también factores estacionales como “precio” del producto, para
tener en cuenta épocas de rebajas, descuentos….
Identificadas las variables, resultará una prioridad que los datos
asociados a las mismas sean guardados en el data warehouse.
Si identificamos demasiadas variables, tendremos que seleccionar
sólo algunas para realizar el análisis de data mining, y, en función
del resultado (como hemos visto cuando analizábamos las diferentes
técnicas de data mining), determinar si lanzamos de nuevo el
análisis incorporando nuevas variable y desestimando otras.
Los Sistemas de Soporte a la Decisión en la empresa
Página 35
© 2009 IDE-CESEM.
36. Nueve pasos para garantizar el éxito de una
estrategia de data Mining (cont).
5. Adquisición de los datos.
Analizadas las variables que estimamos son claves, puede resultar
Puede buscarse una variable que pensemos pueda tener un
comportamiento similar, y sí disponga de los datos precisos
Podemos intentar lanzar el proceso de análisis sin la variable.
Al mismo tiempo modificaremos el dara warehouse para garantizar
Si por un error algunos de los campos están en blanco:
Puede dejarse un valor en blanco, ya que las herramientas de data
mining están preparadas para trabajar con campos en blanco.
Puede insertarse la media del resto de valores, de forma que su
Si los datos son series temporales, se pueden utilizar una regresión
de los datos anteriores para completar el dato que falta.
Los Sistemas de Soporte a la Decisión en la empresa
Página 36
que los datos no estén disponibles:
que los datos se incluyan en el futuro.
impacto será neutral.
© 2009 IDE-CESEM.
37. Nueve pasos para garantizar el éxito de una
estrategia de data Mining (cont).
Los Sistemas de Soporte a la Decisión en la empresa
Página 37
6. Visualización de los datos.
Técnicas de visualización
para entender si las
variables críticas que
hemos elegido realmente
serán significativas para el
análisis que queremos
efectuar.
Ejemplo de abajo, al
visualizar los datos de
Agosto – Septiembre, se
comprueba que el dato no
puede ser correcto. Si el
error es grave o se repite,
la variable tendrá que ser
desestimada.
© 2009 IDE-CESEM.
38. Nueve pasos para garantizar el éxito de una
estrategia de data Mining (cont).
7. Transformación de los datos
Expertos en data mining han adquirido tal experiencia que
conocen no solamente qué variables suelen ser las más
críticas para explicar el modelo sino cómo crear variables
derivadas de las que una empresa suele guardar para
conseguir mejores resultados.
Para ello modifican los datos existentes:
Haciendo agregaciones.
Nomalizando precios en función de la inflación del periodo.
Trabajando con ratios de variables (relación entre mi
Los Sistemas de Soporte a la Decisión en la empresa
Página 38
precio y precio de un competidor)
Etc…
© 2009 IDE-CESEM.
39. Nueve pasos para garantizar el éxito de una
estrategia de data Mining (cont).
8. Ejecución del proceso de data mining.
Se trata de un proceso muy automatizado, en el que el software
toma sus propias decisiones para optimizar el resultado.
9. Revisión del resultado.
Utilizando las técnicas de visualización o de redes
neuronales, debe analizarse si el modelo creado es
suficientemente creíble o debe ser refinado con variables
adicionales.
Los Sistemas de Soporte a la Decisión en la empresa
Página 39
© 2009 IDE-CESEM.
40. Errores comunes en los procesos de data
mining
1. Manipular los datos para que arrojen el modelo esperado.
Algoritmos no arrojan grandes diferencias por ser ajustados. Los
algoritmos de empresas competidoras a las del proveedor elegido
son prácticamente idénticos.
No conviene hacer hincapié en estos factores.
Si los datos obtenidos no son los esperados, tenemos que
preguntarnos:
– ¿Puede el resultado ser realmente cierto?
– ¿Confío en la calidad de los datos empleados y en las variables
– En estos casos la exploración gráfica es también de gran utilidad.
Los Sistemas de Soporte a la Decisión en la empresa
Página 40
seleccionadas?
© 2009 IDE-CESEM.
41. Errores comunes en los procesos de data
mining
1. Manipular los datos para que arrojen el modelo esperado.
Ejemplos:
– Una empresa productora de ropa quería entender la relación entre sus
gastos en publicidad y las ventas obtenidas. Un análisis de data mining,
sorprendentemente, no encontró ninguna. La razón fue que se estaba
intentando relacionar datos de inversión en publicidad del mes con
ventas del mes. La publicidad necesita tiempo para afectar al
comportamiento de compra del consumidor, por lo que las ventas de un
mes deben relacionarse con la inversión de meses anteriores.
– Una compañía de bebidas intentaba comprender el impacto de la oferta
de descuentos sobre las ventas. El modelo de data mining predecía que
el aumento de precio generaría un aumento de las venta, lo cuál no es
de sentido común. El problema consistía en que el mercado de bebidas
es estacional, con algunos momentos muy altos como Navidades o el
verano. Durante esos momentos no se ofrecía ningún descuento a los
clientes, lo que afectaba al resultado del análisis. El modelo fue refinado
para tener en cuenta situaciones de estacionalidad.
Los Sistemas de Soporte a la Decisión en la empresa
Página 41
© 2009 IDE-CESEM.
42. Errores comunes en los procesos de data
mining
La búsqueda de la “perfección estadística”
Si los resultados son inusualmente buenos en términos estadísticos,
– Empresa deseaba predecir el número de ventas potencial por metro
cuadrado de algunas nuevas localizaciones para sus tiendas, a fin de
adquirir las mejores. El sistema predecía las ventas futuras de cada
localización con un grado de exactitud del 98%.
– Se descubrió que una de las variables empleadas era la división entre los
ingresos y los metros cuadrados de las nuevas tiendas. Precisamente el
valor que se quería obtener era los ingresos a conseguir en la nueva
tienda, por lo que no podía figurar esta variable como factor
independiente del resultado. El nuevo modelo mostraba un ratio de
exactitud del 60%, mucho más en línea con las expectivas.
– Las medidas estadísticas que utilizan los algoritmos de negocio fueron
diseñados por estadísticos, no por expertos en marketing. Por ello,
muchos valores parecen bajos, cuando en realidad son bastante altos.
Los Sistemas de Soporte a la Decisión en la empresa
Página 42
debemos también preocuparnos.
Ejemplo:
© 2009 IDE-CESEM.
43. Los Sistemas de Soporte a la Decisión en la empresa
Página 43
Índice
· Introducción a data mining
· Técnicas de data mining
· Metodología Data Mining
· Soluciones Técnicas
· Casos prácticos
© 2009 IDE-CESEM.
44. Comparativa de Herramientas de Data
Mining: DSS Clementine
– GUI intuitivo que facilita la programación.
– Las técnicas de Data mining se complementan las unas con las
otras.
– Facilidad de utilización elevada para la complejidad de soluciones
analíticas que aporta.
– Cubre todos los procesos de data mining más empleados.
Los Sistemas de Soporte a la Decisión en la empresa
Página 44
Fortalezas
Debilidades
– No soporta Windows de fábrica
– No optimizado para arquitecturas paralelas.
– Problema para entornos masivos de datos.
© 2009 IDE-CESEM.
45. Comparativa de Herramientas de Data
Mining: IBM Intelligent Miner
– Muy adecuada para análisis de clustering
– Optimizado para grandes bases de datos en entorno IBM
– Posibilidad de ser empleada por usuarios no especialistas
– Problemas de usabilidad con su nuevo interface Java
– Sólo funciona bien en plataformas IBM
– Datos deben estar en tablas DB2
– Se requiere un significativo soporte por parte de consultores /
servicios de IBM
Los Sistemas de Soporte a la Decisión en la empresa
Página 45
Fortalezas
Debilidades
© 2009 IDE-CESEM.
46. Comparativa de Herramientas de Data
Mining: SAS Enterprise Miner
– Solución end to end: incorpora la gran mayoría de las soluciones
analíticas requeridas
– Capacidades estadísticas muy potentes.
– Adecuado para entornos masivos de datos.
– Las técnicas de data mining no se complementan.
– Funcionalidad limitada en cuanto a árboles de decisión.
– Integración de tipo manual.
– Requiere ser empleada por expertos con conocimiento
estádísticos avanzados.
Los Sistemas de Soporte a la Decisión en la empresa
Página 46
Fortalezas
Debilidades
© 2009 IDE-CESEM.
47. Calidad de los datos y adecuación al modelo analítico
Proveer al proyecto con herramientas y personal capacitado
Encontrar al espónsor adecuado
– A ser posible, alguien por encima de los responsables
de IT y marketing.
Planificar un ROI razonable para cumplir expectativas.
Proceso prueba – error:
– Involucrar a responsables de negocio para hacer el
modelo y validar resultados.
Los Sistemas de Soporte a la Decisión en la empresa
Página 47
Factores críticos de éxito
(granularidad, serie temporal)
© 2009 IDE-CESEM.
48. Los Sistemas de Soporte a la Decisión en la empresa
Página 48
Índice
· Introducción a data mining
· Técnicas de data mining
· Metodología Data Mining
· Soluciones Técnicas
· Casos prácticos
© 2009 IDE-CESEM.
49. Dispone de red de concesionarios que repara los coches en garantía.
Los concesionarios son reembolsados inmediatamente por el coste
de la reparación.
Disponían de una pequeño grupo de auditores que revisaban
manualmente después del pago la justificación del coste cargado por
el concesionario.
Algunas de esas peticiones son injustificadas: uso de demasiadas
piezas de recambio o demasiado tiempo, misma petición de dinero
varias veces por el mismo hecho.
El proceso de auditoría requería mucho tiempo y era poco eficiente
(sólo se detectaba algún problema en un 2% de las facturas).
Por otro lado, los auditores sólo podían revisar un 10% de las
– Reducir el coste de pagos por garantía,
– Reducir el tiempo requerido para el análisis, mejorando la cantidad de facturas
Los Sistemas de Soporte a la Decisión en la empresa
Página 49
Toyota USA
facturas.
Los objetivos de Toyota eran:
fraudulentas encontradas.
– Cambiar el comportamiento de algunos concesionarios.
© 2009 IDE-CESEM.
50. La solución de Data Mining no sólo debía ser capaz de definir si
una factura fraudulenta sino también definir por qué
No podían usarse modelos de comportamientos pasados… debido
a la escasez de facturas fraudulentas encontradas.
Definición de las características del “concesionario fraudulento”
Se emplearon diversas técnicas: redes neuronales, razonamiento
Las soluciones de razonamiento inductivo fueron muy útiles
– Era preciso diferenciar qué facturas no eran normales y explicar por qué
– Adecuadas para combinar conocimiento explícito de los expertos con el
Resultados: Descenso de 1% de pagos por garantía, y descenso
de costes de los procesos de auditoría: 3 MM $ anuales.
Los Sistemas de Soporte a la Decisión en la empresa
Página 50
Toyota USA
para tomar medidas preventivas.
inductivo, estadísticas tradicionales.
implícito en los datos.
© 2009 IDE-CESEM.
51. Empresa Aseguradora
La línea de seguro de automóvil ha reportado pérdida de rentabilidad
Rentabilidad es el ratio entre ingresos por primas + ingresos por
La rentabilidad está generalmente relacionada con una fijación
adecuada de precios /bonus a cada segmento de clientela.
Para encontrar esos segmentos se empleaba el siguiente proceso:
– Selección de pólizas, basada en experiencia personal, intuición…
– Solicitud al mainframe de los datos de las pólizas
– Análisis de la rentabilidad y comparación con otros segmentos, se
Se valoran 10-15 variables sobre un subset de 200,000 clientes.
El análisis inicial tarda 4 semanas. Cada análisis adicional implican 2
Por ello el banco no puede realizar este análisis siempre que lo
Los Sistemas de Soporte a la Decisión en la empresa
Página 51
los pasados años.
inversiones frente a gastos por reclamaciones.
obtienen características de los segmentos.
semanas más
desea.
© 2009 IDE-CESEM.
52. La solución combinó soluciones de Data Mining y
Data mining se empleó para la búsqueda de clusters y la
visualización para explorar los clusters de una forma rápida
El análisis señala los clusters de clientes en función de
diferentes variables. Las variables y los resultados se
demuestran a través de soluciones gráficas para comprobar
la validez del cluster.
Posteriormente se emplearon técnicas predictivas para
analizar los clusters más rentables (razonamiento inductivo),
para predecir futuros comportamientos de clientes.
Los Sistemas de Soporte a la Decisión en la empresa
Página 52
Empresa Aseguradora
visualización.
© 2009 IDE-CESEM.
53. Disco S.A.
Importante cadena de supermercados de Argentina. 230 supermercados, 16.000
La empresa ha creado un programa de fidelización a clientes, DiscoPlus.
Recompensa a sus clientes más fieles, con el objetivo de obtener datos.
Datos se encontraban en distintos servidores
– Esos datos eran extraidos a un data mart
– Se formaba un cubo OLAP sobre el que se construían reportes en formato de hoja
– Los usuarios dependían absolutamente del departamento de IT para conseguir la
– Sistema no podía adaptarse a aumento de necesidades y usuarios.
– Usuario final solamente accedía a los datos suministrados en la hoja Excel.
– Datos no se suministraban con la puntualidad necesaria. No informes a la medida.
Los Sistemas de Soporte a la Decisión en la empresa
Página 53
empleados.
– Ofrece descuentos y promociones especiales.
– Se afiliaron dos millones de personas.
Excel.
– enviados a los usuarios de negocio.
Problemas:
información.
© 2009 IDE-CESEM.
54. Disco S.A.
Optó por crear un data warehouse para integrar toda la información
El primer proyecto de explotación lo lideró marketing.
– Soluciones OLAP cubrían la mayor parte de las necesidades de análisis del
– Adicionalmente, data mining para encontrar modelos de comportamiento.
Técnicas de clustering: en primer lugar para separar en grupos a los
clientes, grupos basados en la frecuencia de compra.
Técnica de segmentación para comprender características de cada
– Se utilizó una variable objetivo, los puntos por utilización de la tarjeta
– El resultado del árbol de decisión mostró que las variables que más
explicaban la utilización del programa Discoplus eran la edad, la situación
geográfica, y el estado civil.
Los Sistemas de Soporte a la Decisión en la empresa
Página 54
disponible de sus clientes más fieles.
– Tecnología Microsoft SQL Server database.
departamento.
grupo.
Segmentación, árboles de decisión:
generados por el conjunto de los usuarios.
© 2009 IDE-CESEM.
55. Resultados del análisis a través de data mining fueron a su vez
guardados en el cubo OLAP, que permite a todos los usuarios finales
un rápido acceso.
Resultados:
Acceso más rápido a la información de sus clientes.
Comprender qué variables estaban relacionadas con la utilización del
Departamento de marketing podía ahora enviar mensajes mucho
Y, además, poner los productos más interesantes a disposición de los
Los Sistemas de Soporte a la Decisión en la empresa
Página 55
Disco S.A.
programa Discoplus.
más enfocados y diferenciados a sus clientes.
usuarios del programa, en función de su perfil.
© 2009 IDE-CESEM.
56. Retos de la implantación.
Training del usuario final en la explotación del data
warehouse.
– Usuario final sólo estaba habituado a reportes estáticos en Excel
– Educarle en las nuevas capacidades relacionadas con OLAP.
– Hoja Excel capaz de generar queries al cubo.
– Programa ETL había sido creado hace unos cuantos años, y la
forma en que los datos eran extraídos, agregados y limpiados
había variado con el paso del tiempo.
– Al no ser los datos homogéneos hubo que trabajar transformando
los datos guardados al formato más homogéneo posible.
Los Sistemas de Soporte a la Decisión en la empresa
Página 56
Disco S.A.
Calidad de los datos,
© 2009 IDE-CESEM.
Editor's Notes <number>
<number>
<number>
How about OLAP? It’s really just more reporting.
<number>
Operational systems alone are very expensive
They require a long time to implement.
They don’t really give you a measurable ROI.
THEY ARE ABSOLUTELY NECESSARY TO DO BUSINESS IN TODAY’s WORLD
Business Intelligence systems require a second wave of investment
They improve your knowledge about your business
They can help you get to ROI
Predictive analytics require a relatively small investment
They can get you to profitability fast
Traditional predictive analytics get you to the first green hump, which is directly limited by the number of Analysts and Statisticians
Only automated and embedded Analytics like KXEN get you the steep incremental ROI
<number>
<number>
Data Mining is an iterative process that receives data in a relational or flat file form as its input and generates valuable information as output (i.e., the underlying patterns and relationships of the data).
It is important to understand/define business objectives and to keep business knowledgeable people involved at all stages of analysis.
The data must be prepared for analysis during the Data Pre-Processing step, This step can take any number of forms, such as sampling, statistical analysis, correlation analysis, and/or cluster and feature analysis. In addition, some common data warehousing steps are performed. The data is checked for consistency, consolidated, and organized. At this point business rules can also be applied to the data. Any operations, such as the calculation of derived parameters or aggregation of data in fields or discretization of variables, are completed as well The data should also be available for exploration at all times during the Knowledge Exploration process, since data mining is a highly iterative process.
The next three steps are the ones most often associated with data mining: the construction, validation, and verification of the model.
During model construction, the selected techniques and tools are applied to construct the data mining model (e.g., determine rules for identifying patterns, build models for customer scoring).
Model validation and verification are collectively referred to as model evaluation. They are in fact two separate activities required for testing/evaluating the models.
The model is validated based on pre-determined levels of accuracy and precision. Precision, consistency of the results, is determined by using a test data set that was not used for model construction. Accuracy, goodness of the answer, is determined by yet another test set. It should be noted that, in general, there is always a trade off between the accuracy of the results and the complexity of models, namely, as the model becomes more complex, the accuracy of the model generally increases.
Then, the model is verified against current business knowledge and the preliminary data analysis results, in order to confirm that the business objectives are met.
Finally, the data mining insight is deployed. It can be deployed by rolling out a “scoring model” or applying new insights to business (for example, offering specific cross-selling suggestions to a customer)
<number>
<number>
<number>
<number>
<number>
1) Data Quality - Data is required. Specifically clean, good quality. Volume of data is often less important than the data relevancy to the business question under examination. Often the largest amount of time is spent on data cleansing and calculating the relevancy of the data. Do not rely on billing or production data only. To do CRM you need personal customer information for example.
2) Do not start a data mining project without the proper skills and consultant experience. This would most often set the expectation too high and will confuse and even demotivate the client. A strong data miner is mandatory. S/He can supervise a team of several beginners that can be statistician at the beginning, Since Data Preparation (Data set or mart creation, data cleansing and consolidation) is mandatory, a couple of database (SQL - data) knowledgeable person is required.
3) Clearly Defined Business Objectives - data mining needs guidance in order to focus the analysis. For example, is the purpose to understand what customer segments exist? Find out who is loyal? Find out who would be likely attrite?. The objective must be documented. The integration of the knowledge at the end of the discovery phase must be thought at the beginning of the phase. If knowledge is discovered, who will be impacted, what process needs to be modified….
4) A data Mining project must be driven by the Business. It can be driven by the marketing department but should not be driven by the IT department. One will focus on small important but tactical problems whereas under IT umbrellas the outcome might not serve the business purposes. The Sponsor must be above the IT and Marketing head. The acceptance from these 2 groups’ heads is however mandatory.
5) Reasonable and planned ROI. Do not pass the message of gold nuggets inside the dusty mine, you will put yourself in trouble. The economic model (like in a business case) must be set as early as possible. The ROI must be planned with some assumption for the prediction rate. One must be careful with ROI. Do not sell gold before having seen the smallest nugget.
6)Analysis Approach/Iterative - The business objectives and the data characteristics are taken into account when developing the model (or analysis approach). Certain techniques lend themselves better to specific types of data (categorical, continuous etc.) and to certain types of questions (ie., predictive, induction). For example very different approaches can be taken to identify fraudulent transactions 1) can look for fraud based on known fraudulent behavior/transactions 2) can look for fraud by looking for transactions that are atypical. Data mining model development is an iterative process, the business reviewers must be available for frequent and short reviews to drive the data mining team work with the DM manager.
<number>