4.data mining

Master Sistemas de Información
7. Introducción al Data Mining
Zigor de la Quintana (zdelaquintana@yahoo.es)

Los Sistemas de Soporte a la Decisión en la empresa
Página 2
Índice
· Introducción a data mining
· Técnicas de data mining
· Metodología Data Mining
· Soluciones Técnicas
· Casos prácticos
© 2009 IDE-CESEM.

Herramientas de descubrimiento de
conocimiento o data mining
 Son las propias herramientas las que extraen modelos y
– Los seres humanos disponemos de una capacidad limitada para
analizar series de datos o correlaciones y encontrar modelos y
extrapolarlos al futuro.
– Gap datos Vs conocimientos
– Datos acumulados
– Sistema por el cual los analistas emplean herramientas de análisis
matemático y estadístico aplicadas sobre datos históricos y
relevantes para el negocio, para identificar relaciones entre variables
y modelos que permitan entender mejor procesos actuales o con
cierta probabilidad hechos futuros.
Página 3
tendencias de la información
 Útiles debido a que:
 Data Mining:
© 2009 IDE-CESEM.

¿Por qué herramientas de descubrimiento de
conocimiento?
 Ahora que disponemos de una herramienta OLAP, podemos
analizar y buscar por las dimensiones, pero ¿por dónde
empezamos para entender por qué el cliente abandonó la
compañía?
Página 4
10%
© 2009 IDE-CESEM.
8%
6%
4%
2%
0%
Customer Defection
Q3 2001 Q4 2001 Q1 2002 Q2 2002 Q3 2002 Q4 2002
East
Central
West

Los proveedores sostienen que Data Mining
genera el mayor ROI
Página 5
Positive
Returns
© 2009 IDE-CESEM.
Break Even
Operational
Systems
ROI (%) Negative
Returns
Time (Years)
Business
Intelligence
Predictive
Analytics
Cumulative ROI
Source: Jack Noonan, CEO SPSS, 2002

Página 6
Índice
· Casos prácticos
© 2009 IDE-CESEM.

1. Regresiones
 Identificación de una función capaz de describir la relación entre
variables independientes y las variables dependientes que interesan
al usuario
 Los usuarios de negocio identifican esta función utilizando datos del
pasado y la utilizan para predecir datos del futuro.
 Algunas de las preguntas que desean responder son:
– Ventas de mi próximo mes teniendo en cuenta factores estacionales (estamos en
– ¿Cómo puede afectar a mis ventas los gastos en publicidad?
 Permiten realizar al usuario de negocio análisis de sensibilidad
– Se explora el efecto de cambiar algún parámetro en las variables dependientes.
– Análisis muy común, “elasticidad del precio”.
– *Si aumento en un 1% el precio de un artículo, cómo afectará a su demanda?
– ¿Si aumento el salario de mis empleados en un 2%, cómo mejorará su índice de
Página 7
Navidad o en época de rebajas)?
satisfacción?
© 2009 IDE-CESEM.

Página 8
1. Regresiones (cont)
 Las regresiones también
pueden generar un análisis
probabilístico entre algunas
variables y la ocurrencia de un
evento.
– Probabilidad de que un cliente deje
la compañía
– Probabilidad de que un empleado
dimita
– Ratio de respuesta de un cliente a
una oferta comercial (mailing,
campañas de marketing…).
– Probabilidad de impago de un
cliente.
© 2009 IDE-CESEM.

2. Clustering
 Permite identificación de relaciones entre grupos de datos
 Estadísticas y algoritmos creados por el software…
 pretende partir grandes bases de datos en diferentes grupos de
 Parece que clustering es una técnica idéntica a la definida en cuanto a
segmentación, pero:
– Técnicas de clustering están diseñadas para identificar agrupaciones de
variables similares sin tener en cuenta un objetivo en concreto.
– Las técnicas de segmentación miden dependencia de las variables con
Página 9
variables que ofrecen datos similares.
respecto a un objetivo.
© 2009 IDE-CESEM.

2. Clustering. Herramientas y
técnicas: K-Means clustering (SAS
Enterprise Miner)
 La herramienta identifica los subsegmentos de clientela
Página 10
© 2009 IDE-CESEM.
Age
Income
 Decidir sobre el máximo número de
clusters
 Asignar semillas (clientes)
aleatoriamente a los clusters.
 Análisis
 Analizar la distancia estadística entre
cada consumidor y cada semilla
(primero) o media de cada cluster.
 Asignar cada cliente a la media del
cluster más cercano.
 Mover cada cluster para posicionarlo
en torno a dos medidas de clientes.
 Operar hasta que los clusters dejan
de moverse

 Técnicas llamadas “no dirigidas”, ya que no precisan de intervención
 No consume (comparado con otras técnicas) grandes cantidades de
capacidad de procesamiento en entornos masivos de datos.
Página 11
2. Clustering
 Limitaciones:
– No ofrecen un gran detalle
– No tiene capacidad predictiva, tan solo explicativa.
– Útil, pero no exacta.
humana para su correcto funcionamiento.
© 2009 IDE-CESEM.

 Identifican las variables independientes que afectan de manera más
– Usuario selecciona un determinado objetivo que quiere analizar (rentabilidad,
– Después selecciona el conjunto de variables que, según su entendimiento de
– Usuario interactúa con el análisis y redefine las variables.
– Perfiles de riesgo de clientes solicitantes de préstamos o tarjetas.
– Perfiles de empleados y clientes.
– Perfiles de clientes más rentables.
– Etc…
Página 12
(3) Segmentación
preeminente a las variables dependientes.
 “Técnicas de data mining dirigidas”.
ingresos, probabilidad de abandono…)…
negocio, influyen en ese objetivo…
 Algunas de las aplicaciones de estas técnicas son:
© 2009 IDE-CESEM.

(3) Segmentación
 La técnica de segmentación se caracteriza por la utilización de árboles de
– Chaid (Chi Squared Automatic Interaction Detection), y
– CART (Classification and Regression Tree Technique).
 Dividir las variables en subgrupos de variables y comprender su impacto en el
 El resultado para el usuario final es una visión más veraz de las relaciones de
causa y efecto entre las variables y el objetivo seleccionado.
Página 13
decisión.
 Los algorimos más empleados son:
objetivo a través de técnicas estadísticas.
© 2009 IDE-CESEM.

(3) Segmentación
 Ejemplo: Conjunto de clientes, a los que se quiere segmentar teniendo
 El proceso pretende agrupar a los clientes en función de las variables
que, en relación a los ingresos, presentan grupos con mayores
diferencias en sus medias.
 En ejemplo se ha visto que existen tres grupos diferenciados,
 Proceso vuelve a realizarse en cada subgrupo hasta que ningún
subgrupo puede ser dividido, de forma estadísticamente significativa
Página 14
en cuenta sus ingresos.
relacionados con la variable edad.
© 2009 IDE-CESEM.

(3) Segmentación
 Ejemplo: aplicación de marketing. Identificación de personas
 Se lanza primero una campaña enfocada a un grupo de test.
Se recoge como dato qué clientes responden al mail (valor
“1” y qué clientes no “valor 0”.
 Ratio de respuesta del grupo es de 0,0206 (2,06%). Si sólo
envío mails a mujeres de la región “Noroeste” y a toda la
región Sur, estaré mejorando mi ratio de respuesta.
Página 15
objeto de una campaña de mailing.
© 2009 IDE-CESEM.

(3) Segmentación
 Técnica complementaria a la de clustering.
 Puede analizarse un conjunto de datos con la técnica de
clustering para determinar qué clientes están empleando una
determinada página web.
 Comprender en profundidad a ese conjunto de clientes,
seleccionado un objetivo y las variables que entendemos que
afectan a su comportamiento.
 El resultado del análisis puede aportar al usuario final una vista
con forma de árbol del impacto estadístico:
– Rangos de ingresos y sus correspondientes utilizaciones diferenciadas de
Página 16
la página web.
© 2009 IDE-CESEM.

(3) Segmentación
– ¿Puede el cliente intuitivamente nombrar cada segmento? Puede pensar
cómo utilizarlo desde un punto de vista de negocio?
Página 17
 Analizar cada segmento con el cliente
© 2009 IDE-CESEM.
SEGMENT
1 2 3 4 5 6 All
Population 129,303 52,048 7,625 198,929 8,849 3,166 399,920
Percent 32% 13% 2% 50% 2% 1% 100%
Age 40 42 41 39 41 42 40
# of Accounts 1.15 1.30 1.32 1.17 1.27 1.75 1.19
Asset Level $29,201 $121,209 $340,565 $40,156 $45,106 $359,379 $55,527
Recency 126 36 32 54 42 32 74
Longevity 549 379 385 399 491 604 448
Income $18.76 $259.46 $1,533.18 $72.07 $317.02 $1,118.12 $120.78
Channel 1 $2.87 $13.34 $9.64 $5.27 $6.02 $28.13 $5.82
Channel 2 $13.49 $166.08 $879.96 $51.42 $277.08 $816.43 $80.93
Channel 3 $2.40 $80.05 $643.58 $15.38 $33.92 $273.56 $34.03
# Items Transacted 69 1,666 25,869 823 771 11,456 1,250
Safer 43 758 3,069 32 73 2,590 209
Aggressive 27 907 22,799 791 666 8,784 1,039
Safe Ratio 59.3% 56.1% 14.8% 8.6% 12.4% 25.6% 31.5%
# of Transactions 0.46 4.49 25.88 1.40 7.11 22.93 2.26
Type 1 0.44 4.38 25.84 1.36 1.45 13.95 2.02
Type 2 0.02 0.11 0.04 0.04 5.66 8.98 0.24
Type 1 Ratio 5.2% 2.4% 0.2% 3.0% 79.6% 39.2% 10.6%
Contracts 0.11 0.57 0.34 0.18 31.78 75.93 1.51
Type 1 Orders 1.06 15.66 92.05 4.69 5.03 44.30 6.93
Type 2 Orders 0.06 0.37 0.16 0.14 22.49 33.14 0.90
Testers Engaged Confident Conservative Risky High Rollers
Color Key
Highest Segment
2nd Place Segment
Lowest Segment

(4) Herramientas y Técnicas: Redes
Neuronales
Página 18
 El principio es generar
conocimiento a través de
elementos
interconexionados.
 Capaces de generar
algoritmos predictivos.
Imitan el proceso de
aprendizaje del cerebro
humano
 Sistema “caja negra”, útiles
cuando es difícil modelizar
desde el principio.
© 2009 IDE-CESEM.

Neuronales
 Parecido con las regresiones,
 Examinan datos históricos y generan la función que mejor relaciona las
variables independientes o explicatorias y las variables dependientes
 El error entre lo que el modelo predice y lo que ha realmente ocurrido en
 Construido el modelo, este se aplica al futuro para predecir hechos.
 Aplicaciones de redes neuronales son similares a las descritas para el
caso de las regresiones, pero su capacidad predictiva, es muy superior.
 lA igual que las técnicas de segmentación, es una de las más creíbles
Página 19
el pasado sea mínimo.
dentro del data mining.
© 2009 IDE-CESEM.

Neuronales
 Origen:
– Intento de replicar el funcionamiento del cerebro humano.
 Cada neurona toma las sumas ponderadas de sus datos de
entrada y se aplica una función no lineal al resultado, lo que
permite realizar análisis no lineales.
 Cualquier neurona puede ser conectada a otra, pero debe
 Modo muy común: modelo de tres capas, cada capa de
neuronas está integrada con la capa anterior.
Página 20
mantenerse la dirección del análisis.
© 2009 IDE-CESEM.

Neuronales
 Utilizacion similar a casos de regresiones, aunque con
 Las regresiones y redes neuronales intentan analizar no
solamente la validez del modelo definido…
 Sino de analizar las desviaciones encontradas entre el
modelo resultante y los datos originales, si existen
algunas variables que podrían tener influencia en el
modelo y no se están considerando.
 Esta capacidad de análisis sitúa a las técnicas de redes
neuronales por encima del resto de técnicas.
(clustering, segmentación…).
 El modelo creado con las redes neuronales puede
utilizarse para predecir eventos futuros o realizar
análisis de sensibilidad.
Página 21
resultados más espectaculares.
© 2009 IDE-CESEM.

 Un análisis de clustering permite identificar a “grosso
modo”, que tipos de clientes están utilizando una
determinada web site….
 Un análisis de segmentación y clasificación identifica las
variables más relevantes y sectores de variables que
tiene un efecto en una variable objetivo (por ejemplo,
su grado reutilización).,,
 Las redes neuronales pueden entonces ser utilizadas
para determinar si el modelo es creíble, cómo las
variables se influencian entre sí, y sí el modelo está
dejando alguna variable relevante de lado.
Página 22
Combinación de técnicas.
© 2009 IDE-CESEM.

(5) Análisis de asociaciones.
 Esta técnica permite calcular probabilidades o propensiones
de que ocurra un determinado evento si ocurren otros
eventos.
 Esta técnica emplea funciones de frecuencia y probabilidad
para estimar la probabilidad de que ocurra.
 Algunas de las técnicas más utilizadas son:
– Análisis “Market basket” (p.e. en el verano cuando alguien compra
una hamburguesa, o salchichas o hielo, también comprarán
carbón vegetal el 74% de las veces, y estas compras representan
un 25% de las ventas totales de carbón vegetal).
– Control de calidad: (el 30% de los conmutadores eléctricos que no
pasan el control de calidad tienen problemas de cableado, y se
construyen los viernes en el turno de tarde).
Página 23
© 2009 IDE-CESEM.

Página 24
(6) Visualización
 Tradicionalmente se ha
minusvalorado este
tipo de herramienta.
 El ojo humano es una
poderosa herramienta
en cuanto a la
búsqueda de patrones.
 Especialmente indicada
para analizar gran
cantidad de datos en
torno a una o pocas
variables.
– Algunos ejemplos
podrían ser los mercados
financieros, informes
económicos, etc…
© 2009 IDE-CESEM.

(6) Visualización
 Esencial para comenzar un proyecto de Data Mining,
cuando hay un grupo de datos y variables muy elevados
Página 25
 Es interesante para la
fase inicial de selección
de variables…
 Análisis de la calidad de
datos del DW…
 Y para la de control
(comparación del output
de los modelos para
validar efectividad)
© 2009 IDE-CESEM.

 ,No cambiar el tipo de gráfico, sino mantener el mismo
gráfico todos los días.
– Usuario no tendrá que realizar un ejercicio de comprensión de los
ejes del gráfico cada vez que intenta analizar unos datos.
 Los gráficos complejos introducen innecesariamente la
necesidad de que el usuario invierta tiempo en su
comprensión.
– Los mejores gráficos se crean habitualmente empleando los modelos
 Por su utilidad, la mayoría de las soluciones de data
mining y OLAP incorporan estos gráficos a sus paquetes de
soluciones.
Página 26
más básicos y sencillos.
© 2009 IDE-CESEM.

Página 27
Índice
· Casos prácticos
© 2009 IDE-CESEM.

Herramientas de descubrimiento de
conocimiento
 Requieren ser manejadas por usuarios muy avanzados
(casi siempre expertos en modelos matemáticos pero
con ciertos conocimientos de negocio)
– Aunque las herramientas están evolucionando para incorporar a
 Algunos problemas que suelen encontrarse
– Exactitud del modelo: decisión de qué variables tienen sentido
para la creación del modelo y cuáles no.
– Importancia de la información: decisión de qué modelos y reglas
son suficientemente importantes como para ser comunicadas.
Página 28
usuarios intermedios.
© 2009 IDE-CESEM.
Nuevamente, debe conocerse bien el negocio
– Envío al usuario correcto: Las tendencias deben ser informadas a
un usuario que puede actuar para incidir sobre ellas y cuyo
performance está controlado numéricamente.

Metodología del entorno Data Mining
 Empezar con muestra con significación estadística.
 Usar técnicas estadísticas y de visualización para analizar variables.
 El 70% de un proyecto de data mining consiste en analizar y preparar datos.
Confirm Business Objectives
Model
Verification
If … Then
...
c++
Reports
Página 29
Data Pre-
Processing
© 2009 IDE-CESEM.
Model
Validation
Data Exploration
Sampling
Data
Manipulation
Model
Construction
Training
Parameter
Setting
Determine
Accuracy and
Precision of
Model
Test Model
Against
Business
Knowledge
Knowledge
Transformation
Transform
Model into a
Deployable
Format

Utilización correcta de data Mining
 Utilización del soluciones data mining conduce a resultados
 Sólo si se emplea la técnica correctamente; no fácil:
– Complejidad matemática de los modelos
– Calidad y suficiencia de los datos almacenados
– Perfil del usuario del modelo (que debe ser un experto en
matemáticas con conocimientos de IT y, preferiblemente, del sector
en el que opera la compañía…)
– Inversión en la plataforma de data mining…
 Además debe integrarse el resultado del análisis de data
mining con las herramientas adecuadas CRM operativo.
Página 30
espectaculares.
© 2009 IDE-CESEM.

Utilización correcta de data Mining (cont)
 Imaginemos banco, en Diciembre, a la hora de lanzar su
campaña de captación de subscripciones a los planes de
pensiones…
 Lanza un proyecto de data mining para identificar
compradores potenciales dentro de su clientela…
 Debe poner esos datos a disposición de su call center, para
realizar llamadas de venta, y de sus vendedores en las
oficinas.
 Para ello, debe contar con una buena solución de gestión
de campañas, y una buena plataforma de ventas.
 Los comerciales deben preocuparse por dar feedback del
Página 31
resultado.
© 2009 IDE-CESEM.

 Si almacenas los datos sin calidad o sin la granularidad mínima
precisa, estás destinado a fracasar con tu estrategia de data mining.
 No existe herramienta ni metodología de data mining que sea capaz
de trabajar con entornos de datos inadeacuados.
 ¿Valen mis datos para algo?
 En algunos casos se lanzan proyectos de data mining para ver si, con suerte,
la empresa es capaz de encontrar algo de información relevante en medio de
ese mar de datos en el que se ha convertido su data warehouse.
 Los resultados son impredecibles y no siempre un proyecto de data mining
lanzado con este enfoque es capaz de llegar a un resultado mínimamente
satifactorio.
 Un análisis más honesto de la calidad y cantidad de nuestros datos
debería llevarnos a la conclusión de qué tipo de análisis soporta.
 Si sólo soporta análisis OLAP, debemos olvidarnos del data mining
hasta que se haya modificado el estado de los datos.
Página 32
Relevancia de los datos
© 2009 IDE-CESEM.

Nueve pasos para garantizar el éxito de una
estrategia de data Mining.
1. Decidir qué queremos saber.
 Qué usos vamos a dar al data mining y por tanto qué técnicas de
data mining queremos emplear sobre nuestros datos.
 Investigar qué técnicas son las más adecuadas y si existe una
2. Seleccionar cómo medimos lo que queremos saber
 Imaginemos que queremos medir si una nueva marca de nuestra
empresa ha tenido éxito. Podemos hacerlo analizando el incremento
de ingresos o el reconocimiento de marca que muestran nuestros
clientes actuales o potenciales.
 Ambas medidas pueden ser empleadas con éxito. Pero desde un
punto de vista de cálculo son absolutamente distintas. Por ello
tendremos que definir cuáles son las medidas cuya maximización
vamos a perseguir utilizando herramientas de data mining.
 Los algoritmos de data mining van a necesitar que esa medida sea
un número, por lo que si se trata de una medida cualitativa tendrá
que ser traducida a una escala. Si la medida fuera un “si” o un “no”,
puede traducirse en término de unos y ceros.
Página 33
relación coste – beneficio de la inversión.
© 2009 IDE-CESEM.

estrategia de data Mining (cont).
3. Decidir la granularidad y temporalidad de los datos.
 Datos deben ser homogéneos.
 y debe haber una cantidad suficiente de los mismos.
 Si sólo hay unos cuantos medidas de meses o semanas
almacenados, por más que sean homogéneas, el resultado no será
adecuado.
– Técnicas de segmentación y clustering precisan cientos o miles de ellas.
– Regresiones y redes neuronales requieren menos datos por variable, a nivel de
 Si, analizados este apartado, la empresa llega a la conclusión de que
no dispone de datos suficientes, se puede optar por las siguientes
opciones:
– Conseguir más datos, esperando más tiempo o base externa.
– Cambiar planes iniciales y utilizar otra técnica de data mining.
 Problema disponer de demasiados datos: muestrear, agregar,
Página 34
cientos, y como mínimo 20.
segmentar…
© 2009 IDE-CESEM.

4. Analizar factores clave
 Los factores claves son variables que pueden tener un impacto en las
medidas que hemos identificado como relevantes en el apartado dos.
 Por ejemplo, si queremos analizar el impacto de nuestras acciones
de marketing sobre el incremento de ventas, algunas de estas
variables podrían ser; “inversión en publicidad en televisión”.
“inversión en publicidad en radio”… Deberán tenerse en cuenta
también factores estacionales como “precio” del producto, para
tener en cuenta épocas de rebajas, descuentos….
 Identificadas las variables, resultará una prioridad que los datos
asociados a las mismas sean guardados en el data warehouse.
 Si identificamos demasiadas variables, tendremos que seleccionar
sólo algunas para realizar el análisis de data mining, y, en función
del resultado (como hemos visto cuando analizábamos las diferentes
técnicas de data mining), determinar si lanzamos de nuevo el
análisis incorporando nuevas variable y desestimando otras.
Página 35
© 2009 IDE-CESEM.

5. Adquisición de los datos.
 Analizadas las variables que estimamos son claves, puede resultar
 Puede buscarse una variable que pensemos pueda tener un
comportamiento similar, y sí disponga de los datos precisos
 Podemos intentar lanzar el proceso de análisis sin la variable.
 Al mismo tiempo modificaremos el dara warehouse para garantizar
 Si por un error algunos de los campos están en blanco:
 Puede dejarse un valor en blanco, ya que las herramientas de data
mining están preparadas para trabajar con campos en blanco.
 Puede insertarse la media del resto de valores, de forma que su
 Si los datos son series temporales, se pueden utilizar una regresión
de los datos anteriores para completar el dato que falta.
Página 36
que los datos no estén disponibles:
que los datos se incluyan en el futuro.
impacto será neutral.
© 2009 IDE-CESEM.

Página 37
6. Visualización de los datos.
 Técnicas de visualización
para entender si las
variables críticas que
hemos elegido realmente
serán significativas para el
análisis que queremos
efectuar.
 Ejemplo de abajo, al
visualizar los datos de
Agosto – Septiembre, se
comprueba que el dato no
puede ser correcto. Si el
error es grave o se repite,
la variable tendrá que ser
desestimada.
© 2009 IDE-CESEM.

7. Transformación de los datos
 Expertos en data mining han adquirido tal experiencia que
conocen no solamente qué variables suelen ser las más
críticas para explicar el modelo sino cómo crear variables
derivadas de las que una empresa suele guardar para
conseguir mejores resultados.
 Para ello modifican los datos existentes:
 Haciendo agregaciones.
 Nomalizando precios en función de la inflación del periodo.
 Trabajando con ratios de variables (relación entre mi
Página 38
precio y precio de un competidor)
 Etc…
© 2009 IDE-CESEM.

8. Ejecución del proceso de data mining.
 Se trata de un proceso muy automatizado, en el que el software
toma sus propias decisiones para optimizar el resultado.
9. Revisión del resultado.
 Utilizando las técnicas de visualización o de redes
neuronales, debe analizarse si el modelo creado es
suficientemente creíble o debe ser refinado con variables
adicionales.
Página 39
© 2009 IDE-CESEM.

Errores comunes en los procesos de data
mining
1. Manipular los datos para que arrojen el modelo esperado.
 Algoritmos no arrojan grandes diferencias por ser ajustados. Los
algoritmos de empresas competidoras a las del proveedor elegido
son prácticamente idénticos.
 No conviene hacer hincapié en estos factores.
 Si los datos obtenidos no son los esperados, tenemos que
preguntarnos:
– ¿Puede el resultado ser realmente cierto?
– ¿Confío en la calidad de los datos empleados y en las variables
– En estos casos la exploración gráfica es también de gran utilidad.
Página 40
seleccionadas?
© 2009 IDE-CESEM.

mining
1. Manipular los datos para que arrojen el modelo esperado.
 Ejemplos:
– Una empresa productora de ropa quería entender la relación entre sus
gastos en publicidad y las ventas obtenidas. Un análisis de data mining,
sorprendentemente, no encontró ninguna. La razón fue que se estaba
intentando relacionar datos de inversión en publicidad del mes con
ventas del mes. La publicidad necesita tiempo para afectar al
comportamiento de compra del consumidor, por lo que las ventas de un
mes deben relacionarse con la inversión de meses anteriores.
– Una compañía de bebidas intentaba comprender el impacto de la oferta
de descuentos sobre las ventas. El modelo de data mining predecía que
el aumento de precio generaría un aumento de las venta, lo cuál no es
de sentido común. El problema consistía en que el mercado de bebidas
es estacional, con algunos momentos muy altos como Navidades o el
verano. Durante esos momentos no se ofrecía ningún descuento a los
clientes, lo que afectaba al resultado del análisis. El modelo fue refinado
para tener en cuenta situaciones de estacionalidad.
Página 41
© 2009 IDE-CESEM.

mining
La búsqueda de la “perfección estadística”
 Si los resultados son inusualmente buenos en términos estadísticos,
– Empresa deseaba predecir el número de ventas potencial por metro
cuadrado de algunas nuevas localizaciones para sus tiendas, a fin de
adquirir las mejores. El sistema predecía las ventas futuras de cada
localización con un grado de exactitud del 98%.
– Se descubrió que una de las variables empleadas era la división entre los
ingresos y los metros cuadrados de las nuevas tiendas. Precisamente el
valor que se quería obtener era los ingresos a conseguir en la nueva
tienda, por lo que no podía figurar esta variable como factor
independiente del resultado. El nuevo modelo mostraba un ratio de
exactitud del 60%, mucho más en línea con las expectivas.
– Las medidas estadísticas que utilizan los algoritmos de negocio fueron
diseñados por estadísticos, no por expertos en marketing. Por ello,
muchos valores parecen bajos, cuando en realidad son bastante altos.
Página 42
debemos también preocuparnos.
 Ejemplo:
© 2009 IDE-CESEM.

Comparativa de Herramientas de Data
Mining: DSS Clementine
– GUI intuitivo que facilita la programación.
– Las técnicas de Data mining se complementan las unas con las
otras.
– Facilidad de utilización elevada para la complejidad de soluciones
analíticas que aporta.
– Cubre todos los procesos de data mining más empleados.
Página 44
 Fortalezas
 Debilidades
– No soporta Windows de fábrica
– No optimizado para arquitecturas paralelas.
– Problema para entornos masivos de datos.
© 2009 IDE-CESEM.

Mining: IBM Intelligent Miner
– Muy adecuada para análisis de clustering
– Optimizado para grandes bases de datos en entorno IBM
– Posibilidad de ser empleada por usuarios no especialistas
– Problemas de usabilidad con su nuevo interface Java
– Sólo funciona bien en plataformas IBM
– Datos deben estar en tablas DB2
– Se requiere un significativo soporte por parte de consultores /
servicios de IBM
Página 45
 Fortalezas
 Debilidades
© 2009 IDE-CESEM.

Mining: SAS Enterprise Miner
– Solución end to end: incorpora la gran mayoría de las soluciones
analíticas requeridas
– Capacidades estadísticas muy potentes.
– Adecuado para entornos masivos de datos.
– Las técnicas de data mining no se complementan.
– Funcionalidad limitada en cuanto a árboles de decisión.
– Integración de tipo manual.
– Requiere ser empleada por expertos con conocimiento
estádísticos avanzados.
Página 46
 Fortalezas
 Debilidades
© 2009 IDE-CESEM.

 Calidad de los datos y adecuación al modelo analítico
 Proveer al proyecto con herramientas y personal capacitado
 Encontrar al espónsor adecuado
– A ser posible, alguien por encima de los responsables
de IT y marketing.
 Planificar un ROI razonable para cumplir expectativas.
 Proceso prueba – error:
– Involucrar a responsables de negocio para hacer el
modelo y validar resultados.
Página 47
Factores críticos de éxito
(granularidad, serie temporal)
© 2009 IDE-CESEM.

 Dispone de red de concesionarios que repara los coches en garantía.
Los concesionarios son reembolsados inmediatamente por el coste
de la reparación.
 Disponían de una pequeño grupo de auditores que revisaban
manualmente después del pago la justificación del coste cargado por
el concesionario.
 Algunas de esas peticiones son injustificadas: uso de demasiadas
piezas de recambio o demasiado tiempo, misma petición de dinero
varias veces por el mismo hecho.
 El proceso de auditoría requería mucho tiempo y era poco eficiente
(sólo se detectaba algún problema en un 2% de las facturas).
 Por otro lado, los auditores sólo podían revisar un 10% de las
– Reducir el coste de pagos por garantía,
– Reducir el tiempo requerido para el análisis, mejorando la cantidad de facturas
Página 49
Toyota USA
facturas.
 Los objetivos de Toyota eran:
fraudulentas encontradas.
– Cambiar el comportamiento de algunos concesionarios.
© 2009 IDE-CESEM.

 La solución de Data Mining no sólo debía ser capaz de definir si
una factura fraudulenta sino también definir por qué
 No podían usarse modelos de comportamientos pasados… debido
a la escasez de facturas fraudulentas encontradas.
 Definición de las características del “concesionario fraudulento”
 Se emplearon diversas técnicas: redes neuronales, razonamiento
 Las soluciones de razonamiento inductivo fueron muy útiles
– Era preciso diferenciar qué facturas no eran normales y explicar por qué
– Adecuadas para combinar conocimiento explícito de los expertos con el
 Resultados: Descenso de 1% de pagos por garantía, y descenso
de costes de los procesos de auditoría: 3 MM $ anuales.
Página 50
Toyota USA
para tomar medidas preventivas.
inductivo, estadísticas tradicionales.
implícito en los datos.
© 2009 IDE-CESEM.

Empresa Aseguradora
 La línea de seguro de automóvil ha reportado pérdida de rentabilidad
 Rentabilidad es el ratio entre ingresos por primas + ingresos por
 La rentabilidad está generalmente relacionada con una fijación
adecuada de precios /bonus a cada segmento de clientela.
 Para encontrar esos segmentos se empleaba el siguiente proceso:
– Selección de pólizas, basada en experiencia personal, intuición…
– Solicitud al mainframe de los datos de las pólizas
– Análisis de la rentabilidad y comparación con otros segmentos, se
 Se valoran 10-15 variables sobre un subset de 200,000 clientes.
 El análisis inicial tarda 4 semanas. Cada análisis adicional implican 2
 Por ello el banco no puede realizar este análisis siempre que lo
Página 51
los pasados años.
inversiones frente a gastos por reclamaciones.
obtienen características de los segmentos.
semanas más
desea.
© 2009 IDE-CESEM.

 La solución combinó soluciones de Data Mining y
 Data mining se empleó para la búsqueda de clusters y la
visualización para explorar los clusters de una forma rápida
 El análisis señala los clusters de clientes en función de
diferentes variables. Las variables y los resultados se
demuestran a través de soluciones gráficas para comprobar
la validez del cluster.
 Posteriormente se emplearon técnicas predictivas para
analizar los clusters más rentables (razonamiento inductivo),
para predecir futuros comportamientos de clientes.
Página 52
Empresa Aseguradora
visualización.
© 2009 IDE-CESEM.

Disco S.A.
 Importante cadena de supermercados de Argentina. 230 supermercados, 16.000
 La empresa ha creado un programa de fidelización a clientes, DiscoPlus.
 Recompensa a sus clientes más fieles, con el objetivo de obtener datos.
 Datos se encontraban en distintos servidores
– Esos datos eran extraidos a un data mart
– Se formaba un cubo OLAP sobre el que se construían reportes en formato de hoja
– Los usuarios dependían absolutamente del departamento de IT para conseguir la
– Sistema no podía adaptarse a aumento de necesidades y usuarios.
– Usuario final solamente accedía a los datos suministrados en la hoja Excel.
– Datos no se suministraban con la puntualidad necesaria. No informes a la medida.
Página 53
empleados.
– Ofrece descuentos y promociones especiales.
– Se afiliaron dos millones de personas.
Excel.
– enviados a los usuarios de negocio.
 Problemas:
información.
© 2009 IDE-CESEM.

Disco S.A.
 Optó por crear un data warehouse para integrar toda la información
 El primer proyecto de explotación lo lideró marketing.
– Soluciones OLAP cubrían la mayor parte de las necesidades de análisis del
– Adicionalmente, data mining para encontrar modelos de comportamiento.
 Técnicas de clustering: en primer lugar para separar en grupos a los
clientes, grupos basados en la frecuencia de compra.
 Técnica de segmentación para comprender características de cada
– Se utilizó una variable objetivo, los puntos por utilización de la tarjeta
– El resultado del árbol de decisión mostró que las variables que más
explicaban la utilización del programa Discoplus eran la edad, la situación
geográfica, y el estado civil.
Página 54
disponible de sus clientes más fieles.
– Tecnología Microsoft SQL Server database.
departamento.
grupo.
 Segmentación, árboles de decisión:
generados por el conjunto de los usuarios.
© 2009 IDE-CESEM.

 Resultados del análisis a través de data mining fueron a su vez
guardados en el cubo OLAP, que permite a todos los usuarios finales
un rápido acceso.
Resultados:
 Acceso más rápido a la información de sus clientes.
 Comprender qué variables estaban relacionadas con la utilización del
 Departamento de marketing podía ahora enviar mensajes mucho
 Y, además, poner los productos más interesantes a disposición de los
Página 55
Disco S.A.
programa Discoplus.
más enfocados y diferenciados a sus clientes.
usuarios del programa, en función de su perfil.
© 2009 IDE-CESEM.

Retos de la implantación.
 Training del usuario final en la explotación del data
warehouse.
– Usuario final sólo estaba habituado a reportes estáticos en Excel
– Educarle en las nuevas capacidades relacionadas con OLAP.
– Hoja Excel capaz de generar queries al cubo.
– Programa ETL había sido creado hace unos cuantos años, y la
forma en que los datos eran extraídos, agregados y limpiados
había variado con el paso del tiempo.
– Al no ser los datos homogéneos hubo que trabajar transformando
los datos guardados al formato más homogéneo posible.
Página 56
Disco S.A.
 Calidad de los datos,
© 2009 IDE-CESEM.

4.data mining

Recommended

Recommended

More Related Content

Similar to 4.data mining

Similar to 4.data mining (20)

More from IDE-CESEM Business School. www.ide-cesem.com

More from IDE-CESEM Business School. www.ide-cesem.com (20)

Recently uploaded

Recently uploaded (20)

4.data mining

Editor's Notes