SlideShare a Scribd company logo
1 of 56
Master Sistemas de Información 
7. Introducción al Data Mining 
Zigor de la Quintana (zdelaquintana@yahoo.es)
Los Sistemas de Soporte a la Decisión en la empresa 
Página 2 
Índice 
· Introducción a data mining 
· Técnicas de data mining 
· Metodología Data Mining 
· Soluciones Técnicas 
· Casos prácticos 
© 2009 IDE-CESEM.
Herramientas de descubrimiento de 
conocimiento o data mining 
 Son las propias herramientas las que extraen modelos y 
– Los seres humanos disponemos de una capacidad limitada para 
analizar series de datos o correlaciones y encontrar modelos y 
extrapolarlos al futuro. 
– Gap datos Vs conocimientos 
– Datos acumulados 
– Sistema por el cual los analistas emplean herramientas de análisis 
matemático y estadístico aplicadas sobre datos históricos y 
relevantes para el negocio, para identificar relaciones entre variables 
y modelos que permitan entender mejor procesos actuales o con 
cierta probabilidad hechos futuros. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 3 
tendencias de la información 
 Útiles debido a que: 
 Data Mining: 
© 2009 IDE-CESEM.
¿Por qué herramientas de descubrimiento de 
conocimiento? 
 Ahora que disponemos de una herramienta OLAP, podemos 
analizar y buscar por las dimensiones, pero ¿por dónde 
empezamos para entender por qué el cliente abandonó la 
compañía? 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 4 
10% 
© 2009 IDE-CESEM. 
8% 
6% 
4% 
2% 
0% 
Customer Defection 
Q3 2001 Q4 2001 Q1 2002 Q2 2002 Q3 2002 Q4 2002 
East 
Central 
West
Los proveedores sostienen que Data Mining 
genera el mayor ROI 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 5 
Positive 
Returns 
© 2009 IDE-CESEM. 
Break Even 
Operational 
Systems 
ROI (%) Negative 
Returns 
Time (Years) 
Business 
Intelligence 
Predictive 
Analytics 
Cumulative ROI 
Source: Jack Noonan, CEO SPSS, 2002
Los Sistemas de Soporte a la Decisión en la empresa 
Página 6 
Índice 
· Introducción a data mining 
· Técnicas de data mining 
· Metodología Data Mining 
· Soluciones Técnicas 
· Casos prácticos 
© 2009 IDE-CESEM.
1. Regresiones 
 Identificación de una función capaz de describir la relación entre 
variables independientes y las variables dependientes que interesan 
al usuario 
 Los usuarios de negocio identifican esta función utilizando datos del 
pasado y la utilizan para predecir datos del futuro. 
 Algunas de las preguntas que desean responder son: 
– Ventas de mi próximo mes teniendo en cuenta factores estacionales (estamos en 
– ¿Cómo puede afectar a mis ventas los gastos en publicidad? 
 Permiten realizar al usuario de negocio análisis de sensibilidad 
– Se explora el efecto de cambiar algún parámetro en las variables dependientes. 
– Análisis muy común, “elasticidad del precio”. 
– *Si aumento en un 1% el precio de un artículo, cómo afectará a su demanda? 
– ¿Si aumento el salario de mis empleados en un 2%, cómo mejorará su índice de 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 7 
Navidad o en época de rebajas)? 
satisfacción? 
© 2009 IDE-CESEM.
Los Sistemas de Soporte a la Decisión en la empresa 
Página 8 
1. Regresiones (cont) 
 Las regresiones también 
pueden generar un análisis 
probabilístico entre algunas 
variables y la ocurrencia de un 
evento. 
– Probabilidad de que un cliente deje 
la compañía 
– Probabilidad de que un empleado 
dimita 
– Ratio de respuesta de un cliente a 
una oferta comercial (mailing, 
campañas de marketing…). 
– Probabilidad de impago de un 
cliente. 
© 2009 IDE-CESEM.
2. Clustering 
 Permite identificación de relaciones entre grupos de datos 
 Estadísticas y algoritmos creados por el software… 
 pretende partir grandes bases de datos en diferentes grupos de 
 Parece que clustering es una técnica idéntica a la definida en cuanto a 
segmentación, pero: 
– Técnicas de clustering están diseñadas para identificar agrupaciones de 
variables similares sin tener en cuenta un objetivo en concreto. 
– Las técnicas de segmentación miden dependencia de las variables con 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 9 
variables que ofrecen datos similares. 
respecto a un objetivo. 
© 2009 IDE-CESEM.
2. Clustering. Herramientas y 
técnicas: K-Means clustering (SAS 
Enterprise Miner) 
 La herramienta identifica los subsegmentos de clientela 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 10 
© 2009 IDE-CESEM. 
Age 
Income 
 Decidir sobre el máximo número de 
clusters 
 Asignar semillas (clientes) 
aleatoriamente a los clusters. 
 Análisis 
 Analizar la distancia estadística entre 
cada consumidor y cada semilla 
(primero) o media de cada cluster. 
 Asignar cada cliente a la media del 
cluster más cercano. 
 Mover cada cluster para posicionarlo 
en torno a dos medidas de clientes. 
 Operar hasta que los clusters dejan 
de moverse
 Técnicas llamadas “no dirigidas”, ya que no precisan de intervención 
 No consume (comparado con otras técnicas) grandes cantidades de 
capacidad de procesamiento en entornos masivos de datos. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 11 
2. Clustering 
 Limitaciones: 
– No ofrecen un gran detalle 
– No tiene capacidad predictiva, tan solo explicativa. 
– Útil, pero no exacta. 
humana para su correcto funcionamiento. 
© 2009 IDE-CESEM.
 Identifican las variables independientes que afectan de manera más 
– Usuario selecciona un determinado objetivo que quiere analizar (rentabilidad, 
– Después selecciona el conjunto de variables que, según su entendimiento de 
– Usuario interactúa con el análisis y redefine las variables. 
– Perfiles de riesgo de clientes solicitantes de préstamos o tarjetas. 
– Perfiles de empleados y clientes. 
– Perfiles de clientes más rentables. 
– Etc… 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 12 
(3) Segmentación 
preeminente a las variables dependientes. 
 “Técnicas de data mining dirigidas”. 
ingresos, probabilidad de abandono…)… 
negocio, influyen en ese objetivo… 
 Algunas de las aplicaciones de estas técnicas son: 
© 2009 IDE-CESEM.
(3) Segmentación 
 La técnica de segmentación se caracteriza por la utilización de árboles de 
– Chaid (Chi Squared Automatic Interaction Detection), y 
– CART (Classification and Regression Tree Technique). 
 Dividir las variables en subgrupos de variables y comprender su impacto en el 
 El resultado para el usuario final es una visión más veraz de las relaciones de 
causa y efecto entre las variables y el objetivo seleccionado. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 13 
decisión. 
 Los algorimos más empleados son: 
objetivo a través de técnicas estadísticas. 
© 2009 IDE-CESEM.
(3) Segmentación 
 Ejemplo: Conjunto de clientes, a los que se quiere segmentar teniendo 
 El proceso pretende agrupar a los clientes en función de las variables 
que, en relación a los ingresos, presentan grupos con mayores 
diferencias en sus medias. 
 En ejemplo se ha visto que existen tres grupos diferenciados, 
 Proceso vuelve a realizarse en cada subgrupo hasta que ningún 
subgrupo puede ser dividido, de forma estadísticamente significativa 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 14 
en cuenta sus ingresos. 
relacionados con la variable edad. 
© 2009 IDE-CESEM.
(3) Segmentación 
 Ejemplo: aplicación de marketing. Identificación de personas 
 Se lanza primero una campaña enfocada a un grupo de test. 
Se recoge como dato qué clientes responden al mail (valor 
“1” y qué clientes no “valor 0”. 
 Ratio de respuesta del grupo es de 0,0206 (2,06%). Si sólo 
envío mails a mujeres de la región “Noroeste” y a toda la 
región Sur, estaré mejorando mi ratio de respuesta. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 15 
objeto de una campaña de mailing. 
© 2009 IDE-CESEM.
(3) Segmentación 
 Técnica complementaria a la de clustering. 
 Puede analizarse un conjunto de datos con la técnica de 
clustering para determinar qué clientes están empleando una 
determinada página web. 
 Comprender en profundidad a ese conjunto de clientes, 
seleccionado un objetivo y las variables que entendemos que 
afectan a su comportamiento. 
 El resultado del análisis puede aportar al usuario final una vista 
con forma de árbol del impacto estadístico: 
– Rangos de ingresos y sus correspondientes utilizaciones diferenciadas de 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 16 
la página web. 
© 2009 IDE-CESEM.
(3) Segmentación 
– ¿Puede el cliente intuitivamente nombrar cada segmento? Puede pensar 
cómo utilizarlo desde un punto de vista de negocio? 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 17 
 Analizar cada segmento con el cliente 
© 2009 IDE-CESEM. 
SEGMENT 
1 2 3 4 5 6 All 
Population 129,303 52,048 7,625 198,929 8,849 3,166 399,920 
Percent 32% 13% 2% 50% 2% 1% 100% 
Age 40 42 41 39 41 42 40 
# of Accounts 1.15 1.30 1.32 1.17 1.27 1.75 1.19 
Asset Level $29,201 $121,209 $340,565 $40,156 $45,106 $359,379 $55,527 
Recency 126 36 32 54 42 32 74 
Longevity 549 379 385 399 491 604 448 
Income $18.76 $259.46 $1,533.18 $72.07 $317.02 $1,118.12 $120.78 
Channel 1 $2.87 $13.34 $9.64 $5.27 $6.02 $28.13 $5.82 
Channel 2 $13.49 $166.08 $879.96 $51.42 $277.08 $816.43 $80.93 
Channel 3 $2.40 $80.05 $643.58 $15.38 $33.92 $273.56 $34.03 
# Items Transacted 69 1,666 25,869 823 771 11,456 1,250 
Safer 43 758 3,069 32 73 2,590 209 
Aggressive 27 907 22,799 791 666 8,784 1,039 
Safe Ratio 59.3% 56.1% 14.8% 8.6% 12.4% 25.6% 31.5% 
# of Transactions 0.46 4.49 25.88 1.40 7.11 22.93 2.26 
Type 1 0.44 4.38 25.84 1.36 1.45 13.95 2.02 
Type 2 0.02 0.11 0.04 0.04 5.66 8.98 0.24 
Type 1 Ratio 5.2% 2.4% 0.2% 3.0% 79.6% 39.2% 10.6% 
Contracts 0.11 0.57 0.34 0.18 31.78 75.93 1.51 
Type 1 Orders 1.06 15.66 92.05 4.69 5.03 44.30 6.93 
Type 2 Orders 0.06 0.37 0.16 0.14 22.49 33.14 0.90 
Testers Engaged Confident Conservative Risky High Rollers 
Color Key 
Highest Segment 
2nd Place Segment 
Lowest Segment
(4) Herramientas y Técnicas: Redes 
Neuronales 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 18 
 El principio es generar 
conocimiento a través de 
elementos 
interconexionados. 
 Capaces de generar 
algoritmos predictivos. 
Imitan el proceso de 
aprendizaje del cerebro 
humano 
 Sistema “caja negra”, útiles 
cuando es difícil modelizar 
desde el principio. 
© 2009 IDE-CESEM.
(4) Herramientas y Técnicas: Redes 
Neuronales 
 Parecido con las regresiones, 
 Examinan datos históricos y generan la función que mejor relaciona las 
variables independientes o explicatorias y las variables dependientes 
 El error entre lo que el modelo predice y lo que ha realmente ocurrido en 
 Construido el modelo, este se aplica al futuro para predecir hechos. 
 Aplicaciones de redes neuronales son similares a las descritas para el 
caso de las regresiones, pero su capacidad predictiva, es muy superior. 
 lA igual que las técnicas de segmentación, es una de las más creíbles 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 19 
el pasado sea mínimo. 
dentro del data mining. 
© 2009 IDE-CESEM.
(4) Herramientas y Técnicas: Redes 
Neuronales 
 Origen: 
– Intento de replicar el funcionamiento del cerebro humano. 
 Cada neurona toma las sumas ponderadas de sus datos de 
entrada y se aplica una función no lineal al resultado, lo que 
permite realizar análisis no lineales. 
 Cualquier neurona puede ser conectada a otra, pero debe 
 Modo muy común: modelo de tres capas, cada capa de 
neuronas está integrada con la capa anterior. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 20 
mantenerse la dirección del análisis. 
© 2009 IDE-CESEM.
(4) Herramientas y Técnicas: Redes 
Neuronales 
 Utilizacion similar a casos de regresiones, aunque con 
 Las regresiones y redes neuronales intentan analizar no 
solamente la validez del modelo definido… 
 Sino de analizar las desviaciones encontradas entre el 
modelo resultante y los datos originales, si existen 
algunas variables que podrían tener influencia en el 
modelo y no se están considerando. 
 Esta capacidad de análisis sitúa a las técnicas de redes 
neuronales por encima del resto de técnicas. 
(clustering, segmentación…). 
 El modelo creado con las redes neuronales puede 
utilizarse para predecir eventos futuros o realizar 
análisis de sensibilidad. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 21 
resultados más espectaculares. 
© 2009 IDE-CESEM.
 Un análisis de clustering permite identificar a “grosso 
modo”, que tipos de clientes están utilizando una 
determinada web site…. 
 Un análisis de segmentación y clasificación identifica las 
variables más relevantes y sectores de variables que 
tiene un efecto en una variable objetivo (por ejemplo, 
su grado reutilización).,, 
 Las redes neuronales pueden entonces ser utilizadas 
para determinar si el modelo es creíble, cómo las 
variables se influencian entre sí, y sí el modelo está 
dejando alguna variable relevante de lado. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 22 
Combinación de técnicas. 
© 2009 IDE-CESEM.
(5) Análisis de asociaciones. 
 Esta técnica permite calcular probabilidades o propensiones 
de que ocurra un determinado evento si ocurren otros 
eventos. 
 Esta técnica emplea funciones de frecuencia y probabilidad 
para estimar la probabilidad de que ocurra. 
 Algunas de las técnicas más utilizadas son: 
– Análisis “Market basket” (p.e. en el verano cuando alguien compra 
una hamburguesa, o salchichas o hielo, también comprarán 
carbón vegetal el 74% de las veces, y estas compras representan 
un 25% de las ventas totales de carbón vegetal). 
– Control de calidad: (el 30% de los conmutadores eléctricos que no 
pasan el control de calidad tienen problemas de cableado, y se 
construyen los viernes en el turno de tarde). 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 23 
© 2009 IDE-CESEM.
Los Sistemas de Soporte a la Decisión en la empresa 
Página 24 
(6) Visualización 
 Tradicionalmente se ha 
minusvalorado este 
tipo de herramienta. 
 El ojo humano es una 
poderosa herramienta 
en cuanto a la 
búsqueda de patrones. 
 Especialmente indicada 
para analizar gran 
cantidad de datos en 
torno a una o pocas 
variables. 
– Algunos ejemplos 
podrían ser los mercados 
financieros, informes 
económicos, etc… 
© 2009 IDE-CESEM.
(6) Visualización 
 Esencial para comenzar un proyecto de Data Mining, 
cuando hay un grupo de datos y variables muy elevados 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 25 
 Es interesante para la 
fase inicial de selección 
de variables… 
 Análisis de la calidad de 
datos del DW… 
 Y para la de control 
(comparación del output 
de los modelos para 
validar efectividad) 
© 2009 IDE-CESEM.
 ,No cambiar el tipo de gráfico, sino mantener el mismo 
gráfico todos los días. 
– Usuario no tendrá que realizar un ejercicio de comprensión de los 
ejes del gráfico cada vez que intenta analizar unos datos. 
 Los gráficos complejos introducen innecesariamente la 
necesidad de que el usuario invierta tiempo en su 
comprensión. 
– Los mejores gráficos se crean habitualmente empleando los modelos 
 Por su utilidad, la mayoría de las soluciones de data 
mining y OLAP incorporan estos gráficos a sus paquetes de 
soluciones. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 26 
más básicos y sencillos. 
© 2009 IDE-CESEM.
Los Sistemas de Soporte a la Decisión en la empresa 
Página 27 
Índice 
· Introducción a data mining 
· Técnicas de data mining 
· Metodología Data Mining 
· Soluciones Técnicas 
· Casos prácticos 
© 2009 IDE-CESEM.
Herramientas de descubrimiento de 
conocimiento 
 Requieren ser manejadas por usuarios muy avanzados 
(casi siempre expertos en modelos matemáticos pero 
con ciertos conocimientos de negocio) 
– Aunque las herramientas están evolucionando para incorporar a 
 Algunos problemas que suelen encontrarse 
– Exactitud del modelo: decisión de qué variables tienen sentido 
para la creación del modelo y cuáles no. 
– Importancia de la información: decisión de qué modelos y reglas 
son suficientemente importantes como para ser comunicadas. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 28 
usuarios intermedios. 
© 2009 IDE-CESEM. 
Nuevamente, debe conocerse bien el negocio 
– Envío al usuario correcto: Las tendencias deben ser informadas a 
un usuario que puede actuar para incidir sobre ellas y cuyo 
performance está controlado numéricamente.
Metodología del entorno Data Mining 
 Empezar con muestra con significación estadística. 
 Usar técnicas estadísticas y de visualización para analizar variables. 
 El 70% de un proyecto de data mining consiste en analizar y preparar datos. 
Confirm Business Objectives 
Model 
Verification 
If … Then 
... 
c++ 
Reports 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 29 
Data Pre- 
Processing 
© 2009 IDE-CESEM. 
Model 
Validation 
Data Exploration 
Sampling 
Data 
Manipulation 
Model 
Construction 
Training 
Parameter 
Setting 
Determine 
Accuracy and 
Precision of 
Model 
Test Model 
Against 
Business 
Knowledge 
Knowledge 
Transformation 
Transform 
Model into a 
Deployable 
Format
Utilización correcta de data Mining 
 Utilización del soluciones data mining conduce a resultados 
 Sólo si se emplea la técnica correctamente; no fácil: 
– Complejidad matemática de los modelos 
– Calidad y suficiencia de los datos almacenados 
– Perfil del usuario del modelo (que debe ser un experto en 
matemáticas con conocimientos de IT y, preferiblemente, del sector 
en el que opera la compañía…) 
– Inversión en la plataforma de data mining… 
 Además debe integrarse el resultado del análisis de data 
mining con las herramientas adecuadas CRM operativo. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 30 
espectaculares. 
© 2009 IDE-CESEM.
Utilización correcta de data Mining (cont) 
 Imaginemos banco, en Diciembre, a la hora de lanzar su 
campaña de captación de subscripciones a los planes de 
pensiones… 
 Lanza un proyecto de data mining para identificar 
compradores potenciales dentro de su clientela… 
 Debe poner esos datos a disposición de su call center, para 
realizar llamadas de venta, y de sus vendedores en las 
oficinas. 
 Para ello, debe contar con una buena solución de gestión 
de campañas, y una buena plataforma de ventas. 
 Los comerciales deben preocuparse por dar feedback del 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 31 
resultado. 
© 2009 IDE-CESEM.
 Si almacenas los datos sin calidad o sin la granularidad mínima 
precisa, estás destinado a fracasar con tu estrategia de data mining. 
 No existe herramienta ni metodología de data mining que sea capaz 
de trabajar con entornos de datos inadeacuados. 
 ¿Valen mis datos para algo? 
 En algunos casos se lanzan proyectos de data mining para ver si, con suerte, 
la empresa es capaz de encontrar algo de información relevante en medio de 
ese mar de datos en el que se ha convertido su data warehouse. 
 Los resultados son impredecibles y no siempre un proyecto de data mining 
lanzado con este enfoque es capaz de llegar a un resultado mínimamente 
satifactorio. 
 Un análisis más honesto de la calidad y cantidad de nuestros datos 
debería llevarnos a la conclusión de qué tipo de análisis soporta. 
 Si sólo soporta análisis OLAP, debemos olvidarnos del data mining 
hasta que se haya modificado el estado de los datos. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 32 
Relevancia de los datos 
© 2009 IDE-CESEM.
Nueve pasos para garantizar el éxito de una 
estrategia de data Mining. 
1. Decidir qué queremos saber. 
 Qué usos vamos a dar al data mining y por tanto qué técnicas de 
data mining queremos emplear sobre nuestros datos. 
 Investigar qué técnicas son las más adecuadas y si existe una 
2. Seleccionar cómo medimos lo que queremos saber 
 Imaginemos que queremos medir si una nueva marca de nuestra 
empresa ha tenido éxito. Podemos hacerlo analizando el incremento 
de ingresos o el reconocimiento de marca que muestran nuestros 
clientes actuales o potenciales. 
 Ambas medidas pueden ser empleadas con éxito. Pero desde un 
punto de vista de cálculo son absolutamente distintas. Por ello 
tendremos que definir cuáles son las medidas cuya maximización 
vamos a perseguir utilizando herramientas de data mining. 
 Los algoritmos de data mining van a necesitar que esa medida sea 
un número, por lo que si se trata de una medida cualitativa tendrá 
que ser traducida a una escala. Si la medida fuera un “si” o un “no”, 
puede traducirse en término de unos y ceros. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 33 
relación coste – beneficio de la inversión. 
© 2009 IDE-CESEM.
Nueve pasos para garantizar el éxito de una 
estrategia de data Mining (cont). 
3. Decidir la granularidad y temporalidad de los datos. 
 Datos deben ser homogéneos. 
 y debe haber una cantidad suficiente de los mismos. 
 Si sólo hay unos cuantos medidas de meses o semanas 
almacenados, por más que sean homogéneas, el resultado no será 
adecuado. 
– Técnicas de segmentación y clustering precisan cientos o miles de ellas. 
– Regresiones y redes neuronales requieren menos datos por variable, a nivel de 
 Si, analizados este apartado, la empresa llega a la conclusión de que 
no dispone de datos suficientes, se puede optar por las siguientes 
opciones: 
– Conseguir más datos, esperando más tiempo o base externa. 
– Cambiar planes iniciales y utilizar otra técnica de data mining. 
 Problema disponer de demasiados datos: muestrear, agregar, 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 34 
cientos, y como mínimo 20. 
segmentar… 
© 2009 IDE-CESEM.
Nueve pasos para garantizar el éxito de una 
estrategia de data Mining (cont). 
4. Analizar factores clave 
 Los factores claves son variables que pueden tener un impacto en las 
medidas que hemos identificado como relevantes en el apartado dos. 
 Por ejemplo, si queremos analizar el impacto de nuestras acciones 
de marketing sobre el incremento de ventas, algunas de estas 
variables podrían ser; “inversión en publicidad en televisión”. 
“inversión en publicidad en radio”… Deberán tenerse en cuenta 
también factores estacionales como “precio” del producto, para 
tener en cuenta épocas de rebajas, descuentos…. 
 Identificadas las variables, resultará una prioridad que los datos 
asociados a las mismas sean guardados en el data warehouse. 
 Si identificamos demasiadas variables, tendremos que seleccionar 
sólo algunas para realizar el análisis de data mining, y, en función 
del resultado (como hemos visto cuando analizábamos las diferentes 
técnicas de data mining), determinar si lanzamos de nuevo el 
análisis incorporando nuevas variable y desestimando otras. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 35 
© 2009 IDE-CESEM.
Nueve pasos para garantizar el éxito de una 
estrategia de data Mining (cont). 
5. Adquisición de los datos. 
 Analizadas las variables que estimamos son claves, puede resultar 
 Puede buscarse una variable que pensemos pueda tener un 
comportamiento similar, y sí disponga de los datos precisos 
 Podemos intentar lanzar el proceso de análisis sin la variable. 
 Al mismo tiempo modificaremos el dara warehouse para garantizar 
 Si por un error algunos de los campos están en blanco: 
 Puede dejarse un valor en blanco, ya que las herramientas de data 
mining están preparadas para trabajar con campos en blanco. 
 Puede insertarse la media del resto de valores, de forma que su 
 Si los datos son series temporales, se pueden utilizar una regresión 
de los datos anteriores para completar el dato que falta. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 36 
que los datos no estén disponibles: 
que los datos se incluyan en el futuro. 
impacto será neutral. 
© 2009 IDE-CESEM.
Nueve pasos para garantizar el éxito de una 
estrategia de data Mining (cont). 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 37 
6. Visualización de los datos. 
 Técnicas de visualización 
para entender si las 
variables críticas que 
hemos elegido realmente 
serán significativas para el 
análisis que queremos 
efectuar. 
 Ejemplo de abajo, al 
visualizar los datos de 
Agosto – Septiembre, se 
comprueba que el dato no 
puede ser correcto. Si el 
error es grave o se repite, 
la variable tendrá que ser 
desestimada. 
© 2009 IDE-CESEM.
Nueve pasos para garantizar el éxito de una 
estrategia de data Mining (cont). 
7. Transformación de los datos 
 Expertos en data mining han adquirido tal experiencia que 
conocen no solamente qué variables suelen ser las más 
críticas para explicar el modelo sino cómo crear variables 
derivadas de las que una empresa suele guardar para 
conseguir mejores resultados. 
 Para ello modifican los datos existentes: 
 Haciendo agregaciones. 
 Nomalizando precios en función de la inflación del periodo. 
 Trabajando con ratios de variables (relación entre mi 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 38 
precio y precio de un competidor) 
 Etc… 
© 2009 IDE-CESEM.
Nueve pasos para garantizar el éxito de una 
estrategia de data Mining (cont). 
8. Ejecución del proceso de data mining. 
 Se trata de un proceso muy automatizado, en el que el software 
toma sus propias decisiones para optimizar el resultado. 
9. Revisión del resultado. 
 Utilizando las técnicas de visualización o de redes 
neuronales, debe analizarse si el modelo creado es 
suficientemente creíble o debe ser refinado con variables 
adicionales. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 39 
© 2009 IDE-CESEM.
Errores comunes en los procesos de data 
mining 
1. Manipular los datos para que arrojen el modelo esperado. 
 Algoritmos no arrojan grandes diferencias por ser ajustados. Los 
algoritmos de empresas competidoras a las del proveedor elegido 
son prácticamente idénticos. 
 No conviene hacer hincapié en estos factores. 
 Si los datos obtenidos no son los esperados, tenemos que 
preguntarnos: 
– ¿Puede el resultado ser realmente cierto? 
– ¿Confío en la calidad de los datos empleados y en las variables 
– En estos casos la exploración gráfica es también de gran utilidad. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 40 
seleccionadas? 
© 2009 IDE-CESEM.
Errores comunes en los procesos de data 
mining 
1. Manipular los datos para que arrojen el modelo esperado. 
 Ejemplos: 
– Una empresa productora de ropa quería entender la relación entre sus 
gastos en publicidad y las ventas obtenidas. Un análisis de data mining, 
sorprendentemente, no encontró ninguna. La razón fue que se estaba 
intentando relacionar datos de inversión en publicidad del mes con 
ventas del mes. La publicidad necesita tiempo para afectar al 
comportamiento de compra del consumidor, por lo que las ventas de un 
mes deben relacionarse con la inversión de meses anteriores. 
– Una compañía de bebidas intentaba comprender el impacto de la oferta 
de descuentos sobre las ventas. El modelo de data mining predecía que 
el aumento de precio generaría un aumento de las venta, lo cuál no es 
de sentido común. El problema consistía en que el mercado de bebidas 
es estacional, con algunos momentos muy altos como Navidades o el 
verano. Durante esos momentos no se ofrecía ningún descuento a los 
clientes, lo que afectaba al resultado del análisis. El modelo fue refinado 
para tener en cuenta situaciones de estacionalidad. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 41 
© 2009 IDE-CESEM.
Errores comunes en los procesos de data 
mining 
La búsqueda de la “perfección estadística” 
 Si los resultados son inusualmente buenos en términos estadísticos, 
– Empresa deseaba predecir el número de ventas potencial por metro 
cuadrado de algunas nuevas localizaciones para sus tiendas, a fin de 
adquirir las mejores. El sistema predecía las ventas futuras de cada 
localización con un grado de exactitud del 98%. 
– Se descubrió que una de las variables empleadas era la división entre los 
ingresos y los metros cuadrados de las nuevas tiendas. Precisamente el 
valor que se quería obtener era los ingresos a conseguir en la nueva 
tienda, por lo que no podía figurar esta variable como factor 
independiente del resultado. El nuevo modelo mostraba un ratio de 
exactitud del 60%, mucho más en línea con las expectivas. 
– Las medidas estadísticas que utilizan los algoritmos de negocio fueron 
diseñados por estadísticos, no por expertos en marketing. Por ello, 
muchos valores parecen bajos, cuando en realidad son bastante altos. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 42 
debemos también preocuparnos. 
 Ejemplo: 
© 2009 IDE-CESEM.
Los Sistemas de Soporte a la Decisión en la empresa 
Página 43 
Índice 
· Introducción a data mining 
· Técnicas de data mining 
· Metodología Data Mining 
· Soluciones Técnicas 
· Casos prácticos 
© 2009 IDE-CESEM.
Comparativa de Herramientas de Data 
Mining: DSS Clementine 
– GUI intuitivo que facilita la programación. 
– Las técnicas de Data mining se complementan las unas con las 
otras. 
– Facilidad de utilización elevada para la complejidad de soluciones 
analíticas que aporta. 
– Cubre todos los procesos de data mining más empleados. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 44 
 Fortalezas 
 Debilidades 
– No soporta Windows de fábrica 
– No optimizado para arquitecturas paralelas. 
– Problema para entornos masivos de datos. 
© 2009 IDE-CESEM.
Comparativa de Herramientas de Data 
Mining: IBM Intelligent Miner 
– Muy adecuada para análisis de clustering 
– Optimizado para grandes bases de datos en entorno IBM 
– Posibilidad de ser empleada por usuarios no especialistas 
– Problemas de usabilidad con su nuevo interface Java 
– Sólo funciona bien en plataformas IBM 
– Datos deben estar en tablas DB2 
– Se requiere un significativo soporte por parte de consultores / 
servicios de IBM 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 45 
 Fortalezas 
 Debilidades 
© 2009 IDE-CESEM.
Comparativa de Herramientas de Data 
Mining: SAS Enterprise Miner 
– Solución end to end: incorpora la gran mayoría de las soluciones 
analíticas requeridas 
– Capacidades estadísticas muy potentes. 
– Adecuado para entornos masivos de datos. 
– Las técnicas de data mining no se complementan. 
– Funcionalidad limitada en cuanto a árboles de decisión. 
– Integración de tipo manual. 
– Requiere ser empleada por expertos con conocimiento 
estádísticos avanzados. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 46 
 Fortalezas 
 Debilidades 
© 2009 IDE-CESEM.
 Calidad de los datos y adecuación al modelo analítico 
 Proveer al proyecto con herramientas y personal capacitado 
 Encontrar al espónsor adecuado 
– A ser posible, alguien por encima de los responsables 
de IT y marketing. 
 Planificar un ROI razonable para cumplir expectativas. 
 Proceso prueba – error: 
– Involucrar a responsables de negocio para hacer el 
modelo y validar resultados. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 47 
Factores críticos de éxito 
(granularidad, serie temporal) 
© 2009 IDE-CESEM.
Los Sistemas de Soporte a la Decisión en la empresa 
Página 48 
Índice 
· Introducción a data mining 
· Técnicas de data mining 
· Metodología Data Mining 
· Soluciones Técnicas 
· Casos prácticos 
© 2009 IDE-CESEM.
 Dispone de red de concesionarios que repara los coches en garantía. 
Los concesionarios son reembolsados inmediatamente por el coste 
de la reparación. 
 Disponían de una pequeño grupo de auditores que revisaban 
manualmente después del pago la justificación del coste cargado por 
el concesionario. 
 Algunas de esas peticiones son injustificadas: uso de demasiadas 
piezas de recambio o demasiado tiempo, misma petición de dinero 
varias veces por el mismo hecho. 
 El proceso de auditoría requería mucho tiempo y era poco eficiente 
(sólo se detectaba algún problema en un 2% de las facturas). 
 Por otro lado, los auditores sólo podían revisar un 10% de las 
– Reducir el coste de pagos por garantía, 
– Reducir el tiempo requerido para el análisis, mejorando la cantidad de facturas 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 49 
Toyota USA 
facturas. 
 Los objetivos de Toyota eran: 
fraudulentas encontradas. 
– Cambiar el comportamiento de algunos concesionarios. 
© 2009 IDE-CESEM.
 La solución de Data Mining no sólo debía ser capaz de definir si 
una factura fraudulenta sino también definir por qué 
 No podían usarse modelos de comportamientos pasados… debido 
a la escasez de facturas fraudulentas encontradas. 
 Definición de las características del “concesionario fraudulento” 
 Se emplearon diversas técnicas: redes neuronales, razonamiento 
 Las soluciones de razonamiento inductivo fueron muy útiles 
– Era preciso diferenciar qué facturas no eran normales y explicar por qué 
– Adecuadas para combinar conocimiento explícito de los expertos con el 
 Resultados: Descenso de 1% de pagos por garantía, y descenso 
de costes de los procesos de auditoría: 3 MM $ anuales. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 50 
Toyota USA 
para tomar medidas preventivas. 
inductivo, estadísticas tradicionales. 
implícito en los datos. 
© 2009 IDE-CESEM.
Empresa Aseguradora 
 La línea de seguro de automóvil ha reportado pérdida de rentabilidad 
 Rentabilidad es el ratio entre ingresos por primas + ingresos por 
 La rentabilidad está generalmente relacionada con una fijación 
adecuada de precios /bonus a cada segmento de clientela. 
 Para encontrar esos segmentos se empleaba el siguiente proceso: 
– Selección de pólizas, basada en experiencia personal, intuición… 
– Solicitud al mainframe de los datos de las pólizas 
– Análisis de la rentabilidad y comparación con otros segmentos, se 
 Se valoran 10-15 variables sobre un subset de 200,000 clientes. 
 El análisis inicial tarda 4 semanas. Cada análisis adicional implican 2 
 Por ello el banco no puede realizar este análisis siempre que lo 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 51 
los pasados años. 
inversiones frente a gastos por reclamaciones. 
obtienen características de los segmentos. 
semanas más 
desea. 
© 2009 IDE-CESEM.
 La solución combinó soluciones de Data Mining y 
 Data mining se empleó para la búsqueda de clusters y la 
visualización para explorar los clusters de una forma rápida 
 El análisis señala los clusters de clientes en función de 
diferentes variables. Las variables y los resultados se 
demuestran a través de soluciones gráficas para comprobar 
la validez del cluster. 
 Posteriormente se emplearon técnicas predictivas para 
analizar los clusters más rentables (razonamiento inductivo), 
para predecir futuros comportamientos de clientes. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 52 
Empresa Aseguradora 
visualización. 
© 2009 IDE-CESEM.
Disco S.A. 
 Importante cadena de supermercados de Argentina. 230 supermercados, 16.000 
 La empresa ha creado un programa de fidelización a clientes, DiscoPlus. 
 Recompensa a sus clientes más fieles, con el objetivo de obtener datos. 
 Datos se encontraban en distintos servidores 
– Esos datos eran extraidos a un data mart 
– Se formaba un cubo OLAP sobre el que se construían reportes en formato de hoja 
– Los usuarios dependían absolutamente del departamento de IT para conseguir la 
– Sistema no podía adaptarse a aumento de necesidades y usuarios. 
– Usuario final solamente accedía a los datos suministrados en la hoja Excel. 
– Datos no se suministraban con la puntualidad necesaria. No informes a la medida. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 53 
empleados. 
– Ofrece descuentos y promociones especiales. 
– Se afiliaron dos millones de personas. 
Excel. 
– enviados a los usuarios de negocio. 
 Problemas: 
información. 
© 2009 IDE-CESEM.
Disco S.A. 
 Optó por crear un data warehouse para integrar toda la información 
 El primer proyecto de explotación lo lideró marketing. 
– Soluciones OLAP cubrían la mayor parte de las necesidades de análisis del 
– Adicionalmente, data mining para encontrar modelos de comportamiento. 
 Técnicas de clustering: en primer lugar para separar en grupos a los 
clientes, grupos basados en la frecuencia de compra. 
 Técnica de segmentación para comprender características de cada 
– Se utilizó una variable objetivo, los puntos por utilización de la tarjeta 
– El resultado del árbol de decisión mostró que las variables que más 
explicaban la utilización del programa Discoplus eran la edad, la situación 
geográfica, y el estado civil. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 54 
disponible de sus clientes más fieles. 
– Tecnología Microsoft SQL Server database. 
departamento. 
grupo. 
 Segmentación, árboles de decisión: 
generados por el conjunto de los usuarios. 
© 2009 IDE-CESEM.
 Resultados del análisis a través de data mining fueron a su vez 
guardados en el cubo OLAP, que permite a todos los usuarios finales 
un rápido acceso. 
Resultados: 
 Acceso más rápido a la información de sus clientes. 
 Comprender qué variables estaban relacionadas con la utilización del 
 Departamento de marketing podía ahora enviar mensajes mucho 
 Y, además, poner los productos más interesantes a disposición de los 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 55 
Disco S.A. 
programa Discoplus. 
más enfocados y diferenciados a sus clientes. 
usuarios del programa, en función de su perfil. 
© 2009 IDE-CESEM.
Retos de la implantación. 
 Training del usuario final en la explotación del data 
warehouse. 
– Usuario final sólo estaba habituado a reportes estáticos en Excel 
– Educarle en las nuevas capacidades relacionadas con OLAP. 
– Hoja Excel capaz de generar queries al cubo. 
– Programa ETL había sido creado hace unos cuantos años, y la 
forma en que los datos eran extraídos, agregados y limpiados 
había variado con el paso del tiempo. 
– Al no ser los datos homogéneos hubo que trabajar transformando 
los datos guardados al formato más homogéneo posible. 
Los Sistemas de Soporte a la Decisión en la empresa 
Página 56 
Disco S.A. 
 Calidad de los datos, 
© 2009 IDE-CESEM.

More Related Content

Similar to 4.data mining

SAS BUSINESS ANALYTICS PARA REALIZAR ANA
SAS BUSINESS ANALYTICS PARA REALIZAR ANASAS BUSINESS ANALYTICS PARA REALIZAR ANA
SAS BUSINESS ANALYTICS PARA REALIZAR ANA
jorge507504
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
Snoop Consulting
 
Arquitectura de datos empresariales actividad 2
Arquitectura de datos empresariales   actividad 2Arquitectura de datos empresariales   actividad 2
Arquitectura de datos empresariales actividad 2
CarlosTenelema1
 
Cuestionario N°3
Cuestionario N°3Cuestionario N°3
Cuestionario N°3
Mayra R H
 
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdfEntender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Edgar Joel Leon Rosales
 

Similar to 4.data mining (20)

Taller 2
Taller 2Taller 2
Taller 2
 
Taller 2
Taller 2Taller 2
Taller 2
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
SAS BUSINESS ANALYTICS PARA REALIZAR ANA
SAS BUSINESS ANALYTICS PARA REALIZAR ANASAS BUSINESS ANALYTICS PARA REALIZAR ANA
SAS BUSINESS ANALYTICS PARA REALIZAR ANA
 
Unidad 1. componentes del sistema
Unidad 1. componentes del sistemaUnidad 1. componentes del sistema
Unidad 1. componentes del sistema
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Presentacion Tics
Presentacion TicsPresentacion Tics
Presentacion Tics
 
Ais Optimizacion en la asignacion de carteras a agencias externas de cobranzas
Ais Optimizacion en la asignacion de carteras a agencias externas de cobranzasAis Optimizacion en la asignacion de carteras a agencias externas de cobranzas
Ais Optimizacion en la asignacion de carteras a agencias externas de cobranzas
 
Arquitectura de datos empresariales actividad 2
Arquitectura de datos empresariales   actividad 2Arquitectura de datos empresariales   actividad 2
Arquitectura de datos empresariales actividad 2
 
Simulador en toma de decisiones
Simulador en toma de decisionesSimulador en toma de decisiones
Simulador en toma de decisiones
 
Presentacion business analytics
Presentacion business analyticsPresentacion business analytics
Presentacion business analytics
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Cuestionario N°3
Cuestionario N°3Cuestionario N°3
Cuestionario N°3
 
C:\Fakepath\Tics
C:\Fakepath\TicsC:\Fakepath\Tics
C:\Fakepath\Tics
 
Tics
Tics Tics
Tics
 
Tics Niko[1]
Tics Niko[1]Tics Niko[1]
Tics Niko[1]
 
Tics Niko[1]
Tics Niko[1]Tics Niko[1]
Tics Niko[1]
 
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdfEntender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
DDS
DDSDDS
DDS
 

More from IDE-CESEM Business School. www.ide-cesem.com

More from IDE-CESEM Business School. www.ide-cesem.com (20)

Dirección estratégica de rrhh
Dirección estratégica de rrhhDirección estratégica de rrhh
Dirección estratégica de rrhh
 
Seminario de branding y marketing estratégico
Seminario de branding y marketing estratégicoSeminario de branding y marketing estratégico
Seminario de branding y marketing estratégico
 
Formacion trade products
Formacion trade productsFormacion trade products
Formacion trade products
 
3.derechos y deberes laborales, suspensión y permisos
3.derechos y deberes laborales, suspensión y permisos3.derechos y deberes laborales, suspensión y permisos
3.derechos y deberes laborales, suspensión y permisos
 
Business School. Seminario de branding y marketing estratégico
Business School. Seminario de branding y marketing estratégicoBusiness School. Seminario de branding y marketing estratégico
Business School. Seminario de branding y marketing estratégico
 
Dirección Estratégica de RRHH. Business School Ide-cesem
Dirección Estratégica de RRHH. Business School Ide-cesemDirección Estratégica de RRHH. Business School Ide-cesem
Dirección Estratégica de RRHH. Business School Ide-cesem
 
Todo lo que necesitas saber sobre derechos y deberes laborales
Todo lo que necesitas saber sobre derechos y deberes laboralesTodo lo que necesitas saber sobre derechos y deberes laborales
Todo lo que necesitas saber sobre derechos y deberes laborales
 
Formación IDE-CESEM. Master Executive - Marketing Mix
Formación IDE-CESEM. Master Executive - Marketing MixFormación IDE-CESEM. Master Executive - Marketing Mix
Formación IDE-CESEM. Master Executive - Marketing Mix
 
Business School IDE-CESEM. DIRECCIÓN ESTRATÉGICA DE LAS FINANZAS
Business School IDE-CESEM. DIRECCIÓN ESTRATÉGICA DE LAS FINANZASBusiness School IDE-CESEM. DIRECCIÓN ESTRATÉGICA DE LAS FINANZAS
Business School IDE-CESEM. DIRECCIÓN ESTRATÉGICA DE LAS FINANZAS
 
Master en Dirección y Gestión de Recursos Humanos
Master en Dirección y Gestión de Recursos HumanosMaster en Dirección y Gestión de Recursos Humanos
Master en Dirección y Gestión de Recursos Humanos
 
Conferencia cloud computing
Conferencia cloud computing   Conferencia cloud computing
Conferencia cloud computing
 
Formación IDE-CESEM. Entrevista con Carol escobar Vargas
Formación IDE-CESEM. Entrevista con Carol escobar VargasFormación IDE-CESEM. Entrevista con Carol escobar Vargas
Formación IDE-CESEM. Entrevista con Carol escobar Vargas
 
Diez claves de la externalización: retos e inconvenientes
Diez claves de la externalización: retos e inconvenientes Diez claves de la externalización: retos e inconvenientes
Diez claves de la externalización: retos e inconvenientes
 
Formación IDE-CESEM. La banca comercial del siglo XXI
Formación IDE-CESEM. La banca comercial del siglo XXIFormación IDE-CESEM. La banca comercial del siglo XXI
Formación IDE-CESEM. La banca comercial del siglo XXI
 
La gestión de riesgos en proyectos
La gestión de riesgos en proyectosLa gestión de riesgos en proyectos
La gestión de riesgos en proyectos
 
Formación IDE-CESEM. Un paso más. 30 años de outsourcing. Las barreras implíc...
Formación IDE-CESEM. Un paso más. 30 años de outsourcing. Las barreras implíc...Formación IDE-CESEM. Un paso más. 30 años de outsourcing. Las barreras implíc...
Formación IDE-CESEM. Un paso más. 30 años de outsourcing. Las barreras implíc...
 
Formación IDE-CESEM. Neuromarketing, una puerta abierta a la nueva realidad d...
Formación IDE-CESEM. Neuromarketing, una puerta abierta a la nueva realidad d...Formación IDE-CESEM. Neuromarketing, una puerta abierta a la nueva realidad d...
Formación IDE-CESEM. Neuromarketing, una puerta abierta a la nueva realidad d...
 
Formación IDE-CESEM. Cómo ser un inversor minorista en tiempos de crisis
Formación IDE-CESEM. Cómo ser un inversor minorista en tiempos de crisisFormación IDE-CESEM. Cómo ser un inversor minorista en tiempos de crisis
Formación IDE-CESEM. Cómo ser un inversor minorista en tiempos de crisis
 
Formación IDE-CESEM. Liderazgo político
Formación IDE-CESEM. Liderazgo políticoFormación IDE-CESEM. Liderazgo político
Formación IDE-CESEM. Liderazgo político
 
Conciliacion innovatia 30
Conciliacion innovatia 30Conciliacion innovatia 30
Conciliacion innovatia 30
 

Recently uploaded

Comparativo DS 024-2016-EM vs DS 023-2017-EM - 21.08.17 (1).pdf
Comparativo DS 024-2016-EM vs DS 023-2017-EM - 21.08.17 (1).pdfComparativo DS 024-2016-EM vs DS 023-2017-EM - 21.08.17 (1).pdf
Comparativo DS 024-2016-EM vs DS 023-2017-EM - 21.08.17 (1).pdf
AJYSCORP
 
Tesis_liderazgo_desempeño_laboral_colaboradores_cooperativa_agraria_rutas_Inc...
Tesis_liderazgo_desempeño_laboral_colaboradores_cooperativa_agraria_rutas_Inc...Tesis_liderazgo_desempeño_laboral_colaboradores_cooperativa_agraria_rutas_Inc...
Tesis_liderazgo_desempeño_laboral_colaboradores_cooperativa_agraria_rutas_Inc...
MIGUELANGELLEGUIAGUZ
 
3ro - Semana 1 (EDA 2) 2023 (3).ppt. edx
3ro - Semana 1 (EDA 2) 2023 (3).ppt. edx3ro - Semana 1 (EDA 2) 2023 (3).ppt. edx
3ro - Semana 1 (EDA 2) 2023 (3).ppt. edx
Evafabi
 
SENTENCIA COLOMBIA DISCRIMINACION SELECCION PERSONAL.pdf
SENTENCIA COLOMBIA DISCRIMINACION SELECCION PERSONAL.pdfSENTENCIA COLOMBIA DISCRIMINACION SELECCION PERSONAL.pdf
SENTENCIA COLOMBIA DISCRIMINACION SELECCION PERSONAL.pdf
JaredQuezada3
 
senati-powerpoint_5TOS-_ALUMNOS (1).pptx
senati-powerpoint_5TOS-_ALUMNOS (1).pptxsenati-powerpoint_5TOS-_ALUMNOS (1).pptx
senati-powerpoint_5TOS-_ALUMNOS (1).pptx
nathalypaolaacostasu
 
DIAPOSITIVAS LIDERAZGO Y GESTION INTERGENERACION (3).pptx
DIAPOSITIVAS LIDERAZGO Y GESTION INTERGENERACION (3).pptxDIAPOSITIVAS LIDERAZGO Y GESTION INTERGENERACION (3).pptx
DIAPOSITIVAS LIDERAZGO Y GESTION INTERGENERACION (3).pptx
7500222160
 
260813887-diagrama-de-flujo-de-proceso-de-esparrago-fresco-verde.pptx
260813887-diagrama-de-flujo-de-proceso-de-esparrago-fresco-verde.pptx260813887-diagrama-de-flujo-de-proceso-de-esparrago-fresco-verde.pptx
260813887-diagrama-de-flujo-de-proceso-de-esparrago-fresco-verde.pptx
i7ingenieria
 
CARPETA PEDAGOGICA 2024 ARITA.sadasdasddocx
CARPETA PEDAGOGICA 2024 ARITA.sadasdasddocxCARPETA PEDAGOGICA 2024 ARITA.sadasdasddocx
CARPETA PEDAGOGICA 2024 ARITA.sadasdasddocx
WILIANREATEGUI
 
GUIA UNIDAD 3 costeo variable fce unc.docx
GUIA UNIDAD 3 costeo variable fce unc.docxGUIA UNIDAD 3 costeo variable fce unc.docx
GUIA UNIDAD 3 costeo variable fce unc.docx
AmyKleisinger
 
Catalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmgCatalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmg
dostorosmg
 

Recently uploaded (20)

Comparativo DS 024-2016-EM vs DS 023-2017-EM - 21.08.17 (1).pdf
Comparativo DS 024-2016-EM vs DS 023-2017-EM - 21.08.17 (1).pdfComparativo DS 024-2016-EM vs DS 023-2017-EM - 21.08.17 (1).pdf
Comparativo DS 024-2016-EM vs DS 023-2017-EM - 21.08.17 (1).pdf
 
liderazgo guia.pdf.............................
liderazgo guia.pdf.............................liderazgo guia.pdf.............................
liderazgo guia.pdf.............................
 
Tesis_liderazgo_desempeño_laboral_colaboradores_cooperativa_agraria_rutas_Inc...
Tesis_liderazgo_desempeño_laboral_colaboradores_cooperativa_agraria_rutas_Inc...Tesis_liderazgo_desempeño_laboral_colaboradores_cooperativa_agraria_rutas_Inc...
Tesis_liderazgo_desempeño_laboral_colaboradores_cooperativa_agraria_rutas_Inc...
 
Contabilidad Gubernamental guia contable
Contabilidad Gubernamental guia contableContabilidad Gubernamental guia contable
Contabilidad Gubernamental guia contable
 
Sostenibilidad y continuidad huamcoli robin-cristian.pptx
Sostenibilidad y continuidad huamcoli robin-cristian.pptxSostenibilidad y continuidad huamcoli robin-cristian.pptx
Sostenibilidad y continuidad huamcoli robin-cristian.pptx
 
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABACAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
 
Manual de Imagen Personal y uso de uniformes
Manual de Imagen Personal y uso de uniformesManual de Imagen Personal y uso de uniformes
Manual de Imagen Personal y uso de uniformes
 
3ro - Semana 1 (EDA 2) 2023 (3).ppt. edx
3ro - Semana 1 (EDA 2) 2023 (3).ppt. edx3ro - Semana 1 (EDA 2) 2023 (3).ppt. edx
3ro - Semana 1 (EDA 2) 2023 (3).ppt. edx
 
Maria_diaz.pptx mapa conceptual gerencia industral
Maria_diaz.pptx mapa conceptual   gerencia industralMaria_diaz.pptx mapa conceptual   gerencia industral
Maria_diaz.pptx mapa conceptual gerencia industral
 
SENTENCIA COLOMBIA DISCRIMINACION SELECCION PERSONAL.pdf
SENTENCIA COLOMBIA DISCRIMINACION SELECCION PERSONAL.pdfSENTENCIA COLOMBIA DISCRIMINACION SELECCION PERSONAL.pdf
SENTENCIA COLOMBIA DISCRIMINACION SELECCION PERSONAL.pdf
 
senati-powerpoint_5TOS-_ALUMNOS (1).pptx
senati-powerpoint_5TOS-_ALUMNOS (1).pptxsenati-powerpoint_5TOS-_ALUMNOS (1).pptx
senati-powerpoint_5TOS-_ALUMNOS (1).pptx
 
Empresa Sazonadores Lopesa estudio de mercado
Empresa Sazonadores Lopesa estudio de mercadoEmpresa Sazonadores Lopesa estudio de mercado
Empresa Sazonadores Lopesa estudio de mercado
 
DIAPOSITIVAS LIDERAZGO Y GESTION INTERGENERACION (3).pptx
DIAPOSITIVAS LIDERAZGO Y GESTION INTERGENERACION (3).pptxDIAPOSITIVAS LIDERAZGO Y GESTION INTERGENERACION (3).pptx
DIAPOSITIVAS LIDERAZGO Y GESTION INTERGENERACION (3).pptx
 
260813887-diagrama-de-flujo-de-proceso-de-esparrago-fresco-verde.pptx
260813887-diagrama-de-flujo-de-proceso-de-esparrago-fresco-verde.pptx260813887-diagrama-de-flujo-de-proceso-de-esparrago-fresco-verde.pptx
260813887-diagrama-de-flujo-de-proceso-de-esparrago-fresco-verde.pptx
 
CARPETA PEDAGOGICA 2024 ARITA.sadasdasddocx
CARPETA PEDAGOGICA 2024 ARITA.sadasdasddocxCARPETA PEDAGOGICA 2024 ARITA.sadasdasddocx
CARPETA PEDAGOGICA 2024 ARITA.sadasdasddocx
 
GUIA UNIDAD 3 costeo variable fce unc.docx
GUIA UNIDAD 3 costeo variable fce unc.docxGUIA UNIDAD 3 costeo variable fce unc.docx
GUIA UNIDAD 3 costeo variable fce unc.docx
 
Analisis del art. 37 de la Ley del Impuesto a la Renta
Analisis del art. 37 de la Ley del Impuesto a la RentaAnalisis del art. 37 de la Ley del Impuesto a la Renta
Analisis del art. 37 de la Ley del Impuesto a la Renta
 
DECRETO-2535-DE-1993-pdf.pdf VIGILANCIA PRIVADA
DECRETO-2535-DE-1993-pdf.pdf VIGILANCIA PRIVADADECRETO-2535-DE-1993-pdf.pdf VIGILANCIA PRIVADA
DECRETO-2535-DE-1993-pdf.pdf VIGILANCIA PRIVADA
 
Catalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmgCatalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmg
 
EL REFERENDO para una exposición de sociales
EL REFERENDO para una exposición de socialesEL REFERENDO para una exposición de sociales
EL REFERENDO para una exposición de sociales
 

4.data mining

  • 1. Master Sistemas de Información 7. Introducción al Data Mining Zigor de la Quintana (zdelaquintana@yahoo.es)
  • 2. Los Sistemas de Soporte a la Decisión en la empresa Página 2 Índice · Introducción a data mining · Técnicas de data mining · Metodología Data Mining · Soluciones Técnicas · Casos prácticos © 2009 IDE-CESEM.
  • 3. Herramientas de descubrimiento de conocimiento o data mining  Son las propias herramientas las que extraen modelos y – Los seres humanos disponemos de una capacidad limitada para analizar series de datos o correlaciones y encontrar modelos y extrapolarlos al futuro. – Gap datos Vs conocimientos – Datos acumulados – Sistema por el cual los analistas emplean herramientas de análisis matemático y estadístico aplicadas sobre datos históricos y relevantes para el negocio, para identificar relaciones entre variables y modelos que permitan entender mejor procesos actuales o con cierta probabilidad hechos futuros. Los Sistemas de Soporte a la Decisión en la empresa Página 3 tendencias de la información  Útiles debido a que:  Data Mining: © 2009 IDE-CESEM.
  • 4. ¿Por qué herramientas de descubrimiento de conocimiento?  Ahora que disponemos de una herramienta OLAP, podemos analizar y buscar por las dimensiones, pero ¿por dónde empezamos para entender por qué el cliente abandonó la compañía? Los Sistemas de Soporte a la Decisión en la empresa Página 4 10% © 2009 IDE-CESEM. 8% 6% 4% 2% 0% Customer Defection Q3 2001 Q4 2001 Q1 2002 Q2 2002 Q3 2002 Q4 2002 East Central West
  • 5. Los proveedores sostienen que Data Mining genera el mayor ROI Los Sistemas de Soporte a la Decisión en la empresa Página 5 Positive Returns © 2009 IDE-CESEM. Break Even Operational Systems ROI (%) Negative Returns Time (Years) Business Intelligence Predictive Analytics Cumulative ROI Source: Jack Noonan, CEO SPSS, 2002
  • 6. Los Sistemas de Soporte a la Decisión en la empresa Página 6 Índice · Introducción a data mining · Técnicas de data mining · Metodología Data Mining · Soluciones Técnicas · Casos prácticos © 2009 IDE-CESEM.
  • 7. 1. Regresiones  Identificación de una función capaz de describir la relación entre variables independientes y las variables dependientes que interesan al usuario  Los usuarios de negocio identifican esta función utilizando datos del pasado y la utilizan para predecir datos del futuro.  Algunas de las preguntas que desean responder son: – Ventas de mi próximo mes teniendo en cuenta factores estacionales (estamos en – ¿Cómo puede afectar a mis ventas los gastos en publicidad?  Permiten realizar al usuario de negocio análisis de sensibilidad – Se explora el efecto de cambiar algún parámetro en las variables dependientes. – Análisis muy común, “elasticidad del precio”. – *Si aumento en un 1% el precio de un artículo, cómo afectará a su demanda? – ¿Si aumento el salario de mis empleados en un 2%, cómo mejorará su índice de Los Sistemas de Soporte a la Decisión en la empresa Página 7 Navidad o en época de rebajas)? satisfacción? © 2009 IDE-CESEM.
  • 8. Los Sistemas de Soporte a la Decisión en la empresa Página 8 1. Regresiones (cont)  Las regresiones también pueden generar un análisis probabilístico entre algunas variables y la ocurrencia de un evento. – Probabilidad de que un cliente deje la compañía – Probabilidad de que un empleado dimita – Ratio de respuesta de un cliente a una oferta comercial (mailing, campañas de marketing…). – Probabilidad de impago de un cliente. © 2009 IDE-CESEM.
  • 9. 2. Clustering  Permite identificación de relaciones entre grupos de datos  Estadísticas y algoritmos creados por el software…  pretende partir grandes bases de datos en diferentes grupos de  Parece que clustering es una técnica idéntica a la definida en cuanto a segmentación, pero: – Técnicas de clustering están diseñadas para identificar agrupaciones de variables similares sin tener en cuenta un objetivo en concreto. – Las técnicas de segmentación miden dependencia de las variables con Los Sistemas de Soporte a la Decisión en la empresa Página 9 variables que ofrecen datos similares. respecto a un objetivo. © 2009 IDE-CESEM.
  • 10. 2. Clustering. Herramientas y técnicas: K-Means clustering (SAS Enterprise Miner)  La herramienta identifica los subsegmentos de clientela Los Sistemas de Soporte a la Decisión en la empresa Página 10 © 2009 IDE-CESEM. Age Income  Decidir sobre el máximo número de clusters  Asignar semillas (clientes) aleatoriamente a los clusters.  Análisis  Analizar la distancia estadística entre cada consumidor y cada semilla (primero) o media de cada cluster.  Asignar cada cliente a la media del cluster más cercano.  Mover cada cluster para posicionarlo en torno a dos medidas de clientes.  Operar hasta que los clusters dejan de moverse
  • 11.  Técnicas llamadas “no dirigidas”, ya que no precisan de intervención  No consume (comparado con otras técnicas) grandes cantidades de capacidad de procesamiento en entornos masivos de datos. Los Sistemas de Soporte a la Decisión en la empresa Página 11 2. Clustering  Limitaciones: – No ofrecen un gran detalle – No tiene capacidad predictiva, tan solo explicativa. – Útil, pero no exacta. humana para su correcto funcionamiento. © 2009 IDE-CESEM.
  • 12.  Identifican las variables independientes que afectan de manera más – Usuario selecciona un determinado objetivo que quiere analizar (rentabilidad, – Después selecciona el conjunto de variables que, según su entendimiento de – Usuario interactúa con el análisis y redefine las variables. – Perfiles de riesgo de clientes solicitantes de préstamos o tarjetas. – Perfiles de empleados y clientes. – Perfiles de clientes más rentables. – Etc… Los Sistemas de Soporte a la Decisión en la empresa Página 12 (3) Segmentación preeminente a las variables dependientes.  “Técnicas de data mining dirigidas”. ingresos, probabilidad de abandono…)… negocio, influyen en ese objetivo…  Algunas de las aplicaciones de estas técnicas son: © 2009 IDE-CESEM.
  • 13. (3) Segmentación  La técnica de segmentación se caracteriza por la utilización de árboles de – Chaid (Chi Squared Automatic Interaction Detection), y – CART (Classification and Regression Tree Technique).  Dividir las variables en subgrupos de variables y comprender su impacto en el  El resultado para el usuario final es una visión más veraz de las relaciones de causa y efecto entre las variables y el objetivo seleccionado. Los Sistemas de Soporte a la Decisión en la empresa Página 13 decisión.  Los algorimos más empleados son: objetivo a través de técnicas estadísticas. © 2009 IDE-CESEM.
  • 14. (3) Segmentación  Ejemplo: Conjunto de clientes, a los que se quiere segmentar teniendo  El proceso pretende agrupar a los clientes en función de las variables que, en relación a los ingresos, presentan grupos con mayores diferencias en sus medias.  En ejemplo se ha visto que existen tres grupos diferenciados,  Proceso vuelve a realizarse en cada subgrupo hasta que ningún subgrupo puede ser dividido, de forma estadísticamente significativa Los Sistemas de Soporte a la Decisión en la empresa Página 14 en cuenta sus ingresos. relacionados con la variable edad. © 2009 IDE-CESEM.
  • 15. (3) Segmentación  Ejemplo: aplicación de marketing. Identificación de personas  Se lanza primero una campaña enfocada a un grupo de test. Se recoge como dato qué clientes responden al mail (valor “1” y qué clientes no “valor 0”.  Ratio de respuesta del grupo es de 0,0206 (2,06%). Si sólo envío mails a mujeres de la región “Noroeste” y a toda la región Sur, estaré mejorando mi ratio de respuesta. Los Sistemas de Soporte a la Decisión en la empresa Página 15 objeto de una campaña de mailing. © 2009 IDE-CESEM.
  • 16. (3) Segmentación  Técnica complementaria a la de clustering.  Puede analizarse un conjunto de datos con la técnica de clustering para determinar qué clientes están empleando una determinada página web.  Comprender en profundidad a ese conjunto de clientes, seleccionado un objetivo y las variables que entendemos que afectan a su comportamiento.  El resultado del análisis puede aportar al usuario final una vista con forma de árbol del impacto estadístico: – Rangos de ingresos y sus correspondientes utilizaciones diferenciadas de Los Sistemas de Soporte a la Decisión en la empresa Página 16 la página web. © 2009 IDE-CESEM.
  • 17. (3) Segmentación – ¿Puede el cliente intuitivamente nombrar cada segmento? Puede pensar cómo utilizarlo desde un punto de vista de negocio? Los Sistemas de Soporte a la Decisión en la empresa Página 17  Analizar cada segmento con el cliente © 2009 IDE-CESEM. SEGMENT 1 2 3 4 5 6 All Population 129,303 52,048 7,625 198,929 8,849 3,166 399,920 Percent 32% 13% 2% 50% 2% 1% 100% Age 40 42 41 39 41 42 40 # of Accounts 1.15 1.30 1.32 1.17 1.27 1.75 1.19 Asset Level $29,201 $121,209 $340,565 $40,156 $45,106 $359,379 $55,527 Recency 126 36 32 54 42 32 74 Longevity 549 379 385 399 491 604 448 Income $18.76 $259.46 $1,533.18 $72.07 $317.02 $1,118.12 $120.78 Channel 1 $2.87 $13.34 $9.64 $5.27 $6.02 $28.13 $5.82 Channel 2 $13.49 $166.08 $879.96 $51.42 $277.08 $816.43 $80.93 Channel 3 $2.40 $80.05 $643.58 $15.38 $33.92 $273.56 $34.03 # Items Transacted 69 1,666 25,869 823 771 11,456 1,250 Safer 43 758 3,069 32 73 2,590 209 Aggressive 27 907 22,799 791 666 8,784 1,039 Safe Ratio 59.3% 56.1% 14.8% 8.6% 12.4% 25.6% 31.5% # of Transactions 0.46 4.49 25.88 1.40 7.11 22.93 2.26 Type 1 0.44 4.38 25.84 1.36 1.45 13.95 2.02 Type 2 0.02 0.11 0.04 0.04 5.66 8.98 0.24 Type 1 Ratio 5.2% 2.4% 0.2% 3.0% 79.6% 39.2% 10.6% Contracts 0.11 0.57 0.34 0.18 31.78 75.93 1.51 Type 1 Orders 1.06 15.66 92.05 4.69 5.03 44.30 6.93 Type 2 Orders 0.06 0.37 0.16 0.14 22.49 33.14 0.90 Testers Engaged Confident Conservative Risky High Rollers Color Key Highest Segment 2nd Place Segment Lowest Segment
  • 18. (4) Herramientas y Técnicas: Redes Neuronales Los Sistemas de Soporte a la Decisión en la empresa Página 18  El principio es generar conocimiento a través de elementos interconexionados.  Capaces de generar algoritmos predictivos. Imitan el proceso de aprendizaje del cerebro humano  Sistema “caja negra”, útiles cuando es difícil modelizar desde el principio. © 2009 IDE-CESEM.
  • 19. (4) Herramientas y Técnicas: Redes Neuronales  Parecido con las regresiones,  Examinan datos históricos y generan la función que mejor relaciona las variables independientes o explicatorias y las variables dependientes  El error entre lo que el modelo predice y lo que ha realmente ocurrido en  Construido el modelo, este se aplica al futuro para predecir hechos.  Aplicaciones de redes neuronales son similares a las descritas para el caso de las regresiones, pero su capacidad predictiva, es muy superior.  lA igual que las técnicas de segmentación, es una de las más creíbles Los Sistemas de Soporte a la Decisión en la empresa Página 19 el pasado sea mínimo. dentro del data mining. © 2009 IDE-CESEM.
  • 20. (4) Herramientas y Técnicas: Redes Neuronales  Origen: – Intento de replicar el funcionamiento del cerebro humano.  Cada neurona toma las sumas ponderadas de sus datos de entrada y se aplica una función no lineal al resultado, lo que permite realizar análisis no lineales.  Cualquier neurona puede ser conectada a otra, pero debe  Modo muy común: modelo de tres capas, cada capa de neuronas está integrada con la capa anterior. Los Sistemas de Soporte a la Decisión en la empresa Página 20 mantenerse la dirección del análisis. © 2009 IDE-CESEM.
  • 21. (4) Herramientas y Técnicas: Redes Neuronales  Utilizacion similar a casos de regresiones, aunque con  Las regresiones y redes neuronales intentan analizar no solamente la validez del modelo definido…  Sino de analizar las desviaciones encontradas entre el modelo resultante y los datos originales, si existen algunas variables que podrían tener influencia en el modelo y no se están considerando.  Esta capacidad de análisis sitúa a las técnicas de redes neuronales por encima del resto de técnicas. (clustering, segmentación…).  El modelo creado con las redes neuronales puede utilizarse para predecir eventos futuros o realizar análisis de sensibilidad. Los Sistemas de Soporte a la Decisión en la empresa Página 21 resultados más espectaculares. © 2009 IDE-CESEM.
  • 22.  Un análisis de clustering permite identificar a “grosso modo”, que tipos de clientes están utilizando una determinada web site….  Un análisis de segmentación y clasificación identifica las variables más relevantes y sectores de variables que tiene un efecto en una variable objetivo (por ejemplo, su grado reutilización).,,  Las redes neuronales pueden entonces ser utilizadas para determinar si el modelo es creíble, cómo las variables se influencian entre sí, y sí el modelo está dejando alguna variable relevante de lado. Los Sistemas de Soporte a la Decisión en la empresa Página 22 Combinación de técnicas. © 2009 IDE-CESEM.
  • 23. (5) Análisis de asociaciones.  Esta técnica permite calcular probabilidades o propensiones de que ocurra un determinado evento si ocurren otros eventos.  Esta técnica emplea funciones de frecuencia y probabilidad para estimar la probabilidad de que ocurra.  Algunas de las técnicas más utilizadas son: – Análisis “Market basket” (p.e. en el verano cuando alguien compra una hamburguesa, o salchichas o hielo, también comprarán carbón vegetal el 74% de las veces, y estas compras representan un 25% de las ventas totales de carbón vegetal). – Control de calidad: (el 30% de los conmutadores eléctricos que no pasan el control de calidad tienen problemas de cableado, y se construyen los viernes en el turno de tarde). Los Sistemas de Soporte a la Decisión en la empresa Página 23 © 2009 IDE-CESEM.
  • 24. Los Sistemas de Soporte a la Decisión en la empresa Página 24 (6) Visualización  Tradicionalmente se ha minusvalorado este tipo de herramienta.  El ojo humano es una poderosa herramienta en cuanto a la búsqueda de patrones.  Especialmente indicada para analizar gran cantidad de datos en torno a una o pocas variables. – Algunos ejemplos podrían ser los mercados financieros, informes económicos, etc… © 2009 IDE-CESEM.
  • 25. (6) Visualización  Esencial para comenzar un proyecto de Data Mining, cuando hay un grupo de datos y variables muy elevados Los Sistemas de Soporte a la Decisión en la empresa Página 25  Es interesante para la fase inicial de selección de variables…  Análisis de la calidad de datos del DW…  Y para la de control (comparación del output de los modelos para validar efectividad) © 2009 IDE-CESEM.
  • 26.  ,No cambiar el tipo de gráfico, sino mantener el mismo gráfico todos los días. – Usuario no tendrá que realizar un ejercicio de comprensión de los ejes del gráfico cada vez que intenta analizar unos datos.  Los gráficos complejos introducen innecesariamente la necesidad de que el usuario invierta tiempo en su comprensión. – Los mejores gráficos se crean habitualmente empleando los modelos  Por su utilidad, la mayoría de las soluciones de data mining y OLAP incorporan estos gráficos a sus paquetes de soluciones. Los Sistemas de Soporte a la Decisión en la empresa Página 26 más básicos y sencillos. © 2009 IDE-CESEM.
  • 27. Los Sistemas de Soporte a la Decisión en la empresa Página 27 Índice · Introducción a data mining · Técnicas de data mining · Metodología Data Mining · Soluciones Técnicas · Casos prácticos © 2009 IDE-CESEM.
  • 28. Herramientas de descubrimiento de conocimiento  Requieren ser manejadas por usuarios muy avanzados (casi siempre expertos en modelos matemáticos pero con ciertos conocimientos de negocio) – Aunque las herramientas están evolucionando para incorporar a  Algunos problemas que suelen encontrarse – Exactitud del modelo: decisión de qué variables tienen sentido para la creación del modelo y cuáles no. – Importancia de la información: decisión de qué modelos y reglas son suficientemente importantes como para ser comunicadas. Los Sistemas de Soporte a la Decisión en la empresa Página 28 usuarios intermedios. © 2009 IDE-CESEM. Nuevamente, debe conocerse bien el negocio – Envío al usuario correcto: Las tendencias deben ser informadas a un usuario que puede actuar para incidir sobre ellas y cuyo performance está controlado numéricamente.
  • 29. Metodología del entorno Data Mining  Empezar con muestra con significación estadística.  Usar técnicas estadísticas y de visualización para analizar variables.  El 70% de un proyecto de data mining consiste en analizar y preparar datos. Confirm Business Objectives Model Verification If … Then ... c++ Reports Los Sistemas de Soporte a la Decisión en la empresa Página 29 Data Pre- Processing © 2009 IDE-CESEM. Model Validation Data Exploration Sampling Data Manipulation Model Construction Training Parameter Setting Determine Accuracy and Precision of Model Test Model Against Business Knowledge Knowledge Transformation Transform Model into a Deployable Format
  • 30. Utilización correcta de data Mining  Utilización del soluciones data mining conduce a resultados  Sólo si se emplea la técnica correctamente; no fácil: – Complejidad matemática de los modelos – Calidad y suficiencia de los datos almacenados – Perfil del usuario del modelo (que debe ser un experto en matemáticas con conocimientos de IT y, preferiblemente, del sector en el que opera la compañía…) – Inversión en la plataforma de data mining…  Además debe integrarse el resultado del análisis de data mining con las herramientas adecuadas CRM operativo. Los Sistemas de Soporte a la Decisión en la empresa Página 30 espectaculares. © 2009 IDE-CESEM.
  • 31. Utilización correcta de data Mining (cont)  Imaginemos banco, en Diciembre, a la hora de lanzar su campaña de captación de subscripciones a los planes de pensiones…  Lanza un proyecto de data mining para identificar compradores potenciales dentro de su clientela…  Debe poner esos datos a disposición de su call center, para realizar llamadas de venta, y de sus vendedores en las oficinas.  Para ello, debe contar con una buena solución de gestión de campañas, y una buena plataforma de ventas.  Los comerciales deben preocuparse por dar feedback del Los Sistemas de Soporte a la Decisión en la empresa Página 31 resultado. © 2009 IDE-CESEM.
  • 32.  Si almacenas los datos sin calidad o sin la granularidad mínima precisa, estás destinado a fracasar con tu estrategia de data mining.  No existe herramienta ni metodología de data mining que sea capaz de trabajar con entornos de datos inadeacuados.  ¿Valen mis datos para algo?  En algunos casos se lanzan proyectos de data mining para ver si, con suerte, la empresa es capaz de encontrar algo de información relevante en medio de ese mar de datos en el que se ha convertido su data warehouse.  Los resultados son impredecibles y no siempre un proyecto de data mining lanzado con este enfoque es capaz de llegar a un resultado mínimamente satifactorio.  Un análisis más honesto de la calidad y cantidad de nuestros datos debería llevarnos a la conclusión de qué tipo de análisis soporta.  Si sólo soporta análisis OLAP, debemos olvidarnos del data mining hasta que se haya modificado el estado de los datos. Los Sistemas de Soporte a la Decisión en la empresa Página 32 Relevancia de los datos © 2009 IDE-CESEM.
  • 33. Nueve pasos para garantizar el éxito de una estrategia de data Mining. 1. Decidir qué queremos saber.  Qué usos vamos a dar al data mining y por tanto qué técnicas de data mining queremos emplear sobre nuestros datos.  Investigar qué técnicas son las más adecuadas y si existe una 2. Seleccionar cómo medimos lo que queremos saber  Imaginemos que queremos medir si una nueva marca de nuestra empresa ha tenido éxito. Podemos hacerlo analizando el incremento de ingresos o el reconocimiento de marca que muestran nuestros clientes actuales o potenciales.  Ambas medidas pueden ser empleadas con éxito. Pero desde un punto de vista de cálculo son absolutamente distintas. Por ello tendremos que definir cuáles son las medidas cuya maximización vamos a perseguir utilizando herramientas de data mining.  Los algoritmos de data mining van a necesitar que esa medida sea un número, por lo que si se trata de una medida cualitativa tendrá que ser traducida a una escala. Si la medida fuera un “si” o un “no”, puede traducirse en término de unos y ceros. Los Sistemas de Soporte a la Decisión en la empresa Página 33 relación coste – beneficio de la inversión. © 2009 IDE-CESEM.
  • 34. Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont). 3. Decidir la granularidad y temporalidad de los datos.  Datos deben ser homogéneos.  y debe haber una cantidad suficiente de los mismos.  Si sólo hay unos cuantos medidas de meses o semanas almacenados, por más que sean homogéneas, el resultado no será adecuado. – Técnicas de segmentación y clustering precisan cientos o miles de ellas. – Regresiones y redes neuronales requieren menos datos por variable, a nivel de  Si, analizados este apartado, la empresa llega a la conclusión de que no dispone de datos suficientes, se puede optar por las siguientes opciones: – Conseguir más datos, esperando más tiempo o base externa. – Cambiar planes iniciales y utilizar otra técnica de data mining.  Problema disponer de demasiados datos: muestrear, agregar, Los Sistemas de Soporte a la Decisión en la empresa Página 34 cientos, y como mínimo 20. segmentar… © 2009 IDE-CESEM.
  • 35. Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont). 4. Analizar factores clave  Los factores claves son variables que pueden tener un impacto en las medidas que hemos identificado como relevantes en el apartado dos.  Por ejemplo, si queremos analizar el impacto de nuestras acciones de marketing sobre el incremento de ventas, algunas de estas variables podrían ser; “inversión en publicidad en televisión”. “inversión en publicidad en radio”… Deberán tenerse en cuenta también factores estacionales como “precio” del producto, para tener en cuenta épocas de rebajas, descuentos….  Identificadas las variables, resultará una prioridad que los datos asociados a las mismas sean guardados en el data warehouse.  Si identificamos demasiadas variables, tendremos que seleccionar sólo algunas para realizar el análisis de data mining, y, en función del resultado (como hemos visto cuando analizábamos las diferentes técnicas de data mining), determinar si lanzamos de nuevo el análisis incorporando nuevas variable y desestimando otras. Los Sistemas de Soporte a la Decisión en la empresa Página 35 © 2009 IDE-CESEM.
  • 36. Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont). 5. Adquisición de los datos.  Analizadas las variables que estimamos son claves, puede resultar  Puede buscarse una variable que pensemos pueda tener un comportamiento similar, y sí disponga de los datos precisos  Podemos intentar lanzar el proceso de análisis sin la variable.  Al mismo tiempo modificaremos el dara warehouse para garantizar  Si por un error algunos de los campos están en blanco:  Puede dejarse un valor en blanco, ya que las herramientas de data mining están preparadas para trabajar con campos en blanco.  Puede insertarse la media del resto de valores, de forma que su  Si los datos son series temporales, se pueden utilizar una regresión de los datos anteriores para completar el dato que falta. Los Sistemas de Soporte a la Decisión en la empresa Página 36 que los datos no estén disponibles: que los datos se incluyan en el futuro. impacto será neutral. © 2009 IDE-CESEM.
  • 37. Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont). Los Sistemas de Soporte a la Decisión en la empresa Página 37 6. Visualización de los datos.  Técnicas de visualización para entender si las variables críticas que hemos elegido realmente serán significativas para el análisis que queremos efectuar.  Ejemplo de abajo, al visualizar los datos de Agosto – Septiembre, se comprueba que el dato no puede ser correcto. Si el error es grave o se repite, la variable tendrá que ser desestimada. © 2009 IDE-CESEM.
  • 38. Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont). 7. Transformación de los datos  Expertos en data mining han adquirido tal experiencia que conocen no solamente qué variables suelen ser las más críticas para explicar el modelo sino cómo crear variables derivadas de las que una empresa suele guardar para conseguir mejores resultados.  Para ello modifican los datos existentes:  Haciendo agregaciones.  Nomalizando precios en función de la inflación del periodo.  Trabajando con ratios de variables (relación entre mi Los Sistemas de Soporte a la Decisión en la empresa Página 38 precio y precio de un competidor)  Etc… © 2009 IDE-CESEM.
  • 39. Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont). 8. Ejecución del proceso de data mining.  Se trata de un proceso muy automatizado, en el que el software toma sus propias decisiones para optimizar el resultado. 9. Revisión del resultado.  Utilizando las técnicas de visualización o de redes neuronales, debe analizarse si el modelo creado es suficientemente creíble o debe ser refinado con variables adicionales. Los Sistemas de Soporte a la Decisión en la empresa Página 39 © 2009 IDE-CESEM.
  • 40. Errores comunes en los procesos de data mining 1. Manipular los datos para que arrojen el modelo esperado.  Algoritmos no arrojan grandes diferencias por ser ajustados. Los algoritmos de empresas competidoras a las del proveedor elegido son prácticamente idénticos.  No conviene hacer hincapié en estos factores.  Si los datos obtenidos no son los esperados, tenemos que preguntarnos: – ¿Puede el resultado ser realmente cierto? – ¿Confío en la calidad de los datos empleados y en las variables – En estos casos la exploración gráfica es también de gran utilidad. Los Sistemas de Soporte a la Decisión en la empresa Página 40 seleccionadas? © 2009 IDE-CESEM.
  • 41. Errores comunes en los procesos de data mining 1. Manipular los datos para que arrojen el modelo esperado.  Ejemplos: – Una empresa productora de ropa quería entender la relación entre sus gastos en publicidad y las ventas obtenidas. Un análisis de data mining, sorprendentemente, no encontró ninguna. La razón fue que se estaba intentando relacionar datos de inversión en publicidad del mes con ventas del mes. La publicidad necesita tiempo para afectar al comportamiento de compra del consumidor, por lo que las ventas de un mes deben relacionarse con la inversión de meses anteriores. – Una compañía de bebidas intentaba comprender el impacto de la oferta de descuentos sobre las ventas. El modelo de data mining predecía que el aumento de precio generaría un aumento de las venta, lo cuál no es de sentido común. El problema consistía en que el mercado de bebidas es estacional, con algunos momentos muy altos como Navidades o el verano. Durante esos momentos no se ofrecía ningún descuento a los clientes, lo que afectaba al resultado del análisis. El modelo fue refinado para tener en cuenta situaciones de estacionalidad. Los Sistemas de Soporte a la Decisión en la empresa Página 41 © 2009 IDE-CESEM.
  • 42. Errores comunes en los procesos de data mining La búsqueda de la “perfección estadística”  Si los resultados son inusualmente buenos en términos estadísticos, – Empresa deseaba predecir el número de ventas potencial por metro cuadrado de algunas nuevas localizaciones para sus tiendas, a fin de adquirir las mejores. El sistema predecía las ventas futuras de cada localización con un grado de exactitud del 98%. – Se descubrió que una de las variables empleadas era la división entre los ingresos y los metros cuadrados de las nuevas tiendas. Precisamente el valor que se quería obtener era los ingresos a conseguir en la nueva tienda, por lo que no podía figurar esta variable como factor independiente del resultado. El nuevo modelo mostraba un ratio de exactitud del 60%, mucho más en línea con las expectivas. – Las medidas estadísticas que utilizan los algoritmos de negocio fueron diseñados por estadísticos, no por expertos en marketing. Por ello, muchos valores parecen bajos, cuando en realidad son bastante altos. Los Sistemas de Soporte a la Decisión en la empresa Página 42 debemos también preocuparnos.  Ejemplo: © 2009 IDE-CESEM.
  • 43. Los Sistemas de Soporte a la Decisión en la empresa Página 43 Índice · Introducción a data mining · Técnicas de data mining · Metodología Data Mining · Soluciones Técnicas · Casos prácticos © 2009 IDE-CESEM.
  • 44. Comparativa de Herramientas de Data Mining: DSS Clementine – GUI intuitivo que facilita la programación. – Las técnicas de Data mining se complementan las unas con las otras. – Facilidad de utilización elevada para la complejidad de soluciones analíticas que aporta. – Cubre todos los procesos de data mining más empleados. Los Sistemas de Soporte a la Decisión en la empresa Página 44  Fortalezas  Debilidades – No soporta Windows de fábrica – No optimizado para arquitecturas paralelas. – Problema para entornos masivos de datos. © 2009 IDE-CESEM.
  • 45. Comparativa de Herramientas de Data Mining: IBM Intelligent Miner – Muy adecuada para análisis de clustering – Optimizado para grandes bases de datos en entorno IBM – Posibilidad de ser empleada por usuarios no especialistas – Problemas de usabilidad con su nuevo interface Java – Sólo funciona bien en plataformas IBM – Datos deben estar en tablas DB2 – Se requiere un significativo soporte por parte de consultores / servicios de IBM Los Sistemas de Soporte a la Decisión en la empresa Página 45  Fortalezas  Debilidades © 2009 IDE-CESEM.
  • 46. Comparativa de Herramientas de Data Mining: SAS Enterprise Miner – Solución end to end: incorpora la gran mayoría de las soluciones analíticas requeridas – Capacidades estadísticas muy potentes. – Adecuado para entornos masivos de datos. – Las técnicas de data mining no se complementan. – Funcionalidad limitada en cuanto a árboles de decisión. – Integración de tipo manual. – Requiere ser empleada por expertos con conocimiento estádísticos avanzados. Los Sistemas de Soporte a la Decisión en la empresa Página 46  Fortalezas  Debilidades © 2009 IDE-CESEM.
  • 47.  Calidad de los datos y adecuación al modelo analítico  Proveer al proyecto con herramientas y personal capacitado  Encontrar al espónsor adecuado – A ser posible, alguien por encima de los responsables de IT y marketing.  Planificar un ROI razonable para cumplir expectativas.  Proceso prueba – error: – Involucrar a responsables de negocio para hacer el modelo y validar resultados. Los Sistemas de Soporte a la Decisión en la empresa Página 47 Factores críticos de éxito (granularidad, serie temporal) © 2009 IDE-CESEM.
  • 48. Los Sistemas de Soporte a la Decisión en la empresa Página 48 Índice · Introducción a data mining · Técnicas de data mining · Metodología Data Mining · Soluciones Técnicas · Casos prácticos © 2009 IDE-CESEM.
  • 49.  Dispone de red de concesionarios que repara los coches en garantía. Los concesionarios son reembolsados inmediatamente por el coste de la reparación.  Disponían de una pequeño grupo de auditores que revisaban manualmente después del pago la justificación del coste cargado por el concesionario.  Algunas de esas peticiones son injustificadas: uso de demasiadas piezas de recambio o demasiado tiempo, misma petición de dinero varias veces por el mismo hecho.  El proceso de auditoría requería mucho tiempo y era poco eficiente (sólo se detectaba algún problema en un 2% de las facturas).  Por otro lado, los auditores sólo podían revisar un 10% de las – Reducir el coste de pagos por garantía, – Reducir el tiempo requerido para el análisis, mejorando la cantidad de facturas Los Sistemas de Soporte a la Decisión en la empresa Página 49 Toyota USA facturas.  Los objetivos de Toyota eran: fraudulentas encontradas. – Cambiar el comportamiento de algunos concesionarios. © 2009 IDE-CESEM.
  • 50.  La solución de Data Mining no sólo debía ser capaz de definir si una factura fraudulenta sino también definir por qué  No podían usarse modelos de comportamientos pasados… debido a la escasez de facturas fraudulentas encontradas.  Definición de las características del “concesionario fraudulento”  Se emplearon diversas técnicas: redes neuronales, razonamiento  Las soluciones de razonamiento inductivo fueron muy útiles – Era preciso diferenciar qué facturas no eran normales y explicar por qué – Adecuadas para combinar conocimiento explícito de los expertos con el  Resultados: Descenso de 1% de pagos por garantía, y descenso de costes de los procesos de auditoría: 3 MM $ anuales. Los Sistemas de Soporte a la Decisión en la empresa Página 50 Toyota USA para tomar medidas preventivas. inductivo, estadísticas tradicionales. implícito en los datos. © 2009 IDE-CESEM.
  • 51. Empresa Aseguradora  La línea de seguro de automóvil ha reportado pérdida de rentabilidad  Rentabilidad es el ratio entre ingresos por primas + ingresos por  La rentabilidad está generalmente relacionada con una fijación adecuada de precios /bonus a cada segmento de clientela.  Para encontrar esos segmentos se empleaba el siguiente proceso: – Selección de pólizas, basada en experiencia personal, intuición… – Solicitud al mainframe de los datos de las pólizas – Análisis de la rentabilidad y comparación con otros segmentos, se  Se valoran 10-15 variables sobre un subset de 200,000 clientes.  El análisis inicial tarda 4 semanas. Cada análisis adicional implican 2  Por ello el banco no puede realizar este análisis siempre que lo Los Sistemas de Soporte a la Decisión en la empresa Página 51 los pasados años. inversiones frente a gastos por reclamaciones. obtienen características de los segmentos. semanas más desea. © 2009 IDE-CESEM.
  • 52.  La solución combinó soluciones de Data Mining y  Data mining se empleó para la búsqueda de clusters y la visualización para explorar los clusters de una forma rápida  El análisis señala los clusters de clientes en función de diferentes variables. Las variables y los resultados se demuestran a través de soluciones gráficas para comprobar la validez del cluster.  Posteriormente se emplearon técnicas predictivas para analizar los clusters más rentables (razonamiento inductivo), para predecir futuros comportamientos de clientes. Los Sistemas de Soporte a la Decisión en la empresa Página 52 Empresa Aseguradora visualización. © 2009 IDE-CESEM.
  • 53. Disco S.A.  Importante cadena de supermercados de Argentina. 230 supermercados, 16.000  La empresa ha creado un programa de fidelización a clientes, DiscoPlus.  Recompensa a sus clientes más fieles, con el objetivo de obtener datos.  Datos se encontraban en distintos servidores – Esos datos eran extraidos a un data mart – Se formaba un cubo OLAP sobre el que se construían reportes en formato de hoja – Los usuarios dependían absolutamente del departamento de IT para conseguir la – Sistema no podía adaptarse a aumento de necesidades y usuarios. – Usuario final solamente accedía a los datos suministrados en la hoja Excel. – Datos no se suministraban con la puntualidad necesaria. No informes a la medida. Los Sistemas de Soporte a la Decisión en la empresa Página 53 empleados. – Ofrece descuentos y promociones especiales. – Se afiliaron dos millones de personas. Excel. – enviados a los usuarios de negocio.  Problemas: información. © 2009 IDE-CESEM.
  • 54. Disco S.A.  Optó por crear un data warehouse para integrar toda la información  El primer proyecto de explotación lo lideró marketing. – Soluciones OLAP cubrían la mayor parte de las necesidades de análisis del – Adicionalmente, data mining para encontrar modelos de comportamiento.  Técnicas de clustering: en primer lugar para separar en grupos a los clientes, grupos basados en la frecuencia de compra.  Técnica de segmentación para comprender características de cada – Se utilizó una variable objetivo, los puntos por utilización de la tarjeta – El resultado del árbol de decisión mostró que las variables que más explicaban la utilización del programa Discoplus eran la edad, la situación geográfica, y el estado civil. Los Sistemas de Soporte a la Decisión en la empresa Página 54 disponible de sus clientes más fieles. – Tecnología Microsoft SQL Server database. departamento. grupo.  Segmentación, árboles de decisión: generados por el conjunto de los usuarios. © 2009 IDE-CESEM.
  • 55.  Resultados del análisis a través de data mining fueron a su vez guardados en el cubo OLAP, que permite a todos los usuarios finales un rápido acceso. Resultados:  Acceso más rápido a la información de sus clientes.  Comprender qué variables estaban relacionadas con la utilización del  Departamento de marketing podía ahora enviar mensajes mucho  Y, además, poner los productos más interesantes a disposición de los Los Sistemas de Soporte a la Decisión en la empresa Página 55 Disco S.A. programa Discoplus. más enfocados y diferenciados a sus clientes. usuarios del programa, en función de su perfil. © 2009 IDE-CESEM.
  • 56. Retos de la implantación.  Training del usuario final en la explotación del data warehouse. – Usuario final sólo estaba habituado a reportes estáticos en Excel – Educarle en las nuevas capacidades relacionadas con OLAP. – Hoja Excel capaz de generar queries al cubo. – Programa ETL había sido creado hace unos cuantos años, y la forma en que los datos eran extraídos, agregados y limpiados había variado con el paso del tiempo. – Al no ser los datos homogéneos hubo que trabajar transformando los datos guardados al formato más homogéneo posible. Los Sistemas de Soporte a la Decisión en la empresa Página 56 Disco S.A.  Calidad de los datos, © 2009 IDE-CESEM.

Editor's Notes

  1. <number>
  2. <number>
  3. <number> How about OLAP? It’s really just more reporting.
  4. <number> Operational systems alone are very expensive They require a long time to implement. They don’t really give you a measurable ROI. THEY ARE ABSOLUTELY NECESSARY TO DO BUSINESS IN TODAY’s WORLD Business Intelligence systems require a second wave of investment They improve your knowledge about your business They can help you get to ROI Predictive analytics require a relatively small investment They can get you to profitability fast Traditional predictive analytics get you to the first green hump, which is directly limited by the number of Analysts and Statisticians Only automated and embedded Analytics like KXEN get you the steep incremental ROI
  5. <number>
  6. <number>
  7. Data Mining is an iterative process that receives data in a relational or flat file form as its input and generates valuable information as output (i.e., the underlying patterns and relationships of the data). It is important to understand/define business objectives and to keep business knowledgeable people involved at all stages of analysis. The data must be prepared for analysis during the Data Pre-Processing step, This step can take any number of forms, such as sampling, statistical analysis, correlation analysis, and/or cluster and feature analysis. In addition, some common data warehousing steps are performed. The data is checked for consistency, consolidated, and organized. At this point business rules can also be applied to the data. Any operations, such as the calculation of derived parameters or aggregation of data in fields or discretization of variables, are completed as well The data should also be available for exploration at all times during the Knowledge Exploration process, since data mining is a highly iterative process. The next three steps are the ones most often associated with data mining: the construction, validation, and verification of the model. During model construction, the selected techniques and tools are applied to construct the data mining model (e.g., determine rules for identifying patterns, build models for customer scoring). Model validation and verification are collectively referred to as model evaluation. They are in fact two separate activities required for testing/evaluating the models. The model is validated based on pre-determined levels of accuracy and precision. Precision, consistency of the results, is determined by using a test data set that was not used for model construction. Accuracy, goodness of the answer, is determined by yet another test set. It should be noted that, in general, there is always a trade off between the accuracy of the results and the complexity of models, namely, as the model becomes more complex, the accuracy of the model generally increases. Then, the model is verified against current business knowledge and the preliminary data analysis results, in order to confirm that the business objectives are met. Finally, the data mining insight is deployed. It can be deployed by rolling out a “scoring model” or applying new insights to business (for example, offering specific cross-selling suggestions to a customer)
  8. <number>
  9. <number>
  10. <number>
  11. <number>
  12. <number> 1) Data Quality - Data is required. Specifically clean, good quality. Volume of data is often less important than the data relevancy to the business question under examination. Often the largest amount of time is spent on data cleansing and calculating the relevancy of the data. Do not rely on billing or production data only. To do CRM you need personal customer information for example. 2) Do not start a data mining project without the proper skills and consultant experience. This would most often set the expectation too high and will confuse and even demotivate the client. A strong data miner is mandatory. S/He can supervise a team of several beginners that can be statistician at the beginning, Since Data Preparation (Data set or mart creation, data cleansing and consolidation) is mandatory, a couple of database (SQL - data) knowledgeable person is required. 3) Clearly Defined Business Objectives - data mining needs guidance in order to focus the analysis. For example, is the purpose to understand what customer segments exist? Find out who is loyal? Find out who would be likely attrite?. The objective must be documented. The integration of the knowledge at the end of the discovery phase must be thought at the beginning of the phase. If knowledge is discovered, who will be impacted, what process needs to be modified…. 4) A data Mining project must be driven by the Business. It can be driven by the marketing department but should not be driven by the IT department. One will focus on small important but tactical problems whereas under IT umbrellas the outcome might not serve the business purposes. The Sponsor must be above the IT and Marketing head. The acceptance from these 2 groups’ heads is however mandatory. 5) Reasonable and planned ROI. Do not pass the message of gold nuggets inside the dusty mine, you will put yourself in trouble. The economic model (like in a business case) must be set as early as possible. The ROI must be planned with some assumption for the prediction rate. One must be careful with ROI. Do not sell gold before having seen the smallest nugget. 6)Analysis Approach/Iterative - The business objectives and the data characteristics are taken into account when developing the model (or analysis approach). Certain techniques lend themselves better to specific types of data (categorical, continuous etc.) and to certain types of questions (ie., predictive, induction). For example very different approaches can be taken to identify fraudulent transactions 1) can look for fraud based on known fraudulent behavior/transactions 2) can look for fraud by looking for transactions that are atypical. Data mining model development is an iterative process, the business reviewers must be available for frequent and short reviews to drive the data mining team work with the DM manager.
  13. <number>