1. Aplicaciones de minería de
datos
Por:
M.C. Leopoldo González Rosas
www.cnys.com.mx
campodeEncinos.wordpress.com
2. Agenda
• Presentación
• Motivación
• ¿qué es minería de datos?
– Disciplinas involucradas
• Aplicaciones
– Bibliotecas
– Universidades
– otras
• ¿cómo funciona?
– Arquitectura de inteligencia de negocios
3. Agenda (cont.)
– Metodología: El proceso de descubrimiento de
conocimiento en bases de datos (KDD)
– Recolección/preparación de datos
– Algoritmos
– Modelo predictivo y su interpretación
– Utilizando los resultados
• Toma de decisiones
• Sistemas operacionales
• Software de minería de datos
• Minería de datos y ética
• Conclusión
4. Presentación
Yo:
Formación académica:
Licenciatura en Ciencias de la computación – BUAP FCC
Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP
Experiencia profesional
CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software)
gedas VW (BI, preventas, consultoría, LP)
BBVA Bancomer (BI, LP)
SFA Puebla (soporte técnico BD)
Experiencia académica
Programación
Bases de datos / Inteligencia de negocios
Universidades: UDLAP, UPAEP, BUAP
Áreas de interés
Bases de datos e inteligencia de negocios
Desarrollo de software
Proceso de enseñanza - aprendizaje
5. Motivación
• “Knowing is not enough; we must apply.
Willing is not enough; we must do.”.
Goethe
Generamos datos de manera exponencial
Era de información
Obtener el conocimiento
oculto en esos datos
Datos información conocimiento
Competir en este mundo de
negocios globalizado
6. ¿qué es minería de datos?
• Minería LA PREDICCION PARAproceso por el cual
USAR
de datos es el MEJORAR Y GANAR EN LOS
generamos un modelo que sirva para la
NEGOCIOS
predicción,
– este modelo se genera a partir de datos
aplicándoles algún algoritmo que construye el
modelo.
• El modelo se evalúa para saber que tan
certero será respecto a sus predicciones y
posteriormente
• se utiliza para predecir el comportamiento
de cualquier dato nuevo
7. ¿qué es minería de datos? (cont.)
• Es la extracción de información
implícita, previamente desconocida y
potencialmente útil a partir de datos
[Witten I.H. et al, 2011]
• Es una disciplina joven y de rápido
crecimiento, conocida como KDD, …
DM como la evolución de TI. [Han J. et
al, 2012]
• Es la extracción automatizada de
información escondida a partir de
(grandes) bases de datos. Te permite
ser proactivo. Prospectivo en lugar de
retrospectivo[Thearling K.]
9. ejemplo: reglas if-then
if tasaProducciónLagrimas = reducida
then recomendacion = ninguna
Else
if edad=joven and astigmatismo=no
then recomendación = suaves
15. Otras aplicaciones
• Marketing
• Predicción de ventas, precios, acciones e índices
financieros.
• Detección de fraudes en tarjetas de crédito
• Clasificación y filtrado de documentos, e-mails y
noticias.
• Análisis de llamadas en Centros de atención
telefónica.
• Clasificación automática de Quejas y
Sugerencias de Clientes.
16. Arquitectura de inteligencia de
negocios
• Software del sistema (system software)
– Sistemas operativos, DBMS, compiladores
• Software de aplicación (app software)
– Operacional
• OLTP y batch
• Office, nomina, ventas, ERP
– Para la toma de decisiones -> inteligencia
de negocios
19. Metodología (cont.)
1) Establecer de manera precisa el problema a resolver
- No gastes dinero, antes de comprar un software
primero establece que es lo que quieres resolver
2) Exploración inicial
-preparación y limpieza de datos
-transformaciones de datos
- Probar con estadística descriptiva para conocer datos
3) Construcción del modelo y validación
- Probar algunos modelos y elegir el mejor para el
problema que se está resolviendo
4) Liberación
- Una vez construido el modelo se puede usar muchas
veces
- Los árboles de decisión son fáciles de liberar
20. Recolección/preparación de datos
• Extraer, transformar, cargar
– Posiblemente ya existe un almacén de datos
• Limpieza / calidad de datos
• Transformaciones para la minería
– “Discretizar” (ejemplo: E B R M)
• Muestra(s) -> vistas minables
– Cómo se obtiene
– Tamaño de la muestra
21. Algoritmos de minería de datos
• Clasificación – predicen una o más variables discretas,
basandose en los otros atributos en el conjunto de datos.
Ejemplo: árboles de decisión
• Regresion – predice una o más variables continuas, como
perdida o ganancia, basandose en los otros atributos en el
conjunto de datos.
• Segmentación – divide datos en grupos o clusters de
articulos que tienen propiedades similares.
• Asociación - encuentran correlaciones entre los diferentes
atributos de un conjunto de datos. Sirven para crear reglas
de asociación por ejemplo para MBA.
• Análisis de secuencia – encuentra secuencias frecuentes o
episodios en datos, como en un flujo de rutas Web.
22. Modelo predictivo y su interpretación
If temperatura = agradable then humedad = normal
23. Utilizando los resultados
• Se recorre el modelo cada vez que se desea
predecir
– Por ejemplo para decidir a quien otorgarle un
apoyo adicional
– Por ejemplo para decidir si se le presta o no
dinero a alguien
• El modelo se puede usar para calificar a los
datos de los sistemas operacionales para:
– Por ejemplo: identificar “Preferentes”
– Por ejemplo: identificar “ evasores fiscales”
24. Software de DM
• Weka y pentaho
• Rapid Miner
• Microsoft SQL Server 2008 R2
• sas enterprise miner
• IBM spss
• Oracle data mining
25. Minería de datos y ética
•Es difícil hacer que los datos sean “anónimos”
– 85% de la gente puede ser identificada por su
C.P., fecha de nacimiento y genero
•La minería de datos se usa para discriminar
•Ejemplo: aplicación de prestamos: usar información como sexo,
religión o raza no es ético
•La situación etica depende de la aplicación
•Ejemplo: la misma información esta bien en aplicaciones medicas
•Los atributos pueden contener información
problematica
–Ejemplo: el CP se puede correlacionar con la raza
26. Conclusiones
• Minería de datos se ha venido estudiando e
investigando pero no se esta aplicando en los
diversos problemas de nuestro país
– Educación, salud, el campo, eliminar la pobreza
• Mientras tenemos científicos trabajando en este
tema, debemos preparar a las personas que lo
aplicarán. (astrónomos y astronautas)
• Es una tecnología que ya está al alcance de todo
el mundo
• ¿Y el e-commerce? ¿Y la nube? ¿y las iPads? …
27. GRACIAS POR SU ATENCIÓN
lgr811@cnys.com.mx
lgr811@yahoo.com
28. Bibliografía
• campodeEncinos.wordpress.com
• http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez
_r_l/
• http://www.uppuebla.edu.mx/Revista/revista10.pdf
• http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009
.pdf
• http://www.cs.waikato.ac.nz/~ml/weka/book.html
• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer,
Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining
Software: An Update; SIGKDD Explorations, Volume 11, Issue 1
• Kiron D. et al. Analytics:the widening divide – how companies are
achieving competitive advantage through analytics. MIT
Sloan/IBM research report fall 2011
• http://www.kdnuggets.com/software/suites.html
• http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digit
ales.pdf