Data Mining.
                                                                                                             ...
El Mundo de la Información y sus Problemas.
                                                                              ...
Datos, Información y Conocimiento.
                                                                                       ...
Acceso a los Datos. Evolución histórica.
                                                                                 ...
OLAP (On-Line Analytical Processing)
                                                                                     ...
Data Warehouses. Génesis.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                    ...
Data Warehouses
                                                                                                   DATA-WA...
Construcción de un Data Warehouse
                                                                                        ...
¿Qué es Data Mining (minería de datos)?
                                                                                  ...
Diferencias entre DBMS y Data Mining

                                                                                    ...
Acceso a Datos vs. Acceso a Conocimiento
                                                                                 ...
Data Mining and Business Intelligence
                                                                                    ...
Multidisciplinar. Areas y Técnicas Involucradas
                                                                          ...
Estadística y Ciencias de la Computación
                                                                                 ...
Focus Areas
                                                                                                      Padhraic...
Inteligencia Artificial
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                      ...
Areas y Técnicas Involucradas
                                                                                            ...
Hot Topics (Statistics and Machine Learning)
                                                                             ...
Objetivos. Un Primer Ejemplo

                                                                                            ...
Aplicaciones de la Minería de Datos.
                                                                                     ...
La cantidad de información generada en proyectos científicos ha
                                                          ...
Ejemplo. Meteorología.
                                                                                                 ¸M...
Los 6 primeros dígitos son fecha con el formato:aammdd (año,mes y día)
                                                   ...
Libros y Material de Consulta

                                                                                           ...
Libros disponibles en Internet
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                               ...
Enlaces Interesantes y Revistas
                                                                                          ...
El Portal KDnuggets: http://www.kdnuggets.com/
                                                                           ...
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm                      Producto...
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm                      Un Ejemp...
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm                      IBM DB2 ...
IBM Advanced Scout. http://www.research.ibm.com/scout/

                                                                  ...
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm

                            ...
Modelado de Dep. (reglas de asociación)
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                      ...
Relaciones entre atributos. Fórmulas y Reglas.
                                                                           ...
¸Asociaciones
                                                                                                            ...
¸Fórmulas                                         A=B*C
                                                                  ...
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
http://personales.unican.es/gutierjm                      Ejemplo
Búsqueda de Reglas de Asociación
                                                                                         ...
Fase A: Selección Grandes de Atributos
                                                                                   ...
Ejemplo
José Manuel Gutiérrez, Universidad de Cantabria. (2001)




                                                      ...
El Algoritmo APRIORI
                                                                                                     ...
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Upcoming SlideShare
Loading in …5
×

Data Mining. Extracción de Conocimiento en Grandes Bases de Datos

48,282
-1

Published on

Data Mining.
Extracción de Conocimiento en
Grandes Bases de Datos. Realizado por
José M. Gutiérrez
Dpto. de Matemática Aplicada,
Universidad de Cantabria, Santander

http://personales.unican.es/gutierjm/docs/trans_DataMining.pdf

Published in: Technology

Data Mining. Extracción de Conocimiento en Grandes Bases de Datos

  1. 1. Data Mining. Extracción de Conocimiento en José Manuel Gutiérrez, Universidad de Cantabria. (2001) Grandes Bases de Datos http://etsiso2.macc.unican.es/~meteo J o sé M. Gutiérrez http://personales.unican.es/gutierjm Dpto. de Matemática Aplicada, Universidad de Cantabria, Santander http://personales.unican.es/gutierjm
  2. 2. El Mundo de la Información y sus Problemas. • Cada vez se genera más información y se hace más fácil el acceso masivo a la misma (existen gran cantidad de bases de datos on-line) José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸ Transacciones bancarias, Internet y la Web, observaciones científicas (biología, altas energías, etc. ) "tranNASA’s EOS (Earth Observation System)". • La tecnología es barata y los sistemas de gestión de bases de datos son capaces de trabjar con cantidades masivas de datos (Terabytes). Los datos contienen información útil "CONOCIMIENTO" !!! http://personales.unican.es/gutierjm • Necesitamos extraer información (conocimiento) de estos datos: ¸Rapidez y confiabilidad. ¸Capacidad de modelización y escalabilidad. ¸Explicación e Interpretación de los resultados (visualización, …). WalMart captura transacciones de 2900 tiendas en 6 países. Esta información e acumula en una base de datos masiva de 7.5 terabyte. WalMart permite que más de 3500 proveedores accedan a los datos relativos a sus productos para realizar distintos análisis. Así pueden identificar clientes, patrones de compras, etc. En 1995, WalMart computers procesó más de un millón de consultas complejas.
  3. 3. Datos, Información y Conocimiento. ¿Qué diferencias hay entre información, datos y conocimiento? José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸ Informalmente se utilizan indistintamente, con pequeños matices. ¸ información y datos se pueden referir a cualquier cosa, aunque “Datos” suele referir a la “evidencia”. ¸ Conocimiento es subjetivo: depende de las intenciones (objetivo del aprendizaje). debe ser inteligible para el que aprende o el que encarga el aprendizaje (usuario). ¿Qué es aprendizaje? http://personales.unican.es/gutierjm ¸ (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la experiencia. Aprendizaje = Inteligencia. ¸ (visión más estática) es la identificación de patrones , de regularidades, existentes en la evidencia. ¸ (visión externa) es la predicción de observaciones futuras con plausibilidad. ¸ (visión teórico- informacional, Solomonoff 1966) es eliminación de redundancia = compresión de información .
  4. 4. Acceso a los Datos. Evolución histórica. La necesidad de almacenar información ha motivado históricamente el desarrollo de sistemas más eficientes, con mayor capacidad y más baratos de almacenamiento. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm • Bases de datos relacionales. • DBMS (Data Base Management Systems) y repositorios de información: – Bases de datos orientadas a objetos y objeto-relacionales. – Bases de datos espaciales (geográficas). – Bases de datos de texto y multimedia. – WWW.
  5. 5. OLAP (On-Line Analytical Processing) Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional). José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸Se mantiene el trabajo transaccional diario de los sistemas de información originales (conocido como OLTP, On- Line Transactional Processing ). ¸Se hace análisis de los datos en tiempo real sobre la misma base de datos( conocido como OLAP, On- Line Analytical Processing ), Según la organización de la información copiada se distingue: ¸ROLAP (Relational OLAP): el almacén de datos es relacional. http://personales.unican.es/gutierjm ¸MOLAP (Multidim OLAP): el almacén de datos es una matriz multidimensional. Cada atributo relevante se establece en una dimensión, que se puede agregar o desagregar.
  6. 6. Data Warehouses. Génesis. José Manuel Gutiérrez, Universidad de Cantabria. (2001) PROBLEMAS: ¸ Disturba el trabajo transaccional diario de los sistemas de información originales http://personales.unican.es/gutierjm (“ killer queries ”). Se debe hacer por la noche o en fines de semana. ¸ La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP). Para poder operar eficientemente con esos datos y debido a que los costes de almacenamiento masivo y conectividad se han reducido drásticamente en los últimos años, parece razonable recoger (copiar) los datos en un sistema unificado.
  7. 7. Data Warehouses DATA-WAREHOUSES (Almacenes de Datos): Se separan de los datos a analizar con respecto a sus fuentes transaccionales (se copia/ almacena toda José Manuel Gutiérrez, Universidad de Cantabria. (2001) la información histórica). Existe toda una tecnología creciente de cómo organizarlos y sobretodo de cómo tenerlos actualizados (cargas periódicas) respecto a los datos originales VENTAJAS: ¸Facilita el análisis de los datos en tiempo real (OLAP), ¸No disturba el OLTP de las bases de datos originales. http://personales.unican.es/gutierjm A partir de ahora diferenciaremos entre bases de datos para OLTP (tradicional) y almacenes de datos (KDD sobre data warehouses).
  8. 8. Construcción de un Data Warehouse Data Warehouse Limpieza y criba selección de datos: José Manuel Gutiérrez, Universidad de Cantabria. (2001) Se deben elmininar el mayor número posible de datos erróneos o inconsistentes (limpieza) e Data Cleaning irrelevantes (criba). Se aplican métodos estadísticos: -Histogramas (detección de datos anómalos). - Redefinición de atributos (agrupación o separación). Databases Muy relacionado con la disciplina de “Calidad de Datos”. http://personales.unican.es/gutierjm Acciones ante datos anómalos (outliers): - Ignorar: algunos algoritmos son robustos a datos anómalos. - Filtrar (eliminar o reemplazar) la columna: solución extrema. - Discretizar: transformar un valor continuo en uno discreto (p. ej. muy alto, alto, etc.) hace que los outliers caigan en ‘muy alto’ o ‘muy bajo’ sin mayores problemas. Acciones ante datos faltantes (missing values): - Ignorar: algunos algoritmos son robustos a datos faltantes. - Filtrar (eliminar o reemplazar) la columna - Reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos, utilizando cualquier técnica de ML.
  9. 9. ¿Qué es Data Mining (minería de datos)? the non trivial extraction of implicit, CONOCIMIENTO previously unknown, and potentially José Manuel Gutiérrez, Universidad de Cantabria. (2001) Pattern useful information from data Evaluation W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, 213-228. Data Mining Task-relevant Data http://personales.unican.es/gutierjm Data Selection Warehouse Datos imprecisos e incompletos Data Cleaning almacenados en Data Integration múltiples fuentes Heterogéneos y Databases mezclados.
  10. 10. Diferencias entre DBMS y Data Mining En los sistemas estándar de gestión de bases de datos las José Manuel Gutiérrez, Universidad de Cantabria. (2001) consultas se resuelven accediendo a distintos conjuntos de datos almacenados: ¸Ventas del último mes de un producto. ¸Ventas agrupadas por la edad del comprador. Los sistemas de data mining infieren conocimiento de la base http://personales.unican.es/gutierjm de datos en forma de estructuras y patrones. Este conocimiento supone un nuevo conjunto de información en base a la cual se responden las consultas: ¸por qué es tan rentable la división Iberoamericana de Telefónica? ¸¿qué clientes son potenciales compradores de un producto? ¸¿cuál será el beneficio de la compañía el mes próximo?
  11. 11. Acceso a Datos vs. Acceso a Conocimiento http://www.datamining.com Paradigma de Acceso a Datos: José Manuel Gutiérrez, Universidad de Cantabria. (2001) El usuario solicita datos y procesa los datos recibidos en busca de "conocmiento". SQL + algoritmos de data mining. Paradigma de Acceso a Conocimiento: El sistema genera automáticamente patrones de conocimiento refinados y el usuario accede directamente a los mismos. PQL = Pattern Query Languaje http://personales.unican.es/gutierjm PQL was designed to access patterns just as SQL was designed to access data. PQL resembles SQL, works atop existing SQL engines. Information Discovery uses a Pattern WarehouseTM of refined information and PQL works on patterns just as SQL works on a datawarehouse. While SQL relies on the relational algebra, PQL uses the "pattern algebra". PQL allows pattern-based queries just as SQL allows data-based queries. And, PQL uses SQL as part of its operation, i.e. PQL queries are decomposed into a set of related SQL queries, the Pattern Warehouse is accessed with these queries and the results are re-combined for display to the user. The user accesses these patterns using a web browser.
  12. 12. Data Mining and Business Intelligence Jiawei Han Intelligent Database System Research Lab http://www.cs.sfu.ca/~han José Manuel Gutiérrez, Universidad de Cantabria. (2001) Increasing potential to support business decisions End User Making Decisions Data Presentation Business Analyst Visualization Techniques http://personales.unican.es/gutierjm Data Mining Data Information Discovery Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP
  13. 13. Multidisciplinar. Areas y Técnicas Involucradas variety of techniques to identify nuggets of information or decision-making knowledge in bodies of data, and extracting these in such a way that they can be José Manuel Gutiérrez, Universidad de Cantabria. (2001) put to use in the areas such as decision support, prediction, forecasting and estimation. The data is often voluminous, but as it stands of low value as no direct use can be made of it; it is the hidden information in the data that is useful. Areas Involucradas ¸Componentes Principales: compresión de la información. ¸Componentes Independientes: extracción de características. ¸Modelado de Dependencias: http://personales.unican.es/gutierjm hallar asociaciones entre variables. redes Bayesianas ¸Agrupación: hallar grupos de elementos. ¸Clasificación: asignar elementos a clases. ¸Predicción: estimación de valores. ¸Visualización: representación gráfica. Redes Neuronales
  14. 14. Estadística y Ciencias de la Computación • Estadística – 1970: EDA, estimación Bayesiana, modelos flexibles, EM, etc José Manuel Gutiérrez, Universidad de Cantabria. (2001) – Conciencia sobre el papel de la computación en el análisis de datos. • Reconocimiento de Patrones e Inteligencia Artificial – Atención dirigiga a problemas de percepción (e.g., habla, visión) – 1960: división en técnicas estadísticas y no estadísticas (gramáticas, etc.) – Convergencia de estadística aplicada e ingeniería (análisis imágenes, Geman) • Aprendizaje Automático y Redes Neuronales – 1980: fracaso de las téncias de aprendizaje no estadísticas – Aparición de modelos flexibles (árboles, redes) http://personales.unican.es/gutierjm – Convergencia de estadística aplicada y aprendizaje • e.g., trabajos de Friedman, Spiegelhalter, Jordan, Hinton IA / Apredizaje Automático Bases de Datos Extracción automática de conocimiento Bases de datos masivas 1989 KDD workshop Reglas de asociación ACM SIGKDD 2000 Algoritmos escalables MINERIA DE DATOS
  15. 15. Focus Areas Padhraic Smyth. Information and Computer Science University of California, Irvine José Manuel Gutiérrez, Universidad de Cantabria. (2001) Computer Science Statistics Statistical Statistical Neural Machine Data Databases Inference Pattern Networks Learning Mining Recognition http://personales.unican.es/gutierjm Nonlinear Flexible Pattern Computer Vision, Regression Classification Finding Signal Recognition Models Scalable Graphical Hidden Algorithms Models Variable Models
  16. 16. Inteligencia Artificial José Manuel Gutiérrez, Universidad de Cantabria. (2001) Técnicas Nuevos Clásicas Paradigmas Inspiración Biológica Representación explícita del http://personales.unican.es/gutierjm conocimiento sentencias lógicas, reglas, grafos, redes semánticas, etc. Imitación del proceso humano de razonamiento Procesamiento en serie Inferencia lógica, búsqueda en grafos de la información
  17. 17. Areas y Técnicas Involucradas variety of techniques to identify nuggets of information or decision-making knowledge in bodies of data, and extracting these in such a way that they can be José Manuel Gutiérrez, Universidad de Cantabria. (2001) put to use in the areas such as decision support, prediction, forecasting and estimation. The data is often voluminous, but as it stands of low value as no direct use can be made of it; it is the hidden information in the data that is useful. ¸Modelado de Dependencias: Técnicas Involucradas asociaciones entre variables. reglas y grafos (redes Bayesianas). ¸Componentes Principales: compresión de la información. http://personales.unican.es/gutierjm ¸Componentes Independientes: extracción de características. ¸Agrupación: hallar grupos de elementos. ¸Clasificación: asignar elementos a clases. ¸Predicción: estimación de valores. ¸Visualización: representación gráfica.
  18. 18. Hot Topics (Statistics and Machine Learning) Padhraic Smyth Information and Computer Science José Manuel Gutiérrez, Universidad de Cantabria. (2001) University of California, Irvine Nonlinear Flexible Pattern Computer Vision, Regression Classification Finding Signal Recognition Models Hidden Graphical Scalable Variable Models Algorithms http://personales.unican.es/gutierjm Models Classification Belief Trees Deformable Mixture/ Networks Templates Factor Models Association Rules Hidden Support Markov Model Vector Models Combining Machines
  19. 19. Objetivos. Un Primer Ejemplo Asociación: José Manuel Gutiérrez, Universidad de Cantabria. (2001) Interesa obtener automáticamente reglas que relacionen unos atributos de la base de datos con otros, en base a alguna asociación: Ejemplo - Base de datos de clientes de un banco. Regla de Asociación: if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes then INVESTMENT_TYPE = good http://personales.unican.es/gutierjm Clasificación: Un sistema de minería de datos aprende de los datos cómo particionar o calsificar los mismos en base a reglas de clasificación: Ejemplo - Base de datos de clientes de un banco. Pregunta - Un cliente que solicita un préstamo, es una buena inversión? Regla típica formulada: if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes then INVESTMENT_TYPE = good
  20. 20. Aplicaciones de la Minería de Datos. Gran cantidad de información (financiera, servicios, empresas, universidades, libros y hobbies), con complejas interrelaciones. José Manuel Gutiérrez, Universidad de Cantabria. (2001) El 99% de la información no le interesa al 99% de la gente. En Internet Ambiente dinámico ¸E-bussines. Perfiles de clientes, publicidad dirigida, fraude. ¸Buscadores "inteligentes". Generación de jerarquías, bases de conocimiento web. ¸Gestión del tráfico de la red. Control de eficiencia y errores. ÿ Reglas de asociación: El 60% de las personas que esquían viajan frecuentemente a Europa. ÿ Clasificación: Personas menores de 40 años y salario superior a 2000$ compran on-line frecuentemente. ÿ Clustering: http://personales.unican.es/gutierjm Los usuarios A y B tienen gustos parecidos (acceden URLs similares). ÿ Detección de "outliers" El usuario A navega en Internet más del doble del tiempo promedio. La publicidad en Internet es uno de los tópicos más actuales de Data Mining. Los data warehouse de las empresas contienen enormes cantidades de información sobre sus clientes y gestiones. El Mundo de los Negocios ¸Banca. Grupos de clientes, préstamos, oferta de productos. ¸Compañías de seguros. Detección de fraude, administración de recursos. ¸Marketing. Publicidad dirigida, estudios de competencia.
  21. 21. La cantidad de información generada en proyectos científicos ha sido enorme: Genoma Humano, datos geofísicos, altas energías, etc. En Biología, Meteorología, etc. José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸Bio-Informática. Búsqueda de patrones en ADN, consultas inteligentes. ¸Meteorología. Teleconexiones (asociaciones espaciales), predicción. ¸Física (altas energías). Datos de colisiones de partículas (búsqueda de patrones). Escherichia Coli 176195 bases gccattacct http://personales.unican.es/gutierjm ctggtctgga agtagtctgg acccagacgc cgacccagtg WP4: TESTBED gagcaactat http://www.ifca.unican.es/crossgrid/ Secuencias numéricas ttcttcgaga Secuencia acctgttcaa Electrocardiogramas, etc. Simbólica gtatgagtgg EJEMPLO !!!!!!!!!!!!!!!!!!
  22. 22. Ejemplo. Meteorología. ¸Meteorología. Teleconexiones (asociaciones espaciales), predicción. José Manuel Gutiérrez, Universidad de Cantabria. (2001) Existen bases de datos con simulaciones de los campos atmosféricos en rejillas dadas. http://personales.unican.es/gutierjm Se dispone de gran cantidad de información en observatorios locales: Precipitación, temperatura, Viento, etc.
  23. 23. Los 6 primeros dígitos son fecha con el formato:aammdd (año,mes y día) Fecha Tormenta posición 7: 0=Sin Precipitación 1=Lluvia 3=Llovizna 5=Chubasco posición 8: 0=Sin Nieve 1,2,3 o 4=Nieve posición 9: 0=Sin Granizo 1,2,3 o 4=Granizo posición 10: 0=Sin Viento Tormenta 1=Tormenta Nieve Granizo Escarcha posición 11: 0=Sin Niebla 1,2,3 o 4=Niebla José Manuel Gutiérrez, Universidad de Cantabria. (2001) Neblina posición 12: 0=Sin Rocío 1 o 6=Rocío posición 13: 0=Sin Escarcha 1 o 6=Escarcha posición Rocío Nieve Suelo Polvareda 14: 0=Sin Nieve cubriendo el Suelo 1=Nieve cubriendo el Suelo posición 15: 0=Sin Neblina 1=Neblina posición 16: 0=Sin Calima 1=Calima posición 17: 0=Sin Viento>50km/h 1=Viento>50km/h Precipitación posición 18: 0=Sin Polvareda 1=Polvareda Niebla 860101500000000010 860102100000000010 http://personales.unican.es/gutierjm Fecha Granizo Calima 860103500100000010 Rocío 860104500000000010 Precipitación Neblina Escarcha 860105101100000010 Tormenta 860106101100000010 Niebla 860107300100000010 Nieve Viento Nieve Suelo 860108500000000010 Polvareda 860109500000001000 860110000001001100 860111001000000000
  24. 24. Libros y Material de Consulta Data Mining: Practical Machine Learning Tools and José Manuel Gutiérrez, Universidad de Cantabria. (2001) Techniques with Java Implementations Ian H. Witten, Eibe Frank Machine Learning and Data Mining Open Soure Tools in Java http://www.cs.waikato.ac.nz/~ml/weka/ Advances in Knowledge Discovery and Data Mining http://personales.unican.es/gutierjm Edited by U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy The AAAI Press Data Mining Techniques: For Marketing, Sales, and Customer Support By Michael J. Berry,Gordon Linoff Wiley, John & Sons, http://www1.fatbrain.com/FindItNow/Services/home.cl?from=cbs169&store=1
  25. 25. Libros disponibles en Internet José Manuel Gutiérrez, Universidad de Cantabria. (2001) Expert Systems and Probabilistic Network Models. E. Castillo, J.M. Gutiérrez, y A.S. Hadi Springer-Verlag, New York. http://personales.unican.es/gutierjm Monografías de la Academia Española de Ingeniería An Introduction to Functional Networks E. Castillo, A. Cobo, J.M. Gutiérrez and E. Pruneda Kluwer Academic Publishers (1999). Paraninfo/International Thomson Publishing
  26. 26. Enlaces Interesantes y Revistas The Data Mine provides information about Data Mining and Knowledge Discovery in Databases (KDD). José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://www.cs.bham.ac.uk/~anp/TheDataMine.html http://www.data-miners.com/ http://www.kdcentral.com/Software/Data_Mining/ http://www.andypryke.com/university/software.html http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html Journals http://personales.unican.es/gutierjm Data Mining and Knowledge Discovery. http://www.wkap.nl/journalhome.htm/1384-5810 Intelligent Data Analysis http://www.iospress.nl/site/html/1088467x.html IEEE Trans. on Knowledge and Data Engineering http://www.iospress.nl/site/html/1088467x.html Related Journals (from IDA) http://www.ida-society.org/journals.html
  27. 27. El Portal KDnuggets: http://www.kdnuggets.com/ Portal dedicado a Data Mining, Web Mining y Búsqueda de Conocimiento. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm
  28. 28. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm Productos Comerciales
  29. 29. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm Un Ejemplo: DBMiner. http://www.dbminer.com
  30. 30. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm IBM DB2 Intelligent Miner
  31. 31. IBM Advanced Scout. http://www.research.ibm.com/scout/ Using data mining software called Advanced Scout to José Manuel Gutiérrez, Universidad de Cantabria. (2001) prepare for a game, a coach can quickly review countless stats: shots attempted, shots blocked, assists made, personal fouls. But Advanced Scout can also detect patterns in these statistics that a coach may not have known about. So during a game, a coach can know exactly which plays are most effective with which players and under what circumstances. “attribute focusing” finds conditional ranges on attributes http://personales.unican.es/gutierjm where the distributions differ from the norm. An analysis of the data from a game played between the New York Knicks and the Charlotte Hornets revealed that when "Glenn Rice played the shooting guard position, he shot 5/6 (83%) on jump shots." Through data mining, Advanced Scout identified a certain player (Rice), playing a certain position (shooting guard), shooting at a certain rate (83%), on a certain type of shot (jump shots). Advanced Scout not only finds this pattern, but points out that it is interesting because it differs considerably from the average shooting percentage of 54% for the Charlotte Hornets during that game.
  32. 32. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm http://etsiso2.macc.unican.es/~meteo The Toolbox “MeteoLab” Data Mining in Meteorology
  33. 33. Modelado de Dep. (reglas de asociación) José Manuel Gutiérrez, Universidad de Cantabria. (2001) ¸Modelado de Dependencias: asociaciones entre variables. reglas y grafos. ¸Componentes Principales: compresión de la información. ¸Componentes Independientes: http://personales.unican.es/gutierjm extracción de características. ¸Agrupación: hallar grupos de elementos. ¸Clasificación: asignar elementos a clases. ¸Predicción: estimación de valores. ¸Visualización: representación gráfica.
  34. 34. Relaciones entre atributos. Fórmulas y Reglas. Una de las técnicas más habituales en data mining consiste en extraer las relaciones relevantes que existan entre conjuntos de variables (itemsets) de la base de datos. José Manuel Gutiérrez, Universidad de Cantabria. (2001) De esta forma se pueden detectar errores, fraudes, e inconsistencias fácilmente. En el caso de bases de datos relacionales trabajaríamos con conjuntos formados por pares (atributo # valor) utilizando los registros de la base de datos. {Cliente = Pepe, Precio > 10$} {Producto = Café} Estas relaciones de asociación se pueden establecer en distintas formas: http://personales.unican.es/gutierjm ¸Reglas if-then "reglas de asociación" If Cliente is Pepe Son implicaciones de la forma X=>Y and Precio is lower than 10$ if (X1= a, X3= c, X5= d) then (X4= b, X2= a) Then Producto = Café La fiabilidad [confidence] es la proporción de Aquellos registros con X que también contienen confidence: 0.98 también a Y. The rule exists in 102 records Significance level: error prob < 0.001 La relevancia [support] es la proporción de registros que contienen tanto X como Y.
  35. 35. ¸Asociaciones The value Pepe in the Cliente field Se buscan asociaciones de la forma: is associated with the value Café in (X1= a) <=> (X4= b) the Producto field De los n registros de la tabla, las dos igualdades José Manuel Gutiérrez, Universidad de Cantabria. (2001) Son verdaderas o falsas simultáneamente Rule’s fiab: 0.8 en rc casos: fiabilidad de la asociación = rc /n Ejemplo: http://personales.unican.es/gutierjm Reglas de Asociación: (Hijos > 0) => Casado (100%, 2 casos). Casado => Obeso (100%, 3 casos). Asociaciones: Casado e (Hijos > 0) están asociados (80%, 4 casos). Obeso y casado están asociados (80%, 4 casos)
  36. 36. ¸Fórmulas A=B*C Where: A = Total Relaciones matemáticas X=f(Y,Z)=Y*Z B = Cantidad José Manuel Gutiérrez, Universidad de Cantabria. (2001) La fiabilidad denota el cociente entre el número de casos en que se cumple la C = Precio fórmula (suponiendo un cierto error de Rule’s Accuracy Level: 0.99 redondeo) y el número total de casos. The rule exists in 1890 records ¸Reglas de hortografía. The value Pepe appears 52 times in the Cliente field. Estas reglas permiten detectar errores de ortografía. Un nombre es similar a otro pero http://personales.unican.es/gutierjm There are 2 case(s) la frecuencia en que aparecen ambos es containing similar value(s) muy diferente. {Pepr, Repe} (Text Mining)
  37. 37. José Manuel Gutiérrez, Universidad de Cantabria. (2001) http://personales.unican.es/gutierjm Ejemplo
  38. 38. Búsqueda de Reglas de Asociación La mayoría se basa en descomponer el problema en dos fases: • FASE A: BÚSQUEDA DE GRANDES CONJUNTOS DE ATRIBUTOS. José Manuel Gutiérrez, Universidad de Cantabria. (2001) Se buscan conjuntos de atributos con relevancia >= umbral. De momento no se busca separarlos en parte izquierda y parte derecha. • FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los conjuntos hallados y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza >= umbral http://personales.unican.es/gutierjm Propiedad: cualquier subconjunto de un conjunto grande es también grande. AIS es el primer algoritmo que se desarrolló para obtener reglas de asociación. AIS [Agrawal, Imielinski & Swami] X=>Y [s,c] donde R. Agrawal, T. Imielinsky & A. Swami ¸Y es un único atributo, IBM Almaden Research Center, 1993 ¸s es la relevancia y ¸c su fiabilidad.
  39. 39. Fase A: Selección Grandes de Atributos Dada una relevancia mínima Rmin: José Manuel Gutiérrez, Universidad de Cantabria. (2001) 1. i = 1 (tamaño de los conjuntos) 2. Generar un conjunto unitario en S1 para cada atributo. 3. Comprobar la relevancia de todos los conjuntos en Si. Eliminar aquellos cuya relevancia < Rmin. 4. Combinar los conjuntos en Si creando conjuntos de tamaño i+1 en Si+1. http://personales.unican.es/gutierjm Este paso se lleva a cabo secuencialmente, recorriendo los registros de la base de datos siguiendo el contador i. Tras leer un registro de la base de datos, se hallan los conjuntos relevantes Si contenidos en el mismo. Si+1 se genera extendiendo los conjuntos hallados con otros atributos del registro. 5. Si Si no es vacío entonces i:= i+ 1. Ir a 3. 6. Si no , retornar S2 » S3 » ... » Si Dados n registros y m atributos o(m 2m -1) reglas posibles. Complejidad computacional o( n m 2 m )
  40. 40. Ejemplo José Manuel Gutiérrez, Universidad de Cantabria. (2001) relevancia = 2 confianza = 0.75 FASE A: S1 = {{1}, {2}, {3}, {4}, {5}} S’1:rel = {{1}:2, {2}:3, {3}:3, {5}:3} S2 = {{1,2},{1,3},{1,5},{2, 3},{2, 5},{3, 5}} S’2:rel = {{1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2} S3 = {{1,2, 3}, {1,2, 5}, {1,3, 5}, {2,3, 5}} S’3:rel = {{2,3,5}:2} http://personales.unican.es/gutierjm Sfinal = S’2 » S’3 = {{1, 3}, {2, 3}, {2, 5}, {3, 5}, {2,3,5}} FASE B: {1} Æ {3} : 1 {3} Æ {1} : 0.67 {2} Æ {3} : 0.67 {3} Æ {2} : 0.67 {2} Æ {5} : 1 {5} Æ {2} : 1 {3} Æ {5} : 0.67 {5} Æ {3} : 0.67 {2,3} Æ {5} : 1 {2,5} Æ {3} : 0.67 {3,5} Æ {2} : 1
  41. 41. El Algoritmo APRIORI • Fk : Set of frequent itemsets of size k José Manuel Gutiérrez, Universidad de Cantabria. (2001) • Ck : Set of candidate itemsets of size k F1 = {single attribute sets} with minimum support for ( k=2; Fk != 0; k++) do { Ck+1 = New candidates generated from Fk foreach entry t in the database do Increment the count of all candidates in Ck+1 contained in t http://personales.unican.es/gutierjm Fk+1 = Candidates in Ck+1 with minimum support } Answer = Uk Fk • Every subset of a frequent itemset is also frequent => a candidate itemset in Ck+1 can be pruned if even one of its subsets is not contained in Fk
  1. ¿Le ha llamado la atención una diapositiva en particular?

    Recortar diapositivas es una manera útil de recopilar información importante para consultarla más tarde.

×