Breve paseo por la Minería de Datos (DM)•   Introducción•   Espectro de Información•   Dato, Información, Conocimiento•   ...
IntroducciónLas computadoras son un millónde veces más poderosas que haceveinte años.
Introducción¡En veinte años las computadorasvan a ser un millón de veces máspoderosas que las de hoy!
Introducción•Sobrecarga informativa - ansiedad   Demasiadas “cosas” para mantenerse al día.•Aguja en un pajar    Parece ...
Introducción        Aumento en la cantidad de información         “Se ha producido más información en los últimos         ...
Introducción   Tamaño de conjuntos de datosDescripción     Tamaño en Bytes      Modo de                                   ...
Introducción                      Sobrecarga de información     “En la actualidad, en un número del New York Times     hay...
Introducción         Sobrecarga de Información.                  Ejemplo            “¿Deben vacunarse los niños?          ...
Introducción         Sobrecarga de información.                  Ejemplo             “¿Qué es la información?”• Existen 17...
IntroducciónLos crecientes avances tecnológicos y en especial la revolucióndigital, ha posibilitado que la captura de los ...
Espectro de InformaciónEsta formado por: datos, información, conocimiento y sabiduría.Los datos son información en bruto, ...
Espectro de Información                   Es una actividad en la actualidad                   propia de los humanos.      ...
Dato, Información, ConocimientoAntes que nada la sabiduría no es mencionada porque no poseemoslos recursos ni herramientas...
Dato, Información, Conocimiento                                 Dato:Un dato es un conjunto discreto, de factores objetivo...
Dato, Información, Conocimiento                                   Información:Los investigadores que han estudiado el conc...
Dato, Información, Conocimiento                                 Conocimiento:Todos tenemos la sensación intuitiva que el c...
Dato, Información, ConocimientoExisten   múltiples       definiciones   deconocimiento, desde las clásicas yfundamentales ...
Dato, Información, Conocimiento“Conocimiento significa entonces apropiarnos de las propiedades yrelaciones de las cosas, e...
Relación de Datos, Información y    Conocimiento y la Sociedad                                 SOCIEDAD DELCONOCIMIENTO   ...
SABIDURIA - CONOCIMIENTO - APRENDIZAJES                                                                               A   ...
Base de DatosEs una colección ordenada de datos organizada de tal forma quepuede consultarse y actualizarse, de manera efi...
Base de Datos                      Padre                                               Padre               Hijo           ...
Sistema de Gestión de Base de DatosSGBD; en inglés, Database Management System: DBMS, es un conjunto de programas quepermi...
Niveles en el Uso de los Datos• Nivel operacional: Se utilizan sistemas de información que  monitorean las actividades y t...
Niveles en el Uso de los Datos
Niveles en el Uso de los Datos              considerando el Tiempo   Plazo                  Nivel                    Uso C...
Conocimiento en las Base de DatosSegún su nivel de abstracción: Conocimiento Evidente: Fácilmente recuperable a través de...
Verificación versus Descubrimiento            Verificación                         DescubrimientoElaborar una hipótesis so...
Descubrimiento de Conocimiento en        Base de Datos (KDD)Debido a la inmensa cantidad de datos, surge lanecesidad de té...
Descubrimiento de Conocimiento en        Base de Datos (KDD)El KDD se compone de las siguientes fases:a. Fase de Integraci...
Minería de Datos (DM)La Minería de Datos es un área cuyo objetivo es predecir resultadosy/o descubrir relaciones en los da...
Minería de Datos (DM) Tareas•Describir•Estimar•Predicción•Clasificación•Agrupamiento•Asociación•Modelado de Dependencias
Minería de Datos (DM) Enfoque ENFOQUE ASCENDENTE               ENFOQUE DESCENDENTE               ENFOQUE MIXTONo hay hipót...
Minería de Datos (DM) Mapa Conceptual                                                                  Exploración y   Rec...
Minería de Datos (DM) Técnicas                                Minería de Datos                                            ...
Procesamiento Analítico en Línea (OLAP)      versus Minería de Datos (DM)                  OLAP                           ...
Aplicaciones de la Minería de Datos (DM)                                                                     Salud: modelo...
Relación de la Minería de Datos    (DM) con otras disciplinas                   Base de Datos                             ...
Relación de la Minería de Datos (DM)con otras disciplinas “Estrella Famosa”
Minería de Datos (DM) Propósitos             EmpresarialesUna investigación de la empresa META Group revelóque las 500 emp...
Minería de Datos (DM) Ejemplos                       GERENTE en un BANCO                       ¿Debe conceder el crédito a...
Minería de Datos (DM) Ejemplos                    GERENTE de un SUPERMERCADO                    ¿Cuándo se compra huevos, ...
Minería de Datos (DM) Ejemplos                        GERENTE DE RR.HH. en una EMPRESA                        ¿Qué tipos d...
Minería de Datos (DM) Ejemplos                        GERENTE de una EMPRESA COMERCIALIZADORA                        ¿Cuán...
Upcoming SlideShare
Loading in...5
×

Brevepaseoporla mineríadedatos

689

Published on

Breve paseo por la Minería de Datos

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
689
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
34
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Brevepaseoporla mineríadedatos"

  1. 1. Breve paseo por la Minería de Datos (DM)• Introducción• Espectro de Información• Dato, Información, Conocimiento• Relación de Datos, Información y Conocimiento y Sociedad• Sabiduría, Conocimiento, Aprendizaje• Base de Datos• Sistema de Gestión de Base de Datos• Niveles en el Uso de los Datos• Conocimiento en las Base de Datos• Verificación versus Descubrimiento• Descubrimiento de Conocimiento en Base de Datos (KDD)• Minería de Datos (DM)• Minería de Datos (DM) Tareas• Minería de Datos (DM) Enfoque• Minería de Datos (DM) Mapa Conceptual• Minería de Datos (DM) Técnicas• Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM)• Aplicaciones de la Minería de Datos (DM)• Relación de la Minería de Datos (DM) con otras disciplinas• Relación de la Minería de Datos (DM) con otras disciplinas “Estrella Famosa”• Minería de Datos (DM) Propósitos Empresariales• Minería de Datos (DM) Ejemplos Elaborado por: Jean Sánchez
  2. 2. IntroducciónLas computadoras son un millónde veces más poderosas que haceveinte años.
  3. 3. Introducción¡En veinte años las computadorasvan a ser un millón de veces máspoderosas que las de hoy!
  4. 4. Introducción•Sobrecarga informativa - ansiedad Demasiadas “cosas” para mantenerse al día.•Aguja en un pajar  Parece que nunca encontramos lo que queremos, cómo lo queremos y en la forma adecuada.•Calidad de la información Hay que separar el grano de la paja.
  5. 5. Introducción Aumento en la cantidad de información “Se ha producido más información en los últimos 30 años que en los 5.000 previos.”(Fuente: Large, P., The Micro Revolution, Revisited, 1984)
  6. 6. Introducción Tamaño de conjuntos de datosDescripción Tamaño en Bytes Modo de AlmacenajeBien pequeño 102 Hoja de papel Pequeño 104 Varias hojas Mediano 106 (megabyte) Diskette Grande 109(gigabite) Disco Duro Masivo 1012(Terabyte) Cinta magneticaSupermasivo 1015(Petabyte) Archivos de datos distribuidos
  7. 7. Introducción Sobrecarga de información “En la actualidad, en un número del New York Times hay más información impresa, que la cantidad a la que tuvo acceso una persona del Siglo XVII durante toda su vida”.(Fuente: Dawis Lewis, Introduction to Dying for Information, www.reuters.com/rbb/research/dfiforframe.htm)
  8. 8. Introducción Sobrecarga de Información. Ejemplo “¿Deben vacunarse los niños? ¿Son seguras?”• Existen 454.150 sitios posibles en el buscador Yahoo.• Mirarlos por solo 5 minutos cada uno, tomaría 37.000 horas.• Se asume que, al menos, 100-200 tengan la información buscada. Usarlos tomaría unas 50 - 100 horas adicionales.• Tiempo potencial total que tomaría: 1545 días, ¡¡¡¡¡más de 4 años!!!!!
  9. 9. Introducción Sobrecarga de información. Ejemplo “¿Qué es la información?”• Existen 171.769.416 sitios posibles en el buscador Google.• Mirarlos por solo 1 minuto cada uno, tomaría 2.862.823 horas.• Tiempo potencial total que tomaría: 119.284 días, ¡¡¡¡¡más de 326 años!!!!!Esto es imposible, y por lo tanto, existe una claranecesidad de disponer de tecnologías que efectúenprocesos de búsqueda y aún más, de tecnologías quenos ayuden a comprender su contenido.
  10. 10. IntroducciónLos crecientes avances tecnológicos y en especial la revolucióndigital, ha posibilitado que la captura de los datos seafácil, además, el almacenamiento de los mismos posee un costocasi nulo. Con el desarrollo del software y el hardware, grandescantidades de datos son recogidas y almacenados en bases dedatos. Por tanto, el análisis de estas enormes cantidades de datosa través de las herramientas tradicionales de gestión de datos ocon técnicas estadísticas, no son adecuadas. Todo esto parece excelente pero no conocemos el significado de: datos, información y conocimiento.
  11. 11. Espectro de InformaciónEsta formado por: datos, información, conocimiento y sabiduría.Los datos son información en bruto, no es más que una colección dehechos aislados que deben procesarse para poseer valor, por tanto noexiste asociatividad.La información se deriva de los datos procesados lo que implica laasociatividad de los datos dentro de un contexto.El conocimiento proviene de procesar la información, por tanto, asociala información obtenida en un contexto con otra información producidaen un contexto diferente.La sabiduría se origina de procesar el conocimiento, la asociatividad serealiza al mayor nivel donde se asocia el conocimiento obtenido en uncontexto con otro conocimiento producido en un contexto diferente.La mayoría de los programas, aplicaciones, sistemas de información,WebApps, es decir, el software existente se ha construido para procesardatos o información. Sólo, la Inteligencia Artificial se ha dado a la tareadel tratamiento y uso del conocimiento. Aún no poseemos ni elsoftware ni hardware para el tratamiento o uso de la sabiduría. Se comienzan aclarar Datos Información Conocimiento Sabiduría las cosas. Prosigue
  12. 12. Espectro de Información Es una actividad en la actualidad propia de los humanos. Es una apreciación del por qué. Sabiduría Permite producir conocimiento. Es información útil, contextual, tácita. Es la aplicación de los datosConocimiento y la información, responde a cómo. Permite aprender. Es la data con un significado por vía de una relación. El significado puede o no ser útil. Responde a Información quién, qué, donde, cuándo. Es la data cruda. Puede o no existir, pero no posee significado . Datos
  13. 13. Dato, Información, ConocimientoAntes que nada la sabiduría no es mencionada porque no poseemoslos recursos ni herramientas computacionales para tratarla o usarla;en la actualidad debemos comprender en qué se diferencian elconocimiento de los datos y la información. En una conversacióninformal, los tres términos suelen utilizarse indistintamente y estopuede llevar a una interpretación libre del concepto de conocimiento.Quizás la forma más sencilla de diferenciar los términos sea pensarque los datos están localizados en el mundo y el conocimiento estálocalizado en agentes de cualquier tipo, mientras que la informaciónadopta un papel mediador entre ambos.Un agente no equivale a un ser humano. Podría tratarse de un animal,una máquina o una organización constituida por otros agentes a suvez.
  14. 14. Dato, Información, Conocimiento Dato:Un dato es un conjunto discreto, de factores objetivos sobre un hechoreal. El concepto de dato es definido como un registro de transacciones.Un dato no dice nada sobre el porqué de las cosas, y por sí mismo tienepoca o ninguna relevancia o propósito.Los datos describen únicamente una parte de lo que pasa en la realidady no proporcionan juicios de valor o interpretaciones, y por lo tanto noson orientativos para la acción.La toma de decisiones se basará en datos, pero estos nunca dirán lo quehacer. Los datos no dicen nada acerca de lo que es importante o no.A pesar de todo, los datos son importantes para las organizaciones, yaque son la base para la creación de información.
  15. 15. Dato, Información, Conocimiento Información:Los investigadores que han estudiado el concepto de información, lo describencomo un mensaje. Como cualquier mensaje, tiene un emisor y un receptor. Lainformación es capaz de cambiar la forma en que el receptor percibe algo, y deimpactar sobre sus juicios de valor y comportamientos. La palabra “informar”significa originalmente “dar forma a” y la información es capaz de formar a lapersona que la consigue, proporcionando ciertas diferencias en su interior oexterior. Por lo tanto, estrictamente hablando, es el receptor, y no el emisor, el quedecide si el mensaje que ha recibido es realmente información, es decir, sirealmente le informa. Un informe lleno de tablas inconexas, puede ser consideradoinformación por el que lo escribe, pero a su vez puede ser juzgado como “ruido”por el que lo recibe.A diferencia de los datos, la información tiene significado (relevancia y propósito).No sólo puede formar potencialmente al que la recibe, sino que esta organizadapara algún propósito. Los datos se convierten en información cuando su creadorles añade significado.
  16. 16. Dato, Información, Conocimiento Conocimiento:Todos tenemos la sensación intuitiva que el conocimiento es algo más amplio,profundo y rico que los datos y la información.Para Davenport y Prusak (1999) el conocimiento es una mezcla de experiencia,valores, información y “saber hacer” que sirve como marco para laincorporación de nuevas experiencias e información, y es útil para la acción. Seorigina y aplica en la mente de los conocedores. En las organizaciones confrecuencia no sólo se encuentra dentro de documentos o almacenes de datos,sino que también esta en rutinas organizativas, procesos, prácticas, y normas.Lo que inmediatamente deja claro la definición es que ese conocimiento no essimple. Es una mezcla de varios elementos; es un flujo al mismo tiempo quetiene una estructura formalizada; es intuitivo y difícil de captar en palabras ode entender plenamente de forma lógica. El conocimiento existe dentro de laspersonas, como parte de la complejidad humana y de nuestraimpredecibilidad.
  17. 17. Dato, Información, ConocimientoExisten múltiples definiciones deconocimiento, desde las clásicas yfundamentales como una creenciacierta y justificada, … … a otras más recientes y pragmáticas como una mezcla de experiencia, valores, información y “saber hacer” que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción.
  18. 18. Dato, Información, Conocimiento“Conocimiento significa entonces apropiarnos de las propiedades yrelaciones de las cosas, entender lo que son y lo que no son. Tenerdiscernimiento, es decir juicio por cuyo medio se percibe y establece ladiferencia que existe entre varias cosas”.Se concluye fácilmente que el conocimiento se divide en dos partes:a) El objeto en sí, con sus propiedades y relaciones, que queremos conocer.b) El sujeto que trata de apoderarse de ese saber.Además el conocimiento permite:a) El conocimiento permite saber hacer, por tanto, es el marco para incorporar nuevas experiencias e información, es útil para la acción.b) En las organizaciones el conocimiento no sólo se encuentra en los documentos o almacenes de datos, sino también en las rutinas organizativas, procesos, prácticas, y normas.
  19. 19. Relación de Datos, Información y Conocimiento y la Sociedad SOCIEDAD DELCONOCIMIENTO CONOCIMIENTO Los miembros de la sociedad son personas con capacidades que les permiten tomar conciencia y actuar sobre su contexto SOCIEDAD DE LA Los miembros de la sociedad son INFORMACIÓN INFORMACIÓN personas con habilidades para manejar y compartir información Los miembros de la sociedad son DATO SOCIEDAD TECNOLÓGICA individuos con funciones específicas para que la sociedad prospere Pirámide de la organización de la experiencia (personal, grupal y social)
  20. 20. SABIDURIA - CONOCIMIENTO - APRENDIZAJES A El ConocimientoA humano PB R paraI ED Comprender el NU mundo DR I utilizaI ZA Tres técnicas A básicas J E Diferenciación de la Distinción entre el todo y experiencia en objetos sus partes Clasificación particulares y sus atributos
  21. 21. Base de DatosEs una colección ordenada de datos organizada de tal forma quepuede consultarse y actualizarse, de manera eficiente y ordenada.Se usan para registrar y representar el funcionamiento del sistema,a través de los datos relativos a sus diferentes características ycomponentes .• Tipos de bases de datos – Analíticas – Dinámicas• Modelo de bases de datos – Jerárquicas – Red – Relacionales – Orientada a Objetos Base de Datos – Documentales – Distribuidas
  22. 22. Base de Datos Padre Padre Hijo Red Hijo Hijo Hijo Hijo Jerárquica datos datosPadre Redes de comunicación Hijo Hijo relacional datos Aplicación Distribuida
  23. 23. Sistema de Gestión de Base de DatosSGBD; en inglés, Database Management System: DBMS, es un conjunto de programas quepermite a los usuarios crear y mantener una base de datos.Si bien, no es imprescindible contar con un SGBD, este software de uso general facilita elproceso de definir, construir y manipular bases de datos para diversas aplicaciones.Debería poseer las siguientes características:Restricción de los accesos no autorizados.Control de la redundancia.Almacenamiento persistente de objetos y estructuras de datos de programasInferencias en la base de datos mediante reglas de deducciónSuministro de múltiples interfaces con los usuarios Representación de vínculos complejos entre los datosCumplimiento de las restricciones de integridadRespaldo y recuperaciónDisponibilidad de información actualizadaEconomías de escala
  24. 24. Niveles en el Uso de los Datos• Nivel operacional: Se utilizan sistemas de información que monitorean las actividades y transacciones elementales.• Nivel de administración : Realiza operaciones repetitivas de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas.• Nivel de conocimientos : Realiza actividades de análisis, de seguimiento, de control y toma de decisiones, realiza consultas sobre información almacenada.• Nivel estratégico: Realizar las actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Mira el futuro
  25. 25. Niveles en el Uso de los Datos
  26. 26. Niveles en el Uso de los Datos considerando el Tiempo Plazo Nivel Uso Corto plazo Operacional y Obtención y OLTP Administrativo control de datos Mediano De Decisiones OLAP plazo Conocimientos tácticas Largo plazo Estratégico Decisiones OLAP estratégicasOLTP (On-Line Transaction Processing - Procesamiento de Transacciones en Línea).Para la capturan y almacenamiento de transacciones.OLAP (On-Line Analytical Processing – Procesamiento Analítico en Línea). Para elanálisis y las navegación en los datos.
  27. 27. Conocimiento en las Base de DatosSegún su nivel de abstracción: Conocimiento Evidente: Fácilmente recuperable a través de SQL. Conocimiento Multidimensional: Considera los datos con cierta estructura y relevancia, se usa el OLAP. Conocimiento Oculto: Información evidente desconocida a priori y potencialmente útil sólo se descubre con Minería de Datos “DM”. Conocimiento Profundo: Información que está almacenada en la Base de Datos, pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la búsqueda. Datos Superficiales (se descubren con SQL) Datos Multi-Dimensionales (se descubren con OLAP) Datos Escondidos (se descubren con DM) Datos Profundos (se descubren sólo con pistas)
  28. 28. Verificación versus Descubrimiento Verificación DescubrimientoElaborar una hipótesis sobre la Identificar un objetivo oexistencia de una información de problema de negocio.interés.Convertir la hipótesis en una Habilitar un acceso a los datosconsulta. de interés y acondicionarlos.Ejecutar la consulta contra un Seleccionar una técnica desistema de información. explotación de los datos adecuada para el problema.Interpretar los resultados. Ejecutar la técnica contra los datos.Refinar la hipótesis y repetir la Interpretar los resultados.ejecución.
  29. 29. Descubrimiento de Conocimiento en Base de Datos (KDD)Debido a la inmensa cantidad de datos, surge lanecesidad de técnicas, prácticas o metodologías para elanálisis inteligente de datos, que permitan descubrir unconocimiento útil a partir de los mismos. De allí nace elKDD (Knowledge Discovery in Databases) o“Descubrimiento de Conocimiento en Base de Datos”que puede ser definido como el proceso no trivial deidentificar patrones en los datos con las característicassiguientes: válidos, novedosos, útiles y comprensibles. ElKDD es un conjunto de pasos interactivos e iterativos.
  30. 30. Descubrimiento de Conocimiento en Base de Datos (KDD)El KDD se compone de las siguientes fases:a. Fase de Integración y Recopilación.b. Fase de Selección, Limpieza y Transformación.c. Fase de Minería de Datos.d. Fase de Evaluación e Interpretación.e. Fase de Difusión y Uso.
  31. 31. Minería de Datos (DM)La Minería de Datos es un área cuyo objetivo es predecir resultadosy/o descubrir relaciones en los datos. La Minería de Datos puede serdescriptivo (descubrir patrones que describen los datos), opredictivo (para pronosticar el comportamiento del modelo basadoen los datos disponibles). Por tanto permite:Explorar grandes cantidades de datos (generalmente relacionados alos negocios o mercadeo),Búsqueda de modelos consistentes y/o las relaciones sistemáticasentre las variables,Validar los resultados aplicando los modelos descubiertos a losnuevos subconjuntos de datos.El proceso consiste así en tres fases básicas:•Exploración,•Construcción o definición del modelo, y•Validación/Verificación.
  32. 32. Minería de Datos (DM) Tareas•Describir•Estimar•Predicción•Clasificación•Agrupamiento•Asociación•Modelado de Dependencias
  33. 33. Minería de Datos (DM) Enfoque ENFOQUE ASCENDENTE ENFOQUE DESCENDENTE ENFOQUE MIXTONo hay hipótesis inicial, el Partiendo de una hipótesis Es un hibrido entre elprocedimiento consiste en se realizan consultas a los enfoque ascendente yexaminar los datos para datos para determinar la descendente, esto con eldescubrir patrones en ellos. certeza, si la hipótesis no fin de que la herramientaPuede ser:•Supervisada: se tiene la idea es cierta se deberá efectué la búsqueda ode lo que se busca. ¿Qué se verificar y comenzar el encuentre algún patrónsuele comprar junto al proceso de ser necesario. interesante y luegoproducto x?. Por ejemplo: Las personas testearlo con el enfoque•No Supervisada: no se sabe obesas y que fuman tienen descendente.que se busca. La herramienta mayor probabilidad dede Minería de Datos se le sufrir un infarto.indica buscar algo interesante.Puede ser el acceso a una redy la herramienta puededescubrir a los usuarios quese conectan fuera de suhorario de trabajo.
  34. 34. Minería de Datos (DM) Mapa Conceptual Exploración y Reconocimiento de Evaluación e Fuentes de datos Pre-procesamiento transformación Patrones Interpretación Data Data Data Data Evaluación yDHW cruda Objetivo Pre-procesada Transformada Patrones EntendimientoDBMSTextoMuestreo y Selección Limpieza de Datos Transformación de Datos Modelado Reportes y Visualización• Muestreo • Limpieza de datos • Reducción de • Descripción• Selección • Datos que no existen Dimensionalidad • Clasificación • Datos no clasificados • Creación de • Regresión • Identificación de Características • Agrupamiento extremos • Normalización de Datos • Asociación • Eliminación de Ruido • Variables • Secuenciación Correlacionadas • Detección de • Discretización Desviación
  35. 35. Minería de Datos (DM) Técnicas Minería de Datos Descubrimiento de Predicción conocimiento Detección de Reglas deRegresión Clasificación Clustering Visualización Desviaciones Asociación• Una actividad de extracción con el objetivo de descubrir hechos contenidos en las bases de datos o almacenes de datos.• Los hechos no son conocidos con anterioridad.• Los hechos escondidos, se representan por reglas.• Las reglas se usan para predecir estados del sistema.• Es un trabajo automatizado.• Las técnicas de minería de datos permite diseñar modelos desde el ámbito del problema para la toma de decisiones automáticas.
  36. 36. Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM) OLAP DMEl OLAP y la Estadística puede usar EL DM no requiere de suposiciones. En suhipótesis o suposiciones. lugar identifica hechos o conclusiones basados en patrones descubiertos.Una herramienta OLAP no es una Las Redes Neuronales (RN), la Inteligenciaherramienta DM, ya que la búsqueda se Artificial (AI) y los Algoritmos Genéticos, pororigina con el usuario. otra parte, se consideran como verdaderas herramientas de DM, porque interrogan autónomamente a los datos, en búsqueda de patrones.El procesamiento OLAP y la Estadística La Minería de Datos proporciona análisis de-proporcionan análisis de-arriba-abajo, abajo-arriba, dirigido por losdirigido por las búsquedas. descubrimientos.Una herramienta puede informar al Una herramienta puede informar de losvendedor sobre el número total de libros factores que influyen en la venta de los libros.vendidos para una región determinada enun trimestre determinado.
  37. 37. Aplicaciones de la Minería de Datos (DM) Salud: modelos de diagnóstico a partir de informaciónÁmbitos financieros y de seguros: almacenada en sistemas índices de producción y costes, Análisis de textos: internet, hospitalarios, gestión de datos de tarjetas de créditos, documentos multimedia. tratamientos, diseño dedetección de fraudes, marketing. campañas de prevención y vacunación. Distribución: análisis de ubicación de los artículos para la Producción: optimización del compra en establecimientos proceso de fabricación y del Control de sistemas. comerciales, gestión de control de calidad. inventarios y planificación de transportes. Administraciones y organismos públicos: análisis de políticas de Redes de telecomunicaciones: Dominios científicos: empleo, depatrones de llamadas y gestión de observaciones astronómicas, vivienda, poblacionales, medioam fallos. datos genómicos y biológicos. bientales, seguridad, de educación, transporte y control del tráfico, etc.
  38. 38. Relación de la Minería de Datos (DM) con otras disciplinas Base de Datos Recuperación Visualización de de Datos InformaciónComputación Estadística Paralela Toma de Decisiones Aprendizaje Automático
  39. 39. Relación de la Minería de Datos (DM)con otras disciplinas “Estrella Famosa”
  40. 40. Minería de Datos (DM) Propósitos EmpresarialesUna investigación de la empresa META Group revelóque las 500 empresas del ranking Fortune utilizabanla Minería de Datos básicamente con tres propósitos: 64% - para la planificación estratégica, 49% - para inteligencia competitiva, 46% - para aumentar su cuota de mercado.
  41. 41. Minería de Datos (DM) Ejemplos GERENTE en un BANCO ¿Debe conceder el crédito a este cliente? Ide D-crédito C-crédito Salarios Casa Cuentas … Devuelve (años) (Bs.F) (Bs.F) Propia Morosas Crédito 101 15 60.000 1.800 Si 2 … No 102 2 30.000 1.500 Si 0 … Si 103 9 9.000 700 No 1 … No 104 15 18.000 950 No 0 … Si 105 10 24.000 1100 Si 0 … No … … … … … … … …. Minería de Datos Si Cuentas-Morosas > 0 entonces Devuelve-crédito = NoSi Cuentas-Morosas = 0 Y [(Salario > 1500) O (D-crédito > 10)] entonces Devuelve-crédito = Si
  42. 42. Minería de Datos (DM) Ejemplos GERENTE de un SUPERMERCADO ¿Cuándo se compra huevos, se suele comprar aceite?Idcesta Huevos Aceite Pañales Vino Leche Mantequilla Salmón Azúcar … 1 Si No No Si No Si Si Si … 2 No Si No No Si No No Si … 3 No No Si No Si No No No … 4 No Si Si No Si No No No … 5 Si Si No No No Si No Si … 6 Si No No Si Si Si Si No … 7 No No No No No No No No … 8 Si Si Si Si Si Si Si No … … … … … … … … … … … Minería de Datos Huevos → Aceite : Confianza = 75%, Soporte = 12%
  43. 43. Minería de Datos (DM) Ejemplos GERENTE DE RR.HH. en una EMPRESA ¿Qué tipos de empleados tengo? Id Sueldo Casado Vehículo Hijos Alq/Prop Sindicato Bajas/Año Antigüedad Sexo 1 1000 Si No 0 Alquiler No 7 15 H 2 2000 No Si 1 Alquiler Si 3 3 M 3 1500 Si Si 2 Propia Si 5 10 H 4 3000 Si Si 1 Alquiler No 15 7 M 5 4000 Si Si 0 Propia Si 1 6 H 6 2500 No No 0 Alquiler Si 3 16 M 7 2000 No Si 0 Alquiler Si 0 8 H 8 800 No Si 0 Propia Si 2 6 M … … … … … … … … … … Minería de Datos•Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas.•Grupo 2: Sin hijos y con vehículo. Muy sindicados. Pocas bajas. Normalmente mujeres y casas alquiladas.•Grupo 3: Con hijos, casados y vehículo. Mayoritariamente hombres propietarios vivienda. Poco sindicados.
  44. 44. Minería de Datos (DM) Ejemplos GERENTE de una EMPRESA COMERCIALIZADORA ¿Cuántos televisores planos se estima vender el mes que viene? Producto MES-12 … MES-4 MES-3 MES-2 MES-1 MESTelevisor plano 30” 20 … 52 14 139 74 ? Video dvd 11 … 43 32 26 59 ? Diskman 50 … 61 14 5 28 ? Lavadora 3 … 21 27 1 49 ? Nevera 14 … 27 2 25 12 ? … … … … … … … …. Minería de Datos Modelo Lineal: Ventas Mes Siguiente TV Planos V Mes TVPlanos 0.62V Mes 1 TVPlanos 0.33V Mes 2 TVPlanos 0.12V Mes 1 Videodvd 0.05
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×