Mineria de datos
Upcoming SlideShare
Loading in...5
×
 

Mineria de datos

on

  • 8,119 views

Mineria de datos. Claves ocultas en los datos

Mineria de datos. Claves ocultas en los datos

Statistics

Views

Total Views
8,119
Views on SlideShare
8,048
Embed Views
71

Actions

Likes
3
Downloads
311
Comments
0

3 Embeds 71

http://gc.scalahed.com 56
http://aulavirtual.utel.edu.mx 13
http://www.linkedin.com 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Mineria de datos Mineria de datos Presentation Transcript

    • Modelado de Sistemas de Información y Bases de Datos
      MINERÍA DE DATOS
      Claves ocultas en los datos
      Febrero 2010
    • ¿QUIÉN SOY?
      2
      Néstor González Fernández
      info@nestorgonzalez.es
    • INDICE
      Introducción
      En busca de una definición
      Claves ocultas en los datos
      Características principales
      Fases de un proceso de minería de datos
      Aplicaciones en la empresa. Casos prácticos
      Tecnologías análogas
      Productos vs software
    • 1
      Introducción
    • INTRODUCCIÓN.
      Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales.
      En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par.
      5
      +
      -
      El data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos.
    • INTRODUCCIÓN.
      El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos.
      Encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores.
      6
      Ej.
    • INTRODUCCIÓN.
      Aunque desde un punto de vista académico el término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos, en el entorno comercial, ambos términos se usan de manera indistinta.
      Lo que en verdad hace el data mining es reunir las ventajas de varias áreascomo la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos.
      7
    • 2
      En busca de una definición
    • EN BUSCA DE UNA DEFINICIÓN
      Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996)
      La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina y otros, 2001).
      9
      1
      2
      3
      La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
    • 3
      Claves ocultas en los datos
    • CLAVES OCULTAS EN LOS DATOS
      11
      Los datos, origen de la información
      Es poco costoso guardar datos del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras bases de datos crecen hasta límites insospechados.
    • CLAVES OCULTAS EN LOS DATOS
      12
      Estructuración de los datos
      Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuración y coherencia entre los mismos.
      Ej.
      Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha provocado uno de los mayores problemas informáticos es la representación de la fecha, donde el año se puede guardar con 2 o con 4 dígitos.
      Diferentes claves para representar el mismo elemento: un mismo cliente puede ser representado por un código de cliente propio o por su NIF.
      Ej.
      La cuestión no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informáticos y soportes diferentes.
    • 4
      Características principales
    • CLAVES OCULTAS EN LOS DATOS
      14
      Punto de partida
      Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:
      Recolección masiva de datos.
      Potentes computadoras con multiprocesadores.
      Algoritmos de Data Mining.
    • CLAVES OCULTAS EN LOS DATOS
      15
      Características y objetivos
      Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.
      El entorno de la minería de datos suele tener una arquitectura cliente-servidor.
      El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.
      La minería de datos produce cinco tipos de información:
      Asociaciones.
      Secuencias.
      Clasificaciones.
      Agrupamientos.
      Pronósticos.
    • 5
      Fases de un proceso de minería de datos
    • FASES DE UN PROCESO DE MINERÍA DE DATOS
      17
      El proceso de minería de datos pasa por las siguientes fases:
      Filtrado de datos.
      Selección de Variables.
      Extracción de Conocimiento.
      Interpretación y Evaluación.
    • FASES DE UN PROCESO DE MINERÍA DE DATOS
      18
      Filtrado de datos
      Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).
      Selección de variables
      Los métodos para la selección de características son básicamente dos:
      Aquellos basados en la elección de los mejores atributos del problema,
      Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
    • FASES DE UN PROCESO DE MINERÍA DE DATOS
      19
      Algoritmos de Extracción de Conocimiento
      Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.
      Interpretación y evaluación
      Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.
      Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
    • 6
      Aplicaciones en la empresa. Casos prácticos
    • APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
      21
      El objetivo final de cualquier proyecto de minería de datos puede resumirse en uno de estos dos objetivos:
      Ahorrar dinero mejorando la eficacia de sus actividades, o bien,
      Ganar dinero descubriendo nuevas fuentes de beneficios.
      ¿cómo se traducen los resultados de un proyecto de minería de datos en beneficios tangibles para la empresa?
      Los resultados suponen una mejora de la información disponible y será al aplicar dicha información cuando se obtengan los beneficios.
    • APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
      22
      MARKETING
      Cuanto más precisa sea la información que tengamos sobre los clientes, mayores posibilidades tendremos de aumentar nuestros ingresos y rentabilizar al máximo nuestras acciones. El objetivo fundamental puede resumirse en determinar quién comprará qué, cuándo y dónde.
      Fidelización de clientes: Conseguir un nuevo cliente o recuperar uno perdido resulta mucho más costoso que mantener uno que ya lo es.
      Detectan aquéllos que parece más probable que se vayan a perder, permitiendo llevar a cabo iniciativas que eviten dicha pérdida.
      Ej.
    • APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
      23
      PREDICCIÓN
      A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima.
      Detección de oportunidades.
      Prevención de problemas.
      Gestión óptima del personal.
      Optimización de stocks.
      Ej.
    • APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
      24
      PREDICCIÓN
      A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima.
      Detección de oportunidades.
      Prevención de problemas.
      Gestión óptima del personal.
      Optimización de stocks.
      Ej.
    • APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
      25
      CONTROL DE CALIDAD
      Detención más precisa de productos defectuosos
      A menudo el control de calidad se realiza de forma manual y, por tanto, depende de una evaluación subjetiva por parte del personal encargado del mismo. El principal problema de este método es que el criterio de calidad no es estable sino que depende de la persona que realiza el análisis. al aumentar la exactitud de la evaluación se ahorran los costes derivados de las clasificaciones erróneas: productos defectuosos que se consideraron correctos por error y productos correctos, desechados por un exceso de precaución.
      Localización precoz de defectos
      A menudo no resulta fácil medir la variable que determina la calidad del producto en tiempo real o en la cadena de producción. En estos casos, es imprescindible utilizar técnicas de minería de datos para descubrir posibles relaciones que permitan detectar los fallos utilizando las variables disponibles durante el proceso.
      Ej.
      Ej.
    • 7
      Tecnologías análogas
    • TECNOLOGÍAS ANÁLOGAS
      27
      Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y disciplinas análogas:
      Estadística
      Inteligencia artificial
      Sistemas Expertos
      Redes neuronales

      ¿Por qué?
      El hecho es, que en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —árboles de regresión y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos.
      Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible.
    • TECNOLOGÍAS ANÁLOGAS
      28
      Integración con Data Warehouse
      El punto de inicio ideal es:
      Un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores.
      Información histórica sobre potenciales clientes también provee una excelente base para prospectiva.
      Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.
      El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.
    • TECNOLOGÍAS ANÁLOGAS
      29
      Extensiones del Data Mining: Web mining
      Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log).
      Las herramientas de web mining analizan y procesan estos logspara producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea.
      Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.
      Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas.
      Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.
    • TECNOLOGÍAS ANÁLOGAS
      30
      Extensiones del Data Mining: Text mining
      Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos.
      Este campo de estudio es muy vasto, por lo que se utilizan diferentes técnicas como: la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático
      Se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo (Nasukawa y otros, 2001).
    • 8
      Productos vs software
    • PRODUCTOS VS SOFTWARE
      32
      R-project (www.cran.r-project.org)
      Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras.
      KNIME (www.knime.org)
      Es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse y programado, esencialmente, en java.
    • PRODUCTOS VS SOFTWARE
      33
      SPSS (www.spss.com)
      StatisticalPackageforthe Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado.
      Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamaño.
      OTROS DE PROGRAMAS DE INTERÉS…
      SAS Enterprise Miner
      RapidMiner
      Weka
      KXEN
      Orange
    • Bibliografía
      1. Minería de Datos. Trabajo de adscripción. Sofía J. Vallejos. 2006
      2. Minería de Datos. Documento Básico DAEDALUS. www.daedalus.es
      3. Minería de Datos. Wikipedia
      4. INTRODUCCIÓN A LA MINERÍA DE DATOS. Editorial Pearson, 2004.
      ISBN: 84 205 4091 9
    • Ahora es tu turno
      ¿tienes alguna pregunta?
    • Gracias por tu atención
      plas,plas,plas,…