Your SlideShare is downloading. ×
Mineria de datos
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Mineria de datos

8,683

Published on

Mineria de datos. Claves ocultas en los datos …

Mineria de datos. Claves ocultas en los datos

Published in: Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
8,683
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
363
Comments
0
Likes
5
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Modelado de Sistemas de Información y Bases de Datos
    MINERÍA DE DATOS
    Claves ocultas en los datos
    Febrero 2010
  • 2. ¿QUIÉN SOY?
    2
    Néstor González Fernández
    info@nestorgonzalez.es
  • 3. INDICE
    Introducción
    En busca de una definición
    Claves ocultas en los datos
    Características principales
    Fases de un proceso de minería de datos
    Aplicaciones en la empresa. Casos prácticos
    Tecnologías análogas
    Productos vs software
  • 4. 1
    Introducción
  • 5. INTRODUCCIÓN.
    Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales.
    En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par.
    5
    +
    -
    El data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos.
  • 6. INTRODUCCIÓN.
    El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos.
    Encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores.
    6
    Ej.
  • 7. INTRODUCCIÓN.
    Aunque desde un punto de vista académico el término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos, en el entorno comercial, ambos términos se usan de manera indistinta.
    Lo que en verdad hace el data mining es reunir las ventajas de varias áreascomo la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos.
    7
  • 8. 2
    En busca de una definición
  • 9. EN BUSCA DE UNA DEFINICIÓN
    Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996)
    La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina y otros, 2001).
    9
    1
    2
    3
    La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
  • 10. 3
    Claves ocultas en los datos
  • 11. CLAVES OCULTAS EN LOS DATOS
    11
    Los datos, origen de la información
    Es poco costoso guardar datos del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras bases de datos crecen hasta límites insospechados.
  • 12. CLAVES OCULTAS EN LOS DATOS
    12
    Estructuración de los datos
    Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuración y coherencia entre los mismos.
    Ej.
    Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha provocado uno de los mayores problemas informáticos es la representación de la fecha, donde el año se puede guardar con 2 o con 4 dígitos.
    Diferentes claves para representar el mismo elemento: un mismo cliente puede ser representado por un código de cliente propio o por su NIF.
    Ej.
    La cuestión no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informáticos y soportes diferentes.
  • 13. 4
    Características principales
  • 14. CLAVES OCULTAS EN LOS DATOS
    14
    Punto de partida
    Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:
    Recolección masiva de datos.
    Potentes computadoras con multiprocesadores.
    Algoritmos de Data Mining.
  • 15. CLAVES OCULTAS EN LOS DATOS
    15
    Características y objetivos
    Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.
    El entorno de la minería de datos suele tener una arquitectura cliente-servidor.
    El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.
    La minería de datos produce cinco tipos de información:
    Asociaciones.
    Secuencias.
    Clasificaciones.
    Agrupamientos.
    Pronósticos.
  • 16. 5
    Fases de un proceso de minería de datos
  • 17. FASES DE UN PROCESO DE MINERÍA DE DATOS
    17
    El proceso de minería de datos pasa por las siguientes fases:
    Filtrado de datos.
    Selección de Variables.
    Extracción de Conocimiento.
    Interpretación y Evaluación.
  • 18. FASES DE UN PROCESO DE MINERÍA DE DATOS
    18
    Filtrado de datos
    Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).
    Selección de variables
    Los métodos para la selección de características son básicamente dos:
    Aquellos basados en la elección de los mejores atributos del problema,
    Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
  • 19. FASES DE UN PROCESO DE MINERÍA DE DATOS
    19
    Algoritmos de Extracción de Conocimiento
    Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.
    Interpretación y evaluación
    Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.
    Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
  • 20. 6
    Aplicaciones en la empresa. Casos prácticos
  • 21. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
    21
    El objetivo final de cualquier proyecto de minería de datos puede resumirse en uno de estos dos objetivos:
    Ahorrar dinero mejorando la eficacia de sus actividades, o bien,
    Ganar dinero descubriendo nuevas fuentes de beneficios.
    ¿cómo se traducen los resultados de un proyecto de minería de datos en beneficios tangibles para la empresa?
    Los resultados suponen una mejora de la información disponible y será al aplicar dicha información cuando se obtengan los beneficios.
  • 22. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
    22
    MARKETING
    Cuanto más precisa sea la información que tengamos sobre los clientes, mayores posibilidades tendremos de aumentar nuestros ingresos y rentabilizar al máximo nuestras acciones. El objetivo fundamental puede resumirse en determinar quién comprará qué, cuándo y dónde.
    Fidelización de clientes: Conseguir un nuevo cliente o recuperar uno perdido resulta mucho más costoso que mantener uno que ya lo es.
    Detectan aquéllos que parece más probable que se vayan a perder, permitiendo llevar a cabo iniciativas que eviten dicha pérdida.
    Ej.
  • 23. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
    23
    PREDICCIÓN
    A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima.
    Detección de oportunidades.
    Prevención de problemas.
    Gestión óptima del personal.
    Optimización de stocks.
    Ej.
  • 24. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
    24
    PREDICCIÓN
    A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima.
    Detección de oportunidades.
    Prevención de problemas.
    Gestión óptima del personal.
    Optimización de stocks.
    Ej.
  • 25. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS
    25
    CONTROL DE CALIDAD
    Detención más precisa de productos defectuosos
    A menudo el control de calidad se realiza de forma manual y, por tanto, depende de una evaluación subjetiva por parte del personal encargado del mismo. El principal problema de este método es que el criterio de calidad no es estable sino que depende de la persona que realiza el análisis. al aumentar la exactitud de la evaluación se ahorran los costes derivados de las clasificaciones erróneas: productos defectuosos que se consideraron correctos por error y productos correctos, desechados por un exceso de precaución.
    Localización precoz de defectos
    A menudo no resulta fácil medir la variable que determina la calidad del producto en tiempo real o en la cadena de producción. En estos casos, es imprescindible utilizar técnicas de minería de datos para descubrir posibles relaciones que permitan detectar los fallos utilizando las variables disponibles durante el proceso.
    Ej.
    Ej.
  • 26. 7
    Tecnologías análogas
  • 27. TECNOLOGÍAS ANÁLOGAS
    27
    Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y disciplinas análogas:
    Estadística
    Inteligencia artificial
    Sistemas Expertos
    Redes neuronales

    ¿Por qué?
    El hecho es, que en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —árboles de regresión y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos.
    Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible.
  • 28. TECNOLOGÍAS ANÁLOGAS
    28
    Integración con Data Warehouse
    El punto de inicio ideal es:
    Un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores.
    Información histórica sobre potenciales clientes también provee una excelente base para prospectiva.
    Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.
    El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.
  • 29. TECNOLOGÍAS ANÁLOGAS
    29
    Extensiones del Data Mining: Web mining
    Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log).
    Las herramientas de web mining analizan y procesan estos logspara producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea.
    Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.
    Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas.
    Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.
  • 30. TECNOLOGÍAS ANÁLOGAS
    30
    Extensiones del Data Mining: Text mining
    Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos.
    Este campo de estudio es muy vasto, por lo que se utilizan diferentes técnicas como: la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático
    Se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo (Nasukawa y otros, 2001).
  • 31. 8
    Productos vs software
  • 32. PRODUCTOS VS SOFTWARE
    32
    R-project (www.cran.r-project.org)
    Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras.
    KNIME (www.knime.org)
    Es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse y programado, esencialmente, en java.
  • 33. PRODUCTOS VS SOFTWARE
    33
    SPSS (www.spss.com)
    StatisticalPackageforthe Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado.
    Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamaño.
    OTROS DE PROGRAMAS DE INTERÉS…
    SAS Enterprise Miner
    RapidMiner
    Weka
    KXEN
    Orange
  • 34. Bibliografía
    1. Minería de Datos. Trabajo de adscripción. Sofía J. Vallejos. 2006
    2. Minería de Datos. Documento Básico DAEDALUS. www.daedalus.es
    3. Minería de Datos. Wikipedia
    4. INTRODUCCIÓN A LA MINERÍA DE DATOS. Editorial Pearson, 2004.
    ISBN: 84 205 4091 9
  • 35. Ahora es tu turno
    ¿tienes alguna pregunta?
  • 36. Gracias por tu atención
    plas,plas,plas,…

×