Minería de datos y de textos Dr. Jesús Tramullas Dpto. CC. de la Documentación
Planteamiento <ul><li>Existen ingentes volúmenes de información estructurada, sobre actividades de todo tipo desarrolladas...
Problemas <ul><li>El análisis manual de datos es caro, consume muchos recursos en especialistas, dinero y tiempo </li></ul...
Definición <ul><li>Proceso no trivial de identificar patrones válidos, nuevos, útiles y comprensibles en los datos </li></...
Aplicaciones <ul><li>En todos los dominios posibles </li></ul><ul><li>KDD es útil cuando muchas dimensiones son relevantes...
El proceso de KDD <ul><li>Iniciativa CRISP-DM,  CRoss-Industry Standard Process for Data Mining : </li></ul><ul><ul><li>Co...
Fases, 1 <ul><li>Comprensión del negocio: determinar los objetivos del negocio y la situación del mismo, establecer los ob...
Fases, 2 <ul><li>Modelado: selección de técnica de modelado, diseño del test, construcción del modelo, assess del modelo <...
Tareas y métodos, 1 <ul><li>Clasificación: descubrimiento de árboles de decisión, reglas de decisión, clasificación bayesi...
Tareas y métodos, 2 <ul><li>Fitting de ecuaciones: buscadores de ecuaciones, análisis de regresión multidimensional </li><...
Minería de textos <ul><li>Enormes volúmenes de información textual organizados en documentos, internamente poco estructura...
Definición <ul><li>La minería de textos puede definirse como una forma especial de minería de datos, o KDD, que se aplica ...
Disciplinas relacionadas <ul><li>Lingüística computacional </li></ul><ul><ul><li>Extracción de información </li></ul></ul>...
Aplicaciones de la minería de texto <ul><li>Búsqueda de información: búsquedas más avanzadas, centradas en conceptos, ofre...
Minería del web <ul><li>Aplicación de las técnicas de minería a la información textual del web </li></ul><ul><li>Detectar ...
Upcoming SlideShare
Loading in...5
×

Minería de datos y textos

6,361

Published on

Asignatura Sist. Elect.Trat. Documental: minería de datos y textos

Published in: Technology, Education
0 Comments
8 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
6,361
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
8
Embeds 0
No embeds

No notes for slide

Transcript of "Minería de datos y textos"

  1. 1. Minería de datos y de textos Dr. Jesús Tramullas Dpto. CC. de la Documentación
  2. 2. Planteamiento <ul><li>Existen ingentes volúmenes de información estructurada, sobre actividades de todo tipo desarrolladas a lo largo de periodos de tiempo </li></ul><ul><li>En esta información acumulada podrían rastrearse asociaciones y patrones no apreciables directamente </li></ul><ul><li>Es necesario aplicar técnicas matemáticas con plataformas informáticas para poder identificar las posibles relaciones </li></ul><ul><li>Estas relaciones pueden mostrar formas de conocimiento derivadas del dominio que haya sido objeto de tratamiento </li></ul>
  3. 3. Problemas <ul><li>El análisis manual de datos es caro, consume muchos recursos en especialistas, dinero y tiempo </li></ul><ul><li>Necesidad de formular hipótesis, probar, y ajustar, y volver a probar </li></ul><ul><li>Necesidad de tomar en consideración un número cada vez mayor de parámetros, y de las relaciones existentes entre ellos </li></ul><ul><li>El análisis estadístico tipo OLAP (On Line Analytic Proccesing) debe completarse con otras técnicas para patrones y búsquedas </li></ul>
  4. 4. Definición <ul><li>Proceso no trivial de identificar patrones válidos, nuevos, útiles y comprensibles en los datos </li></ul><ul><li>Actualmente se prefiere hablar de Knowledge Discovery (descubrimiento de conocimiento), entendiendo que conocimiento es una verdad sobre un dominio, representado mediante un lenguaje formal. </li></ul><ul><li>KDD: Knowledge Discovery in Databases </li></ul><ul><li>Se trata del proceso completo, de todas las fases, necesarias para encontrar el conocimiento oculto en los datos. La minería de datos definiría a la parte central del proceso global </li></ul>
  5. 5. Aplicaciones <ul><li>En todos los dominios posibles </li></ul><ul><li>KDD es útil cuando muchas dimensiones son relevantes al problema planteado, y cuando deben estudiarse muchos subgrupos </li></ul><ul><li>Cinco propósitos principales: predicción, descripción, explicación, optimización y exploración </li></ul>
  6. 6. El proceso de KDD <ul><li>Iniciativa CRISP-DM, CRoss-Industry Standard Process for Data Mining : </li></ul><ul><ul><li>Comprensión del negocio </li></ul></ul><ul><ul><li>Comprensión de los datos </li></ul></ul><ul><ul><li>Preparación de los datos </li></ul></ul><ul><ul><li>Modelado </li></ul></ul><ul><ul><li>Evaluación </li></ul></ul><ul><ul><li>Deployment </li></ul></ul>
  7. 7. Fases, 1 <ul><li>Comprensión del negocio: determinar los objetivos del negocio y la situación del mismo, establecer los objetivos del proceso de KDD. </li></ul><ul><li>Comprensión de los datos: recopilación inicial de datos, descripción de las propiedades de los datos, exploración de datos y verificación de calidad </li></ul><ul><li>Preparación de los datos: selección de datos, limpieza, construcción de nuevos datos, integración y formato definitivo </li></ul>
  8. 8. Fases, 2 <ul><li>Modelado: selección de técnica de modelado, diseño del test, construcción del modelo, assess del modelo </li></ul><ul><li>Evaluación: evaluación del resultado, de acuerdo con los objetivos del negocio, revisión de resultados, nuevas fases </li></ul><ul><li>Deployment: estrategia de aplicación de resultados, plan de monitorización y control, informe final, revisión del proyecto </li></ul>
  9. 9. Tareas y métodos, 1 <ul><li>Clasificación: descubrimiento de árboles de decisión, reglas de decisión, clasificación bayesiana, aproximaciones de “vecino más próximo”, regresión, redes neuronales, clasificación multicriterio </li></ul><ul><li>Descubrimiento de reglas: rought set, reglas características, de asociación, programación de lógica inductiva </li></ul><ul><li>Descubrimiento de subgrupos: análisis de desviación, de cambio, métodos drill-down </li></ul>
  10. 10. Tareas y métodos, 2 <ul><li>Fitting de ecuaciones: buscadores de ecuaciones, análisis de regresión multidimensional </li></ul><ul><li>Clustering: clustering numérico y clustering conceptual </li></ul><ul><li>Redes probabilísticas y causales </li></ul><ul><li>Análisis espacial </li></ul><ul><li>Escalabilidad </li></ul><ul><li>Métodos paralelos </li></ul>
  11. 11. Minería de textos <ul><li>Enormes volúmenes de información textual organizados en documentos, internamente poco estructurados </li></ul><ul><li>Aplicación de la minería de datos /KDD </li></ul><ul><li>Mayor volumen de parámetros y variables que en la información de datos </li></ul><ul><li>Mayormente utilizada en la organización y clasificación del contenido de los espacios de información digital </li></ul>
  12. 12. Definición <ul><li>La minería de textos puede definirse como una forma especial de minería de datos, o KDD, que se aplica a grandes volúmenes de ficheros de texto no estructurado </li></ul><ul><li>Su objetivo es analizar un texto o los textos de una colección para seleccionar textos relevantes o extraer partes </li></ul>
  13. 13. Disciplinas relacionadas <ul><li>Lingüística computacional </li></ul><ul><ul><li>Extracción de información </li></ul></ul><ul><li>Lingüística estadística </li></ul><ul><li>Recuperación de información </li></ul><ul><li>Reconocimiento de patrones </li></ul><ul><ul><li>Reducción de features </li></ul></ul><ul><ul><li>Clasificación </li></ul></ul><ul><ul><li>Análisis cluster </li></ul></ul>
  14. 14. Aplicaciones de la minería de texto <ul><li>Búsqueda de información: búsquedas más avanzadas, centradas en conceptos, ofrecer alternativas </li></ul><ul><li>Extracción de información: ofrecer conceptos o frases de documentos para decidir la relevancia, o formar nuevos documentos </li></ul><ul><li>Análisis de colecciones de texto: revisión de colecciones. Tareas de categorización (previas) y de clasificación/clustering (automática) </li></ul>
  15. 15. Minería del web <ul><li>Aplicación de las técnicas de minería a la información textual del web </li></ul><ul><li>Detectar patrones de organización de información y de comportamiento de usuario: </li></ul><ul><ul><li>Análisis de logs </li></ul></ul><ul><ul><li>Análisis de estructura hipertextual </li></ul></ul><ul><ul><li>Clasificación de documentos </li></ul></ul><ul><ul><li>Secuencias de navegación </li></ul></ul><ul><ul><li>Trabajo en colaboración </li></ul></ul>

×