Text mining

772 views

Published on

Presentación sobre minería de texto (text mining) para el curso de Minería de datos dictado en la Universidad Simón Bolívar en la Maestría de ciencias de la computación en caracas venezuela

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
772
On SlideShare
0
From Embeds
0
Number of Embeds
13
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Text mining

  1. 1. Francisco Berrizbeitia Curso de Miinería de Datos Maestría en ciencias de la computación Universidad Simón Bolívar Noviembre 2013
  2. 2. ¿Por qué ? Hay una enorme cantidad de información en texto. Aparte de los libros, periódicos y enciclopedias en Internet se generan enormes cantidades de información textual.
  3. 3. Pasos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  4. 4. Pasos Obtención y agrupamiento del Texto Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  5. 5. Obtención de los datos Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de estatus, etc. El primer paso consisten en la obtención de estos datos y su agrupamiento para comenzar a trabajar
  6. 6. Pasos Pre Procesamiento Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  7. 7. Pre procesamiento Eliminación de ruido • • • • • • • • Texto deliberadamente equivocado SPAM Textos ambiguos Texto erróneo Palabras que no tienen poder discriminatorio (STOP WORDS) Ruido en el formato (tags, links) Multiplicidad de idiomas Sinónimos, palabras con varios significados Frases típicas
  8. 8. Pre procesamiento
  9. 9. Pre procesamiento
  10. 10. Pre procesamiento Convertir el documento en un vector de palabras. “Tokenization”
  11. 11. Pre procesamiento 1. Se puede importar los datos en CVS 2. Hay que eliminar los caracteres: ,;:”’%() 3. Aplicar primero el filtro NominalToString. 4. Aplicar el filtro StringToWordVector
  12. 12. Pasos Generación de atributos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  13. 13. Generación de atributos Representación del texto “Bag of Words”
  14. 14. Generación de atributos
  15. 15. Generación de atributos Dimensionalidad
  16. 16. Pasos Selección de atributos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  17. 17. Generación de atributos Selección de atributos ¿Cuáles palabras tienen la mejor capacidad discriminatoria? Se puede usar un clasificador
  18. 18. Generación de atributos Latent Semantic Analysis Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande. http://lsa.colorado.edu/whatis.html
  19. 19. Generación de atributos 1. Ir a Select Atributes 2. Seleccionar Latent Semantic analisys 3. Start 4. Guardar el nuevo data set
  20. 20. Pasos Minería de datos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  21. 21. Minería de datos Agrupamiento Clasificación Reglas de asociación
  22. 22. Agrupamiento 1. Ir a Clustering 2. Seleccionar el alogirmo de agrupamiento 3. Start 4. Clic derecho sobre el resultado y seleccionar visualize cluster assigments
  23. 23. Pasos Interpretar los resultados Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  24. 24. Interpretar los resultados Interpretar (Agrupamiento) Evaluar los resultados (Clasificación, reglas de asociación). Sacar conclusiones o iterar sobre los pasos anteriores
  25. 25. Francisco Berrizbeitia Curso de Miinería de Datos Maestría en ciencias de la computación Universidad Simón Bolívar Noviembre 2013

×