Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
El Factor Humano en la Recuperación de Información Yusef Hassan Montero - Grupo SCImago (CSIC) - NoSoloUsabilidad.com
Resumen <ul><li>Introducir la Recuperación de Información como área de estudio </li></ul><ul><li>Reflexionar sobre los pro...
Definición “ Information Retrieval is concerned with the processes involved in the representation, storage, searching and ...
Un modelo simplista
Un poco más en detalle
Web Crawling <ul><li>“ Crawling the Web is perhaps the main bottleneck for Web search engines”  Ricardo Baeza-Yates, 2003 ...
Indización Asignar términos (o expresiones) a documentos, con el objetivo de que sirvan de puntos de acceso a dichos docum...
Indización de profesional Profesionales, que dominan el área de conocimiento del documento, se encargan de describirlo med...
Indización de autor El autor o creador del documento asigna los metadatos que lo describen.
Indización automática de contenido La presencia y frecuencia de las palabras del propio texto, describen su contenido. ¿o ...
Indización de contenido
Indización de contenido
Pre-procesamiento <ul><li>Stemming </li></ul><ul><li>Eliminación de stop-words </li></ul>¿Realmente se hace?
Ponderación tf·idf WTF!
Ponderación mediante heurísticas… <h1>En documentos semi-estructurados</h1>
¿Por dónde íbamos?
¿Por dónde íbamos?
¿Por dónde íbamos?
Evaluación de los SRI: Relevancia Documentos recuperados Documentos relevantes Precisión : De todos los documentos recuper...
Evaluación de los SRI: Relevancia Precisión Exhaustividad
¿Hay algo más? <ul><li>Modelo espacio-vectorial </li></ul><ul><li>Modelo probabilístico </li></ul><ul><li>Lógica Difusa </...
Algunos problemas del enfoque algorítmico tradicional <ul><li>Visión de la recuperación de información desde su vertiente ...
¿Existen enfoques alternativos?
Primeras Alternativas <ul><li>User-Centered Information Retrieval </li></ul><ul><li>Information Retrieval Interaction </li...
Qué proponen <ul><li>Centrar la concepción del SRI en  el usuario  (necesidades, conocimiento, contexto,…), y en la  inter...
Resultados interfaz
Y en esto llegó la… Web 2.0 Se estima que las “herramientas 2.0” son responsables de un tercio del nuevo contenido que se ...
Teoría de la Actividad Aleksei N. Leontiev (1903-1979)
Recuperación de Información 2.0 (IMHO) <ul><li>Indización de autor, de profesional, de contenido… indización social . </li...
Sobre el futuro de las búsquedas “ We’re all familiar with 80-20 problems, where the last 20% of the solution is 80% of th...
¿Alguien dijo… … Web Semántica? (yo no)
Por último…
Gracias!
Upcoming SlideShare
Loading in …5
×

El Factor Humano en la Recuperación de Información

2,311 views

Published on

Published in: Technology
  • Be the first to comment

El Factor Humano en la Recuperación de Información

  1. 1. El Factor Humano en la Recuperación de Información Yusef Hassan Montero - Grupo SCImago (CSIC) - NoSoloUsabilidad.com
  2. 2. Resumen <ul><li>Introducir la Recuperación de Información como área de estudio </li></ul><ul><li>Reflexionar sobre los problemas de los modelos tradicionales de Recuperación de Información </li></ul><ul><li>Discutir los modelos alternativos centrados en el factor humano </li></ul><ul><li>Analizar posibles futuras vías de trabajo en Recuperación de Información </li></ul>
  3. 3. Definición “ Information Retrieval is concerned with the processes involved in the representation, storage, searching and finding of information which is relevant to a requirement for information desired by a human user.” Peter Ingwersen, 1992
  4. 4. Un modelo simplista
  5. 5. Un poco más en detalle
  6. 6. Web Crawling <ul><li>“ Crawling the Web is perhaps the main bottleneck for Web search engines” Ricardo Baeza-Yates, 2003 </li></ul><ul><li>Constante aumento de su volumen </li></ul><ul><li>¿Más es mejor? Dificultad para determinar calidad en el nuevo contenido. </li></ul><ul><li>No todo es HTML </li></ul><ul><li>Contenido duplicado : ¿posicionar o multiplicar? </li></ul><ul><li>Contenido volátil </li></ul><ul><li>Internet invisible </li></ul><ul><li>Documentos desestructurados </li></ul>
  7. 7. Indización Asignar términos (o expresiones) a documentos, con el objetivo de que sirvan de puntos de acceso a dichos documentos.
  8. 8. Indización de profesional Profesionales, que dominan el área de conocimiento del documento, se encargan de describirlo mediante metadatos.
  9. 9. Indización de autor El autor o creador del documento asigna los metadatos que lo describen.
  10. 10. Indización automática de contenido La presencia y frecuencia de las palabras del propio texto, describen su contenido. ¿o no?
  11. 11. Indización de contenido
  12. 12. Indización de contenido
  13. 13. Pre-procesamiento <ul><li>Stemming </li></ul><ul><li>Eliminación de stop-words </li></ul>¿Realmente se hace?
  14. 14. Ponderación tf·idf WTF!
  15. 15. Ponderación mediante heurísticas… <h1>En documentos semi-estructurados</h1>
  16. 16. ¿Por dónde íbamos?
  17. 17. ¿Por dónde íbamos?
  18. 18. ¿Por dónde íbamos?
  19. 19. Evaluación de los SRI: Relevancia Documentos recuperados Documentos relevantes Precisión : De todos los documentos recuperados, ¿qué porcentaje son relevantes? Exhaustividad : De todos los documentos relevantes, ¿qué porcentaje son recuperados?
  20. 20. Evaluación de los SRI: Relevancia Precisión Exhaustividad
  21. 21. ¿Hay algo más? <ul><li>Modelo espacio-vectorial </li></ul><ul><li>Modelo probabilístico </li></ul><ul><li>Lógica Difusa </li></ul><ul><li>Técnicas de Clustering </li></ul><ul><li>Indización de Semántica Latente </li></ul><ul><li>Redes Neuronales </li></ul><ul><li>Algoritmos Genéticos </li></ul><ul><li>Procesamiento del Lenguaje Natural </li></ul><ul><li>… </li></ul>
  22. 22. Algunos problemas del enfoque algorítmico tradicional <ul><li>Visión de la recuperación de información desde su vertiente casi exclusivamente tecnológica . </li></ul><ul><li>¿Las palabras del texto representan su contenido ? </li></ul><ul><li>¿ Consulta=Necesidad Informativa? </li></ul><ul><li>El usuario es un elemento prácticamente ignorado en los modelos. </li></ul><ul><li>Visión de la recuperación de información como un proceso secuencial prueba-error, en vez de cómo un proceso realmente interactivo . </li></ul><ul><li>Estancamiento evolutivo en términos de resultados. </li></ul>
  23. 23. ¿Existen enfoques alternativos?
  24. 24. Primeras Alternativas <ul><li>User-Centered Information Retrieval </li></ul><ul><li>Information Retrieval Interaction </li></ul><ul><li>Human-Computer Information Retrieval </li></ul><ul><li>… </li></ul>
  25. 25. Qué proponen <ul><li>Centrar la concepción del SRI en el usuario (necesidades, conocimiento, contexto,…), y en la interacción . </li></ul><ul><li>Analizar la recuperación de información como un diálogo entre entidades cognitivas “análogas”. </li></ul><ul><li>Ir más allá de la búsqueda: Hacia la Exploración . </li></ul><ul><li>Potenciar la orientación del usuario. </li></ul><ul><li>Potenciar el control y responsabilidad del usuario. </li></ul><ul><li>La relevancia es subjetiva . Dar significado a los resultados. </li></ul><ul><li>Propuestas alternativas de evaluación de SRI: Usabilidad . </li></ul>
  26. 26. Resultados interfaz
  27. 27. Y en esto llegó la… Web 2.0 Se estima que las “herramientas 2.0” son responsables de un tercio del nuevo contenido que se genera en la Web.
  28. 28. Teoría de la Actividad Aleksei N. Leontiev (1903-1979)
  29. 29. Recuperación de Información 2.0 (IMHO) <ul><li>Indización de autor, de profesional, de contenido… indización social . </li></ul><ul><li>Redefinir el concepto de “Personalización” de Resultados . </li></ul><ul><li>Ir más allá de la búsqueda y la exploración de información. Hacia el descubrimiento de información : Forzar la serendipia. </li></ul><ul><li>Inteligencia colectiva : Nuevos modelos algorítmicos que permitan explotar la semántica socialmente construida, y el comportamiento socialmente motivado de los usuarios. </li></ul><ul><li>Redefinir el concepto de “Personalización” de la Interfaz . </li></ul><ul><li>Visualización de Información </li></ul>
  30. 30. Sobre el futuro de las búsquedas “ We’re all familiar with 80-20 problems, where the last 20% of the solution is 80% of the work. Search is a 90-10 problem. Today, we have a 90% solution […] However, that remaining 10% of the problem really represents 90% (in fact, more than 90%) of the work. Coming up with elegant, fitting and relevant solutions to meet the challenges” The Official Google Blog.
  31. 31. ¿Alguien dijo… … Web Semántica? (yo no)
  32. 32. Por último…
  33. 33. Gracias!

×