Técnicas Básicas (resumen)

José Carlos Cortizo Pérez
  http://www.esp.uem.es/jccortizo
  josecarlos.cortizo@uem.es


 Dep...
Índice


   Esquema de funcionamiento
   Normalización y Tokenización
   Indexación
   Modelo del Espacio Vectorial


    ...
Sistemas Inteligentes de Acceso a
la Información

Esquema de Funcionamiento
Esquema de Funcionamiento

 Doc
   Doc
           Normalización
                           Indexación
     Doc    Tokeniza...
Ejemplo

  Documento 1:
        Pepe coge su coche por las mañanas

  Documento 2:
        Mañana veré a Pepe

  Documento...
Ejemplo
Normalizamos y Tokenizamos los Documentos

    Documento 1:
          Pepe; coger; coche; mañana

    Documento 2:...
Ejemplo
Indizamos los Documentos

                    Documento 1   Documento 2   Documento 3
         Pepe              1...
Ejemplo
Tokenizamos y Normalizamos la consulta

                    Documento 1   Documento 2   Documento 3
         Pepe ...
Ejemplo
Seleccionamos candidatos

                     Documento 1   Documento 2   Documento 3
         Pepe              ...
Ejemplo
Representamos en forma de Vectores


    Representación:
           (Pepe, coger, coche, mañana, traer)
    Docume...
Ejemplo
Aplicamos MEV


    Representación:
          (Pepe, coger, coche, mañana, traer)
    Documento 1:
               ...
Ejemplo
Y obtenemos un ranking de resultados


    Resultados ordenados:
           Documento 2
           Documento 1



...
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Normalización y Tokenización
Normalización y Tokenización
¿Qué?




        Tokenizar: Separar las palabras o elementos a indizar


        Normalizar:...
Normalización y Tokenización
¿Por qué?


     Tokenizar: Necesitamos tener unidades indizables para
     utilizarlas como ...
Normalización y Tokenización
¿Cómo tokenizar?


     Forma simple: utilizar un Tokenizador que separe por caracteres
     ...
Normalización y Tokenización
¿Cómo normalizar?



     Por lo general aplicando reglas heurísticas
         P.e. Cambiar t...
Normalización y Tokenización
Palabras vacías

      Las palabras muy frecuentes no aportan semántica
          Artículos, ...
Normalización y Tokenización
Normalización morfológica


      Múltiples palabras son variaciones morfológicas, con idénti...
Normalización y Tokenización
Normalización “avanzada”

     En función del idioma, podemos aplicar reglas de normalización...
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Indexación
Indexación
Indexación


      Los índices son necesarios para poder realizar las consultas en
      tiempos aceptables
   ...
Indexación
Indice directo

                 Pal1   Pal2   Pal3        Pal4

     Doc1         1      1      0             ...
Indexación
Indice inverso

                 Doc1   Doc2   Doc3        Doc4

     Pal1         1      1      0             ...
Indexación
¿Cuál es mejor?



      Cada uno tiene sus pros y sus contras
      Sin embargo, el inverso es muy eficiente en...
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Modelo del Espacio Vectorial
Modelo del Espacio Vectorial
Introducción




      Es un modelo más sofisticado que el Booleano
      Se basa en el álgebr...
Modelo del Espacio Vectorial
Introducción




      Cálculo de similitud: el coseno de los vectores que forman el
      do...
Modelo del Espacio Vectorial
Introducción




                               José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Bibliografía
Adicional


      Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information
      retrieval. Addison-W...
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Upcoming SlideShare
Loading in …5
×

Resumen de Técnicas Básicas de Recuperación de Buscador

1,798 views

Published on

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,798
On SlideShare
0
From Embeds
0
Number of Embeds
21
Actions
Shares
0
Downloads
35
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Resumen de Técnicas Básicas de Recuperación de Buscador

  1. 1. Técnicas Básicas (resumen) José Carlos Cortizo Pérez http://www.esp.uem.es/jccortizo josecarlos.cortizo@uem.es Departamento de Sistemas Informáticos Escuela Superior Politécnica Universidad Europea de Madrid
  2. 2. Índice Esquema de funcionamiento Normalización y Tokenización Indexación Modelo del Espacio Vectorial José Carlos Cortizo Pérez
  3. 3. Sistemas Inteligentes de Acceso a la Información Esquema de Funcionamiento
  4. 4. Esquema de Funcionamiento Doc Doc Normalización Indexación Doc Tokenización MEV Res. Normalización Q Tokenización José Carlos Cortizo Pérez
  5. 5. Ejemplo Documento 1: Pepe coge su coche por las mañanas Documento 2: Mañana veré a Pepe Documento 3: Me traen el coche mañana Consulta: Coche José Carlos Cortizo Pérez
  6. 6. Ejemplo Normalizamos y Tokenizamos los Documentos Documento 1: Pepe; coger; coche; mañana Documento 2: Mañana; ver; Pepe Documento 3: Traen; coche; mañana Consulta: Coche José Carlos Cortizo Pérez
  7. 7. Ejemplo Indizamos los Documentos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  8. 8. Ejemplo Tokenizamos y Normalizamos la consulta Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  9. 9. Ejemplo Seleccionamos candidatos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  10. 10. Ejemplo Representamos en forma de Vectores Representación: (Pepe, coger, coche, mañana, traer) Documento 1: (1, 1, 1, 1, 0) Documento 2: (0, 0, 1, 1, 1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez
  11. 11. Ejemplo Aplicamos MEV Representación: (Pepe, coger, coche, mañana, traer) Documento 1: 1·0 + 1·0 + 1·1 + 1·0 + 0·0 (1, 1, 1, 1, 0) cos(D1, C) = = 0.5 RC(4) · RC(1) Documento 2: 0·0 + 0·0 + 1·1 + 0·0 + 0·0 (0, 0, 1, 1, 1) cos(D1, C) = = 0.57 RC(3) · RC(1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez
  12. 12. Ejemplo Y obtenemos un ranking de resultados Resultados ordenados: Documento 2 Documento 1 José Carlos Cortizo Pérez
  13. 13. ¿Alguna pregunta? José Carlos Cortizo Pérez
  14. 14. Sistemas Inteligentes de Acceso a la Información Normalización y Tokenización
  15. 15. Normalización y Tokenización ¿Qué? Tokenizar: Separar las palabras o elementos a indizar Normalizar: Estandarizar la forma de escribir algunas cosas. P.e. eliminar las tildes, cambiar de mayúsculas a minúsculas, etc. José Carlos Cortizo Pérez
  16. 16. Normalización y Tokenización ¿Por qué? Tokenizar: Necesitamos tener unidades indizables para utilizarlas como base de nuestra representación. Pueden ser palabras, frases, n-gramas, etc. Normalizar: El lenguaje es muy flexible, y además es muy corriente cometer errores de algún tipo. La normalización nos provee una forma de “eliminar” estos problemas. José Carlos Cortizo Pérez
  17. 17. Normalización y Tokenización ¿Cómo tokenizar? Forma simple: utilizar un Tokenizador que separe por caracteres clave (p.e. espacios, signos de puntuación, etc.) En java se haría con un String Tokenizer Si en lugar de palabras, queremos separar frases, la cosa es algo más compleja (dependiendo del tipo de frase) Análisis del lenguaje José Carlos Cortizo Pérez
  18. 18. Normalización y Tokenización ¿Cómo normalizar? Por lo general aplicando reglas heurísticas P.e. Cambiar todas las vocales acentuadas por vocales sin acentuar Pasar las mayúsculas a minúsculas Eliminar “palabras vacías” José Carlos Cortizo Pérez
  19. 19. Normalización y Tokenización Palabras vacías Las palabras muy frecuentes no aportan semántica Artículos, pronombres, conjunciones, etc. Las apariciones de las 10 palabras más frecuentes del inglés constituyen un 20/30% de un documento Se suelen incluir en una lista de parada Estas listas se obtienen a partir de un córpora representativo del idioma José Carlos Cortizo Pérez
  20. 20. Normalización y Tokenización Normalización morfológica Múltiples palabras son variaciones morfológicas, con idéntico significado Los stemmers (extractores de raíces), normalizan a una forma canónica, p.e. analizar, análisis, analizador... => ‘anali’ Algoritmo de Porter, SnowBall José Carlos Cortizo Pérez
  21. 21. Normalización y Tokenización Normalización “avanzada” En función del idioma, podemos aplicar reglas de normalización que permitan una mejor recuperación (p.e. tolerante a errores) P.e., para el Castellano Eliminar las ‘h’ Cambiar ‘v’ por ‘b’ Cambiar ‘ll’ por ‘y’ Esto aumenta el recall pero puede bajar la precisión José Carlos Cortizo Pérez
  22. 22. ¿Alguna pregunta? José Carlos Cortizo Pérez
  23. 23. Sistemas Inteligentes de Acceso a la Información Indexación
  24. 24. Indexación Indexación Los índices son necesarios para poder realizar las consultas en tiempos aceptables Generan un “overhead” en cuánto a almacenamiento 2 tipos de índices importantes Directos Inversos José Carlos Cortizo Pérez
  25. 25. Indexación Indice directo Pal1 Pal2 Pal3 Pal4 Doc1 1 1 0 0 Doc2 0 1 0 0 Doc3 1 0 1 0 Doc4 0 0 0 1 José Carlos Cortizo Pérez
  26. 26. Indexación Indice inverso Doc1 Doc2 Doc3 Doc4 Pal1 1 1 0 0 Pal2 0 1 0 0 Pal3 1 0 1 0 Pal4 0 0 0 1 José Carlos Cortizo Pérez
  27. 27. Indexación ¿Cuál es mejor? Cada uno tiene sus pros y sus contras Sin embargo, el inverso es muy eficiente en consulta (nos interesa más) El inverso es el que se suele implementar en la práctica (p.e. Google) José Carlos Cortizo Pérez
  28. 28. ¿Alguna pregunta? José Carlos Cortizo Pérez
  29. 29. Sistemas Inteligentes de Acceso a la Información Modelo del Espacio Vectorial
  30. 30. Modelo del Espacio Vectorial Introducción Es un modelo más sofisticado que el Booleano Se basa en el álgebra vectorial La representación se realiza en base a vectores de pesos de términos José Carlos Cortizo Pérez
  31. 31. Modelo del Espacio Vectorial Introducción Cálculo de similitud: el coseno de los vectores que forman el documento y la consulta José Carlos Cortizo Pérez
  32. 32. Modelo del Espacio Vectorial Introducción José Carlos Cortizo Pérez
  33. 33. ¿Alguna pregunta? José Carlos Cortizo Pérez
  34. 34. Bibliografía Adicional Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca UEM, edificio C). Raymond Mooney. Basic Tokenizing, Indexing and Implementation of Vector-Space Retrieval. Tema 3 de su curso en IR. http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt José Carlos Cortizo Pérez
  35. 35. ¿Alguna pregunta? José Carlos Cortizo Pérez

×