Extensiones a Buscadores
                        Referencias:
           Cap. 11 Modern Information Retrieval
            ...
Agenda

    Otros Buscadores
    –   Para un sitio
    –   Verticales
    –   Metabuscadores
    Búsqueda multimedia




2
Buscadores para un sitio

    Buscadores de colección pequeña
    –   Glimpse
    –   HT:Dig
    –   SwishE
    –   Excite...
Simple Web Indexing System for Humans –
    Enhanced
    Archivo swish-e.conf
    IndexDir ~/public_www/docs/
    IndexFil...
Swish­E

    Buscar
    swish-e -w “casa” -f ~/docs.idx
    swish-e -w “casa” -p “keywords” -f ..
    Resultado:
    # Sea...
Swish­E

    Otras opciones
    MetaNames author (afecta resultados)
    PropertyNames keywords
    MinWordLimit 4 (abc no...
Buscadores Verticales

    ccTLD País + Sitios conocidos del país
    Mayor cobertura, > 95%
    –   De la web pública ind...
Búsqueda de noticias

    Periodismo, valoración de una noticia
    –   Actualidad: debe ser nueva
    –   Cercanía o loca...
Búsqueda de noticias (2)
    Actualidad
    –   Crawl frecuente
    –   Detectar fecha de primer cuasi-duplicado
    Cerca...
Ejemplo: newsmap




10
Metabuscadores

     Conección directa del cliente
     –   Alexa
     –   Copérnico
     Conección indirecta
     –   Dog...
Copernic agent basic




12
Combinar rankings

     Ej.: gimnasia
     –   5 jueces
     –   Se elimina el peor y el mejor
     –   Se toma el promedi...
Búsqueda Multimedia

     Distinto de “búsqueda de multimedios”
     –   Utilizar técnicas usuales de IR para encontrar ar...
Almacenamiento

     Modelo de datos
     –   Datos conocidos sobre el elemento multimedia
     Automatización
     –   De...
Lenguajes

     3 tipos de predicado
     Atributos
     –   filesize>2Kb
     Estructura
     –   3e compás 2o movimiento...
Google

     Texto alrededor, ALT, nombre archivo




17
All The Web




18
Audio FingerPrint

     Extraer razgos únicos
     Buscar inteligentemente
     Desafíos:
     –   Samples breves (3seg.)
...
FingerPrint

     Hashing criptográfico:cambia demasiado
     Perceptual hash o hashing robusto
     Similaridad con human...
Similaridad imágenes

     Extracción de razgos
     –   Bitmaped
     –   Vectoriales
     Resistencia a transformaciones...
Similaridad imágenes




22
Similaridad imágenes

     Consulta: proceso inverso
     –   Generar vector de descriptores y comparar




23
Upcoming SlideShare
Loading in …5
×

Extensiones a un Buscador Web

1,000 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,000
On SlideShare
0
From Embeds
0
Number of Embeds
28
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Extensiones a un Buscador Web

  1. 1. Extensiones a Buscadores Referencias: Cap. 11 Modern Information Retrieval swish-e.org alexa.com copernic.com clr.research.compaq.com/vision/multimedia/similarity/d research.phillips.com/generalinfo/special/audiofp.asp Curso: Recuperación de Información – 2002/1 -- ChaTo 1
  2. 2. Agenda Otros Buscadores – Para un sitio – Verticales – Metabuscadores Búsqueda multimedia 2
  3. 3. Buscadores para un sitio Buscadores de colección pequeña – Glimpse – HT:Dig – SwishE – Excite Search – MyWeb Actualización automática Indexación inteligente – Datos estructurados y textos, XML 3
  4. 4. Simple Web Indexing System for Humans – Enhanced Archivo swish-e.conf IndexDir ~/public_www/docs/ IndexFile ~/docs.idx IndexOnly .txt .html Crear indice (crontab) 0 0 * * * swish-e -c ~/swishe-e.conf 4
  5. 5. Swish­E Buscar swish-e -w “casa” -f ~/docs.idx swish-e -w “casa” -p “keywords” -f .. Resultado: # Search words: casa # Number of hits: 3 1000 ~/public_www/docs/home.html 251 731 ~/public_www/docs/svc.html 193 124 ~/public_www/docs/abt.html 913 5
  6. 6. Swish­E Otras opciones MetaNames author (afecta resultados) PropertyNames keywords MinWordLimit 4 (abc no indexado) WordCharacters a-zA-Z0-9 IgnoreLimits 30 100 (30% min 100 doc) IgnoreWords a ante bajo cabe ... 6
  7. 7. Buscadores Verticales ccTLD País + Sitios conocidos del país Mayor cobertura, > 95% – De la web pública indexable Contexto controlado – Posibilidad de lidiar con particularidades idiomáticas – Posibilidad de realizar búsqueda local (ej.: teléfonos, códigos, comunas, ciudades) Restricción a un contexto regional – Mejor precisión en las búsquedas 7
  8. 8. Búsqueda de noticias Periodismo, valoración de una noticia – Actualidad: debe ser nueva – Cercanía o localidad. – Prominencia de los actores/fechas/lugares Valores cualitativos del contenido – Suspenso o incógnita – Conflicto – Curiosidad – Emoción 8
  9. 9. Búsqueda de noticias (2) Actualidad – Crawl frecuente – Detectar fecha de primer cuasi-duplicado Cercanía o localidad – Colecciones de sitios controladas – Colecciones de secciones controladas – e.j.: diarios españoles, diarios de informática, etc. Prominencia – Número de cuasi-duplicados – Elegir cuál cuasi-duplicado mostrar 9
  10. 10. Ejemplo: newsmap 10
  11. 11. Metabuscadores Conección directa del cliente – Alexa – Copérnico Conección indirecta – Dogpile/Metasearch – Timeout por cada buscador Problema: – Mezclar los rankings 11
  12. 12. Copernic agent basic 12
  13. 13. Combinar rankings Ej.: gimnasia – 5 jueces – Se elimina el peor y el mejor – Se toma el promedio de los otros tres {máxima, mínima} relevancia Modelo lineal: promedio ponderado por fiabilidad – En la práctica no es mejor que promedio simple Modelo no lineal: red neuronal 13
  14. 14. Búsqueda Multimedia Distinto de “búsqueda de multimedios” – Utilizar técnicas usuales de IR para encontrar archivos en ciertos formatos Características Especiales – Objetos complejos – Búsqueda casi siempre por similaridad => ranking Espacios métricos. – Maldición de la dimensionalidad. 14
  15. 15. Almacenamiento Modelo de datos – Datos conocidos sobre el elemento multimedia Automatización – Detección automática de razgos – Razgos + Certeza 15
  16. 16. Lenguajes 3 tipos de predicado Atributos – filesize>2Kb Estructura – 3e compás 2o movimiento Semántica – mi la sol do ..., color, forma, textura, etc. – Nunca dan match exacto. 16
  17. 17. Google Texto alrededor, ALT, nombre archivo 17
  18. 18. All The Web 18
  19. 19. Audio FingerPrint Extraer razgos únicos Buscar inteligentemente Desafíos: – Samples breves (3seg.) – Samples con ruido – Fingerprint pequeños Usos – Como un servicio para usuarios comunes – Commercial verification 19
  20. 20. FingerPrint Hashing criptográfico:cambia demasiado Perceptual hash o hashing robusto Similaridad con humanos 20
  21. 21. Similaridad imágenes Extracción de razgos – Bitmaped – Vectoriales Resistencia a transformaciones – Escala, Rotación, Skew Solución general – Búsqueda espacios k-dimensionales – Lenta 21
  22. 22. Similaridad imágenes 22
  23. 23. Similaridad imágenes Consulta: proceso inverso – Generar vector de descriptores y comparar 23

×