Extensiones a un Buscador Web

976 views
880 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
976
On SlideShare
0
From Embeds
0
Number of Embeds
28
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Extensiones a un Buscador Web

  1. 1. Extensiones a Buscadores Referencias: Cap. 11 Modern Information Retrieval swish-e.org alexa.com copernic.com clr.research.compaq.com/vision/multimedia/similarity/d research.phillips.com/generalinfo/special/audiofp.asp Curso: Recuperación de Información – 2002/1 -- ChaTo 1
  2. 2. Agenda Otros Buscadores – Para un sitio – Verticales – Metabuscadores Búsqueda multimedia 2
  3. 3. Buscadores para un sitio Buscadores de colección pequeña – Glimpse – HT:Dig – SwishE – Excite Search – MyWeb Actualización automática Indexación inteligente – Datos estructurados y textos, XML 3
  4. 4. Simple Web Indexing System for Humans – Enhanced Archivo swish-e.conf IndexDir ~/public_www/docs/ IndexFile ~/docs.idx IndexOnly .txt .html Crear indice (crontab) 0 0 * * * swish-e -c ~/swishe-e.conf 4
  5. 5. Swish­E Buscar swish-e -w “casa” -f ~/docs.idx swish-e -w “casa” -p “keywords” -f .. Resultado: # Search words: casa # Number of hits: 3 1000 ~/public_www/docs/home.html 251 731 ~/public_www/docs/svc.html 193 124 ~/public_www/docs/abt.html 913 5
  6. 6. Swish­E Otras opciones MetaNames author (afecta resultados) PropertyNames keywords MinWordLimit 4 (abc no indexado) WordCharacters a-zA-Z0-9 IgnoreLimits 30 100 (30% min 100 doc) IgnoreWords a ante bajo cabe ... 6
  7. 7. Buscadores Verticales ccTLD País + Sitios conocidos del país Mayor cobertura, > 95% – De la web pública indexable Contexto controlado – Posibilidad de lidiar con particularidades idiomáticas – Posibilidad de realizar búsqueda local (ej.: teléfonos, códigos, comunas, ciudades) Restricción a un contexto regional – Mejor precisión en las búsquedas 7
  8. 8. Búsqueda de noticias Periodismo, valoración de una noticia – Actualidad: debe ser nueva – Cercanía o localidad. – Prominencia de los actores/fechas/lugares Valores cualitativos del contenido – Suspenso o incógnita – Conflicto – Curiosidad – Emoción 8
  9. 9. Búsqueda de noticias (2) Actualidad – Crawl frecuente – Detectar fecha de primer cuasi-duplicado Cercanía o localidad – Colecciones de sitios controladas – Colecciones de secciones controladas – e.j.: diarios españoles, diarios de informática, etc. Prominencia – Número de cuasi-duplicados – Elegir cuál cuasi-duplicado mostrar 9
  10. 10. Ejemplo: newsmap 10
  11. 11. Metabuscadores Conección directa del cliente – Alexa – Copérnico Conección indirecta – Dogpile/Metasearch – Timeout por cada buscador Problema: – Mezclar los rankings 11
  12. 12. Copernic agent basic 12
  13. 13. Combinar rankings Ej.: gimnasia – 5 jueces – Se elimina el peor y el mejor – Se toma el promedio de los otros tres {máxima, mínima} relevancia Modelo lineal: promedio ponderado por fiabilidad – En la práctica no es mejor que promedio simple Modelo no lineal: red neuronal 13
  14. 14. Búsqueda Multimedia Distinto de “búsqueda de multimedios” – Utilizar técnicas usuales de IR para encontrar archivos en ciertos formatos Características Especiales – Objetos complejos – Búsqueda casi siempre por similaridad => ranking Espacios métricos. – Maldición de la dimensionalidad. 14
  15. 15. Almacenamiento Modelo de datos – Datos conocidos sobre el elemento multimedia Automatización – Detección automática de razgos – Razgos + Certeza 15
  16. 16. Lenguajes 3 tipos de predicado Atributos – filesize>2Kb Estructura – 3e compás 2o movimiento Semántica – mi la sol do ..., color, forma, textura, etc. – Nunca dan match exacto. 16
  17. 17. Google Texto alrededor, ALT, nombre archivo 17
  18. 18. All The Web 18
  19. 19. Audio FingerPrint Extraer razgos únicos Buscar inteligentemente Desafíos: – Samples breves (3seg.) – Samples con ruido – Fingerprint pequeños Usos – Como un servicio para usuarios comunes – Commercial verification 19
  20. 20. FingerPrint Hashing criptográfico:cambia demasiado Perceptual hash o hashing robusto Similaridad con humanos 20
  21. 21. Similaridad imágenes Extracción de razgos – Bitmaped – Vectoriales Resistencia a transformaciones – Escala, Rotación, Skew Solución general – Búsqueda espacios k-dimensionales – Lenta 21
  22. 22. Similaridad imágenes 22
  23. 23. Similaridad imágenes Consulta: proceso inverso – Generar vector de descriptores y comparar 23

×