Extensiones a un Buscador Web

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Extensiones a un Buscador Web - Presentation Transcript

    1. Extensiones a Buscadores Referencias: Cap. 11 Modern Information Retrieval swish-e.org alexa.com copernic.com clr.research.compaq.com/vision/multimedia/similarity/d research.phillips.com/generalinfo/special/audiofp.asp Curso: Recuperación de Información – 2002/1 -- ChaTo 1
    2. Agenda Otros Buscadores – Para un sitio – Verticales – Metabuscadores Búsqueda multimedia 2
    3. Buscadores para un sitio Buscadores de colección pequeña – Glimpse – HT:Dig – SwishE – Excite Search – MyWeb Actualización automática Indexación inteligente – Datos estructurados y textos, XML 3
    4. Simple Web Indexing System for Humans – Enhanced Archivo swish-e.conf IndexDir ~/public_www/docs/ IndexFile ~/docs.idx IndexOnly .txt .html Crear indice (crontab) 0 0 * * * swish-e -c ~/swishe-e.conf 4
    5. Swish­E Buscar swish-e -w “casa” -f ~/docs.idx swish-e -w “casa” -p “keywords” -f .. Resultado: # Search words: casa # Number of hits: 3 1000 ~/public_www/docs/home.html 251 731 ~/public_www/docs/svc.html 193 124 ~/public_www/docs/abt.html 913 5
    6. Swish­E Otras opciones MetaNames author (afecta resultados) PropertyNames keywords MinWordLimit 4 (abc no indexado) WordCharacters a-zA-Z0-9 IgnoreLimits 30 100 (30% min 100 doc) IgnoreWords a ante bajo cabe ... 6
    7. Buscadores Verticales ccTLD País + Sitios conocidos del país Mayor cobertura, > 95% – De la web pública indexable Contexto controlado – Posibilidad de lidiar con particularidades idiomáticas – Posibilidad de realizar búsqueda local (ej.: teléfonos, códigos, comunas, ciudades) Restricción a un contexto regional – Mejor precisión en las búsquedas 7
    8. Búsqueda de noticias Periodismo, valoración de una noticia – Actualidad: debe ser nueva – Cercanía o localidad. – Prominencia de los actores/fechas/lugares Valores cualitativos del contenido – Suspenso o incógnita – Conflicto – Curiosidad – Emoción 8
    9. Búsqueda de noticias (2) Actualidad – Crawl frecuente – Detectar fecha de primer cuasi-duplicado Cercanía o localidad – Colecciones de sitios controladas – Colecciones de secciones controladas – e.j.: diarios españoles, diarios de informática, etc. Prominencia – Número de cuasi-duplicados – Elegir cuál cuasi-duplicado mostrar 9
    10. Ejemplo: newsmap 10
    11. Metabuscadores Conección directa del cliente – Alexa – Copérnico Conección indirecta – Dogpile/Metasearch – Timeout por cada buscador Problema: – Mezclar los rankings 11
    12. Copernic agent basic 12
    13. Combinar rankings Ej.: gimnasia – 5 jueces – Se elimina el peor y el mejor – Se toma el promedio de los otros tres {máxima, mínima} relevancia Modelo lineal: promedio ponderado por fiabilidad – En la práctica no es mejor que promedio simple Modelo no lineal: red neuronal 13
    14. Búsqueda Multimedia Distinto de “búsqueda de multimedios” – Utilizar técnicas usuales de IR para encontrar archivos en ciertos formatos Características Especiales – Objetos complejos – Búsqueda casi siempre por similaridad => ranking Espacios métricos. – Maldición de la dimensionalidad. 14
    15. Almacenamiento Modelo de datos – Datos conocidos sobre el elemento multimedia Automatización – Detección automática de razgos – Razgos + Certeza 15
    16. Lenguajes 3 tipos de predicado Atributos – filesize>2Kb Estructura – 3e compás 2o movimiento Semántica – mi la sol do ..., color, forma, textura, etc. – Nunca dan match exacto. 16
    17. Google Texto alrededor, ALT, nombre archivo 17
    18. All The Web 18
    19. Audio FingerPrint Extraer razgos únicos Buscar inteligentemente Desafíos: – Samples breves (3seg.) – Samples con ruido – Fingerprint pequeños Usos – Como un servicio para usuarios comunes – Commercial verification 19
    20. FingerPrint Hashing criptográfico:cambia demasiado Perceptual hash o hashing robusto Similaridad con humanos 20
    21. Similaridad imágenes Extracción de razgos – Bitmaped – Vectoriales Resistencia a transformaciones – Escala, Rotación, Skew Solución general – Búsqueda espacios k-dimensionales – Lenta 21
    22. Similaridad imágenes 22
    23. Similaridad imágenes Consulta: proceso inverso – Generar vector de descriptores y comparar 23

    + Carlos CastilloCarlos Castillo, 3 years ago

    custom

    669 views, 0 favs, 0 embeds more stats

    More info about this document

    CC Attribution License

    Go to text version

    • Total Views 669
      • 669 on SlideShare
      • 0 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 9
    Most viewed embeds

    more

    All embeds

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories

    Tags