Web Crawling

1,112 views

Published on

¿Web Crawling?
Buscando opciones para rastrear info en la web
(Mi propio google search)

Published in: Technology, News & Politics
  • Be the first to comment

Web Crawling

  1. 1. I MiniBarCamp Caracas 2009 ¿Web Crawling? Buscando opciones para rastrear info en la web (Mi propio google search) Iria Puyosa Iria Puyosa
  2. 2. Problema Herramientas de búsqueda web producen: - Resultados incompletos - Datos des-estructurados
  3. 3. Problema Investigación requiere: - Corpus exhaustivo (todos los documentos que se han producido) - Estructuración de los resultados en una base de datos que responda a queries específicas
  4. 4. ¿Solución? ¿Focused crawling? - URL semilla - Relevantes keywords (Vectores de términos) - Definición de la frontera - Clasificación basada en relevancia - Extracción de nuevas URLs - Recuperación y almacenaje de datos - Indización
  5. 5. ¿Soluciones? ¿Sugerencias? ¿Propuestas?
  6. 6. Estructuración de base de datos indizados - Definición de atributos - Datasets Entrenamiento / Validación - Clasificación - Generación de algoritmo para clustering - Modelos

×