Your SlideShare is downloading. ×

Web Crawling

864
views

Published on

¿Web Crawling? …

¿Web Crawling?
Buscando opciones para rastrear info en la web
(Mi propio google search)

Published in: Technology, News & Politics

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
864
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
11
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. I MiniBarCamp Caracas 2009 ¿Web Crawling? Buscando opciones para rastrear info en la web (Mi propio google search) Iria Puyosa Iria Puyosa
  • 2. Problema Herramientas de búsqueda web producen: - Resultados incompletos - Datos des-estructurados
  • 3. Problema Investigación requiere: - Corpus exhaustivo (todos los documentos que se han producido) - Estructuración de los resultados en una base de datos que responda a queries específicas
  • 4. ¿Solución? ¿Focused crawling? - URL semilla - Relevantes keywords (Vectores de términos) - Definición de la frontera - Clasificación basada en relevancia - Extracción de nuevas URLs - Recuperación y almacenaje de datos - Indización
  • 5. ¿Soluciones? ¿Sugerencias? ¿Propuestas?
  • 6. Estructuración de base de datos indizados - Definición de atributos - Datasets Entrenamiento / Validación - Clasificación - Generación de algoritmo para clustering - Modelos