Web crawler

2,297 views

Published on

Presentación para C4XPO 2010.
http://c4xpo.com/
10:am
Jueves 27 de Mayo del 2010.
Queretaro, Queretaro.
México

TEMA:
Web crawler.Cuándo, cómo y por qué.

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,297
On SlideShare
0
From Embeds
0
Number of Embeds
66
Actions
Shares
0
Downloads
22
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Web crawler

  1. 1.     Web crawler.    Cuándo, cómo y por qué
  2. 2.   http://www.javamexico.org http://www.javahispano.org http://www.riahispano.org  
  3. 3. Web crawler.Cuándo, cómo y por qué <ul><li>- Qué </li></ul><ul><li>Definición: </li></ul><ul><li>A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion.  </li></ul><ul><li>http://en.wikipedia.org/wiki/Web_crawler </li></ul>
  4. 4. Web crawler.Cuándo, cómo y por qué <ul><li>Diagrama: </li></ul><ul><li>http://en.wikipedia.org/wiki/File:WebCrawlerArchitecture.svg </li></ul>
  5. 5. Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>RSS </li></ul></ul>
  6. 6. Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>  PIPES (yahoo) </li></ul></ul>
  7. 7. Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>  API </li></ul></ul><ul><ul><ul><li>http://www.programmableweb.com/ </li></ul></ul></ul>
  8. 8. Web crawler.Cuándo, cómo y por qué <ul><ul><ul><li>http://www.programmableweb.com/ </li></ul></ul></ul>
  9. 9. Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><li>¿Y si no hay? </li></ul>
  10. 10. Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo </li></ul><ul><ul><li>Lenguaje de programación que permita: </li></ul></ul><ul><ul><ul><li>  Hacer un request a una página </li></ul></ul></ul><ul><ul><ul><li>  Manejar cadenas de texto </li></ul></ul></ul><ul><ul><ul><li>!!!Y ya¡¡¡ </li></ul></ul></ul>
  11. 11. Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul>
  12. 12. Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul><ul><li>EJEMPLOS </li></ul>
  13. 13. Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul><ul><ul><ul><li>No decíamos que: ¿Y ya?   </li></ul></ul></ul><ul><ul><ul><ul><li>mmm, ok, sí... pero sólo para empezar. </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Aparecerán obstáculos: </li></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Falta de seguimiento estandares </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>CSS vs <table> </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Restricciones de acceso. </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Cambios en la estructura </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>TAB vs BS </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Desaparición de páginas </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Censura ( aka ¡¡¡complot!!! ) </li></ul></ul></ul></ul></ul>
  14. 14. Web crawler.Cuándo, cómo y por qué <ul><li>-Por qué </li></ul><ul><ul><li>Utilizar </li></ul></ul><ul><ul><li>Difundir </li></ul></ul><ul><ul><li>Promover </li></ul></ul><ul><ul><li>Facilitar </li></ul></ul><ul><li>  </li></ul><ul><li>  Lo que ya existe </li></ul>
  15. 15. Web crawler.Cuándo, cómo y por qué <ul><li>- Por qué </li></ul><ul><li>OPEN DATA </li></ul><ul><li>Apertura de datos públicos </li></ul><ul><li>Sun Light Foundation </li></ul><ul><li>http://sunlightfoundation.com/ </li></ul><ul><li>Open Data </li></ul><ul><li>http://www.opendatacommons.org/ </li></ul><ul><li>Open Data Euskadi. </li></ul><ul><li>http://opendata.euskadi.net/w79-home/es </li></ul>
  16. 16. Web crawler.Cuándo, cómo y por qué <ul><li>- Por qué </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>¡¡¡ Hay que hacer cosas YA !!! </li></ul>
  17. 17. Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos? </li></ul><ul><ul><li>Extender funcionalidad. </li></ul></ul><ul><ul><li>Corregir funcionalidad. </li></ul></ul><ul><ul><li>Transformar la información. </li></ul></ul>
  18. 18. Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos concretos? </li></ul><ul><ul><li>Páginas de sus amigos. </li></ul></ul><ul><ul><li>Horarios del cine. </li></ul></ul><ul><ul><li>Horarios de camiones. </li></ul></ul><ul><ul><li>Información de su escuela. </li></ul></ul><ul><ul><li>Información de su Gobierno. </li></ul></ul><ul><ul><li>Información del &quot; Mundo Mundial &quot; </li></ul></ul><ul><li>Máxima :  </li></ul><ul><li>Poner la información al alcance de todos </li></ul><ul><li>de la manera más accesible posible. </li></ul><ul><li>(procurando no cometer delitos) </li></ul>
  19. 19. Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos concretos? </li></ul><ul><li>EJERCICIO </li></ul>
  20. 20. Web crawler.Cuándo, cómo y por qué <ul><li>¿Preguntas? </li></ul>
  21. 21. Web crawler.Cuándo, cómo y por qué <ul><li>http://www.springio.net/ </li></ul>
  22. 22. Web crawler.Cuándo, cómo y por qué <ul><li>Referencias: </li></ul><ul><li>  </li></ul><ul><li>Build a Web spider on Linux </li></ul><ul><li>http://www.ibm.com/developerworks/linux/library/l-spider/ </li></ul><ul><li>Hack Politics </li></ul><ul><li>http://vimeo.com/8446771 </li></ul><ul><li>  </li></ul><ul><li>Introduction to Information retrieval. </li></ul><ul><li>http://nlp.stanford.edu/IR-book/information-retrieval-book.html </li></ul>
  23. 23. Web crawler.Cuándo, cómo y por qué <ul><li>RuGI </li></ul><ul><li>Isaac Ruiz Guerra </li></ul><ul><li>[email_address] </li></ul><ul><li>@rugi </li></ul><ul><li>http:// weblogs.javahispano.org/rugi </li></ul>

×