Screen-scraping se ScraperWiki Big Clean Praha, 19.3. 2011 Jindřich Mynarz NTK, SNM FF UK
Co je to &quot;scraper&quot;? <ul><li>Scraper  je   &quot;počítačový program převádějící  webové stránky  na  data .&quot;...
Kroky screen-scraperu <ul><ul><li>Stažení  zdroje informací (např. HTML) </li></ul></ul><ul><ul><li>Parsování </li></ul></...
Extrakce informací a parsování <ul><ul><li>HTML </li></ul></ul><ul><ul><ul><li>HTMLTidy </li></ul></ul></ul><ul><ul><ul><l...
Zodpovědné scrapování <ul><ul><li>Návštěva webové stránky scraperem by měla být  nerozeznatelná  od návštěvy člověkem. </l...
Omezte počet HTTP požadavků
Omezte počet HTTP požadavků <ul><ul><li>Omezte  množství  stahovaných dat jen na ta, která potřebujete. </li></ul></ul><ul...
http://www.flickr.com/photos/dreamsjung/5244004907/
Podmínky scrapování <ul><ul><li>Ověřte si, zdali jste  oprávněni  obsah webu používat. </li></ul></ul><ul><ul><li>Respektu...
Nástroje <ul><ul><li>Needlebase </li></ul></ul><ul><ul><ul><li>http://needlebase.com/ </li></ul></ul></ul><ul><ul><li>Yaho...
ScraperWiki <ul><ul><li>Wiki  pro screen-scrapery umožňující jejich kolaborativní vytváření </li></ul></ul><ul><ul><li>Hos...
Zapojte se <ul><ul><li>&quot;Trh&quot; scraperů </li></ul></ul><ul><ul><ul><li>Poptávka  po scraperech - vypsané  odměny  ...
Další informace <ul><li>O ScraperWiki </li></ul><ul><ul><li>http://scraperwiki.com/about/ </li></ul></ul><ul><li>Návody </...
Upcoming SlideShare
Loading in …5
×

Screen scraping se ScraperWiki (Jindřich Mynarz)

1,318 views

Published on

Prezentace Screen scraping se ScraperWiki z workshopu Big Clean,

Chcete vědět víc? Mnoho dalších prezentací, videí z konferencí, fotografií i jiných dokumentů je k dispozici v institucionálním repozitáři NTK: http://repozitar.techlib.cz

Would you like to know more? Find presentations, reports, conference videos, photos and much more in our institutional repository at: http://repozitar.techlib.cz/?ln=en

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,318
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Screen scraping se ScraperWiki (Jindřich Mynarz)

  1. 1. Screen-scraping se ScraperWiki Big Clean Praha, 19.3. 2011 Jindřich Mynarz NTK, SNM FF UK
  2. 2. Co je to &quot;scraper&quot;? <ul><li>Scraper je &quot;počítačový program převádějící webové stránky na data .&quot; </li></ul><ul><li>(http://scraperwiki.com/) </li></ul>
  3. 3. Kroky screen-scraperu <ul><ul><li>Stažení zdroje informací (např. HTML) </li></ul></ul><ul><ul><li>Parsování </li></ul></ul><ul><ul><li>Extrakce informací </li></ul></ul>
  4. 4. Extrakce informací a parsování <ul><ul><li>HTML </li></ul></ul><ul><ul><ul><li>HTMLTidy </li></ul></ul></ul><ul><ul><ul><li>Document Object Model (DOM) </li></ul></ul></ul><ul><ul><li>text </li></ul></ul><ul><ul><ul><li>regulární výrazy </li></ul></ul></ul>
  5. 5. Zodpovědné scrapování <ul><ul><li>Návštěva webové stránky scraperem by měla být nerozeznatelná od návštěvy člověkem. </li></ul></ul><ul><ul><li>Návštěva webových stránek je jako návštěva u někoho doma . </li></ul></ul><ul><ul><li>Buďte zdvořilí . </li></ul></ul>
  6. 6. Omezte počet HTTP požadavků
  7. 7. Omezte počet HTTP požadavků <ul><ul><li>Omezte množství stahovaných dat jen na ta, která potřebujete. </li></ul></ul><ul><ul><li>Časově rozložte HTTP požadavky  </li></ul></ul><ul><ul><li>Používejte  cache . </li></ul></ul>
  8. 8. http://www.flickr.com/photos/dreamsjung/5244004907/
  9. 9. Podmínky scrapování <ul><ul><li>Ověřte si, zdali jste oprávněni obsah webu používat. </li></ul></ul><ul><ul><li>Respektujte licence obsahu webových stránek. </li></ul></ul><ul><ul><li>Respektujte robots.txt . </li></ul></ul>
  10. 10. Nástroje <ul><ul><li>Needlebase </li></ul></ul><ul><ul><ul><li>http://needlebase.com/ </li></ul></ul></ul><ul><ul><li>Yahoo! Query Language </li></ul></ul><ul><ul><ul><li>SELECT * FROM html WHERE url=&quot;http://example.com&quot; </li></ul></ul></ul><ul><ul><ul><li>http://developer.yahoo.com/yql/ </li></ul></ul></ul><ul><ul><li>Google Spreadsheets </li></ul></ul><ul><ul><ul><li>importHtml() </li></ul></ul></ul><ul><ul><ul><li>http://docs.google.com/ </li></ul></ul></ul><ul><ul><li>ScraperWiki </li></ul></ul><ul><ul><ul><li>http://scraperwiki.com/ </li></ul></ul></ul>
  11. 11. ScraperWiki <ul><ul><li>Wiki pro screen-scrapery umožňující jejich kolaborativní vytváření </li></ul></ul><ul><ul><li>Hosting pro scrapery </li></ul></ul><ul><ul><li>Náhledy na získaná data: formátování a základní analýza dat </li></ul></ul><ul><ul><li>Hostovaná databáze (SQLite) </li></ul></ul><ul><ul><li>Nástroje pro práci s různými formáty : HTML, CSV, XLS, PDF </li></ul></ul><ul><ul><li>Podporované programovací jazyky : Python, Ruby, PHP </li></ul></ul><ul><ul><li>Data sklizená scrapery jsou ke stažení jako CSV, XML, JSON, atp. </li></ul></ul>
  12. 12. Zapojte se <ul><ul><li>&quot;Trh&quot; scraperů </li></ul></ul><ul><ul><ul><li>Poptávka po scraperech - vypsané odměny za data </li></ul></ul></ul><ul><ul><ul><li>Výzvy k opravám a lepšímu popisu scraperů a náhledů vytvořených na sklizenými daty   (tagy, popisky) </li></ul></ul></ul>
  13. 13. Další informace <ul><li>O ScraperWiki </li></ul><ul><ul><li>http://scraperwiki.com/about/ </li></ul></ul><ul><li>Návody </li></ul><ul><ul><li>http://scraperwiki.com/help/tutorials/ </li></ul></ul><ul><li>Dokumentace </li></ul><ul><ul><li>http://scraperwiki.com/help/documentation/ </li></ul></ul>

×