Pár málo známých nástrojů pro webmining

1,826 views

Published on

"Post-slajdy" k mé přednášce na BigCleanCZ na jaře roku 2011

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,826
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Pár málo známých nástrojů pro webmining

    1. 1. Pár málo známýchnástrojů pro webminingBigCleanCZ, Praha, 19. 3. 2011
    2. 2. Google SearchGoogle search oparátorysite: (hledá jen v určené doméně)ext: (hledá soubory s určenou příponou)
    3. 3. XPathhttp://www.w3schools.com/xpath/
    4. 4. 1. Google SpreadsheetImport XMLImport CSV nebo TSV via HTTPImport HTMLImport RSS
    5. 5. Import XMLimportXML("URL";"query",number)importXml("http://www.google.com", "//a") importXml("http://www.msmt.cz/dokumenty"; "//p[@class=hash]/a/@href")
    6. 6. Import CSVimportData("URL")
    7. 7. Import HTMLImportHtml(URL; "list" | "table"; index)ImportHtml("http://cs.wikipedia.org/wiki/Ma%C4%8Farsko"; "table";1) ImportHtml("http://portal.chmi.cz/files/portal/docs/uoco/web_generator/actual_hour_data_CZ.html";"table";1)
    8. 8. Import RSS feedImportFeed(URL). ImportFeed("http://news.google.com/?output=atom")
    9. 9. 2. YQLhttp://developer.yahoo.com/yql/console/ http://developer.yahoo.com/yql/console/?env=http://datatables.org/alltables.env
    10. 10. SQL pro WWWselect * from html where url="http://www.novinky.cz"select * from html where url="http://www.novinky.cz" and xpath=//h3
    11. 11. HTML obsahselect content from html where url="http://www.novinky.cz" and xpath=//h3/aúplná podpora XPath
    12. 12. Joiny a lá SQL select * from search.web where query in (selectcontent from html where url="http://www.novinky.cz" and xpath=//h3/a)
    13. 13. Podpora dalších služeb select * from search.web where query in (selectcontent from html where url="http://www.novinky.cz" and xpath=//h3/a) select * from geo.placefinder where query in(select content from html where url="http://www.novinky.cz" and xpath=//h3/a)
    14. 14. ... a formátů select * from json where url="http://search.twitter.com/search.json?q=bigclean" ANDitemPath = "json.results.from_user" select * from json where url="https://graph.facebook.com/search?q=ODS&type=post"
    15. 15. I mikroformátů select * from microformats where url=http://twitter.com/josefslerka
    16. 16. 3. Yahoo Pipeshttp://pipes.yahoo.com/pipes/vizuální prostředí pro vytváření mashupů
    17. 17. 4. Google Fusiona Tableshttp://www.google.com/fusiontables webová služba pro zpracování a vizualizacivelkých datových souborů (CSV až 100MB)obsahuje geoparseringje zcela zadarmomá SQL-like API
    18. 18. Praktické ukázky...... jdeme na to!
    19. 19. Otázky? Odpovědi?Děkuji za pozornost.josef.slerka@gmail.comtwitter.com/josefslerka

    ×