Pár málo známých
nástrojů pro webmining
BigCleanCZ, Praha, 19. 3. 2011
Google Search

Google search oparátory
site: (hledá jen v určené doméně)
ext: (hledá soubory s určenou příponou)
XPath


http://www.w3schools.com/xpath/
1. Google Spreadsheet

Import XML
Import CSV nebo TSV via HTTP
Import HTML
Import RSS
Import XML

importXML("URL";"query",number)
importXml("http://www.google.com", "//a")
 importXml("http://www.msmt.cz/dokumenty"; "//
p[@class='hash']/a/@href")
Import CSV


importData("URL")
Import HTML
ImportHtml(URL; "list" | "table"; index)
ImportHtml("http://cs.wikipedia.org/wiki/Ma
%C4%8Farsko"; "table";1)
 ImportHtml("http://portal.chmi.cz/files/portal/docs/
uoco/web_generator/actual_hour_data_CZ.html";
"table";1)
Import RSS feed


ImportFeed(URL).
 ImportFeed("http://news.google.com/?
output=atom")
2. YQL


http://developer.yahoo.com/yql/console/
 http://developer.yahoo.com/yql/console/?
env=http://datatables.org/alltables.env
SQL pro WWW

select * from html where url="http://
www.novinky.cz"
select * from html where url="http://
www.novinky.cz" and xpath='//h3'
HTML obsah


select content from html where url="http://
www.novinky.cz" and xpath='//h3/a'
úplná podpora XPath
Joiny a lá SQL


 select * from search.web where query in (select
content from html where url="http://
www.novinky.cz" and xpath='//h3/a')
Podpora dalších služeb

 select * from search.web where query in (select
content from html where url="http://
www.novinky.cz" and xpath='//h3/a')
 select * from geo.placefinder where query in
(select content from html where url="http://
www.novinky.cz" and xpath='//h3/a')
... a formátů

 select * from json where url="http://
search.twitter.com/search.json?q=bigclean" AND
itemPath = "json.results.from_user"
 select * from json where url="https://
graph.facebook.com/search?q=ODS&type=post"
I mikroformátů


 select * from microformats where url='http://
twitter.com/josefslerka'
3. Yahoo Pipes


http://pipes.yahoo.com/pipes/
vizuální prostředí pro vytváření mashupů
4. Google Fusiona Tables
http://www.google.com/fusiontables
 webová služba pro zpracování a vizualizaci
velkých datových souborů (CSV až 100MB)
obsahuje geoparsering
je zcela zadarmo
má SQL-like API
Praktické ukázky...


... jdeme na to!
Otázky? Odpovědi?

Děkuji za pozornost.
josef.slerka@gmail.com
twitter.com/josefslerka

Pár málo známých nástrojů pro webmining