Analýza webu pomocí Xenu

13,889 views

Published on

Analýza webu pomocí Xenu

  1. 1. +420 272 763 111 info@h1.cz www.h1.cz<br />Xenu<br />Vytěžte z Xenu maximum pro analýzu webu<br />
  2. 2. Kontrola webu pomocí Xenu<br />Základní informace o Xenu<br />Primárně využívané pro hledání chybných odkazů<br />Xenu kontroluje i další typy linků:<br />obrázky<br />styly, externí soubory<br />vnořené rámce<br />a další<br />http://home.snafu.de/tilman/xenulink.html<br />Nejnovější beta verze - http://home.snafu.de/tilman/tmp/xenubeta.zip<br />
  3. 3. Co byste měli o Xenu vědět<br />Nerespektuje direktivy uvedené v robots.txt.<br />Neoznačí stránky se zakázanou indexací (pomocí robots.txt ani meta tagemrobots s hodnotou noindex.<br />Xenu nerozlišuje parametr nofollow.<br />Projde přes přesměrování pomocí meta refresh.<br />Kontrola webu pomocí Xenu<br />
  4. 4. Prvotní nastavení kontroly webu<br />Kontrola se spustí pomocí tlačítka Check URL v hlavní nabídce Xenu.<br />Běh Xenu je možné omezit pomocí zakázání adres.<br />Do pole „Do not checkanyURLsbeginningwiththis:“ se přidají potřebné adresy.<br />Adresa se musí přidat včetně domény webu, tedy například www.example.com/skript.<br />Xenu pak bude ignorovat všechny adresy začínající „skript“, tedy např. www.example.com/skripty/, nebo www.example.com/skript.php.<br />Kontrola webu pomocí Xenu<br />
  5. 5. Prvotní nastavení kontroly webu<br />Je také možné povolit adresy, které by jinak nebyly zahrnuty:<br />Typicky pokud je úvodní stránka na jiné adrese, než www.example.com (například www.example.com/uvod) nebo pokud je web přes více subdomén.<br />Do adresy pro kontrolu je potom nutné zadat URL homepage a povolit procházení celého webu.<br />Do pole „ConsiderURLsbeginningwiththis as internal:“ se zadá doména webu ve tvaru www.example.com.<br />Kontrola webu pomocí Xenu<br />
  6. 6. Prvotní nastavení kontroly webu<br />Kontrola webu pomocí Xenu<br />
  7. 7. Prvotní nastavení kontroly webu<br />Z obrázku je patrné následující:<br />Kontrola bude spuštěna nad webem http://www.slevomat.cz/.<br />Úvodní stránka je na URL http://www.slevomat.cz/cs/.<br />Xenu nemá kontrolovat stránky blogu, který je na adrese http://www.slevomat.cz/blog/.<br />Nechceme kontrolovat externí odkazy (tlačítko „Checkexternallinks“).<br />Kontrola webu pomocí Xenu<br />
  8. 8. Podrobné nastavení Xenu<br />Před spuštěním je dobré zvolit „More options“ a přizpůsobit další nastavení:<br />Kontrola webu pomocí Xenu<br />
  9. 9. Podrobné nastavení Xenu<br />Parallelthreads udává počet souběžně stahovaných vláken. Doporučuji max. 5, aby nedošlo k zahlcení serveru.<br />Apply to alljobs znamená, že si Xenu bude nastavení pamatovat i pro příští kontroly.<br />Ask for password or certificate when needed – Xenu se zeptá na hesla. Je potřeba dát pozor, aby se potom robot nedostal například do administrace webu.<br />Treatredirections as errors přidá do reportu přesměrované odkazy (hlavičky 301 a 302).<br />Kontrola webu pomocí Xenu<br />
  10. 10. Podrobné nastavení Xenu<br />Ostatní nastavení slouží pro report, který nemusí být potřeba dělat vždy:<br />FTP andgopherURLszreportuje odkazy na FTP soubory.<br />Valid text URLs zobrazí seznam všech odkazů na webu.<br />Site Map – Generovaná mapa webu není příliš použitelná a její vytvoření trvá u rozsáhlých webů velmi dlouho.<br />OrphanFiles by mělo zobrazit osiřelé (nepoužívané) soubory, tento report ale nedává příliš smysl.<br />Kontrola webu pomocí Xenu<br />
  11. 11. Kontrola webu<br />První kontrola webu odhalí přesměrované, nenalezené a další chybové odkazy.<br />V druhém kroku se v options / preferences vypne volba Treatredirections as errors a opět se spustí kontrola webu (Ctrl+R).<br />Xenu tak bude následovat přesměrované odkazy a lze zjistit, zda přesměrování vede na existující soubory.<br />V posledním kroku se zaškrtne volba CheckexternalURLs v Options a opět se spustí běh Xenu (Ctrl+R).<br />Report chybových externích odkazů.<br />Kontrola webu pomocí Xenu<br />
  12. 12. Zpracování reportů<br />V každém kroku je nutné uložit report zvlášť (vzniknou tak 3 různé soubory – např. xenu1.xen, xenu2.xen a xenu3.xen)<br />Výsledné soubory se v Xenu exportují jako soubory oddělené tabulátorem (File / Export to TAB separetedfile, nebo CTRL + T) a ty se importují do Excelu.<br />Ne vždy je nutné dělat všechny 3 kontroly a reporty.<br />Kontrola webu pomocí Xenu<br />
  13. 13. Import dat do Excelu<br />V novém sešitu vybereme kartu Data / Z textu > vybereme exportovaný soubor.<br />V roletě Typ souboru se zvolí stejné kódování, jako má web (je vidět v Xenu, sloupec Charset).<br />Dokončíme import.<br />Označíme první řádek a přidáme mu Filtr (karta Data / Filtr).<br />Kontrola webu pomocí Xenu<br />
  14. 14. Reporty<br />Z výstupů lze vytvořit několik reportů:<br />Indexovatelné stránky: z prvního souboru se vyfiltrují stránky se Status-Code „200“ a zároveň Type „text/html“.<br />Odkazy na neexistující URL. Z druhého (případně třetího) souboru se vyfiltrují stránky se Status-Code „404“, případně i dalšími chybovými kódy.<br />Přesměrovaná URL: Větší počet přesměrovaných URL také není ideální. Z prvního souboru se vyfiltrují stránky se Status-Code „301“, případně “302”.<br />Pokud se na webu objevují další typy chyb (např. chyba serveru 500), mohou se udělat i jejich reporty.<br />Kontrola webu pomocí Xenu<br />
  15. 15. Analýza reportů<br />Analýza webu se obvykle dělá nad reportem indexovatelné stránky.<br />Obsahuje stránky, které jsou na webu potencionálně dostupné pro uživatele a vyhledávače.<br />Tj. stránky, na které vede odkaz z interní navigace.<br />Ostatní reporty slouží ke kontrole chybných odkazů.<br />Kontrola webu pomocí Xenu<br />
  16. 16. Analýza webu<br />Potencionální duplicitní a podobný obsah<br />Obsah souboru se seřadí zároveň podle titulku a velikosti.<br />Je možné si zvýraznit duplicitní záznamy označením sloupců a vybráním Podmíněné formátování > Zvýraznit pravidla buněk > Duplicitní hodnoty na kartě „Domů“.<br />Porovnáním řádků lze zjistit možné duplicity – stránky se stejným titulkem a shodnou (podobnou ) velikostí.<br />Obdobně lze zjistit obsahově velmi podobné stránky.<br />Získaná data je nutné ručně ověřit.<br />U zjištěných stránek je nutné prověřit, zda nejsou zakázané pro indexaci (robots.txt, meta tagrobots).<br />Kontrola webu pomocí Xenu<br />
  17. 17. Analýza webu<br />URL adresy<br />Struktura – klíčová slova, tvar, parametry<br />Délka (cca do 70 znaků)<br />Počet odchozích odkazů<br />Seřazení obsahu souboru sestupně dle LinksOut<br />Maximálně doporučených je cca 100, lepší je méně<br />Kontrola webu pomocí Xenu<br />
  18. 18. Analýza webu<br />Velikost kódu<br />Seřazení obsahu dle Size<br />Zjištění nadměrně velkých souborů<br />Struktura webu<br />Seřazení souboru sestupně dle Links In (počet interních odkazů na danou stránku)<br />Na obecné stránky ve vyšších patrech by mělo vést více odkazů než na stránky v nižších úrovních hierarchie.<br />Kontrola webu pomocí Xenu<br />
  19. 19. +420 272 763 111 info@h1.cz www.h1.cz<br />Petr Fidler<br />http://twitter.com/maxell92<br />http://blog.h1.cz/<br />

×