Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol

151 views

Published on

Slide della presentazione di Robin Armit per la SEMrush WebStudy Marathon sul SEO Tecnico di Giovedì 15 Settembre 2016.

Published in: Marketing
  • Be the first to comment

  • Be the first to like this

SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol

  1. 1. 15/09/2016 Robots Exclusion Protocol
  2. 2. Di cosa parleremo Definizioni Robots.txt Meta robots X-robots Errori Altro Domande
  3. 3. Crawling Accedere alle URL per scaricarne il contenuto senza processarlo Definizioni
  4. 4. Indicizzazione Processare il contenuto recuperato dal crawler e salvarlo in un archivio creando un indice Definizioni
  5. 5. Perché dobbiamo creare un robots.txt file? Lo spider è molto goloso…ma non tutte le pagine sono utili ed informative Definizioni
  6. 6. Perché dobbiamo creare un robots.txt file? Lo spider dedica risorse limitate per ogni sito (crawl budget), meglio concentrare gli sforzi verso pagine utili Definizioni
  7. 7. Accedendo ad un sito lo spider si fa delle domande ? 1. Quali risorse posso leggere? 2. Cosa posso farci? 3. Quali link posso seguire? 4. Cosa posso mostrare nelle SERP? Definizioni
  8. 8. Cos’è il robots.txt file Definizione Il file robots.txt contiene delle regole utilizzate dai crawler per applicare restrizioni di analisi e indicizzazione sulle pagine di un sito internet. Robots.txt
  9. 9. Come impostare il robots.txt file  Il robots.txt file risiede sempre nel root folder del tuo sito: http://domain.com/robots.txt  Crea un text file semplice usando il Blocco note o Textedit Apple OS  Appena salvato lo puoi caricare al ‘root folder’ del tuo sito tramite il cPanel o FTP client Robots.txt
  10. 10. Comandi robots.txt file User-agent: * Disallow: /random/ Allow: / Robots.txt
  11. 11. Bloccare robots specifici robots.txt file user-agent: * Disallow: / user-agent: googlebot-news Disallow: / user-agent: googlebot Disallow: / user-agent: bingbot Disallow: / User-agent: ia_archiver Disallow: / Robots.txt
  12. 12. Wildcard matching robots.txt file 1.* carattere jolly indica 0 o più istanze di un valore valido 2.$ indica la fine dell'URL Esempio: User-agent: * Disallow: /*? Disallow: /*.php$ Robots.txt
  13. 13. Robots.txt
  14. 14. Sitemap: [URL Sitemap XML] Sitemap: http://example.com/sitemap.xml Robots.txt
  15. 15. Ordine di precedenza Robots.txt
  16. 16. Robots.txt tester • Se vuoi controllare che la sintassi che hai scritto nel robots.txt sia fatto correttamente ci sono diversi tester a disposizione ma la migliore e da usare e sempre quello di Google Robots.txt
  17. 17. Robots.txt tester Risorsa Link esterni User-agent: * Disallow: /risorsa/ Link interni Ricordati che se blocchi una pagina in robots.txt non può passare autorità al resto del sito. Robots.txt
  18. 18. Altre cose da considerare • Bloccare il crawling di una URL non significa che non sarà indicizzata • Comportamento 4xx (errori client) e 5xx (errore del server) • Sempre sul root domain ma anche sul dominio di terzo livello: - http://root.com/robots.txt (primo livello) - http://subdomain.root.com/robots.txt (terzo livello) • Bloccare parametri tramite parametri URL del Google Search Console • Spazi nella URL non saranno rispettati /category/ /product page • User-agent: msnbot Crawl-delay: 5 Robots.txt
  19. 19. Il REP prevede anche istruzioni che danno una maggiore granularità alle direttive Possono essere espresse nel doc HTML <meta name="robots content="noindex"> Oppure con un header HTTP X-Robots-Tag: noindex Meta robots X-robots
  20. 20. Meta robots • Meta robots inseriti in pagina nel <head> del documento HTML • Danno istruzioni ai robots per come comportarsi quando arrivano alla pagina dove il codice meta robots e presente • Funzionano bene per il noindex Meta robots
  21. 21. Tabella Valori Meta Robots Valori Azione noindex rimuove/non inserisce nell’indice nofollow non segue i link index Si richiede di indicizzare la pagina follow seguire tutti i link noodp non mostra la descrizione di DMOZ noydir non mostra la descrizione di ydir (non esiste più la Yahoo directory) Meta robots
  22. 22. Tabella Altri Valori Meta Robots Valori Azione noarchive non mostrare un link "Copia cache" nei risultati di ricerca (meglio usare l'intestazione HTTP) nosnippet non mostrare uno snippet (meta description) nei risultati di ricerca per questa pagina notranslate non proporre la traduzione della pagina nei risultati di ricerca noimageindex non proporre la traduzione della pagina nei risultati di ricerca unavailable_after: [RFC-850 date/time] rimuove dall’indice dopo [data] Meta robots
  23. 23. Meta robots espressioni <META NAME="ROBOTS" CONTENT="NOINDEX"> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> <meta name="googlebot-news" content="noindex"> <meta name="googlebot-image,bingbot" content="nosnippet"> NB: i meta robots non sono ‘case sensitive’ Specificato regola per ‘tutti’ robots Separando con una virgola puoi inserire più di un valore Specificato regola per robots specifico Meta robots
  24. 24. X-robots • Funziona simile ai meta robots ma viene letto tramite l’intestazione HTTP • Usano valori uguali ai meta robots • Sì possono inserire usando php o tramite .htaccess e httpd.conf • Vantaggio è che si possono usare per bloccare tipi di file che non puoi con i meta robots (file non HTML) a livello globale X-robots
  25. 25. X-robots tramite php Esempi: Se vuoi bloccare il motore di ricerca da un file creato in php, inserisci questo tag nel header file: 1. header("X-Robots-Tag: noindex", true); O forse vuoi prevenire che i robots seguono i link anche: 2. header("X-Robots-Tag: noindex, nofollow", true); X-robots
  26. 26. X-robots tramite .htaccess Esempi: Se vuoi bloccare il motore di ricerca da tutti i file .pdf, inserisci questo tag nel header file: <FilesMatch ".pdf$"> Header set X-Robots-Tag “noindex, nofollow" </FilesMatch> X-robots
  27. 27. Errori comuni User-agent: * Disallow: / Errori
  28. 28. Errori comuni <meta="robots" content="index, follow"> Errori
  29. 29. Errori comuni User-agent: * Disallow: /images/ Errori
  30. 30. Errori comuni User-agent: * Disallow: /passwords.txt Errori
  31. 31. Cercando lavoro? Altro
  32. 32. Risorse • https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=it • https://yoast.com/ultimate-guide-robots-txt/ • https://moz.com/learn/seo/robotstxt • https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag • https://yoast.com/x-robots-tag-play/ Altro
  33. 33. Grazie Domande
  34. 34. Robin Armit SEO Consultant Reprise Media LinkedIn - https://www.linkedin.com/in/robin-armit-56663462 Twitter - @armit_robin Domande

×