Gestione del crawling e indicizzazione

1,776 views

Published on

Gestire l'accesso e l'indicizzazione di un sito web attraverso il robots exclusion protocol.

Published in: Technology, Business
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,776
On SlideShare
0
From Embeds
0
Number of Embeds
222
Actions
Shares
0
Downloads
19
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Gestione del crawling e indicizzazione

  1. 1. Prendi il controllo! Gestire accessi ed indicizzazione in modo efficace Alessandro Martin www.thinkpragmatic.net
  2. 2. Di cosa parliamo <ul><li>Accesso ed indicizzazione
  3. 3. Cassetta degli attrezzi SEO
  4. 4. Miti e leggende
  5. 5. Domande </li></ul>
  6. 6. Scenario Lo spider è molto goloso ... ...ma non tutte le pagine sono utili ed informative
  7. 7. Scenario Lo spider dedica risorse limitate per ogni sito... ...meglio concentrare gli sforzi verso pagine utili
  8. 8. Accedendo ad un sito lo spider si fa delle domande
  9. 9. Arriva lo spider... <ul><li>Quali risorse posso leggere?
  10. 10. Cosa posso farci?
  11. 11. Quali link posso seguire?
  12. 12. Cosa posso mostrare nelle SERP? </li></ul>
  13. 13. Come aiutare lo spider a rispondere a queste domande a nostro vantaggio ...
  14. 14. Controllare lo spider!
  15. 15. Distinguiamo CRAWLING Accedere alle URL per scaricarne il contenuto senza processarlo
  16. 16. Distinguiamo INDICIZZAZIONE Processare il contenuto recuperato dal crawler e salvarlo in un archivio creando un indice
  17. 17. Dentro l'indice <ul><li>Corretto codice di stato HTTP (200)
  18. 18. Link, link, link!
  19. 19. Possono aiutare </li><ul><li>Sitemap XML
  20. 20. Feed RSS/Atom </li></ul></ul>
  21. 21. Fuori dall'indice <ul><li>Codici di stato HTTP </li><ul><li>404, 410 </li></ul><li>Robots Exclusion Protocol </li><ul><li>Limitato, confuso ma utilissimo </li></ul></ul>
  22. 22. Robot Exclusion Protocol <ul><li>Standard de facto basato su specifiche minimali del '94 e '96
  23. 23. Successive integrazioni decise dai motori </li><ul><li>Crawl-delay
  24. 24. Supporto pattern
  25. 25. Sitemap </li></ul></ul>
  26. 26. Robot Exclusion Protocol <ul><li>User-agent: [nome] -> le istruzioni che seguono (fino ad una linea vuota) riguardano questo specifico crawler. </li></ul>User-agent: Googlebot Disallow: / User-agent: Slurp Disallow: /my/pics
  27. 27. Robot Exclusion Protocol <ul><li>Disallow: [percorso] -> impedisce l'accesso (download) ad una risorsa
  28. 28. Le URL possono essere presenti nelle SERP se linkate altrove
  29. 29. Accumulano PR!!! </li></ul>User-agent: Googlebot Disallow: /spam/
  30. 30. Robots Exclusion Protocol <ul><li>Allow: [percorso] -> specifica quanto descritto da una istruzione Disallow: </li></ul>Disallow: /spam/ Allow: /spam/egg.html
  31. 31. Robot Exclusion Protocol <ul><li>Pattern (molto meno espressivi delle regex) </li><ul><li>* -> qualunque carattere (implicito alla fine di riga)
  32. 32. $ -> fine della URL </li></ul></ul>User-agent: Googlebot Disallow: /dir User-agent: Slurp Disallow: /*jpg$
  33. 33. Robots Exclusion Protocol <ul><li>Sitemap: [URL Sitemap XML] </li></ul>Sitemap: http://example.org/sitemap.xml
  34. 34. Robots Exclusion Protocol <ul><li>Il REP prevede anche istruzioni che danno una maggiore granularità alle direttive
  35. 35. Possono essere espresse nel doc HTML </li><ul><li><meta name=&quot;robots&quot; content=&quot;noindex&quot; > </li></ul><li>Oppure negli header HTTP </li><ul><li>X-Robots-Tag: noindex </li></ul></ul>
  36. 36. Robots Exclusion Protocol tag <ul><li>noindex -> rimuove/non inserisce nell'indice
  37. 37. nofollow -> non segue i link
  38. 38. noodp -> non mostra la descrizione di DMOZ
  39. 39. noydir -> non mostra la descrizione di YDIR </li></ul>
  40. 40. Robots Exclusion Protocol tag <ul><li>noarchive -> non crea e mostra la copia cache
  41. 41. nosnippet -> non visualizza lo snippet
  42. 42. unavailable_after: [data] -> rimuove dall'indice dopo [data] </li></ul>
  43. 43. Il mistero della direttiva noindex <ul><li>noindex nel robots.txt?
  44. 44. Google la usa ma non lo dice... </li></ul>
  45. 45. Il mistero della direttiva noindex <ul><li>lo dice ma non in inglese... </li></ul>
  46. 46. Il mistero della direttiva noindex <ul>Meglio evitarlo </ul>
  47. 47. Falsi miti
  48. 48. Disallow fa sparire la pagina dalle SERP
  49. 49. Il bot non rispetta il robots.txt
  50. 50. Attributo nofollow non fa indicizzare
  51. 51. Domande?
  52. 52. Ringraziamenti <ul><li>Enrico ''LowLevel'' Altavilla
  53. 53. Giacomo ''Everfluxx'' Pelagatti
  54. 54. sebastians-pamphlets.com
  55. 55. Tutti voi :-) </li></ul>www.thinkpragmatic.net
  56. 56. Nota legale <ul><li>Spider pig © 2007-2009 ~Ionahipri http://snipurl.com/klj75
  57. 57. &quot;I Simpson&quot; TM & © FOX. Tutti i diritti riservati </li></ul>

×