Gestione del crawling e indicizzazione
Upcoming SlideShare
Loading in...5
×
 

Gestione del crawling e indicizzazione

on

  • 2,190 views

Gestire l'accesso e l'indicizzazione di un sito web attraverso il robots exclusion protocol.

Gestire l'accesso e l'indicizzazione di un sito web attraverso il robots exclusion protocol.

Statistics

Views

Total Views
2,190
Views on SlideShare
2,000
Embed Views
190

Actions

Likes
3
Downloads
15
Comments
0

4 Embeds 190

http://www.gtconference.it 177
http://www.linkedin.com 11
http://www.slideshare.net 1
https://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as OpenOffice

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Gestione del crawling e indicizzazione Gestione del crawling e indicizzazione Presentation Transcript

  • Prendi il controllo! Gestire accessi ed indicizzazione in modo efficace Alessandro Martin www.thinkpragmatic.net
  • Di cosa parliamo
    • Accesso ed indicizzazione
    • Cassetta degli attrezzi SEO
    • Miti e leggende
    • Domande
  • Scenario Lo spider è molto goloso ... ...ma non tutte le pagine sono utili ed informative
  • Scenario Lo spider dedica risorse limitate per ogni sito... ...meglio concentrare gli sforzi verso pagine utili
  • Accedendo ad un sito lo spider si fa delle domande
  • Arriva lo spider...
    • Quali risorse posso leggere?
    • Cosa posso farci?
    • Quali link posso seguire?
    • Cosa posso mostrare nelle SERP?
  • Come aiutare lo spider a rispondere a queste domande a nostro vantaggio ...
  • Controllare lo spider!
  • Distinguiamo CRAWLING Accedere alle URL per scaricarne il contenuto senza processarlo
  • Distinguiamo INDICIZZAZIONE Processare il contenuto recuperato dal crawler e salvarlo in un archivio creando un indice
  • Dentro l'indice
    • Corretto codice di stato HTTP (200)
    • Link, link, link!
    • Possono aiutare
      • Sitemap XML
      • Feed RSS/Atom
  • Fuori dall'indice
    • Codici di stato HTTP
      • 404, 410
    • Robots Exclusion Protocol
      • Limitato, confuso ma utilissimo
  • Robot Exclusion Protocol
    • Standard de facto basato su specifiche minimali del '94 e '96
    • Successive integrazioni decise dai motori
      • Crawl-delay
      • Supporto pattern
      • Sitemap
  • Robot Exclusion Protocol
    • User-agent: [nome] -> le istruzioni che seguono (fino ad una linea vuota) riguardano questo specifico crawler.
    User-agent: Googlebot Disallow: / User-agent: Slurp Disallow: /my/pics
  • Robot Exclusion Protocol
    • Disallow: [percorso] -> impedisce l'accesso (download) ad una risorsa
    • Le URL possono essere presenti nelle SERP se linkate altrove
    • Accumulano PR!!!
    User-agent: Googlebot Disallow: /spam/
  • Robots Exclusion Protocol
    • Allow: [percorso] -> specifica quanto descritto da una istruzione Disallow:
    Disallow: /spam/ Allow: /spam/egg.html
  • Robot Exclusion Protocol
    • Pattern (molto meno espressivi delle regex)
      • * -> qualunque carattere (implicito alla fine di riga)
      • $ -> fine della URL
    User-agent: Googlebot Disallow: /dir User-agent: Slurp Disallow: /*jpg$
  • Robots Exclusion Protocol
    • Sitemap: [URL Sitemap XML]
    Sitemap: http://example.org/sitemap.xml
  • Robots Exclusion Protocol
    • Il REP prevede anche istruzioni che danno una maggiore granularità alle direttive
    • Possono essere espresse nel doc HTML
      • <meta name=&quot;robots&quot; content=&quot;noindex&quot; >
    • Oppure negli header HTTP
      • X-Robots-Tag: noindex
  • Robots Exclusion Protocol tag
    • noindex -> rimuove/non inserisce nell'indice
    • nofollow -> non segue i link
    • noodp -> non mostra la descrizione di DMOZ
    • noydir -> non mostra la descrizione di YDIR
  • Robots Exclusion Protocol tag
    • noarchive -> non crea e mostra la copia cache
    • nosnippet -> non visualizza lo snippet
    • unavailable_after: [data] -> rimuove dall'indice dopo [data]
  • Il mistero della direttiva noindex
    • noindex nel robots.txt?
    • Google la usa ma non lo dice...
  • Il mistero della direttiva noindex
    • lo dice ma non in inglese...
  • Il mistero della direttiva noindex
      Meglio evitarlo
  • Falsi miti
  • Disallow fa sparire la pagina dalle SERP
  • Il bot non rispetta il robots.txt
  • Attributo nofollow non fa indicizzare
  • Domande?
  • Ringraziamenti
    • Enrico ''LowLevel'' Altavilla
    • Giacomo ''Everfluxx'' Pelagatti
    • sebastians-pamphlets.com
    • Tutti voi :-)
    www.thinkpragmatic.net
  • Nota legale
    • Spider pig © 2007-2009 ~Ionahipri http://snipurl.com/klj75
    • &quot;I Simpson&quot; TM & © FOX. Tutti i diritti riservati