Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Clinic seo crawling & logs

498 views

Published on

En este ClinicSEO estuvimos hablando de crawling y logs. Como Google rastrea tu web, la importancia de analizar los logs para mejorar la indexación y hacer más eficáz tu web, casos de uso. La importancia de la segmentación de un crawling.etc.

Published in: Marketing
  • Be the first to comment

  • Be the first to like this

Clinic seo crawling & logs

  1. 1. crawling & logs Colaboradores: #clinicseo Sponsors:
  2. 2. Recuerda nuestro hashtag! #CLINICSEO Crawling & Logs
  3. 3. Ponentes #clinicseo Lino Uruñuela @errioxa mecagoenlos.com Javi Lorente @javier_lorente javierlorente.es Eduardo Garolera @egarolera digitalgrowth.io
  4. 4. Pues esto del crawling es como cuando te cachean.
  5. 5. Qué son los logs...#clinicseo Información que guarda nuestro servidor de cualquier interacción que se realiza en él. ¿Dónde y cómo se guardan? ● Se guardan en ficheros .tar.gz ● Se suelen borrar cada X días ● Pregúntale a tu proveedor de hosting cómo obtenerlos ● Pideselo a tus técnicos
  6. 6. ¿por qué son importantes?#clinicseo Son sus ● Rastrean los sites ● Leen el contenido y lo guardan ● Sigue buscando enlaces para continuar Transmiten al “cerebro” lo que ven
  7. 7. ¿por qué son importantes?#clinicseo Si a través de sus ojos recibe información confusa, errónea o le engañamos su comportamiento será peor en nuestro site.
  8. 8. ¿Qué es el crawl Budget?#clinicseo Según Google “Representa el número de conexiones paralelas y simultáneas que utiliza el robot de Google para rastrear el sitio web, así como el tiempo de espera entre cada obtención.”
  9. 9. ¿Queé es el crawl Budget?#clinicseo Definición personal “Google incluirá un determinado número de urls en su índice, y NO necesariamente las mejores”
  10. 10. ¿Importancia crawl Budget?#clinicseo Filtros de un site de clasificados ● ciudad (100) ● marca (9) ● modelo (90) ● particular o concesionario (2) ● color (3) ¿Cuántas urls posibles hay?
  11. 11. ¿Importancia crawl Budget?#clinicseo m = número total de distintos valores 100+9+90+2+3 n = número de agrupaciones (filtros) 5
  12. 12. ¿Importancia crawl Budget?#clinicseo 204!÷(5!((204−5)!)) = 2.802.350.040 URLs
  13. 13. ¿por qué son importantes?#clinicseo Rastreo Indexación Eficacia
  14. 14. Rastreo#clinicseo URLs Únicas rastreadas por status
  15. 15. Rastreo Segmentado#clinicseo Nº URLs status 200 por segmento
  16. 16. ¿por qué son importantes?#clinicseo Rastreo Indexación Eficacia
  17. 17. Indexación#clinicseo ¿Si aumento el número de urls con visitas ganaré tráfico orgánico?
  18. 18. Indexación#clinicseo Orgánico Vs URLs con visitas
  19. 19. Eficaicia#clinicseo Rastreo Indexación Eficacia
  20. 20. Eficacia#clinicseo ¿Si aumento el número de URLs rastreadas aumenta el tráfico?
  21. 21. Eficacia#clinicseo URLs rastreadas Vs orgánico
  22. 22. Eficacia#clinicseo “El ratio entre el número total de URLs rastreadas Vs el número de urls con visitas orgánicas.” Eficacia de las urls
  23. 23. Eficacia#clinicseo
  24. 24. #clinicseo Agregando valor a los datos
  25. 25. Dándole valor a los datos#clinicseo Una gráfica solo muestra la evolución
  26. 26. Dándole valor a los datos a los listados #clinicseo Debemos ordenarla por prioridad
  27. 27. #clinicseo Mitos Vs Realidad
  28. 28. Mitos Vs Realidad#clinicseo rel="canonical" <link rel="canonical" href="http://example.com/" /> ● Reduce el rastreo de Google ● Transfiere valor a la URL de destino
  29. 29. Mitos Vs Realidad#clinicseo URLs Únicas rastreadas por Googlebot
  30. 30. Mitos Vs Realidad#clinicseo HITS de Googlebot al directorio canonizado
  31. 31. Mitos Vs Realidad#clinicseo URLs Únicas rastreadas por Googlebot
  32. 32. Mitos Vs Realidad#clinicseo HITS de Googlebot al directorio canonizado
  33. 33. Mitos Vs Realidad#clinicseo rel="canonical" <link rel="canonical" href="http://example.com/" /> ● Reduce el rastreo de Google ● Transfiere valor a la URL de destino
  34. 34. #clinicseo Mitos Vs Realidad
  35. 35. Mitos Vs Realidad#clinicseo NoIndex <meta name="robots" content="noindex" /> Google no mostrará la url en sus resultados…. pero sí la rastreará
  36. 36. Mitos Vs Realidad#clinicseo ● No saldrá en las serps ● Reduce el rastreo de Google ● Evitar ser penalizado Usado en thin content o urls de poco valor como filtros NoIndex <meta name="robots" content="noindex" />
  37. 37. Mitos Vs Realidad#clinicseo
  38. 38. Mitos Vs Realidad#clinicseo NoIndex <meta name="robots" content="noindex" /> ● No saldrá en las serps ● Reduce el rastreo de Google ● Evitar ser penalizado Thin content o urls de poco valor como filtros
  39. 39. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo Crawling es el core de Google o de cualquier buscador
  40. 40. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo
  41. 41. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo ¿Cómo trabajar con logs?
  42. 42. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo Auditar logs es parte de una auditoria SEO
  43. 43. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo Caídas del servidor Tipos de contenido más utilizado Bots que más vienen y su comportamiento Tener una información más granulada que la que nos da GSC ¿Como crawlea google el JS? ¿Lo hace? Expedientes X Ventaja competitiva en como google valora o no nuestras páginas
  44. 44. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo ¿Que está afectando al crawl budget? widgets, publicidad, cadenas de redirecciones, etc...
  45. 45. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo ¿Top páginas crawleadas? ¿Que enlaces tienen? ¿Que nos interesa enlazar desde esas páginas para potenciarlo? ¿Que efecto tiene hacerlo? ¿Nuestras top páginas de tráfico son las más crawleadas? ¿Cómo podemos optimizar esto? ¿Tenemos páginas huérfanas?
  46. 46. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo ¿Thin content? ¿Que tenemos que no genera tráfico? ¿Se crawlea? ¿Cada cuando? ¿más o menos que el resto? ¿Canonical, noindex, redirect, enriquecer, robots.txt...? ¿Qué porcentaje de mi site está crawleando Googlebot?
  47. 47. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo Análisis del crawling por tipología de página ¿Cuánto tarda en descubrir nuestro contenido en cada tipo de página? ¿Cuánto tiempo pasa entre que lo descubre y rankea? ¿Qué podemos hacer para cambiar eso? ¿Cuánto tardamos en empezar a recuperar nuestra inversión en ese contenido? ¿Qué comportamiento sigue el Google en las páginas AMP? Ahora que hemos lanzado AMP que ocurre? Crawlea igual que la versión mobile? ¿Qué relación existe entre mejorar el ratio de crawling de una tipología y el tráfico que recibe? ¿Qué tipologías reciben más tráfico por parte del bot? Esas priorizaré para arreglar los errores
  48. 48. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo URLs con enlaces, importante Status 200 Enlaces que además nos aportan tráfico Importancia para Google de ese link → cuántos más accesos del bot más importante la url de origen
  49. 49. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo URLs con enlaces, importante Redirecciones 30x Backlinks a urls con 302 → desperdiciamos autoridad Backlinks a urls con Dobles, triples, redirecciones
  50. 50. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo URLs con enlaces, importante Errores 4xx Backlinks a urls que dan error a Google, desperdiciamos autoridad Backlinks a urls que dan error y antes tenían visitas y autoridad
  51. 51. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo Migración HTTPS ¿Como podemos auditar el estado? ¿Qué páginas ha rastreado ya google? ¿Qué status code tienen las antiguas? ¿Qué status code tienen las nuevas? ¿Comparativa de logs de las urls nuevas y antiguas? Podemos priorizar los esfuerzos centrándonos en urls que: - Tienen más tráfico - Tienen mejores rankings - Han sido las más crawleadas En la nueva URL: - Se crawlean con la misma frecuencia? - Responden con el status code correcto? - Las antiguas dan un 301? - Sigue Google crawleando alguna URL antigua? A qué se debe?
  52. 52. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo Mobile First Index
  53. 53. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo Mobile First Index ¿Nuestro site está ya siendo más crawleado por el user agent de mobile? ¿Qué páginas mobile se llevan la mayor parte del rastreo? ¿Tenemos los mismos enlaces que en desktop? ¿Están estas páginas optimizadas igual que en desktop? ¿Comparativa de logs de las urls desktop vs mobile? ¿Siguen los mismo patrones?
  54. 54. Recuerda nuestro hashtag! #CLINICSEO Casos de uso logs#clinicseo Mobile Speed Update Identificación de las páginas que: - Cargan más lentas - Tienen un mayor tamaño Verificación de las implementaciones y su impacto
  55. 55. Recuerda nuestro hashtag! #CLINICSEO Crawleando#clinicseo dicen los sabios que casi siempre... es mejor no tener nada que URLs rastreadas y no posicionadas
  56. 56. Recuerda nuestro hashtag! #CLINICSEO A lo fácil#clinicseo
  57. 57. Recuerda nuestro hashtag! #CLINICSEO Bing#clinicseo
  58. 58. Recuerda nuestro hashtag! #CLINICSEO Yandex#clinicseo
  59. 59. Recuerda nuestro hashtag! #CLINICSEO Yandex (Excluded)#clinicseo
  60. 60. Recuerda nuestro hashtag! #CLINICSEO Yandex Crawl Stats#clinicseo
  61. 61. Recuerda nuestro hashtag! #CLINICSEO G. Search Console#clinicseo
  62. 62. Recuerda nuestro hashtag! #CLINICSEO Webmasters Tools#clinicseo Son gratis y hay que usarlas pero no son “on demand” ni rastrean el 100% de URLs y tipologías de errores como las diferentes soluciones de pago
  63. 63. Recuerda nuestro hashtag! #CLINICSEO Soluciones SaaS#clinicseo No hacen nada que no se pueda hacer con Screaming Frog, Excel y mucho tiempo.
  64. 64. Recuerda nuestro hashtag! #CLINICSEO Herramientas#clinicseo
  65. 65. Recuerda nuestro hashtag! #CLINICSEO Inconvenientes#clinicseo
  66. 66. Recuerda nuestro hashtag! #CLINICSEO Ventajas#clinicseo - Mucho más fácil de configurar & te olvidas del “mantenimiento” - “Sin límite” de URLs (algunos hablan de 200.000.000 URLs) - Fácil integración con otras fuentes de datos y herramientas - Fácil filtrado de URLs con desplegables drag & drop - Velocidad a la hora de cruzar entre segmentos y grupos de URLs - Comparación con rastreos anteriores de todo el histórico. - Informes preconfigurados; schema, OGP, AMP, mobile sites, etc. - Si dominas regex & xpath, puedes personalizar todo bastante. - Extensiones para los principales navegadores & APIs para geeks - ...
  67. 67. Recuerda nuestro hashtag! #CLINICSEO Ejemplos OnCrawl#clinicseo Crawler / LOGs
  68. 68. Recuerda nuestro hashtag! #CLINICSEO Silos#clinicseo
  69. 69. Recuerda nuestro hashtag! #CLINICSEO Depth & Page Rank#clinicseo
  70. 70. Recuerda nuestro hashtag! #CLINICSEO Clústers dupes#clinicseo
  71. 71. Recuerda nuestro hashtag! #CLINICSEO URLs activas#clinicseo
  72. 72. Recuerda nuestro hashtag! #CLINICSEO LOGs#clinicseo
  73. 73. Recuerda nuestro hashtag! #CLINICSEO robots.txt ¿WTF?#clinicseo
  74. 74. Recuerda nuestro hashtag! #CLINICSEO Visitas SEO vs BOTs#clinicseo
  75. 75. Recuerda nuestro hashtag! #CLINICSEO Segmentos#clinicseo el 90% del éxito del análisis está en segmentar bien
  76. 76. Recuerda nuestro hashtag! #CLINICSEO 2 tipos de grupos#clinicseo ● En base a elementos de la URL ○ Compatible con LOGs ○ Puedes hacer grupos de URLs a posteriori ● En base al HTML (custom fields) > Terminan siendo URLs ○ No son compatibles con el análisis de LOGs ○ Debes definir muy bien qué quieres buscar antes del rastreo ○ Tras un rastreo sólo puedes hacer grupos configurando custom fields PRErastreados
  77. 77. Recuerda nuestro hashtag! #CLINICSEO Ej en Wordpress#clinicseo ● En base a elementos de una URL de WP con /%postname%/ tendríamos: ○ URL contains /tag/ ○ URL contains /page/ ○ URL contains /author/ ○ URL contains /amp/ ○ Poco más… puesto las categorías serían URLs “iguales” que la de un post. ● En base al HTML las posibilidades son infinitas. ○ Podemos buscar en el HTML si existe: ■ <meta property="article:section" content="Actualidad" /> ■ <meta property="article:published_time" content="2018 ■ <body class="archive category...
  78. 78. Recuerda nuestro hashtag! #CLINICSEO Regex & XPATH#clinicseo
  79. 79. Recuerda nuestro hashtag! #CLINICSEO de regalo...#clinicseo ● Lista de categorías: string(//meta[@property="article:section"]/@content) ● Lista de tags: string(//meta[@property="article:tag"]/@content) ● Publicación: string(//meta[@property="article:published_time"]/@content) ● Modificación: string(//meta[@property="article:modified_time"]/@content) ● ¿qué más se te ocurre…?
  80. 80. Recuerda nuestro hashtag! #CLINICSEO Data ingestion#clinicseo También podemos crear grupos de URLs subiendo CSV con campo “URL”
  81. 81. Colaboradores: Sponsors: Gracias por vuestra asistencia,
  82. 82. Recuerda nuestro hashtag! #CLINICSEO

×