Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Ловец ботов, версия 2.0, Дмитрий Шахов

7,857 views

Published on

http://remarka.info
Доклад для конференции SEMPro, 2016, Киев
Максимизация индекса и поиск трэш-документов на автомате.

Published in: Internet
  • Дмитрий, правильно ли я понимаю, что у Вас уже есть готовое програмное решение для ловца версии 2.0?
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Ловец ботов, версия 2.0, Дмитрий Шахов

  1. 1. Ловец ботов: рост индексации и поиск плохих страниц Дмитрий Шахов Директор ГК РЕМАРКА Докладчик на конференциях • AllInTop (Москва, 2012, 2014-2016гг.), • SeoConference (Казань, 2014-2015гг.), • Кибермаркетинг (Москва, 2015г.), • РИФ-Воронеж (2014-2015гг.), • Онлайн: SmartFox, Megaindex. Организатор конференции • BalticDigitalDays (2013-2016гг.) Курсы по поисковому продвижению • 200+ выпускников за три года www.remarka.info www.seohowto.ru www.balticdigitaldays.ru
  2. 2. Проблематика • Очень много посадочных страниц • Постоянно мониторить факт индексации ручками муторно и дорого • Непонятно, за что поперли страницу из индекса Актуально для любых многостраничных сайтов!
  3. 3. Ловец Шестаковых (Rush Agency)
  4. 4. Стек: все посадочные страницы Стек: не в индексе Стек: посещен ботом Стек: проблемы с индексом Ждем текстового апдейта Ловец ботов: показ боту ссылок на страницы не в индексе Ловец ботов: фиксация визита бота на странице не в индексе Какой раз проверяли? <N N Чекинг страниц на индекс Нет Да Имеют траффик с поиска? Нет Да Посадочная нужна? Как давно не имеет? >Х мес. <Х мес. Стек: проблемы с поиском ДаНет Ловец ботов, ver2.0 Схема отрабатывается для каждой поисковой системы Х = 6 N = 3 Позиции по ключам нормальные? Да Нет Контент-план: переписать, дооптимизировать Trashbox: удаляем, disallow Trash: Бота нет!
  5. 5. Формируем стек страниц • На самом деле непринципиально как это делать • Можно карту сайта • Можно просто пул страница/анкор • С этим справится любой программер
  6. 6. Проверка на индекс • Срежем часть на проверке заходов с поиска пользователей – если траффик есть, то страница в индексе и в топе • Оставшиеся чекаем – url:site.com/page.html в Яндексе – info:site.com/page.html в Google
  7. 7. Чекинг: решения • Пока не забанят, свои IP • Xml.yandex.com в рамках предоставленных лимитов • API rushanalytics.ru • Antigate, Rucapcha • Или не чекать – гонять все подряд
  8. 8. Ловец, шаг первый • Инфоблок «Рейтинг», «Посмотрите еще», «Лучшие товары сегодня» или как-то так • Смотрим по user-agent (или IP) бота • Подменяем для бота ссылки в инфоблоке на страницы не в индексе • Когда не бот – показываем другие ссылки • Число ссылок: от 1 до 100 (3-5 обычно)
  9. 9. Это не клоака! • Просто как бы так получается, что бот видит только страницы не в индексе, а пользователь – в индексе, но всегда рандом!
  10. 10. Ловец, шаг второй • Проверяем бота на странице не в индексе • Если пришел – снимаем страницу из стека на показ, переносим в стек на проверку индекса • Если не пришел – продолжаем показывать
  11. 11. TRASHBOX #1 • На некоторые страницы бот не придет никогда (в обозримом будущем) • Месяц не пришел после показов – переносим в трэшбокс и разбираемся что не так ручками
  12. 12. Проверка индекса • Текстовые апы могут идти непрерывно, могут – дискретно. Нам это неудобно. • Ставим страницу на паузу после визита бота на две недели • Проверяем на индекс. Если да – ОК! Если нет – отправляем на новые показы в ловца
  13. 13. Цикл проверки • Запускать страницы в ловца только после текстовых апов – неавтоматично • Строим цикл: отправили-проверили • Если страница за Х циклов не попала в индекс – это трэшбокс Чекинг Чекинг Чекинг АП! 2 недели 2 недели
  14. 14. TRASHBOX #2 • Страницы, которые не заходят в индекс спустя 3-5 циклов • Страницы, которые выпадают из индекса после вгона ловцом
  15. 15. Тут как бы и все. Но!
  16. 16. Идем дальше • Страница в индексе без трафика – фуфел • Надо выявить страницы в индексе но без трафика! • Используем проверку на визит с поиска пользователями
  17. 17. Нет трафика с поиска • Нет трафика полгода или более • Есть в индексе • Это трэшбокс по качеству контента: либо очень далеко от топа, либо нет оптимизации даже по НЧ
  18. 18. TRASHBOX #3 • Список страниц без трафика с поиска • Интерфейс для работы редактору сайта Обычно это - Страницы без контента: в 404 или 301 - Сервисные страницы: в disallow - Неочевидные: работа с контентом
  19. 19. Итого • TRASHBOX #1 – баговые страницы • TRASHBOX #2 – низкое качество, битые • TRASHBOX #3 – проблемы с контентом • Полный автомат на выявление трэша • Индексация около 100% на автомате
  20. 20. Ресурсы • 2 месяца одного программиста • Авторский надзор со стороны сеошника • Дальше все на автомате, только смотри, что валится в трэшбоксы
  21. 21. Как выглядит, доска
  22. 22. Как выглядит, доска
  23. 23. Как выглядит, инфосайт
  24. 24. Как выглядит, магазин
  25. 25. Как выглядит, агрегатор
  26. 26. Боты, агрегатор, Яндекс
  27. 27. Боты, агрегатор, Google
  28. 28. Боты, доска, Яндекс
  29. 29. Боты, доска, Google
  30. 30. Индексация, агрегатор
  31. 31. Google, агрегатор нет проблем с индексом
  32. 32. Индексация, доска
  33. 33. Контрольная группа
  34. 34. Посещаемость, агрегатор Обвал индекса за копипаст
  35. 35. Посещаемость, доска Не сезонность, проверили
  36. 36. Число точек входа, агрегатор
  37. 37. Число точек входа, доска
  38. 38. Число точек входа, доска
  39. 39. Хотите узнать больше? Заявки сюда • 8-800-333-06-80 • s@remarka.info Общение со мной • https://www.facebook.com/bablorub • skype: remarka.reklama

×