Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Алгоритмы аннотирования, влияние на сниппеты (IBC 14)

5,652 views

Published on

  • Кстати, про цвет в сниппетах из неавнего http://c2n.me/jnauJF.png
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Алгоритмы аннотирования, влияние на сниппеты (IBC 14)

  1. 1. Алгоритмы аннотирования, влияние на сниппеты Станислав Поломарь webit
  2. 2. План доклада • Задача по управлению сниппетами • Гипотезы для проверки – Яндекс (Ромип) ‘2008 – Яндекс/Emory (SIGIR) ‘2013 – Итоговый список • Результаты проверки на тестовой коллекции • Результаты подтверждения на реальной коллекции – Подсветки, синонимы • Итоговые рекомендации – Рекомендуемые приемы – Итого – Интересные примеры • Данные по CTR • Быстроботная примесь
  3. 3. Зачем и что требуется от управления? • Трафик из выдачи = Показы * CTR • CTR = F (позиции, кликабельность сниппета) • Кликабельность сниппета: – Читабельность – Точность ответа – Размер – Заметность
  4. 4. Основные пути по управлению • Использовать документированные возможности по форматам от поисковых систем • Конструировать и пытаться влиять на нужные фрагменты • Использовать недокументированные возможности по форматам от поисковых систем • Предоставить поисковым системам самим все решать
  5. 5. Гипотезы для проверки • Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008 Опорная пара - два наименее частотных слова из пересечения слов запроса и предложения.
  6. 6. Гипотезы для проверки • «Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008» – Полное вхождение – Точное вхождение – Близость к началу предложения – В предложении есть слова с высоким IDF – Размер фрагмента примерно 150 символов
  7. 7. Гипотезы для проверки • «Improving Search Result Summaries by Using Searcher Behavior Data» F (фрагмента) = K * F_пф + (1 – K) * F_текст
  8. 8. Гипотезы для проверки
  9. 9. Гипотезы для проверки • По итогам: – Полное вхождение – Точное вхождение – Близость к началу предложения – Максимизация IDF на фрагмент и на слово из фрагмента – Близость к началу содержания страницы – Размер фрагмента примерно 150 символов – Отсутствие избыточного кол-ва пунктуации / кол-во слов с заглавной буквы • А также: – Вес тега meta description – Влияние подсветок (топонимы, синонимы и остальное)
  10. 10. Тестовая коллекция • Сравним полное/точное vs неполное вхождение – Тестовые фрагменты не обладают большинством остальных признаков, кроме вхождения. 1. Ожидаемо везде выигрывает полное у неполного (Яндекс) 2. В случае наличия в description полного, а в документе неполного – берется description (Яндекс)
  11. 11. Тестовая коллекция • Сравним группу начало предложения/документа vs IDF – Тестовые фрагменты содержат точное вхождение и, соответственно, набор из сравниваемых признаков. Остальными признаками не обладают. 1. В почти 80% случаях выигрывает 1ая группа (Яндекс) 2. Сравнение внутри первой группы требует отдельной выборки
  12. 12. Тестовая коллекция • Сравним начало документа vs начало предложения – Тестовые фрагменты содержат точное вхождение и, соответственно, набор из сравниваемых признаков. Остальными признаками не обладают. 1. В 3/4 случаев выигрывает начало документа 2. В п.1 входили документы, где фрагмент обладал обоими признаками
  13. 13. Реальная коллекция • Измерим позицию начала сниппета относительно кол-во слов в документе – Выкидываем внутри BODY все теги, стили, скрипты и пр. Меню и т.п. остается. Считаем размер общий и позицию начала фрагмента из сниппета. 1. Средняя позиция начало - 49%. С учетом меню % несколько ниже, но не сильно. 2. Метрика не учитывает возможности наличия вхождений только в конце документа. 3. Метрика не учитывает другие сильные признаки, которые рассмотрим далее.
  14. 14. Реальная коллекция
  15. 15. Реальная коллекция • Размер сниппета (Яндекс)
  16. 16. Реальная коллекция • Размер сниппета (Яндекс)
  17. 17. Тестовая коллекция • Сравним «вес» meta description для Яндекс и Гугл – Тестовые фрагменты предложение с точных вхождением в тексте и аналогичное, но с 1 изменением в description . 1. Во всех случаях Яндекс выбрал текст, Гугл - description.
  18. 18. Реальная коллекция • Яндекс - в 2% случаев взят description – В большинстве из этих случаев нет полного вхождения в текст – Яндекс смело комбинирует description и текст в сниппетах • Гугл – в 60% случаев взят description
  19. 19. Рекомендации №1 • Яндекс – Точное/полное вхождение – Начало документа и предложения – Размер фрагмента зависит от длины запросов (от 120-160 символов до 180-200) – Про description можно не очень переживать • Гугл – Максимальное использование description – «Раскрашиваем» вволю по спец символам (http://saney.ru/tools/google-snippets-generator.html)
  20. 20. Тестовая коллекция • Сравним наличие слов из подсветки vs без них – Тестовые фрагменты содержат точное вхождение и да/нет слова из подсветки. В ряде случае устроим соревнование с началом документа. 1. В большинстве использовались самые частные подсветки (топоним, купить, основной синоним и т.п.). 2. Практически во всех случаях выиграли фрагменты со словами из подсветки (причем обыгрывая даже конкурентов из начала документа)
  21. 21. Реальная коллекция • Наличие подсветки в документе vs сниппет – В 90% пар запрос-документ есть хоть одна подсветка в тексте (head не в счет) – В 72% есть хоть одна подсветка в сниппете (без заголовка) 1. В 80% случаев, когда слова из подсветки есть в тексте, они есть и в аннотации (в рамках 1 варианта). 2. Яндекс однозначно любит слова из подсветки, особенно топонимы и синонимы.
  22. 22. Реальная коллекция • Подсветки статистика
  23. 23. Реальная коллекция • Подсветки лидеры
  24. 24. Реальная коллекция • Синонимы и оператор nosyn – Убирает подсветки – Видимо отключает ранжирование
  25. 25. Реальная коллекция • Собираем подсветки с nosyn – Порядка 30% подсветок приходится на синонимы
  26. 26. Полезные приемы • Убрать описание ЯК, Дмоз <meta name="robots" content="noyaca"/> и <meta name="robots" content="noodp"/> • Использовать спец символы • Использовать Яндекс.Адреса для внутренних страниц
  27. 27. Полезные приемы • Использовать Товары и цены / Товарные сниппеты – Применять те же приемы – Использовать для любых карточек/разделов продукции**
  28. 28. Полезные приемы • Товары и цены – Фрагмент из description ранжируется с повышенным весом**
  29. 29. Рекомендации Итого (Яндекс) • Точное/полное вхождение • В начале документа и предложения • Размер фрагмента зависит от длины запросов (от 120-160 символов до 180-200) • Использование слов из подсветки (в первую очередь топонимы и синонимы) • Отключить ЯК/Дмоз • Description для подстраховки и Гугла • Использовать все стандартные инструменты по расширениям и микроразметке • Подключить Товары и цены, где особое внимание уделить description • Подключить Товарные сниппеты, подход к description тот же • Использование спец символов (ко всем соответствующим пунктам)
  30. 30. Интересные примеры • Склейка цены из Товарных сниппетов и текста • Влияние синонима
  31. 31. Интересные примеры • Делаем список в сниппете • Зачем в заголовок брать title?
  32. 32. Интересные примеры • Цветные сниппеты • Нет подходящего фрагмента – возьму description
  33. 33. CTR (Яндекс)
  34. 34. CTR (Яндекс)
  35. 35. CTR (Гугл)
  36. 36. CTR (Гугл)
  37. 37. Быстроботная примесь • Статья про свежесть и запуск быстроботной примеси в 2011 году - Recency Ranking by Diversification of Result Set https://drive.google.com/file/d/0B3oTghWSSP4kejA1Z05DamRJeUk/view?usp=sharing • Наблюдения: – По факту на сейчас потребность свежести >0 для большинства запросов – Краулинговый ранк видимо не очень большой по умолчанию (у поддоменов отдельный) – Для ранжирования и аннотации во многом также как в большом поиске – Документ из базы быстробота получает возможность появится в большой выдаче только после набора определенного ранка – Дата появления документа = дата 1ой индексации – Дата в сохраненке = дата последнего захода ББ
  38. 38. Быстроботная примесь
  39. 39. ВОПРОСЫ? • Поломарь Станислав – stas@webit.ru / https://fb.com/stas.polomar • webit – Решает задачи бизнеса в Интернет на http://webit.ru

×