Алгоритмы аннотирования, 
влияние на сниппеты 
Станислав Поломарь 
webit
План доклада 
• Задача по управлению сниппетами 
• Гипотезы для проверки 
– Яндекс (Ромип) ‘2008 
– Яндекс/Emory (SIGIR) ‘2013 
– Итоговый список 
• Результаты проверки на тестовой коллекции 
• Результаты подтверждения на реальной коллекции 
– Подсветки, синонимы 
• Итоговые рекомендации 
– Рекомендуемые приемы 
– Итого 
– Интересные примеры 
• Данные по CTR 
• Быстроботная примесь
Зачем и что требуется от управления? 
• Трафик из выдачи = Показы * CTR 
• CTR = F (позиции, кликабельность сниппета) 
• Кликабельность сниппета: 
– Читабельность 
– Точность ответа 
– Размер 
– Заметность
Основные пути по управлению 
• Использовать документированные возможности по 
форматам от поисковых систем 
• Конструировать и пытаться влиять на нужные 
фрагменты 
• Использовать недокументированные возможности 
по форматам от поисковых систем 
• Предоставить поисковым системам самим все 
решать
Гипотезы для проверки 
• Алгоритмы контекстно-зависимого 
аннотирования Яндекса на РОМИП-2008 
Опорная пара - два наименее частотных слова из пересечения слов 
запроса и предложения.
Гипотезы для проверки 
• «Алгоритмы контекстно-зависимого 
аннотирования Яндекса на РОМИП-2008» 
– Полное вхождение 
– Точное вхождение 
– Близость к началу предложения 
– В предложении есть слова с высоким IDF 
– Размер фрагмента примерно 150 символов
Гипотезы для проверки 
• «Improving Search Result Summaries by Using 
Searcher Behavior Data» 
F (фрагмента) = K * F_пф + (1 – K) * F_текст
Гипотезы для проверки
Гипотезы для проверки 
• По итогам: 
– Полное вхождение 
– Точное вхождение 
– Близость к началу предложения 
– Максимизация IDF на фрагмент и на слово из фрагмента 
– Близость к началу содержания страницы 
– Размер фрагмента примерно 150 символов 
– Отсутствие избыточного кол-ва пунктуации / кол-во слов с 
заглавной буквы 
• А также: 
– Вес тега meta description 
– Влияние подсветок (топонимы, синонимы и остальное)
Тестовая коллекция 
• Сравним полное/точное vs неполное 
вхождение 
– Тестовые фрагменты не обладают большинством 
остальных признаков, кроме вхождения. 
1. Ожидаемо везде выигрывает полное у неполного 
(Яндекс) 
2. В случае наличия в description полного, а в 
документе неполного – берется description 
(Яндекс)
Тестовая коллекция 
• Сравним группу начало 
предложения/документа vs IDF 
– Тестовые фрагменты содержат точное вхождение 
и, соответственно, набор из сравниваемых 
признаков. Остальными признаками не обладают. 
1. В почти 80% случаях выигрывает 1ая группа 
(Яндекс) 
2. Сравнение внутри первой группы требует 
отдельной выборки
Тестовая коллекция 
• Сравним начало документа vs начало 
предложения 
– Тестовые фрагменты содержат точное 
вхождение и, соответственно, набор из 
сравниваемых признаков. Остальными 
признаками не обладают. 
1. В 3/4 случаев выигрывает начало документа 
2. В п.1 входили документы, где фрагмент 
обладал обоими признаками
Реальная коллекция 
• Измерим позицию начала сниппета 
относительно кол-во слов в документе 
– Выкидываем внутри BODY все теги, стили, скрипты 
и пр. Меню и т.п. остается. Считаем размер общий 
и позицию начала фрагмента из сниппета. 
1. Средняя позиция начало - 49%. С учетом меню % 
несколько ниже, но не сильно. 
2. Метрика не учитывает возможности наличия 
вхождений только в конце документа. 
3. Метрика не учитывает другие сильные признаки, 
которые рассмотрим далее.
Реальная коллекция
Реальная коллекция 
• Размер сниппета (Яндекс)
Реальная коллекция 
• Размер сниппета (Яндекс)
Тестовая коллекция 
• Сравним «вес» meta description для Яндекс 
и Гугл 
– Тестовые фрагменты предложение с точных 
вхождением в тексте и аналогичное, но с 1 
изменением в description . 
1. Во всех случаях Яндекс выбрал текст, Гугл - 
description.
Реальная коллекция 
• Яндекс - в 2% случаев взят description 
– В большинстве из этих случаев нет полного 
вхождения в текст 
– Яндекс смело комбинирует description и текст в 
сниппетах 
• Гугл – в 60% случаев взят description
Рекомендации №1 
• Яндекс 
– Точное/полное вхождение 
– Начало документа и предложения 
– Размер фрагмента зависит от длины запросов (от 
120-160 символов до 180-200) 
– Про description можно не очень переживать 
• Гугл 
– Максимальное использование description 
– «Раскрашиваем» вволю по спец символам 
(http://saney.ru/tools/google-snippets-generator.html)
Тестовая коллекция 
• Сравним наличие слов из подсветки vs без них 
– Тестовые фрагменты содержат точное вхождение и 
да/нет слова из подсветки. В ряде случае устроим 
соревнование с началом документа. 
1. В большинстве использовались самые частные 
подсветки (топоним, купить, основной синоним и 
т.п.). 
2. Практически во всех случаях выиграли 
фрагменты со словами из подсветки (причем 
обыгрывая даже конкурентов из начала 
документа)
Реальная коллекция 
• Наличие подсветки в документе vs сниппет 
– В 90% пар запрос-документ есть хоть одна 
подсветка в тексте (head не в счет) 
– В 72% есть хоть одна подсветка в сниппете (без 
заголовка) 
1. В 80% случаев, когда слова из подсветки есть в 
тексте, они есть и в аннотации (в рамках 1 
варианта). 
2. Яндекс однозначно любит слова из подсветки, 
особенно топонимы и синонимы.
Реальная коллекция 
• Подсветки статистика
Реальная коллекция 
• Подсветки лидеры
Реальная коллекция 
• Синонимы и оператор nosyn 
– Убирает подсветки 
– Видимо отключает ранжирование
Реальная коллекция 
• Собираем подсветки с nosyn 
– Порядка 30% подсветок приходится на синонимы
Полезные приемы 
• Убрать описание ЯК, Дмоз 
<meta name="robots" content="noyaca"/> и <meta name="robots" 
content="noodp"/> 
• Использовать спец символы 
• Использовать Яндекс.Адреса для внутренних страниц
Полезные приемы 
• Использовать Товары и цены / Товарные сниппеты 
– Применять те же приемы 
– Использовать для любых карточек/разделов 
продукции**
Полезные приемы 
• Товары и цены 
– Фрагмент из description ранжируется с 
повышенным весом**
Рекомендации Итого (Яндекс) 
• Точное/полное вхождение 
• В начале документа и предложения 
• Размер фрагмента зависит от длины запросов (от 120-160 символов до 
180-200) 
• Использование слов из подсветки (в первую очередь топонимы и 
синонимы) 
• Отключить ЯК/Дмоз 
• Description для подстраховки и Гугла 
• Использовать все стандартные инструменты по расширениям и 
микроразметке 
• Подключить Товары и цены, где особое внимание уделить description 
• Подключить Товарные сниппеты, подход к description тот же 
• Использование спец символов (ко всем соответствующим пунктам)
Интересные примеры 
• Склейка цены из Товарных сниппетов и текста 
• Влияние синонима
Интересные примеры 
• Делаем список в сниппете 
• Зачем в заголовок брать title?
Интересные примеры 
• Цветные сниппеты 
• Нет подходящего фрагмента – возьму description
CTR (Яндекс)
CTR (Яндекс)
CTR (Гугл)
CTR (Гугл)
Быстроботная примесь 
• Статья про свежесть и запуск быстроботной 
примеси в 2011 году - Recency Ranking by 
Diversification of Result Set 
https://drive.google.com/file/d/0B3oTghWSSP4kejA1Z05DamRJeUk/view?usp=sharing 
• Наблюдения: 
– По факту на сейчас потребность свежести >0 для большинства запросов 
– Краулинговый ранк видимо не очень большой по умолчанию (у поддоменов 
отдельный) 
– Для ранжирования и аннотации во многом также как в большом поиске 
– Документ из базы быстробота получает возможность появится в большой выдаче 
только после набора определенного ранка 
– Дата появления документа = дата 1ой индексации 
– Дата в сохраненке = дата последнего захода ББ
Быстроботная примесь
ВОПРОСЫ? 
• Поломарь Станислав 
– stas@webit.ru / https://fb.com/stas.polomar 
• webit 
– Решает задачи бизнеса в Интернет на http://webit.ru

Алгоритмы аннотирования, влияние на сниппеты (IBC 14)

  • 1.
    Алгоритмы аннотирования, влияниена сниппеты Станислав Поломарь webit
  • 2.
    План доклада •Задача по управлению сниппетами • Гипотезы для проверки – Яндекс (Ромип) ‘2008 – Яндекс/Emory (SIGIR) ‘2013 – Итоговый список • Результаты проверки на тестовой коллекции • Результаты подтверждения на реальной коллекции – Подсветки, синонимы • Итоговые рекомендации – Рекомендуемые приемы – Итого – Интересные примеры • Данные по CTR • Быстроботная примесь
  • 3.
    Зачем и чтотребуется от управления? • Трафик из выдачи = Показы * CTR • CTR = F (позиции, кликабельность сниппета) • Кликабельность сниппета: – Читабельность – Точность ответа – Размер – Заметность
  • 4.
    Основные пути поуправлению • Использовать документированные возможности по форматам от поисковых систем • Конструировать и пытаться влиять на нужные фрагменты • Использовать недокументированные возможности по форматам от поисковых систем • Предоставить поисковым системам самим все решать
  • 5.
    Гипотезы для проверки • Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008 Опорная пара - два наименее частотных слова из пересечения слов запроса и предложения.
  • 6.
    Гипотезы для проверки • «Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008» – Полное вхождение – Точное вхождение – Близость к началу предложения – В предложении есть слова с высоким IDF – Размер фрагмента примерно 150 символов
  • 7.
    Гипотезы для проверки • «Improving Search Result Summaries by Using Searcher Behavior Data» F (фрагмента) = K * F_пф + (1 – K) * F_текст
  • 8.
  • 9.
    Гипотезы для проверки • По итогам: – Полное вхождение – Точное вхождение – Близость к началу предложения – Максимизация IDF на фрагмент и на слово из фрагмента – Близость к началу содержания страницы – Размер фрагмента примерно 150 символов – Отсутствие избыточного кол-ва пунктуации / кол-во слов с заглавной буквы • А также: – Вес тега meta description – Влияние подсветок (топонимы, синонимы и остальное)
  • 10.
    Тестовая коллекция •Сравним полное/точное vs неполное вхождение – Тестовые фрагменты не обладают большинством остальных признаков, кроме вхождения. 1. Ожидаемо везде выигрывает полное у неполного (Яндекс) 2. В случае наличия в description полного, а в документе неполного – берется description (Яндекс)
  • 11.
    Тестовая коллекция •Сравним группу начало предложения/документа vs IDF – Тестовые фрагменты содержат точное вхождение и, соответственно, набор из сравниваемых признаков. Остальными признаками не обладают. 1. В почти 80% случаях выигрывает 1ая группа (Яндекс) 2. Сравнение внутри первой группы требует отдельной выборки
  • 12.
    Тестовая коллекция •Сравним начало документа vs начало предложения – Тестовые фрагменты содержат точное вхождение и, соответственно, набор из сравниваемых признаков. Остальными признаками не обладают. 1. В 3/4 случаев выигрывает начало документа 2. В п.1 входили документы, где фрагмент обладал обоими признаками
  • 13.
    Реальная коллекция •Измерим позицию начала сниппета относительно кол-во слов в документе – Выкидываем внутри BODY все теги, стили, скрипты и пр. Меню и т.п. остается. Считаем размер общий и позицию начала фрагмента из сниппета. 1. Средняя позиция начало - 49%. С учетом меню % несколько ниже, но не сильно. 2. Метрика не учитывает возможности наличия вхождений только в конце документа. 3. Метрика не учитывает другие сильные признаки, которые рассмотрим далее.
  • 14.
  • 15.
    Реальная коллекция •Размер сниппета (Яндекс)
  • 16.
    Реальная коллекция •Размер сниппета (Яндекс)
  • 17.
    Тестовая коллекция •Сравним «вес» meta description для Яндекс и Гугл – Тестовые фрагменты предложение с точных вхождением в тексте и аналогичное, но с 1 изменением в description . 1. Во всех случаях Яндекс выбрал текст, Гугл - description.
  • 18.
    Реальная коллекция •Яндекс - в 2% случаев взят description – В большинстве из этих случаев нет полного вхождения в текст – Яндекс смело комбинирует description и текст в сниппетах • Гугл – в 60% случаев взят description
  • 19.
    Рекомендации №1 •Яндекс – Точное/полное вхождение – Начало документа и предложения – Размер фрагмента зависит от длины запросов (от 120-160 символов до 180-200) – Про description можно не очень переживать • Гугл – Максимальное использование description – «Раскрашиваем» вволю по спец символам (http://saney.ru/tools/google-snippets-generator.html)
  • 20.
    Тестовая коллекция •Сравним наличие слов из подсветки vs без них – Тестовые фрагменты содержат точное вхождение и да/нет слова из подсветки. В ряде случае устроим соревнование с началом документа. 1. В большинстве использовались самые частные подсветки (топоним, купить, основной синоним и т.п.). 2. Практически во всех случаях выиграли фрагменты со словами из подсветки (причем обыгрывая даже конкурентов из начала документа)
  • 21.
    Реальная коллекция •Наличие подсветки в документе vs сниппет – В 90% пар запрос-документ есть хоть одна подсветка в тексте (head не в счет) – В 72% есть хоть одна подсветка в сниппете (без заголовка) 1. В 80% случаев, когда слова из подсветки есть в тексте, они есть и в аннотации (в рамках 1 варианта). 2. Яндекс однозначно любит слова из подсветки, особенно топонимы и синонимы.
  • 22.
    Реальная коллекция •Подсветки статистика
  • 23.
    Реальная коллекция •Подсветки лидеры
  • 24.
    Реальная коллекция •Синонимы и оператор nosyn – Убирает подсветки – Видимо отключает ранжирование
  • 25.
    Реальная коллекция •Собираем подсветки с nosyn – Порядка 30% подсветок приходится на синонимы
  • 26.
    Полезные приемы •Убрать описание ЯК, Дмоз <meta name="robots" content="noyaca"/> и <meta name="robots" content="noodp"/> • Использовать спец символы • Использовать Яндекс.Адреса для внутренних страниц
  • 27.
    Полезные приемы •Использовать Товары и цены / Товарные сниппеты – Применять те же приемы – Использовать для любых карточек/разделов продукции**
  • 28.
    Полезные приемы •Товары и цены – Фрагмент из description ранжируется с повышенным весом**
  • 29.
    Рекомендации Итого (Яндекс) • Точное/полное вхождение • В начале документа и предложения • Размер фрагмента зависит от длины запросов (от 120-160 символов до 180-200) • Использование слов из подсветки (в первую очередь топонимы и синонимы) • Отключить ЯК/Дмоз • Description для подстраховки и Гугла • Использовать все стандартные инструменты по расширениям и микроразметке • Подключить Товары и цены, где особое внимание уделить description • Подключить Товарные сниппеты, подход к description тот же • Использование спец символов (ко всем соответствующим пунктам)
  • 30.
    Интересные примеры •Склейка цены из Товарных сниппетов и текста • Влияние синонима
  • 31.
    Интересные примеры •Делаем список в сниппете • Зачем в заголовок брать title?
  • 32.
    Интересные примеры •Цветные сниппеты • Нет подходящего фрагмента – возьму description
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
    Быстроботная примесь •Статья про свежесть и запуск быстроботной примеси в 2011 году - Recency Ranking by Diversification of Result Set https://drive.google.com/file/d/0B3oTghWSSP4kejA1Z05DamRJeUk/view?usp=sharing • Наблюдения: – По факту на сейчас потребность свежести >0 для большинства запросов – Краулинговый ранк видимо не очень большой по умолчанию (у поддоменов отдельный) – Для ранжирования и аннотации во многом также как в большом поиске – Документ из базы быстробота получает возможность появится в большой выдаче только после набора определенного ранка – Дата появления документа = дата 1ой индексации – Дата в сохраненке = дата последнего захода ББ
  • 38.
  • 39.
    ВОПРОСЫ? • ПоломарьСтанислав – stas@webit.ru / https://fb.com/stas.polomar • webit – Решает задачи бизнеса в Интернет на http://webit.ru