Темы передачи:
1) Принципы построения формулы ранжирования (машинное обучение).
2) Наличие нескольких формул ранжирования в Яндексе под различные типы поисковых запросов.
3) Анализ выдачи, выявление значимых факторов и примесей.
4) Запросные факторы, анализ запроса в ПС, выбор формулы, СПЕКТР.
5) Вопросы слушателей.
Видео доступно по ссылке: http://www.youtube.com/user/pixelplusru/videos
2. Что обсуждаем?
2
1. Принципы построения формулы ранжирования (машинное обучение)
2. Наличие нескольких формул ранжирования в Яндексе под различные
типы поисковых запросов
3. Анализ выдачи, выявление значимых факторов и примесей
4. Запросные факторы, анализ запроса в ПС, выбор формулы, СПЕКТР
5. Вопросы слушателей
3. Машинное обучение
3
1. Совокупность оценок: запрос-документ-регион
2. Множество посчитанных признаков
(запроса, документа, сайта, ссылок, поведения, региона, антиспам)
— совокупность факторов
3. Выбор метрик (их максимизация/минимизация)
4. Настройка формулы
Для построения ранжирования требуется:
4. Зачем строить формулу?
4
Формула или ручная разметка?
1. Десятки миллионов запросов ежедневно!
2. Порядка 25% из них — уникальные!
3. Требуется большая и контрастная обучающая выборка
4. Далее формула «экстраполируется»
5. Есть проблемы: переобучение, здравый смысл
Вопросы:
• Как быть с логикой? Делать ли ограничения для формулы?
• Нужно ли МНОГО признаков?
5. Различные формулы ранжирования
5
Существование различных формул ранжирования
1. Формулы для различных стран
2. Региональные формулы ранжирования (внутри страны)
3. Специализированные формулы для классов запросов:
скачка/игры/видео
4. Коммерческая формула для Московского региона
Вопросы:
• Можно ли выявить, что используется другая формула?
• Смысл существования нескольких формул?
6. ТОПовые факторы
6
Существование наиболее значимых факторов
1. Всего в формуле участвует более 700 факторов (по разным оценкам)
2. Могут «рулить» разные факторы по разным запросам
3. Можно ли выделить ТОПовые из общего списка и какие они?
4. Если ли смысл в анализе ТОП-10 для поиска этих факторов?
5. Какие сайты из ТОП-10 лучше отбрасывать при таком анализе?
6. Существует ли возможность воздействия на ТОПовые факторы (или
они не являются «SEOшными»)?
7. Перерыв на 5 минут
7
Перерыв
У нас впереди много интересного!
8. Анализ выдачи: примеси
8
Выявление примесей в ТОП-10 выдачи по запросу
1. Отсечение СПЕКТРа? Методика.
2. Отсечение новостных результатов? Методика.
3. Колдунщики
4. Трастовые ресурсы
9. Когда и что подмешивать в выдачу?
9
Базовый анализ поискового запроса
Частотность, кол-во слов в
запросе, порно, коммерция,
время задания
запроса, поиск
организации, ФИО, прочее
характеристики запроса
определение тематики и языка
поиск слов-маркеров
Нужно ли запускать другие
вертикальные поиски:
фото, карты, видео, блоги, п
еревод и другие
расширение запроса и ограничения
10. Модификации органической выдачи
10
В органические результаты выдачи подмешиваются:
1. СПЕКТР
2. Новостные результаты (быстроробот)
3. Колдунщики по сервисам и вертикальным поискам
4. Мобильные приложения
5. Сейчас ещё персонализация…
6. Не за горами Острова…
11. Фильтры: постфильтры
11
Итоговое значение функции релевантности может:
1. Штрафоваться (постфильтры) за текстовую переоптимизацию (два
различных фильтра)
2. Штрафоваться за манипулирование ссылочными
факторами, избыточное количество «плохих» ссылок?
3. Может применяться склеивание/скрытие результатов (одинаковые
сниппеты и аффилированние)
4. Санкции на закрутку поведенческих факторов?
5. …
12. Поиск и выявление фильтров
12
Имеется ли возможность выявления наложения фильтра?
1. Специализированные запросы в поисковую систему
2. Секретные поисковые операторы?
3. Расширенный поиск?
4. Дырки в алгоритме и защите?