19. Машинное обучение в Yandex
В 2009 году Яндекс внедрил новый метод машинного обучения —
Матрикснет. Важная особенность этого метода — в том, что он устойчив к
переобучению. Это позволяет учитывать очень много факторов
ранжирования — и при этом не увеличивать количество оценок асессоров
и не опасаться, что машина найдет несуществующие закономерности.
С помощью Матрикснета можно построить очень длинную и сложную
формулу ранжирования, которая учитывает множество различных
факторов и их комбинаций.
Ещё одна важная особенность Матрикснета — в том, что формулу
ранжирования можно настраивать отдельно для достаточно узких
классов запросов. Например, улучшить качество поиска только по
запросам про музыку. При этом ранжирование по остальным классам
запросов не ухудшится.
Подробнее: http://company.yandex.ru/technologies/matrixnet/index.xml
20. Машинное обучение в Google
Когда я была в команде поиска в Google (2008-2010), многие группы в
поиске уходили от машинного обучения к системам на основе ручных
правил.
Поиск в прошлом использовал больше машинного обучения и затем
пошел в другом направлении, потому что люди поняли, что могут быстрее
добиваться улучшения результатов поиска с помощью правил.
Это не просто случайность, многие подгруппы в поиске пришли к таким
результатам в своей работе.
Jackie Bavaro (ex Product Manager at Google)
21. Поведенческие факторы
QueryDomCTR — среднее значение CTR всех документов
домена по данному запросу.
QueryUrlCTR — среднее значение CTR конкретного
документа по данному запросу.
AvSatSteps — среднее количество удовлетворённых шагов по
сайту. Удовлетворённый шаг — переход по внутренней
ссылке после 30 секунд пребывания на документе.
QDwellTimeDev — стандартное отклонение (девиация) от среднего времени пребывания на документе по запросу.
QDwellTime — среднее время пребывания посетителя на документе по запросу.
AvDwellTime — общее среднее время пребывания посетителя на документе по разным поисковым запросам.
DwellTimeDev — стандартное отклонение (девиация) времени пребывания на сайте.
90thDwellTime — это верхний дециль, он же 90-й персентиль среднего времени пребывания на сайте.
10thDwellTime — это нижний дециль среднего времени пребывания на сайте.
TimeOnDomain — общее время пребывания на сайте. По всем запросам любых документов.
CumulativeDev — стандартное отклонение (девиация) от среднего времени пребывания на сайте
Through-the-Looking Glass: Utilizing Rich Post-Search Trail Statistics for Web Search,
CIKM2013 (ACM International Conference on Information and Knowledge Management)
(Бёрлингейм, ноябрь 2013)
25. Настройка региона
Среди всех запросов к поиску Яндекса от 15 до 30%, в зависимости от
региона, составляют те, в ответ на которые пользователь ожидает
получить местную, региональную информацию – например, об
услугах или событиях в своём городе. На такие запросы поиск Яндекса
отвечает в разных регионах по-разному.
В ответ на геозависимые запросы Яндекс показывает разные
результаты поиска для разных регионов.
Подробнее: http://company.yandex.ru/technologies/regions/
30. «Спектр» в Яндексе
Когда пользователи задают запросы к Яндексу, примерно в 20% случаев они
формулируют запрос неоднозначно.
• Например, по запросу [наполеон] кто-то хочет найти полководца,
а кто-то — рецепт торта.
• А задавая запрос [суши], человек может искать и ресторан с доставкой на
дом, и рецепт блюда.
Технология Спектр умеет учитывать множество неявных целей
пользователей и показывать соответствующие ответы.
На базе технологии «Спектр» в поиске Яндекса реализованы диалоговые
подсказки.
Подробнее: http://company.yandex.ru/technologies/spectrum/index.xml
33. Асессоры
• Служба оценки качества поиска
• В Яндексе регулярную работу начали в 2006
году (одна шкала, 6 оценок, инструкция на
пол-монитора)
• В Google – как минимум с 2005 года
36. Одна из первых инструкций
асессоров Яндекса
Есть 3 градации полезности, которые необходимо описать в описании:
- Идеальный ответ (обозначен как “Соответствует”);
- Релевантный+ (обозначен как “Скорее соответствует”);
- Релевантный- (обозначен как “Возможно, соотвествует”).
В зависимости от цели поиска определение того, какие результаты относятся к каждой из групп,
меняется.
• Идеальный ответ подразумевает, что, получив такой результат, в принципе, дальше можно не
искать.
• Релевантный+ -это очень полезный, но не идеальный документ. Например, он содержит
полезную, но не исчерпывающую информацию или является одним из возможных
альтернативных ответов.
• Релевантный- - документ, содержащий полезные кусочки информации или много полезной,
но не очень авторитетной информации.
http://www.romip.ru/romip2009/21_appendix_B_WA.pdf
Сейчас инструкция сильно изменилась, статусы тоже поменялись.
38. Асессоры Google
• Интервью с асессором Google:
http://searchengineland.com/interview-google-
search-quality-rater-108702
• На данный момент асессоры не работают
напрямую с Google – они получают задания от
подрядчиков, таких как Lionbridge, Leapforce,
Butler Hill и других. В Lionbridge работает
порядка 4500 человек со всех уголков мира.
Сейчас у Lionbridge есть следующие вакансии:
«Search Engine Evaluator», «Social Search Engine
Evaluator» и «Search Quality Judge».