SlideShare a Scribd company logo
1 of 34
Download to read offline
1
2
Анализ неявных
предпочтений
пользователей
Михаил Агеев
3
Emory Intelligent Information Access Lab
Mikhail Ageev Dmitry Lagun Eugene Agichtein
4
Цель: улучшение поисковых аннотаций
Критерии качества сниппетов
!  Readability
–  Сниппет должен быть
удобочитаемым
!  Representativeness
–  Сниппет должен показывать части документа,
которые соответствуют запросу пользователя
!  Judgeability
–  Хороший сниппет должен содержать ответ на вопрос
пользователя или указание на то, что ответ есть в документе
5
Алгоритмы выделения сниппетов
!  Сопоставление текста документа с запросом
!  Учет местоположения текста, структуры документа
!  Текстовых факторов недостаточно!
6
Пример: траектория зрачка
глаза и идеальный ответ
!  Цель поиска
–  How many pixels must be dead on a iPad 3
before Apple will replace it?
!  Запрос
–  [how many dead pixels ipad 3 replace]
!  Фрагмент с ответом
–  iPad: 3 Dead Pixel -> Apple will replace a new
LCD for you
Идеальный сниппет!
7
Траектория курсора мыши коррелирует
с траекторией зрачка
Q. Guo and E. Agichtein. Towards
predicting web searcher gaze position
from mouse movements. // CHI, 2010.
!  Пример:
–  Find the worst drought that happened
in the history of the US
!  Запрос:
–  [worst drought in US]
The worst droughts in the history of the United States
occurred during the 1930s and 1950s, periods of time
known as 'Dust Bowl' years
Идеальный сниппет!
8
Идея: выделение сниппетов на основе
поведения пользователей
!  Поведение пользователей на найденной странице (scroll, движения
мыши) позволяет выявить фрагменты, интересующие пользователя
!  Данные о поведении можно собирать при помощи JavaScript browser API
!  Выделение заинтересовавших пользователя фрагментов может позволить
улучшить сниппеты
9
Задачи
!  Как собрать реалистичные данные поведения пользователей?
–  В том числе движения мыши на страницах после SERP
!  Как по движениям мыши определить фрагменты,
заинтересовавшие пользователя?
–  Объём данных: около 400 событий на каждый просмотр страницы
–  Разные устройства ввода и версии браузеров
–  Разные привычки пользователей
!  Как объединить данные поведения и текстовые факторы?
10
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа поведения
!  Улучшение поиска ответов на вопрос
в Web на основе анализа поведения
!  Заключение
11
UFindIt: инфраструктура для сбора данных
Сбор данных о поведении пользователя
!  Цель поиска: найти ответ при помощи поисковой
системы
!  Игрок находит ответ и подтверждающий URL
Участники
!  Amazon Mechanical Turk
–  HIT = игра из 12 вопросов
!  Мотивация игрока
–  Гарантированная оплата $1 за игру
–  Бонусы для 25% лучших игроков
–  Соревнование! Азарт!
!  Проверка данных: ReCaptcha + Автоматическая
проверка выполнения правил игры
12
Протоколирование: Proxy + JavaScript
!  HTTP reverse proxy
–  Пользователь использует привычный интерфейс поиска
–  HTML-ссылки преобразуются на лету
–  В каждую страницу встраивается код JavaScript
для отслеживания поведения
13
EMU.js: связь координат мыши с текстом
!  Проблема
–  Позиция мыши представлена координатами в окне браузера
–  Координаты текста зависят от разрешения экрана, версии и настроек браузера
!  Решение
–  Вычислить координаты всех слов на клиенте и сохранить на сервере
14
Структура данных
Для каждого просмотра страницы известны
!  Запрос пользователя к поисковой системе
!  URL и содержание документа
!  Координаты каждого слова в документе
!  Лог действие пользователя: движения
мыши, клики, прокрутка
!  Заданный запрос (цель поиска)
!  Ответ, который пользователь отправил
Поведенческие
факторы
Обучающая
и тестовая выборки
Только для
экспериментов
15
Статистика по собранным данным	
  
!  Код и данные свободно доступны http://ir.mathcs.emory.edu/intent/
109 Пользователей
12 Вопросов
1,175 Поисковых сессий
3,295 Запросов
2,997 Просмотров страниц
662 Различных URL
1,454,257 Атомарных событий
707 Пар запрос-URL (сниппетов) с полным набором данных для
экспериментов
16
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа поведения
!  Улучшение поиска ответов на вопрос
в Web на основе анализа поведения
!  Заключение
17
Предсказание интересных фрагментов
!  Текст HTML-страницы разбивается на фрагменты по пять слов
!  6 поведенческих факторов
–  Длительность нахождения курсора мыши над фрагментом
–  … рядом с фрагментом (±100px)
–  Средняя скорость курсора мыши над фрагментом
–  … рядом с фрагментом
–  Время показа фрагмента в видимой части окна просмотра (scrollbar)
–  Время показа фрагмента в середине окна просмотра
!  Предсказание вероятности интересного фрагмента
!  Метод машинного обучения: GBRT
18
Обучающее множество
!  Положительные примеры
–  Фрагменты, пересекающиеся
с ответом пользователя
!  Отрицательные примеры
–  Все остальные фрагменты
Обучающее множество неполно:
мы ничего не знаем об остальных
фрагментах, которые пользователь
посмотрел
!  Пример
–  Вопрос: «Which metals float on
water?»
–  Ответ пользователя: «lithium,
sodium, potassium»
19
Предсказание интересных фрагментов
Чем выше
предсказанная
интересность
фрагмента (BScore),
тем больше
пересечение с ответом
пользователя (ROUGE)
20
Наиболее важные факторы
! DispMiddleTime – время, в течение которого фрагмент текста
был виден на экране
! MouseOverTime – время, в течение которого курсор мыши
был над фрагментом текста
21
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа поведения
!  Улучшение поиска ответов на вопрос в Web
на основе анализа поведения
!  Заключение
22
Генерация сниппетов: baseline
D. Metzler and T. Kanungo. Machine learned sentence selection strategies
for query-biased summarization. In SIGIR Learning to Rank Workshop, 2008.
!  Для каждого предложения вычисляем 22 фактора
–  Точное соответствие
–  Количество найденных слов запроса и синонимов (3 фактора)
–  BM25-like (4 фактора)
–  Расстояние между словами запроса (3 фактора)
–  Длина предложения
–  Позиция в документе
–  Удобочитаемость: количество знаков пунктуации,
заглавных слов, различных слов (9 факторов)
23
Генерация сниппетов на основе поведения
!  Линейная комбинация весов предложений baseline-алгоритма
TextScore(f) и интересности фрагмента BScore(f)
!  λ влияет на покрытие и качество сниппетов
–  Слишком маленькое λ = сниппеты не отличаются от baseline
–  Слишком большое λ = риск низкого качества сниппетов
!  Эксперимент:
24
Постановка эксперимента
!  Попарная оценка сниппетов для двух алгоритмов по критериям:
–  Representativeness
Какой из сниппетов лучше отражает соответствие документа запросу?
Необходимо прочитать документ до ответа на вопрос.
–  Readability
Какой из сниппетов лучше написан, легче читается?
–  Judgeability
Какой из сниппетов лучше помогает найти релевантный ответ и решить,
нужно ли кликать на ссылку?
25
Результаты
!  Fraction improved: доля сниппетов, улучшенных за счет учета поведения пользователей
!  Coverage: доля сниппетов, для которых сниппеты с учетом поведения отличаются от baseline
!  При λ	
  =	
  0.7	
  статистически значимое улучшение по всем метрикам
26
Пример
Baseline
BeBS
27
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа поведения
!  Улучшение поиска ответов на вопрос
в Web на основе анализа поведения
!  Заключение
28
Вопросно-ответный поиск
!  Поиск точного ответа на вопрос пользователя
!  Основные этапы QA (IR Approach)
–  Анализ запроса (POS Tagging, NER), классификация по типу вопроса,
формирование шаблонов ответов
–  Поиск релевантных документов – кандидатов на нахождение ответов
–  Поиск релевантных пассажей
–  Анализ пассажей и извлечение ответов по шаблону
29
Улучшение извлечения пассажей
!  Baseline algorithm:
–  QANUS: open-source QA system from National
University of Singapore (Min Yen Kan, 2010)
!  BeQA: behavior-based QA
–  QANUS fragment score TextScore(f)
–  Интересность фрагмента BScore(f)
30
Поиск релевантных пассажей: результаты
! 
rank𝑖 - позиция первого релевантного ответа
!  Поиск ответов по коллекции
–  All: все документы по всем вопросам
–  Clicked: все документы, которые пользователи
посещали при поиске ответа на данный
вопрос
–  Relevant: документы, про которые известно,
что в них есть правильный ответ
31
Основные предположения
(и ограничения)
!  Эксперименты на информационных вопросах: пользователь ищет текст
ответа в документе
!  Просмотры страниц сгруппированы по информационной потребности
–  Поведенческие факторы усредняются по всем пользователям с одинаковой
информационной потребностью
!  Данные о поведении пользователя на найденных страницах
могут быть собраны поисковой системой
–  Плагины браузера
–  Рекламные площадки
–  Счетчики посещений
32
References
!  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. Improving Search
Result Summaries By Using Searcher Behavior Data // SIGIR 2013
!  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. The Answer is
at your Fingertips: Improving Passage Retrieval for Web
Question Answering with Search Behavior Data // EMNLP 2013
!  Код и данные: http://ir.mathcs.emory.edu/intent/
33
Спасибо за внимание
34
Михаил Агеев
Исследователь-разработчик
+7(916)607-5072
irlab@yandex-team.ru
к.ф.-м.н.

More Related Content

What's hot

06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросыLidia Pivovarova
 
информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетInno4ka2323
 
Как построить SEO CRM (Sempro 15)
Как построить SEO CRM (Sempro 15)Как построить SEO CRM (Sempro 15)
Как построить SEO CRM (Sempro 15)Стас Поломарь
 
SEO продвижение
SEO продвижениеSEO продвижение
SEO продвижениеimpools29
 
поисковые системы презентация ученика
поисковые системы презентация ученикапоисковые системы презентация ученика
поисковые системы презентация ученикаKuznecov
 
поисковые системы рунета
поисковые системы рунетапоисковые системы рунета
поисковые системы рунетаMargaritaPushkina
 
Search systems
Search systemsSearch systems
Search systemsKuznecov
 
Станислав Поломарь, Webit,
Станислав Поломарь,  Webit,Станислав Поломарь,  Webit,
Станислав Поломарь, Webit,Movebo
 
Аналитика поискового продвижения (SmartFox)
Аналитика поискового продвижения (SmartFox)Аналитика поискового продвижения (SmartFox)
Аналитика поискового продвижения (SmartFox)Стас Поломарь
 
Аналитика поведенческих факторов Яндекс/Гугл
Аналитика поведенческих факторов Яндекс/ГуглАналитика поведенческих факторов Яндекс/Гугл
Аналитика поведенческих факторов Яндекс/ГуглСтас Поломарь
 
Веб аналитика, лекция в НИУ ВШЭ Пермь
Веб аналитика, лекция в НИУ ВШЭ ПермьВеб аналитика, лекция в НИУ ВШЭ Пермь
Веб аналитика, лекция в НИУ ВШЭ ПермьAlex Zagoumenov
 
Аналитика поведенческих фатокров (BDD 15)
Аналитика поведенческих фатокров (BDD 15)Аналитика поведенческих фатокров (BDD 15)
Аналитика поведенческих фатокров (BDD 15)Стас Поломарь
 
Аналитика для трафиковых проектов (РИФ 2016)
Аналитика для трафиковых проектов (РИФ 2016)Аналитика для трафиковых проектов (РИФ 2016)
Аналитика для трафиковых проектов (РИФ 2016)Стас Поломарь
 
SEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииSEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииСергей Кокшаров
 
Поиск информации в интернете при помощи поисковых систем
Поиск информации в интернете при помощи поисковых системПоиск информации в интернете при помощи поисковых систем
Поиск информации в интернете при помощи поисковых системwerro33
 
Seo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSeo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSergey Yurkov
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информацииLidia Pivovarova
 

What's hot (20)

06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросы
 
информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернет
 
Как построить SEO CRM (Sempro 15)
Как построить SEO CRM (Sempro 15)Как построить SEO CRM (Sempro 15)
Как построить SEO CRM (Sempro 15)
 
Доклад MAD conference
Доклад MAD conferenceДоклад MAD conference
Доклад MAD conference
 
SEO продвижение
SEO продвижениеSEO продвижение
SEO продвижение
 
поисковые системы презентация ученика
поисковые системы презентация ученикапоисковые системы презентация ученика
поисковые системы презентация ученика
 
поисковые системы рунета
поисковые системы рунетапоисковые системы рунета
поисковые системы рунета
 
Search systems
Search systemsSearch systems
Search systems
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 
Станислав Поломарь, Webit,
Станислав Поломарь,  Webit,Станислав Поломарь,  Webit,
Станислав Поломарь, Webit,
 
Аналитика поискового продвижения (SmartFox)
Аналитика поискового продвижения (SmartFox)Аналитика поискового продвижения (SmartFox)
Аналитика поискового продвижения (SmartFox)
 
Аналитика поведенческих факторов Яндекс/Гугл
Аналитика поведенческих факторов Яндекс/ГуглАналитика поведенческих факторов Яндекс/Гугл
Аналитика поведенческих факторов Яндекс/Гугл
 
Веб аналитика, лекция в НИУ ВШЭ Пермь
Веб аналитика, лекция в НИУ ВШЭ ПермьВеб аналитика, лекция в НИУ ВШЭ Пермь
Веб аналитика, лекция в НИУ ВШЭ Пермь
 
Аналитика поведенческих фатокров (BDD 15)
Аналитика поведенческих фатокров (BDD 15)Аналитика поведенческих фатокров (BDD 15)
Аналитика поведенческих фатокров (BDD 15)
 
Аналитика для трафиковых проектов (РИФ 2016)
Аналитика для трафиковых проектов (РИФ 2016)Аналитика для трафиковых проектов (РИФ 2016)
Аналитика для трафиковых проектов (РИФ 2016)
 
SEO итоги 2015 (Smartfox)
SEO итоги 2015 (Smartfox)SEO итоги 2015 (Smartfox)
SEO итоги 2015 (Smartfox)
 
SEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендацииSEO эксперименты. Типы, примеры, рекомендации
SEO эксперименты. Типы, примеры, рекомендации
 
Поиск информации в интернете при помощи поисковых систем
Поиск информации в интернете при помощи поисковых системПоиск информации в интернете при помощи поисковых систем
Поиск информации в интернете при помощи поисковых систем
 
Seo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSeo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пф
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 

Similar to "Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ

Сливинский
СливинскийСливинский
Сливинскийtop_expert
 
Принципы работы поисковых систем
Принципы работы поисковых системПринципы работы поисковых систем
Принципы работы поисковых системСергей Кокшаров
 
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"Fwdays
 
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...Ontico
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Дедуктивный метод анализа пользователей
Дедуктивный метод анализа пользователейДедуктивный метод анализа пользователей
Дедуктивный метод анализа пользователейЕвген Гуринович
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)Стас Поломарь
 
Puple's presentation
Puple's presentationPuple's presentation
Puple's presentationKuznecov
 
системный анализ и реинжиниринг
системный анализ и реинжинирингсистемный анализ и реинжиниринг
системный анализ и реинжинирингAleksandr Barmin
 
Start prezenten
Start prezentenStart prezenten
Start prezentenrinto2
 
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2Kamil Kalimullin
 
поисковая оптимизация сайта реальные примеры_кейсы
поисковая оптимизация сайта реальные примеры_кейсыпоисковая оптимизация сайта реальные примеры_кейсы
поисковая оптимизация сайта реальные примеры_кейсыAnastasia Karimova
 
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016Дмитрий Севальнев
 
Юзабилити - ключ к построению успешного интернет бизнеса
Юзабилити - ключ к построению успешного интернет бизнесаЮзабилити - ключ к построению успешного интернет бизнеса
Юзабилити - ключ к построению успешного интернет бизнесаЛенар Амирханов
 
Alexander Dzyuba, Playtestix
Alexander Dzyuba, PlaytestixAlexander Dzyuba, Playtestix
Alexander Dzyuba, Playtestixanastasiaalikova
 

Similar to "Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ (20)

Сливинский
СливинскийСливинский
Сливинский
 
Принципы работы поисковых систем
Принципы работы поисковых системПринципы работы поисковых систем
Принципы работы поисковых систем
 
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"
 
Ageev
AgeevAgeev
Ageev
 
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Дедуктивный метод анализа пользователей
Дедуктивный метод анализа пользователейДедуктивный метод анализа пользователей
Дедуктивный метод анализа пользователей
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Базовый курс по SEO
Базовый курс по SEOБазовый курс по SEO
Базовый курс по SEO
 
Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
Puple's presentation
Puple's presentationPuple's presentation
Puple's presentation
 
системный анализ и реинжиниринг
системный анализ и реинжинирингсистемный анализ и реинжиниринг
системный анализ и реинжиниринг
 
Базовый курс SEO
Базовый курс SEOБазовый курс SEO
Базовый курс SEO
 
Start prezenten
Start prezentenStart prezenten
Start prezenten
 
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
Дизайн мышление или почему так важно знать про правило 7 плюс/минус 2
 
поисковая оптимизация сайта реальные примеры_кейсы
поисковая оптимизация сайта реальные примеры_кейсыпоисковая оптимизация сайта реальные примеры_кейсы
поисковая оптимизация сайта реальные примеры_кейсы
 
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
Ссылки. Яндекс. Год 2016 - Севальнев РИФ Воронеж 2016
 
Юзабилити - ключ к построению успешного интернет бизнеса
Юзабилити - ключ к построению успешного интернет бизнесаЮзабилити - ключ к построению успешного интернет бизнеса
Юзабилити - ключ к построению успешного интернет бизнеса
 
Alexander Dzyuba, Playtestix
Alexander Dzyuba, PlaytestixAlexander Dzyuba, Playtestix
Alexander Dzyuba, Playtestix
 

More from Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 

More from Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ

  • 1. 1
  • 3. 3 Emory Intelligent Information Access Lab Mikhail Ageev Dmitry Lagun Eugene Agichtein
  • 4. 4 Цель: улучшение поисковых аннотаций Критерии качества сниппетов !  Readability –  Сниппет должен быть удобочитаемым !  Representativeness –  Сниппет должен показывать части документа, которые соответствуют запросу пользователя !  Judgeability –  Хороший сниппет должен содержать ответ на вопрос пользователя или указание на то, что ответ есть в документе
  • 5. 5 Алгоритмы выделения сниппетов !  Сопоставление текста документа с запросом !  Учет местоположения текста, структуры документа !  Текстовых факторов недостаточно!
  • 6. 6 Пример: траектория зрачка глаза и идеальный ответ !  Цель поиска –  How many pixels must be dead on a iPad 3 before Apple will replace it? !  Запрос –  [how many dead pixels ipad 3 replace] !  Фрагмент с ответом –  iPad: 3 Dead Pixel -> Apple will replace a new LCD for you Идеальный сниппет!
  • 7. 7 Траектория курсора мыши коррелирует с траекторией зрачка Q. Guo and E. Agichtein. Towards predicting web searcher gaze position from mouse movements. // CHI, 2010. !  Пример: –  Find the worst drought that happened in the history of the US !  Запрос: –  [worst drought in US] The worst droughts in the history of the United States occurred during the 1930s and 1950s, periods of time known as 'Dust Bowl' years Идеальный сниппет!
  • 8. 8 Идея: выделение сниппетов на основе поведения пользователей !  Поведение пользователей на найденной странице (scroll, движения мыши) позволяет выявить фрагменты, интересующие пользователя !  Данные о поведении можно собирать при помощи JavaScript browser API !  Выделение заинтересовавших пользователя фрагментов может позволить улучшить сниппеты
  • 9. 9 Задачи !  Как собрать реалистичные данные поведения пользователей? –  В том числе движения мыши на страницах после SERP !  Как по движениям мыши определить фрагменты, заинтересовавшие пользователя? –  Объём данных: около 400 событий на каждый просмотр страницы –  Разные устройства ввода и версии браузеров –  Разные привычки пользователей !  Как объединить данные поведения и текстовые факторы?
  • 10. 10 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 11. 11 UFindIt: инфраструктура для сбора данных Сбор данных о поведении пользователя !  Цель поиска: найти ответ при помощи поисковой системы !  Игрок находит ответ и подтверждающий URL Участники !  Amazon Mechanical Turk –  HIT = игра из 12 вопросов !  Мотивация игрока –  Гарантированная оплата $1 за игру –  Бонусы для 25% лучших игроков –  Соревнование! Азарт! !  Проверка данных: ReCaptcha + Автоматическая проверка выполнения правил игры
  • 12. 12 Протоколирование: Proxy + JavaScript !  HTTP reverse proxy –  Пользователь использует привычный интерфейс поиска –  HTML-ссылки преобразуются на лету –  В каждую страницу встраивается код JavaScript для отслеживания поведения
  • 13. 13 EMU.js: связь координат мыши с текстом !  Проблема –  Позиция мыши представлена координатами в окне браузера –  Координаты текста зависят от разрешения экрана, версии и настроек браузера !  Решение –  Вычислить координаты всех слов на клиенте и сохранить на сервере
  • 14. 14 Структура данных Для каждого просмотра страницы известны !  Запрос пользователя к поисковой системе !  URL и содержание документа !  Координаты каждого слова в документе !  Лог действие пользователя: движения мыши, клики, прокрутка !  Заданный запрос (цель поиска) !  Ответ, который пользователь отправил Поведенческие факторы Обучающая и тестовая выборки Только для экспериментов
  • 15. 15 Статистика по собранным данным   !  Код и данные свободно доступны http://ir.mathcs.emory.edu/intent/ 109 Пользователей 12 Вопросов 1,175 Поисковых сессий 3,295 Запросов 2,997 Просмотров страниц 662 Различных URL 1,454,257 Атомарных событий 707 Пар запрос-URL (сниппетов) с полным набором данных для экспериментов
  • 16. 16 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 17. 17 Предсказание интересных фрагментов !  Текст HTML-страницы разбивается на фрагменты по пять слов !  6 поведенческих факторов –  Длительность нахождения курсора мыши над фрагментом –  … рядом с фрагментом (±100px) –  Средняя скорость курсора мыши над фрагментом –  … рядом с фрагментом –  Время показа фрагмента в видимой части окна просмотра (scrollbar) –  Время показа фрагмента в середине окна просмотра !  Предсказание вероятности интересного фрагмента !  Метод машинного обучения: GBRT
  • 18. 18 Обучающее множество !  Положительные примеры –  Фрагменты, пересекающиеся с ответом пользователя !  Отрицательные примеры –  Все остальные фрагменты Обучающее множество неполно: мы ничего не знаем об остальных фрагментах, которые пользователь посмотрел !  Пример –  Вопрос: «Which metals float on water?» –  Ответ пользователя: «lithium, sodium, potassium»
  • 19. 19 Предсказание интересных фрагментов Чем выше предсказанная интересность фрагмента (BScore), тем больше пересечение с ответом пользователя (ROUGE)
  • 20. 20 Наиболее важные факторы ! DispMiddleTime – время, в течение которого фрагмент текста был виден на экране ! MouseOverTime – время, в течение которого курсор мыши был над фрагментом текста
  • 21. 21 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 22. 22 Генерация сниппетов: baseline D. Metzler and T. Kanungo. Machine learned sentence selection strategies for query-biased summarization. In SIGIR Learning to Rank Workshop, 2008. !  Для каждого предложения вычисляем 22 фактора –  Точное соответствие –  Количество найденных слов запроса и синонимов (3 фактора) –  BM25-like (4 фактора) –  Расстояние между словами запроса (3 фактора) –  Длина предложения –  Позиция в документе –  Удобочитаемость: количество знаков пунктуации, заглавных слов, различных слов (9 факторов)
  • 23. 23 Генерация сниппетов на основе поведения !  Линейная комбинация весов предложений baseline-алгоритма TextScore(f) и интересности фрагмента BScore(f) !  λ влияет на покрытие и качество сниппетов –  Слишком маленькое λ = сниппеты не отличаются от baseline –  Слишком большое λ = риск низкого качества сниппетов !  Эксперимент:
  • 24. 24 Постановка эксперимента !  Попарная оценка сниппетов для двух алгоритмов по критериям: –  Representativeness Какой из сниппетов лучше отражает соответствие документа запросу? Необходимо прочитать документ до ответа на вопрос. –  Readability Какой из сниппетов лучше написан, легче читается? –  Judgeability Какой из сниппетов лучше помогает найти релевантный ответ и решить, нужно ли кликать на ссылку?
  • 25. 25 Результаты !  Fraction improved: доля сниппетов, улучшенных за счет учета поведения пользователей !  Coverage: доля сниппетов, для которых сниппеты с учетом поведения отличаются от baseline !  При λ  =  0.7  статистически значимое улучшение по всем метрикам
  • 27. 27 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 28. 28 Вопросно-ответный поиск !  Поиск точного ответа на вопрос пользователя !  Основные этапы QA (IR Approach) –  Анализ запроса (POS Tagging, NER), классификация по типу вопроса, формирование шаблонов ответов –  Поиск релевантных документов – кандидатов на нахождение ответов –  Поиск релевантных пассажей –  Анализ пассажей и извлечение ответов по шаблону
  • 29. 29 Улучшение извлечения пассажей !  Baseline algorithm: –  QANUS: open-source QA system from National University of Singapore (Min Yen Kan, 2010) !  BeQA: behavior-based QA –  QANUS fragment score TextScore(f) –  Интересность фрагмента BScore(f)
  • 30. 30 Поиск релевантных пассажей: результаты !  rank𝑖 - позиция первого релевантного ответа !  Поиск ответов по коллекции –  All: все документы по всем вопросам –  Clicked: все документы, которые пользователи посещали при поиске ответа на данный вопрос –  Relevant: документы, про которые известно, что в них есть правильный ответ
  • 31. 31 Основные предположения (и ограничения) !  Эксперименты на информационных вопросах: пользователь ищет текст ответа в документе !  Просмотры страниц сгруппированы по информационной потребности –  Поведенческие факторы усредняются по всем пользователям с одинаковой информационной потребностью !  Данные о поведении пользователя на найденных страницах могут быть собраны поисковой системой –  Плагины браузера –  Рекламные площадки –  Счетчики посещений
  • 32. 32 References !  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. Improving Search Result Summaries By Using Searcher Behavior Data // SIGIR 2013 !  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. The Answer is at your Fingertips: Improving Passage Retrieval for Web Question Answering with Search Behavior Data // EMNLP 2013 !  Код и данные: http://ir.mathcs.emory.edu/intent/