Ageev

Игровой подход к анализу поведения
пользователя интернет-поисковой
системы

Михаил Агеев

НИВЦ МГУ им. М.В.Ломоносова

Лаборатория анализа информационных
ресурсов НИВЦ МГУ
• Решения
– Информационно-аналитические системы
– Отдельные алгоритмы, модули
– Университетская информационная система РОССИЯ
• Технологии
– Классификация документов, кластеризация сообщений, построение аннотаций, поиск
документов по запросу
– Формирование онтологий предметной области, выделение сущностей и связей на основе
корпуса текстов
– Анализ логов, определение характеристик и интересов пользователей
– Data mining, применение методов машинного обучения
• Заказчики
– Правовая система Гарант
– Портал Рамблер
– Центральный Банк РФ
– Государственная Дума РФ
– НИИ Восход
– ...
2

Моделирование успешного поиска
«Классика»
• Cranfield paradigm (1960’s, TREC, CLEF, ROMIP …)
• Модель: «успешный поиск = релевантный документ»
– запрос → список результатов; отношение релевантности для пары
запрос-документ; ad-hoc метрики как функция от позиций
релевантных документов
• Pros:
– Сравнение систем по метрикам качества
– Переиспользуемая коллекция
– Простая модель, (относительно) понятные метрики
• Cons:
– «Запрос ≠ Intent»; «Relevant ≠ Search Success»; Interaction
– Информационные потребности зависят от времени и пользователя;
коллекция меняется со временем
– Интерфейс, сниппеты, подсказки, подсветка найденного
– Sampling, tail queries; толкование запроса; согласованность оценки
– Оценка стоит дорого

3

Цель: моделирование успешного
поиска
• Понимание поведения на основе анализа логов
• Оценка эффективности поисковых систем
• Определение успешности поисковой сессии, оценка
удовлетворенности пользователя
• Улучшение поисковой системы

User Behavior
ip timestamp r
76.14.23.241 [21/Dec/2010:22:56:47
76.14.23.241 [21/Dec/2010:22:57:36
76.14.23.241 [21/Dec/2010:22:57:55
59.182.115.47 [21/Dec/2010:22:57:59
76.14.23.241
76.14.23.241 Logs
[21/Dec/2010:22:58:36
[21/Dec/2010:22:59:55
76.14.23.241 [21/Dec/2010:23:01:00

Behavior Model
Search
Engine
Quality

4

Ключевые вопросы
• Каковы

s
es
характеристики

Searcher
Advanced

cc
опыта успешных

Su
n
пользователей?

io
ss
Se
• Чем отличаются
сложные для поиска
вопросы от простых?
Searcher
• Как по поведению Low-success
пользователя
определить
успешность
поисковой сессии? Hard Question Easy Question

5

Задачи

• Собрать реальные данные взаимодействия
пользователей и поисковой системы с известными
поисковыми потребностями и критерием успешности
сессии
• Предсказать успешность поиска на основе логов
взаимодействия

6

План
• Введение

• Игра для сбора данных

• Предсказание успешности поисковой сессии

• Эксперименты

• Выводы
7
7

UFindIt: A Game With a Purpose
• Сбор данных о поведении пользователя
– Цель поиска задана – найти ответ на вопрос
– Игрок находит ответ и URL, его подтверждающий
– Ответ проверяется модераторами
– http://ir-ub.mathcs.emory.edu:8100/

8
8

Откуда взять пользователей
• Amazon Mechanical Turk
– HIT = игра из 10 вопросов
• Мотивация игрока
– Гарантированная оплата за игру Worker (optional) feedback:
– Бонусы для 25% лучших игроков • "That was pretty interesting and
– Соревнование! Азарт! worked well. I felt like I was able to
get answers to most of the questions
• Проверка данных pretty easily."
– ReCaptcha • "Little confusing at first… search
– Автоматическая проверка выполнения engines were not very helpful on
правил игры most without some in depth
searching"
• Использование нашего proxy
• URL ответа посещен (в логе)
• Ненулевое количество запросов и кликов
• Игрок должен ответить на тривиальные вопросы
– Ручная проверка правильности ответов и логов
9
9

Задачи игры:
поиск ответа на вопрос в интернете
• Источники: community
question answering sites Example Questions:
• How many Swedes speak English as a
– Wiki.answers.com percentage?
• When the jominy test was invented?
– Yahoo! Answers • Which metals float on water?
• What is oxygen partial pressure at 5000
• Хороший вопрос должен feet?
быть • How many Argentine soldiers died in
falklands islands war?
– Не слишком простым • What ingredients in cough medicine make
you hallucinate?
(unanswered) • How do you say welcome in kashmiri?
– Иметь простой, короткий • Am I allowed to carry a parachute onboard
as a hand luggage?
ответ • What animal is smaller than a bear but it
eats a plant called bearberry?
– Иметь ответ в интернете

10
10

Протоколирование: Proxy +
JavaScript
• HTTP reverse proxy
– Пользователь использует привычный интерфейс поиска
– HTML-ссылки преобразуются на лету
– Apache httpd modules: mod_proxy_http, mod_proxy_html,
mod_sed, mod_cache, mod_log_config

11
11

Статистика по собранным данным
• Участники: Mechanical Turk
– 159 участников, 20% отфильтрованы (из-за нарушений
правил)
– $1 за игру, +$1 бонус лучшим игрокам 25% (всего $250)
• Данные
– 40 вопросов в 4-х играх
– 1,487 сессий, 4,382 запросов, 14,676 кликов
– 87% A+, 65% A+V+
• Все коды и данные доступны Open Source
– http://ir-ub.mathcs.emory.edu/uFindIt/

12
12

План




• Выводы
13
13

Предсказание успешности сессии
• Метод машинного обучения
– Input: лог для отдельной поисковой сессии
(запросы, клики, движения мыши, scrolling)
– Output: флаг «поисковая сессия успешна»?
• 4 определения успешности – QRAV model
• Baseline: Markov Model + Time distribution
[Hassan et al. WSDM 2010], 2 фактора
– STATE ∈ { QUERY, R1, R>1, END }
– Time delta ∆t
• Наш подход: Conditional Random Fields (CRF)
– 18 факторов, извлекаемых из логов

14
14

Conditional Random Fields (CRF)
• Расширяет модель цепи Маркова дополнительными факторами
• 18 факторов, численные факторы дискретизированы
• Реализация CRF: Mallet

Labels
(session + + + + +
success)

Query1 Result1 Result2 Query 2 Result3
Observations

Features Features Features Features Features

∆t≤10s=True ∆t≤10s=True ∆t≤10s=False ∆t≤10s=Tru ∆t≤10s=True
QWL≤3=True Rwiki =False Rwiki =False QWL≤3=Fal Rwiki =True
Q wiki =False CntQ≤3=True CntQ≤3=True Q wiki=True CntQ≤3=True
... ... ... ... ...

15
15

Факторы из логов (I)
Markov Model Features
state Type of visited page { QUERY, R1, R>1, END }
∆t Time delta between previous state and current state
Query Features
Qengine One of {google, bing, yahoo}
Qabandoned True if there no clicks for the query
QWL Query word length
QADV True if the query use advanced query syntax
QDT Query Deliberation Time

16
16

Факторы из логов (II)
Non-SERP Page Features
Rwiki True if visited page is on wikipedia.org
RQ_serp_pos Position of SERP click
Rtrail Length of trail from search engine result page
refserp, refstart Features from HTTP Referer header, could catch some
patterns of non-linear browsing, when user uses several
browser tabs
Session-level Aggregates
CntQ, CntR Count of queries and pages in the session

17
17

План




• Выводы
18
18

Анализ поведения успешных
пользователей
Успешные пользователи
по сравнению с менее
успешными:

Задают более короткие вопросы

Быстрее анализируют
результаты и кликают на
документы

Чаще используют
расширенный язык запросов

Задают больше запросов на
каждый вопрос, просматривают
больше страниц на запрос,
уходят дальше от SERP

19
19

QRAV: Query-Result-Answer-Verification модель
успешной сессии
• Q: пользователь должен правильно понять вопрос и
сформулировать запрос
Q+=“Good Query” если SERP содержит хороший
URL
• R: пользователь должен выбрать правильный URL на
SERP
R+=“Good URL” если документ содержит
правильный ответ
• A: пользователь должен найти ответ внутри документа
A+=“Answer is Found”
• V: проверка правильности ответа
V+=“Answer is verified and correct”
Search Success 20
20

Разные определения успешности
поисковой сессии
• Q+R+A+V+: Найден
правильный ответ Question
[TREC QA track] Q- R- A- V-
• Q+R+A+V?: Пользователь
нашел некоторый ответ и
верит, что его ответ Q+ R+ A+ V+
правильный; пользователь
удовлетворен, хотя ответ
может быть неправильным
[Aula et al. CHI 2010]
• Q+R+A?V?: Пользователь нашел хороший документ и посмотрел его (но не
обязательно нашел в нем ответ) – [Hassan et al. WSDM 2010]
• Q?RL+A?V?: Пользователь нашел хороший документ и остановил свой выбор на
нем (просмотрел последним в сессии), после этого пользователь
(предположительно) удовлетворен [Dupret et al., WSDM 2010]

21
21

Детальный анализ по QRAV
• Что делает вопрос трудным для поиска?
– Трудно сформулировать правильный запрос Q+?
– Трудно выбрать правильный документ на SERP R+?
– Трудно найти ответ в документе A+?
– Выбрать правильный ответ из нескольких возможных V+?
• Оцениваем R+, и Q+ из данных:
– R+ = “этот URL был отправлен одним из пользователей и
содержал правильный ответ”
– Q+ = “SERP этого запроса содержал R+ ”
• Оценка значимости различных характеристик опыта
пользователей, например
– Слабые пользователи находят правильный запрос в 87% сессий,
сильные в 95%
– Для слабых пользователей лишь 42% хороших запросов
приводили к нахождению правильного ответа, для сильных
пользователей - 89%

22
22

Анализ диаграммы состояний:
успешные и слабые пользователи
0.42 0.46
• Обе группы пользователей
легко формулируют Question
0.14
хороший запрос
• LOW труднее находят
0.21
Q- 0.42
R- 0.10
A- 1.0
V-
правильный документ на 7
0.1

0.13

0.12
0.19
0.79
SERP 4
HIGH 0. 2
• LOW часто зацикливаются 0.12
users
на анализе нерелевантных Q+ 0.48
R+ 0.43
A+ 0.91
V+
документов и не могут
переформулировать запрос
0.20 0.23
• HIGH быстро переходят от 0.53
0.48
анализа нерелевантных
результатов к правильной Question
0.14
переформулировке запроса,
либо по ссылкам к
0.22
Q- 0.32
R- 0.10
A- 1.0 V-
релевантному документу
0.10

0.17
0.78 0.15 0.54
8
0. 2
LOW
users Q+ 0.38
R+ 0.45
A+ 0.46
V+
0.25 0.27 23
23

Анализ диаграммы состояний:
сложные и простые вопросы
0.41 0.47
• Difficult question:
“When the jominy Question
0.39
test was invented?” 0.98
Q- 0.53
R- 0.10
A- 1.0
V-
(8/44 V+)

0.26

0.38
0.02 0.64
• Easy question: Difficult 0. 3
2

“What is the highest question 0.12 0.36
peak in western Q+ 0.15
R+ 0.46
A+ V+
hemisphere?”
(39/41 V+) 0.11 0.23
0.41 0.36

Question
0.02
Q-
0.50
0.50
R- 0.18
A- 1.0
V-

0.39

0.16
0.98 0.05
5
0. 1
Easy
question Q+ 0.72
R+ 0.50
A+ 0.95
V+
0.15 0.30 24
24

Предсказание успешности сессии

• CRF предсказывает лучше для всех определений успешности

25
25

Предсказание успешности поиска на
реальных данных
• Цель: предсказать успешность
поиска для реальных
пользователей университетской
библиотеки
• Данные:
– Логи собраны при помощи
плагина к Firefox в библиотеке
университета Emory
– 16,693 сессий собрано
– 175 сессий вручную оценено по
шкале «успешная/неуспешная»
• 43% “невозможно оценить” – удалены
• 51% “успешные”
• 49% “неуспешные”
• Алгоритм: CRF, обученный на данных игры:
– Все факторы кроме refserp, refstart, RQ_serp_pos
– Метка успешности при обучении:
• Q+R+A?V? – “Найден релевантный документ”
• Q?RL+A?V? – “Релевантный документ найден, и просмотрен последним в сессии”

26
26

Предсказание успешности поиска на
реальных данных: результаты
• CRF существенно лучше, чем предсказание
«наугад»
• Собранные в игре данные и предложенный
алгоритм применимы для предсказания
успешности поиска на реальных данных

27
27

Выводы
• Модель сбора данных о поведении пользователей
– Четкое определение информационной потребности
– Заданные границы сессий
– Дешево ($0.15 за сессию)
– Более подробные данные о поведении, чем click log
• Иерархическая модель успешной поисковой сессии
– Обобщение предыдущих моделей
– Более строгое определение успешной сессии
• Характеристики успешных пользователей
– Анализ переходов внутри модели QRAV
• Предсказание успешности сессии для разных
определений успеха
– Новая модель на основе CRF превосходит известную
MML+Time

28
28

Ageev

More Related Content

Similar to Ageev

More from NLPseminar

Ageev