SlideShare a Scribd company logo
Игровой подход к анализу поведения
 пользователя интернет-поисковой
             системы

           Михаил Агеев

      НИВЦ МГУ им. М.В.Ломоносова
Лаборатория анализа информационных
            ресурсов НИВЦ МГУ
•   Решения
     – Информационно-аналитические системы
     – Отдельные алгоритмы, модули
     – Университетская информационная система РОССИЯ
•   Технологии
     – Классификация документов, кластеризация сообщений, построение аннотаций, поиск
       документов по запросу
     – Формирование онтологий предметной области, выделение сущностей и связей на основе
       корпуса текстов
     – Анализ логов, определение характеристик и интересов пользователей
     – Data mining, применение методов машинного обучения
•   Заказчики
     –   Правовая система Гарант
     –   Портал Рамблер
     –   Центральный Банк РФ
     –   Государственная Дума РФ
     –   НИИ Восход
     –   ...
                                                                                       2
Моделирование успешного поиска
             «Классика»
• Cranfield paradigm (1960’s, TREC, CLEF, ROMIP …)
• Модель: «успешный поиск = релевантный документ»
   – запрос → список результатов; отношение релевантности для пары
     запрос-документ; ad-hoc метрики как функция от позиций
     релевантных документов
• Pros:
   – Сравнение систем по метрикам качества
   – Переиспользуемая коллекция
   – Простая модель, (относительно) понятные метрики
• Cons:
   – «Запрос ≠ Intent»; «Relevant ≠ Search Success»; Interaction
   – Информационные потребности зависят от времени и пользователя;
     коллекция меняется со временем
   – Интерфейс, сниппеты, подсказки, подсветка найденного
   – Sampling, tail queries; толкование запроса; согласованность оценки
   – Оценка стоит дорого

                                                                          3
Цель: моделирование успешного
                  поиска
• Понимание поведения на основе анализа логов
• Оценка эффективности поисковых систем
• Определение успешности поисковой сессии, оценка
  удовлетворенности пользователя
•     Улучшение поисковой системы

User Behavior
                ip                 timestamp               r
                76.14.23.241       [21/Dec/2010:22:56:47
                76.14.23.241       [21/Dec/2010:22:57:36
                76.14.23.241       [21/Dec/2010:22:57:55
                59.182.115.47      [21/Dec/2010:22:57:59
                76.14.23.241
                76.14.23.241    Logs
                                   [21/Dec/2010:22:58:36
                                   [21/Dec/2010:22:59:55
                76.14.23.241       [21/Dec/2010:23:01:00



                                                               Behavior Model
                                                                                Search
                                                                                Engine
                                                                                Quality


                                                                                          4
Ключевые вопросы
• Каковы




                                                                       s
                                                                    es
  характеристики




                        Searcher
                        Advanced




                                                                 cc
  опыта успешных




                                                              Su
                                                              n
  пользователей?




                                                            io
                                                         ss
                                                      Se
• Чем отличаются
  сложные для поиска
  вопросы от простых?
                        Searcher
• Как по поведению      Low-success
  пользователя
  определить
  успешность
  поисковой сессии?                   Hard Question         Easy Question


                                                                            5
Задачи

• Собрать реальные данные взаимодействия
  пользователей и поисковой системы с известными
  поисковыми потребностями и критерием успешности
  сессии
• Предсказать успешность поиска на основе логов
  взаимодействия




                                                    6
План
• Введение

• Игра для сбора данных

• Предсказание успешности поисковой сессии

• Эксперименты

• Выводы
                                             7
                                             7
UFindIt: A Game With a Purpose
• Сбор данных о поведении пользователя
  –   Цель поиска задана – найти ответ на вопрос
  –   Игрок находит ответ и URL, его подтверждающий
  –   Ответ проверяется модераторами
  –   http://ir-ub.mathcs.emory.edu:8100/




                                                      8
                                                      8
Откуда взять пользователей
• Amazon Mechanical Turk
   – HIT = игра из 10 вопросов
• Мотивация игрока
   – Гарантированная оплата за игру     Worker (optional) feedback:
   – Бонусы для 25% лучших игроков      • "That was pretty interesting and
   – Соревнование! Азарт!                 worked well. I felt like I was able to
                                          get answers to most of the questions
• Проверка данных                         pretty easily."
   – ReCaptcha                          • "Little confusing at first… search
   – Автоматическая проверка выполнения engines were not very helpful on
     правил игры                          most without some in depth
                                                     searching"
        •   Использование нашего proxy
        •   URL ответа посещен (в логе)
        •   Ненулевое количество запросов и кликов
        •   Игрок должен ответить на тривиальные вопросы
    – Ручная проверка правильности ответов и логов
                                                                             9
                                                                             9
Задачи игры:
     поиск ответа на вопрос в интернете
• Источники: community
  question answering sites     Example Questions:
                               • How many Swedes speak English as a
   – Wiki.answers.com            percentage?
                               • When the jominy test was invented?
   – Yahoo! Answers            • Which metals float on water?
                               • What is oxygen partial pressure at 5000
• Хороший вопрос должен          feet?
  быть                         • How many Argentine soldiers died in
                                 falklands islands war?
   – Не слишком простым        • What ingredients in cough medicine make
                                 you hallucinate?
     (unanswered)              • How do you say welcome in kashmiri?
   – Иметь простой, короткий   • Am I allowed to carry a parachute onboard
                                 as a hand luggage?
     ответ                     • What animal is smaller than a bear but it
                                 eats a plant called bearberry?
   – Иметь ответ в интернете

                                                                             10
                                                                             10
Протоколирование: Proxy +
             JavaScript
• HTTP reverse proxy
  – Пользователь использует привычный интерфейс поиска
  – HTML-ссылки преобразуются на лету
  – Apache httpd modules: mod_proxy_http, mod_proxy_html,
    mod_sed, mod_cache, mod_log_config




                                                            11
                                                            11
Статистика по собранным данным
• Участники: Mechanical Turk
  – 159 участников, 20% отфильтрованы (из-за нарушений
    правил)
  – $1 за игру, +$1 бонус лучшим игрокам 25% (всего $250)
• Данные
  – 40 вопросов в 4-х играх
  – 1,487 сессий, 4,382 запросов, 14,676 кликов
  – 87% A+, 65% A+V+
• Все коды и данные доступны Open Source
  – http://ir-ub.mathcs.emory.edu/uFindIt/



                                                            12
                                                            12
План
• Введение

• Игра для сбора данных

• Предсказание успешности поисковой сессии

• Эксперименты

• Выводы
                                         13
                                         13
Предсказание успешности сессии
• Метод машинного обучения
  – Input: лог для отдельной поисковой сессии
    (запросы, клики, движения мыши, scrolling)
  – Output: флаг «поисковая сессия успешна»?
     • 4 определения успешности – QRAV model
• Baseline: Markov Model + Time distribution
  [Hassan et al. WSDM 2010], 2 фактора
  – STATE ∈ { QUERY, R1, R>1, END }
  – Time delta ∆t
• Наш подход: Conditional Random Fields (CRF)
  – 18 факторов, извлекаемых из логов

                                                 14
                                                 14
Conditional Random Fields (CRF)
• Расширяет модель цепи Маркова дополнительными факторами
• 18 факторов, численные факторы дискретизированы
• Реализация CRF: Mallet

          Labels
         (session +               +              +             +              +
         success)


                Query1         Result1        Result2       Query 2        Result3
        Observations

               Features         Features       Features      Features      Features

             ∆t≤10s=True     ∆t≤10s=True    ∆t≤10s=False   ∆t≤10s=Tru    ∆t≤10s=True
             QWL≤3=True      Rwiki =False   Rwiki =False   QWL≤3=Fal     Rwiki =True
             Q wiki =False   CntQ≤3=True    CntQ≤3=True    Q wiki=True   CntQ≤3=True
             ...             ...            ...            ...           ...


                                                                                       15
                                                                                       15
Факторы из логов (I)
                     Markov Model Features
  state      Type of visited page { QUERY, R1, R>1, END }
   ∆t        Time delta between previous state and current state
                          Query Features
 Qengine     One of {google, bing, yahoo}
Qabandoned   True if there no clicks for the query
  QWL        Query word length
  QADV       True if the query use advanced query syntax
  QDT        Query Deliberation Time


                                                                   16
                                                                   16
Факторы из логов (II)
                     Non-SERP Page Features
    Rwiki       True if visited page is on wikipedia.org
 RQ_serp_pos    Position of SERP click
    Rtrail      Length of trail from search engine result page
refserp, refstart Features from HTTP Referer header, could catch some
                  patterns of non-linear browsing, when user uses several
                  browser tabs
                     Session-level Aggregates
CntQ, CntR Count of queries and pages in the session




                                                                            17
                                                                            17
План
• Введение

• Игра для сбора данных

• Предсказание успешности поисковой сессии

• Эксперименты

• Выводы
                                             18
                                             18
Анализ поведения успешных
                 пользователей
  Успешные пользователи
  по сравнению с менее
  успешными:

Задают более короткие вопросы

Быстрее анализируют
результаты и кликают на
документы

Чаще используют
расширенный язык запросов



Задают больше запросов на
каждый вопрос, просматривают
больше страниц на запрос,
уходят дальше от SERP


                                       19
                                       19
QRAV: Query-Result-Answer-Verification модель
             успешной сессии
• Q: пользователь должен правильно понять вопрос и
  сформулировать запрос
      Q+=“Good Query” если SERP содержит хороший
      URL
• R: пользователь должен выбрать правильный URL на
  SERP
      R+=“Good URL” если документ содержит
      правильный ответ
• A: пользователь должен найти ответ внутри документа
      A+=“Answer is Found”
• V: проверка правильности ответа
      V+=“Answer is verified and correct”
  Search Success                                     20
                                                     20
Разные определения успешности
                 поисковой сессии
• Q+R+A+V+: Найден
  правильный ответ           Question
  [TREC QA track]                          Q-        R-        A-      V-
• Q+R+A+V?: Пользователь
  нашел некоторый ответ и
  верит, что его ответ                    Q+         R+       A+       V+
  правильный; пользователь
  удовлетворен, хотя ответ
  может быть неправильным
  [Aula et al. CHI 2010]
• Q+R+A?V?: Пользователь нашел хороший документ и посмотрел его (но не
  обязательно нашел в нем ответ) – [Hassan et al. WSDM 2010]
• Q?RL+A?V?: Пользователь нашел хороший документ и остановил свой выбор на
  нем (просмотрел последним в сессии), после этого пользователь
  (предположительно) удовлетворен [Dupret et al., WSDM 2010]

                                                                      21
                                                                      21
Детальный анализ по QRAV
• Что делает вопрос трудным для поиска?
   – Трудно сформулировать правильный запрос Q+?
   – Трудно выбрать правильный документ на SERP R+?
   – Трудно найти ответ в документе A+?
   – Выбрать правильный ответ из нескольких возможных V+?
• Оцениваем R+, и Q+ из данных:
   – R+ = “этот URL был отправлен одним из пользователей и
     содержал правильный ответ”
   – Q+ = “SERP этого запроса содержал R+ ”
• Оценка значимости различных характеристик опыта
  пользователей, например
   – Слабые пользователи находят правильный запрос в 87% сессий,
     сильные в 95%
   – Для слабых пользователей лишь 42% хороших запросов
     приводили к нахождению правильного ответа, для сильных
     пользователей - 89%

                                                               22
                                                               22
Анализ диаграммы состояний:
                 успешные и слабые пользователи
                                                0.42                 0.46
•   Обе группы пользователей
    легко формулируют           Question
                                                          0.14
    хороший запрос
•   LOW труднее находят
                                        0.21
                                               Q-         0.42
                                                                    R-            0.10
                                                                                         A-   1.0
                                                                                                     V-
    правильный документ на                                  7
                                                         0.1




                                               0.13




                                                                    0.12
                                                                           0.19
                                        0.79
    SERP                                                        4
                                HIGH                        0. 2
•   LOW часто зацикливаются                               0.12
                                users
    на анализе нерелевантных                   Q+         0.48
                                                                    R+            0.43
                                                                                         A+   0.91
                                                                                                     V+
    документов и не могут
    переформулировать запрос
                                                  0.20               0.23
•   HIGH быстро переходят от                                         0.53
                                                0.48
    анализа нерелевантных
    результатов к правильной    Question
                                                          0.14
    переформулировке запроса,
    либо по ссылкам к
                                        0.22
                                               Q-        0.32
                                                                    R-            0.10
                                                                                         A-   1.0    V-
    релевантному документу
                                               0.10




                                                                           0.17
                                        0.78                                      0.15        0.54
                                                                8
                                                            0. 2
                                LOW
                                users          Q+        0.38
                                                                    R+            0.45
                                                                                         A+   0.46
                                                                                                     V+
                                                  0.25               0.27                            23
                                                                                                     23
Анализ диаграммы состояний:
                 сложные и простые вопросы
                                                   0.41                       0.47
• Difficult question:
  “When the jominy       Question
                                                             0.39
  test was invented?”                0.98
                                             Q-              0.53
                                                                        R-                  0.10
                                                                                                   A-   1.0
                                                                                                               V-
  (8/44 V+)




                                                      0.26




                                                                                 0.38
                                     0.02                                                               0.64
• Easy question:         Difficult                             0. 3
                                                                   2

  “What is the highest   question                            0.12                                       0.36
  peak in western                           Q+               0.15
                                                                       R+                   0.46
                                                                                                   A+          V+
  hemisphere?”
  (39/41 V+)                                       0.11                       0.23
                                                   0.41                       0.36

                         Question
                                     0.02
                                             Q-
                                            0.50
                                                             0.50
                                                                        R-                  0.18
                                                                                                   A-   1.0
                                                                                                               V-


                                                                       0.39


                                                                                     0.16
                                     0.98                                                               0.05
                                                                   5
                                                               0. 1
                          Easy
                         question           Q+               0.72
                                                                       R+                   0.50
                                                                                                   A+   0.95
                                                                                                               V+
                                                   0.15                       0.30                             24
                                                                                                               24
Предсказание успешности сессии




• CRF предсказывает лучше для всех определений успешности

                                                      25
                                                      25
Предсказание успешности поиска на
               реальных данных
• Цель: предсказать успешность
  поиска для реальных
  пользователей университетской
  библиотеки
• Данные:
  – Логи собраны при помощи
    плагина к Firefox в библиотеке
    университета Emory
  – 16,693 сессий собрано
  – 175 сессий вручную оценено по
    шкале «успешная/неуспешная»
     • 43% “невозможно оценить” – удалены
     • 51% “успешные”
     • 49% “неуспешные”
• Алгоритм: CRF, обученный на данных игры:
  – Все факторы кроме refserp, refstart, RQ_serp_pos
  – Метка успешности при обучении:
     • Q+R+A?V? – “Найден релевантный документ”
     • Q?RL+A?V? – “Релевантный документ найден, и просмотрен последним в сессии”

                                                                                    26
                                                                                    26
Предсказание успешности поиска на
   реальных данных: результаты
• CRF существенно лучше, чем предсказание
  «наугад»
• Собранные в игре данные и предложенный
  алгоритм применимы для предсказания
  успешности поиска на реальных данных




                                            27
                                            27
Выводы
• Модель сбора данных о поведении пользователей
   –   Четкое определение информационной потребности
   –   Заданные границы сессий
   –   Дешево ($0.15 за сессию)
   –   Более подробные данные о поведении, чем click log
• Иерархическая модель успешной поисковой сессии
   – Обобщение предыдущих моделей
   – Более строгое определение успешной сессии
• Характеристики успешных пользователей
   – Анализ переходов внутри модели QRAV
• Предсказание успешности сессии для разных
  определений успеха
   – Новая модель на основе CRF превосходит известную
     MML+Time


                                                           28
                                                           28

More Related Content

Similar to Ageev

Presentacion Ruso
Presentacion RusoPresentacion Ruso
Presentacion Ruso
ProstOpros.ru
 
Presentacion Ruso
Presentacion RusoPresentacion Ruso
Presentacion Ruso
ProstOpros.ru
 
Cеминар по Seo
Cеминар по SeoCеминар по Seo
Cеминар по Seo
Алёна Едемская
 
Cеминар по Seo
Cеминар по SeoCеминар по Seo
Cеминар по SeoEvkos
 
Оптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaОптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaAlex Chistyakov
 
Google analytic, часть_1
Google analytic, часть_1Google analytic, часть_1
Google analytic, часть_1
Евразия
 
Аналитика и метрики приложений 29.11.2016 г.
Аналитика и метрики приложений 29.11.2016 г.Аналитика и метрики приложений 29.11.2016 г.
Аналитика и метрики приложений 29.11.2016 г.
SPbCoA
 
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
Yandex
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
Евгений Летов
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
Playtini
 
Принципы работы поисковых систем
Принципы работы поисковых системПринципы работы поисковых систем
Принципы работы поисковых систем
Сергей Кокшаров
 
Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов
Машинное обучение в Дзене - Евгений Соколов и Дмитрий УшановМашинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов
Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов
AvitoTech
 
Веб аналитика, лекция в НИУ ВШЭ Пермь
Веб аналитика, лекция в НИУ ВШЭ ПермьВеб аналитика, лекция в НИУ ВШЭ Пермь
Веб аналитика, лекция в НИУ ВШЭ ПермьAlex Zagoumenov
 
SeoНеонатология
SeoНеонатологияSeoНеонатология
SeoНеонатология
Игорь Чуркин
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснетаyaevents
 
Оценка эффективности работы аналитика
Оценка эффективности работы аналитикаОценка эффективности работы аналитика
Оценка эффективности работы аналитика
SQALab
 

Similar to Ageev (20)

Presentacion Ruso
Presentacion RusoPresentacion Ruso
Presentacion Ruso
 
Presentacion Ruso
Presentacion RusoPresentacion Ruso
Presentacion Ruso
 
Cеминар по Seo
Cеминар по SeoCеминар по Seo
Cеминар по Seo
 
Cеминар по Seo
Cеминар по SeoCеминар по Seo
Cеминар по Seo
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
Оптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на JavaОптимизация производительности нагруженных веб-систем на Java
Оптимизация производительности нагруженных веб-систем на Java
 
Google analytic, часть_1
Google analytic, часть_1Google analytic, часть_1
Google analytic, часть_1
 
Аналитика и метрики приложений 29.11.2016 г.
Аналитика и метрики приложений 29.11.2016 г.Аналитика и метрики приложений 29.11.2016 г.
Аналитика и метрики приложений 29.11.2016 г.
 
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Базовый курс по SEO
Базовый курс по SEOБазовый курс по SEO
Базовый курс по SEO
 
Zhelnova
ZhelnovaZhelnova
Zhelnova
 
лаф2013
лаф2013лаф2013
лаф2013
 
Принципы работы поисковых систем
Принципы работы поисковых системПринципы работы поисковых систем
Принципы работы поисковых систем
 
Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов
Машинное обучение в Дзене - Евгений Соколов и Дмитрий УшановМашинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов
Машинное обучение в Дзене - Евгений Соколов и Дмитрий Ушанов
 
Веб аналитика, лекция в НИУ ВШЭ Пермь
Веб аналитика, лекция в НИУ ВШЭ ПермьВеб аналитика, лекция в НИУ ВШЭ Пермь
Веб аналитика, лекция в НИУ ВШЭ Пермь
 
SeoНеонатология
SeoНеонатологияSeoНеонатология
SeoНеонатология
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснета
 
Оценка эффективности работы аналитика
Оценка эффективности работы аналитикаОценка эффективности работы аналитика
Оценка эффективности работы аналитика
 

More from NLPseminar

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
NLPseminar
 
Events
EventsEvents
Events
NLPseminar
 
клышинский
клышинскийклышинский
клышинский
NLPseminar
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гавриловаNLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3NLPseminar
 
rubashkin
rubashkinrubashkin
rubashkin
NLPseminar
 
Vlasova
VlasovaVlasova
Vlasova
NLPseminar
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
NLPseminar
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
NLPseminar
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
NLPseminar
 
потапов
потаповпотапов
потапов
NLPseminar
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
NLPseminar
 
белканова
белкановабелканова
белканова
NLPseminar
 
Skatov
SkatovSkatov
Skatov
NLPseminar
 
гвоздикин
гвоздикингвоздикин
гвоздикин
NLPseminar
 
веселов
веселоввеселов
веселов
NLPseminar
 
Mitsov
MitsovMitsov
Mitsov
NLPseminar
 

More from NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
Tomita
TomitaTomita
Tomita
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
клышинский
клышинскийклышинский
клышинский
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
потапов
потаповпотапов
потапов
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
белканова
белкановабелканова
белканова
 
Skatov
SkatovSkatov
Skatov
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 
Mitsov
MitsovMitsov
Mitsov
 

Ageev

  • 1. Игровой подход к анализу поведения пользователя интернет-поисковой системы Михаил Агеев НИВЦ МГУ им. М.В.Ломоносова
  • 2. Лаборатория анализа информационных ресурсов НИВЦ МГУ • Решения – Информационно-аналитические системы – Отдельные алгоритмы, модули – Университетская информационная система РОССИЯ • Технологии – Классификация документов, кластеризация сообщений, построение аннотаций, поиск документов по запросу – Формирование онтологий предметной области, выделение сущностей и связей на основе корпуса текстов – Анализ логов, определение характеристик и интересов пользователей – Data mining, применение методов машинного обучения • Заказчики – Правовая система Гарант – Портал Рамблер – Центральный Банк РФ – Государственная Дума РФ – НИИ Восход – ... 2
  • 3. Моделирование успешного поиска «Классика» • Cranfield paradigm (1960’s, TREC, CLEF, ROMIP …) • Модель: «успешный поиск = релевантный документ» – запрос → список результатов; отношение релевантности для пары запрос-документ; ad-hoc метрики как функция от позиций релевантных документов • Pros: – Сравнение систем по метрикам качества – Переиспользуемая коллекция – Простая модель, (относительно) понятные метрики • Cons: – «Запрос ≠ Intent»; «Relevant ≠ Search Success»; Interaction – Информационные потребности зависят от времени и пользователя; коллекция меняется со временем – Интерфейс, сниппеты, подсказки, подсветка найденного – Sampling, tail queries; толкование запроса; согласованность оценки – Оценка стоит дорого 3
  • 4. Цель: моделирование успешного поиска • Понимание поведения на основе анализа логов • Оценка эффективности поисковых систем • Определение успешности поисковой сессии, оценка удовлетворенности пользователя • Улучшение поисковой системы User Behavior ip timestamp r 76.14.23.241 [21/Dec/2010:22:56:47 76.14.23.241 [21/Dec/2010:22:57:36 76.14.23.241 [21/Dec/2010:22:57:55 59.182.115.47 [21/Dec/2010:22:57:59 76.14.23.241 76.14.23.241 Logs [21/Dec/2010:22:58:36 [21/Dec/2010:22:59:55 76.14.23.241 [21/Dec/2010:23:01:00 Behavior Model Search Engine Quality 4
  • 5. Ключевые вопросы • Каковы s es характеристики Searcher Advanced cc опыта успешных Su n пользователей? io ss Se • Чем отличаются сложные для поиска вопросы от простых? Searcher • Как по поведению Low-success пользователя определить успешность поисковой сессии? Hard Question Easy Question 5
  • 6. Задачи • Собрать реальные данные взаимодействия пользователей и поисковой системы с известными поисковыми потребностями и критерием успешности сессии • Предсказать успешность поиска на основе логов взаимодействия 6
  • 7. План • Введение • Игра для сбора данных • Предсказание успешности поисковой сессии • Эксперименты • Выводы 7 7
  • 8. UFindIt: A Game With a Purpose • Сбор данных о поведении пользователя – Цель поиска задана – найти ответ на вопрос – Игрок находит ответ и URL, его подтверждающий – Ответ проверяется модераторами – http://ir-ub.mathcs.emory.edu:8100/ 8 8
  • 9. Откуда взять пользователей • Amazon Mechanical Turk – HIT = игра из 10 вопросов • Мотивация игрока – Гарантированная оплата за игру Worker (optional) feedback: – Бонусы для 25% лучших игроков • "That was pretty interesting and – Соревнование! Азарт! worked well. I felt like I was able to get answers to most of the questions • Проверка данных pretty easily." – ReCaptcha • "Little confusing at first… search – Автоматическая проверка выполнения engines were not very helpful on правил игры most without some in depth searching" • Использование нашего proxy • URL ответа посещен (в логе) • Ненулевое количество запросов и кликов • Игрок должен ответить на тривиальные вопросы – Ручная проверка правильности ответов и логов 9 9
  • 10. Задачи игры: поиск ответа на вопрос в интернете • Источники: community question answering sites Example Questions: • How many Swedes speak English as a – Wiki.answers.com percentage? • When the jominy test was invented? – Yahoo! Answers • Which metals float on water? • What is oxygen partial pressure at 5000 • Хороший вопрос должен feet? быть • How many Argentine soldiers died in falklands islands war? – Не слишком простым • What ingredients in cough medicine make you hallucinate? (unanswered) • How do you say welcome in kashmiri? – Иметь простой, короткий • Am I allowed to carry a parachute onboard as a hand luggage? ответ • What animal is smaller than a bear but it eats a plant called bearberry? – Иметь ответ в интернете 10 10
  • 11. Протоколирование: Proxy + JavaScript • HTTP reverse proxy – Пользователь использует привычный интерфейс поиска – HTML-ссылки преобразуются на лету – Apache httpd modules: mod_proxy_http, mod_proxy_html, mod_sed, mod_cache, mod_log_config 11 11
  • 12. Статистика по собранным данным • Участники: Mechanical Turk – 159 участников, 20% отфильтрованы (из-за нарушений правил) – $1 за игру, +$1 бонус лучшим игрокам 25% (всего $250) • Данные – 40 вопросов в 4-х играх – 1,487 сессий, 4,382 запросов, 14,676 кликов – 87% A+, 65% A+V+ • Все коды и данные доступны Open Source – http://ir-ub.mathcs.emory.edu/uFindIt/ 12 12
  • 13. План • Введение • Игра для сбора данных • Предсказание успешности поисковой сессии • Эксперименты • Выводы 13 13
  • 14. Предсказание успешности сессии • Метод машинного обучения – Input: лог для отдельной поисковой сессии (запросы, клики, движения мыши, scrolling) – Output: флаг «поисковая сессия успешна»? • 4 определения успешности – QRAV model • Baseline: Markov Model + Time distribution [Hassan et al. WSDM 2010], 2 фактора – STATE ∈ { QUERY, R1, R>1, END } – Time delta ∆t • Наш подход: Conditional Random Fields (CRF) – 18 факторов, извлекаемых из логов 14 14
  • 15. Conditional Random Fields (CRF) • Расширяет модель цепи Маркова дополнительными факторами • 18 факторов, численные факторы дискретизированы • Реализация CRF: Mallet Labels (session + + + + + success) Query1 Result1 Result2 Query 2 Result3 Observations Features Features Features Features Features ∆t≤10s=True ∆t≤10s=True ∆t≤10s=False ∆t≤10s=Tru ∆t≤10s=True QWL≤3=True Rwiki =False Rwiki =False QWL≤3=Fal Rwiki =True Q wiki =False CntQ≤3=True CntQ≤3=True Q wiki=True CntQ≤3=True ... ... ... ... ... 15 15
  • 16. Факторы из логов (I) Markov Model Features state Type of visited page { QUERY, R1, R>1, END } ∆t Time delta between previous state and current state Query Features Qengine One of {google, bing, yahoo} Qabandoned True if there no clicks for the query QWL Query word length QADV True if the query use advanced query syntax QDT Query Deliberation Time 16 16
  • 17. Факторы из логов (II) Non-SERP Page Features Rwiki True if visited page is on wikipedia.org RQ_serp_pos Position of SERP click Rtrail Length of trail from search engine result page refserp, refstart Features from HTTP Referer header, could catch some patterns of non-linear browsing, when user uses several browser tabs Session-level Aggregates CntQ, CntR Count of queries and pages in the session 17 17
  • 18. План • Введение • Игра для сбора данных • Предсказание успешности поисковой сессии • Эксперименты • Выводы 18 18
  • 19. Анализ поведения успешных пользователей Успешные пользователи по сравнению с менее успешными: Задают более короткие вопросы Быстрее анализируют результаты и кликают на документы Чаще используют расширенный язык запросов Задают больше запросов на каждый вопрос, просматривают больше страниц на запрос, уходят дальше от SERP 19 19
  • 20. QRAV: Query-Result-Answer-Verification модель успешной сессии • Q: пользователь должен правильно понять вопрос и сформулировать запрос Q+=“Good Query” если SERP содержит хороший URL • R: пользователь должен выбрать правильный URL на SERP R+=“Good URL” если документ содержит правильный ответ • A: пользователь должен найти ответ внутри документа A+=“Answer is Found” • V: проверка правильности ответа V+=“Answer is verified and correct” Search Success 20 20
  • 21. Разные определения успешности поисковой сессии • Q+R+A+V+: Найден правильный ответ Question [TREC QA track] Q- R- A- V- • Q+R+A+V?: Пользователь нашел некоторый ответ и верит, что его ответ Q+ R+ A+ V+ правильный; пользователь удовлетворен, хотя ответ может быть неправильным [Aula et al. CHI 2010] • Q+R+A?V?: Пользователь нашел хороший документ и посмотрел его (но не обязательно нашел в нем ответ) – [Hassan et al. WSDM 2010] • Q?RL+A?V?: Пользователь нашел хороший документ и остановил свой выбор на нем (просмотрел последним в сессии), после этого пользователь (предположительно) удовлетворен [Dupret et al., WSDM 2010] 21 21
  • 22. Детальный анализ по QRAV • Что делает вопрос трудным для поиска? – Трудно сформулировать правильный запрос Q+? – Трудно выбрать правильный документ на SERP R+? – Трудно найти ответ в документе A+? – Выбрать правильный ответ из нескольких возможных V+? • Оцениваем R+, и Q+ из данных: – R+ = “этот URL был отправлен одним из пользователей и содержал правильный ответ” – Q+ = “SERP этого запроса содержал R+ ” • Оценка значимости различных характеристик опыта пользователей, например – Слабые пользователи находят правильный запрос в 87% сессий, сильные в 95% – Для слабых пользователей лишь 42% хороших запросов приводили к нахождению правильного ответа, для сильных пользователей - 89% 22 22
  • 23. Анализ диаграммы состояний: успешные и слабые пользователи 0.42 0.46 • Обе группы пользователей легко формулируют Question 0.14 хороший запрос • LOW труднее находят 0.21 Q- 0.42 R- 0.10 A- 1.0 V- правильный документ на 7 0.1 0.13 0.12 0.19 0.79 SERP 4 HIGH 0. 2 • LOW часто зацикливаются 0.12 users на анализе нерелевантных Q+ 0.48 R+ 0.43 A+ 0.91 V+ документов и не могут переформулировать запрос 0.20 0.23 • HIGH быстро переходят от 0.53 0.48 анализа нерелевантных результатов к правильной Question 0.14 переформулировке запроса, либо по ссылкам к 0.22 Q- 0.32 R- 0.10 A- 1.0 V- релевантному документу 0.10 0.17 0.78 0.15 0.54 8 0. 2 LOW users Q+ 0.38 R+ 0.45 A+ 0.46 V+ 0.25 0.27 23 23
  • 24. Анализ диаграммы состояний: сложные и простые вопросы 0.41 0.47 • Difficult question: “When the jominy Question 0.39 test was invented?” 0.98 Q- 0.53 R- 0.10 A- 1.0 V- (8/44 V+) 0.26 0.38 0.02 0.64 • Easy question: Difficult 0. 3 2 “What is the highest question 0.12 0.36 peak in western Q+ 0.15 R+ 0.46 A+ V+ hemisphere?” (39/41 V+) 0.11 0.23 0.41 0.36 Question 0.02 Q- 0.50 0.50 R- 0.18 A- 1.0 V- 0.39 0.16 0.98 0.05 5 0. 1 Easy question Q+ 0.72 R+ 0.50 A+ 0.95 V+ 0.15 0.30 24 24
  • 25. Предсказание успешности сессии • CRF предсказывает лучше для всех определений успешности 25 25
  • 26. Предсказание успешности поиска на реальных данных • Цель: предсказать успешность поиска для реальных пользователей университетской библиотеки • Данные: – Логи собраны при помощи плагина к Firefox в библиотеке университета Emory – 16,693 сессий собрано – 175 сессий вручную оценено по шкале «успешная/неуспешная» • 43% “невозможно оценить” – удалены • 51% “успешные” • 49% “неуспешные” • Алгоритм: CRF, обученный на данных игры: – Все факторы кроме refserp, refstart, RQ_serp_pos – Метка успешности при обучении: • Q+R+A?V? – “Найден релевантный документ” • Q?RL+A?V? – “Релевантный документ найден, и просмотрен последним в сессии” 26 26
  • 27. Предсказание успешности поиска на реальных данных: результаты • CRF существенно лучше, чем предсказание «наугад» • Собранные в игре данные и предложенный алгоритм применимы для предсказания успешности поиска на реальных данных 27 27
  • 28. Выводы • Модель сбора данных о поведении пользователей – Четкое определение информационной потребности – Заданные границы сессий – Дешево ($0.15 за сессию) – Более подробные данные о поведении, чем click log • Иерархическая модель успешной поисковой сессии – Обобщение предыдущих моделей – Более строгое определение успешной сессии • Характеристики успешных пользователей – Анализ переходов внутри модели QRAV • Предсказание успешности сессии для разных определений успеха – Новая модель на основе CRF превосходит известную MML+Time 28 28