Personilized search

Методы персонифицированного поиска информации Алексей Широков [email_address]

Традиционная задача поиска [email_address] V — множество всех узлов гипертекста, v — множество узлов, отобранных по запросу, q — условия пользовательского запроса. v = ƒ(V, q)

Модернизированная задача поиска [email_address] V — множество всех узлов гипертекста, v — множество узлов, отобранных по запросу, q — условия пользовательского запроса, p — портрет пользователя. v = ƒ(V, q, p )

Применение портрета ,[object Object],[object Object],[object Object],[object Object],[email_address]

Задачи [email_address] ,[object Object],[object Object],[object Object]

Чем различаются пользователи? [email_address] ,[object Object],[object Object],[object Object],[object Object],[object Object]

Релевантность [email_address] — Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия.

Релевантность [email_address] — Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия. Персонификация — в различной значимости свойств для пользователя.

Две релевантности [email_address] 1. С точки зрения поисковой системы. 2. С точки зрения пользователя. Задача: сблизить эти точки зрения.

Релевантность Silvia Gabrielli, Stefano Mizzaro MIRA Conference, 1999 [1]

Портрет пользователя ПП — набор параметров и их значений, описывающих предпочтения и свойства пользователя. [email_address]

Пример ПП [email_address]

Методы построения ПП ,[object Object],[object Object],[email_address]

Типичный подход к построению ПП ,[object Object],[object Object],[object Object],[email_address]

Построение ПП ,[object Object],[object Object],[email_address]

Явные или неявные [2] ,[object Object],[object Object],[email_address]

Персонификация поисковой системы [3] [email_address] PageRank Topic-Sensitive PageRank

Персонификация поисковой системы [3] [email_address] Портрет — вектор тематических предпочтений Вычисляется по истории кликов из соотношения: V(p) — вероятность попадания на страницу p.

Персонификация поисковой системы [3] [email_address] PPR — Personalized PageRank: T(i) — элемент вектора тематических предпочтений пользователя; Pr(q|T(i)) — вероятность того, что пользователь введет запрос q , если его заинтересует тема i . i

Персонификация поисковой системы [3] [email_address]

Персональный агент [4] Задача: снятие омонимии в запросе с помощью портрета пользователя, построенного по его поисковой истории. [email_address]

Информационный портрет пользователя ИПП — набор параметров и их значений, описывающих сферу интересов пользователя, интересующие его области знаний. ИПП — вектор, элементами которого являются понятия с указанием веса, характеризующего степень интересности понятия пользователю. [email_address]

Получение пользовательской оценки [email_address] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Журнал оценок

Программный комплекс [email_address] прокси-сервер Internet пользователь userRater sengineRater profileRater profileBuilder журнал оценок ИПП (profile)

Построение ИПП [email_address] Алгоритм « Words » 1. Объединяем все фрагменты в супердокумент; 2. Вычисляем веса слов w i в супердокументе. ИПП — один вектор W . Алгоритм « Querys » 1. Объединяем в супердокументы фрагменты по одному запросу; 2. Вычисляем веса слов w i в супердокументах. ИПП — набор векторов запросов (категорий).

TF*IDF i3s.utmn.ru w ij = tf ij ×idf i idf i = log( N/n i ) TF – частота термина в документе IDF – редкость термина в коллекции

Вес слова в супердокументе [email_address] tf i — число вхождений слова в супердокумент, r i — средняя пользовательская оценка слова в супердокументе, ipm i — (instances per million), среднестатистическое для русских текстов число вхождений слова на миллион.

1977 ― Частотный словарь русского языка под ред. Л. Н. Засориной (~ миллион слов с 20-х до 60-х годов). Советский, товарищ чаще чем где, здесь, ваш. Партия, революция, коммунистический чаще чем назад, около, лучше. 2002 ― С. А. Шаров. (~ 16 миллионов слов c 1970 по 2002). Частотные словари [email_address]

Оценка системой персонификации [email_address] ,[object Object],[object Object],[object Object],[object Object],[object Object]

Оценка документа поисковой системой [email_address] d — номер позиции документа в линейном списке документов, возвращенных по запросу; dcount — общее количество документов в списке.

Оценка документа поисковой системой [email_address] ,[object Object],[object Object],[object Object],[object Object],[object Object]

Оценка стабильности портрета [email_address] W profile1 — вектор категории портрета до добавления фрагмента; W profile2 — вектор категории портрета после добавления фрагмента. При этом: Если слово входило в W profile1 и не входило в W profile2 , то его вес в W profile2 считался равным 0.

Данные для исследования [email_address] ,[object Object],[object Object],[object Object]

Оценка стабильности портрета [email_address] sim words_added

Зависимость портрета от контекста [email_address] Режим целевого задания; Одна и та же поисковая система; Практически одни и те же документы.

Зависимость портрета от контекста [email_address]

Влияние на результаты поиска [email_address]

Обобщенная величина расхождения оценок [email_address] 0 — оценки совпадают; 1 — оценки противоположны. — оценка i-той страницы пользователем; — оценка i-той страницы системой без персонификации.

Расхождения оценок [email_address]

Выводы ,[object Object],[object Object],[object Object],[email_address]

Метрики [email_address] ,[object Object],[object Object]

Average Distance Measure [5] [email_address]

Оценка документов и фрагментов

Ссылки ,[object Object],[object Object],[object Object],[object Object]

Personilized search

Recommended

Recommended

More Related Content

What's hot

What's hot (13)

Viewers also liked

Viewers also liked (20)

Similar to Personilized search

Similar to Personilized search (20)

More from NLPseminar

More from NLPseminar (20)

Personilized search