2. Традиционная задача поиска [email_address] V — множество всех узлов гипертекста, v — множество узлов, отобранных по запросу, q — условия пользовательского запроса. v = ƒ(V, q)
3. Модернизированная задача поиска [email_address] V — множество всех узлов гипертекста, v — множество узлов, отобранных по запросу, q — условия пользовательского запроса, p — портрет пользователя. v = ƒ(V, q, p )
4.
5.
6.
7. Релевантность [email_address] — Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия.
8. Релевантность [email_address] — Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия. Персонификация — в различной значимости свойств для пользователя.
9. Две релевантности [email_address] 1. С точки зрения поисковой системы. 2. С точки зрения пользователя. Задача: сблизить эти точки зрения.
18. Персонификация поисковой системы [3] [email_address] Портрет — вектор тематических предпочтений Вычисляется по истории кликов из соотношения: V(p) — вероятность попадания на страницу p.
19. Персонификация поисковой системы [3] [email_address] PPR — Personalized PageRank: T(i) — элемент вектора тематических предпочтений пользователя; Pr(q|T(i)) — вероятность того, что пользователь введет запрос q , если его заинтересует тема i . i
21. Персональный агент [4] Задача: снятие омонимии в запросе с помощью портрета пользователя, построенного по его поисковой истории. [email_address]
22. Информационный портрет пользователя ИПП — набор параметров и их значений, описывающих сферу интересов пользователя, интересующие его области знаний. ИПП — вектор, элементами которого являются понятия с указанием веса, характеризующего степень интересности понятия пользователю. [email_address]
23.
24. Программный комплекс [email_address] прокси-сервер Internet пользователь userRater sengineRater profileRater profileBuilder журнал оценок ИПП (profile)
25. Построение ИПП [email_address] Алгоритм « Words » 1. Объединяем все фрагменты в супердокумент; 2. Вычисляем веса слов w i в супердокументе. ИПП — один вектор W . Алгоритм « Querys » 1. Объединяем в супердокументы фрагменты по одному запросу; 2. Вычисляем веса слов w i в супердокументах. ИПП — набор векторов запросов (категорий).
26. TF*IDF i3s.utmn.ru w ij = tf ij ×idf i idf i = log( N/n i ) TF – частота термина в документе IDF – редкость термина в коллекции
27. Вес слова в супердокументе [email_address] tf i — число вхождений слова в супердокумент, r i — средняя пользовательская оценка слова в супердокументе, ipm i — (instances per million), среднестатистическое для русских текстов число вхождений слова на миллион.
28. 1977 ― Частотный словарь русского языка под ред. Л. Н. Засориной (~ миллион слов с 20-х до 60-х годов). Советский, товарищ чаще чем где, здесь, ваш. Партия, революция, коммунистический чаще чем назад, около, лучше. 2002 ― С. А. Шаров. (~ 16 миллионов слов c 1970 по 2002). Частотные словари [email_address]
29.
30. Оценка документа поисковой системой [email_address] d — номер позиции документа в линейном списке документов, возвращенных по запросу; dcount — общее количество документов в списке.
31.
32. Оценка стабильности портрета [email_address] W profile1 — вектор категории портрета до добавления фрагмента; W profile2 — вектор категории портрета после добавления фрагмента. При этом: Если слово входило в W profile1 и не входило в W profile2 , то его вес в W profile2 считался равным 0.