SlideShare a Scribd company logo
1 of 47
Методы персонифицированного поиска информации Алексей Широков [email_address]
Традиционная задача поиска [email_address] V  — множество всех узлов гипертекста, v  — множество узлов, отобранных по запросу, q  — условия пользовательского запроса. v = ƒ(V, q)
Модернизированная задача поиска [email_address] V  — множество всех узлов гипертекста, v  — множество узлов, отобранных по запросу, q  — условия пользовательского запроса, p  — портрет пользователя. v = ƒ(V, q,  p )
Применение портрета ,[object Object],[object Object],[object Object],[object Object],[email_address]
Задачи [email_address] ,[object Object],[object Object],[object Object]
Чем различаются пользователи? [email_address] ,[object Object],[object Object],[object Object],[object Object],[object Object]
Релевантность [email_address]  —  Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия.
Релевантность [email_address]  —  Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия. Персонификация — в различной значимости свойств для пользователя.
Две релевантности [email_address] 1. С точки зрения поисковой системы. 2. С точки зрения пользователя. Задача: сблизить эти точки зрения.
Релевантность Silvia Gabrielli, Stefano Mizzaro MIRA Conference, 1999 [1]
Портрет пользователя ПП — набор параметров и их значений, описывающих предпочтения и свойства пользователя. [email_address]
Пример ПП [email_address]
Методы построения ПП ,[object Object],[object Object],[email_address]
Типичный подход к построению ПП ,[object Object],[object Object],[object Object],[email_address]
Построение ПП ,[object Object],[object Object],[email_address]
Явные или неявные  [2] ,[object Object],[object Object],[email_address]
Персонификация поисковой системы  [3] [email_address] PageRank Topic-Sensitive PageRank
Персонификация поисковой системы  [3] [email_address] Портрет — вектор тематических предпочтений Вычисляется по истории кликов из соотношения: V(p) —  вероятность попадания  на страницу p.
Персонификация поисковой системы  [3] [email_address] PPR — Personalized PageRank: T(i)  — элемент вектора тематических предпочтений пользователя; Pr(q|T(i))  — вероятность того, что пользователь введет запрос  q , если его заинтересует тема  i . i
Персонификация поисковой системы  [3] [email_address]
Персональный агент  [4] Задача: снятие омонимии в запросе с помощью портрета пользователя, построенного по его поисковой истории. [email_address]
Информационный портрет пользователя ИПП — набор параметров и их значений, описывающих сферу интересов пользователя, интересующие его области знаний. ИПП —  вектор, элементами которого являются понятия с указанием веса, характеризующего степень интересности понятия пользователю. [email_address]
Получение пользовательской оценки [email_address] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Журнал оценок
Программный комплекс [email_address] прокси-сервер Internet пользователь userRater sengineRater profileRater profileBuilder журнал оценок ИПП (profile)
Построение ИПП [email_address] Алгоритм  « Words » 1. Объединяем все фрагменты в супердокумент; 2. Вычисляем веса слов  w i  в супердокументе.  ИПП   — один вектор  W . Алгоритм  « Querys » 1. Объединяем в супердокументы фрагменты по одному запросу; 2. Вычисляем веса слов  w i  в супердокументах. ИПП   — набор векторов запросов (категорий).
TF*IDF i3s.utmn.ru w ij  = tf ij ×idf i idf i  = log( N/n i  ) TF  – частота термина в документе IDF  – редкость термина в коллекции
Вес слова в супердокументе [email_address] tf i   — число вхождений слова в супердокумент, r i   — средняя пользовательская оценка слова в супердокументе, ipm i   — (instances per million), среднестатистическое для русских текстов число вхождений слова на миллион.
1977  ―  Частотный словарь русского языка под ред. Л. Н. Засориной (~ миллион слов с 20-х до 60-х годов). Советский,   товарищ  чаще чем  где, здесь, ваш. Партия, революция, коммунистический  чаще чем  назад, около, лучше. 2002  ― С. А. Шаров.  (~ 16 миллионов слов c 1970 по 2002). Частотные словари [email_address]
Оценка системой персонификации [email_address] ,[object Object],[object Object],[object Object],[object Object],[object Object]
Оценка документа поисковой системой [email_address] d   — номер позиции документа в линейном списке документов, возвращенных по запросу; dcount   — общее количество документов в списке.
Оценка документа поисковой системой [email_address] ,[object Object],[object Object],[object Object],[object Object],[object Object]
Оценка стабильности портрета [email_address] W profile1   — вектор категории портрета до добавления фрагмента; W profile2   — вектор категории портрета после добавления фрагмента. При этом: Если слово входило в  W profile1   и не входило в  W profile2 , то его вес в  W profile2   считался равным 0.
Данные для исследования [email_address] ,[object Object],[object Object],[object Object]
Оценка стабильности портрета [email_address] sim words_added
Оценка стабильности портрета [email_address] sim words_added
Оценка стабильности портрета [email_address] sim words_added
Зависимость портрета от контекста [email_address] Режим целевого задания; Одна и та же поисковая система; Практически одни и те же документы.
Зависимость портрета от контекста [email_address]
Влияние на результаты поиска [email_address]
Обобщенная величина расхождения оценок [email_address] 0 — оценки совпадают; 1 — оценки противоположны.   —  оценка i-той страницы пользователем;   —  оценка i-той страницы системой без персонификации.
Расхождения оценок [email_address]
Выводы ,[object Object],[object Object],[object Object],[email_address]
Метрики [email_address] ,[object Object],[object Object]
Average Distance Measure  [5] [email_address]
Average Distance Measure  [5] [email_address]
Оценка документов и фрагментов
Ссылки ,[object Object],[object Object],[object Object],[object Object]

More Related Content

What's hot

Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахСергей Пономарев
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов Lidia Pivovarova
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"dbarashev
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Alexander Petrov
 

What's hot (13)

Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"
 
Html5 css3 занятие 2
Html5 css3 занятие 2Html5 css3 занятие 2
Html5 css3 занятие 2
 
Query expansion
Query expansionQuery expansion
Query expansion
 
Html5 css3 занятие 3
Html5 css3 занятие 3Html5 css3 занятие 3
Html5 css3 занятие 3
 
Html5 css3 занятие 4
Html5 css3 занятие 4Html5 css3 занятие 4
Html5 css3 занятие 4
 
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian)
 
Методы автоматического аннотирования изображений
Методы автоматического аннотирования изображенийМетоды автоматического аннотирования изображений
Методы автоматического аннотирования изображений
 

Viewers also liked

Guia argentina de tratamiento de la EPOC
Guia argentina de tratamiento de la EPOCGuia argentina de tratamiento de la EPOC
Guia argentina de tratamiento de la EPOCAlejandro Videla
 
Xee Me How To -- Getting started
Xee Me How To -- Getting startedXee Me How To -- Getting started
Xee Me How To -- Getting startedAxel Schultze
 
Hap Snap Zap Inspiratie
Hap Snap Zap InspiratieHap Snap Zap Inspiratie
Hap Snap Zap InspiratiePatrick Koning
 
Economics homework on fronter
Economics homework on fronterEconomics homework on fronter
Economics homework on fronterGreenwich Council
 
потапов
потаповпотапов
потаповNLPseminar
 
Iceland 2011
Iceland 2011Iceland 2011
Iceland 2011total
 
Smacad hiring asmm-2011
Smacad hiring asmm-2011Smacad hiring asmm-2011
Smacad hiring asmm-2011Axel Schultze
 
Workshop Sociale Media Bingo (SPOK15)
Workshop Sociale Media Bingo (SPOK15)Workshop Sociale Media Bingo (SPOK15)
Workshop Sociale Media Bingo (SPOK15)Patrick Koning
 
S3 Buzz Marketing For Startups
S3 Buzz Marketing For StartupsS3 Buzz Marketing For Startups
S3 Buzz Marketing For StartupsAxel Schultze
 
Workshop Mediawijsheid in de klas: de én-én aanpak
Workshop Mediawijsheid in de klas: de én-én aanpakWorkshop Mediawijsheid in de klas: de én-én aanpak
Workshop Mediawijsheid in de klas: de én-én aanpakPatrick Koning
 

Viewers also liked (20)

Guia argentina de tratamiento de la EPOC
Guia argentina de tratamiento de la EPOCGuia argentina de tratamiento de la EPOC
Guia argentina de tratamiento de la EPOC
 
Maleev
MaleevMaleev
Maleev
 
Xee Me How To -- Getting started
Xee Me How To -- Getting startedXee Me How To -- Getting started
Xee Me How To -- Getting started
 
Hap Snap Zap Inspiratie
Hap Snap Zap InspiratieHap Snap Zap Inspiratie
Hap Snap Zap Inspiratie
 
Economics homework on fronter
Economics homework on fronterEconomics homework on fronter
Economics homework on fronter
 
Presentatie dag 3
Presentatie dag 3Presentatie dag 3
Presentatie dag 3
 
потапов
потаповпотапов
потапов
 
Presentatie dag 1
Presentatie dag 1Presentatie dag 1
Presentatie dag 1
 
Iceland 2011
Iceland 2011Iceland 2011
Iceland 2011
 
Smacad hiring asmm-2011
Smacad hiring asmm-2011Smacad hiring asmm-2011
Smacad hiring asmm-2011
 
Workshop Sociale Media Bingo (SPOK15)
Workshop Sociale Media Bingo (SPOK15)Workshop Sociale Media Bingo (SPOK15)
Workshop Sociale Media Bingo (SPOK15)
 
S3 Buzz Marketing For Startups
S3 Buzz Marketing For StartupsS3 Buzz Marketing For Startups
S3 Buzz Marketing For Startups
 
Sustainability 05 2011
Sustainability 05  2011Sustainability 05  2011
Sustainability 05 2011
 
Workshop Mediawijsheid in de klas: de én-én aanpak
Workshop Mediawijsheid in de klas: de én-én aanpakWorkshop Mediawijsheid in de klas: de én-én aanpak
Workshop Mediawijsheid in de klas: de én-én aanpak
 
Globalisation
GlobalisationGlobalisation
Globalisation
 
Pm webinar-sep2010
Pm webinar-sep2010Pm webinar-sep2010
Pm webinar-sep2010
 
Asian 2001 05
Asian 2001 05Asian 2001 05
Asian 2001 05
 
Ecmon 0.5
Ecmon 0.5Ecmon 0.5
Ecmon 0.5
 
Sustaibability 01 CESA
Sustaibability 01 CESASustaibability 01 CESA
Sustaibability 01 CESA
 
Mitsov
MitsovMitsov
Mitsov
 

Similar to Personilized search

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...Ontico
 
Знакомство с Online Test Pad
Знакомство с Online Test PadЗнакомство с Online Test Pad
Знакомство с Online Test Padgilraenanarion
 
Digitalcontent
DigitalcontentDigitalcontent
Digitalcontentzagru
 
НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"Artukhin Valeriy
 
дипломная презентация по автоматизированным информационным системам
дипломная презентация по автоматизированным информационным системамдипломная презентация по автоматизированным информационным системам
дипломная презентация по автоматизированным информационным системамIvan Simanov
 
Больше чем анализ
Больше чем анализБольше чем анализ
Больше чем анализSQALab
 
Продвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаПродвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаAndrei Builov
 
SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...
SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...
SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...Vladislav Morgun
 
Trpo 3 создание_по2
Trpo 3 создание_по2Trpo 3 создание_по2
Trpo 3 создание_по2pogromskaya
 
«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт
«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт
«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭкспертit-people
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУYandex
 
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаПрактический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаSEO-Интеллект
 
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.mikhaelsmirnov
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийSoftengi
 
Современное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаСовременное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаKyrylo Zakharov
 

Similar to Personilized search (20)

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
 
Знакомство с Online Test Pad
Знакомство с Online Test PadЗнакомство с Online Test Pad
Знакомство с Online Test Pad
 
Digitalcontent
DigitalcontentDigitalcontent
Digitalcontent
 
Система AcademLive.
Система AcademLive.Система AcademLive.
Система AcademLive.
 
Презентация Academ live
Презентация Academ liveПрезентация Academ live
Презентация Academ live
 
НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"
 
дипломная презентация по автоматизированным информационным системам
дипломная презентация по автоматизированным информационным системамдипломная презентация по автоматизированным информационным системам
дипломная презентация по автоматизированным информационным системам
 
лекция 5
лекция 5лекция 5
лекция 5
 
Больше чем анализ
Больше чем анализБольше чем анализ
Больше чем анализ
 
Продвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаПродвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея Буйлова
 
SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...
SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...
SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...
 
Trpo 3 создание_по2
Trpo 3 создание_по2Trpo 3 создание_по2
Trpo 3 создание_по2
 
«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт
«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт
«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
 
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаПрактический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
 
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложений
 
Современное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаСовременное программное обеспечение в работе психолога
Современное программное обеспечение в работе психолога
 

More from NLPseminar

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна ЛандоNLPseminar
 
клышинский
клышинскийклышинский
клышинскийNLPseminar
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гавриловаNLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3NLPseminar
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловскаяNLPseminar
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)NLPseminar
 
белканова
белкановабелканова
белкановаNLPseminar
 
гвоздикин
гвоздикингвоздикин
гвоздикинNLPseminar
 
веселов
веселоввеселов
веселовNLPseminar
 
Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_StarostinNLPseminar
 

More from NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
Tomita
TomitaTomita
Tomita
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
клышинский
клышинскийклышинский
клышинский
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Ageev
AgeevAgeev
Ageev
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
белканова
белкановабелканова
белканова
 
Skatov
SkatovSkatov
Skatov
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 
Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_Starostin
 

Personilized search