2. Особенности длинных запросов
• Доля длинных запросов в Интернете составляет 10%
– За последний год средняя длина запроса увеличилась с 2.5 до 3 слов
• Многообразие типов длинных запросов
– Запрос – описание проблемы
«Найти все материалы о подготовке Германии ко II Мировой Войне»
– Запрос к вопросно-ответной системе
«Что делать, если компьютер не включается?»
– Целые предложения из документа/текста
• Длина (от 4 до 15 слов)
– В вопросно-ответных системах – более 20 слов
• Грамматика
– Длинные запросы обычно являются грамматически сложными структурами
– Встречаются и такие запросы: «Электронная плчта на яндексе»
• Частотность
– Длинные запросы повторяются очень редко
3. Постановка задачи
1. Изучение специфики длинных запросов и
особенностей обработки их поисковыми
системами.
2. Исследование факторов обработки
длинных запросов на материале словарных
статей Википедии.
3. Разработка программной системы по поиску
фрагментов текстов, релевантных длинным
запросам в Википедии.
4. Обработка длинных запросов на материале
словарных статей Википедии
• Интересные факты как база для тестирования
методов обработки длинных запросов
Вступление к одному из телесериалов социалистической
Польши написал Стенли Кубрик.
• В одной из статей находится ответ на данный интересный факт
(к какому телесериалу?)
• Результат
В частности, с большой похвалой отозвался о «Декалоге»
Стенли Кубрик, написавший вступительное слово к изданию
сценариев к этому фильму.
• Проблемы
– Слова запроса находятся в нескольких предложениях
– Использование синонимов
– Переформулировка предложений
5. Меры сходства запроса с предложением
• Мера Дайса
2nxy nxy - кол-во общих слов
s
nx ny nx – кол-во лемм в строке x
ny – кол-во лемм в строке y
• Мера Жаккара
nxy – кол-во общих слов
nxy
s nx/y – есть в первой строке, но нет во второй
nx / y ny / x nxy
ny/x – есть во второй строке, но нет в первой
• Tf-Idf
vx vy документ - вектор слов
s вес слова считается по tf·idf
vx vy коэффициент сходства вычисляется по косинусу
6. Новый метод поиска ответов
• В разработанном методе используются:
– Мера сходства tf·idf
– Морфологический разбор слов предложения
• Изменение весов слов в предложении в зависимости от части речи
– Синтаксический разбор предложения
• Поиск грамматической основы предложения (добавление веса при
совпадении подлежащих и сказуемых запроса и предложения)
– Использование соседних предложений
• Слияние двух предложений в одно
• Поиск в соседних предложениях слов, не найденных в ключевом
Запрос: «В этом крупнейшем городе России недавно состоялась
встреча двух президентов»
Москва – крупнейший город России. В нѐм недавно состоялась
встреча Дмитрия Медведева и Виктора Януковича.
• Учет местоимений
7. Синтаксический разбор. Морфологический
разбор слов предложения.
• Местоимения
В предложении ищутся местоимения (его, еѐ, их, он, она, они и
пр.), и оно пополняется существительными и именами
собственными соответствующего рода из предыдущего
предложения.
Пример: Монополия – очень известная настольная игра. В нее с
удовольствием играют и взрослые, и дети.
• Изменение веса слова в зависимости от части речи
– Существительные изменяются реже, чем глаголы – при их
совпадении вес предложения увеличивается
– Не учитываются стоп-слова (союзы, предлоги)
8. Оценка
• MRR - Mean reciprocal rank
Q
1 1
MRR
Q
ranki
i 1
Q – множество учитываемых документов в
поисковой выдаче (Q=3)
ranki – место, на котором выдался нужный
результат
30 запросов (~100 статей)
9. Различные сочетания методов
поиска фактов
0,5
0,4
0,3
0,2
0,1
0 Мера Дайса Мера Жакара Tf·Idf Мера Дайса + Tf·Idf+синт. и Tf·Idf+синт. и Tf·Idf+синт. и
разбор морф. разбор морф. разбор морф. разбор
предлож ения предл. предл. + слияние предлож ения +
предлож ений соседние
MRR предлож ения
11. Результаты
1. Исследованы особенности длинных
запросов.
2. Изучены и реализованы методы обработки
длинных запросов, а также создан новый
метод поиска ответов на интересные факты
Википедии.
3. Разработана программная система,
позволяющая производить поиск по
длинным запросам по материалам
Википедии.