SlideShare a Scribd company logo
1 of 11
Download to read offline
Методы обработки длинных
запросов поисковыми системами


             Бортаковская Мария, гр. 525

                 Научный руководитель:
                       Лукашевич Н.В.
Особенности длинных запросов
• Доля длинных запросов в Интернете составляет 10%
   – За последний год средняя длина запроса увеличилась с 2.5 до 3 слов
• Многообразие типов длинных запросов
   – Запрос – описание проблемы
     «Найти все материалы о подготовке Германии ко II Мировой Войне»
   – Запрос к вопросно-ответной системе
     «Что делать, если компьютер не включается?»
   – Целые предложения из документа/текста
• Длина (от 4 до 15 слов)
   – В вопросно-ответных системах – более 20 слов
• Грамматика
   – Длинные запросы обычно являются грамматически сложными структурами
   – Встречаются и такие запросы: «Электронная плчта на яндексе»
• Частотность
   – Длинные запросы повторяются очень редко
Постановка задачи
1. Изучение специфики длинных запросов и
   особенностей обработки их поисковыми
   системами.
2. Исследование факторов обработки
   длинных запросов на материале словарных
   статей Википедии.
3. Разработка программной системы по поиску
   фрагментов текстов, релевантных длинным
   запросам в Википедии.
Обработка длинных запросов на материале
          словарных статей Википедии

• Интересные факты как база для тестирования
  методов обработки длинных запросов
    Вступление к одному из телесериалов социалистической
    Польши написал Стенли Кубрик.
•   В одной из статей находится ответ на данный интересный факт
    (к какому телесериалу?)
• Результат
    В частности, с большой похвалой отозвался о «Декалоге»
    Стенли Кубрик, написавший вступительное слово к изданию
    сценариев к этому фильму.
• Проблемы
    – Слова запроса находятся в нескольких предложениях
    – Использование синонимов
    – Переформулировка предложений
Меры сходства запроса с предложением

• Мера Дайса
            2nxy                nxy - кол-во общих слов
        s
           nx  ny              nx – кол-во лемм в строке x
                                ny – кол-во лемм в строке y

• Мера Жаккара
                                nxy – кол-во общих слов
                 nxy
     s                         nx/y – есть в первой строке, но нет во второй
        nx / y  ny / x  nxy
                                ny/x – есть во второй строке, но нет в первой

• Tf-Idf
          vx  vy               документ - вектор слов
      s                        вес слова считается по tf·idf
         vx  vy                коэффициент сходства вычисляется по косинусу
Новый метод поиска ответов
• В разработанном методе используются:
  – Мера сходства tf·idf
  – Морфологический разбор слов предложения
      • Изменение весов слов в предложении в зависимости от части речи
  – Синтаксический разбор предложения
      • Поиск грамматической основы предложения (добавление веса при
        совпадении подлежащих и сказуемых запроса и предложения)
  – Использование соседних предложений
      • Слияние двух предложений в одно
      • Поиск в соседних предложениях слов, не найденных в ключевом
         Запрос: «В этом крупнейшем городе России недавно состоялась
         встреча двух президентов»
         Москва – крупнейший город России. В нѐм недавно состоялась
         встреча Дмитрия Медведева и Виктора Януковича.
      • Учет местоимений
Синтаксический разбор. Морфологический
         разбор слов предложения.
• Местоимения
  В предложении ищутся местоимения (его, еѐ, их, он, она, они и
  пр.), и оно пополняется существительными и именами
  собственными соответствующего рода из предыдущего
  предложения.
  Пример: Монополия – очень известная настольная игра. В нее с
  удовольствием играют и взрослые, и дети.

• Изменение веса слова в зависимости от части речи
  – Существительные изменяются реже, чем глаголы – при их
    совпадении вес предложения увеличивается
  – Не учитываются стоп-слова (союзы, предлоги)
Оценка
• MRR - Mean reciprocal rank
                  Q
          1           1
    MRR 
          Q
                  ranki
                 i 1

 Q – множество учитываемых документов в
  поисковой выдаче (Q=3)
 ranki – место, на котором выдался нужный
  результат
 30 запросов (~100 статей)
Различные сочетания методов
             поиска фактов
0,5

0,4

0,3

0,2

0,1

 0    Мера Дайса   Мера Жакара   Tf·Idf   Мера Дайса +   Tf·Idf+синт. и     Tf·Idf+синт. и    Tf·Idf+синт. и
                                             разбор      морф. разбор       морф. разбор      морф. разбор
                                          предлож ения       предл.       предл. + слияние   предлож ения +
                                                                           предлож ений         соседние
      MRR                                                                                     предлож ения
Программа поиска ответов на длинные
       запросы по Википедии
Результаты
1. Исследованы особенности длинных
   запросов.
2. Изучены и реализованы методы обработки
   длинных запросов, а также создан новый
   метод поиска ответов на интересные факты
   Википедии.
3. Разработана программная система,
   позволяющая производить поиск по
   длинным запросам по материалам
   Википедии.

More Related Content

Viewers also liked

Viewers also liked (20)

Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
Основные научные направления ИИ
Основные научные направления ИИОсновные научные направления ИИ
Основные научные направления ИИ
 
Быстрое вычисление булевских выражений. Алгоритм Unison
Быстрое вычисление булевских выражений. Алгоритм UnisonБыстрое вычисление булевских выражений. Алгоритм Unison
Быстрое вычисление булевских выражений. Алгоритм Unison
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Распознавание сокращений слов и словосочетаний
Распознавание сокращений слов и словосочетанийРаспознавание сокращений слов и словосочетаний
Распознавание сокращений слов и словосочетаний
 
Экспертная система по конструированию и моделированию швейных изделий
Экспертная система по конструированию и моделированию швейных изделийЭкспертная система по конструированию и моделированию швейных изделий
Экспертная система по конструированию и моделированию швейных изделий
 
Синтез функциональных программ при помощи метода дедуктивных таблиц
Синтез функциональных программ при помощи метода дедуктивных таблицСинтез функциональных программ при помощи метода дедуктивных таблиц
Синтез функциональных программ при помощи метода дедуктивных таблиц
 
Интегрированная среда для языка Рефал
Интегрированная среда для языка РефалИнтегрированная среда для языка Рефал
Интегрированная среда для языка Рефал
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
Программные средства поддержки словаря буквенных и морфемных паронимов
Программные средства поддержки словаря буквенных и морфемных паронимовПрограммные средства поддержки словаря буквенных и морфемных паронимов
Программные средства поддержки словаря буквенных и морфемных паронимов
 
Вопросно-ответный поиск
Вопросно-ответный поискВопросно-ответный поиск
Вопросно-ответный поиск
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Система поддержки исследований семантики паремий
Система поддержки исследований семантики паремийСистема поддержки исследований семантики паремий
Система поддержки исследований семантики паремий
 
Программная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблоновПрограммная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблонов
 
Извлечение информации из текста на основе автоматически сформированных шаблонах
Извлечение информации из текста на основе автоматически сформированных шаблонахИзвлечение информации из текста на основе автоматически сформированных шаблонах
Извлечение информации из текста на основе автоматически сформированных шаблонах
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Datr - язык представления лингвистической информации
Datr - язык представления лингвистической информацииDatr - язык представления лингвистической информации
Datr - язык представления лингвистической информации
 
Алгоритмы решения Судоку
Алгоритмы решения СудокуАлгоритмы решения Судоку
Алгоритмы решения Судоку
 
Выявление идиоматических словосочетаний
Выявление идиоматических словосочетанийВыявление идиоматических словосочетаний
Выявление идиоматических словосочетаний
 

Similar to Методы обработки длинных запросов поисковыми системами

Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwYury Katkov
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукAlexander Panchenko
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингSergey Yurkov
 
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...ЗПШ СПбГУ
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
Презентация исследовательской работы Мухиной М.
Презентация исследовательской работы Мухиной М.Презентация исследовательской работы Мухиной М.
Презентация исследовательской работы Мухиной М.sviridovaea
 
1 полугодие
1 полугодие1 полугодие
1 полугодиеKirrrr123
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrievalAnton Konushin
 
Лексический уровень языка в РКИ
Лексический уровень языка в РКИЛексический уровень языка в РКИ
Лексический уровень языка в РКИAndrey Kuznetsov
 

Similar to Методы обработки длинных запросов поисковыми системами (20)

Query expansion
Query expansionQuery expansion
Query expansion
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети Фейсбук
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтинг
 
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Электронные словари паронимов
Электронные словари паронимовЭлектронные словари паронимов
Электронные словари паронимов
 
Презентация исследовательской работы Мухиной М.
Презентация исследовательской работы Мухиной М.Презентация исследовательской работы Мухиной М.
Презентация исследовательской работы Мухиной М.
 
1 полугодие
1 полугодие1 полугодие
1 полугодие
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrieval
 
нити
нитинити
нити
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
русскому языку в 3 классе 2014 айман
русскому языку в 3 классе 2014 айманрусскому языку в 3 классе 2014 айман
русскому языку в 3 классе 2014 айман
 
Лексический уровень языка в РКИ
Лексический уровень языка в РКИЛексический уровень языка в РКИ
Лексический уровень языка в РКИ
 
РОМИП
РОМИПРОМИП
РОМИП
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 

Методы обработки длинных запросов поисковыми системами

  • 1. Методы обработки длинных запросов поисковыми системами Бортаковская Мария, гр. 525 Научный руководитель: Лукашевич Н.В.
  • 2. Особенности длинных запросов • Доля длинных запросов в Интернете составляет 10% – За последний год средняя длина запроса увеличилась с 2.5 до 3 слов • Многообразие типов длинных запросов – Запрос – описание проблемы «Найти все материалы о подготовке Германии ко II Мировой Войне» – Запрос к вопросно-ответной системе «Что делать, если компьютер не включается?» – Целые предложения из документа/текста • Длина (от 4 до 15 слов) – В вопросно-ответных системах – более 20 слов • Грамматика – Длинные запросы обычно являются грамматически сложными структурами – Встречаются и такие запросы: «Электронная плчта на яндексе» • Частотность – Длинные запросы повторяются очень редко
  • 3. Постановка задачи 1. Изучение специфики длинных запросов и особенностей обработки их поисковыми системами. 2. Исследование факторов обработки длинных запросов на материале словарных статей Википедии. 3. Разработка программной системы по поиску фрагментов текстов, релевантных длинным запросам в Википедии.
  • 4. Обработка длинных запросов на материале словарных статей Википедии • Интересные факты как база для тестирования методов обработки длинных запросов Вступление к одному из телесериалов социалистической Польши написал Стенли Кубрик. • В одной из статей находится ответ на данный интересный факт (к какому телесериалу?) • Результат В частности, с большой похвалой отозвался о «Декалоге» Стенли Кубрик, написавший вступительное слово к изданию сценариев к этому фильму. • Проблемы – Слова запроса находятся в нескольких предложениях – Использование синонимов – Переформулировка предложений
  • 5. Меры сходства запроса с предложением • Мера Дайса 2nxy nxy - кол-во общих слов s nx  ny nx – кол-во лемм в строке x ny – кол-во лемм в строке y • Мера Жаккара nxy – кол-во общих слов nxy s nx/y – есть в первой строке, но нет во второй nx / y  ny / x  nxy ny/x – есть во второй строке, но нет в первой • Tf-Idf vx  vy документ - вектор слов s вес слова считается по tf·idf vx  vy коэффициент сходства вычисляется по косинусу
  • 6. Новый метод поиска ответов • В разработанном методе используются: – Мера сходства tf·idf – Морфологический разбор слов предложения • Изменение весов слов в предложении в зависимости от части речи – Синтаксический разбор предложения • Поиск грамматической основы предложения (добавление веса при совпадении подлежащих и сказуемых запроса и предложения) – Использование соседних предложений • Слияние двух предложений в одно • Поиск в соседних предложениях слов, не найденных в ключевом Запрос: «В этом крупнейшем городе России недавно состоялась встреча двух президентов» Москва – крупнейший город России. В нѐм недавно состоялась встреча Дмитрия Медведева и Виктора Януковича. • Учет местоимений
  • 7. Синтаксический разбор. Морфологический разбор слов предложения. • Местоимения В предложении ищутся местоимения (его, еѐ, их, он, она, они и пр.), и оно пополняется существительными и именами собственными соответствующего рода из предыдущего предложения. Пример: Монополия – очень известная настольная игра. В нее с удовольствием играют и взрослые, и дети. • Изменение веса слова в зависимости от части речи – Существительные изменяются реже, чем глаголы – при их совпадении вес предложения увеличивается – Не учитываются стоп-слова (союзы, предлоги)
  • 8. Оценка • MRR - Mean reciprocal rank Q 1 1 MRR  Q  ranki i 1  Q – множество учитываемых документов в поисковой выдаче (Q=3)  ranki – место, на котором выдался нужный результат  30 запросов (~100 статей)
  • 9. Различные сочетания методов поиска фактов 0,5 0,4 0,3 0,2 0,1 0 Мера Дайса Мера Жакара Tf·Idf Мера Дайса + Tf·Idf+синт. и Tf·Idf+синт. и Tf·Idf+синт. и разбор морф. разбор морф. разбор морф. разбор предлож ения предл. предл. + слияние предлож ения + предлож ений соседние MRR предлож ения
  • 10. Программа поиска ответов на длинные запросы по Википедии
  • 11. Результаты 1. Исследованы особенности длинных запросов. 2. Изучены и реализованы методы обработки длинных запросов, а также создан новый метод поиска ответов на интересные факты Википедии. 3. Разработана программная система, позволяющая производить поиск по длинным запросам по материалам Википедии.