Системы и методы научного
поиска и мониторинга
Савостин Петр 425 группа
Научные руководители:
Н.Э. Ефремова, Е.И.Большакова
Содержание
• Научный поиск
• Методы научного поиска
• Поиск по ключевым словам
• Поиск по образцу
• Поиск по теме
• Краткий обзор систем научного поиска и
мониторинга
• Заключение
2
Научный поиск
• Научный поиск - поиск исключительно научной
информации по нужной тематике или сфере
исследования
• Объекты поиска:
• похожие по тематике научные работы
• патенты
• ученые и исследовательские коллективы,
работающих в определенном направлении
• конференции
• журналы
3
Методы научного поиска
• Поиск по ключевым словам: поиск вхождений
заданных ключевых слов в
• название и аннотацию документа
• весь документ
• Поиск по образцу: сопоставление с указанными
пользователем примерами
• список литературы
• документ/несколько документов
• Поиск по теме (латентно-семантический анализ):
отнесение документа к некоторой теме
4
Поиск по ключевым словам
1. Задаются ключевые слова - поисковый запрос
2. Документ рассматривается как неупорядоченное
множество слов (словосочетаний)
3. Каждому слову документа приписывается вес:
• tf (term frequency) - частота слова в документе
• tf*idf
• BM25 и пр.
4. Документ и запрос представляются как вектора
слов
5. Вычисляется степень схожести между запросом и
документом:
• косинусная мера
• коэффициент Дайса
5
BM25
tf(t,D) - частота появления слова t в документе D
tf(t,Q) - частота появления слова t в запросе Q
df(t) - количество документов, где есть слово t
dl - объем словаря коллекции
dlavg - средняя длина документов в коллекции
N - число документов в коллекции
k1 - параметр для калибровки (стандартно
выставляется 1.2)
b - параметр для калибровки (стандартно
выставляется 0.75)
6
BM25 и tf-idf
Отличия от меры tf-idf:
• Учитывает длину документов в коллекции
• За счет изменения параметров k1, b
возможна настройка меры BM25 под
определенную коллекцию
7
Косинусная мера
• Дано два вектора весов A и B:
• A = (A1,A2,…,An) - вектор документа
• B = (B1,B2,…,Bn) - вектор запроса
• Так как координаты векторов неотрицательные,
значение косинусной меры изменяется в диапазоне
[0,1]
• Мера эффективна для оценки разреженных
векторов
8
Достоинства и недостатки поиска по
ключевым словам
• Достоинства:
• Удобное представление документа в виде вектора
• Возможность ранжирования документов по мере
снижения значения меры сходства
• Недостатки:
• При представлении документа в виде
неупорядоченного множества слов не учитывается
порядок слов в документе. Например,
предложения: «Андрей быстрее Артема» и«Артем
быстрее Андрея» имеют один и тот же вектор
• Нет функции ранжирования, которая будет
работать одинаково хорошо на разных коллекциях
9
Поиск по образцу
1. Задается образец (фрагмент текста, список
литературы, документ)
2. Ищутся документы, похожие на образец
• Если задан список литературы, то:
• можно искать документы с похожим списком
• можно просто искать документы из списка
• Одними из способов поиска по образцу является
классификация документов
• Если образец явно не задан, возможно проведение
кластеризации документов
10
Пример алгоритма поиска по образцу
• В работе [James Lewis etc., 2006] за основу
алгоритма взят tf-idf
• Поиск осуществляется по базе данных MEDLINE
• Запрос может состоять из нескольких предложений
• Схема взвешивания слов:
для запроса
для документа
• В качестве меры схожести используется косинусная
мера
11
Классификация документов
• Имеется множество классов
• Существует неизвестная функция (классификатор),
способная определить для документа его класс
• Имеется множество вручную размеченных документов,
для которых значения классификатора известны
• Происходит «обучение» классификатора на
тренировочной выборке документов
• Построенный классификатор применяется к новым
документам
• Как правило, документы представляются в виде векторов
признаков (слов)
• Используется понятие схожести документов
• Алгоритмы классификации: решающие деревья, наивный
байесовский классификатор, метод опорных векторов,
нейронные сети и др.
12
Кластеризация документов
• Имеется множество документов
• Необходимо их разбить на кластеры похожих документов
• В разных кластерах документы должны быть как можно
более отличны
• Главное отличие кластеризации от классификации -
перечень кластеров четко не задан и определяется в
процессе работы алгоритма
• Алгоритм должен самостоятельно принимать решение о
количестве и составе кластеров
• Как правило, документы представляются в виде векторов
слов
• Используется понятие схожести документов
• Алгоритмы кластеризации: k-средних, алгоритм
минимального покрывающего дерева и др.
13
Достоинства и недостатки поиска по
образцу
• Достоинства:
• Позволяет находить действительно похожие
документы, поскольку запрос большего объема, чем
при использовании ключевых слов
• Позволяет провести более четкую границу между
похожими и непохожими текстами
• Недостатки:
• Нужно иметь образец
• Разные алгоритмы кластеризации могут выдавать
разные разбиения документов на группы
• Классификатору нужна репрезентативная выборка
для того, чтобы классификация проходила
качественно
14
Поиск по теме
• Основная задача - сопоставить документу некоторую
тему (несколько тем)
• Основной подход - латентно-семантический анализ
(ЛСА): попытка описать семантическую взаимосвязь
документов и встречающихся в них слов путем
объединения семантически схожих слов в темы и
сопоставления этих тем документам
• Имеется множество документов - коллекция
• Коллекция переставляется в виде матрицы сопоставления
слов из словаря коллекции количеству совпадений этого
слова в документе i
• Нужно получить матрицу сопоставления документов
темам
• Применяются методы разложения матриц
15
ЛСА. Пример
16
Достоинства и недостатки поиска по
теме
• Достоинства:
• Достаточно хорошо выявляются скрытые
зависимости внутри множества документов
• Частично снимается полисемия и омонимия
• Недостатки:
• Значительное снижение скорости вычисления при
увеличении объема входных данных
• Результаты сложно интерпретировать
• При представлении документа в виде
неупорядоченного множества слов не учитывается
порядок слов в документе
17
Системы научного поиска
и мониторинга
• Google Scholar - поиск по полным текстам научных
публикаций всех форматов и дисциплин (2004 год)
• eTBLAST - поиск по базам данных MEDLINE, NASA,
IOP
• Система «Научный поиск» РГБ - поиск по
диссертациям и авторефератам РГБ (2007 год)
• Exactus Expert - поиск по статьям в журналах из
списка ВАК, авторефератам диссертаций, трудам
конференций и др., тематический анализ, анализ
научных текстов, анализ научных направлений
18
Exactus Expert
19
Возможности Exactus Expert
• Поиск осуществляется по базе, которая состоит из:
• Журналов ВАК
• Иностранных журналов
• Авторефератов
• Материалов с конфереций
• Российских и иностранных патентов
• Поиск публикаций:
• по ключевым словам
• расширенный поиск по:
• Авторам
• Заглавиям
• Годам публикаций
• По структуре публикаций (определения, источники)
• Дополнительные возможности: исследование публикационной
активности по заданной тематике, оценка качества научного
текста
20
Сервис «Научный поиск»
21
Возможности сервиса
«Научный поиск»
• Поиск осуществляется по базе данных диссертаций
Российской Государственной Библиотеки
• Поиск по документу или его части
• Результат работы - список документов, которые содер-
жат полные или частичные совпадения с исследуемым
• Можно ознакомиться с копией документа и запустить
поиск связанных с ним документов
• Ввод данных осуществляется с помощью:
• Ручного набора
• Загрузки файла (*.txt,*.pdf,*.doc,*.html)
• Указание URL документа
22
Заключение
• Существуют достаточно много методов научного
поиска, позволяющих частично решать задачу
нахождения нужных пользователю документов
• Существуют системы, которые позволяют частично
решать задачи научного поиска
• Результаты поиска могут по-разному
ранжироваться
• Из-за ограниченности области поиска часть
информации не находится
23
СПАСИБО ЗА
ВНИМАНИЕ!

Савостин. Системы и методы научного поиска и мониторинга

  • 1.
    Системы и методынаучного поиска и мониторинга Савостин Петр 425 группа Научные руководители: Н.Э. Ефремова, Е.И.Большакова
  • 2.
    Содержание • Научный поиск •Методы научного поиска • Поиск по ключевым словам • Поиск по образцу • Поиск по теме • Краткий обзор систем научного поиска и мониторинга • Заключение 2
  • 3.
    Научный поиск • Научныйпоиск - поиск исключительно научной информации по нужной тематике или сфере исследования • Объекты поиска: • похожие по тематике научные работы • патенты • ученые и исследовательские коллективы, работающих в определенном направлении • конференции • журналы 3
  • 4.
    Методы научного поиска •Поиск по ключевым словам: поиск вхождений заданных ключевых слов в • название и аннотацию документа • весь документ • Поиск по образцу: сопоставление с указанными пользователем примерами • список литературы • документ/несколько документов • Поиск по теме (латентно-семантический анализ): отнесение документа к некоторой теме 4
  • 5.
    Поиск по ключевымсловам 1. Задаются ключевые слова - поисковый запрос 2. Документ рассматривается как неупорядоченное множество слов (словосочетаний) 3. Каждому слову документа приписывается вес: • tf (term frequency) - частота слова в документе • tf*idf • BM25 и пр. 4. Документ и запрос представляются как вектора слов 5. Вычисляется степень схожести между запросом и документом: • косинусная мера • коэффициент Дайса 5
  • 6.
    BM25 tf(t,D) - частотапоявления слова t в документе D tf(t,Q) - частота появления слова t в запросе Q df(t) - количество документов, где есть слово t dl - объем словаря коллекции dlavg - средняя длина документов в коллекции N - число документов в коллекции k1 - параметр для калибровки (стандартно выставляется 1.2) b - параметр для калибровки (стандартно выставляется 0.75) 6
  • 7.
    BM25 и tf-idf Отличияот меры tf-idf: • Учитывает длину документов в коллекции • За счет изменения параметров k1, b возможна настройка меры BM25 под определенную коллекцию 7
  • 8.
    Косинусная мера • Данодва вектора весов A и B: • A = (A1,A2,…,An) - вектор документа • B = (B1,B2,…,Bn) - вектор запроса • Так как координаты векторов неотрицательные, значение косинусной меры изменяется в диапазоне [0,1] • Мера эффективна для оценки разреженных векторов 8
  • 9.
    Достоинства и недостаткипоиска по ключевым словам • Достоинства: • Удобное представление документа в виде вектора • Возможность ранжирования документов по мере снижения значения меры сходства • Недостатки: • При представлении документа в виде неупорядоченного множества слов не учитывается порядок слов в документе. Например, предложения: «Андрей быстрее Артема» и«Артем быстрее Андрея» имеют один и тот же вектор • Нет функции ранжирования, которая будет работать одинаково хорошо на разных коллекциях 9
  • 10.
    Поиск по образцу 1.Задается образец (фрагмент текста, список литературы, документ) 2. Ищутся документы, похожие на образец • Если задан список литературы, то: • можно искать документы с похожим списком • можно просто искать документы из списка • Одними из способов поиска по образцу является классификация документов • Если образец явно не задан, возможно проведение кластеризации документов 10
  • 11.
    Пример алгоритма поискапо образцу • В работе [James Lewis etc., 2006] за основу алгоритма взят tf-idf • Поиск осуществляется по базе данных MEDLINE • Запрос может состоять из нескольких предложений • Схема взвешивания слов: для запроса для документа • В качестве меры схожести используется косинусная мера 11
  • 12.
    Классификация документов • Имеетсямножество классов • Существует неизвестная функция (классификатор), способная определить для документа его класс • Имеется множество вручную размеченных документов, для которых значения классификатора известны • Происходит «обучение» классификатора на тренировочной выборке документов • Построенный классификатор применяется к новым документам • Как правило, документы представляются в виде векторов признаков (слов) • Используется понятие схожести документов • Алгоритмы классификации: решающие деревья, наивный байесовский классификатор, метод опорных векторов, нейронные сети и др. 12
  • 13.
    Кластеризация документов • Имеетсямножество документов • Необходимо их разбить на кластеры похожих документов • В разных кластерах документы должны быть как можно более отличны • Главное отличие кластеризации от классификации - перечень кластеров четко не задан и определяется в процессе работы алгоритма • Алгоритм должен самостоятельно принимать решение о количестве и составе кластеров • Как правило, документы представляются в виде векторов слов • Используется понятие схожести документов • Алгоритмы кластеризации: k-средних, алгоритм минимального покрывающего дерева и др. 13
  • 14.
    Достоинства и недостаткипоиска по образцу • Достоинства: • Позволяет находить действительно похожие документы, поскольку запрос большего объема, чем при использовании ключевых слов • Позволяет провести более четкую границу между похожими и непохожими текстами • Недостатки: • Нужно иметь образец • Разные алгоритмы кластеризации могут выдавать разные разбиения документов на группы • Классификатору нужна репрезентативная выборка для того, чтобы классификация проходила качественно 14
  • 15.
    Поиск по теме •Основная задача - сопоставить документу некоторую тему (несколько тем) • Основной подход - латентно-семантический анализ (ЛСА): попытка описать семантическую взаимосвязь документов и встречающихся в них слов путем объединения семантически схожих слов в темы и сопоставления этих тем документам • Имеется множество документов - коллекция • Коллекция переставляется в виде матрицы сопоставления слов из словаря коллекции количеству совпадений этого слова в документе i • Нужно получить матрицу сопоставления документов темам • Применяются методы разложения матриц 15
  • 16.
  • 17.
    Достоинства и недостаткипоиска по теме • Достоинства: • Достаточно хорошо выявляются скрытые зависимости внутри множества документов • Частично снимается полисемия и омонимия • Недостатки: • Значительное снижение скорости вычисления при увеличении объема входных данных • Результаты сложно интерпретировать • При представлении документа в виде неупорядоченного множества слов не учитывается порядок слов в документе 17
  • 18.
    Системы научного поиска имониторинга • Google Scholar - поиск по полным текстам научных публикаций всех форматов и дисциплин (2004 год) • eTBLAST - поиск по базам данных MEDLINE, NASA, IOP • Система «Научный поиск» РГБ - поиск по диссертациям и авторефератам РГБ (2007 год) • Exactus Expert - поиск по статьям в журналах из списка ВАК, авторефератам диссертаций, трудам конференций и др., тематический анализ, анализ научных текстов, анализ научных направлений 18
  • 19.
  • 20.
    Возможности Exactus Expert •Поиск осуществляется по базе, которая состоит из: • Журналов ВАК • Иностранных журналов • Авторефератов • Материалов с конфереций • Российских и иностранных патентов • Поиск публикаций: • по ключевым словам • расширенный поиск по: • Авторам • Заглавиям • Годам публикаций • По структуре публикаций (определения, источники) • Дополнительные возможности: исследование публикационной активности по заданной тематике, оценка качества научного текста 20
  • 21.
  • 22.
    Возможности сервиса «Научный поиск» •Поиск осуществляется по базе данных диссертаций Российской Государственной Библиотеки • Поиск по документу или его части • Результат работы - список документов, которые содер- жат полные или частичные совпадения с исследуемым • Можно ознакомиться с копией документа и запустить поиск связанных с ним документов • Ввод данных осуществляется с помощью: • Ручного набора • Загрузки файла (*.txt,*.pdf,*.doc,*.html) • Указание URL документа 22
  • 23.
    Заключение • Существуют достаточномного методов научного поиска, позволяющих частично решать задачу нахождения нужных пользователю документов • Существуют системы, которые позволяют частично решать задачи научного поиска • Результаты поиска могут по-разному ранжироваться • Из-за ограниченности области поиска часть информации не находится 23
  • 24.