Савостин. Системы и методы научного поиска и мониторинга
1. Системы и методы научного
поиска и мониторинга
Савостин Петр 425 группа
Научные руководители:
Н.Э. Ефремова, Е.И.Большакова
2. Содержание
• Научный поиск
• Методы научного поиска
• Поиск по ключевым словам
• Поиск по образцу
• Поиск по теме
• Краткий обзор систем научного поиска и
мониторинга
• Заключение
2
3. Научный поиск
• Научный поиск - поиск исключительно научной
информации по нужной тематике или сфере
исследования
• Объекты поиска:
• похожие по тематике научные работы
• патенты
• ученые и исследовательские коллективы,
работающих в определенном направлении
• конференции
• журналы
3
4. Методы научного поиска
• Поиск по ключевым словам: поиск вхождений
заданных ключевых слов в
• название и аннотацию документа
• весь документ
• Поиск по образцу: сопоставление с указанными
пользователем примерами
• список литературы
• документ/несколько документов
• Поиск по теме (латентно-семантический анализ):
отнесение документа к некоторой теме
4
5. Поиск по ключевым словам
1. Задаются ключевые слова - поисковый запрос
2. Документ рассматривается как неупорядоченное
множество слов (словосочетаний)
3. Каждому слову документа приписывается вес:
• tf (term frequency) - частота слова в документе
• tf*idf
• BM25 и пр.
4. Документ и запрос представляются как вектора
слов
5. Вычисляется степень схожести между запросом и
документом:
• косинусная мера
• коэффициент Дайса
5
6. BM25
tf(t,D) - частота появления слова t в документе D
tf(t,Q) - частота появления слова t в запросе Q
df(t) - количество документов, где есть слово t
dl - объем словаря коллекции
dlavg - средняя длина документов в коллекции
N - число документов в коллекции
k1 - параметр для калибровки (стандартно
выставляется 1.2)
b - параметр для калибровки (стандартно
выставляется 0.75)
6
7. BM25 и tf-idf
Отличия от меры tf-idf:
• Учитывает длину документов в коллекции
• За счет изменения параметров k1, b
возможна настройка меры BM25 под
определенную коллекцию
7
8. Косинусная мера
• Дано два вектора весов A и B:
• A = (A1,A2,…,An) - вектор документа
• B = (B1,B2,…,Bn) - вектор запроса
• Так как координаты векторов неотрицательные,
значение косинусной меры изменяется в диапазоне
[0,1]
• Мера эффективна для оценки разреженных
векторов
8
9. Достоинства и недостатки поиска по
ключевым словам
• Достоинства:
• Удобное представление документа в виде вектора
• Возможность ранжирования документов по мере
снижения значения меры сходства
• Недостатки:
• При представлении документа в виде
неупорядоченного множества слов не учитывается
порядок слов в документе. Например,
предложения: «Андрей быстрее Артема» и«Артем
быстрее Андрея» имеют один и тот же вектор
• Нет функции ранжирования, которая будет
работать одинаково хорошо на разных коллекциях
9
10. Поиск по образцу
1. Задается образец (фрагмент текста, список
литературы, документ)
2. Ищутся документы, похожие на образец
• Если задан список литературы, то:
• можно искать документы с похожим списком
• можно просто искать документы из списка
• Одними из способов поиска по образцу является
классификация документов
• Если образец явно не задан, возможно проведение
кластеризации документов
10
11. Пример алгоритма поиска по образцу
• В работе [James Lewis etc., 2006] за основу
алгоритма взят tf-idf
• Поиск осуществляется по базе данных MEDLINE
• Запрос может состоять из нескольких предложений
• Схема взвешивания слов:
для запроса
для документа
• В качестве меры схожести используется косинусная
мера
11
12. Классификация документов
• Имеется множество классов
• Существует неизвестная функция (классификатор),
способная определить для документа его класс
• Имеется множество вручную размеченных документов,
для которых значения классификатора известны
• Происходит «обучение» классификатора на
тренировочной выборке документов
• Построенный классификатор применяется к новым
документам
• Как правило, документы представляются в виде векторов
признаков (слов)
• Используется понятие схожести документов
• Алгоритмы классификации: решающие деревья, наивный
байесовский классификатор, метод опорных векторов,
нейронные сети и др.
12
13. Кластеризация документов
• Имеется множество документов
• Необходимо их разбить на кластеры похожих документов
• В разных кластерах документы должны быть как можно
более отличны
• Главное отличие кластеризации от классификации -
перечень кластеров четко не задан и определяется в
процессе работы алгоритма
• Алгоритм должен самостоятельно принимать решение о
количестве и составе кластеров
• Как правило, документы представляются в виде векторов
слов
• Используется понятие схожести документов
• Алгоритмы кластеризации: k-средних, алгоритм
минимального покрывающего дерева и др.
13
14. Достоинства и недостатки поиска по
образцу
• Достоинства:
• Позволяет находить действительно похожие
документы, поскольку запрос большего объема, чем
при использовании ключевых слов
• Позволяет провести более четкую границу между
похожими и непохожими текстами
• Недостатки:
• Нужно иметь образец
• Разные алгоритмы кластеризации могут выдавать
разные разбиения документов на группы
• Классификатору нужна репрезентативная выборка
для того, чтобы классификация проходила
качественно
14
15. Поиск по теме
• Основная задача - сопоставить документу некоторую
тему (несколько тем)
• Основной подход - латентно-семантический анализ
(ЛСА): попытка описать семантическую взаимосвязь
документов и встречающихся в них слов путем
объединения семантически схожих слов в темы и
сопоставления этих тем документам
• Имеется множество документов - коллекция
• Коллекция переставляется в виде матрицы сопоставления
слов из словаря коллекции количеству совпадений этого
слова в документе i
• Нужно получить матрицу сопоставления документов
темам
• Применяются методы разложения матриц
15
17. Достоинства и недостатки поиска по
теме
• Достоинства:
• Достаточно хорошо выявляются скрытые
зависимости внутри множества документов
• Частично снимается полисемия и омонимия
• Недостатки:
• Значительное снижение скорости вычисления при
увеличении объема входных данных
• Результаты сложно интерпретировать
• При представлении документа в виде
неупорядоченного множества слов не учитывается
порядок слов в документе
17
18. Системы научного поиска
и мониторинга
• Google Scholar - поиск по полным текстам научных
публикаций всех форматов и дисциплин (2004 год)
• eTBLAST - поиск по базам данных MEDLINE, NASA,
IOP
• Система «Научный поиск» РГБ - поиск по
диссертациям и авторефератам РГБ (2007 год)
• Exactus Expert - поиск по статьям в журналах из
списка ВАК, авторефератам диссертаций, трудам
конференций и др., тематический анализ, анализ
научных текстов, анализ научных направлений
18
20. Возможности Exactus Expert
• Поиск осуществляется по базе, которая состоит из:
• Журналов ВАК
• Иностранных журналов
• Авторефератов
• Материалов с конфереций
• Российских и иностранных патентов
• Поиск публикаций:
• по ключевым словам
• расширенный поиск по:
• Авторам
• Заглавиям
• Годам публикаций
• По структуре публикаций (определения, источники)
• Дополнительные возможности: исследование публикационной
активности по заданной тематике, оценка качества научного
текста
20
22. Возможности сервиса
«Научный поиск»
• Поиск осуществляется по базе данных диссертаций
Российской Государственной Библиотеки
• Поиск по документу или его части
• Результат работы - список документов, которые содер-
жат полные или частичные совпадения с исследуемым
• Можно ознакомиться с копией документа и запустить
поиск связанных с ним документов
• Ввод данных осуществляется с помощью:
• Ручного набора
• Загрузки файла (*.txt,*.pdf,*.doc,*.html)
• Указание URL документа
22
23. Заключение
• Существуют достаточно много методов научного
поиска, позволяющих частично решать задачу
нахождения нужных пользователю документов
• Существуют системы, которые позволяют частично
решать задачи научного поиска
• Результаты поиска могут по-разному
ранжироваться
• Из-за ограниченности области поиска часть
информации не находится
23