Савостин. Системы и методы научного поиска и мониторинга

Системы и методы научного
поиска и мониторинга
Савостин Петр 425 группа
Научные руководители:
Н.Э. Ефремова, Е.И.Большакова

Содержание
• Научный поиск
• Методы научного поиска
• Поиск по ключевым словам
• Поиск по образцу
• Поиск по теме
• Краткий обзор систем научного поиска и
мониторинга
• Заключение
2

Научный поиск
• Научный поиск - поиск исключительно научной
информации по нужной тематике или сфере
исследования
• Объекты поиска:
• похожие по тематике научные работы
• патенты
• ученые и исследовательские коллективы,
работающих в определенном направлении
• конференции
• журналы
3

Методы научного поиска
• Поиск по ключевым словам: поиск вхождений
заданных ключевых слов в
• название и аннотацию документа
• весь документ
• Поиск по образцу: сопоставление с указанными
пользователем примерами
• список литературы
• документ/несколько документов
• Поиск по теме (латентно-семантический анализ):
отнесение документа к некоторой теме
4

Поиск по ключевым словам
1. Задаются ключевые слова - поисковый запрос
2. Документ рассматривается как неупорядоченное
множество слов (словосочетаний)
3. Каждому слову документа приписывается вес:
• tf (term frequency) - частота слова в документе
• tf*idf
• BM25 и пр.
4. Документ и запрос представляются как вектора
слов
5. Вычисляется степень схожести между запросом и
документом:
• косинусная мера
• коэффициент Дайса
5

BM25
tf(t,D) - частота появления слова t в документе D
tf(t,Q) - частота появления слова t в запросе Q
df(t) - количество документов, где есть слово t
dl - объем словаря коллекции
dlavg - средняя длина документов в коллекции
N - число документов в коллекции
k1 - параметр для калибровки (стандартно
выставляется 1.2)
b - параметр для калибровки (стандартно
выставляется 0.75)
6

BM25 и tf-idf
Отличия от меры tf-idf:
• Учитывает длину документов в коллекции
• За счет изменения параметров k1, b
возможна настройка меры BM25 под
определенную коллекцию
7

Косинусная мера
• Дано два вектора весов A и B:
• A = (A1,A2,…,An) - вектор документа
• B = (B1,B2,…,Bn) - вектор запроса
• Так как координаты векторов неотрицательные,
значение косинусной меры изменяется в диапазоне
[0,1]
• Мера эффективна для оценки разреженных
векторов
8

Достоинства и недостатки поиска по
ключевым словам
• Достоинства:
• Удобное представление документа в виде вектора
• Возможность ранжирования документов по мере
снижения значения меры сходства
• Недостатки:
• При представлении документа в виде
неупорядоченного множества слов не учитывается
порядок слов в документе. Например,
предложения: «Андрей быстрее Артема» и«Артем
быстрее Андрея» имеют один и тот же вектор
• Нет функции ранжирования, которая будет
работать одинаково хорошо на разных коллекциях
9

Поиск по образцу
1. Задается образец (фрагмент текста, список
литературы, документ)
2. Ищутся документы, похожие на образец
• Если задан список литературы, то:
• можно искать документы с похожим списком
• можно просто искать документы из списка
• Одними из способов поиска по образцу является
классификация документов
• Если образец явно не задан, возможно проведение
кластеризации документов
10

Пример алгоритма поиска по образцу
• В работе [James Lewis etc., 2006] за основу
алгоритма взят tf-idf
• Поиск осуществляется по базе данных MEDLINE
• Запрос может состоять из нескольких предложений
• Схема взвешивания слов:
для запроса
для документа
• В качестве меры схожести используется косинусная
мера
11

Классификация документов
• Имеется множество классов
• Существует неизвестная функция (классификатор),
способная определить для документа его класс
• Имеется множество вручную размеченных документов,
для которых значения классификатора известны
• Происходит «обучение» классификатора на
тренировочной выборке документов
• Построенный классификатор применяется к новым
документам
• Как правило, документы представляются в виде векторов
признаков (слов)
• Используется понятие схожести документов
• Алгоритмы классификации: решающие деревья, наивный
байесовский классификатор, метод опорных векторов,
нейронные сети и др.
12

Кластеризация документов
• Имеется множество документов
• Необходимо их разбить на кластеры похожих документов
• В разных кластерах документы должны быть как можно
более отличны
• Главное отличие кластеризации от классификации -
перечень кластеров четко не задан и определяется в
процессе работы алгоритма
• Алгоритм должен самостоятельно принимать решение о
количестве и составе кластеров
• Как правило, документы представляются в виде векторов
слов
• Используется понятие схожести документов
• Алгоритмы кластеризации: k-средних, алгоритм
минимального покрывающего дерева и др.
13

образцу
• Позволяет находить действительно похожие
документы, поскольку запрос большего объема, чем
при использовании ключевых слов
• Позволяет провести более четкую границу между
похожими и непохожими текстами
• Нужно иметь образец
• Разные алгоритмы кластеризации могут выдавать
разные разбиения документов на группы
• Классификатору нужна репрезентативная выборка
для того, чтобы классификация проходила
качественно
14

Поиск по теме
• Основная задача - сопоставить документу некоторую
тему (несколько тем)
• Основной подход - латентно-семантический анализ
(ЛСА): попытка описать семантическую взаимосвязь
документов и встречающихся в них слов путем
объединения семантически схожих слов в темы и
сопоставления этих тем документам
• Имеется множество документов - коллекция
• Коллекция переставляется в виде матрицы сопоставления
слов из словаря коллекции количеству совпадений этого
слова в документе i
• Нужно получить матрицу сопоставления документов
темам
• Применяются методы разложения матриц
15

теме
• Достаточно хорошо выявляются скрытые
зависимости внутри множества документов
• Частично снимается полисемия и омонимия
• Значительное снижение скорости вычисления при
увеличении объема входных данных
• Результаты сложно интерпретировать
• При представлении документа в виде
неупорядоченного множества слов не учитывается
порядок слов в документе
17

Системы научного поиска
и мониторинга
• Google Scholar - поиск по полным текстам научных
публикаций всех форматов и дисциплин (2004 год)
• eTBLAST - поиск по базам данных MEDLINE, NASA,
IOP
• Система «Научный поиск» РГБ - поиск по
диссертациям и авторефератам РГБ (2007 год)
• Exactus Expert - поиск по статьям в журналах из
списка ВАК, авторефератам диссертаций, трудам
конференций и др., тематический анализ, анализ
научных текстов, анализ научных направлений
18

Возможности Exactus Expert
• Поиск осуществляется по базе, которая состоит из:
• Журналов ВАК
• Иностранных журналов
• Авторефератов
• Материалов с конфереций
• Российских и иностранных патентов
• Поиск публикаций:
• по ключевым словам
• расширенный поиск по:
• Авторам
• Заглавиям
• Годам публикаций
• По структуре публикаций (определения, источники)
• Дополнительные возможности: исследование публикационной
активности по заданной тематике, оценка качества научного
текста
20

Сервис «Научный поиск»
21

Возможности сервиса
«Научный поиск»
• Поиск осуществляется по базе данных диссертаций
Российской Государственной Библиотеки
• Поиск по документу или его части
• Результат работы - список документов, которые содер-
жат полные или частичные совпадения с исследуемым
• Можно ознакомиться с копией документа и запустить
поиск связанных с ним документов
• Ввод данных осуществляется с помощью:
• Ручного набора
• Загрузки файла (*.txt,*.pdf,*.doc,*.html)
• Указание URL документа
22

Заключение
• Существуют достаточно много методов научного
поиска, позволяющих частично решать задачу
нахождения нужных пользователю документов
• Существуют системы, которые позволяют частично
решать задачи научного поиска
• Результаты поиска могут по-разному
ранжироваться
• Из-за ограниченности области поиска часть
информации не находится
23

СПАСИБО ЗА
ВНИМАНИЕ!

Савостин. Системы и методы научного поиска и мониторинга

Recommended

Recommended

More Related Content

What's hot

What's hot (7)

Viewers also liked

Viewers also liked (20)

Similar to Савостин. Системы и методы научного поиска и мониторинга

Similar to Савостин. Системы и методы научного поиска и мониторинга (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (11)

Савостин. Системы и методы научного поиска и мониторинга