SlideShare a Scribd company logo
1 of 24
Download to read offline
Системы и методы научного
поиска и мониторинга
Савостин Петр 425 группа
Научные руководители:
Н.Э. Ефремова, Е.И.Большакова
Содержание
• Научный поиск
• Методы научного поиска
• Поиск по ключевым словам
• Поиск по образцу
• Поиск по теме
• Краткий обзор систем научного поиска и
мониторинга
• Заключение
2
Научный поиск
• Научный поиск - поиск исключительно научной
информации по нужной тематике или сфере
исследования
• Объекты поиска:
• похожие по тематике научные работы
• патенты
• ученые и исследовательские коллективы,
работающих в определенном направлении
• конференции
• журналы
3
Методы научного поиска
• Поиск по ключевым словам: поиск вхождений
заданных ключевых слов в
• название и аннотацию документа
• весь документ
• Поиск по образцу: сопоставление с указанными
пользователем примерами
• список литературы
• документ/несколько документов
• Поиск по теме (латентно-семантический анализ):
отнесение документа к некоторой теме
4
Поиск по ключевым словам
1. Задаются ключевые слова - поисковый запрос
2. Документ рассматривается как неупорядоченное
множество слов (словосочетаний)
3. Каждому слову документа приписывается вес:
• tf (term frequency) - частота слова в документе
• tf*idf
• BM25 и пр.
4. Документ и запрос представляются как вектора
слов
5. Вычисляется степень схожести между запросом и
документом:
• косинусная мера
• коэффициент Дайса
5
BM25
tf(t,D) - частота появления слова t в документе D
tf(t,Q) - частота появления слова t в запросе Q
df(t) - количество документов, где есть слово t
dl - объем словаря коллекции
dlavg - средняя длина документов в коллекции
N - число документов в коллекции
k1 - параметр для калибровки (стандартно
выставляется 1.2)
b - параметр для калибровки (стандартно
выставляется 0.75)
6
BM25 и tf-idf
Отличия от меры tf-idf:
• Учитывает длину документов в коллекции
• За счет изменения параметров k1, b
возможна настройка меры BM25 под
определенную коллекцию
7
Косинусная мера
• Дано два вектора весов A и B:
• A = (A1,A2,…,An) - вектор документа
• B = (B1,B2,…,Bn) - вектор запроса
• Так как координаты векторов неотрицательные,
значение косинусной меры изменяется в диапазоне
[0,1]
• Мера эффективна для оценки разреженных
векторов
8
Достоинства и недостатки поиска по
ключевым словам
• Достоинства:
• Удобное представление документа в виде вектора
• Возможность ранжирования документов по мере
снижения значения меры сходства
• Недостатки:
• При представлении документа в виде
неупорядоченного множества слов не учитывается
порядок слов в документе. Например,
предложения: «Андрей быстрее Артема» и«Артем
быстрее Андрея» имеют один и тот же вектор
• Нет функции ранжирования, которая будет
работать одинаково хорошо на разных коллекциях
9
Поиск по образцу
1. Задается образец (фрагмент текста, список
литературы, документ)
2. Ищутся документы, похожие на образец
• Если задан список литературы, то:
• можно искать документы с похожим списком
• можно просто искать документы из списка
• Одними из способов поиска по образцу является
классификация документов
• Если образец явно не задан, возможно проведение
кластеризации документов
10
Пример алгоритма поиска по образцу
• В работе [James Lewis etc., 2006] за основу
алгоритма взят tf-idf
• Поиск осуществляется по базе данных MEDLINE
• Запрос может состоять из нескольких предложений
• Схема взвешивания слов:
для запроса
для документа
• В качестве меры схожести используется косинусная
мера
11
Классификация документов
• Имеется множество классов
• Существует неизвестная функция (классификатор),
способная определить для документа его класс
• Имеется множество вручную размеченных документов,
для которых значения классификатора известны
• Происходит «обучение» классификатора на
тренировочной выборке документов
• Построенный классификатор применяется к новым
документам
• Как правило, документы представляются в виде векторов
признаков (слов)
• Используется понятие схожести документов
• Алгоритмы классификации: решающие деревья, наивный
байесовский классификатор, метод опорных векторов,
нейронные сети и др.
12
Кластеризация документов
• Имеется множество документов
• Необходимо их разбить на кластеры похожих документов
• В разных кластерах документы должны быть как можно
более отличны
• Главное отличие кластеризации от классификации -
перечень кластеров четко не задан и определяется в
процессе работы алгоритма
• Алгоритм должен самостоятельно принимать решение о
количестве и составе кластеров
• Как правило, документы представляются в виде векторов
слов
• Используется понятие схожести документов
• Алгоритмы кластеризации: k-средних, алгоритм
минимального покрывающего дерева и др.
13
Достоинства и недостатки поиска по
образцу
• Достоинства:
• Позволяет находить действительно похожие
документы, поскольку запрос большего объема, чем
при использовании ключевых слов
• Позволяет провести более четкую границу между
похожими и непохожими текстами
• Недостатки:
• Нужно иметь образец
• Разные алгоритмы кластеризации могут выдавать
разные разбиения документов на группы
• Классификатору нужна репрезентативная выборка
для того, чтобы классификация проходила
качественно
14
Поиск по теме
• Основная задача - сопоставить документу некоторую
тему (несколько тем)
• Основной подход - латентно-семантический анализ
(ЛСА): попытка описать семантическую взаимосвязь
документов и встречающихся в них слов путем
объединения семантически схожих слов в темы и
сопоставления этих тем документам
• Имеется множество документов - коллекция
• Коллекция переставляется в виде матрицы сопоставления
слов из словаря коллекции количеству совпадений этого
слова в документе i
• Нужно получить матрицу сопоставления документов
темам
• Применяются методы разложения матриц
15
ЛСА. Пример
16
Достоинства и недостатки поиска по
теме
• Достоинства:
• Достаточно хорошо выявляются скрытые
зависимости внутри множества документов
• Частично снимается полисемия и омонимия
• Недостатки:
• Значительное снижение скорости вычисления при
увеличении объема входных данных
• Результаты сложно интерпретировать
• При представлении документа в виде
неупорядоченного множества слов не учитывается
порядок слов в документе
17
Системы научного поиска
и мониторинга
• Google Scholar - поиск по полным текстам научных
публикаций всех форматов и дисциплин (2004 год)
• eTBLAST - поиск по базам данных MEDLINE, NASA,
IOP
• Система «Научный поиск» РГБ - поиск по
диссертациям и авторефератам РГБ (2007 год)
• Exactus Expert - поиск по статьям в журналах из
списка ВАК, авторефератам диссертаций, трудам
конференций и др., тематический анализ, анализ
научных текстов, анализ научных направлений
18
Exactus Expert
19
Возможности Exactus Expert
• Поиск осуществляется по базе, которая состоит из:
• Журналов ВАК
• Иностранных журналов
• Авторефератов
• Материалов с конфереций
• Российских и иностранных патентов
• Поиск публикаций:
• по ключевым словам
• расширенный поиск по:
• Авторам
• Заглавиям
• Годам публикаций
• По структуре публикаций (определения, источники)
• Дополнительные возможности: исследование публикационной
активности по заданной тематике, оценка качества научного
текста
20
Сервис «Научный поиск»
21
Возможности сервиса
«Научный поиск»
• Поиск осуществляется по базе данных диссертаций
Российской Государственной Библиотеки
• Поиск по документу или его части
• Результат работы - список документов, которые содер-
жат полные или частичные совпадения с исследуемым
• Можно ознакомиться с копией документа и запустить
поиск связанных с ним документов
• Ввод данных осуществляется с помощью:
• Ручного набора
• Загрузки файла (*.txt,*.pdf,*.doc,*.html)
• Указание URL документа
22
Заключение
• Существуют достаточно много методов научного
поиска, позволяющих частично решать задачу
нахождения нужных пользователю документов
• Существуют системы, которые позволяют частично
решать задачи научного поиска
• Результаты поиска могут по-разному
ранжироваться
• Из-за ограниченности области поиска часть
информации не находится
23
СПАСИБО ЗА
ВНИМАНИЕ!

More Related Content

What's hot

главчева научн метрики_11_2014
главчева научн метрики_11_2014главчева научн метрики_11_2014
главчева научн метрики_11_2014Julia Glavcheva
 
Вертикальные поисковики
Вертикальные поисковикиВертикальные поисковики
Вертикальные поисковикиAlexeyKutovenko
 
Scopus m fine chemtech_march 2015
Scopus m fine chemtech_march 2015Scopus m fine chemtech_march 2015
Scopus m fine chemtech_march 2015Valery Chernyshov
 
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02finnopolis
 
Основы проектно-исследовательской деятельности. Ч.1
Основы проектно-исследовательской деятельности. Ч.1Основы проектно-исследовательской деятельности. Ч.1
Основы проектно-исследовательской деятельности. Ч.1ozlmgouru
 
Поиск в СЭД? Элементарно, Ватсон!
Поиск в СЭД? Элементарно, Ватсон!Поиск в СЭД? Элементарно, Ватсон!
Поиск в СЭД? Элементарно, Ватсон!DIRECTUM
 

What's hot (7)

главчева научн метрики_11_2014
главчева научн метрики_11_2014главчева научн метрики_11_2014
главчева научн метрики_11_2014
 
Вертикальные поисковики
Вертикальные поисковикиВертикальные поисковики
Вертикальные поисковики
 
Scopus m fine chemtech_march 2015
Scopus m fine chemtech_march 2015Scopus m fine chemtech_march 2015
Scopus m fine chemtech_march 2015
 
Публикации международного уровня - Галина Якшонок, руководитель партнерских п...
Публикации международного уровня - Галина Якшонок, руководитель партнерских п...Публикации международного уровня - Галина Якшонок, руководитель партнерских п...
Публикации международного уровня - Галина Якшонок, руководитель партнерских п...
 
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02
 
Основы проектно-исследовательской деятельности. Ч.1
Основы проектно-исследовательской деятельности. Ч.1Основы проектно-исследовательской деятельности. Ч.1
Основы проектно-исследовательской деятельности. Ч.1
 
Поиск в СЭД? Элементарно, Ватсон!
Поиск в СЭД? Элементарно, Ватсон!Поиск в СЭД? Элементарно, Ватсон!
Поиск в СЭД? Элементарно, Ватсон!
 

Viewers also liked

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 

Viewers also liked (20)

Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 

Similar to Савостин. Системы и методы научного поиска и мониторинга

Predicitive Analytics в InterSystems Caché
Predicitive Analytics в InterSystems CachéPredicitive Analytics в InterSystems Caché
Predicitive Analytics в InterSystems CachéInterSystems CEE
 
32 - Базы данных. Пространственные индексы
32 - Базы данных. Пространственные индексы32 - Базы данных. Пространственные индексы
32 - Базы данных. Пространственные индексыRoman Brovko
 
Поиск на своем сайте, обзор open source решений
Поиск на своем сайте, обзор open source решенийПоиск на своем сайте, обзор open source решений
Поиск на своем сайте, обзор open source решенийaragozin
 
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)Ontico
 
Поиск источников и анализ литературы для научной работы
Поиск источников и анализ литературы для научной работыПоиск источников и анализ литературы для научной работы
Поиск источников и анализ литературы для научной работыVasiliy Starostin
 
Основы наукометриии работа с индексами цитирования (РИНЦ, WoS, Scopus) с цель...
Основы наукометриии работа с индексами цитирования (РИНЦ, WoS, Scopus) с цель...Основы наукометриии работа с индексами цитирования (РИНЦ, WoS, Scopus) с цель...
Основы наукометриии работа с индексами цитирования (РИНЦ, WoS, Scopus) с цель...Ольга Москалева
 
Автоматизированная библиотечная информационная система ИРБИС 64
Автоматизированная библиотечная информационная система ИРБИС 64Автоматизированная библиотечная информационная система ИРБИС 64
Автоматизированная библиотечная информационная система ИРБИС 64НБ МДУ
 
Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Taras Gushcha
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdfGrishan1
 
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Julia Glavcheva
 
7 предпосылки включения_главчева
7 предпосылки включения_главчева7 предпосылки включения_главчева
7 предпосылки включения_главчеваVladimir Kukharenko
 
презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)Irinka Bilan
 
Вертикальные поисковики
Вертикальные поисковикиВертикальные поисковики
Вертикальные поисковикиAlexeyKutovenko
 
Научные журналы: требования международных систем
Научные журналы: требования международных системНаучные журналы: требования международных систем
Научные журналы: требования международных системJulia Glavcheva
 
системный анализ и реинжиниринг
системный анализ и реинжинирингсистемный анализ и реинжиниринг
системный анализ и реинжинирингAleksandr Barmin
 
Informacia v-baze-dannyh-docazatelnoi-mediciny
Informacia v-baze-dannyh-docazatelnoi-medicinyInformacia v-baze-dannyh-docazatelnoi-mediciny
Informacia v-baze-dannyh-docazatelnoi-medicinyamansaulyk
 
Управление Данными. Лекция 6
Управление Данными. Лекция 6Управление Данными. Лекция 6
Управление Данными. Лекция 6Dmitriy Krukov
 

Similar to Савостин. Системы и методы научного поиска и мониторинга (20)

Predicitive Analytics в InterSystems Caché
Predicitive Analytics в InterSystems CachéPredicitive Analytics в InterSystems Caché
Predicitive Analytics в InterSystems Caché
 
32 - Базы данных. Пространственные индексы
32 - Базы данных. Пространственные индексы32 - Базы данных. Пространственные индексы
32 - Базы данных. Пространственные индексы
 
Поиск на своем сайте, обзор open source решений
Поиск на своем сайте, обзор open source решенийПоиск на своем сайте, обзор open source решений
Поиск на своем сайте, обзор open source решений
 
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
 
Поиск источников и анализ литературы для научной работы
Поиск источников и анализ литературы для научной работыПоиск источников и анализ литературы для научной работы
Поиск источников и анализ литературы для научной работы
 
Основы наукометриии работа с индексами цитирования (РИНЦ, WoS, Scopus) с цель...
Основы наукометриии работа с индексами цитирования (РИНЦ, WoS, Scopus) с цель...Основы наукометриии работа с индексами цитирования (РИНЦ, WoS, Scopus) с цель...
Основы наукометриии работа с индексами цитирования (РИНЦ, WoS, Scopus) с цель...
 
Автоматизированная библиотечная информационная система ИРБИС 64
Автоматизированная библиотечная информационная система ИРБИС 64Автоматизированная библиотечная информационная система ИРБИС 64
Автоматизированная библиотечная информационная система ИРБИС 64
 
Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017
 
Фишки из патентов Google
Фишки из патентов GoogleФишки из патентов Google
Фишки из патентов Google
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
 
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
 
7 предпосылки включения_главчева
7 предпосылки включения_главчева7 предпосылки включения_главчева
7 предпосылки включения_главчева
 
Biodb 2011-03
Biodb 2011-03Biodb 2011-03
Biodb 2011-03
 
презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)
 
Вертикальные поисковики
Вертикальные поисковикиВертикальные поисковики
Вертикальные поисковики
 
Научные журналы: требования международных систем
Научные журналы: требования международных системНаучные журналы: требования международных систем
Научные журналы: требования международных систем
 
системный анализ и реинжиниринг
системный анализ и реинжинирингсистемный анализ и реинжиниринг
системный анализ и реинжиниринг
 
Google Академия, eLIBRARY.RU
Google  Академия, eLIBRARY.RUGoogle  Академия, eLIBRARY.RU
Google Академия, eLIBRARY.RU
 
Informacia v-baze-dannyh-docazatelnoi-mediciny
Informacia v-baze-dannyh-docazatelnoi-medicinyInformacia v-baze-dannyh-docazatelnoi-mediciny
Informacia v-baze-dannyh-docazatelnoi-mediciny
 
Управление Данными. Лекция 6
Управление Данными. Лекция 6Управление Данными. Лекция 6
Управление Данными. Лекция 6
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (11)

Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 

Савостин. Системы и методы научного поиска и мониторинга

  • 1. Системы и методы научного поиска и мониторинга Савостин Петр 425 группа Научные руководители: Н.Э. Ефремова, Е.И.Большакова
  • 2. Содержание • Научный поиск • Методы научного поиска • Поиск по ключевым словам • Поиск по образцу • Поиск по теме • Краткий обзор систем научного поиска и мониторинга • Заключение 2
  • 3. Научный поиск • Научный поиск - поиск исключительно научной информации по нужной тематике или сфере исследования • Объекты поиска: • похожие по тематике научные работы • патенты • ученые и исследовательские коллективы, работающих в определенном направлении • конференции • журналы 3
  • 4. Методы научного поиска • Поиск по ключевым словам: поиск вхождений заданных ключевых слов в • название и аннотацию документа • весь документ • Поиск по образцу: сопоставление с указанными пользователем примерами • список литературы • документ/несколько документов • Поиск по теме (латентно-семантический анализ): отнесение документа к некоторой теме 4
  • 5. Поиск по ключевым словам 1. Задаются ключевые слова - поисковый запрос 2. Документ рассматривается как неупорядоченное множество слов (словосочетаний) 3. Каждому слову документа приписывается вес: • tf (term frequency) - частота слова в документе • tf*idf • BM25 и пр. 4. Документ и запрос представляются как вектора слов 5. Вычисляется степень схожести между запросом и документом: • косинусная мера • коэффициент Дайса 5
  • 6. BM25 tf(t,D) - частота появления слова t в документе D tf(t,Q) - частота появления слова t в запросе Q df(t) - количество документов, где есть слово t dl - объем словаря коллекции dlavg - средняя длина документов в коллекции N - число документов в коллекции k1 - параметр для калибровки (стандартно выставляется 1.2) b - параметр для калибровки (стандартно выставляется 0.75) 6
  • 7. BM25 и tf-idf Отличия от меры tf-idf: • Учитывает длину документов в коллекции • За счет изменения параметров k1, b возможна настройка меры BM25 под определенную коллекцию 7
  • 8. Косинусная мера • Дано два вектора весов A и B: • A = (A1,A2,…,An) - вектор документа • B = (B1,B2,…,Bn) - вектор запроса • Так как координаты векторов неотрицательные, значение косинусной меры изменяется в диапазоне [0,1] • Мера эффективна для оценки разреженных векторов 8
  • 9. Достоинства и недостатки поиска по ключевым словам • Достоинства: • Удобное представление документа в виде вектора • Возможность ранжирования документов по мере снижения значения меры сходства • Недостатки: • При представлении документа в виде неупорядоченного множества слов не учитывается порядок слов в документе. Например, предложения: «Андрей быстрее Артема» и«Артем быстрее Андрея» имеют один и тот же вектор • Нет функции ранжирования, которая будет работать одинаково хорошо на разных коллекциях 9
  • 10. Поиск по образцу 1. Задается образец (фрагмент текста, список литературы, документ) 2. Ищутся документы, похожие на образец • Если задан список литературы, то: • можно искать документы с похожим списком • можно просто искать документы из списка • Одними из способов поиска по образцу является классификация документов • Если образец явно не задан, возможно проведение кластеризации документов 10
  • 11. Пример алгоритма поиска по образцу • В работе [James Lewis etc., 2006] за основу алгоритма взят tf-idf • Поиск осуществляется по базе данных MEDLINE • Запрос может состоять из нескольких предложений • Схема взвешивания слов: для запроса для документа • В качестве меры схожести используется косинусная мера 11
  • 12. Классификация документов • Имеется множество классов • Существует неизвестная функция (классификатор), способная определить для документа его класс • Имеется множество вручную размеченных документов, для которых значения классификатора известны • Происходит «обучение» классификатора на тренировочной выборке документов • Построенный классификатор применяется к новым документам • Как правило, документы представляются в виде векторов признаков (слов) • Используется понятие схожести документов • Алгоритмы классификации: решающие деревья, наивный байесовский классификатор, метод опорных векторов, нейронные сети и др. 12
  • 13. Кластеризация документов • Имеется множество документов • Необходимо их разбить на кластеры похожих документов • В разных кластерах документы должны быть как можно более отличны • Главное отличие кластеризации от классификации - перечень кластеров четко не задан и определяется в процессе работы алгоритма • Алгоритм должен самостоятельно принимать решение о количестве и составе кластеров • Как правило, документы представляются в виде векторов слов • Используется понятие схожести документов • Алгоритмы кластеризации: k-средних, алгоритм минимального покрывающего дерева и др. 13
  • 14. Достоинства и недостатки поиска по образцу • Достоинства: • Позволяет находить действительно похожие документы, поскольку запрос большего объема, чем при использовании ключевых слов • Позволяет провести более четкую границу между похожими и непохожими текстами • Недостатки: • Нужно иметь образец • Разные алгоритмы кластеризации могут выдавать разные разбиения документов на группы • Классификатору нужна репрезентативная выборка для того, чтобы классификация проходила качественно 14
  • 15. Поиск по теме • Основная задача - сопоставить документу некоторую тему (несколько тем) • Основной подход - латентно-семантический анализ (ЛСА): попытка описать семантическую взаимосвязь документов и встречающихся в них слов путем объединения семантически схожих слов в темы и сопоставления этих тем документам • Имеется множество документов - коллекция • Коллекция переставляется в виде матрицы сопоставления слов из словаря коллекции количеству совпадений этого слова в документе i • Нужно получить матрицу сопоставления документов темам • Применяются методы разложения матриц 15
  • 17. Достоинства и недостатки поиска по теме • Достоинства: • Достаточно хорошо выявляются скрытые зависимости внутри множества документов • Частично снимается полисемия и омонимия • Недостатки: • Значительное снижение скорости вычисления при увеличении объема входных данных • Результаты сложно интерпретировать • При представлении документа в виде неупорядоченного множества слов не учитывается порядок слов в документе 17
  • 18. Системы научного поиска и мониторинга • Google Scholar - поиск по полным текстам научных публикаций всех форматов и дисциплин (2004 год) • eTBLAST - поиск по базам данных MEDLINE, NASA, IOP • Система «Научный поиск» РГБ - поиск по диссертациям и авторефератам РГБ (2007 год) • Exactus Expert - поиск по статьям в журналах из списка ВАК, авторефератам диссертаций, трудам конференций и др., тематический анализ, анализ научных текстов, анализ научных направлений 18
  • 20. Возможности Exactus Expert • Поиск осуществляется по базе, которая состоит из: • Журналов ВАК • Иностранных журналов • Авторефератов • Материалов с конфереций • Российских и иностранных патентов • Поиск публикаций: • по ключевым словам • расширенный поиск по: • Авторам • Заглавиям • Годам публикаций • По структуре публикаций (определения, источники) • Дополнительные возможности: исследование публикационной активности по заданной тематике, оценка качества научного текста 20
  • 22. Возможности сервиса «Научный поиск» • Поиск осуществляется по базе данных диссертаций Российской Государственной Библиотеки • Поиск по документу или его части • Результат работы - список документов, которые содер- жат полные или частичные совпадения с исследуемым • Можно ознакомиться с копией документа и запустить поиск связанных с ним документов • Ввод данных осуществляется с помощью: • Ручного набора • Загрузки файла (*.txt,*.pdf,*.doc,*.html) • Указание URL документа 22
  • 23. Заключение • Существуют достаточно много методов научного поиска, позволяющих частично решать задачу нахождения нужных пользователю документов • Существуют системы, которые позволяют частично решать задачи научного поиска • Результаты поиска могут по-разному ранжироваться • Из-за ограниченности области поиска часть информации не находится 23