20150129 минобороны презентация v02

Электронная библиотека научно-
технической информации
Опыт, технологии, решения

2
Наиболее значимые аналогичные
проекты IBS
 Министерство образования РФ
Разработка инструмента, обеспечивающего информационную
поддержку управления идеями и развитием инноваций в рамках
ФЦП "Исследования и разработки по приоритетным
направлениям развития НТК России на 2014-2020 годы " (текущий
проект)
 Министерство транспорта РФ
Система доступа субъектов транспортного комплекса Российской
Федерации к научным и образовательным информационным
ресурсам
 Федеральное казначейство
Система электронного хранения документов Федерального
казначейства
Система полнотекстового поиска на портале госзакупок
Система анализа госзакупок (анализ содержания закупочной
документации)
 Государственная корпорация "Росатом"
Разработка концепции системы управления корпоративными
знаниями ГК и программы её реализации

3
Технологии, инструменты по обработке
неструктурированных данных в арсенале IBS
 RCO Zoom
 IBM FileNet
 EMC Documentum
 IBM DataCap
 EMC Captiva
 Abbyy FineReader, Abbyy
FlexyCapture
Платформы электронного
архива
Сканирование и распознавание
 RCO Zoom
 Sphinx (Open Source)
 IBM Content Analytics
 EMC Documentum Index Server
 Autonomy IDOL
Поисковые машины
 RCO Fact Extractor
 IBM Content Analytics
Извлечение знаний

4
4
Создание
Поиск
Ключевые функции библиотеки научных и
образовательных ресурсов
Обмен
Доступ
Учет
Библиотека
научных
и
образовательных
ресурсов

5
Функциональные составляющие решения
Поиск и извлечение
 Атрибутивный, контекстный и
«семантический» поиск
 Просмотр, печать документов
 Экспорт документов
Сбор, хранение
 Регистрация/загрузка
информационных ресурсов
уполномоченными пользователями
 Интеграция с внешними
системами-источниками
 Сбор данных из открытых
источников (Интернет)
Поддержка процессов
 Регистрация, учет, инвентаризация
 Мониторинг и контроль
поступления и обновления
 Регистрация пользователей
Атрибутирование и
классификация
 Автоматическая категоризация
 Выделение объектов, фактов
 Выявление похожих документов
Безопасность и верификация
 Аутентификация и авторизация
пользователей
 Поддержка электронной подписи
 Протоколирование запросов и
изменений
Ретроконверсия
 Сканирование
 Распознавание
 Верификация
Качество
данных
Методологическое обеспечение

6
Возможная концептуальная
архитектура решения*
*без учета ретро-конверсии
Пользовательский
интерфейс
Подсистема учета и
модерации ИР
Подсистема поиска и
анализа ИР
Личный кабинет
Подсистема
мониторинга и
контроля ИР
информационного
обмена
Файловая система
Пользователь
Администратор доступа
Внешние системы
БД
электронного
архива
управления
доступом
Внешние системы
Сервер(ы) индексации и
лексико-семантической
обработки
Сайты институтов, научных
журналов, прочие
открытые источники
Библиотекарь, модератор
Администратор
Результаты
интеллектуальной
деятельности,
результаты НИОКР,
диссертации,
публикации и т.д.

7
Платформа RCO
 Российская разработка: компания «ЭР СИ О» (компьютерная лингвистика,
информационный поиск, фактографические БД, очистка данных)
 Внедрения: Банк России, Консультант+, Росфинмониторинг, СВР, ФСБ,
Аналитический Центр при правительстве РФ и пр.
 Платформа обработки и анализа неструктурированных данных:
 RCO Zoom: сбор, хранение, классификация, поиск документов, управление
доступом
 RCO Fact Extractor: извлечение объектов, связей, фактов.
RCO Zoom
Извлечение фактов
Поиск фактов
Поиск с учётом
семантической разметки
RCO Fact Extractor

8
Как это работает: семантическая
сеть
Результат разбора
предложения:
В ноябре 2003 года
Ивановым была
совершена сделка
по покупке акций
Лукойла у Петрова.

9
Извлечение фактов из текста
# Фрагмент Роли участников факта
1
Супруга бывшего мэра Москвы Юрия Лужкова
купила расположенный поблизости гольф-клуб
Eichenheim
Goods = ГОЛЬФ-КЛУБ EICHENHEIM
Buyer = СУПРУГА ЛУЖКОВА ЮРИЯ МИХАЙЛОВИЧА
2
…Barclays, купивший ранее индексную службу
обанкротившегося Lehman Brothers
Goods = ИНДЕКСНАЯ СЛУЖБА LEHMAN BROTHERS
Buyer = BARCLAYS
3
Группа БИН купила компанию МЛП у Виктора
Вексельберга
Goods = МЛП
Buyer = БИН
Seller = ВЕКСЕЛЬБЕРГ ВИКТОР ФЕЛИКСОВИЧ
4
…компания "Росевродевелопмент" за $250
млн купила у Renaissance Construction
торговый центр "Аура" в Новосибирске.
Goods = ТОРГОВЫЙ ЦЕНТР "АУРА"
Buyer = РОСЕВРОДЕВЕЛОПМЕНТ
Seller = RENAISSANCE CONSTRUCTION
~Money = $250 МЛН
~Place = НОВОСИБИРСК
5
В мае 2013 года "РТ-Инвест" за $40 млн купил
крупнейшую казанскую мусорную компанию
"Предприятие ЖКХ"
Goods = МУСОРНАЯ КОМПАНИЯ "ПРЕДПРИЯТИЕ ЖКХ"
Buyer = РТ-ИНВЕСТ
~Money = $40 МЛН
~Time = В МАЕ 2013 ГОДА
… … …

10
Поисковые запросы по шаблону
события/факта
При помощи данного шаблона можно извлечь факт
«покупки акций» из различных текстов, например: В
ноябре 2003 года Ивановым была совершена сделка по
покупке акций Лукойла у Петрова.
Результат извлечения
факта «покупка акций»:
BUYER = ‘Иванов’
ISSUER = ‘ЛУКОЙЛ’
SELLER = ‘Петров’
DATE = ‘В ноябре 2003
года’
фигурант
«покупатель»
фигурант
«эмитент»
фигурант
«продавец
»

11
Результат поисковой выдачи

12
Возможности и характеристики решения
 Сбор, индексация и аналитическая обработка данных из внешних источников в режиме онлайн
 Настройка лингвистического обеспечения на предметную область и стилистику документов
 Тематическое рубрицирование
 Выделение из текста персон, организаций, адресов, событий и их участников. Построение
фактографической базы
 Выявление заимствований и поиск похожих текстов
 Выявление в текстах ссылок на другие документы
 Стандартные поисковые возможности:
 Морфология – словарная, бессловарная
 Поисковые шаблоны для слов *,?
 Учет контекста – расстояние в словах, в одном предложении, в одном абзаце
 Специальные операторы для поиска ФИО, телефонов
 Нечеткий поиск, синонимы
 Атрибутивный поиск
 ИнфоПортрет - список слов и словосочетаний, отличающий данную выборку от прочих (выводится вместе
с выборкой)
 Уточнение запроса - позволяет за минимальное время ознакомиться со всей интересующей областью
 Частотный анализ слов, объектов, категорий в поисковой выборке
 Пользовательские сохраняемые подборки документов
 Версионное хранение, протоколирование
 Надежность, производительность, масштабируемость
 Отечественная платформа, может быть представлена в исходных кодах для сертификации
 В разы дешевле зарубежных аналогов

Россия, 127434, Москва,
Дмитровское шоссе, 9Б
тел.: +7 (495) 967-8080
факс: +7 (495) 967-8081
ibs@ibs.ru
www.ibs.ru
www.facebook.com/IBS.ru
www.twitter.com/ibs_ru
Татьяна Лякишева
tljakisheva@ibs.ru

20150129 минобороны презентация v02

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 20150129 минобороны презентация v02

Similar to 20150129 минобороны презентация v02 (20)

More from finnopolis

More from finnopolis (20)

20150129 минобороны презентация v02