Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Julia Glavcheva
Відкритий дистанційний курс "Куратор змісту–4"
за підтримки грантової програми «Нарощування цифрового потенціалу громадянського суспільства» Відділу преси, освіти та культури Посольства США в Україні.
Подібності та відмінності між універсальними і спеціалізованими пошуковими системами, електронні каталоги і бібліотеки, рух Відкритого Доступу, достовірні джерела інформації.
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Julia Glavcheva
Відкритий дистанційний курс "Куратор змісту–4"
за підтримки грантової програми «Нарощування цифрового потенціалу громадянського суспільства» Відділу преси, освіти та культури Посольства США в Україні.
Подібності та відмінності між універсальними і спеціалізованими пошуковими системами, електронні каталоги і бібліотеки, рух Відкритого Доступу, достовірні джерела інформації.
Расследования основанные на данных. Примеры расследований по госконтрактам, латинице в госзакупках, использованию пиратского ПО в госорганах и утечкам персональных данных из общедоступных информационных систем. Реальные истории о том как проводятся дата расследования.
Использование цифрового идентификатора объекта (DOI) в современной научной ко...Alexey Skalaban
Цифровой идентификатор объекта (DOI) уже с 2000 года позволяет читателям в один клик находить электронные версии необходимых им книг, статей и другие научные объекты. Наличие у научных статей DOI (digital object identifier), также как и включение DOI в библиографические описания в списках литературы в журнале, становится уже почти обязательным требованием для журналов, индексируемых в базах данных Web of Science и Scopus. Российские и белорусские научные журналы только подходят к массовому получению этого идентификатора.
Современное программное обеспечение в работе психологаKyrylo Zakharov
Презентация к докладу "Современное программное обеспечение в работе психолога". Возможно, не все будет понятно, так как многое показывалось непосредственно на самом семинаре. :)
#dotnetconf 15 мая 2016 http://dotnetconf.ru/materialy/korovan
В то время, когда наши космические корабли бороздят просторы Вселенной, а проекты с модным словом BigData растут как на дрожжах, остро встает вопрос — откуда и как эту самую BigData брать?
В нашем докладе мы расскажем о способах парсинга/краулинга/среза и прочего получения дейстивтельно большого количества информации из интернета. Рассмотрим различные способы решения ситуаций, когда сайты ограничивают или блокируют автоматический краулинг.
Ведь без данных, и BigData — не BigData.
Это моя презентация для воркшопа по основам журналистики данных на митапе Hacks/Hackers Minsk #2. В презентации - примеры лучших мира сего, основные шаги, и ссылки для дальнейшего обучения.
This is my presentation at the Data Journalism 101 workshop at Hacks/Hackers Minsk #2. The presentations contains examples of the best, as well as explains key steps in Data Journalism.
Расследования основанные на данных. Примеры расследований по госконтрактам, латинице в госзакупках, использованию пиратского ПО в госорганах и утечкам персональных данных из общедоступных информационных систем. Реальные истории о том как проводятся дата расследования.
Использование цифрового идентификатора объекта (DOI) в современной научной ко...Alexey Skalaban
Цифровой идентификатор объекта (DOI) уже с 2000 года позволяет читателям в один клик находить электронные версии необходимых им книг, статей и другие научные объекты. Наличие у научных статей DOI (digital object identifier), также как и включение DOI в библиографические описания в списках литературы в журнале, становится уже почти обязательным требованием для журналов, индексируемых в базах данных Web of Science и Scopus. Российские и белорусские научные журналы только подходят к массовому получению этого идентификатора.
Современное программное обеспечение в работе психологаKyrylo Zakharov
Презентация к докладу "Современное программное обеспечение в работе психолога". Возможно, не все будет понятно, так как многое показывалось непосредственно на самом семинаре. :)
#dotnetconf 15 мая 2016 http://dotnetconf.ru/materialy/korovan
В то время, когда наши космические корабли бороздят просторы Вселенной, а проекты с модным словом BigData растут как на дрожжах, остро встает вопрос — откуда и как эту самую BigData брать?
В нашем докладе мы расскажем о способах парсинга/краулинга/среза и прочего получения дейстивтельно большого количества информации из интернета. Рассмотрим различные способы решения ситуаций, когда сайты ограничивают или блокируют автоматический краулинг.
Ведь без данных, и BigData — не BigData.
Это моя презентация для воркшопа по основам журналистики данных на митапе Hacks/Hackers Minsk #2. В презентации - примеры лучших мира сего, основные шаги, и ссылки для дальнейшего обучения.
This is my presentation at the Data Journalism 101 workshop at Hacks/Hackers Minsk #2. The presentations contains examples of the best, as well as explains key steps in Data Journalism.
Определение научно-технических приоритетов для научных и образовательных орга...Alexander Sysoenko
Представлен новый инструментарий патентного поиска и патентной аналитики, работающий в режиме "поиск-через-аналитику". Предназначен прежде всего для молодых инженеров и ученых с целью выработки навыков и мотивации работы с патентной и непатентной литературой
Полный перечень функций 2017 года передовой российской системы автоматизации государственных и муниципальных архивов:
- Читальный зал и стол справок
- Коннектор к ЕПГУ и ЕСИА
- Платные услуги архивов
- Прием на хранение электронных документов от организаций - источников комплектования
- RFID-учет
- Облачные конфигурации
- Создание Единых региональных систем автоматизации архивов
Создание электронной библиотеки научных трудов на платформе Dspacebntulibrary
Создание электронной библиотеки научных трудов на платформе Dspace
Создатель презентации Дедёнок Юрий Леонидович, зав. сектором формирования репозитория и развития интернет-технологий НБ БНТУ
Решение для мониторинга нескольких потоков вещания в режиме реального времени для мгновенного обнаружения важных новостей, сведений о компании, продуктах, брендах и личностях.
- Исследование информационной среды, поиск медиа поводов, новых идей и перспектив.
- Выявление новых возможностей и медиа-тем благодаря визуальному анализу применения потребителями продуктов.
- Мониторинг медиа-активности конкурентов заказчика в разных источниках.
- Контроль ТВ и радио рекламы для проверки соответствия выходов в эфир оплаченных фрагментов и других параметров реализации кампании.
- Выявление и оперативное реагирование на кризисные ситуации («черный PR»).
- Мониторинг реакции на рекламные кампании, программы и другой контент.
- Быстрая подготовка отчетности по ключевым показателям.
- Систематизированное хранение в архиве и удобный поиск.
Больше информации: https://inlimited.ua/ru/analytical-solutions/information_monitoring/
2. 2
Наиболее значимые аналогичные
проекты IBS
Министерство образования РФ
Разработка инструмента, обеспечивающего информационную
поддержку управления идеями и развитием инноваций в рамках
ФЦП "Исследования и разработки по приоритетным
направлениям развития НТК России на 2014-2020 годы " (текущий
проект)
Министерство транспорта РФ
Система доступа субъектов транспортного комплекса Российской
Федерации к научным и образовательным информационным
ресурсам
Федеральное казначейство
Система электронного хранения документов Федерального
казначейства
Система полнотекстового поиска на портале госзакупок
Система анализа госзакупок (анализ содержания закупочной
документации)
Государственная корпорация "Росатом"
Разработка концепции системы управления корпоративными
знаниями ГК и программы её реализации
3. 3
Технологии, инструменты по обработке
неструктурированных данных в арсенале IBS
RCO Zoom
IBM FileNet
EMC Documentum
IBM DataCap
EMC Captiva
Abbyy FineReader, Abbyy
FlexyCapture
Платформы электронного
архива
Сканирование и распознавание
RCO Zoom
Sphinx (Open Source)
IBM Content Analytics
EMC Documentum Index Server
Autonomy IDOL
Поисковые машины
RCO Fact Extractor
IBM Content Analytics
Извлечение знаний
5. 5
Функциональные составляющие решения
Поиск и извлечение
Атрибутивный, контекстный и
«семантический» поиск
Просмотр, печать документов
Экспорт документов
Сбор, хранение
Регистрация/загрузка
информационных ресурсов
уполномоченными пользователями
Интеграция с внешними
системами-источниками
Сбор данных из открытых
источников (Интернет)
Поддержка процессов
Регистрация, учет, инвентаризация
информационных ресурсов
Мониторинг и контроль
поступления и обновления
информационных ресурсов
Регистрация пользователей
Атрибутирование и
классификация
Автоматическая категоризация
Выделение объектов, фактов
Выявление похожих документов
Безопасность и верификация
Аутентификация и авторизация
пользователей
Поддержка электронной подписи
Протоколирование запросов и
изменений
Ретроконверсия
Сканирование
Распознавание
Верификация
Качество
данных
Методологическое обеспечение
6. 6
Возможная концептуальная
архитектура решения*
*без учета ретро-конверсии
Пользовательский
интерфейс
Подсистема учета и
модерации ИР
Подсистема поиска и
анализа ИР
Личный кабинет
Подсистема
мониторинга и
контроля ИР
Подсистема
информационного
обмена
Файловая система
Пользователь
Администратор доступа
Внешние системы
БД
электронного
архива
Подсистема
управления
доступом
Внешние системы
Сервер(ы) индексации и
лексико-семантической
обработки
Сайты институтов, научных
журналов, прочие
открытые источники
Библиотекарь, модератор
Администратор
информационных ресурсов
Результаты
интеллектуальной
деятельности,
результаты НИОКР,
диссертации,
публикации и т.д.
7. 7
Платформа RCO
Российская разработка: компания «ЭР СИ О» (компьютерная лингвистика,
информационный поиск, фактографические БД, очистка данных)
Внедрения: Банк России, Консультант+, Росфинмониторинг, СВР, ФСБ,
Аналитический Центр при правительстве РФ и пр.
Платформа обработки и анализа неструктурированных данных:
RCO Zoom: сбор, хранение, классификация, поиск документов, управление
доступом
RCO Fact Extractor: извлечение объектов, связей, фактов.
RCO Zoom
Извлечение фактов
Поиск фактов
Поиск с учётом
семантической разметки
RCO Fact Extractor
8. 8
Как это работает: семантическая
сеть
Результат разбора
предложения:
В ноябре 2003 года
Ивановым была
совершена сделка
по покупке акций
Лукойла у Петрова.
9. 9
Извлечение фактов из текста
# Фрагмент Роли участников факта
1
Супруга бывшего мэра Москвы Юрия Лужкова
купила расположенный поблизости гольф-клуб
Eichenheim
Goods = ГОЛЬФ-КЛУБ EICHENHEIM
Buyer = СУПРУГА ЛУЖКОВА ЮРИЯ МИХАЙЛОВИЧА
2
…Barclays, купивший ранее индексную службу
обанкротившегося Lehman Brothers
Goods = ИНДЕКСНАЯ СЛУЖБА LEHMAN BROTHERS
Buyer = BARCLAYS
3
Группа БИН купила компанию МЛП у Виктора
Вексельберга
Goods = МЛП
Buyer = БИН
Seller = ВЕКСЕЛЬБЕРГ ВИКТОР ФЕЛИКСОВИЧ
4
…компания "Росевродевелопмент" за $250
млн купила у Renaissance Construction
торговый центр "Аура" в Новосибирске.
Goods = ТОРГОВЫЙ ЦЕНТР "АУРА"
Buyer = РОСЕВРОДЕВЕЛОПМЕНТ
Seller = RENAISSANCE CONSTRUCTION
~Money = $250 МЛН
~Place = НОВОСИБИРСК
5
В мае 2013 года "РТ-Инвест" за $40 млн купил
крупнейшую казанскую мусорную компанию
"Предприятие ЖКХ"
Goods = МУСОРНАЯ КОМПАНИЯ "ПРЕДПРИЯТИЕ ЖКХ"
Buyer = РТ-ИНВЕСТ
~Money = $40 МЛН
~Time = В МАЕ 2013 ГОДА
… … …
10. 10
Поисковые запросы по шаблону
события/факта
При помощи данного шаблона можно извлечь факт
«покупки акций» из различных текстов, например: В
ноябре 2003 года Ивановым была совершена сделка по
покупке акций Лукойла у Петрова.
Результат извлечения
факта «покупка акций»:
BUYER = ‘Иванов’
ISSUER = ‘ЛУКОЙЛ’
SELLER = ‘Петров’
DATE = ‘В ноябре 2003
года’
фигурант
«покупатель»
фигурант
«эмитент»
фигурант
«продавец
»
12. 12
Возможности и характеристики решения
Сбор, индексация и аналитическая обработка данных из внешних источников в режиме онлайн
Настройка лингвистического обеспечения на предметную область и стилистику документов
Тематическое рубрицирование
Выделение из текста персон, организаций, адресов, событий и их участников. Построение
фактографической базы
Выявление заимствований и поиск похожих текстов
Выявление в текстах ссылок на другие документы
Стандартные поисковые возможности:
Морфология – словарная, бессловарная
Поисковые шаблоны для слов *,?
Учет контекста – расстояние в словах, в одном предложении, в одном абзаце
Специальные операторы для поиска ФИО, телефонов
Нечеткий поиск, синонимы
Атрибутивный поиск
ИнфоПортрет - список слов и словосочетаний, отличающий данную выборку от прочих (выводится вместе
с выборкой)
Уточнение запроса - позволяет за минимальное время ознакомиться со всей интересующей областью
Частотный анализ слов, объектов, категорий в поисковой выборке
Пользовательские сохраняемые подборки документов
Версионное хранение, протоколирование
Надежность, производительность, масштабируемость
Отечественная платформа, может быть представлена в исходных кодах для сертификации
В разы дешевле зарубежных аналогов