Расцвет в науке во многом - результат усилий отдельных коллективов и исследователей, а не направленного управляющего воздействия. Это очень заметно в России, где государственные инициативы зачастую направлены на реализацию государственной политики, но не на удовлетворение актуальных потребностей научного сообщества.
Доклад посвящен различным аспектам открытости в науке, рассмотренным через призму информации и данных. Это подходы и технологии взаимодействия и обмена знаниями, методы анализа связей научного сообщества на основе открытой информации о публикациях, анализ распределения финансирования научных проектов на основе открытых данных закупок, потенциал открытых данных и открытой информации для составления целостной картины науки в России.
5. КАКИМ МОЖЕТ БЫТЬ РЕЗУЛЬТАТ?
• Рост научного сегмента и повышение его влияния и
полезности
• Более прозрачные механизмы оценки и контроля научной
деятельности
• Эффективные модели управления, прогнозирования,
стратегического планирования
7. 1. ИНДЕКС ЦИТИРОВАНИЯ И МЕТРИКИ НАУЧНЫХ
ПУБЛИКАЦИЙ
• Несколько влиятельных реферативных баз данных (Web of science, Scopus).
Импакт-фактор Thomson Reuters. РИНЦ и eLibrary.
• Модель воздействия: административно-принудительная.
Цитируемость → Вес (автора/организации) → Ресурсы (фин./иные)
• Инструменты: сетевой анализ (графы связей). Выявление акторов влияния,
инициаторов направлений исследований, авторитетных авторов, «графоманов»,
плагиаторов
• Результаты:. переход от количественной наукометрии к качественной (не «будет
опубликовано минимум N статей в журналах с импакт-фактором M, которые за
ближайшие W лет наберут Z цитирований», а полнота информации об
исследовании по совокупности статей, данных, метаданных и описаний и
воспроизводимость результатов). Снижает количество сомнительных
исследований
• Реализации: некоммерческие (алгоритмы и библиотеки, в т.ч. open source),
коммерческие аналитические системы и исследования под заказ.
8. СВЯЗИ МЕЖДУ АВТОРАМИ ПУБЛИКАЦИЙ
Исходные данные собраны из сети Интернет собственными средствами. Визуализация - Gephi
11. CiteSeerX / ЭЛЕКТРОННАЯ БИБЛИОТЕКА И ПОИСКОВАЯ МАШИНА
ПО НАУЧНЫМ ПУБЛИКАЦИЯМ И ПРЕПРИНТАМ
Rather than creating just another digital library, CiteSeerx attempts to provide resources such as algorithms,
data, metadata, services, techniques, and software that can be used to promote other digital libraries
Бесплатна. Общедоступна. Есть API
http://citeseerx.ist.psu.edu/
12. 2. ПУБЛИКАЦИЯ ДАННЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ. ПРОБЛЕМА
ВОСПРОИЗВОДИМОСТИ РЕЗУЛЬТАТОВ
• Исходные данные публикуются редко. Причины: а) проприетарность, б) стремление
удержать сегмент рынка, в) боязнь невоспроизводимости результатов, г) хроническая
нехватка времени на подготовку данных и отсутствие ценности. Недостаточно развиты
подходы к стандартизации научных данных. Низкое качество исследовательских
данных (десятки версий датасетов по результатам гипотез, отсутствие истории
изменений и пр.)
• Модель воздействия: поощрение.
Данные → Подтверждение → Ресурсы (фин./иные)
• Модель воздействия: воспитание:
Инициатива→ Вовлечение→ Развитие исследований/коллаборация
• Инструменты: площадки для публикации научных данных и обмена опытом, сервисы
подготовки данных, репозитории открытого исходного кода.
• Результаты: проще найти данные; стандартизация – благодаря коллаборации;
повышение научного уровня сообщества.
• Реализации: Kaggle, Mendeley, figshare, re3data.org, CERN, NASA. Национальные
инициативы.
13. WORLD GLACIER MONITORING SERVICE / ИСТОРИЧЕСКИЕ ДАННЫЕ
http://wgms.ch/data_databaseversions/
.. и множество сайтов университетов и исследователей, где лежат не менее ценные данные...
14. Kaggle / ЗАДАЧИ + РЕШЕНИЯ + ДАННЫЕ. ОТКРЫТЫЕ ДАННЫЕ
‘Your Home for Data Science’
https://www.kaggle.com/
15. http://www.tycho.pitt.edu/index.php
Tycho: Data for Health / УПРОСТИТЬ ДОСТУП К ПУБЛИЧНЫМ ДАННЫМ ЗДРАВООХРАНЕНИЯ
ДЛЯ АКТИВИСТОВ И ИССЛЕДОВАТЕЛЕЙ (данные с 1888 г)
Общедоступный ресурс. Есть API. Есть на Kaggle
16. ‘As a published author, you've got a wealth of great data along with your articles - but is it getting
seen’ (из рассылки Mendeley авторам)
MENDELEY DATA / ДАТАСЕТЫ НАУЧНЫХ ПУБЛИКАЦИЙ
‘Put your research data online today’
https://data.mendeley.com/
17. MENDELEY DATA / ДАТАСЕТЫ НАУЧНЫХ ПУБЛИКАЦИЙ
‘Put your research data online today’
https://data.mendeley.com/
18. ПЛАТФОРМЫ ДЛЯ ОБМЕНА РЕЗУЛЬТАТАМИ НАУЧНЫХ ИИСЛЕДОВАНИЙ
figshare is a repository where users can make all of their research outputs available in a citable,
shareable and discoverable manner
https://figshare.com
19. re3data.org / МЕТАДАННЫЕ ОБО ВСЕХ НАУЧНЫХ РЕПОЗИТОРИЯХ
re3data.org is a global registry of research data repositories that covers research data repositories from
different academic disciplines. It presents repositories for the permanent storage and access of data sets to
researchers, funding bodies, publishers and scholarly institutions. re3data.org promotes a culture of
sharing, increased access and better visibility of research data
https://www.re3data.org
20. CERN / ИССЛЕДОВАНИЯ И КОМПЛЕКСНОЕ ОБУЧЕНИЕ НА ПОРТАЛЕ ОТКРЫТЫХ ДАННЫХ
opendata.cern.ch
21. CERN / КОД ПОРТАЛА ТАКЖЕ В ОТКРЫТОМ ДОСТУПЕ
https://github.com/cernopendata/opendata.cern.ch
22. 3. ПОДДЕРЖКА ПРОВЕДЕНИЯ НАУЧНЫХ ИССЛЕДОВАНИЙ
• Требования к выполнению научных работ (качеству, скорости,
содержательности и пр.) возрастают. Количество информации превосходит
возможности человека.
• Модель воздействия: инструментальное упрощение научной работы:
Повышение требований→ Комплексная поддержка научной
деятельности→ Повышение качества и «производительности»
исследователей и коллективов
• Инструменты: сервисы поддержки научной деятельности (исследования,
коллективная работа, работа с данными публикаций).
• Результаты: повышение эффективности научной деятельности.
• Реализации: Knoema, Dataverse, Elsevier.
29. 4. КОНТРОЛЬ И НАДЗОР
• Ресурсы бюджета по определению ограниченны. Сложность контроля на различных
уровнях (федеральный, региональный, муниципальный). Сложность и
разветвленность самой системы науки РФ. Проблема обеспечения эффективной
адресной поддержки научной деятельности.
• Модель воздействия: административная:
Ограниченность ресурсов → Анализ использования бюджетов, корректирующая
обратная связь → Эффективное и прозрачное использование средств
• Инструменты: государственные сервисы контроля и надзора.
• Результаты: повышение эффективности научной деятельности, устранение случаев
нецелевого и неэффективного использования средств.
• Реализации: ЕИСЗ (zakupki.gov.ru), ЦИТиС, портал грантов РФ, реестр субсидий,
открытые реестры Роспатента, …
32. ЦИТИС/ ДАННЫЕ НА ПЛАТНОЙ ОСНОВЕ
http://www.citis.ru/citis_database.html
33. РОСПАТЕНТ / ОТКРЫТЫЕ РЕЕСТРЫ (НЕ ОТКРЫТЫЕ ДАННЫЕ)
http://www1.fips.ru/wps/portal/Registers/
34. ФОНДЫ И СВЕДЕНИЯ О РЕЗУЛЬТАТАХ КОНКУРСОВ
http://www.rfbr.ru – сайт РФФИ. Неинформативно
http://grants.oprf.ru– официальный портал
грантов РФ. Все гранты
https://clearspending.ru – Гсзатраты. Данные
оцифрованы. Открытые данные. Есть API.
38. Результаты Роль открытых данных
1. Повысить эффективность
того, что уже делается.
2. Расширить масштабы
деятельности через
объединение ресурсов.
3. Ускорить процесс
(достижения «по цепочке»).
4. Стимулировать развитие
нового.
Собрать информацию в единой точке (портал-агрегатор данных).
Экономия времени на поиск и сбор информации, нет ошибок
дублирования, быстрее актуализируется информация, снижение
расходов на поддержание информационных ресурсов.
Хранить актуальное состояние и исторические данные. Гарантия
сохранности результатов деятельности, возможность
исторического анализа и прогнозирования – основа для
стратегического планирования.
Стандартизировать представление данных и метаданных.
Культура научной деятельности, внимание к качеству данных,
простота повторного использования. Вместо проведения
параллельных одинаковых исследований – развитие успешных.
Побуждение к взаимодействию.
ОТКРЫТЫЕ ДАННЫЕ КАК ИНСТРУМЕНТ
39. Результаты Роль открытых данных
1. Новое поколение open
minded исследователей.
2. Влияние науки на
развитие образования и
других связанных сфер
жизни.
3. Достижение
экономической
эффективности.
4. Упрощение процессов
управления.
Open by Default. «Открытость по умолчанию», ориентированность на
обмен опытом и совместную деятельность.
Прозрачность. Деятельность отражается в данных. Легко
сопоставить объемы финансирования и полученные результаты.
Обучение. Полноценное использование возможностей самообучения
благодаря тому, что задачи, методы их решения и данные собраны в
одном месте.
ОТКРЫТЫЕ ДАННЫЕ КАК ОБРАТНАЯ СВЯЗЬ
40. БЛАГОДАРЮ ЗА ВНИМАНИЕ
Елена Никитина
Открытые данные в России
fb.com/OpenDataInRussia
e.nikitina@ac.gov.ru
fb.com/Shorstko