Цели исследования: 1) Проанализировать, насколько немашиночитаемые текстовые индексируемые ОД по науке полезны и интерпретируемы.
2) Продемонстрировать, что полезным переходным шагом к машиночитаемым ОД от плохоиндексируемых (.doc, .pdf) являются индексируемые (.html) ОД.
3) Показать, что в структуре гражданского общества, работающего с ОД, минимум два этажа: владеющие программированием и использующие поисковики.
Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков
1. Хакатон
исследование использования ОД в
науке на примере
Анализ паспортов специальностей
ВАКа и объектов защиты в
диссертациях
Сергей Салтыков
к.т.н., с.н.с. ИПУ РАН и ИПРАН РАН,
экс-доцент НИУ ВШЭ
2. Цели исследования по ОД
• Проанализировать, насколько
немашиночитаемые текстовые
индексируемые ОД по науке полезны и
интерпретируемы
• Продемонстрировать, что полезным
переходным шагом к машиночитаемым ОД от
плохоиндексируемых (.doc, .pdf) являются
индексируемые (.html) ОД.
• Показать, что в структуре гражданского
общества, работающего с ОД, минимум два
этажа: владеющие программированием и
использующие поисковики.
3. Для кого результаты исследования
• РАН
• МинОбр
• ФАНО
• Гражданское общество
4. Конечный продукт исследования
• Выложенные индексируемыеОД по науке
для использования гражданским
обществом
• Единая открытая информационная система
с распределенным хранилищем,
создаваемая РАН, МинОбром, ФАНО.
5. Типология открытых данных
• Открытые данные с .doc и .pdf
• Открытые данные, хорошо индексируемые
поисковиками («Гуглочитаемые» данные)
• Машиночитаемые открытые данные
6. Участие общества в работе с ОД
• Работа с машиночитаемыми ОД ИТ-
специалистами
• Работа с ОД, индексируемыми
поисковиками, без участия ИТ-
специалистов
7. Преимущества «гуглочитаемого
подхода» к Открытым данным
• Не нужны навыки программирования – сможет
любой член гражданского общества
• Решает часть проблем компьютерной лингвистики
– формы слова, разные части речи, близость
ключевых слов друг к другу и, соответственно,
ранжирование по этим признакам.
• Соответственно, такой гибкий подход годится и
для случаев, когда ключевое слово одна на сотни
тысяч страниц, и когда у нас десятки тысяч
различных вхождений.
• Позволяет с минимальными затратами создать
прототип ИС управления наукой.
8. Как ловить псевдонауку в паспортах ВАКа.
В стыковке с Википедией
ru.wikipedia.org/wiki/псевдонаука
Inurl:teacode.ru/online/vak
15. Дальнейшие горизонты развития ИС
• Если есть «лаборатория синергетики» и/или
«лаборатория кибернетики» – это сигнальчик.
• Если в целом институте слишком много
«лабораторий синергетики» – это сигнальчик.
• Если НЕ проводятся конференции по
синергетике / кибернетике / исследованию
операций и т.д. – это тоже сигнальчик. Значит
«взаимоопыления» будет мало.
16. Выводы
• Экспликация видовОД полезна.
• «Гуглочитаемые» данные – это важно. Надо
продумать, какие данные выкладывать
текстом, что использовать большие
возможности поисковиков.Чтобы
информационные системы не дублировали
уже имеющийся функционал поисковиков.
• Надо по широковещательным каналам
рассказывать о том, как важно обществу без
навыков программирования даже наблюдать
за ОД и делать выводы.
• Нужна ИС анализа индексируемых ОД по
науке, не дублирующая функции поисковиков