Хакатон
исследование использования ОД в
науке на примере
Анализ паспортов специальностей
ВАКа и объектов защиты в
диссертациях
Сергей Салтыков
к.т.н., с.н.с. ИПУ РАН и ИПРАН РАН,
экс-доцент НИУ ВШЭ
Цели исследования по ОД
• Проанализировать, насколько
немашиночитаемые текстовые
индексируемые ОД по науке полезны и
интерпретируемы
• Продемонстрировать, что полезным
переходным шагом к машиночитаемым ОД от
плохоиндексируемых (.doc, .pdf) являются
индексируемые (.html) ОД.
• Показать, что в структуре гражданского
общества, работающего с ОД, минимум два
этажа: владеющие программированием и
использующие поисковики.
Для кого результаты исследования
• РАН
• МинОбр
• ФАНО
• Гражданское общество
Конечный продукт исследования
• Выложенные индексируемыеОД по науке
для использования гражданским
обществом
• Единая открытая информационная система
с распределенным хранилищем,
создаваемая РАН, МинОбром, ФАНО.
Типология открытых данных
• Открытые данные с .doc и .pdf
• Открытые данные, хорошо индексируемые
поисковиками («Гуглочитаемые» данные)
• Машиночитаемые открытые данные
Участие общества в работе с ОД
• Работа с машиночитаемыми ОД ИТ-
специалистами
• Работа с ОД, индексируемыми
поисковиками, без участия ИТ-
специалистов
Преимущества «гуглочитаемого
подхода» к Открытым данным
• Не нужны навыки программирования – сможет
любой член гражданского общества
• Решает часть проблем компьютерной лингвистики
– формы слова, разные части речи, близость
ключевых слов друг к другу и, соответственно,
ранжирование по этим признакам.
• Соответственно, такой гибкий подход годится и
для случаев, когда ключевое слово одна на сотни
тысяч страниц, и когда у нас десятки тысяч
различных вхождений.
• Позволяет с минимальными затратами создать
прототип ИС управления наукой.
Как ловить псевдонауку в паспортах ВАКа.
В стыковке с Википедией
ru.wikipedia.org/wiki/псевдонаука
Inurl:teacode.ru/online/vak
Как ловить псевдонауку в паспортах ВАКа.
В стыковке с Википедией
Как ловить псевдонауку в паспортах
ВАКа
Как ловить псевдонауку в паспортах
ВАКа.
Как ловить псевдонауку в
диссертациях
Что такое синергетика?
Что такое кибернетика?
Дальнейшие горизонты развития ИС
• Если есть «лаборатория синергетики» и/или
«лаборатория кибернетики» – это сигнальчик.
• Если в целом институте слишком много
«лабораторий синергетики» – это сигнальчик.
• Если НЕ проводятся конференции по
синергетике / кибернетике / исследованию
операций и т.д. – это тоже сигнальчик. Значит
«взаимоопыления» будет мало.
Выводы
• Экспликация видовОД полезна.
• «Гуглочитаемые» данные – это важно. Надо
продумать, какие данные выкладывать
текстом, что использовать большие
возможности поисковиков.Чтобы
информационные системы не дублировали
уже имеющийся функционал поисковиков.
• Надо по широковещательным каналам
рассказывать о том, как важно обществу без
навыков программирования даже наблюдать
за ОД и делать выводы.
• Нужна ИС анализа индексируемых ОД по
науке, не дублирующая функции поисковиков
sergey.saltykov@gmail.com
vk.com/sergiustoday

Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

  • 1.
    Хакатон исследование использования ОДв науке на примере Анализ паспортов специальностей ВАКа и объектов защиты в диссертациях Сергей Салтыков к.т.н., с.н.с. ИПУ РАН и ИПРАН РАН, экс-доцент НИУ ВШЭ
  • 2.
    Цели исследования поОД • Проанализировать, насколько немашиночитаемые текстовые индексируемые ОД по науке полезны и интерпретируемы • Продемонстрировать, что полезным переходным шагом к машиночитаемым ОД от плохоиндексируемых (.doc, .pdf) являются индексируемые (.html) ОД. • Показать, что в структуре гражданского общества, работающего с ОД, минимум два этажа: владеющие программированием и использующие поисковики.
  • 3.
    Для кого результатыисследования • РАН • МинОбр • ФАНО • Гражданское общество
  • 4.
    Конечный продукт исследования •Выложенные индексируемыеОД по науке для использования гражданским обществом • Единая открытая информационная система с распределенным хранилищем, создаваемая РАН, МинОбром, ФАНО.
  • 5.
    Типология открытых данных •Открытые данные с .doc и .pdf • Открытые данные, хорошо индексируемые поисковиками («Гуглочитаемые» данные) • Машиночитаемые открытые данные
  • 6.
    Участие общества вработе с ОД • Работа с машиночитаемыми ОД ИТ- специалистами • Работа с ОД, индексируемыми поисковиками, без участия ИТ- специалистов
  • 7.
    Преимущества «гуглочитаемого подхода» кОткрытым данным • Не нужны навыки программирования – сможет любой член гражданского общества • Решает часть проблем компьютерной лингвистики – формы слова, разные части речи, близость ключевых слов друг к другу и, соответственно, ранжирование по этим признакам. • Соответственно, такой гибкий подход годится и для случаев, когда ключевое слово одна на сотни тысяч страниц, и когда у нас десятки тысяч различных вхождений. • Позволяет с минимальными затратами создать прототип ИС управления наукой.
  • 8.
    Как ловить псевдонаукув паспортах ВАКа. В стыковке с Википедией ru.wikipedia.org/wiki/псевдонаука Inurl:teacode.ru/online/vak
  • 9.
    Как ловить псевдонаукув паспортах ВАКа. В стыковке с Википедией
  • 10.
    Как ловить псевдонаукув паспортах ВАКа
  • 11.
    Как ловить псевдонаукув паспортах ВАКа.
  • 12.
    Как ловить псевдонаукув диссертациях
  • 13.
  • 14.
  • 15.
    Дальнейшие горизонты развитияИС • Если есть «лаборатория синергетики» и/или «лаборатория кибернетики» – это сигнальчик. • Если в целом институте слишком много «лабораторий синергетики» – это сигнальчик. • Если НЕ проводятся конференции по синергетике / кибернетике / исследованию операций и т.д. – это тоже сигнальчик. Значит «взаимоопыления» будет мало.
  • 16.
    Выводы • Экспликация видовОДполезна. • «Гуглочитаемые» данные – это важно. Надо продумать, какие данные выкладывать текстом, что использовать большие возможности поисковиков.Чтобы информационные системы не дублировали уже имеющийся функционал поисковиков. • Надо по широковещательным каналам рассказывать о том, как важно обществу без навыков программирования даже наблюдать за ОД и делать выводы. • Нужна ИС анализа индексируемых ОД по науке, не дублирующая функции поисковиков
  • 17.