SlideShare a Scribd company logo
1 of 17
Хакатон
исследование использования ОД в
науке на примере
Анализ паспортов специальностей
ВАКа и объектов защиты в
диссертациях
Сергей Салтыков
к.т.н., с.н.с. ИПУ РАН и ИПРАН РАН,
экс-доцент НИУ ВШЭ
Цели исследования по ОД
• Проанализировать, насколько
немашиночитаемые текстовые
индексируемые ОД по науке полезны и
интерпретируемы
• Продемонстрировать, что полезным
переходным шагом к машиночитаемым ОД от
плохоиндексируемых (.doc, .pdf) являются
индексируемые (.html) ОД.
• Показать, что в структуре гражданского
общества, работающего с ОД, минимум два
этажа: владеющие программированием и
использующие поисковики.
Для кого результаты исследования
• РАН
• МинОбр
• ФАНО
• Гражданское общество
Конечный продукт исследования
• Выложенные индексируемыеОД по науке
для использования гражданским
обществом
• Единая открытая информационная система
с распределенным хранилищем,
создаваемая РАН, МинОбром, ФАНО.
Типология открытых данных
• Открытые данные с .doc и .pdf
• Открытые данные, хорошо индексируемые
поисковиками («Гуглочитаемые» данные)
• Машиночитаемые открытые данные
Участие общества в работе с ОД
• Работа с машиночитаемыми ОД ИТ-
специалистами
• Работа с ОД, индексируемыми
поисковиками, без участия ИТ-
специалистов
Преимущества «гуглочитаемого
подхода» к Открытым данным
• Не нужны навыки программирования – сможет
любой член гражданского общества
• Решает часть проблем компьютерной лингвистики
– формы слова, разные части речи, близость
ключевых слов друг к другу и, соответственно,
ранжирование по этим признакам.
• Соответственно, такой гибкий подход годится и
для случаев, когда ключевое слово одна на сотни
тысяч страниц, и когда у нас десятки тысяч
различных вхождений.
• Позволяет с минимальными затратами создать
прототип ИС управления наукой.
Как ловить псевдонауку в паспортах ВАКа.
В стыковке с Википедией
ru.wikipedia.org/wiki/псевдонаука
Inurl:teacode.ru/online/vak
Как ловить псевдонауку в паспортах ВАКа.
В стыковке с Википедией
Как ловить псевдонауку в паспортах
ВАКа
Как ловить псевдонауку в паспортах
ВАКа.
Как ловить псевдонауку в
диссертациях
Что такое синергетика?
Что такое кибернетика?
Дальнейшие горизонты развития ИС
• Если есть «лаборатория синергетики» и/или
«лаборатория кибернетики» – это сигнальчик.
• Если в целом институте слишком много
«лабораторий синергетики» – это сигнальчик.
• Если НЕ проводятся конференции по
синергетике / кибернетике / исследованию
операций и т.д. – это тоже сигнальчик. Значит
«взаимоопыления» будет мало.
Выводы
• Экспликация видовОД полезна.
• «Гуглочитаемые» данные – это важно. Надо
продумать, какие данные выкладывать
текстом, что использовать большие
возможности поисковиков.Чтобы
информационные системы не дублировали
уже имеющийся функционал поисковиков.
• Надо по широковещательным каналам
рассказывать о том, как важно обществу без
навыков программирования даже наблюдать
за ОД и делать выводы.
• Нужна ИС анализа индексируемых ОД по
науке, не дублирующая функции поисковиков
sergey.saltykov@gmail.com
vk.com/sergiustoday

More Related Content

Similar to Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...Iryna Kuchma
 
Информационное обеспечение научного исследования
Информационное обеспечение научного исследованияИнформационное обеспечение научного исследования
Информационное обеспечение научного исследованияAlena Begler
 
Открытая наука в России: практические шаги
Открытая наука в России: практические шагиОткрытая наука в России: практические шаги
Открытая наука в России: практические шагиDmitry Semyachkin
 
презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)Irinka Bilan
 
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...ДокШир
 
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...Iryna Kuchma
 
Создание репозитория вуза на платформе Dspace
Создание репозитория вуза на платформе DspaceСоздание репозитория вуза на платформе Dspace
Создание репозитория вуза на платформе Dspacebntulibrary
 
Возможности использования платформы Web of Science для повышения эффективност...
Возможности использования платформы Web of Science для повышения эффективност...Возможности использования платформы Web of Science для повышения эффективност...
Возможности использования платформы Web of Science для повышения эффективност...bntulibrary
 
Открытый доступ: Роль библиотек
Открытый доступ: Роль библиотекОткрытый доступ: Роль библиотек
Открытый доступ: Роль библиотекIryna Kuchma
 
Bulletin KMS 11.2013
Bulletin KMS 11.2013Bulletin KMS 11.2013
Bulletin KMS 11.2013home
 
КиберЛенинка — открытый доступ к науке
КиберЛенинка — открытый доступ к наукеКиберЛенинка — открытый доступ к науке
КиберЛенинка — открытый доступ к наукеDmitry Semyachkin
 
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельностиБизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельностиПрограмма Развития
 
2014 09-12 moscow state university of fine chemical technologies ext
2014 09-12 moscow state university of fine chemical technologies ext2014 09-12 moscow state university of fine chemical technologies ext
2014 09-12 moscow state university of fine chemical technologies extValery Chernyshov
 
Linked Open Data (EIS)
Linked Open Data (EIS) Linked Open Data (EIS)
Linked Open Data (EIS) Fred Kozlov
 
Информационное проектирование и дизайн навигации
Информационное проектирование и дизайн навигацииИнформационное проектирование и дизайн навигации
Информационное проектирование и дизайн навигацииLara Simonova
 
Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Cовременные инструменты регистрации и идентификации в сети интернет произведе...Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Cовременные инструменты регистрации и идентификации в сети интернет произведе...Vladimir Haritonov
 
Lab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsLab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsAlena Begler
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Andzhey Arshavskiy
 

Similar to Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков (20)

Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
Open Access/Открытый доступ: эффективная модель научной коммуникации и роль ...
 
Информационное обеспечение научного исследования
Информационное обеспечение научного исследованияИнформационное обеспечение научного исследования
Информационное обеспечение научного исследования
 
Открытая наука в России: практические шаги
Открытая наука в России: практические шагиОткрытая наука в России: практические шаги
Открытая наука в России: практические шаги
 
презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)презентация экбсон 2014(мгу)
презентация экбсон 2014(мгу)
 
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
Інституційні репозиторії установ вищої освіти Білорусі: сучасний стан та перс...
 
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
Open Access Impact/Открытый доступ и оценка исследований, индексы цитирования...
 
Создание репозитория вуза на платформе Dspace
Создание репозитория вуза на платформе DspaceСоздание репозитория вуза на платформе Dspace
Создание репозитория вуза на платформе Dspace
 
Возможности использования платформы Web of Science для повышения эффективност...
Возможности использования платформы Web of Science для повышения эффективност...Возможности использования платформы Web of Science для повышения эффективност...
Возможности использования платформы Web of Science для повышения эффективност...
 
Открытый доступ: Роль библиотек
Открытый доступ: Роль библиотекОткрытый доступ: Роль библиотек
Открытый доступ: Роль библиотек
 
Bulletin KMS 11.2013
Bulletin KMS 11.2013Bulletin KMS 11.2013
Bulletin KMS 11.2013
 
КиберЛенинка — открытый доступ к науке
КиберЛенинка — открытый доступ к наукеКиберЛенинка — открытый доступ к науке
КиберЛенинка — открытый доступ к науке
 
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельностиБизнес-разведка как инструмент коммерциализации результатов научной деятельности
Бизнес-разведка как инструмент коммерциализации результатов научной деятельности
 
2014 09-12 moscow state university of fine chemical technologies ext
2014 09-12 moscow state university of fine chemical technologies ext2014 09-12 moscow state university of fine chemical technologies ext
2014 09-12 moscow state university of fine chemical technologies ext
 
Linked Open Data (EIS)
Linked Open Data (EIS) Linked Open Data (EIS)
Linked Open Data (EIS)
 
Semantic oer
Semantic oerSemantic oer
Semantic oer
 
Информационное проектирование и дизайн навигации
Информационное проектирование и дизайн навигацииИнформационное проектирование и дизайн навигации
Информационное проектирование и дизайн навигации
 
Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Cовременные инструменты регистрации и идентификации в сети интернет произведе...Cовременные инструменты регистрации и идентификации в сети интернет произведе...
Cовременные инструменты регистрации и идентификации в сети интернет произведе...
 
Innovation Ecosystem Forum
Innovation Ecosystem ForumInnovation Ecosystem Forum
Innovation Ecosystem Forum
 
Lab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushroomsLab Management magic, elves, and mushrooms
Lab Management magic, elves, and mushrooms
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 

Хакатон по открытым данным: анализ паспортов ВАК и диссертаций средствами поисковиков

  • 1. Хакатон исследование использования ОД в науке на примере Анализ паспортов специальностей ВАКа и объектов защиты в диссертациях Сергей Салтыков к.т.н., с.н.с. ИПУ РАН и ИПРАН РАН, экс-доцент НИУ ВШЭ
  • 2. Цели исследования по ОД • Проанализировать, насколько немашиночитаемые текстовые индексируемые ОД по науке полезны и интерпретируемы • Продемонстрировать, что полезным переходным шагом к машиночитаемым ОД от плохоиндексируемых (.doc, .pdf) являются индексируемые (.html) ОД. • Показать, что в структуре гражданского общества, работающего с ОД, минимум два этажа: владеющие программированием и использующие поисковики.
  • 3. Для кого результаты исследования • РАН • МинОбр • ФАНО • Гражданское общество
  • 4. Конечный продукт исследования • Выложенные индексируемыеОД по науке для использования гражданским обществом • Единая открытая информационная система с распределенным хранилищем, создаваемая РАН, МинОбром, ФАНО.
  • 5. Типология открытых данных • Открытые данные с .doc и .pdf • Открытые данные, хорошо индексируемые поисковиками («Гуглочитаемые» данные) • Машиночитаемые открытые данные
  • 6. Участие общества в работе с ОД • Работа с машиночитаемыми ОД ИТ- специалистами • Работа с ОД, индексируемыми поисковиками, без участия ИТ- специалистов
  • 7. Преимущества «гуглочитаемого подхода» к Открытым данным • Не нужны навыки программирования – сможет любой член гражданского общества • Решает часть проблем компьютерной лингвистики – формы слова, разные части речи, близость ключевых слов друг к другу и, соответственно, ранжирование по этим признакам. • Соответственно, такой гибкий подход годится и для случаев, когда ключевое слово одна на сотни тысяч страниц, и когда у нас десятки тысяч различных вхождений. • Позволяет с минимальными затратами создать прототип ИС управления наукой.
  • 8. Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией ru.wikipedia.org/wiki/псевдонаука Inurl:teacode.ru/online/vak
  • 9. Как ловить псевдонауку в паспортах ВАКа. В стыковке с Википедией
  • 10. Как ловить псевдонауку в паспортах ВАКа
  • 11. Как ловить псевдонауку в паспортах ВАКа.
  • 12. Как ловить псевдонауку в диссертациях
  • 15. Дальнейшие горизонты развития ИС • Если есть «лаборатория синергетики» и/или «лаборатория кибернетики» – это сигнальчик. • Если в целом институте слишком много «лабораторий синергетики» – это сигнальчик. • Если НЕ проводятся конференции по синергетике / кибернетике / исследованию операций и т.д. – это тоже сигнальчик. Значит «взаимоопыления» будет мало.
  • 16. Выводы • Экспликация видовОД полезна. • «Гуглочитаемые» данные – это важно. Надо продумать, какие данные выкладывать текстом, что использовать большие возможности поисковиков.Чтобы информационные системы не дублировали уже имеющийся функционал поисковиков. • Надо по широковещательным каналам рассказывать о том, как важно обществу без навыков программирования даже наблюдать за ОД и делать выводы. • Нужна ИС анализа индексируемых ОД по науке, не дублирующая функции поисковиков