Открытые данные в науке (Open Data in Science)

2,331 views

Published on

"Использование открытых данных в современных научных исследованиях".
В презентации раскрывается тема открытых данных (Open Data) и их применение в современных научных исследованиях и научных сообществах. Затрагивается эволюционирование технической реализации концепции открытых данных в пространстве связанных открытых данных (Linked Open Data). Дается общее представление о современных тенденциях в области открытия науки (Open Science).

Открытые данные в науке (Open Data in Science)

  1. 1. Использование открытых данных в современных научных исследованиях Радченко Ирина Алексеевна, кандидат технических наук, доцент, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.RadchenkoНИУ ВШЭ, Москва, 2012
  2. 2. Что такое открытые данные? • Открытые данные — это концепция, заключающаяся в том, что данные должны быть свободно доступны для всех пользователей и пригодны для повторного использования без ограничений авторского права, патентов и других механизмов контроля.НИУ ВШЭ, Москва, 2012 2
  3. 3. Открытые данные во временной перспективеИсточник: http://visual.ly/open-data-movementНИУ ВШЭ, Москва, 2012 3
  4. 4. Открытые наборы научных данных NASA CERN World BankНИУ ВШЭ, Москва, 2012 4
  5. 5. Пример использования открытых геоданныхНИУ ВШЭ, Москва, 2012 5
  6. 6. Открытые государственные данные за рубежом Цель: повысить открытость, доступность данных для граждан, способствовать распространению государственных данных в США: http://www.data.gov/ в Великобритании: http://www.utah.gov/data/ http://data.gov.uk/ http://data.octo.dc.gov/ http://data.london.gov.uk/ https://nycopendata.socrata.com/ http://www.govtrack.us/ в Канаде: http://openstates.org/ http://www.toronto.ca/open/ https://data.edmonton.ca/ в Австралии: http://data.nanaimo.ca/ http://data.gov.au/ http://data.vancouver.ca/ во Франции: в Швеции: http://www.data.gouv.fr/ http://www.opengov.se/data/НИУ ВШЭ, Москва, 2012 6
  7. 7. Пятизвездочная модель открытых данных по Тиму Бернерсу-ЛиИсточники: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.htmlНИУ ВШЭ, Москва, 2012 7
  8. 8. Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли ★ Данные доступны в Вебе (в любом формате), но подпадают под лицензию Открытых Данных (Open Data) — http://www.nationalarchives.gov.uk/doc/open-government-licence/. ★★ Данные доступны в качестве машинообрабатываемых структурированных данных (например, в виде Excel-таблицы вместо отсканированного изображения таблицы). ★★★ Данные соответствуют двум звездам, плюс представлены в непроприетарном формате (например, в формате CSV вместо Excel- формата). ★★★★ Данные соответствуют трем звездам, плюс представлены в открытых стандартах консорциума W3C (RDF и SPARQL), предназначенных для идентификации данных.★★★★★ Данные соответствуют четырем звездам, плюс они связаны с другими данными с учетом контекста их использования.Источники: http://www.w3.org/DesignIssues/LinkedData.html, http://iradche.livejournal.com/8909.htmlНИУ ВШЭ, Москва, 2012 8
  9. 9. Динамика развития Linked Open Data Темпы нарастания объемов фактов Количествонаборов LOD 2007 2008 2009 2010 ВремяИсточник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenDataНИУ ВШЭ, Москва, 2012 9
  10. 10. Пример использования LOD: проект DBpedia Проект DBpedia послужил главным толчком к развитию Linked Open Data. DBpedia — проект, направленный на извлечение структурированной информации из данных, собранных в рамках проекта Wikipedia.Источник: http://dbpedia.org/About, http://wiki.dbpedia.org/Applications НИУ ВШЭ, Москва, 2012 10
  11. 11. Области использования Linked Open Data Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей СМИ География Публикации Созданный пользователями контент Государственные данные Междисциплинарные области Науки о жизниИсточник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenDataНИУ ВШЭ, Москва, 2012 11
  12. 12. Преимущества использования Linked Open Data Связанность данных Доступность данных Машиночитаемость данныхНИУ ВШЭ, Москва, 2012 12
  13. 13. Стек Linked Open Data Прикладной уровень Интеграция Мэшапы Поисковые системы данных Базы данных и публикация Лицензии открытых данных Запросы на SPARQL данных Словари Онтологии Обмен RDF Идентификаторы URL Транспортный уровень: протокол HTTP Элементы стека данных LOD – 2 мая 2011, лицензия CC BY-CA-NC Автор Тим Дэвис Источник: http://iradche.livejournal.com/9036.htmlНИУ ВШЭ, Москва, 2012 13
  14. 14. Следующий шаг: проект LOD2 Развитие проекта LOD2 при поддержке 7 рамочной программы Европейского союзаИсточник: http://lod2.eu/ НИУ ВШЭ, Москва, 2012 14
  15. 15. Стек разработок проекта LOD2 PoolParty – система Sig.ma – инструментарий управления тезаурусом OntoWiki – инструментарий для разработки Веба Данных: и редактирования контента для работы с моделью RDF, RDFa или микроформатов в рамках концепции Semantic данных RDF (стандарт Веба Данных). Web (включая Text Mining Sig.ma – браузер Semantic Web и связанные данные). Dbpedia Extraction – получает Comprehensive Knowledge D2R Server – инструментарий структурированную Archive Network (CKAN) – для опубликования информацию из Wikipedia каталог для наборов реляционных баз данных и делает ее машиночитаемой открытых данных в Semantic Web и связанной SemMF – инструментарий MonetDB – система для расчета схожести DL-Learner – инструментарий управления базами данных, объектов, подвергающихся для мониторинга машинного поддерживающая связыванию. обучения в OWL реляционные базы данных, Представляет связанные XML и RDF-данные объекты в виде RDF-графаИсточники: http://lod2.eu/, http://iradche.livejournal.com/9703.html НИУ ВШЭ, Москва, 2012 15
  16. 16. Стек разработок проекта LOD2 Silk Framework поддерживает Sindice – инструментарий публикацию RDF-данных Sparallax – интерфейс для объединения огромных из разнородных для реализации массивов связанных данных информационных источников. SPARQL-запросов, в единое информационное Использует декларативный основанных пространство язык Silk - Link Specification на Freebase Parallax связанных данных Language (Silk-LSL) The Web Information Quality OpenLink Virtuoso – база Assessment Framework (WIQA) знаний и платформа – инструментарий Triplify обеспечивает перевод виртуализации, для аналитической обработки данных в RDF-формат интегрирующая данные, и фильтрации данных, сервисы и бизнес-процессы представляемых в рамках в рамках предприятия концепции Semantic Web LIMES – инструментарий Spatial Semantic Browers – для связывания данных приложение для просмотра в рамках концепции геоданных в формате RDF Semantic WebИсточники: http://lod2.eu/, http://iradche.livejournal.com/9703.html НИУ ВШЭ, Москва, 2012 16
  17. 17. Основные направления инициатив, направленных на открытие науки Открытие массивов научных данных Создание электронных научных хранилищ и профильных поисковых сервисов Разработка инструментов для совместной работы Создание специализированных научных социальных сетейНИУ ВШЭ, Москва, 2012 17
  18. 18. Примеры использования наборов открытых данных в науке Genome Commons (http://genomecommons.org/) Хранилище связанных наборов данных из различных источников: dbSNP, dbGaP, PharmGKB, GeneTests, OMIM, MutationView и сотни специализированных баз данных. TARDIS, The Australian Repositories for Diffraction ImageS (http://www.tardis.edu.au/) Хранилище наборов данных по кристаллографии и молекулярной биологии.НИУ ВШЭ, Москва, 2012 18
  19. 19. Примеры использования наборов открытых данных в науке Australian Social Science Data Archive (http://www.assda.edu.au/) Архив данных социальных наук Австралии. Council of European Social Science Data Archives (http://www.cessda.org/) Архивы данных социальных наук Европейского совета.НИУ ВШЭ, Москва, 2012 19
  20. 20. Примеры использования наборов открытых данных в науке National Radio Astronomy Observatory (https://archive.nrao.edu/archive/) Архив данных национальной радиоастрономической обсерватории (США). Social Science Data Archive (http://dataarchives.ss.ucla.edu/) Архив данных социальных наук (США).НИУ ВШЭ, Москва, 2012 20
  21. 21. Электронные научные хранилища и профильные поисковые сервисы за рубежом JSTOR ScienceDirect CiteSeerX EBSCO Scopus WorldCatНИУ ВШЭ, Москва, 2012 21
  22. 22. Электронные научные хранилища и профильные поисковые сервисы за рубежом Google Books Web of Science MS Academic Open Library Search Inspec arXivНИУ ВШЭ, Москва, 2012 22
  23. 23. Электронные научные хранилища и профильные поисковые сервисы в России eLibrary Math-Net.Ru VINITI Database RAS BookFinder Руконт eBdbНИУ ВШЭ, Москва, 2012 23
  24. 24. Разработка инструментов для совместной работы исследователей Digital Science (http://www.digital-science.com/) предоставляет программные продукты для совместных научно-исследовательских работ. Figshare (http://figshare.com/) предоставляет исследователям следующие возможности: • быстрая публикация результатов исследований; • упрощенная процедура цитирования; • совместное использование результатов заинтересованными исследователями. Лицензия: Creative commonsНИУ ВШЭ, Москва, 2012 24
  25. 25. Разработка инструментов для совместной работы исследователей Tools for the Citizen Scientist (NASA) Предоставляет программные продукты для совместных научно-исследовательских работ.Источники: http://open.nasa.gov/plan/progress/, http://open.nasa.gov/plan/ НИУ ВШЭ, Москва, 2012 25
  26. 26. Создание специализированных научных социальных сетей Research Gate (http://www.researchgate.net/) Социальная сеть для ученых всех научных дисциплин. Research Gate (https://secure.quantiamd.com/) Социальная сеть для врачей. Sermo (http://www.sermo.com/) Социальная сеть для врачей.НИУ ВШЭ, Москва, 2012 26
  27. 27. Создание специализированных научных социальных сетей MitCogNet (https://cognet.mit.edu/) Социальная сеть для ученых, занимающихся исследованиями мозга и мозговой деятельности. BioMedExpert (http://www.biomedexperts.com/) Социальная сеть для исследователей в области биомедицины. Social Science Research Network (http://www.ssrn.com/) Социальная сеть для исследователей в области социальных наук.НИУ ВШЭ, Москва, 2012 27

×