Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Технологии для публикации данных в Semantic Web и их интеграции в единое международное пространство знаний Linked Open Data
1. Области приложения семантических технологий
семинар Центра семантических технологий НИУ ВШЭ и
ЗАО «Авикомп Сервисез», 11 мая 2012 года
Технологии для публикации данных
в Semantic Web и их интеграции в единое
международное пространство знаний
Linked Open Data
Радченко Ирина Алексеевна
к.т.н., научный сотрудник
Центра семантических технологий НИУ ВШЭ
НИУ ВШЭ, Москва, 2012
2. Содержание
1. Публикация данных в Semantic Web в виде наборов Linked
Open Data
2. Российский проект по созданию наборов Linked Open Data
3. Перспективное направление – публикация государственных
данных
НИУ ВШЭ, Москва, 2012
2
3. Публикация данных в Semantic Web
в виде наборов Linked Open Data
НИУ ВШЭ, Москва, 2012
3
4. Публикация данных в Semantic Web
Данные представлены при помощи
языка разметки HTML
(HyperText Markup Language)
Х
HTML (текст)
Данные понятны человеку, но непонятны компьютеру
НИУ ВШЭ, Москва, 2012
4
5. Публикация данных в Semantic Web
Машиночитаемый формат обеспечивается
моделью представления данных RDF
(Resource Description Framework)
Данные понятны и человеку, и компьютеру
НИУ ВШЭ, Москва, 2012
5
6. Модель
Resource Description Framework
Машиночитаемый формат обеспечивается
моделью представления данных RDF
(Resource Description Framework)
Модель RDF
Субъект Предикат Объект
Триплет
Пример
Иванов работает в «Газпроме»
НИУ ВШЭ, Москва, 2012
6
7. Связанные открытые данные –
Linked Open Data
LOD (Linked Open Data)
Биографии
Новости
тот же
Иванов
Иванов
Связи повышают ценность данных
НИУ ВШЭ, Москва, 2012
7
8. Публикация открытых данных
в формате LOD
Разработан Читается не только
международным людьми, но и
консорциумом W3C компьютерами
LOD
(Linked Open Data)
Обеспечивает
простоту интеграции
данных из разных
источников Обеспечивает
связывание данных
из различных
В него преобразуются источников
любые данные
(структурированные и
неструктурированные)
НИУ ВШЭ, Москва, 2012
8
9. Динамика развития Linked Open Data
Темпы нарастания объемов фактов
Количество
наборов LOD
2007 2008 2009 2010
Время
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2012
9
10. Области использования
Linked Open Data
Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей
СМИ
География
Публикации
Созданный
пользователями контент
Государственные данные
Междисциплинарные области
Науки о жизни
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2012
10
11. Российский проект по созданию
публичного ресурса открытых данных
в области науки и техники,
интегрированного в единое
международное пространство знаний
Linked Open Data
НИУ ВШЭ, Москва, 2012
11
12. Разработка проекта LOD Центром
семантических технологий совместно
с компанией ЗАО «Авикомп Сервисез»
Наборы LOD с данными
Разнородные источники по научно-технической
исходных данных тематике
Программно- Мате-
Интернет матика
аппаратный
комплекс
Нано-
техно-
БД Документы логии Наборы LOD,
опубликованные
в Интернете
Цели
Создать наборы LOD в области науки и техники и
интегрировать их в международное пространство
знаний
Создать программно-аппаратный комплекс
для поддержки LOD
Отработать технологию формирования наборов
LOD для последующего тиражирования
НИУ ВШЭ, Москва, 2012
12
13. Перспективное направление –
использование технологии Linked Open Data
для публикации государственных данных
НИУ ВШЭ, Москва, 2012
13
14. Области использования
Linked Open Data
Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей
СМИ
География
Публикации
Созданный
пользователями контент
Государственные данные
Междисциплинарные области
Науки о жизни
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2012
14
15. Открытые государственные данные
за рубежом
Цель: повысить открытость, доступность данных для населения,
способствовать распространению государственной информации
в США: в Великобритании:
http://www.data.gov/ http://data.gov.uk/
http://www.utah.gov/data/ http://data.london.gov.uk/
http://data.octo.dc.gov/ http://openlylocal.com/councils
https://nycopendata.socrata.com/ http://www.mysociety.org/
http://dwexternal.co.mecklenburg.nc.us/ids/
Nav_Reports.aspx/ в Канаде:
http://www.govtrack.us/ http://www.toronto.ca/open/
http://openstates.org/ https://data.edmonton.ca/
http://data.nanaimo.ca/
в Австралии: http://data.vancouver.ca/
http://gov2.net.au/projects/index.html
в Швеции:
http://www.opengov.se/data/
НИУ ВШЭ, Москва, 2012
15
16. Открытые государственные данные
за рубежом
Правительством США опубликованы сотни наборов данных в формате LOD
Статистика потребления электроэнергии по 7 городам
с населением около полумиллиона человек
(Министерство энергетики США и Бюро переписи США,
http://en.openei.org/apps/mashathon2010/)
Набор данных для мониторинга уровня озона
(Агентство по охране окружающей среды,
http://data-gov.tw.rpi.edu/demo/exhibit/demo-8-castnet.php)
Статистика по музейным и библиотечным услугам
(Институт музейных и библиотечных услуг,
http://www.imls.gov/research/data_analysis_tools.aspx)
Информация о банкротстве публичных акционерных
компаний (Комиссия по ценным бумагам и биржам США,
http://www.sec.gov/open/datasets.shtml#bankruptcy)
НИУ ВШЭ, Москва, 2012
16
17. Открытые государственные данные
за рубежом
Германия
• Данные по сводкам происшествий (публикуются
полицией Берлина). Используется сервисом
Crimeblips, который визуализирует на карте
данные по криминальной статистике
Венгрия
• Публичный каталог Национальной библиотеки Венгрии
Швеция
• Ресурс «Шведское культурное наследие» (содержит в формате связанных данных
3,4 млн. объектов)
НИУ ВШЭ, Москва, 2012
17
18. Пример стоимости проектов, связанных
с открытыми государственными данными
Название проекта Стоим. Описание
(млн $)
Data.Gov (basic 3,00 Сайт позволяет общественности найти, скачать и использовать
functionality) машиночитаемые данные, собранные органами
Data.Gov (innovative исполнительной власти. Способствует развитию отчетности,
2,50
functionality) вовлечению граждан в жизнь государства и улучшает процесс
управления федеральными данными.
FedSpace 5,00 Позволяет государственным служащим совместно работать
над одними документами, с помощью одних инструментов.
Объединяет тех, "кто знает", с теми, "кто хочет знать".
Citizen Services 5,00 Определение показателей обслуживания клиентов
Dashboard наиважнейших гражданских сервисов для повышения
прозрачности и качества, обеспечения подотчетности
предоставляемых услуг.
USASpending.gov and 9,50 Предоставление данных о расходах в соответствии с Законом
dashboards о необходимости отчетности и прозрачности Федерального
финансирования (FFATA)
Источник: Report to the Committee on Homeland Security and Governmental Affairs, U.S. Senate. ELECTRONIC GOVERNMENT. September 2011
НИУ ВШЭ, Москва, 2012
18
19. Открытые государственные данные
в России
Надо максимально открывать
информацию, которая накапливается
в ведомственных базах данных. <...>
Кстати, такой информации <…> часто
не хватает нашим компаниям,
причем прежде всего малому и
среднему бизнесу при выстраивании
долгосрочных планов и определении
инвестиционных приоритетов
НИУ ВШЭ, Москва, 2012
19
21. Данные об оказанных медицинских услугах
в рамках обязательного медицинского
страхования г. Москвы
Характеристика
Содержание данных
предметной области
• Более 11 млн. застрахованных • Список оказанных услуг
• Более 30 млн. счетов • Фамилия, имя, отчество
от лечебно-профилактических пациента
учреждений в месяц • Диагноз по МКБ-10
• Ежегодный объем данных • Фамилия, имя, отчество врача
около 1.5 Терабайт • Наименование лечебно-
• Увеличение единой базы профилактического
данных в среднем учреждения
на 50 млн. записей в месяц
НИУ ВШЭ, Москва, 2012
21
22. Открытые связанные данные
сферы здравоохранения
Данные Отзывы и
общегородских рейтинги
регистров
Данные страховых
Данные единой медицинских
медицинской организаций
информационной Данные об оказанных
автоматизированной медицинских услугах
системы в рамках обязательного
медицинского страхования
г. Москвы Данные
федеральных
Данные регистров
мониторинга
… Данные лечебно-
… … профилактических
учреждений
НИУ ВШЭ, Москва, 2012
22
23. Варианты создания сервисов на основе
данных сферы здравоохранения
Сервисы для граждан Сервисы для научных
• Выбор лечебно-профилактического сотрудников
учреждения, врача и страховой Научный • Всесторонний и постоянный сбор
медицинской организации Пациент сотрудник информации по научным статьям,
• Совместимость лекарств с другими их авторам, учреждениям и т.д.
лекарствами, состояниями, • Свод статистики по разным
заболеваниями и аллергиями параметрам и темам исследований
• Аптеки, цены на лекарства • Составление научных отчетов и
• … определение тенденций
Управленец
• …
Сервисы мониторинга и Врач
статистики процессов Сервисы поддержки
в здравоохранении принятия решений
• Оперативное выявление тенденций Сервисы для сферы • Уточнение диагноза
в динамике показателей бизнеса • Индивидуальный подбор тактики
здравоохранения • Анализ рынка лечения
• Исследование эффективности • Какие исследования • Совместимость лекарств
реализуемых программ проводятся? • Прогнозирование развития
• Отслеживание качества работы • Какие результаты заболевания
медучреждений по отзывам достигнуты? • Разработка профилактических
населения • Каков спрос на результаты? мероприятий и новых способов
• Анализ опыта других регионов стран • Анализ работы компаний лечения
• … •… • …
НИУ ВШЭ, Москва, 2012
23