THOR: Technical and Human infrastructure for Open Research
Open Data
1. Организационные и технологические подходы
к публикации информации
в форме открытых данных
Радченко Ирина Алексеевна
кандидат технических наук, доцент
http://about.me/Irina.Radchenko
http://iRadche.ru
Высшая школа экономики, Москва, 2013
www.hse.ru
2. Методические рекомендации
по публикации открытых данных
2
Источник: http://data.gov.ru/metodicheskie-rekomendacii-po-publikacii-otkrytyh-dannyh-versiya-30
3. Факторы, которые необходимо учитывать
3
Востребованность соответствующих наборов
открытых данных потенциальными
потребителями информации
Степень готовности, характеризующуюся наличием
необходимых данных в электронном виде
Затраты на публикацию (финансовые, временные,
трудовые)
4. Валидация и очистка наборов данных
4
Одна из важных проблем
при публикации наборов данных –
наличие ошибок
5. Типичные ошибки в наборах данных
5
1. Смешивание различных форматов
(временных, географических и т.д.)
6. Типичные ошибки в наборах данных
6
2. Различное представление одних
и тех же значений (г., гор., город)
10. 10
Решение – использование
инструментария для очистки данных
OpenRefine
11. Преимущества OpenRefine
11
Бесплатное программное обеспечение
Совместим со всеми браузерами
Существует возможность работать в оффлайне
Нет необходимости в пересылке данных по интернету
Существует возможность работать с историей внесенных
изменений
Существует возможность визуализации различных
характеристик наборов данных
Существует возможность работать с данными различных
машиночитаемых форматов
13. Формат PDF (Portable Document Format)
13
Представление в электронном виде полиграфической продукции
Достоинства Недостаток
Представление документов
в электронном виде
Мало пригоден
для машинной
обработки
Кроссплатформенность
Стандарт ISO 32000-1:2008
Много программного
обеспечения (в том числе,
свободного) для работы
с данным форматом
14. Excel-формат
14
Представление данных в табличной форме
Представление данных в табличной форме
Пригодность для машинной обработки
Много программного обеспечения для работы
с данным форматом
15. Формат CSV
15
Представление данных в табличной форме
Представление данных в табличной форме
Пригодность для машинной обработки,
понятен человеку
Открытый формат данных
Много программного обеспечения (в том числе,
онлайн-сервисов) для работы с данным
форматом
16. Формат JSON (JavaScript Object Notation)
16
Текстовый формат обмена данными
Читается как компьютерами, так и людьми
(хотя людям понять его сложнее, чем CSV)
Пригодность для машинной обработки
Может использоваться с любым языком
программирования
Подходит для сериализации сложных структур
данных
17. Формат XML (eXtensible Markup Language)
17
Читается как компьютерами, так и людьми
Рекомендован консорциумом W3C
Пригодность для машинной обработки
Удобен для обмена данными (а также
документами) в интернете
18. Модель представления данных RDF
18
Пригодность для машинной обработки
Является частью Семантического веба
(Semantic Web)
Используемые форматы данных: RDF/XML,
RDF/JSON, RDFa, N-Triples, Turtle, N3
Использует словари, таксономии и онтологии
19. General Transit Feed Specification (GTFS)
19
Источник: http://www.gtfs-data-exchange.com/how-to-provide-open-data