ОТКРЫТЫЕ ДАННЫЕ:
ТЕХНОЛОГИИ.
ЧАСТЬ 2
Власов Виталий
Грани, Пермь
2013
ФОРМАТЫ
• CSV
• XML
• RDF/OWL
• JSON
CSV
• CSV (от англ. Comma-SeparatedValues — значения, разделённые
запятыми) — текстовый формат, предназначенный для
представления табличных данных. Каждая строка файла — это одна
строка таблицы. Значения отдельных колонок разделяются
разделительным символом (delimiter) —запятой (,).
Однако, большинство
программ вольно
трактует стандарт CSV
и допускают
использование иных
символов в качестве
разделителя («;»,
«табуляция»).
XML
• XML (англ. eXtensible Markup Language — расширяемый
язык разметки) — рекомендованный Консорциумом
Всемирной паутины (W3C) язык разметки.
• язык разметки с простым синтаксисом
• удобен для обработки программами
• удобен для чтения и создания человеком
• используется
в основном в
Интернете
• большие
возможности
настройки
• позволяет создавать собственную разметку (тэги)
Корневой элемент
Элемент Аттрибуты Значение
Открывающий тэг
Закрывающий тэг
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
США
98 000
дата сетов
236
приложений
https://nycopendata.socrata.com/
http://nycbigapps.com/
https://data.sfgov.org/
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Европейский союз
6094
дата сета
6
приложений
имеется
раздел
Linked Data
http://open-data.europa.eu
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Кения
540
дата сета
12
приложений
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Канада
190 000
дата сета
> 40
приложений
http://data.gc.ca
47
региональных
порталов
• наиболее популярны данные по окружающей среде и
гражданству и иммиграции.
• наибольшее количество датасетов загружено в областях:
агрокультуры (1621), статистика (5311),
природопользование (178 000)
• количество посещений за 12 месяцев 1,8 млн. человек, в
месяц в среднем - 90000
http://data.alberta.ca/
http://www.ontario.ca/government/government-ontario-open-data
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Молдова http://data.gov.md/
672
дата сета
> 15
приложений
http://www.pediacities.com/
Подробная
информация по
недвижимости
и по каждому
дому отдельно
Аренда жилья
Рыночная стоимость
здания, когда был
построен
Какие еще дома были
построены в 1800 г.
ИДЕАЛЬНЫЙ ПОРТАЛ
• содержать ссылки на разделы «Наборы данных», «Приложения/
Примеры», «Для разработчиков», а также размещать их наиболее
удобно
• иметь поиск по данным
• иметь общую статистику просмотров, скачиваний, обновлений
(загрузок новых дата сетов)
• информация должна быть хорошо структурирована
• использование открытых лицензий, отсутствие ограничений на
использование дата сетов
• порталу требуется продвижение и постоянная поддержка
• возможность пользователю предложить/запросить дата сет,
которого нет в наличии, возможность оставить комментарий
дата сету
CKAN - ПОРТАЛ С ОТКРЫТЫМ КОДОМ
http://ckan.org/
SOCRATA
http://www.socrata.com
ПРОБЛЕМЫ ОКТРЫТЫХ
ДАННЫХ
• сложно использовать, не имея специальных технических
навыков
• сложно просматривать для быстрого ознакомления в
браузере/портале
• данные зачастую «грязные», требуют «валидации» и
«очистки»
• не полные данные, не всегда самые интересные данные
открыты
• официальные источники не регулярно обновляются
GOOGLE REFINE
(инструмент для очистки массивов открытых данных, не
требует загрузки данных в сеть, нет необходимости иметь
какие-либо специальные технические знания, открывается в веб-
бразуере)
Как использовать?
• Скачать и установить дистрибутив на компьютер
• Запустить и открыть в браузере страницу: http://
127.0.0.1:3333
• Выбрать файл загрузить и создать новый проект.
DOLLARS
FOR
DOCTORS
http://projects.propublica.org/docdollars/
http://www.propublica.org/nerds/item/using-google-refine-for-data-cleaning
ЗАДАЧА 1: XML В CVS
http://xn--80abucjiibhv9a.xn--p1ai/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/265
ПАСПОРТ
http://xn--80abucjiibhv9a.xn--p1ai/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-
%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/265/1384/MONR.7.1-%D0%9C%D0%BE
%D0%B4%D0%B5%D1%80%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_
%D1%80%D0%B5%D0%B3%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_
%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC_%D0%BE%D0%B1%D1%89%D0%B5%D0%B3%D0%BE_%D0%BE
%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F.pdf
XML
XML XLS
ЗАДАЧА 2: ОЧИСТКА ДАННЫХ
minfin.ru/ru/opendata/
Это все офисная
бумага, но в разных
формулировках
Имеем 200 записей, 15 из которых не имеют
цены контракта
•5 контрактов от 7 млн. до 50 млн.
•Сбербанк (50 млн): «Квалификационный отбор по по
выбору организаций на поставку расходных материалов
(бумага, ролики для принтера, лента чековая, термобумага для
чековых принтеров и др.)»
1.Объединяем все что касается
бумаги офисной (найдено более 90
разных формулировок)
2.Исключаем все остальные виды
«Наименований», которые каким-
то образом попали в наш список,
но не имеют отношения к бумаге, в
том числе бумага газетная и
медицинские материалы (?).
Комитет по земельным ресурсам и землеустройству
Санкт-Петербурга - 2,3 млн. руб. - «бумага» (?) = 8 млн.
листов?! Не пора ли на электронный документооборот
переходить?
• Бумага - 59 млн. руб. = 3 трлн. листов
• Бумага вместе с иной канцелярией - 5.5 млн. руб
• Туалетная бумага - 2,3 млн.
• Это не за год, это итогам поиска торгов на сайте
Госзакупок 7 сентября.
МЕТОДИЧЕСКИЕ
РЕКОМЕНДАЦИИ МЭР
http://ar.gov.ru/inform_otkritost_05_otkritii_dannie/index.html
ОТКРЫТЫЕ ДАННЫЕ
МИНКУЛЬТУРЫ
Власов Виталий
inxaoc@gmail.com
http://www.hackathon.spb.ru/

"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных