SlideShare a Scribd company logo
1 of 55
ОТКРЫТЫЕ ДАННЫЕ:
ТЕХНОЛОГИИ.
ЧАСТЬ 2
Власов Виталий
Грани, Пермь
2013
ФОРМАТЫ
• CSV
• XML
• RDF/OWL
• JSON
CSV
• CSV (от англ. Comma-SeparatedValues — значения, разделённые
запятыми) — текстовый формат, предназначенный для
представления табличных данных. Каждая строка файла — это одна
строка таблицы. Значения отдельных колонок разделяются
разделительным символом (delimiter) —запятой (,).
Однако, большинство
программ вольно
трактует стандарт CSV
и допускают
использование иных
символов в качестве
разделителя («;»,
«табуляция»).
XML
• XML (англ. eXtensible Markup Language — расширяемый
язык разметки) — рекомендованный Консорциумом
Всемирной паутины (W3C) язык разметки.
• язык разметки с простым синтаксисом
• удобен для обработки программами
• удобен для чтения и создания человеком
• используется
в основном в
Интернете
• большие
возможности
настройки
• позволяет создавать собственную разметку (тэги)
Корневой элемент
Элемент Аттрибуты Значение
Открывающий тэг
Закрывающий тэг
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
США
98 000
дата сетов
236
приложений
https://nycopendata.socrata.com/
http://nycbigapps.com/
https://data.sfgov.org/
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Европейский союз
6094
дата сета
6
приложений
имеется
раздел
Linked Data
http://open-data.europa.eu
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Кения
540
дата сета
12
приложений
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Канада
190 000
дата сета
> 40
приложений
http://data.gc.ca
47
региональных
порталов
• наиболее популярны данные по окружающей среде и
гражданству и иммиграции.
• наибольшее количество датасетов загружено в областях:
агрокультуры (1621), статистика (5311),
природопользование (178 000)
• количество посещений за 12 месяцев 1,8 млн. человек, в
месяц в среднем - 90000
http://data.alberta.ca/
http://www.ontario.ca/government/government-ontario-open-data
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Молдова http://data.gov.md/
672
дата сета
> 15
приложений
http://www.pediacities.com/
Подробная
информация по
недвижимости
и по каждому
дому отдельно
Аренда жилья
Рыночная стоимость
здания, когда был
построен
Какие еще дома были
построены в 1800 г.
ИДЕАЛЬНЫЙ ПОРТАЛ
• содержать ссылки на разделы «Наборы данных», «Приложения/
Примеры», «Для разработчиков», а также размещать их наиболее
удобно
• иметь поиск по данным
• иметь общую статистику просмотров, скачиваний, обновлений
(загрузок новых дата сетов)
• информация должна быть хорошо структурирована
• использование открытых лицензий, отсутствие ограничений на
использование дата сетов
• порталу требуется продвижение и постоянная поддержка
• возможность пользователю предложить/запросить дата сет,
которого нет в наличии, возможность оставить комментарий
дата сету
CKAN - ПОРТАЛ С ОТКРЫТЫМ КОДОМ
http://ckan.org/
SOCRATA
http://www.socrata.com
ПРОБЛЕМЫ ОКТРЫТЫХ
ДАННЫХ
• сложно использовать, не имея специальных технических
навыков
• сложно просматривать для быстрого ознакомления в
браузере/портале
• данные зачастую «грязные», требуют «валидации» и
«очистки»
• не полные данные, не всегда самые интересные данные
открыты
• официальные источники не регулярно обновляются
GOOGLE REFINE
(инструмент для очистки массивов открытых данных, не
требует загрузки данных в сеть, нет необходимости иметь
какие-либо специальные технические знания, открывается в веб-
бразуере)
Как использовать?
• Скачать и установить дистрибутив на компьютер
• Запустить и открыть в браузере страницу: http://
127.0.0.1:3333
• Выбрать файл загрузить и создать новый проект.
DOLLARS
FOR
DOCTORS
http://projects.propublica.org/docdollars/
http://www.propublica.org/nerds/item/using-google-refine-for-data-cleaning
ЗАДАЧА 1: XML В CVS
http://xn--80abucjiibhv9a.xn--p1ai/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/265
ПАСПОРТ
http://xn--80abucjiibhv9a.xn--p1ai/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-
%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/265/1384/MONR.7.1-%D0%9C%D0%BE
%D0%B4%D0%B5%D1%80%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_
%D1%80%D0%B5%D0%B3%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_
%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC_%D0%BE%D0%B1%D1%89%D0%B5%D0%B3%D0%BE_%D0%BE
%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F.pdf
XML
XML XLS
ЗАДАЧА 2: ОЧИСТКА ДАННЫХ
minfin.ru/ru/opendata/
Это все офисная
бумага, но в разных
формулировках
Имеем 200 записей, 15 из которых не имеют
цены контракта
•5 контрактов от 7 млн. до 50 млн.
•Сбербанк (50 млн): «Квалификационный отбор по по
выбору организаций на поставку расходных материалов
(бумага, ролики для принтера, лента чековая, термобумага для
чековых принтеров и др.)»
1.Объединяем все что касается
бумаги офисной (найдено более 90
разных формулировок)
2.Исключаем все остальные виды
«Наименований», которые каким-
то образом попали в наш список,
но не имеют отношения к бумаге, в
том числе бумага газетная и
медицинские материалы (?).
Комитет по земельным ресурсам и землеустройству
Санкт-Петербурга - 2,3 млн. руб. - «бумага» (?) = 8 млн.
листов?! Не пора ли на электронный документооборот
переходить?
• Бумага - 59 млн. руб. = 3 трлн. листов
• Бумага вместе с иной канцелярией - 5.5 млн. руб
• Туалетная бумага - 2,3 млн.
• Это не за год, это итогам поиска торгов на сайте
Госзакупок 7 сентября.
МЕТОДИЧЕСКИЕ
РЕКОМЕНДАЦИИ МЭР
http://ar.gov.ru/inform_otkritost_05_otkritii_dannie/index.html
ОТКРЫТЫЕ ДАННЫЕ
МИНКУЛЬТУРЫ
Власов Виталий
inxaoc@gmail.com
http://www.hackathon.spb.ru/

More Related Content

Similar to "Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных

Embarcadero All-Access
Embarcadero All-AccessEmbarcadero All-Access
Embarcadero All-AccessSerghei Urban
 
браузеры презентация
браузеры презентациябраузеры презентация
браузеры презентация4ertenka
 
Технические особенности Docsvision 5
Технические особенности Docsvision 5Технические особенности Docsvision 5
Технические особенности Docsvision 5Docsvision
 
браузеры презентация
браузеры презентациябраузеры презентация
браузеры презентация4ertenka
 
Экскурс в мир WEB разработки
Экскурс в мир WEB разработкиЭкскурс в мир WEB разработки
Экскурс в мир WEB разработкиIT-Доминанта
 
DevOps в Agile среде. Как, почему и когда инструменты помогают.
DevOps в Agile среде. Как, почему и когда инструменты помогают.DevOps в Agile среде. Как, почему и когда инструменты помогают.
DevOps в Agile среде. Как, почему и когда инструменты помогают.Alexander Titov
 
Browzer
BrowzerBrowzer
BrowzerIKTO
 
What's new in Visual Studio 2012
What's new in Visual Studio 2012What's new in Visual Studio 2012
What's new in Visual Studio 2012InTRUEdeR
 
Catalyst – MVC framework на Perl (RIT 2008)
Catalyst – MVC framework на Perl  (RIT 2008)Catalyst – MVC framework на Perl  (RIT 2008)
Catalyst – MVC framework на Perl (RIT 2008)Sergey Skvortsov
 
разработка бизнес приложений (9)
разработка бизнес приложений (9)разработка бизнес приложений (9)
разработка бизнес приложений (9)Alexander Gornik
 
Создаем Drupal дистрибутив: от идеи до сопровождения
Создаем Drupal дистрибутив: от идеи до сопровожденияСоздаем Drupal дистрибутив: от идеи до сопровождения
Создаем Drupal дистрибутив: от идеи до сопровожденияOvadiah Myrgorod
 
Павел Брылов, Skype
Павел Брылов, SkypeПавел Брылов, Skype
Павел Брылов, SkypeOntico
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data applianceCleverDATA
 
Web programming modern tendencies
Web programming modern tendenciesWeb programming modern tendencies
Web programming modern tendenciesDarkestMaster
 
Использование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииИспользование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииDenis Latushkin
 
Apache maven in java projects
Apache maven in java projectsApache maven in java projects
Apache maven in java projectsAsya Dudnik
 
Реализация тестового фреймворка на основе OPEN-SOURCE инструментов
Реализация тестового фреймворка на основе OPEN-SOURCE инструментовРеализация тестового фреймворка на основе OPEN-SOURCE инструментов
Реализация тестового фреймворка на основе OPEN-SOURCE инструментовSQALab
 

Similar to "Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных (20)

Embarcadero All-Access
Embarcadero All-AccessEmbarcadero All-Access
Embarcadero All-Access
 
браузеры презентация
браузеры презентациябраузеры презентация
браузеры презентация
 
Технические особенности Docsvision 5
Технические особенности Docsvision 5Технические особенности Docsvision 5
Технические особенности Docsvision 5
 
браузеры презентация
браузеры презентациябраузеры презентация
браузеры презентация
 
Экскурс в мир WEB разработки
Экскурс в мир WEB разработкиЭкскурс в мир WEB разработки
Экскурс в мир WEB разработки
 
Errors Tracker
Errors TrackerErrors Tracker
Errors Tracker
 
DevOps в Agile среде. Как, почему и когда инструменты помогают.
DevOps в Agile среде. Как, почему и когда инструменты помогают.DevOps в Agile среде. Как, почему и когда инструменты помогают.
DevOps в Agile среде. Как, почему и когда инструменты помогают.
 
Browzer
BrowzerBrowzer
Browzer
 
What's new in Visual Studio 2012
What's new in Visual Studio 2012What's new in Visual Studio 2012
What's new in Visual Studio 2012
 
Catalyst – MVC framework на Perl (RIT 2008)
Catalyst – MVC framework на Perl  (RIT 2008)Catalyst – MVC framework на Perl  (RIT 2008)
Catalyst – MVC framework на Perl (RIT 2008)
 
разработка бизнес приложений (9)
разработка бизнес приложений (9)разработка бизнес приложений (9)
разработка бизнес приложений (9)
 
Создаем Drupal дистрибутив: от идеи до сопровождения
Создаем Drupal дистрибутив: от идеи до сопровожденияСоздаем Drupal дистрибутив: от идеи до сопровождения
Создаем Drupal дистрибутив: от идеи до сопровождения
 
Павел Брылов, Skype
Павел Брылов, SkypeПавел Брылов, Skype
Павел Брылов, Skype
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Deep storm presentation
Deep storm presentationDeep storm presentation
Deep storm presentation
 
Web programming modern tendencies
Web programming modern tendenciesWeb programming modern tendencies
Web programming modern tendencies
 
Использование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииИспользование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложении
 
Apache maven in java projects
Apache maven in java projectsApache maven in java projects
Apache maven in java projects
 
JavaScript
JavaScriptJavaScript
JavaScript
 
Реализация тестового фреймворка на основе OPEN-SOURCE инструментов
Реализация тестового фреймворка на основе OPEN-SOURCE инструментовРеализация тестового фреймворка на основе OPEN-SOURCE инструментов
Реализация тестового фреймворка на основе OPEN-SOURCE инструментов
 

More from Vitaly Vlasov

Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...Vitaly Vlasov
 
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямOpen Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямVitaly Vlasov
 
Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data ...
Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data ...Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data ...
Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data ...Vitaly Vlasov
 
Как делать презентацию?
Как делать презентацию?Как делать презентацию?
Как делать презентацию?Vitaly Vlasov
 
Open Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examplesOpen Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examplesVitaly Vlasov
 
Intorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for PiterIntorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for PiterVitaly Vlasov
 
Open Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO WebinarOpen Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO WebinarVitaly Vlasov
 
Startup Class - Business Model Canvas
Startup Class - Business Model CanvasStartup Class - Business Model Canvas
Startup Class - Business Model CanvasVitaly Vlasov
 
Startup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работыStartup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работыVitaly Vlasov
 
Презентация проекта "Liveable City"
Презентация проекта "Liveable City"Презентация проекта "Liveable City"
Презентация проекта "Liveable City"Vitaly Vlasov
 
Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...Vitaly Vlasov
 
Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)Vitaly Vlasov
 
Презентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской ОбластиПрезентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской ОбластиVitaly Vlasov
 
Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"Vitaly Vlasov
 
Презентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ыйПрезентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ыйVitaly Vlasov
 
Case for open data in transit
Case for open data in  transitCase for open data in  transit
Case for open data in transitVitaly Vlasov
 
Local open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский языкLocal open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский языкVitaly Vlasov
 
Open Data проекты в США
Open Data проекты в СШАOpen Data проекты в США
Open Data проекты в СШАVitaly Vlasov
 
Social media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPISocial media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPIVitaly Vlasov
 
Social media marketing в Facebook и Twitter
Social media marketing в Facebook и TwitterSocial media marketing в Facebook и Twitter
Social media marketing в Facebook и TwitterVitaly Vlasov
 

More from Vitaly Vlasov (20)

Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
 
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямOpen Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
 
Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data ...
Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data ...Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data ...
Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data ...
 
Как делать презентацию?
Как делать презентацию?Как делать презентацию?
Как делать презентацию?
 
Open Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examplesOpen Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examples
 
Intorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for PiterIntorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for Piter
 
Open Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO WebinarOpen Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
 
Startup Class - Business Model Canvas
Startup Class - Business Model CanvasStartup Class - Business Model Canvas
Startup Class - Business Model Canvas
 
Startup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работыStartup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работы
 
Презентация проекта "Liveable City"
Презентация проекта "Liveable City"Презентация проекта "Liveable City"
Презентация проекта "Liveable City"
 
Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...
 
Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)
 
Презентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской ОбластиПрезентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской Области
 
Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"
 
Презентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ыйПрезентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ый
 
Case for open data in transit
Case for open data in  transitCase for open data in  transit
Case for open data in transit
 
Local open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский языкLocal open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский язык
 
Open Data проекты в США
Open Data проекты в СШАOpen Data проекты в США
Open Data проекты в США
 
Social media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPISocial media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPI
 
Social media marketing в Facebook и Twitter
Social media marketing в Facebook и TwitterSocial media marketing в Facebook и Twitter
Social media marketing в Facebook и Twitter
 

"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных