ОТКРЫТЫЕ ДАННЫЕ:
ТЕХНОЛОГИИ.
ЧАСТЬ 2
Власов Виталий
Грани, Пермь
2013
ФОРМАТЫ
• CSV
• XML
• RDF/OWL
• JSON
CSV
• CSV (от англ. Comma-SeparatedValues — значения, разделённые
запятыми) — текстовый формат, предназначенный для
предст...
XML
• XML (англ. eXtensible Markup Language — расширяемый
язык разметки) — рекомендованный Консорциумом
Всемирной паутины ...
Корневой элемент
Элемент Аттрибуты Значение
Открывающий тэг
Закрывающий тэг
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
США
98 000
дата сетов
236
приложений
https://nycopendata.socrata.com/
http://nycbigapps.com/
https://data.sfgov.org/
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Европейский союз
6094
дата сета
6
приложений
имеется
раздел
Linked Data
http://open-data.europa.eu
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Кения
540
дата сета
12
приложений
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Канада
190 000
дата сета
> 40
приложений
http://data.gc.ca
47
региональных
порталов
• наиболее популярны данные по окружающей среде и
гражданству и иммиграции.
• наибольшее количество датасетов загружено в ...
http://data.alberta.ca/
http://www.ontario.ca/government/government-ontario-open-data
ПОРТАЛ ОТКРЫТЫХ ДАННЫХ
Молдова http://data.gov.md/
672
дата сета
> 15
приложений
http://www.pediacities.com/
Подробная
информация по
недвижимости
и по каждому
дому отдельно
Аренда жилья
Рыночная стоимость
здания, когда был
построен
Какие еще дома были
построены в 1800 г.
ИДЕАЛЬНЫЙ ПОРТАЛ
• содержать ссылки на разделы «Наборы данных», «Приложения/
Примеры», «Для разработчиков», а также размещ...
CKAN - ПОРТАЛ С ОТКРЫТЫМ КОДОМ
http://ckan.org/
SOCRATA
http://www.socrata.com
ПРОБЛЕМЫ ОКТРЫТЫХ
ДАННЫХ
• сложно использовать, не имея специальных технических
навыков
• сложно просматривать для быстрог...
GOOGLE REFINE
(инструмент для очистки массивов открытых данных, не
требует загрузки данных в сеть, нет необходимости иметь...
DOLLARS
FOR
DOCTORS
http://projects.propublica.org/docdollars/
http://www.propublica.org/nerds/item/using-google-refine-for...
ЗАДАЧА 1: XML В CVS
http://xn--80abucjiibhv9a.xn--p1ai/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD...
ПАСПОРТ
http://xn--80abucjiibhv9a.xn--p1ai/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-
%D0%B4%D0%B0%D0%BD%D0%BD%D1%8...
XML
XML XLS
ЗАДАЧА 2: ОЧИСТКА ДАННЫХ
minfin.ru/ru/opendata/
Это все офисная
бумага, но в разных
формулировках
Имеем 200 записей, 15 из которых не имеют
цены контракта
•5 контрактов от 7 млн. до 50 млн.
•Сбербанк (50 млн): «Квалификационный отбор по по
выбору организаций на поставку расход...
1.Объединяем все что касается
бумаги офисной (найдено более 90
разных формулировок)
2.Исключаем все остальные виды
«Наимен...
• Бумага - 59 млн. руб. = 3 трлн. листов
• Бумага вместе с иной канцелярией - 5.5 млн. руб
• Туалетная бумага - 2,3 млн.
•...
МЕТОДИЧЕСКИЕ
РЕКОМЕНДАЦИИ МЭР
http://ar.gov.ru/inform_otkritost_05_otkritii_dannie/index.html
ОТКРЫТЫЕ ДАННЫЕ
МИНКУЛЬТУРЫ
Власов Виталий
inxaoc@gmail.com
http://www.hackathon.spb.ru/
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных
Upcoming SlideShare
Loading in …5
×

"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных

1,003 views
902 views

Published on

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,003
On SlideShare
0
From Embeds
0
Number of Embeds
344
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование Google Refine для журналистики данных

  1. 1. ОТКРЫТЫЕ ДАННЫЕ: ТЕХНОЛОГИИ. ЧАСТЬ 2 Власов Виталий Грани, Пермь 2013
  2. 2. ФОРМАТЫ • CSV • XML • RDF/OWL • JSON
  3. 3. CSV • CSV (от англ. Comma-SeparatedValues — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных. Каждая строка файла — это одна строка таблицы. Значения отдельных колонок разделяются разделительным символом (delimiter) —запятой (,). Однако, большинство программ вольно трактует стандарт CSV и допускают использование иных символов в качестве разделителя («;», «табуляция»).
  4. 4. XML • XML (англ. eXtensible Markup Language — расширяемый язык разметки) — рекомендованный Консорциумом Всемирной паутины (W3C) язык разметки. • язык разметки с простым синтаксисом • удобен для обработки программами • удобен для чтения и создания человеком • используется в основном в Интернете • большие возможности настройки • позволяет создавать собственную разметку (тэги)
  5. 5. Корневой элемент Элемент Аттрибуты Значение Открывающий тэг Закрывающий тэг
  6. 6. ПОРТАЛ ОТКРЫТЫХ ДАННЫХ США 98 000 дата сетов 236 приложений
  7. 7. https://nycopendata.socrata.com/
  8. 8. http://nycbigapps.com/
  9. 9. https://data.sfgov.org/
  10. 10. ПОРТАЛ ОТКРЫТЫХ ДАННЫХ Европейский союз 6094 дата сета 6 приложений имеется раздел Linked Data http://open-data.europa.eu
  11. 11. ПОРТАЛ ОТКРЫТЫХ ДАННЫХ Кения 540 дата сета 12 приложений
  12. 12. ПОРТАЛ ОТКРЫТЫХ ДАННЫХ Канада 190 000 дата сета > 40 приложений http://data.gc.ca 47 региональных порталов
  13. 13. • наиболее популярны данные по окружающей среде и гражданству и иммиграции. • наибольшее количество датасетов загружено в областях: агрокультуры (1621), статистика (5311), природопользование (178 000) • количество посещений за 12 месяцев 1,8 млн. человек, в месяц в среднем - 90000
  14. 14. http://data.alberta.ca/ http://www.ontario.ca/government/government-ontario-open-data
  15. 15. ПОРТАЛ ОТКРЫТЫХ ДАННЫХ Молдова http://data.gov.md/ 672 дата сета > 15 приложений
  16. 16. http://www.pediacities.com/
  17. 17. Подробная информация по недвижимости и по каждому дому отдельно
  18. 18. Аренда жилья Рыночная стоимость здания, когда был построен Какие еще дома были построены в 1800 г.
  19. 19. ИДЕАЛЬНЫЙ ПОРТАЛ • содержать ссылки на разделы «Наборы данных», «Приложения/ Примеры», «Для разработчиков», а также размещать их наиболее удобно • иметь поиск по данным • иметь общую статистику просмотров, скачиваний, обновлений (загрузок новых дата сетов) • информация должна быть хорошо структурирована • использование открытых лицензий, отсутствие ограничений на использование дата сетов • порталу требуется продвижение и постоянная поддержка • возможность пользователю предложить/запросить дата сет, которого нет в наличии, возможность оставить комментарий дата сету
  20. 20. CKAN - ПОРТАЛ С ОТКРЫТЫМ КОДОМ http://ckan.org/
  21. 21. SOCRATA http://www.socrata.com
  22. 22. ПРОБЛЕМЫ ОКТРЫТЫХ ДАННЫХ • сложно использовать, не имея специальных технических навыков • сложно просматривать для быстрого ознакомления в браузере/портале • данные зачастую «грязные», требуют «валидации» и «очистки» • не полные данные, не всегда самые интересные данные открыты • официальные источники не регулярно обновляются
  23. 23. GOOGLE REFINE (инструмент для очистки массивов открытых данных, не требует загрузки данных в сеть, нет необходимости иметь какие-либо специальные технические знания, открывается в веб- бразуере) Как использовать? • Скачать и установить дистрибутив на компьютер • Запустить и открыть в браузере страницу: http:// 127.0.0.1:3333 • Выбрать файл загрузить и создать новый проект.
  24. 24. DOLLARS FOR DOCTORS http://projects.propublica.org/docdollars/ http://www.propublica.org/nerds/item/using-google-refine-for-data-cleaning
  25. 25. ЗАДАЧА 1: XML В CVS http://xn--80abucjiibhv9a.xn--p1ai/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/265
  26. 26. ПАСПОРТ http://xn--80abucjiibhv9a.xn--p1ai/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5- %D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/265/1384/MONR.7.1-%D0%9C%D0%BE %D0%B4%D0%B5%D1%80%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_ %D1%80%D0%B5%D0%B3%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_ %D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC_%D0%BE%D0%B1%D1%89%D0%B5%D0%B3%D0%BE_%D0%BE %D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F.pdf
  27. 27. XML
  28. 28. XML XLS
  29. 29. ЗАДАЧА 2: ОЧИСТКА ДАННЫХ minfin.ru/ru/opendata/
  30. 30. Это все офисная бумага, но в разных формулировках
  31. 31. Имеем 200 записей, 15 из которых не имеют цены контракта
  32. 32. •5 контрактов от 7 млн. до 50 млн. •Сбербанк (50 млн): «Квалификационный отбор по по выбору организаций на поставку расходных материалов (бумага, ролики для принтера, лента чековая, термобумага для чековых принтеров и др.)»
  33. 33. 1.Объединяем все что касается бумаги офисной (найдено более 90 разных формулировок) 2.Исключаем все остальные виды «Наименований», которые каким- то образом попали в наш список, но не имеют отношения к бумаге, в том числе бумага газетная и медицинские материалы (?). Комитет по земельным ресурсам и землеустройству Санкт-Петербурга - 2,3 млн. руб. - «бумага» (?) = 8 млн. листов?! Не пора ли на электронный документооборот переходить?
  34. 34. • Бумага - 59 млн. руб. = 3 трлн. листов • Бумага вместе с иной канцелярией - 5.5 млн. руб • Туалетная бумага - 2,3 млн. • Это не за год, это итогам поиска торгов на сайте Госзакупок 7 сентября.
  35. 35. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ МЭР http://ar.gov.ru/inform_otkritost_05_otkritii_dannie/index.html
  36. 36. ОТКРЫТЫЕ ДАННЫЕ МИНКУЛЬТУРЫ
  37. 37. Власов Виталий inxaoc@gmail.com http://www.hackathon.spb.ru/

×