3. CSV
• CSV (от англ. Comma-SeparatedValues — значения, разделённые
запятыми) — текстовый формат, предназначенный для
представления табличных данных. Каждая строка файла — это одна
строка таблицы. Значения отдельных колонок разделяются
разделительным символом (delimiter) —запятой (,).
Однако, большинство
программ вольно
трактует стандарт CSV
и допускают
использование иных
символов в качестве
разделителя («;»,
«табуляция»).
4. XML
• XML (англ. eXtensible Markup Language — расширяемый
язык разметки) — рекомендованный Консорциумом
Всемирной паутины (W3C) язык разметки.
• язык разметки с простым синтаксисом
• удобен для обработки программами
• удобен для чтения и создания человеком
• используется
в основном в
Интернете
• большие
возможности
настройки
• позволяет создавать собственную разметку (тэги)
21. • наиболее популярны данные по окружающей среде и
гражданству и иммиграции.
• наибольшее количество датасетов загружено в областях:
агрокультуры (1621), статистика (5311),
природопользование (178 000)
• количество посещений за 12 месяцев 1,8 млн. человек, в
месяц в среднем - 90000
27. ИДЕАЛЬНЫЙ ПОРТАЛ
• содержать ссылки на разделы «Наборы данных», «Приложения/
Примеры», «Для разработчиков», а также размещать их наиболее
удобно
• иметь поиск по данным
• иметь общую статистику просмотров, скачиваний, обновлений
(загрузок новых дата сетов)
• информация должна быть хорошо структурирована
• использование открытых лицензий, отсутствие ограничений на
использование дата сетов
• порталу требуется продвижение и постоянная поддержка
• возможность пользователю предложить/запросить дата сет,
которого нет в наличии, возможность оставить комментарий
дата сету
30. ПРОБЛЕМЫ ОКТРЫТЫХ
ДАННЫХ
• сложно использовать, не имея специальных технических
навыков
• сложно просматривать для быстрого ознакомления в
браузере/портале
• данные зачастую «грязные», требуют «валидации» и
«очистки»
• не полные данные, не всегда самые интересные данные
открыты
• официальные источники не регулярно обновляются
31. GOOGLE REFINE
(инструмент для очистки массивов открытых данных, не
требует загрузки данных в сеть, нет необходимости иметь
какие-либо специальные технические знания, открывается в веб-
бразуере)
Как использовать?
• Скачать и установить дистрибутив на компьютер
• Запустить и открыть в браузере страницу: http://
127.0.0.1:3333
• Выбрать файл загрузить и создать новый проект.
48. •5 контрактов от 7 млн. до 50 млн.
•Сбербанк (50 млн): «Квалификационный отбор по по
выбору организаций на поставку расходных материалов
(бумага, ролики для принтера, лента чековая, термобумага для
чековых принтеров и др.)»
49. 1.Объединяем все что касается
бумаги офисной (найдено более 90
разных формулировок)
2.Исключаем все остальные виды
«Наименований», которые каким-
то образом попали в наш список,
но не имеют отношения к бумаге, в
том числе бумага газетная и
медицинские материалы (?).
Комитет по земельным ресурсам и землеустройству
Санкт-Петербурга - 2,3 млн. руб. - «бумага» (?) = 8 млн.
листов?! Не пора ли на электронный документооборот
переходить?
50. • Бумага - 59 млн. руб. = 3 трлн. листов
• Бумага вместе с иной канцелярией - 5.5 млн. руб
• Туалетная бумага - 2,3 млн.
• Это не за год, это итогам поиска торгов на сайте
Госзакупок 7 сентября.