SlideShare a Scribd company logo
Предварительная подготовка данных
к публикации и оценка качества
открытых данных
Радченко Ирина Алексеевна
кандидат технических наук, доцент
http://about.me/Irina.Radchenko
http://iRadche.ru
Высшая школа экономики, Москва, 2013
www.hse.ru
Валидация и очистка наборов данных

Одна из важных проблем
при публикации наборов данных –
наличие ошибок

2
Типичные ошибки в наборах данных

1. Смешивание различных форматов
(временных, географических и т.д.)

3
Типичные ошибки в наборах данных

2. Различное представление одних
и тех же значений (г., гор., город)

4
Типичные ошибки в наборах данных

3. Дублирование записей

5
Типичные ошибки в наборах данных

4. Использование разных
размерностей

6
Типичные ошибки в наборах данных

5. Ошибки аббревиатур

7
Решение – использование
инструментария для очистки данных
Open Refine

8
Преимущества Open Refine
Бесплатное программное обеспечение
Совместим со всеми браузерами
Существует возможность работать в оффлайне
Нет необходимости в пересылке данных по интернету
Существует возможность работать с историей внесенных
изменений
Существует возможность визуализации различных
характеристик наборов данных
Существует возможность работать с данными различных
машиночитаемых форматов
9
Инструментарий для очистки данных

10
Очистка данных

11
Очистка данных

12
Очистка данных

13
Очистка данных

14
Очистка данных

15
Очистка данных

16
Очистка данных

17
Очистка данных

18
Сертификация открытых данных

Источник: https://theodi.org/
19
Сертификация открытых данных

Источник: https://certificates.theodi.org/
20
Сертификация открытых данных

Источник: https://certificates.theodi.org/about
21
Сертификация открытых данных

Источник: https://certificates.theodi.org/about
22
Сертификация открытых данных

Источник: https://certificates.theodi.org/about
23
Хартия G8 открытых данных

Источник: https://www.gov.uk/government/publications/open-data-charter/g8-open-data-charter-and-technicalannex
24
Глобальная Перепись открытых данных

Источник: http://census.okfn.org
25
Глобальная Перепись открытых данных

Источник: http://blog.okfn.org/2013/10/28/government-data-still-not-open-enough/
26
Глобальная Перепись открытых данных

Источник: http://census.okfn.org/country/
27
Спасибо за внимание!
http://iRadche.ru
http://about.me/Irina.Radchenko

@iRadche

http://iRadche.livejournal.com/
https://www.facebook.com/iRadche
http://www.slideshare.net/iRadche

More Related Content

More from Irina Radchenko

Аналитик, данные и джаз
Аналитик, данные и джазАналитик, данные и джаз
Аналитик, данные и джаз
Irina Radchenko
 
Open access as is
Open access as isOpen access as is
Open access as is
Irina Radchenko
 
Как и где искать открытые данные?
Как и где искать открытые данные?Как и где искать открытые данные?
Как и где искать открытые данные?
Irina Radchenko
 
Дата-экспедиции. Data Expeditions
Дата-экспедиции. Data ExpeditionsДата-экспедиции. Data Expeditions
Дата-экспедиции. Data Expeditions
Irina Radchenko
 
Data expedition
Data expeditionData expedition
Data expedition
Irina Radchenko
 
Data Expeditions Eduthon
Data Expeditions EduthonData Expeditions Eduthon
Data Expeditions Eduthon
Irina Radchenko
 
Анализ 
и визуализация данных
Анализ 
и визуализация данныхАнализ 
и визуализация данных
Анализ 
и визуализация данных
Irina Radchenko
 
Data management syllabus
Data management syllabusData management syllabus
Data management syllabus
Irina Radchenko
 
Data journalist
Data journalistData journalist
Data journalist
Irina Radchenko
 
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Irina Radchenko
 
FREYA project
FREYA projectFREYA project
FREYA project
Irina Radchenko
 
How to become a Data Scientist
How to become a Data Scientist How to become a Data Scientist
How to become a Data Scientist
Irina Radchenko
 
Вебинар по статистике
Вебинар по статистикеВебинар по статистике
Вебинар по статистике
Irina Radchenko
 
Программа CATT
Программа CATTПрограмма CATT
Программа CATT
Irina Radchenko
 
Introduction to Data Journalism
Introduction to Data JournalismIntroduction to Data Journalism
Introduction to Data Journalism
Irina Radchenko
 
Introduction to Open Data
Introduction to Open DataIntroduction to Open Data
Introduction to Open Data
Irina Radchenko
 
Open Data hackathons in Russia
Open Data hackathons in RussiaOpen Data hackathons in Russia
Open Data hackathons in Russia
Irina Radchenko
 
Working with Open Data
Working with Open DataWorking with Open Data
Working with Open Data
Irina Radchenko
 
Introduction to Data Journalism
Introduction to Data JournalismIntroduction to Data Journalism
Introduction to Data Journalism
Irina Radchenko
 
Open science as a cultural basis in Digital economy
Open science as a cultural basis in Digital economyOpen science as a cultural basis in Digital economy
Open science as a cultural basis in Digital economy
Irina Radchenko
 

More from Irina Radchenko (20)

Аналитик, данные и джаз
Аналитик, данные и джазАналитик, данные и джаз
Аналитик, данные и джаз
 
Open access as is
Open access as isOpen access as is
Open access as is
 
Как и где искать открытые данные?
Как и где искать открытые данные?Как и где искать открытые данные?
Как и где искать открытые данные?
 
Дата-экспедиции. Data Expeditions
Дата-экспедиции. Data ExpeditionsДата-экспедиции. Data Expeditions
Дата-экспедиции. Data Expeditions
 
Data expedition
Data expeditionData expedition
Data expedition
 
Data Expeditions Eduthon
Data Expeditions EduthonData Expeditions Eduthon
Data Expeditions Eduthon
 
Анализ 
и визуализация данных
Анализ 
и визуализация данныхАнализ 
и визуализация данных
Анализ 
и визуализация данных
 
Data management syllabus
Data management syllabusData management syllabus
Data management syllabus
 
Data journalist
Data journalistData journalist
Data journalist
 
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
 
FREYA project
FREYA projectFREYA project
FREYA project
 
How to become a Data Scientist
How to become a Data Scientist How to become a Data Scientist
How to become a Data Scientist
 
Вебинар по статистике
Вебинар по статистикеВебинар по статистике
Вебинар по статистике
 
Программа CATT
Программа CATTПрограмма CATT
Программа CATT
 
Introduction to Data Journalism
Introduction to Data JournalismIntroduction to Data Journalism
Introduction to Data Journalism
 
Introduction to Open Data
Introduction to Open DataIntroduction to Open Data
Introduction to Open Data
 
Open Data hackathons in Russia
Open Data hackathons in RussiaOpen Data hackathons in Russia
Open Data hackathons in Russia
 
Working with Open Data
Working with Open DataWorking with Open Data
Working with Open Data
 
Introduction to Data Journalism
Introduction to Data JournalismIntroduction to Data Journalism
Introduction to Data Journalism
 
Open science as a cultural basis in Digital economy
Open science as a cultural basis in Digital economyOpen science as a cultural basis in Digital economy
Open science as a cultural basis in Digital economy
 

Предварительная подготовка данных к публикации и оценка качества открытых данных