4. К ачество данных
Данные высокого качества
это полные, точные,
своевременные данные,
которые поддаются
интерпретации
5. К ачество данных
Плохие aka «грязные» данные
содержат ошибки и
неточности, пропуски и
противоречия, могут
приводить к проблемам при
разработке аналитических
продуктов
7. Э тапы работы с данными
Сбор данных
Аудит данных
НормализацияПреобразование
Подтверждение
Сохранение
8. С бор данных
Данные могут
Появляться из совершенно
разных источников,
Быть опубликованы по
отличающимся стандартам
Иметь различные форматы
9. А удит данных
Проверяем
Наличие метаинформации о
наборе данных
Соответствие наборов данных
запланированной модели
Наличие типовых ошибок и
противоречий
10. Н ормализация данных
Заменяем все аббревиатуры и
сокращения
Приводим к единому виду даты,
номера телефонов, названия
вебсайтов
Делим данные на маскимально
атомарные части, приводим в
согласованный вид названия
всех переменных
12. П одтверждение результата
Проводим анализ результатов
преобразования
Применяем внешние источники
данных для оценки
преобразованных данных
Осуществляем новую итерацию
преобразований при
необходимости
13. С охранение данных
Определяем способ хранения
данных, проводим
нормализацию/
денормализацию данных
Определяем необходимость
обновлений
Автоматизируем процедуры
15. Т ипичные ошибки в данных
Использование разных
символов для кавычек,
апострофов и дефисов:
“„«»″"
’‘′`'
—, ‒,–,—,―, -
16. Т ипичные ошибки в данных
Использование латиницы в
украинских словах и
кириллицы в английских
ukr = "асекорхуіАСЕНКМОРТХ"
eng = "acekopxyiACEHKMOPTX"
17. Т ипичные ошибки в данных
Использование цифр вместо
букв
0 вместо О
1 вместо І
3 вместо З
6 вместо б
18. Т ипичные ошибки в данных
Использование удвоенных
пробелов, пробелов перед
началом или в конце строки
Иванов Иван Иванович
19. Т ипичные ошибки в данных
Дублирующиеся значения в
разных форматах
Иванов Николай Иванович
Иванов Н. И.
Н. И. Иванов
Иванов Н. И. Н. И.
20. Т ипичные ошибки в данных
Разные форматы дат, чисел
12 января 2012 года
2012-01-12
12/01/2012
01/12/2012
12.01.2012
1326326400
21. Т ипичные ошибки в данных
Ошибки и опечатки, сокращения
ВУЛ.
ВУЛИЦЯ
ВУЛИЦИЦЯ
ВУ3ЛИЦЯ
ВУЛИ2ЦЯ
ВУЛИЦФЯ
22. Т ипичные ошибки в данных
Потеря ведущих нулей
01042345
1042345
00004123
4123
23. Т ипичные ошибки в данных
Некорректные значения
- -
ААААААААА ААААААААА
Не існує
123456789їїї
24. Т ипичные ошибки в данных
Значения, вставленные не в
соответствующее поле
Несоответствие метаданным
Нарушение зависимостей
Аномальные значения
Некорректные записи
пропущенных значений
26. И нструменты для очистки
OpenRefine
Talend
Drake
DataWrangler
DataCleaner
DQS
Oceanos
27. И нструменты для очистки
Оптимально использовать свои алгоритмы, основанные на
Статистических методах и машинном обучении
Строчных расстояниях (Ливенштейн, Джаро-Винклер)
Регулярных выражениях
29. И нструменты для очистки
Тщательно документируйте
все операции, которые вы
проводите над данными.
Оптимально хранить и
регулярно использовать
один и тот же алгоритм
преобразования данных.