О чем будем говорить?
Качество данных и грязные данные
Этапы работы с данными
Типичные ошибки в данных
Особенности процесса очистки
К ачество
Д анных
К ачество данных
Данные высокого качества
это полные, точные,
своевременные данные,
которые поддаются
интерпретации
К ачество данных
Плохие aka «грязные» данные
содержат ошибки и
неточности, пропуски и
противоречия, могут
приводить к проблемам при
разработке аналитических
продуктов
Э тапы
Р аботы с данными
Э тапы работы с данными
Сбор данных
Аудит данных
НормализацияПреобразование
Подтверждение
Сохранение
С бор данных
Данные могут
Появляться из совершенно
разных источников,
Быть опубликованы по
отличающимся стандартам
Иметь различные форматы
А удит данных
Проверяем
Наличие метаинформации о
наборе данных
Соответствие наборов данных
запланированной модели
Наличие типовых ошибок и
противоречий
Н ормализация данных
Заменяем все аббревиатуры и
сокращения
Приводим к единому виду даты,
номера телефонов, названия
вебсайтов
Делим данные на маскимально
атомарные части, приводим в
согласованный вид названия
всех переменных
П реобразование данных
Определяем
последовательность
преобразований
Группируем типовые
преобразования
Документируем каждый этап
преобразования данных
П одтверждение результата
Проводим анализ результатов
преобразования
Применяем внешние источники
данных для оценки
преобразованных данных
Осуществляем новую итерацию
преобразований при
необходимости
С охранение данных
Определяем способ хранения
данных, проводим
нормализацию/
денормализацию данных
Определяем необходимость
обновлений
Автоматизируем процедуры
Т иповые
О шибки
В данных
Т ипичные ошибки в данных
Использование разных
символов для кавычек,
апострофов и дефисов:
“„«»″"
’‘′`'
—, ‒,–,—,―, -
Т ипичные ошибки в данных
Использование латиницы в
украинских словах и
кириллицы в английских
ukr = "асекорхуіАСЕНКМОРТХ"
eng = "acekopxyiACEHKMOPTX"
Т ипичные ошибки в данных
Использование цифр вместо
букв
0 вместо О
1 вместо І
3 вместо З
6 вместо б
Т ипичные ошибки в данных
Использование удвоенных
пробелов, пробелов перед
началом или в конце строки
Иванов Иван Иванович
Т ипичные ошибки в данных
Дублирующиеся значения в
разных форматах
Иванов Николай Иванович
Иванов Н. И.
Н. И. Иванов
Иванов Н. И. Н. И.
Т ипичные ошибки в данных
Разные форматы дат, чисел
12 января 2012 года
2012-01-12
12/01/2012
01/12/2012
12.01.2012
1326326400
Т ипичные ошибки в данных
Ошибки и опечатки, сокращения
ВУЛ.
ВУЛИЦЯ
ВУЛИЦИЦЯ
ВУ3ЛИЦЯ
ВУЛИ2ЦЯ
ВУЛИЦФЯ
Т ипичные ошибки в данных
Потеря ведущих нулей
01042345
1042345
00004123
4123
Т ипичные ошибки в данных
Некорректные значения
- -
ААААААААА ААААААААА
Не існує
123456789їїї
Т ипичные ошибки в данных
Значения, вставленные не в
соответствующее поле
Несоответствие метаданным
Нарушение зависимостей
Аномальные значения
Некорректные записи
пропущенных значений
О собенности
О чистки данных
И нструменты для очистки
OpenRefine
Talend
Drake
DataWrangler
DataCleaner
DQS
Oceanos
И нструменты для очистки
Оптимально использовать свои алгоритмы, основанные на
Статистических методах и машинном обучении
Строчных расстояниях (Ливенштейн, Джаро-Винклер)
Регулярных выражениях
Р егулярные выражения
(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:.[a-z0-
9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[x01-x08x0bx0cx0e-
x1fx21x23-x5bx5d-x7f]|[x01-x09x0bx0cx0e-
x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?.)+[a-z0-
9](?:[a-z0-9-]*[a-z0-9])?|[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-
9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-
]*[a-z0-9]:(?:[x01-x08x0bx0cx0e-x1fx21-x5ax53-
x7f]|[x01-x09x0bx0cx0e-x7f])+)])
General Email Regex (RFC 5322 Official Standard)
И нструменты для очистки
Тщательно документируйте
все операции, которые вы
проводите над данными.
Оптимально хранить и
регулярно использовать
один и тот же алгоритм
преобразования данных.
В опросы?

Очистка "грязных" данных