10 Critical Mistakes in Data Analysis

10 основных ошибок,
которые нельзя допускать
в анализе данных
Константин Обухов
Data Scientist в компании CleverDATA
Презентация для ИТ-лектория
НИУ ВШЭ
02.03.2015

Немного о CleverDATA
Развитие бизнеса
на международном
рынке с 2012 года
Входит в тройку
лидеров российских ИТ компаний
43 подразделения в России и за
рубежом
Более 5500 сотрудников
100 тыс.проектов для 10 тыс.заказчиков
Инновационная платформа
управления данными
«Биржа» данных
Облачный сервис
Открытые технологии
Создана в 2014 г.
Фокус на работе с «Big Data»
Собственные центры разработки
Партнерство с мировыми лидерами
и научными институтами
Центр экспертизы по
технологиям Big Data и
Digital Marketing

Мы знаем все о больших данных и их обработке
ВЫСОКАЯ СКОРОСТЬ
БОЛЬШОЙ ОБЪЕМ
ЗНАЧИТЕЛЬНАЯ ВАРИАТИВНОСТЬ
Web логи
Финансовые транзакции
Социальные сети
Web контент
Машинные данные
Открытые данные
Hadoop
MPP (Vertica, Exadata, Greenplum,
Teradata)
NoSQL (Key-Value, Document-
oriented, Column-based, Graph-
oriented)
In-memory Data Grids, Calculation
Grids
Data Mining
Machine Learning / Statistics / Natural
Language Processing
Event-Stream Processing
Ценность данных в том, как вы их
анализируете и применяете для развития
своего бизнеса
Понимание клиента и его поведения
Информационная безопасность
Управление рисками
Повышение операционной эффективности
“Потенциал Big Data раскрывается в полной мере при взаимодействии с
другими данными корпорации.” Билл Фрэнкс.

Задача
• В городе проживает миллион человек
• 200 из них заболели неизвестным вирусом
• Изобретен тест на наличие болезни с точностью 97%
Вопрос:
Какая вероятность, что вы заболели, если тест дал положительный результат?
3) 0.64%
0.64%
1) 97%
2) 32.14%

Решение
1 000 000
200
999 800
194
6
29 994
969 806
Больные
Здоровые
Тест положительный
Тест отрицательный
Тест отрицательный
Тест положительный
0.64%

Ошибки I и II рода
Наличие болезни
Результаттеста
Больной Здоровый
Положительный
194
True
Positives
29 994
False
Positives
Отрицательный
6
False
Negatives
969 806
True
Negatives
Ошибка I рода
Ошибка II рода

Априорные и апостериорные
вероятности
Prior PosteriorТест

Снова теорема Байеса
Необходимо делать поправку на априорные вероятности
Результат наблюдений
правдоподобие

Пример с Amazon
Likelihood
Prior

10 основных ошибок, которые нельзя
допускать в анализе данных
1. Опускать поправку на априорные распределения

Где логика?
1. У бедных нет телефона
2. У бедных нет машины
Фактически нет
данных из района для
бедных
Данные по богатым
Данные по бедным

Вот это поворот
1. У бедных нет телефона
2. Бедные голосуют за Трумэна
Фактически нет
данных по бедным
избирателям
Голоса за Дьюи
по обзвону
Голоса за Трумэна
по обзвону

2. Использовать для анализа неслучайную выборку

Bias Sample
Выборка
1 Выборка
2
Выборка
3
Все данные
• Данные для анализа нужно выбирать
случайно из генеральной совокупности
• Проверять гипотезу нужно на
контрольных данных – тоже выбранных
случайно из всего множества

Как убедиться в том, что выборка случайная?
Dataset 1: { f1 ; f2 ; f3 ;…; fn } R(M x N)
Dataset 2: { f1 ; f2 ; f3 ;…; fn } R(M x N)
Признаки в обоих выборках должны принадлежать одному распределению
хорошо плохо

Как посчитать функцию распределения
Закон Больших Чисел:
X = rnorm(100,10,1)
Y = rnorm(100,10,2)
X = rnorm(100,10,1)
Y = rnorm(100,9.9,1.1)

Количественная оценка степени различия
Критерий Колмогорова - Смирнова

Чем отличаются эти данные?
x y
1 -1.0 0.0
2 -0.8 0.6
3 -0.6 0.8
4 -0.4 0.9
5 -0.2 1.0
6 0.0 1.0
7 0.2 1.0
8 0.4 0.9
9 0.6 0.8
10 0.8 0.6
11 1.0 0.0
12 -1.0 0.0
13 -0.8 -0.6
14 -0.6 -0.8
15 -0.4 -0.9
16 -0.2 -1.0
17 0.0 -1.0
18 0.2 -1.0
19 0.4 -0.9
20 0.6 -0.8
21 0.8 -0.6
22 1.0 0.0
x y
1 -1.0 -1.0
2 -0.8 -0.8
3 -0.6 -0.6
4 -0.4 -0.4
5 -0.2 -0.2
6 0.0 0.0
7 0.2 0.2
8 0.4 0.4
9 0.6 0.6
10 0.8 0.8
11 1.0 1.0
12 -1.0 1.0
13 -0.8 0.8
14 -0.6 0.6
15 -0.4 0.4
16 -0.2 0.2
17 0.0 0.0
18 0.2 -0.2
19 0.4 -0.4
20 0.6 -0.6
21 0.8 -0.8
22 1.0 -1.0
x y
1 -3.1 0.0
2 -2.8 -0.3
3 -2.5 -0.5
4 -2.1 -0.8
5 -1.8 -1.0
6 -1.5 -1.0
7 -1.2 -0.9
8 -0.9 -0.8
9 -0.6 -0.6
10 -0.3 -0.3
11 0.0 0.0
12 0.3 0.3
13 0.6 0.6
14 0.9 0.8
15 1.2 1.0
16 1.5 1.0
17 1.8 0.9
18 2.1 0.8
19 2.5 0.6
20 2.8 0.3
21 3.1 0.0
22 1.0 -1.0

Вот чем
Графики наилучшим образом представляют данные

3. Неверная визуализация

Как не следует строить графики

Как вообще не следует строить
графики

Выборы представителей Великобритании в
Европарламент 2009 г.

Почему круговые диаграммы это зло
Невозможно сравнивать абсолютные значения

Восприимчивость к размеру

Невозможно анализировать комбинированные значения

4. Считать корреляцию причинной связью

Вопрос
Где корреляция больше?
1) У красного графика
2) У синего графика
3) В целом поровну
В целом поровну

Что такое корреляция

Примеры странных корреляций

Корреляция как следствие третьего фактора
Корреляция не подразумевает причинной связи

Как узнать, где причина, а где следствие?
Тест Грэнджера на причинностьКоличество куриц в момент t
Количество яиц в момент времени t
Гипотеза 1: x не является причиной y
Гипотеза 2: y не является причиной x

Проверка на данных
Яйцо появилось раньше

Машинное обучение
Машинное обучение изучает
методы построения моделей
и алгоритмов, способных
обучаться на данных
Данные Алгоритм Модель

Supervised Learning
• Необходимо задать обучающую выборку –
набор данных признаки : результат
• Алгоритм применяется для распознавания
неизвестных объектов
Классификация Регрессия

Unsupervised Learning
• Для обучения нужна выборка только
признаков
• Алгоритм применяется для обнаружения
взаимосвязей и закономерностей между
объектами
Кластеризация Поиск ассоциативных
правил

5. Неверно выбранная целевая переменная

Прогнозирование оттока клиентов
• Необходимо выявить клиентов, которые с большой вероятностью прекратят
взаимодействие с компанией
• Предиктивная модель обучается на уже ушедших клиентах, ищет признаки оттока
• Каждому клиенту сопоставляется вероятность уйти в отток через какой-то промежуток
времени

«Идеальная» модель оттока
Точность прогнозирования составляет 98.2%
Экономическая эффективность отсутствует

Моделирование отклика на предложение
Подход «от продукта» Подход «от клиента»

Матрица отклика
Клиент ID
Продукт А Продукт B Продукт C Продукт D
SMS Звонок E-mail SMS Звонок E-mail SMS Звонок E-mail
1626 60% 80% 45% 20% 30% 10% 15% 25% 70%
2832 50% 60% 35% 80% 90% 85% 55% 60% 60%
2515 75% 80% 50% 10% 15% 5% 60% 70% 50%
9010 20% 25% 25% 10% 30% 10% 85% 90% 40%
7812 30% 35% 30% 50% 60% 55% 90% 95% 20%
3511 60% 50% 60% 10% 30% 20% 40% 60% 80%
6266 55% 65% 35% 25% 25% 15% 60% 75% 25%
1842 25% 35% 20% 50% 50% 45% 55% 50% 85%

Отклик и прибыль
Клиент ID
Кампании
Кампания 1 Кампания 2 Кампания 3
1626 100р.
60%
120р.
35%
80р.
40%
2832 50р.
60%
30р.
50%
35р.
60%
2515 80р.
60%
130р.
70%
100р.
20%
9010 60р.
35%
25р.
90%
40р.
60%
7812 80р.
55%
110р.
60%
115р.
40%
3511 125р.
65%
50р.
50%
140р.
70%
При построении модели необходимо
учитывать условия, в которых ей
придется работать
Высокая вероятность отклика
не гарантирует высокую эффективность

6. Допускать переобучение модели

Регрессионная задача
Аппроксимация полиномом степени М
Минимизация среднеквадратичной ошибки

Точность растет при увеличении М
Переобучение
У переобученной модели очень низкая
точность на тестовой выборке

Задача – минимизация ошибки на тесте
Переобучение

Переобучение уменьшается при
увеличении объема выборки
Чем больше данных, тем сложнее модель
можно построить

Еще раз теорема Байеса
Априорная вероятность
(до наблюдения)
Эффект наблюдаемых данных
Апостериорная вероятность
(после наблюдения)
Функция правдоподобия описывает насколько вероятны наблюдаемые
данные при различных значениях весов w

Регуляризация для предотвращения
переобучения модели

Как подобрать нужные параметры модели
Тюнинг модели заключается в подборе таких параметров
λ и M, при которых ошибка на тестовой выборке
минимальная – кросс-валидация

7. Оставить выбросы и шумы в данных

X
16,24
26,72
12,76
34,67
17,82
23,73
23,46
72,15
21,23
93,24
10,12
3,16
26,72
25,51
27,11
24,17
44,24
27,88
51,23
80,22
1,41
17,13
Какая величина наилучшим образом
описывает эти данные?
Среднее 30,95
Медиана 24,84
X
93,24
80,22
72,15
51,23
44,24
34,67
27,88
27,11
26,72
26,72
25,51
24,17
23,73
23,46
21,23
17,82
17,13
16,24
12,76
10,12
3,16
1,41
3QR
MED
1QR

Задача поиска аномалий
Аномалии – это те события или наблюдения, которые не соответствуют
ожидаемому паттерну других событий в данных
• Intrusion detection
• Fraud detection
• Fault detection
• System monitoring
• Event detection
• Data preprocessing
Очистка от шумов позволяет значительно увеличить
точность предиктивной модели

Задача прогнозирования сбоев в работе
различных систем

4 этапа построения модели
1. Необходимо правильно обработать данные
• Модель структурирования потоковых данных позволяет извлечь из
машинных данных важные признаки
• Без обработки данных увеличивается погрешность прогнозирования
Паттерн сбоя
До обработки После обработки

4 этапа построения модели
2. Необходимо найти сбои в исторических данных
• Для того, чтобы прогнозировать сбои в
будущем, необходимо «обучиться» на
прошлых ошибках.
• Вероятностная модель определяет сбои как
значимые отклонения от нормального
состояния работы систем (one class SVM)
Детектирование значимых отклонений от нормы

Подход к решению
3. Выявление значимых признаков сбоев
• Выявив сбои, необходимо автоматически
найти причины их возникновения
• Методы корреляционного анализа позволяют
найти причины прошедших сбоев
Корреляционная матица признаков сбоев

Подход к решению
4. Построение предиктивной модели
Прошлые наблюдения Будущая вероятность сбоя
Триггеры (предикторы)
ошибок
• Модель обучается на исторических данных, сопоставляя прошлым
наблюдениям будущую вероятность сбоя в различных временных интервалах
• В реальном времени модель отслеживает показатели систем и триггеры
ошибок, рассчитывая будущую вероятность сбоя

8. Неверно разделить исследование и оптимизацию

Снова ошибки I и II рода
Реальность
Гипотеза
Верная Неверная
Верна
True
Positives
False
Positives
Неверна
False
Negatives
True
Negatives
Exploration
Error
Exploitation
Error

Где же грань?
Exploration
Exploitation
t
Исследование
Оптимизация

9. Делать поспешные выводы

Insight не означает конец исследования
Exploration
Exploitation
t
Исследование
Оптимизация
Insight

Почему нельзя делать поспешные выводы

Основные этапы построения
предиктивных моделей
Data
Preprocessing
Feature
Engineering
Feature
Selection
Machine Learning
Back Testing
• Необходимая обработка данных: очистка шумов, выбросов.
Приведение данных к нормальному виду
• Генерация факторов и признаков в модели.
Поиск скрытых паттернов
• Выбор предикторов, выявление
значимых закономерностей
• Построение модели алгоритмами
машинного обучения, тюнинг модели
• Тестирование модели на реальных данных

10. Выбор неправильного инструмента для анализа

Какой инструмент лучше?
Сложностьиспользования
Возможности в анализе данных

1. Опускать поправку на априорные распределения
2. Использовать для анализа неслучайную выборку
3. Неверная визуализация
4. Считать корреляцию причинной связью
5. Неверно выбранная целевая переменная
6. Допускать переобучение модели
7. Оставить выбросы и шумы в данных
8. Неверно разделить исследование и оптимизацию
9. Делать поспешные выводы
10. Выбор неправильного инструмента для анализа
Вопросы?

Спасибо за внимание!

+7 (495) 967-66-50
info@cleverdata.ru
cleverdata.ru
facebook.com/CleverData

10 Critical Mistakes in Data Analysis

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (17)

Similar to 10 Critical Mistakes in Data Analysis

Similar to 10 Critical Mistakes in Data Analysis (20)

More from CleverDATA

More from CleverDATA (20)

10 Critical Mistakes in Data Analysis