1. Харьковский национальный университет имени В. Н. Каразина
Факультет компьютерных наук
ИНТЕЛЛЕКТУАЛЬНЫЙ
АНАЛИЗ ДАННЫХ
Data Mining
Подготовил:
доцент каф. искусственного интеллекта и программного обеспечения,
к.ф.-м. н. Гахов Андрей Владимирович
2014/2015 уч. год
4. ДИАПАЗОН, КВАРТИЛИ И МЕЖКВАРТИЛЬНЫЙ ДИАПАЗОН
• Пусть x1, x2, … xN - множество значений
(наблюдений) численного атрибута x
• Диапазоном называется разница между
наибольшим и наименьшим значением
• Квантилями называется множество точек
распределения, которые разбивают его на
равные подмножества
5. • k-я q-квантиль (0<k<q) для заданного
распределения данных - это некоторое значение
x, такое что k/q значений меньше x, и (q-k)/q
значений больше x
• Всего существует (q-1) q-квантилей
• 2-квантиль разделяет данные на 2 равные части
и соответствует медиане
• 4-квантили - это 3 точки, разделяющие данные
на 4 равные части, называющиеся квартилями
6. • p-я перцентиль - это квантиль уровня q = p/100 (т.е.
перцентили разбивают данные на 100 равных частей)
• медиана (2-квантиль, Q2 ) является 50-ой
перцентилью, а первый квартиль (Q1) и третий
квартиль (Q3) являются 25-ой и 75-ой перцентилями,
соответственно.
Q1 Q2 Q3
25%
25-я перцентиль медиана 75-я перцентиль
7. • Расстояние между первым и третим квантилями называется
межквартильный диапазон (IQR) - простейшая мера
разброса данных, которая задает диапазон, покрывающий
среднюю половину данных:
IQR = Q3 - Q1
• Пример: пусть атрибут зарплата принимает следующие
значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0,
11.0
• Данные в примере уже отсортированы по возрастанию,
поэтому квартилями выступают 3-й, 6-й и 9-й элементы:
Q1=4700, Q2=5200, Q3=6300.
• Межквартильный диапазон равен Q3 - Q1 = 6300 - 4700 = 1600
8. ПЯТИ-ЧИСЛОВАЯ СВОДКА
• 5-числовая сводка (предложена Дж. Тьюки) -
один из способов краткого представления
выборки и состоит из:
• медианы (Q2)
• первого (Q1) и третьего (Q3) квартилей
• наименьшего (min) и наибольшего (max)
значений
9. ПРОБЛЕМЫ АСИММЕТРИЧНЫХ РАСПРЕДЕЛЕНИЙ
• Для асимметрических данных IQR не может в полной
мере характеризовать разброс, однако применяется для
выявления аномалий (аутлаеров), которыми считаются
значения располагающиеся на 1.5 • IQR выше третьего
или ниже первого квартиля
• Меры центральной тенденции (медиана и т.п.) не
разбивают данные на равные половины
• 5-числовая оценка позволяет в полной мере оценить
ц е н т р а л ь н ую т е н д е н ц ию и р а з б р о с и д л я
асиметрических распределений
10. ДИСПЕРСИЯ И СТАНДАРТНЫЙ РАЗБРОС
• Дисперсия (отклонение) N наблюдений
x1, x2, … xN для числового атрибута x это величина
!
N 1N¯
N ¯ ) - ¯x2
σ2= Σ(xi - x)2 =
i=1
(1N¯
Σ xi 2
i=1
• где ¯x
- среднее значение атрибута
• Величина σ называется среднеквадратическим
отклонением (стандартным разбросом)
• Дисперсия и среднеквадратическое отклонение
характеризуют разброс данных атрибута
11. Основные свойства среднеквадратического
отклонения:
• σ измеряет отклонение данных от среднего
значения и его имеет смысл рассматривать
только, если среднее выбрано в качестве меры
центра
• σ > 0
• σ = 0 только когда нет отклонения (т.е. когда
все данные имеют одинаково значение)
12. • Пример: пусть атрибут зарплата принимает
следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2,
5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0
• Ранее мы вычислили среднее значение для
данного атрибута, равное 5.8
• Т а к и м о б р а з о м , д и с п е р с и я и
среднеквадратическое отклонение будут равны
σ2 = (3.02 + 3.62 + … + 11.02) - 5.8 ≈ 37.914
12
σ ≈ 1.947
14. Q-Q ГРАФИК
• Квантиль-Квантиль график (Q-Q график) отображает
квантили одного распределения в сравнении с
соответствующими квантилями другого распределения
• точке (х, у) на графике соответствует один из квантилей
второго распределения (у-координата), построенная
вместе с аналогичним квантилем первого распределения
(х-координата).
• линия на Q-Q графике является параметрической кривой
с параметром, равным количеству интервалом для
квантилей
15. • Пусть x1, x2, … xN - значения числового атрибута x и
y1, y2, … yM для числового атрибута y (все значения
отсортированы в порядке возрастания)
• Если M = N, тогда просто наносим точки (xi, yi),
где xi, yi уже являются (i-0.5)/N квантилями
соответствующих наборов данных
• Если M < N, тогда в графике может быть только M
точек. Здесь yi уже является (i-0.5)/M квантилем, а
для данных атрибута x необходимо вычислить
(i-0.5)/M квантиль
16. ПРИМЕР: АНАЛИЗ Q-Q ГРАФИКА
• Рассмотрим q-q график для атрибута средняя цена проданного товара
для двух филиалов одной компании за некоторый период времени
• Для Q1 средняя цена для филиала 1 меньше, чем для филиала 2 => 25%
проданного товара филиалом 1 меньше или равно 60 грн, в то время
как 25% проданных товаров филиалом 2 меньше или равно 64 грн
• Общий тренд показывает, что средняя цена проданного товара в
филиале 1 меньше, чем в филиале 2
120
Филиал 1 (цена в грн) 40
104
88
72
56
40 48 56 64 72 80 88 96 104 112 120
Филиал 2 (цена в грн)
Q1
Q2
Q3
17. ГИСТОГРАММА
• Для построения гистограммы для некоторого
численного атрибута его диапазон значений
р а з д е л я е т с я н а н е к о т о р ы й н а б о р
непресекающихся равных поддиапазонов
(интервалов группировки)
• Дл я к аждого инт ерв а л а группиров ки
вычисляется и отображается на графике
количество значений, попавших в данный
интервал
19. BOXPLOT (ЯЩИЧКОВАЯ ДИАГРАММА)
• График “ящичковая диаграмма” (ящик с усами или box-and-whiskers
diagram) был разработан Джоном Тьюки в 70-х
годах.
• Ящичковая диаграмма - это быстрый способ визуального
представления 5-числовой сводки:
• Начинается и заканчивается “ящик” в первом и третьем
квартилях, т.е. его высота равна межквартильному
диапазону
• Медиана отмечена линией на “ящике”
• Две линии вне “ящика” (называются whiskers или усы)
отображают минимальное и максимальное значение,
принимаемое атрибутом
21. ДИАГРАММА РАССЕЯНИЯ
• Диаграмма рассеяния (scatter plot, точечная
диаграмма) изображает значения двух переменных в
виде точек на декартовой плоскости
• Каждая точка диаграммы рассеяния имеет координаты
(в декартовой системе координат), равные значениям
двух выбранных для изучения атрибутов
• Диаграммы рассеяния - это самый простой способ
поиска кластеров, аномалий, а также возможной
корреляции значений атрибутов
22. • Два атрибута называются коррелирующими между
собой, если один атрибут влияет на другой (например,
один атрибут всегда убывает, когда другой растет)
атрибут 2
20
15
10
5
0
0 3 6 9 12
атрибут 1
атрибут 2
20
15
10
5
0
0 3 6 9 12
атрибут 1
положительная корреляция отрицательная корреляция
24. ПРИМЕР: ДИАГРАММА РАССЕЯНИЯ
• Рассмотрим два атрибута зарплата и стаж работы.
Атрибут зарплата принимает следующие значения (тыс.
грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0, а
соответствующие значения атрибута стаж работы (лет)
есть: 4, 5, 6, 7, 7, 8, 8,10, 10, 15,12, 18
Стаж (лет)
18
14
10
6
2
2 4,25 6,5 8,75 11
Зарплата (тыс. грн)
Наблюдается положительная корреляция
(т.е. чем выше стаж работы, тем выше зарплата)
25. ЗАДАНИЯ
• Значения атрибутов рост (см) и вес (кг) для студентов группы
представлены в таблице:
рост вес рост вес рост вес рост вес рост вес
185 77 163 68 173 82 193 70 175 83
170 66 188 82 180 84 183 79 165 66
183 75 185 74 178 100 175 77 178 67
183 77 165 61 183 84 183 70 188 95
175 76 185 77 188 84 185 76 178 63
!
!
!
• Необходимо:
• построить Q-Q график
• построить гистограмму для каждого из атрибутов
• построить ящичковую диаграмму для каждого из атрибутов и
разместить их на одном графике
• построить диаграмму рассеяния и указать на наличие или
отсутствие корреляции между атрибутами