SlideShare a Scribd company logo
1 of 25
Download to read offline
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 2 
Узнаем больше о своих данных. Часть 2
ИЗМЕРЕНИЕ РАЗБРОСА 
ДАННЫХ
ДИАПАЗОН, КВАРТИЛИ И МЕЖКВАРТИЛЬНЫЙ ДИАПАЗОН 
• Пусть x1, x2, … xN - множество значений 
(наблюдений) численного атрибута x 
• Диапазоном называется разница между 
наибольшим и наименьшим значением 
• Квантилями называется множество точек 
распределения, которые разбивают его на 
равные подмножества
• k-я q-квантиль (0<k<q) для заданного 
распределения данных - это некоторое значение 
x, такое что k/q значений меньше x, и (q-k)/q 
значений больше x 
• Всего существует (q-1) q-квантилей 
• 2-квантиль разделяет данные на 2 равные части 
и соответствует медиане 
• 4-квантили - это 3 точки, разделяющие данные 
на 4 равные части, называющиеся квартилями
• p-я перцентиль - это квантиль уровня q = p/100 (т.е. 
перцентили разбивают данные на 100 равных частей) 
• медиана (2-квантиль, Q2 ) является 50-ой 
перцентилью, а первый квартиль (Q1) и третий 
квартиль (Q3) являются 25-ой и 75-ой перцентилями, 
соответственно. 
Q1 Q2 Q3 
25% 
25-я перцентиль медиана 75-я перцентиль
• Расстояние между первым и третим квантилями называется 
межквартильный диапазон (IQR) - простейшая мера 
разброса данных, которая задает диапазон, покрывающий 
среднюю половину данных: 
IQR = Q3 - Q1 
• Пример: пусть атрибут зарплата принимает следующие 
значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 
11.0 
• Данные в примере уже отсортированы по возрастанию, 
поэтому квартилями выступают 3-й, 6-й и 9-й элементы: 
Q1=4700, Q2=5200, Q3=6300. 
• Межквартильный диапазон равен Q3 - Q1 = 6300 - 4700 = 1600
ПЯТИ-ЧИСЛОВАЯ СВОДКА 
• 5-числовая сводка (предложена Дж. Тьюки) - 
один из способов краткого представления 
выборки и состоит из: 
• медианы (Q2) 
• первого (Q1) и третьего (Q3) квартилей 
• наименьшего (min) и наибольшего (max) 
значений
ПРОБЛЕМЫ АСИММЕТРИЧНЫХ РАСПРЕДЕЛЕНИЙ 
• Для асимметрических данных IQR не может в полной 
мере характеризовать разброс, однако применяется для 
выявления аномалий (аутлаеров), которыми считаются 
значения располагающиеся на 1.5 • IQR выше третьего 
или ниже первого квартиля 
• Меры центральной тенденции (медиана и т.п.) не 
разбивают данные на равные половины 
• 5-числовая оценка позволяет в полной мере оценить 
ц е н т р а л ь н ую т е н д е н ц ию и р а з б р о с и д л я 
асиметрических распределений
ДИСПЕРСИЯ И СТАНДАРТНЫЙ РАЗБРОС 
• Дисперсия (отклонение) N наблюдений 
x1, x2, … xN для числового атрибута x это величина 
! 
N 1N¯ 
N ¯ ) - ¯x2 
σ2= Σ(xi - x)2 = 
i=1 
(1N¯ 
Σ xi 2 
i=1 
• где ¯x 
- среднее значение атрибута 
• Величина σ называется среднеквадратическим 
отклонением (стандартным разбросом) 
• Дисперсия и среднеквадратическое отклонение 
характеризуют разброс данных атрибута
Основные свойства среднеквадратического 
отклонения: 
• σ измеряет отклонение данных от среднего 
значения и его имеет смысл рассматривать 
только, если среднее выбрано в качестве меры 
центра 
• σ > 0 
• σ = 0 только когда нет отклонения (т.е. когда 
все данные имеют одинаково значение)
• Пример: пусть атрибут зарплата принимает 
следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 
5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0 
• Ранее мы вычислили среднее значение для 
данного атрибута, равное 5.8 
• Т а к и м о б р а з о м , д и с п е р с и я и 
среднеквадратическое отклонение будут равны 
σ2 = (3.02 + 3.62 + … + 11.02) - 5.8 ≈ 37.914 
12 
σ ≈ 1.947
ВИЗУАЛИЗАЦИЯ ДАННЫХ
Q-Q ГРАФИК 
• Квантиль-Квантиль график (Q-Q график) отображает 
квантили одного распределения в сравнении с 
соответствующими квантилями другого распределения 
• точке (х, у) на графике соответствует один из квантилей 
второго распределения (у-координата), построенная 
вместе с аналогичним квантилем первого распределения 
(х-координата). 
• линия на Q-Q графике является параметрической кривой 
с параметром, равным количеству интервалом для 
квантилей
• Пусть x1, x2, … xN - значения числового атрибута x и 
y1, y2, … yM для числового атрибута y (все значения 
отсортированы в порядке возрастания) 
• Если M = N, тогда просто наносим точки (xi, yi), 
где xi, yi уже являются (i-0.5)/N квантилями 
соответствующих наборов данных 
• Если M < N, тогда в графике может быть только M 
точек. Здесь yi уже является (i-0.5)/M квантилем, а 
для данных атрибута x необходимо вычислить 
(i-0.5)/M квантиль
ПРИМЕР: АНАЛИЗ Q-Q ГРАФИКА 
• Рассмотрим q-q график для атрибута средняя цена проданного товара 
для двух филиалов одной компании за некоторый период времени 
• Для Q1 средняя цена для филиала 1 меньше, чем для филиала 2 => 25% 
проданного товара филиалом 1 меньше или равно 60 грн, в то время 
как 25% проданных товаров филиалом 2 меньше или равно 64 грн 
• Общий тренд показывает, что средняя цена проданного товара в 
филиале 1 меньше, чем в филиале 2 
120 
Филиал 1 (цена в грн) 40 
104 
88 
72 
56 
40 48 56 64 72 80 88 96 104 112 120 
Филиал 2 (цена в грн) 
Q1 
Q2 
Q3
ГИСТОГРАММА 
• Для построения гистограммы для некоторого 
численного атрибута его диапазон значений 
р а з д е л я е т с я н а н е к о т о р ы й н а б о р 
непресекающихся равных поддиапазонов 
(интервалов группировки) 
• Дл я к аждого инт ерв а л а группиров ки 
вычисляется и отображается на графике 
количество значений, попавших в данный 
интервал
ПРИМЕР: ГИСТОГРАММА 
• пусть атрибут зарплата принимает следующие 
значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 
6.3, 7.0, 7.0, 11.0 
Количество зарплат (шт.) 
4 
3 
2 
1 
0 
3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11 11-12 
зарплата (тыс. грн)
BOXPLOT (ЯЩИЧКОВАЯ ДИАГРАММА) 
• График “ящичковая диаграмма” (ящик с усами или box-and-whiskers 
diagram) был разработан Джоном Тьюки в 70-х 
годах. 
• Ящичковая диаграмма - это быстрый способ визуального 
представления 5-числовой сводки: 
• Начинается и заканчивается “ящик” в первом и третьем 
квартилях, т.е. его высота равна межквартильному 
диапазону 
• Медиана отмечена линией на “ящике” 
• Две линии вне “ящика” (называются whiskers или усы) 
отображают минимальное и максимальное значение, 
принимаемое атрибутом
ПРИМЕР: BOXPLOT 
• пусть атрибут возраст принимает следующие 
значения: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 
25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70 
70.0 
35.0 
25.0 
20.5 
13.0 
возраст 
5-числовая сводка: Q2=25, Q1=20.5, Q3=35, min=13, max=70
ДИАГРАММА РАССЕЯНИЯ 
• Диаграмма рассеяния (scatter plot, точечная 
диаграмма) изображает значения двух переменных в 
виде точек на декартовой плоскости 
• Каждая точка диаграммы рассеяния имеет координаты 
(в декартовой системе координат), равные значениям 
двух выбранных для изучения атрибутов 
• Диаграммы рассеяния - это самый простой способ 
поиска кластеров, аномалий, а также возможной 
корреляции значений атрибутов
• Два атрибута называются коррелирующими между 
собой, если один атрибут влияет на другой (например, 
один атрибут всегда убывает, когда другой растет) 
атрибут 2 
20 
15 
10 
5 
0 
0 3 6 9 12 
атрибут 1 
атрибут 2 
20 
15 
10 
5 
0 
0 3 6 9 12 
атрибут 1 
положительная корреляция отрицательная корреляция
атрибут 2 
12 
9 
6 
3 
0 
0 3 6 9 12 
атрибут 1 
атрибут 2 
12 
9 
6 
3 
0 
0 3 6 9 12 
атрибут 1 
атрибут 2 
Примеры: отсутствие корреляции 
9 
6,75 
4,5 
2,25 
0 
0 3 6 9 12 
атрибут 1
ПРИМЕР: ДИАГРАММА РАССЕЯНИЯ 
• Рассмотрим два атрибута зарплата и стаж работы. 
Атрибут зарплата принимает следующие значения (тыс. 
грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0, а 
соответствующие значения атрибута стаж работы (лет) 
есть: 4, 5, 6, 7, 7, 8, 8,10, 10, 15,12, 18 
Стаж (лет) 
18 
14 
10 
6 
2 
2 4,25 6,5 8,75 11 
Зарплата (тыс. грн) 
Наблюдается положительная корреляция 
(т.е. чем выше стаж работы, тем выше зарплата)
ЗАДАНИЯ 
• Значения атрибутов рост (см) и вес (кг) для студентов группы 
представлены в таблице: 
рост вес рост вес рост вес рост вес рост вес 
185 77 163 68 173 82 193 70 175 83 
170 66 188 82 180 84 183 79 165 66 
183 75 185 74 178 100 175 77 178 67 
183 77 165 61 183 84 183 70 188 95 
175 76 185 77 188 84 185 76 178 63 
! 
! 
! 
• Необходимо: 
• построить Q-Q график 
• построить гистограмму для каждого из атрибутов 
• построить ящичковую диаграмму для каждого из атрибутов и 
разместить их на одном графике 
• построить диаграмму рассеяния и указать на наличие или 
отсутствие корреляции между атрибутами

More Related Content

What's hot

Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2
Technopark
 
Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2
Technopark
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1
Technopark
 

What's hot (20)

Алгоритмы поиска
Алгоритмы поискаАлгоритмы поиска
Алгоритмы поиска
 
Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2
 
Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Основы языка R
Основы языка RОсновы языка R
Основы языка R
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
 
Лекция 2. Алгоритмы сортировки
Лекция 2. Алгоритмы сортировкиЛекция 2. Алгоритмы сортировки
Лекция 2. Алгоритмы сортировки
 
Разведочный анализ данных: создание графиков в системе R
Разведочный анализ данных: создание графиков в системе RРазведочный анализ данных: создание графиков в системе R
Разведочный анализ данных: создание графиков в системе R
 
Лекция 11. Деревья отрезков (Interval trees)
Лекция 11. Деревья отрезков (Interval trees)Лекция 11. Деревья отрезков (Interval trees)
Лекция 11. Деревья отрезков (Interval trees)
 
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
 
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
 

Viewers also liked

How effective is the combination of your main q4 eval
How effective is the combination of your main q4 evalHow effective is the combination of your main q4 eval
How effective is the combination of your main q4 eval
lferd
 
Alphaworks deck v2
Alphaworks deck v2Alphaworks deck v2
Alphaworks deck v2
alphaworks
 
resumen de investigación consultada
resumen de investigación consultadaresumen de investigación consultada
resumen de investigación consultada
manuelyunga
 
很完整的健康方案
很完整的健康方案很完整的健康方案
很完整的健康方案
honan4108
 
Universidad nacional de chimborazo(Nellyta)
Universidad nacional de chimborazo(Nellyta)Universidad nacional de chimborazo(Nellyta)
Universidad nacional de chimborazo(Nellyta)
UNACH
 
Android开发工程师必备
Android开发工程师必备Android开发工程师必备
Android开发工程师必备
mornone
 
Basic Planning Principles Of Assyrian, Egyptian, Roman and Greek Cities
Basic Planning Principles Of Assyrian, Egyptian, Roman and Greek CitiesBasic Planning Principles Of Assyrian, Egyptian, Roman and Greek Cities
Basic Planning Principles Of Assyrian, Egyptian, Roman and Greek Cities
Rajat Katarne
 

Viewers also liked (20)

Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
 
Vinsitesafe
VinsitesafeVinsitesafe
Vinsitesafe
 
How effective is the combination of your main q4 eval
How effective is the combination of your main q4 evalHow effective is the combination of your main q4 eval
How effective is the combination of your main q4 eval
 
Alphaworks deck v2
Alphaworks deck v2Alphaworks deck v2
Alphaworks deck v2
 
Bar Menus Copenhagen Spirits & Cocktailsv2
Bar Menus Copenhagen Spirits & Cocktailsv2Bar Menus Copenhagen Spirits & Cocktailsv2
Bar Menus Copenhagen Spirits & Cocktailsv2
 
resumen de investigación consultada
resumen de investigación consultadaresumen de investigación consultada
resumen de investigación consultada
 
data science in academia and the real world
data science in academia and the real worlddata science in academia and the real world
data science in academia and the real world
 
Freitas aula 4
Freitas aula 4Freitas aula 4
Freitas aula 4
 
HAPPYWEEK 186 - 2016.09.19.
HAPPYWEEK 186 - 2016.09.19.HAPPYWEEK 186 - 2016.09.19.
HAPPYWEEK 186 - 2016.09.19.
 
Synflex
SynflexSynflex
Synflex
 
Sheena Lowrie, Spaces 2012
Sheena Lowrie, Spaces 2012Sheena Lowrie, Spaces 2012
Sheena Lowrie, Spaces 2012
 
Tecnologías sociales.
Tecnologías sociales.Tecnologías sociales.
Tecnologías sociales.
 
H7
H7H7
H7
 
UM Chile - Wave 6
UM Chile - Wave 6UM Chile - Wave 6
UM Chile - Wave 6
 
很完整的健康方案
很完整的健康方案很完整的健康方案
很完整的健康方案
 
Universidad nacional de chimborazo(Nellyta)
Universidad nacional de chimborazo(Nellyta)Universidad nacional de chimborazo(Nellyta)
Universidad nacional de chimborazo(Nellyta)
 
Android开发工程师必备
Android开发工程师必备Android开发工程师必备
Android开发工程师必备
 
News Analysis - Is HP getting lean or falling apart?
News Analysis - Is HP getting lean or falling apart?News Analysis - Is HP getting lean or falling apart?
News Analysis - Is HP getting lean or falling apart?
 
Evaluation question 1 music video
Evaluation question 1 music videoEvaluation question 1 music video
Evaluation question 1 music video
 
Basic Planning Principles Of Assyrian, Egyptian, Roman and Greek Cities
Basic Planning Principles Of Assyrian, Egyptian, Roman and Greek CitiesBasic Planning Principles Of Assyrian, Egyptian, Roman and Greek Cities
Basic Planning Principles Of Assyrian, Egyptian, Roman and Greek Cities
 

Similar to Data Mining - lecture 3 - 2014

алгоритмизация
алгоритмизацияалгоритмизация
алгоритмизация
isva69
 
Задворный б.в. (минск) от идеи к исследованию
Задворный б.в. (минск)   от идеи к исследованиюЗадворный б.в. (минск)   от идеи к исследованию
Задворный б.в. (минск) от идеи к исследованию
Лёха Гусев
 
Задворный б.в. (минск) от идеи к исследованию
Задворный б.в. (минск)   от идеи к исследованиюЗадворный б.в. (минск)   от идеи к исследованию
Задворный б.в. (минск) от идеи к исследованию
Лёха Гусев
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
Khryashchev
 
Презентация на тему: Повторение курса информатики 7 класс
Презентация на тему: Повторение курса информатики 7 классПрезентация на тему: Повторение курса информатики 7 класс
Презентация на тему: Повторение курса информатики 7 класс
2berkas
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
Vladimir Tcherniak
 
2цйцйа ывавыа аыв. авывыа. ывавыа авыыва ыва
2цйцйа ывавыа аыв. авывыа.   ывавыа авыыва ыва2цйцйа ывавыа аыв. авывыа.   ывавыа авыыва ыва
2цйцйа ывавыа аыв. авывыа. ывавыа авыыва ыва
RustemBigari1
 
методические указания к практическим занятиям «показатели значений центра и р...
методические указания к практическим занятиям «показатели значений центра и р...методические указания к практическим занятиям «показатели значений центра и р...
методические указания к практическим занятиям «показатели значений центра и р...
Иван Иванов
 

Similar to Data Mining - lecture 3 - 2014 (20)

Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
 
алгоритмизация
алгоритмизацияалгоритмизация
алгоритмизация
 
Лекции по дискретной математике
Лекции по дискретной математикеЛекции по дискретной математике
Лекции по дискретной математике
 
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
Прогнозирование - Лекция 6. Использование инструментов подготовки данных и пр...
 
01 введение 2012
01 введение 201201 введение 2012
01 введение 2012
 
Сегментация изображений в компьютерной графике.ppt
Сегментация  изображений в компьютерной графике.pptСегментация  изображений в компьютерной графике.ppt
Сегментация изображений в компьютерной графике.ppt
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессияПрогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
 
Задворный б.в. (минск) от идеи к исследованию
Задворный б.в. (минск)   от идеи к исследованиюЗадворный б.в. (минск)   от идеи к исследованию
Задворный б.в. (минск) от идеи к исследованию
 
Задворный б.в. (минск) от идеи к исследованию
Задворный б.в. (минск)   от идеи к исследованиюЗадворный б.в. (минск)   от идеи к исследованию
Задворный б.в. (минск) от идеи к исследованию
 
PascalABC.NET 2015-2016
PascalABC.NET 2015-2016PascalABC.NET 2015-2016
PascalABC.NET 2015-2016
 
proverochnie-raboti-po-algebre
proverochnie-raboti-po-algebreproverochnie-raboti-po-algebre
proverochnie-raboti-po-algebre
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
КР 1 с решением
КР 1 с решениемКР 1 с решением
КР 1 с решением
 
Презентация на тему: Повторение курса информатики 7 класс
Презентация на тему: Повторение курса информатики 7 классПрезентация на тему: Повторение курса информатики 7 класс
Презентация на тему: Повторение курса информатики 7 класс
 
2
22
2
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
 
2цйцйа ывавыа аыв. авывыа. ывавыа авыыва ыва
2цйцйа ывавыа аыв. авывыа.   ывавыа авыыва ыва2цйцйа ывавыа аыв. авывыа.   ывавыа авыыва ыва
2цйцйа ывавыа аыв. авывыа. ывавыа авыыва ыва
 
методические указания к практическим занятиям «показатели значений центра и р...
методические указания к практическим занятиям «показатели значений центра и р...методические указания к практическим занятиям «показатели значений центра и р...
методические указания к практическим занятиям «показатели значений центра и р...
 

More from Andrii Gakhov

More from Andrii Gakhov (20)

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
 
DNS Delegation
DNS DelegationDNS Delegation
DNS Delegation
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. Similarity
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. Frequency
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 

Data Mining - lecture 3 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 2 Узнаем больше о своих данных. Часть 2
  • 4. ДИАПАЗОН, КВАРТИЛИ И МЕЖКВАРТИЛЬНЫЙ ДИАПАЗОН • Пусть x1, x2, … xN - множество значений (наблюдений) численного атрибута x • Диапазоном называется разница между наибольшим и наименьшим значением • Квантилями называется множество точек распределения, которые разбивают его на равные подмножества
  • 5. • k-я q-квантиль (0<k<q) для заданного распределения данных - это некоторое значение x, такое что k/q значений меньше x, и (q-k)/q значений больше x • Всего существует (q-1) q-квантилей • 2-квантиль разделяет данные на 2 равные части и соответствует медиане • 4-квантили - это 3 точки, разделяющие данные на 4 равные части, называющиеся квартилями
  • 6. • p-я перцентиль - это квантиль уровня q = p/100 (т.е. перцентили разбивают данные на 100 равных частей) • медиана (2-квантиль, Q2 ) является 50-ой перцентилью, а первый квартиль (Q1) и третий квартиль (Q3) являются 25-ой и 75-ой перцентилями, соответственно. Q1 Q2 Q3 25% 25-я перцентиль медиана 75-я перцентиль
  • 7. • Расстояние между первым и третим квантилями называется межквартильный диапазон (IQR) - простейшая мера разброса данных, которая задает диапазон, покрывающий среднюю половину данных: IQR = Q3 - Q1 • Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0 • Данные в примере уже отсортированы по возрастанию, поэтому квартилями выступают 3-й, 6-й и 9-й элементы: Q1=4700, Q2=5200, Q3=6300. • Межквартильный диапазон равен Q3 - Q1 = 6300 - 4700 = 1600
  • 8. ПЯТИ-ЧИСЛОВАЯ СВОДКА • 5-числовая сводка (предложена Дж. Тьюки) - один из способов краткого представления выборки и состоит из: • медианы (Q2) • первого (Q1) и третьего (Q3) квартилей • наименьшего (min) и наибольшего (max) значений
  • 9. ПРОБЛЕМЫ АСИММЕТРИЧНЫХ РАСПРЕДЕЛЕНИЙ • Для асимметрических данных IQR не может в полной мере характеризовать разброс, однако применяется для выявления аномалий (аутлаеров), которыми считаются значения располагающиеся на 1.5 • IQR выше третьего или ниже первого квартиля • Меры центральной тенденции (медиана и т.п.) не разбивают данные на равные половины • 5-числовая оценка позволяет в полной мере оценить ц е н т р а л ь н ую т е н д е н ц ию и р а з б р о с и д л я асиметрических распределений
  • 10. ДИСПЕРСИЯ И СТАНДАРТНЫЙ РАЗБРОС • Дисперсия (отклонение) N наблюдений x1, x2, … xN для числового атрибута x это величина ! N 1N¯ N ¯ ) - ¯x2 σ2= Σ(xi - x)2 = i=1 (1N¯ Σ xi 2 i=1 • где ¯x - среднее значение атрибута • Величина σ называется среднеквадратическим отклонением (стандартным разбросом) • Дисперсия и среднеквадратическое отклонение характеризуют разброс данных атрибута
  • 11. Основные свойства среднеквадратического отклонения: • σ измеряет отклонение данных от среднего значения и его имеет смысл рассматривать только, если среднее выбрано в качестве меры центра • σ > 0 • σ = 0 только когда нет отклонения (т.е. когда все данные имеют одинаково значение)
  • 12. • Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0 • Ранее мы вычислили среднее значение для данного атрибута, равное 5.8 • Т а к и м о б р а з о м , д и с п е р с и я и среднеквадратическое отклонение будут равны σ2 = (3.02 + 3.62 + … + 11.02) - 5.8 ≈ 37.914 12 σ ≈ 1.947
  • 14. Q-Q ГРАФИК • Квантиль-Квантиль график (Q-Q график) отображает квантили одного распределения в сравнении с соответствующими квантилями другого распределения • точке (х, у) на графике соответствует один из квантилей второго распределения (у-координата), построенная вместе с аналогичним квантилем первого распределения (х-координата). • линия на Q-Q графике является параметрической кривой с параметром, равным количеству интервалом для квантилей
  • 15. • Пусть x1, x2, … xN - значения числового атрибута x и y1, y2, … yM для числового атрибута y (все значения отсортированы в порядке возрастания) • Если M = N, тогда просто наносим точки (xi, yi), где xi, yi уже являются (i-0.5)/N квантилями соответствующих наборов данных • Если M < N, тогда в графике может быть только M точек. Здесь yi уже является (i-0.5)/M квантилем, а для данных атрибута x необходимо вычислить (i-0.5)/M квантиль
  • 16. ПРИМЕР: АНАЛИЗ Q-Q ГРАФИКА • Рассмотрим q-q график для атрибута средняя цена проданного товара для двух филиалов одной компании за некоторый период времени • Для Q1 средняя цена для филиала 1 меньше, чем для филиала 2 => 25% проданного товара филиалом 1 меньше или равно 60 грн, в то время как 25% проданных товаров филиалом 2 меньше или равно 64 грн • Общий тренд показывает, что средняя цена проданного товара в филиале 1 меньше, чем в филиале 2 120 Филиал 1 (цена в грн) 40 104 88 72 56 40 48 56 64 72 80 88 96 104 112 120 Филиал 2 (цена в грн) Q1 Q2 Q3
  • 17. ГИСТОГРАММА • Для построения гистограммы для некоторого численного атрибута его диапазон значений р а з д е л я е т с я н а н е к о т о р ы й н а б о р непресекающихся равных поддиапазонов (интервалов группировки) • Дл я к аждого инт ерв а л а группиров ки вычисляется и отображается на графике количество значений, попавших в данный интервал
  • 18. ПРИМЕР: ГИСТОГРАММА • пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0 Количество зарплат (шт.) 4 3 2 1 0 3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11 11-12 зарплата (тыс. грн)
  • 19. BOXPLOT (ЯЩИЧКОВАЯ ДИАГРАММА) • График “ящичковая диаграмма” (ящик с усами или box-and-whiskers diagram) был разработан Джоном Тьюки в 70-х годах. • Ящичковая диаграмма - это быстрый способ визуального представления 5-числовой сводки: • Начинается и заканчивается “ящик” в первом и третьем квартилях, т.е. его высота равна межквартильному диапазону • Медиана отмечена линией на “ящике” • Две линии вне “ящика” (называются whiskers или усы) отображают минимальное и максимальное значение, принимаемое атрибутом
  • 20. ПРИМЕР: BOXPLOT • пусть атрибут возраст принимает следующие значения: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70 70.0 35.0 25.0 20.5 13.0 возраст 5-числовая сводка: Q2=25, Q1=20.5, Q3=35, min=13, max=70
  • 21. ДИАГРАММА РАССЕЯНИЯ • Диаграмма рассеяния (scatter plot, точечная диаграмма) изображает значения двух переменных в виде точек на декартовой плоскости • Каждая точка диаграммы рассеяния имеет координаты (в декартовой системе координат), равные значениям двух выбранных для изучения атрибутов • Диаграммы рассеяния - это самый простой способ поиска кластеров, аномалий, а также возможной корреляции значений атрибутов
  • 22. • Два атрибута называются коррелирующими между собой, если один атрибут влияет на другой (например, один атрибут всегда убывает, когда другой растет) атрибут 2 20 15 10 5 0 0 3 6 9 12 атрибут 1 атрибут 2 20 15 10 5 0 0 3 6 9 12 атрибут 1 положительная корреляция отрицательная корреляция
  • 23. атрибут 2 12 9 6 3 0 0 3 6 9 12 атрибут 1 атрибут 2 12 9 6 3 0 0 3 6 9 12 атрибут 1 атрибут 2 Примеры: отсутствие корреляции 9 6,75 4,5 2,25 0 0 3 6 9 12 атрибут 1
  • 24. ПРИМЕР: ДИАГРАММА РАССЕЯНИЯ • Рассмотрим два атрибута зарплата и стаж работы. Атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0, а соответствующие значения атрибута стаж работы (лет) есть: 4, 5, 6, 7, 7, 8, 8,10, 10, 15,12, 18 Стаж (лет) 18 14 10 6 2 2 4,25 6,5 8,75 11 Зарплата (тыс. грн) Наблюдается положительная корреляция (т.е. чем выше стаж работы, тем выше зарплата)
  • 25. ЗАДАНИЯ • Значения атрибутов рост (см) и вес (кг) для студентов группы представлены в таблице: рост вес рост вес рост вес рост вес рост вес 185 77 163 68 173 82 193 70 175 83 170 66 188 82 180 84 183 79 165 66 183 75 185 74 178 100 175 77 178 67 183 77 165 61 183 84 183 70 188 95 175 76 185 77 188 84 185 76 178 63 ! ! ! • Необходимо: • построить Q-Q график • построить гистограмму для каждого из атрибутов • построить ящичковую диаграмму для каждого из атрибутов и разместить их на одном графике • построить диаграмму рассеяния и указать на наличие или отсутствие корреляции между атрибутами