SlideShare a Scribd company logo
1 of 26
Download to read offline
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 4 
Подготовка данных (preprocessing). Часть 3
ПРЕОБРАЗОВАНИЕ ДАННЫХ 
ДЛЯ ЧИСЛЕННЫХ АТРИБУТОВ
НОРМАЛИЗАЦИЯ ДАННЫХ 
• Единица измерения может влиять на результат. Описание 
атрибута в меньших единицах измерения (например, в см 
вместо метров) приводит к большему диапазону 
значений и, следовательно, придает данному атрибуту 
больший “вес” 
• Нормализация (стандартизация) данных предназначена 
для устранения зависимости от выбора единицы 
измерения и заключается в преобразовании диапазонов 
значений всех атрибутов к стандартным интервалам 
[-1, 1] или [0, 1] 
• Нормализация данных направлена на придание всем 
атрибутам одинакового “веса”.
НОРМАЛИЗАЦИЯ ДАННЫХ 
• Пусть x - численный атрибут, наблюдаемые 
значения которого есть x1, x2, …, xN 
• Рассмотрим основные методы нормализации 
данных, применяемые на практике: 
• min-max нормализация 
• z-нормализация 
• масштабирование
НОРМАЛИЗАЦИЯ ДАННЫХ 
MIN-MAX НОРМАЛИЗАЦИЯ 
min-max нормализация заключается в применении к 
диапазону значений атрибута x линейного преобразования, 
которое отображает [min(x), max(x)] в [A, B] 
x′i =τ xi ( ) = xi −min(x) 
max(x)−min(x) 
⋅(B − A)+ A 
x ∈[min(x), max(x)]⇒τ (x)∈[A, B] 
• min-max нормализация сохраняет все зависимости и порядок 
оригинальных значений атрибута 
• Если данные содержат доминирующие аномалии (аутлаеры), 
тогда такое преобразование сильно “сожмет” основную массу 
значений к очень маленькому интервалу!
НОРМАЛИЗАЦИЯ ДАННЫХ 
ПРИМЕР: MIN-MAX НОРМАЛИЗАЦИЯ 
Пусть атрибут зарплата принимает следующие 
значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 
5600, 6000, 6300, 7000, 7000, 11000 
Преобразуем диапазон значений данного атрибута x 
к интервалу [0, 1] при помощи min-max нормализации 
min(x) = 3000, max(x) = 11000⇒ x ∈[3000,11000] 
A = 0, B = 1⇒ x′ =τ (x)∈[0,1] 
x′i =τ xi ( ) = xi − 3000 
8000 
x′3 =τ x3 ( ) =τ (4700) = (4700 − 3000) 
8000 
= 0.2125
НОРМАЛИЗАЦИЯ ДАННЫХ 
Z-НОРМАЛИЗАЦИЯ 
z-нормализация (zero-mean normalization) основывается 
на приведении распределения исходного атрибута x к 
центрированному распределению со стандартным 
отклонением, равным 1 
x′i =τ xi ( ) = xi − x 
σ x 
M[x′] = x′ = 1 
N 
xi − x 
σ i=1 x 
NΣ 
= 1 
σ x 
1 
N 
xi 
NΣ 
i=1 
− x 
⎛ 
⎝ ⎜ 
⎞ 
⎠ ⎟ 
= 0 
D[x′] = M (x′)2 ⎡⎣⎤⎦ 
− (M[x′])2 == M (x′)2 ⎡⎣ 
⎤⎦ 
= M 
⎡ 2 
x − x 
σ x 
⎛ 
⎝ ⎜ 
⎞ 
⎠ ⎟ 
⎣ ⎢⎢ 
⎤ 
⎦ ⎥⎥ 
= 1 
σ x 
2 M (x − x )2 ⎡⎣ 
⎤⎦ 
= D[x] 
σ x 
2 = 1 
• Метод полезен когда максимум (минимум) неизвестны или 
когда данные содержат доминирующие аномалии (аутлаеры)
НОРМАЛИЗАЦИЯ ДАННЫХ 
Z-НОРМАЛИЗАЦИЯ 
• Одна из модификаций метода z-нормализации 
заключается в использовании среднего абсолютного 
отклонения вместо среднеквадратического отклонения 
NΣ 
• Данная модификация более устойчива к аномалиям 
(аутлаерам), т.к. вместо ( − )2 
x x использует x− x , что в 
i i значительно меньшей мере увеличивает влияние аутлаеров, 
которые сильно отклоняются от среднего значения 
x′i =τ xi ( ) = xi − x 
sx 
sx = 1 
N 
xi − x 
i=1 
где
НОРМАЛИЗАЦИЯ ДАННЫХ 
ПРИМЕР: Z-НОРМАЛИЗАЦИЯ 
Пусть атрибут зарплата принимает следующие 
значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 
5600, 6000, 6300, 7000, 7000, 11000 
Необходимо провести z-нормализацию атрибута 
x = 5800,σ x Ранее мы уже вычислили значения ≈1947 
x′i =τ xi ( ) = xi − 5800 
1947 
x′3 =τ x3 ( ) =τ (4700) = (4700 − 5800) 
1947 
≈ -0.56497
НОРМАЛИЗАЦИЯ ДАННЫХ 
МАСШТАБИРОВАНИЕ 
Масштабирование заключается в изменении 
длины вектора значений атрибута путем 
умножения на константу 
x′i =τ xi ( ) = λ ⋅ xi λ ≠ 0,λ = const 
Длина вектора x уменьшается при λ <1 
и увеличивается, 
если 
λ >1 
• Популярные константы на практике 
λ = 1 
x 
⇒ x′ =τ (x) = x 
x 
⇒ x′ = 1 
λ = 10− p , p = min 
k 
xi 
:max 
10k i=1..N 
xi 
10k 
⎛ 
⎝ ⎜ 
⎞ 
⎠ ⎟ 
≤1 
⎧⎨⎩ 
⎫⎬⎭ 
⇒ x′ =τ (x) = x 
10p ⇒ x′ ∈[−1,1] 
• 
•
НОРМАЛИЗАЦИЯ ДАННЫХ 
ПРИМЕР: МАСШТАБИРОВАНИЕ 
Пусть атрибут зарплата принимает следующие 
значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 
5600, 6000, 6300, 7000, 7000, 11000 
Необходимо провести масштабирование 
атрибута, чтобы значения были в [-1, 1] 
τ xi ( ) = xi 
105 
xi ( ) 
105 = 0.11 <1⇒ p = 5 
x′3 =τ x3 ( ) =τ (4700) = 4700 
105 = 0.047 
λ = 10− p , max 
i=1..N 
xi ( ) = 11000⇒ 
max 
i=1..N
ЗАДАНИЯ 
Для приведенных примеров нормализации данных 
необходимо: 
• закончить нормализацию всех наблюдений 
• применить масштабирование с 
λ = 1 
визуализировать нормализованные x 
• значение 
• указать возможные аутлаеры в значениях 
• сравнить полученные нормализованные значения 
• как аутлаеры повлияли на полученные значения в 
использованных методах нормализации?
ЗАДАНИЯ 
• Значения атрибутов рост (см) и вес (кг) для студентов группы 
представлены в таблице: 
рост вес рост вес рост вес рост вес рост вес 
185 77 163 68 173 82 193 70 175 83 
170 66 188 82 180 84 183 79 165 66 
183 75 185 74 178 100 175 77 178 67 
183 77 165 61 183 84 183 70 188 95 
175 76 185 77 188 84 185 76 178 63 
• Необходимо: 
• провести нормализацию данных данных атрибутов, чтобы они 
были сравнимы и их различные шкалы не влияли на “вес” 
атрибута 
• применить все известные вам методы нормализации данных 
• выбрать метод нормализации, который, как вам кажется, 
наиболее подходит для рассматриваемой задачи
ДИСКРЕТИЗАЦИЯ
ДИСКРЕТИЗАЦИЯ 
• Под дискретизацией ч и с л е н н о г о а т р и б у т а 
подразумевается замена исходных значений атрибута на 
интервальные или концептуальные метки 
• Например, значения атрибута возраст могут быть 
заменены на 0-10, 11-20, … (интервальные метки) или на 
молодой, взрослый, старый (концептуальные метки) 
• Метки в свою очередь могут быть объединены в понятия 
более высокого уровня, определяя таким образом 
иерархию понятий численного атрибута 
возраст (0-100) 
0-30 31-60 61-100 
0-10 11-20 21-30 31-40 41-50 51-60 61-75 76-90 91-100
ДИСКРЕТИЗАЦИЯ 
• По использованию данных о классе дискретизации разделяют на: 
• дискретизация с учителем (supervised discretization) используют 
информацию о классах данных 
• дискретизация без учителя (unsupervised discretization) НЕ 
используют информацию о классах данных 
По методу построения дискретизации разделяют на: 
• дискретизация сверху-вниз (разбиение) начинается с поиска 
некоторых значений (точек разбиения) для разбиения диапазона 
значений на несколько частей и повторением процедуры на каждом 
из полученных множеств 
• дискретизация снизу-вверх (слияние) начинается с рассмотрения 
всех точек как потенциальных точек разбиения, удаления 
некоторых из них путем объединения соседних значений в 
интервалы и повторением процедуры на полученных интервалах 
Дискретизация данных - это также форма редукции данных
ДИСКРЕТИЗАЦИЯ 
МЕТОДЫ ДИСКРЕТИЗАЦИИ 
• Биннинг 
• Биннинг реализует дискретизацию сверху-вниз без учителя 
• Значения атрибутов дискретизируются путем построения бинов 
одинаковой длины (или частоты) и заменой значений на медиану 
• Гистограмма 
• Гистограмма реализует дискретизацию сверху-вниз без учителя 
• Применяют равночастотные (когда разбиение ведется на 
интервалы с одинаковым количеством попавших в них значений) и 
равномерные гистограммы (когда разбиение ведется на 
интервалы равной длины) 
• Кластерный анализ 
• Кластерный анализ позволяет выделить кластеры в значениях 
атрибута на основе их “близости” в том или ином смысле 
• Кластерный анализ может реализовывать как дискретизацию сверху- 
вниз так и снизу-вверх, укрупняя имеющиеся кластеры
ЗАДАНИЯ 
• Пусть атрибут цена принимает следующие значения 
(грн.): 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 
• Необходимо 
• разбить значения данного атрибута: 
• на 3 бина одинаковой длины 
• на 3 бина с одинаковым количеством значений 
• предложить интервальные и концептуальные метки 
• построить иерархию с 3 уровнями понятий 
• построить 3 кластера по критерию близости цены
ПРЕОБРАЗОВАНИЕ ДАННЫХ 
ДЛЯ НОМИНАТИВНЫХ АТРИБУТОВ
ПОСТРОЕНИЕ ИЕРАРХИЙ 
• Построение иерархий понятий (Concept Hierarchy 
Generation) заключается в обобщении атрибутов более 
общими (высокого уровня) понятиями. Например, 
атрибут город может быть обобщен понятием страна 
• Номинативные атрибуты могут принимать конечное (но 
достаточно большое) количество различных значений без 
отношения порядка (например, атрибут улица). 
• В общем случае построение иерархий может быть 
сложной задачей, требующей экспертных знаний из 
предметной области 
• Если данные хранятся в базах данных, тогда много 
иерархий можно простроить просто на основе схемы БД
ПОСТРОЕНИЕ ИЕРАРХИЙ 
• Основные методы построения иерархий: 
• введение отношения (частичного) порядка 
между атрибутами при помощи пользователя 
или эксперта 
• введение части иерархий путем явной 
группировки данных 
• введение группы атрибутов без их 
частичного упорядочивания 
• определение частичной группы атрибутов
ПОСТРОЕНИЕ ИЕРАРХИЙ 
Введение отношения (частичного) порядка 
между атрибутами при помощи эксперта 
• Как правило, пользователь или эксперт 
предметной области может определить на 
уровне схемы данных отношение частичного 
или полного порядка 
Например, реляционная база данных содержит 
группу атрибутов: улица, город, страна. Иерархия 
может быть построена путем определения 
полного порядка: улица < город < страна
ПОСТРОЕНИЕ ИЕРАРХИЙ 
Введение части иерархий путем явной группировки 
• Заключается в введение новых иерархий, путем 
явного указания группы включаемых в нее значений 
• Фактически это ручное определение иерархий 
(поэтому реализуемо лишь для части иерархий в 
больших базах данных) 
Например, после определения иерархий город и страна 
на уровне схемы данных, мы можем ввести некоторый 
промежуточный уровень область вручную путем 
перечисления принимаемых значений: 
{Харьков, Чугуев, …} ⊂ Харьковская область и 
{Харьковская область, Сумская область, …} ⊂ Украина
ПОСТРОЕНИЕ ИЕРАРХИЙ 
Определение группы атрибутов без упорядочивания 
• Пользователь или эксперт определяют лишь группу 
атрибутов, не указывая их порядок 
• Упорядочивание осуществляется автоматически 
используя информацию о значениях и их количестве 
Например, атрибут (из указанной экспертом группы) 
принимающий наибольшее количество различных значений 
автоматически помещается на низший уровень иерархии 
Такой эвристический подход часто бывает ошибочен! 
Рассмотрим группу атрибутов: год (20 значений), месяц 
(12 значений) и день недели (7 значений). Данный метод 
построит иерархию: год < месяц < день недели
ПОСТРОЕНИЕ ИЕРАРХИЙ 
Определение частичной группы атрибутов 
• Зачастую пользователь не может (или не хочет) полностью 
определить группу атрибутов для построения иерархии 
• Как решение данной проблемы неполной иерархии могут 
применяться семантические связи между атрибутами 
(например, традиционный понятия или концепции в схеме 
данных). Тогда при определении хотя бы одного атрибута 
группы, иерархия может быть дополнена известными 
семантически связанными с ним значениями 
Например, пусть известно, что понятие адрес, как правило, 
включает семантически связанные атрибуты номер дома < улица 
< город < страна. Тогда, если пользователем определен только 
атрибут город, то система автоматически включает все остальные 
атрибуты понятия адрес в иерархию.

More Related Content

Viewers also liked

Cuckoo Optimization ppt
Cuckoo Optimization pptCuckoo Optimization ppt
Cuckoo Optimization pptAnuja Joshi
 
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...Salesforce Admins
 
Tarea karla torres
Tarea karla torresTarea karla torres
Tarea karla torreskatopo
 
The Farm by BBDO, 2014.
The Farm by BBDO, 2014.The Farm by BBDO, 2014.
The Farm by BBDO, 2014.BBDO
 
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخدوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخMajid Babaie, MBA, PMP
 
5 amazing tips for interview by Jubaer
5 amazing tips for interview  by Jubaer5 amazing tips for interview  by Jubaer
5 amazing tips for interview by JubaerAbu Jubaer
 
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...victor Nduna
 
Social Media: What Every Australian Retailer Needs to Know
Social Media: What Every Australian Retailer Needs to KnowSocial Media: What Every Australian Retailer Needs to Know
Social Media: What Every Australian Retailer Needs to KnowSarah Mitchell
 
9. Coursera devdataprod 2015
9. Coursera devdataprod 20159. Coursera devdataprod 2015
9. Coursera devdataprod 2015Pritam Dey
 
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?Nobuyuki Matsui
 
periferitos deentrada
periferitos deentradaperiferitos deentrada
periferitos deentradajhon pintag
 

Viewers also liked (16)

Cuckoo Optimization ppt
Cuckoo Optimization pptCuckoo Optimization ppt
Cuckoo Optimization ppt
 
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...
 
Tarea karla torres
Tarea karla torresTarea karla torres
Tarea karla torres
 
The Farm by BBDO, 2014.
The Farm by BBDO, 2014.The Farm by BBDO, 2014.
The Farm by BBDO, 2014.
 
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخدوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
 
5 amazing tips for interview by Jubaer
5 amazing tips for interview  by Jubaer5 amazing tips for interview  by Jubaer
5 amazing tips for interview by Jubaer
 
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
 
Social Media: What Every Australian Retailer Needs to Know
Social Media: What Every Australian Retailer Needs to KnowSocial Media: What Every Australian Retailer Needs to Know
Social Media: What Every Australian Retailer Needs to Know
 
ครูยอด
ครูยอดครูยอด
ครูยอด
 
Comics analysis nick fiorentino
Comics analysis nick fiorentinoComics analysis nick fiorentino
Comics analysis nick fiorentino
 
9. Coursera devdataprod 2015
9. Coursera devdataprod 20159. Coursera devdataprod 2015
9. Coursera devdataprod 2015
 
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?
 
MyResearch_ad
MyResearch_adMyResearch_ad
MyResearch_ad
 
鯖江夕景
鯖江夕景鯖江夕景
鯖江夕景
 
periferitos deentrada
periferitos deentradaperiferitos deentrada
periferitos deentrada
 
Aporte del crae
Aporte del craeAporte del crae
Aporte del crae
 

Similar to Data Mining - lecture 7 - 2014

Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Andrii Gakhov
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Andrii Gakhov
 
Сегментация изображений в компьютерной графике.ppt
Сегментация  изображений в компьютерной графике.pptСегментация  изображений в компьютерной графике.ppt
Сегментация изображений в компьютерной графике.pptssuser413a98
 
Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Andrii Gakhov
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2Vladimir Krylov
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Dmitry Kornev
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Bitworks Software
 
0. основы r
0. основы r0. основы r
0. основы rmsuteam
 
Исследование операций и методы оптимизации
Исследование операций и методы оптимизацииИсследование операций и методы оптимизации
Исследование операций и методы оптимизацииJakobow
 
Лекции по дискретной математике
Лекции по дискретной математикеЛекции по дискретной математике
Лекции по дискретной математикеВладимир Судаков
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Andrii Gakhov
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
чернякова г.в.
чернякова г.в.чернякова г.в.
чернякова г.в.sharikdp
 
CV2011-2. Lecture 12. Face models.
CV2011-2. Lecture 12.  Face models.CV2011-2. Lecture 12.  Face models.
CV2011-2. Lecture 12. Face models.Anton Konushin
 
ОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиVladimir Parfinenko
 
Big Data - первые шаги
Big Data - первые шагиBig Data - первые шаги
Big Data - первые шагиAnton Gorokhov
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewKhryashchev
 
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)Ontico
 

Similar to Data Mining - lecture 7 - 2014 (20)

Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014
 
Сегментация изображений в компьютерной графике.ppt
Сегментация  изображений в компьютерной графике.pptСегментация  изображений в компьютерной графике.ppt
Сегментация изображений в компьютерной графике.ppt
 
Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
0. основы r
0. основы r0. основы r
0. основы r
 
Исследование операций и методы оптимизации
Исследование операций и методы оптимизацииИсследование операций и методы оптимизации
Исследование операций и методы оптимизации
 
Лекции по дискретной математике
Лекции по дискретной математикеЛекции по дискретной математике
Лекции по дискретной математике
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
чернякова г.в.
чернякова г.в.чернякова г.в.
чернякова г.в.
 
CV2011-2. Lecture 12. Face models.
CV2011-2. Lecture 12.  Face models.CV2011-2. Lecture 12.  Face models.
CV2011-2. Lecture 12. Face models.
 
ОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, списки
 
Big Data - первые шаги
Big Data - первые шагиBig Data - первые шаги
Big Data - первые шаги
 
Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
 

More from Andrii Gakhov

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureAndrii Gakhov
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Andrii Gakhov
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Andrii Gakhov
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaAndrii Gakhov
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsAndrii Gakhov
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityAndrii Gakhov
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данныхAndrii Gakhov
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryAndrii Gakhov
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksAndrii Gakhov
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start GuideAndrii Gakhov
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlightsAndrii Gakhov
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcasesAndrii Gakhov
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferretAndrii Gakhov
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Andrii Gakhov
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Andrii Gakhov
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Andrii Gakhov
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Andrii Gakhov
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Andrii Gakhov
 

More from Andrii Gakhov (20)

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
 
DNS Delegation
DNS DelegationDNS Delegation
DNS Delegation
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 

Data Mining - lecture 7 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 4 Подготовка данных (preprocessing). Часть 3
  • 3. ПРЕОБРАЗОВАНИЕ ДАННЫХ ДЛЯ ЧИСЛЕННЫХ АТРИБУТОВ
  • 4. НОРМАЛИЗАЦИЯ ДАННЫХ • Единица измерения может влиять на результат. Описание атрибута в меньших единицах измерения (например, в см вместо метров) приводит к большему диапазону значений и, следовательно, придает данному атрибуту больший “вес” • Нормализация (стандартизация) данных предназначена для устранения зависимости от выбора единицы измерения и заключается в преобразовании диапазонов значений всех атрибутов к стандартным интервалам [-1, 1] или [0, 1] • Нормализация данных направлена на придание всем атрибутам одинакового “веса”.
  • 5. НОРМАЛИЗАЦИЯ ДАННЫХ • Пусть x - численный атрибут, наблюдаемые значения которого есть x1, x2, …, xN • Рассмотрим основные методы нормализации данных, применяемые на практике: • min-max нормализация • z-нормализация • масштабирование
  • 6. НОРМАЛИЗАЦИЯ ДАННЫХ MIN-MAX НОРМАЛИЗАЦИЯ min-max нормализация заключается в применении к диапазону значений атрибута x линейного преобразования, которое отображает [min(x), max(x)] в [A, B] x′i =τ xi ( ) = xi −min(x) max(x)−min(x) ⋅(B − A)+ A x ∈[min(x), max(x)]⇒τ (x)∈[A, B] • min-max нормализация сохраняет все зависимости и порядок оригинальных значений атрибута • Если данные содержат доминирующие аномалии (аутлаеры), тогда такое преобразование сильно “сожмет” основную массу значений к очень маленькому интервалу!
  • 7. НОРМАЛИЗАЦИЯ ДАННЫХ ПРИМЕР: MIN-MAX НОРМАЛИЗАЦИЯ Пусть атрибут зарплата принимает следующие значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 5600, 6000, 6300, 7000, 7000, 11000 Преобразуем диапазон значений данного атрибута x к интервалу [0, 1] при помощи min-max нормализации min(x) = 3000, max(x) = 11000⇒ x ∈[3000,11000] A = 0, B = 1⇒ x′ =τ (x)∈[0,1] x′i =τ xi ( ) = xi − 3000 8000 x′3 =τ x3 ( ) =τ (4700) = (4700 − 3000) 8000 = 0.2125
  • 8. НОРМАЛИЗАЦИЯ ДАННЫХ Z-НОРМАЛИЗАЦИЯ z-нормализация (zero-mean normalization) основывается на приведении распределения исходного атрибута x к центрированному распределению со стандартным отклонением, равным 1 x′i =τ xi ( ) = xi − x σ x M[x′] = x′ = 1 N xi − x σ i=1 x NΣ = 1 σ x 1 N xi NΣ i=1 − x ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = 0 D[x′] = M (x′)2 ⎡⎣⎤⎦ − (M[x′])2 == M (x′)2 ⎡⎣ ⎤⎦ = M ⎡ 2 x − x σ x ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎣ ⎢⎢ ⎤ ⎦ ⎥⎥ = 1 σ x 2 M (x − x )2 ⎡⎣ ⎤⎦ = D[x] σ x 2 = 1 • Метод полезен когда максимум (минимум) неизвестны или когда данные содержат доминирующие аномалии (аутлаеры)
  • 9. НОРМАЛИЗАЦИЯ ДАННЫХ Z-НОРМАЛИЗАЦИЯ • Одна из модификаций метода z-нормализации заключается в использовании среднего абсолютного отклонения вместо среднеквадратического отклонения NΣ • Данная модификация более устойчива к аномалиям (аутлаерам), т.к. вместо ( − )2 x x использует x− x , что в i i значительно меньшей мере увеличивает влияние аутлаеров, которые сильно отклоняются от среднего значения x′i =τ xi ( ) = xi − x sx sx = 1 N xi − x i=1 где
  • 10. НОРМАЛИЗАЦИЯ ДАННЫХ ПРИМЕР: Z-НОРМАЛИЗАЦИЯ Пусть атрибут зарплата принимает следующие значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 5600, 6000, 6300, 7000, 7000, 11000 Необходимо провести z-нормализацию атрибута x = 5800,σ x Ранее мы уже вычислили значения ≈1947 x′i =τ xi ( ) = xi − 5800 1947 x′3 =τ x3 ( ) =τ (4700) = (4700 − 5800) 1947 ≈ -0.56497
  • 11. НОРМАЛИЗАЦИЯ ДАННЫХ МАСШТАБИРОВАНИЕ Масштабирование заключается в изменении длины вектора значений атрибута путем умножения на константу x′i =τ xi ( ) = λ ⋅ xi λ ≠ 0,λ = const Длина вектора x уменьшается при λ <1 и увеличивается, если λ >1 • Популярные константы на практике λ = 1 x ⇒ x′ =τ (x) = x x ⇒ x′ = 1 λ = 10− p , p = min k xi :max 10k i=1..N xi 10k ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ≤1 ⎧⎨⎩ ⎫⎬⎭ ⇒ x′ =τ (x) = x 10p ⇒ x′ ∈[−1,1] • •
  • 12. НОРМАЛИЗАЦИЯ ДАННЫХ ПРИМЕР: МАСШТАБИРОВАНИЕ Пусть атрибут зарплата принимает следующие значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 5600, 6000, 6300, 7000, 7000, 11000 Необходимо провести масштабирование атрибута, чтобы значения были в [-1, 1] τ xi ( ) = xi 105 xi ( ) 105 = 0.11 <1⇒ p = 5 x′3 =τ x3 ( ) =τ (4700) = 4700 105 = 0.047 λ = 10− p , max i=1..N xi ( ) = 11000⇒ max i=1..N
  • 13. ЗАДАНИЯ Для приведенных примеров нормализации данных необходимо: • закончить нормализацию всех наблюдений • применить масштабирование с λ = 1 визуализировать нормализованные x • значение • указать возможные аутлаеры в значениях • сравнить полученные нормализованные значения • как аутлаеры повлияли на полученные значения в использованных методах нормализации?
  • 14. ЗАДАНИЯ • Значения атрибутов рост (см) и вес (кг) для студентов группы представлены в таблице: рост вес рост вес рост вес рост вес рост вес 185 77 163 68 173 82 193 70 175 83 170 66 188 82 180 84 183 79 165 66 183 75 185 74 178 100 175 77 178 67 183 77 165 61 183 84 183 70 188 95 175 76 185 77 188 84 185 76 178 63 • Необходимо: • провести нормализацию данных данных атрибутов, чтобы они были сравнимы и их различные шкалы не влияли на “вес” атрибута • применить все известные вам методы нормализации данных • выбрать метод нормализации, который, как вам кажется, наиболее подходит для рассматриваемой задачи
  • 16. ДИСКРЕТИЗАЦИЯ • Под дискретизацией ч и с л е н н о г о а т р и б у т а подразумевается замена исходных значений атрибута на интервальные или концептуальные метки • Например, значения атрибута возраст могут быть заменены на 0-10, 11-20, … (интервальные метки) или на молодой, взрослый, старый (концептуальные метки) • Метки в свою очередь могут быть объединены в понятия более высокого уровня, определяя таким образом иерархию понятий численного атрибута возраст (0-100) 0-30 31-60 61-100 0-10 11-20 21-30 31-40 41-50 51-60 61-75 76-90 91-100
  • 17. ДИСКРЕТИЗАЦИЯ • По использованию данных о классе дискретизации разделяют на: • дискретизация с учителем (supervised discretization) используют информацию о классах данных • дискретизация без учителя (unsupervised discretization) НЕ используют информацию о классах данных По методу построения дискретизации разделяют на: • дискретизация сверху-вниз (разбиение) начинается с поиска некоторых значений (точек разбиения) для разбиения диапазона значений на несколько частей и повторением процедуры на каждом из полученных множеств • дискретизация снизу-вверх (слияние) начинается с рассмотрения всех точек как потенциальных точек разбиения, удаления некоторых из них путем объединения соседних значений в интервалы и повторением процедуры на полученных интервалах Дискретизация данных - это также форма редукции данных
  • 18. ДИСКРЕТИЗАЦИЯ МЕТОДЫ ДИСКРЕТИЗАЦИИ • Биннинг • Биннинг реализует дискретизацию сверху-вниз без учителя • Значения атрибутов дискретизируются путем построения бинов одинаковой длины (или частоты) и заменой значений на медиану • Гистограмма • Гистограмма реализует дискретизацию сверху-вниз без учителя • Применяют равночастотные (когда разбиение ведется на интервалы с одинаковым количеством попавших в них значений) и равномерные гистограммы (когда разбиение ведется на интервалы равной длины) • Кластерный анализ • Кластерный анализ позволяет выделить кластеры в значениях атрибута на основе их “близости” в том или ином смысле • Кластерный анализ может реализовывать как дискретизацию сверху- вниз так и снизу-вверх, укрупняя имеющиеся кластеры
  • 19. ЗАДАНИЯ • Пусть атрибут цена принимает следующие значения (грн.): 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 • Необходимо • разбить значения данного атрибута: • на 3 бина одинаковой длины • на 3 бина с одинаковым количеством значений • предложить интервальные и концептуальные метки • построить иерархию с 3 уровнями понятий • построить 3 кластера по критерию близости цены
  • 20. ПРЕОБРАЗОВАНИЕ ДАННЫХ ДЛЯ НОМИНАТИВНЫХ АТРИБУТОВ
  • 21. ПОСТРОЕНИЕ ИЕРАРХИЙ • Построение иерархий понятий (Concept Hierarchy Generation) заключается в обобщении атрибутов более общими (высокого уровня) понятиями. Например, атрибут город может быть обобщен понятием страна • Номинативные атрибуты могут принимать конечное (но достаточно большое) количество различных значений без отношения порядка (например, атрибут улица). • В общем случае построение иерархий может быть сложной задачей, требующей экспертных знаний из предметной области • Если данные хранятся в базах данных, тогда много иерархий можно простроить просто на основе схемы БД
  • 22. ПОСТРОЕНИЕ ИЕРАРХИЙ • Основные методы построения иерархий: • введение отношения (частичного) порядка между атрибутами при помощи пользователя или эксперта • введение части иерархий путем явной группировки данных • введение группы атрибутов без их частичного упорядочивания • определение частичной группы атрибутов
  • 23. ПОСТРОЕНИЕ ИЕРАРХИЙ Введение отношения (частичного) порядка между атрибутами при помощи эксперта • Как правило, пользователь или эксперт предметной области может определить на уровне схемы данных отношение частичного или полного порядка Например, реляционная база данных содержит группу атрибутов: улица, город, страна. Иерархия может быть построена путем определения полного порядка: улица < город < страна
  • 24. ПОСТРОЕНИЕ ИЕРАРХИЙ Введение части иерархий путем явной группировки • Заключается в введение новых иерархий, путем явного указания группы включаемых в нее значений • Фактически это ручное определение иерархий (поэтому реализуемо лишь для части иерархий в больших базах данных) Например, после определения иерархий город и страна на уровне схемы данных, мы можем ввести некоторый промежуточный уровень область вручную путем перечисления принимаемых значений: {Харьков, Чугуев, …} ⊂ Харьковская область и {Харьковская область, Сумская область, …} ⊂ Украина
  • 25. ПОСТРОЕНИЕ ИЕРАРХИЙ Определение группы атрибутов без упорядочивания • Пользователь или эксперт определяют лишь группу атрибутов, не указывая их порядок • Упорядочивание осуществляется автоматически используя информацию о значениях и их количестве Например, атрибут (из указанной экспертом группы) принимающий наибольшее количество различных значений автоматически помещается на низший уровень иерархии Такой эвристический подход часто бывает ошибочен! Рассмотрим группу атрибутов: год (20 значений), месяц (12 значений) и день недели (7 значений). Данный метод построит иерархию: год < месяц < день недели
  • 26. ПОСТРОЕНИЕ ИЕРАРХИЙ Определение частичной группы атрибутов • Зачастую пользователь не может (или не хочет) полностью определить группу атрибутов для построения иерархии • Как решение данной проблемы неполной иерархии могут применяться семантические связи между атрибутами (например, традиционный понятия или концепции в схеме данных). Тогда при определении хотя бы одного атрибута группы, иерархия может быть дополнена известными семантически связанными с ним значениями Например, пусть известно, что понятие адрес, как правило, включает семантически связанные атрибуты номер дома < улица < город < страна. Тогда, если пользователем определен только атрибут город, то система автоматически включает все остальные атрибуты понятия адрес в иерархию.