ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt

ЛЕКЦІЯ 4
КЛАСТЕРНИЙ АНАЛІЗ В SAS
ENTERPRISE MINER
1

План
 Загальна характеристика кластерного аналізу
 Особливості реалізації методу k-середніх
 Основні етапи проведення кластерного аналізу в
SAS:
 попередній аналіз вхідних даних
 підготовка даних для проведення кластерного аналізу
 визначення оптимального числа кластерів і проведення
процедури кластерного аналізу
 профілювання сегментів та інтерпретація результатів
2

Основні напрямки застосування інструментів
для виявлення структури даних
 стиснення даних;
 виявлення новизни в даних;
 профілювання;
 аналіз «ринкового кошика»
 послідовний аналіз
3

Основні компоненти SAS для виявлення
структури даних
 стиснення даних Cluster
 виявлення новизни в даних SOM/Kohonen
 профілювання Segment Profile
 аналіз «ринкового кошика» Market Basket
 послідовний аналіз Path Analysis
4

Визначення кластерного аналізу
 Кластерний аналіз (англ. cluster analysis) -
математична процедура багатовимірного аналізу,
що дозволяє на основі множини показників (як
об'єктивних, так і суб'єктивних), що
характеризують ряд об'єктів, згрупувати їх в класи
(кластери) таким чином, щоб об'єкти, що входять
в один клас, були більш однорідними, подібними
у порівнянні з об'єктами, що входять в інші класи.
5

Виділення груп на основі видів
фруктів
7

Виділення груп за кольором
8

Виділення груп за кольором та
видом фруктів
9

До якої групи віднести новий об’єкт?
10

Приклад класифікації за кольором і
типом фруктів
11

Основні цілі кластерного аналізу
 Розробка типології або класифікації.
 Дослідження корисних концептуальних схем
групування об'єктів.
 Висунення гіпотез на основі дослідження даних.
 Перевірка гіпотез або дослідження присутності
виділених типів (груп) у наявних даних.
12

Основні задачі, які можуть бути вирішені за
допомогою кластерного аналізу
Галузь Приклад
Маркетинг Сегментація конкурентів та споживачів
Менеджмент Класифікація персоналу за рівнем мотивації
Біологія Розбиття на види
Медицина Класифікація захворювань, симптомів, методів лікування
захворювань
13

Етапи проведення кластерного аналізу
 Відбір даних для кластеризації (як правило,
передбачається, що це кількісні дані).
 Визначення змінних, за якими будуть оцінюватися
об'єкти у вибірці, тобто простору ознак.
 Обчислення значень тієї чи іншої міри подібності
(або відмінності) між об'єктами.
 Застосування методу кластерного аналізу для
створення груп схожих об'єктів.
 Перевірка достовірності результатів кластерного
рішення.
14

Існуючі методи розбиття схожих
об'єктів на групи
 K-середніх (K-means)
 Нечітка кластеризація C-середніх (C-means)
 Графові алгоритми кластеризації
 Статистичні алгоритми кластеризації
 Алгоритми сімейства FOREL
 Ієрархічна кластеризація або таксономія
 Нейронна мережа Кохонена
 Ансамбль кластеризаторів
 Алгоритми сімейства KRAB
 ЕМ-алгоритм
 Метод просіювання
15

Загальна характеристика методу k-середніх
(k-means)
 був розроблений Г. Штейнгаузом у 1950-х роках
майже одночасно із С. Ллойдом.
 намагається мінімізувати сумарне квадратичне
відхилення точок кластерів від центрів цих
кластерів:
де k – кількість кластерів
Si – одержані кластери і = 1…k
µi – центри мас векторів xj Є Si
16

Алгоритм методу k-середніх
1. Вибір вхідних даних
2. Вибір k центрів кластерів
3. Встановлення відповідності між спостереженнями
і найближчими центрами кластерів
4. Оновлення центрів кластерів
5. Встановлення відповідності між спостереженнями
і найближчими центрами кластерів
6. Повторення кроків 4 і 5 до моменту сходження
алгоритму
17

Демонстрація алгоритму
 Етап 1. Початкові точки обрані випадковим чином
 Етап 2. Розбиття точок відносно початкових центів
18

Демонстрація алгоритму
 Етап 3. Розрахунок нових центрів кластерів (центрів
мас).
 Етап 4. Повне розбиття точок і розрахунок нових
центрів кластерів до сходження алгоритму
19

Реалізація кластерного аналізу в SAS
 Продовжуємо працювати з існуючим проектом:
20

Реалізація кластерного аналізу в SAS
1 Крок – вибір змінних
Вхідні змінні повинні мати наступні властивості:
 бути значимими для цілей аналізу;
 бути відносно незалежними;
 бути обмеженими по кількості;
 бути інтервальними (тип Interval);
 мати невеликі значення асиметрії та ексцесу
21

Встановлення ролей для змінних
 Обрати кнопку Variables у властивостях вузла
CENSUS2000.
22

Встановлення ролей для змінних
 Обрати змінні LосХ, LосУ і RegРор і встановити
роль Rejected
23

Попередній аналіз обраних змінних
 Обрати змінні MeanHHSz, MedHHInc і RegDens і
натиснути Explore....
24

Описові статистики обраних змінних
25

Основні проблеми:
 Асиметричність даних
 Відмінності у шкалах вимірювання даних
26

Трансформація даних для вирішення
проблеми асиметричності
 Основні методи трансформації даних, які мають
додатну асиметрію:
 квадратний корінь
 логарифм
 обернене значення (1/х)
27

Трансформація даних в SAS
 Обрати вкладку Modify і перетягнути в область діаграми інструмент
Transform Variables, з'єднати його із вузлом фільтрації
28

Трансформація даних в SAS
 Обрати властивість Formulas вузла Transform
Variables
29

Створення нової змінної
 Необхідно натиснути кнопку Create і ввести
ім'я для створюваної змінної
30

Введення формули
 Натиснути кнопку Build.... Відкриється вікно Expression Builder.
 Обрати папку категорії Mathematical
 Обрати формулу LOG(argument) і потім натиснути кнопку Insert.
31

Вибір змінної
 Обрати вкладку Variables List, де вибрати змінну MedHHInc.
Натиснути Insert.
 Натиснути кнопку ОК
32

Перегляд гістограми розподілу для
модифікованих даних
 Оберіть щойно створену змінну та натисніть Generate Plot. Для
порівняння у верхній частині вікна оберіть відповідну змінну до
модифікації.
33

Результуючий графік
 За бажанням можна збільшити кількість інтервалів осі Х гістограми,
викликавши контекстне меню графіку і обравши меню Graph Properties… та
встановивши величину кількість поділок горизонтальної осі (Horisontal)
рівною 100.
34

Результуючий графік
35

Додання елемента «Кластерний
аналіз»
 Виберіть вкладку Explore.
 Виберіть та перетягніть інструмент Cluster в робочу область діаграми.
 Об'єднайте вузол Transform Variables з вузлом Cluster.
36

аналіз»
 Вузел Cluster створює сегменти, використовуючи вхідні змінні LogMedHHInc,
MeanHHSz і RegDens.
37

аналіз»
 Вікно Explore.
38

Налаштування елемента «Кластерний аналіз»
1. Стандартизація даних
Основні методи стандартизації в SAS:
 Standardization
 Range
Встановіть для властивості Internal
Standardization значення
Standardization
39

Методи об'єднання у кластери,
доступні у SAS
Загалом виділяють наступні найбільш поширені методи об'єднання у кластери:

Single linkage – метод «одиночного зв'язку»;

Complete linkage – метод «повного зв'язку»;

Unweighted pair group average – метод «середнього зв'язку»;

Weighted pair group average – зважений метод середнього зв'язку;

Unweighted pair group centroid – незважений центроїдний метод;

Weighted pair group centroid – зважений центроїдний метод;

Ward′s method – метод Уорда.
У SAS реалізовані наступні методи:

метод середнього зв'язку

центроїдний метод

метод Уорда.
40

Метрики визначення відстаней між
об'єктами
41

Результати проведення кластерного
аналізу
Інформація щодо розміру кластерів
Інформація щодо процесу об'єднання
Статистика у розрізі окремих кластерів Розподіл кожної із вхідних змінних в
межах кластерів
42

Вибір оптимального числа кластерів
Крок 1. Дослідження процесу об'єднання
 Максимізуйте вікно, яке містить інформацію щодо процесу об'єднання та зверніть увагу на
показник R-Square. Він відображає частку варіації вхідних даних, що описується кластерами
……
!
43

Вибір оптимального числа кластерів
Крок 2. Дослідження основних критеріїв, що характеризують
процес об'єднання
Критерії, що використовуються в SAS:
 CCC (кубічний критерій кластеризації) - відображає відхилення фактичного значення
коефіцієнта R-квадрат, одержаного в результаті розбиття даних на кластери, від
очікуваного у випадку прийняття гіпотези, що дані відповідають рівномірному
розподілу, тобто формують один кластер. Наявність піків на графіку при кількості
кластерів більше 2 або 3 вказує на можливе оптимальне число кластерів. Значні
від'ємні значення величини можуть вказувати на наявність викидів.
 Pseudo F Statistic – характеризує «компактність» кластерів. Це величина, що
відображає співвідношення міжгрупової та внутрішньогрупової варіації. Збільшення
даної величини вказує на наявність «гарних» кластерів. Важливими є піки на графіку.
 Pseudo t-Squared – аналізується починаючи від більшого числа кластерів до меншого
(на графіку – справа наліво). Необхідно знайти перше таке значення, яке було б явно
вище за попереднє, тоді відповідне значення, яке знаходиться на одне значення назад
(правіше на графіку) відповідає оптимальному числу кластерів.
44

Вибір оптимального числа кластерів.
Статистика ССP
45
У вікні результатів аналізу оберіть View => Summary Statistics => CCC Plot

Побудова графіків критеріїв
 У вікні результатів аналізу натисніть кнопку Plot…
 Виберіть тип Line
 Оберіть змінні по осям (кількість кластерів та критерій ССС відповідно) та назначте їм ролі Х та У.
 Натисніть Finish.
 Аналогічні дії проведіть для критеріїв Pseudo F і Pseudo T-Squared.
 Для зручності відображення оберіть меню Window - > Tile.
46

Графічне представлення критеріїв та
їх інтерпретація
47

Встановлення заданої кількості
сегментів
 В меню Specification Method оберіть User Specify та встановіть кількість кластерів
рівною 4.
 Запустіть процес кластерного аналізу на виконання
48

Дослідження структури кластерів
 У властивостях вузла кластерного аналізу оберіть Explored Data
 Оберіть набір даних Train та натисніть Explore…
49

Результуюче вікно
 Для величини Fetch Size можна встановити Max і натиснути Apply. Це
збільшить розмір вибірки
50

Графічне представлення структури кластерів
 Виберіть Actions => Plot.
 У вікні Select a Chart Type оберіть тип Scatter (Діаграма розсіювання ) і вид діаграми -
тривимірна
 Встановіть наступні ролі для змінних:
_SEGMENT_ - Color
MeanHHSz – X
MedHHInc – Y
RegDens – Z
 Натисніть Finish
51

Тривимірне зображення кластерів
52

Детальне дослідження окремих сегментів
(побудова додаткових діаграм)
 У вікні Select a Chart Type оберіть тип Bar
_SEGMENT_ - Category
 У вікні Select a Chart Type оберіть тип
Scatter вид діаграми - двовимірна
_SEGMENT_ - Color
LocX – X
LocY –Y
53

Можливі варіанти дослідження особливостей
кластерів
54

Профілювання сегментів
 Додайте вузол Segment Profile на діаграму
(панель Assess)
55

Вибір змінних
 За допомогою блоку властивостей оберіть Variable і визначте змінні,
які будуть приймати участь у профілюванні (LogMedHHInc,
MeanHHSz, RegDens, _SEGMENT_)
56

Результат роботи вузла профілювання
57

Детальний аналіз розподілу змінних в межах
сегментів
58

Детальний аналіз вкладу кожної
змінної у окремі сегменти
59

Характеристика кластерів
60
Кластер 1 (синій) Кластер 2 (сірий) Кластер 3
(рожевий)
Кластер 4
(червоний)
Дохід До 100 000 дол. До 100 000 дол. Від 0 до 60 000
тис.
Від 60 000 дол. і
вище
Розмір
сім’ї
1-3 чоловіки Від 3 і вище
(переважно
багатодітні сім’ї)
Від 1 до 3
чоловік
Від 1.5 до 4 чол.
Щільність
населення
Низька і середня Різна Вище середнього Вище середнього
Географія Приблизно
рівномірно
розподілені по
усій території
Переважно
східний та
північно-східний
регіони, західне
узбережжя
(скоріше за все
великі міста),
менше центр
Переважно
східні, південо- і
північно-східні
регіони
Переважно
східний та
північно-східний
регіони, західне
узбережжя
(скоріше за все
великі міста)

ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt

Recommended

Recommended

More Related Content

Similar to ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt

Similar to ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt (20)

ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt