SlideShare a Scribd company logo
ЛЕКЦІЯ 4
КЛАСТЕРНИЙ АНАЛІЗ В SAS
ENTERPRISE MINER
1
План
 Загальна характеристика кластерного аналізу
 Особливості реалізації методу k-середніх
 Основні етапи проведення кластерного аналізу в
SAS:
 попередній аналіз вхідних даних
 підготовка даних для проведення кластерного аналізу
 визначення оптимального числа кластерів і проведення
процедури кластерного аналізу
 профілювання сегментів та інтерпретація результатів
2
Основні напрямки застосування інструментів
для виявлення структури даних
 стиснення даних;
 виявлення новизни в даних;
 профілювання;
 аналіз «ринкового кошика»
 послідовний аналіз
3
Основні компоненти SAS для виявлення
структури даних
 стиснення даних Cluster
 виявлення новизни в даних SOM/Kohonen
 профілювання Segment Profile
 аналіз «ринкового кошика» Market Basket
 послідовний аналіз Path Analysis
4
Визначення кластерного аналізу
 Кластерний аналіз (англ. cluster analysis) -
математична процедура багатовимірного аналізу,
що дозволяє на основі множини показників (як
об'єктивних, так і суб'єктивних), що
характеризують ряд об'єктів, згрупувати їх в класи
(кластери) таким чином, щоб об'єкти, що входять
в один клас, були більш однорідними, подібними
у порівнянні з об'єктами, що входять в інші класи.
5
Приклад
6
Виділення груп на основі видів
фруктів
7
Виділення груп за кольором
8
Виділення груп за кольором та
видом фруктів
9
До якої групи віднести новий об’єкт?
10
Приклад класифікації за кольором і
типом фруктів
11
Основні цілі кластерного аналізу
 Розробка типології або класифікації.
 Дослідження корисних концептуальних схем
групування об'єктів.
 Висунення гіпотез на основі дослідження даних.
 Перевірка гіпотез або дослідження присутності
виділених типів (груп) у наявних даних.
12
Основні задачі, які можуть бути вирішені за
допомогою кластерного аналізу
Галузь Приклад
Маркетинг Сегментація конкурентів та споживачів
Менеджмент Класифікація персоналу за рівнем мотивації
Біологія Розбиття на види
Медицина Класифікація захворювань, симптомів, методів лікування
захворювань
13
Етапи проведення кластерного аналізу
 Відбір даних для кластеризації (як правило,
передбачається, що це кількісні дані).
 Визначення змінних, за якими будуть оцінюватися
об'єкти у вибірці, тобто простору ознак.
 Обчислення значень тієї чи іншої міри подібності
(або відмінності) між об'єктами.
 Застосування методу кластерного аналізу для
створення груп схожих об'єктів.
 Перевірка достовірності результатів кластерного
рішення.
14
Існуючі методи розбиття схожих
об'єктів на групи
 K-середніх (K-means)
 Нечітка кластеризація C-середніх (C-means)
 Графові алгоритми кластеризації
 Статистичні алгоритми кластеризації
 Алгоритми сімейства FOREL
 Ієрархічна кластеризація або таксономія
 Нейронна мережа Кохонена
 Ансамбль кластеризаторів
 Алгоритми сімейства KRAB
 ЕМ-алгоритм
 Метод просіювання
15
Загальна характеристика методу k-середніх
(k-means)
 був розроблений Г. Штейнгаузом у 1950-х роках
майже одночасно із С. Ллойдом.
 намагається мінімізувати сумарне квадратичне
відхилення точок кластерів від центрів цих
кластерів:
де k – кількість кластерів
Si – одержані кластери і = 1…k
µi – центри мас векторів xj Є Si
16
Алгоритм методу k-середніх
1. Вибір вхідних даних
2. Вибір k центрів кластерів
3. Встановлення відповідності між спостереженнями
і найближчими центрами кластерів
4. Оновлення центрів кластерів
5. Встановлення відповідності між спостереженнями
і найближчими центрами кластерів
6. Повторення кроків 4 і 5 до моменту сходження
алгоритму
17
Демонстрація алгоритму
 Етап 1. Початкові точки обрані випадковим чином
 Етап 2. Розбиття точок відносно початкових центів
18
Демонстрація алгоритму
 Етап 3. Розрахунок нових центрів кластерів (центрів
мас).
 Етап 4. Повне розбиття точок і розрахунок нових
центрів кластерів до сходження алгоритму
19
Реалізація кластерного аналізу в SAS
 Продовжуємо працювати з існуючим проектом:
20
Реалізація кластерного аналізу в SAS
1 Крок – вибір змінних
Вхідні змінні повинні мати наступні властивості:
 бути значимими для цілей аналізу;
 бути відносно незалежними;
 бути обмеженими по кількості;
 бути інтервальними (тип Interval);
 мати невеликі значення асиметрії та ексцесу
21
Встановлення ролей для змінних
 Обрати кнопку Variables у властивостях вузла
CENSUS2000.
22
Встановлення ролей для змінних
 Обрати змінні LосХ, LосУ і RegРор і встановити
роль Rejected
23
Попередній аналіз обраних змінних
 Обрати змінні MeanHHSz, MedHHInc і RegDens і
натиснути Explore....
24
Описові статистики обраних змінних
25
Основні проблеми:
 Асиметричність даних
 Відмінності у шкалах вимірювання даних
26
Трансформація даних для вирішення
проблеми асиметричності
 Основні методи трансформації даних, які мають
додатну асиметрію:
 квадратний корінь
 логарифм
 обернене значення (1/х)
27
Трансформація даних в SAS
 Обрати вкладку Modify і перетягнути в область діаграми інструмент
Transform Variables, з'єднати його із вузлом фільтрації
28
Трансформація даних в SAS
 Обрати властивість Formulas вузла Transform
Variables
29
Створення нової змінної
 Необхідно натиснути кнопку Create і ввести
ім'я для створюваної змінної
30
Введення формули
 Натиснути кнопку Build.... Відкриється вікно Expression Builder.
 Обрати папку категорії Mathematical
 Обрати формулу LOG(argument) і потім натиснути кнопку Insert.
31
Вибір змінної
 Обрати вкладку Variables List, де вибрати змінну MedHHInc.
Натиснути Insert.
 Натиснути кнопку ОК
32
Перегляд гістограми розподілу для
модифікованих даних
 Оберіть щойно створену змінну та натисніть Generate Plot. Для
порівняння у верхній частині вікна оберіть відповідну змінну до
модифікації.
33
Результуючий графік
 За бажанням можна збільшити кількість інтервалів осі Х гістограми,
викликавши контекстне меню графіку і обравши меню Graph Properties… та
встановивши величину кількість поділок горизонтальної осі (Horisontal)
рівною 100.
34
Результуючий графік
35
Додання елемента «Кластерний
аналіз»
 Виберіть вкладку Explore.
 Виберіть та перетягніть інструмент Cluster в робочу область діаграми.
 Об'єднайте вузол Transform Variables з вузлом Cluster.
36
Додання елемента «Кластерний
аналіз»
 Вузел Cluster створює сегменти, використовуючи вхідні змінні LogMedHHInc,
MeanHHSz і RegDens.
37
Додання елемента «Кластерний
аналіз»
 Вікно Explore.
38
Налаштування елемента «Кластерний аналіз»
1. Стандартизація даних
Основні методи стандартизації в SAS:
 Standardization
 Range
Встановіть для властивості Internal
Standardization значення
Standardization
39
Методи об'єднання у кластери,
доступні у SAS
Загалом виділяють наступні найбільш поширені методи об'єднання у кластери:

Single linkage – метод «одиночного зв'язку»;

Complete linkage – метод «повного зв'язку»;

Unweighted pair group average – метод «середнього зв'язку»;

Weighted pair group average – зважений метод середнього зв'язку;

Unweighted pair group centroid – незважений центроїдний метод;

Weighted pair group centroid – зважений центроїдний метод;

Ward′s method – метод Уорда.
У SAS реалізовані наступні методи:

метод середнього зв'язку

центроїдний метод

метод Уорда.
40
Метрики визначення відстаней між
об'єктами
41
Результати проведення кластерного
аналізу
Інформація щодо розміру кластерів
Інформація щодо процесу об'єднання
Статистика у розрізі окремих кластерів Розподіл кожної із вхідних змінних в
межах кластерів
42
Вибір оптимального числа кластерів
Крок 1. Дослідження процесу об'єднання
 Максимізуйте вікно, яке містить інформацію щодо процесу об'єднання та зверніть увагу на
показник R-Square. Він відображає частку варіації вхідних даних, що описується кластерами
……
!
43
Вибір оптимального числа кластерів
Крок 2. Дослідження основних критеріїв, що характеризують
процес об'єднання
Критерії, що використовуються в SAS:
 CCC (кубічний критерій кластеризації) - відображає відхилення фактичного значення
коефіцієнта R-квадрат, одержаного в результаті розбиття даних на кластери, від
очікуваного у випадку прийняття гіпотези, що дані відповідають рівномірному
розподілу, тобто формують один кластер. Наявність піків на графіку при кількості
кластерів більше 2 або 3 вказує на можливе оптимальне число кластерів. Значні
від'ємні значення величини можуть вказувати на наявність викидів.
 Pseudo F Statistic – характеризує «компактність» кластерів. Це величина, що
відображає співвідношення міжгрупової та внутрішньогрупової варіації. Збільшення
даної величини вказує на наявність «гарних» кластерів. Важливими є піки на графіку.
 Pseudo t-Squared – аналізується починаючи від більшого числа кластерів до меншого
(на графіку – справа наліво). Необхідно знайти перше таке значення, яке було б явно
вище за попереднє, тоді відповідне значення, яке знаходиться на одне значення назад
(правіше на графіку) відповідає оптимальному числу кластерів.
44
Вибір оптимального числа кластерів.
Статистика ССP
45
У вікні результатів аналізу оберіть View => Summary Statistics => CCC Plot
Побудова графіків критеріїв
 У вікні результатів аналізу натисніть кнопку Plot…
 Виберіть тип Line
 Оберіть змінні по осям (кількість кластерів та критерій ССС відповідно) та назначте їм ролі Х та У.
 Натисніть Finish.
 Аналогічні дії проведіть для критеріїв Pseudo F і Pseudo T-Squared.
 Для зручності відображення оберіть меню Window - > Tile.
46
Графічне представлення критеріїв та
їх інтерпретація
47
Встановлення заданої кількості
сегментів
 В меню Specification Method оберіть User Specify та встановіть кількість кластерів
рівною 4.
 Запустіть процес кластерного аналізу на виконання
48
Дослідження структури кластерів
 У властивостях вузла кластерного аналізу оберіть Explored Data
 Оберіть набір даних Train та натисніть Explore…
49
Результуюче вікно
 Для величини Fetch Size можна встановити Max і натиснути Apply. Це
збільшить розмір вибірки
50
Графічне представлення структури кластерів
 Виберіть Actions => Plot.
 У вікні Select a Chart Type оберіть тип Scatter (Діаграма розсіювання ) і вид діаграми -
тривимірна
 Встановіть наступні ролі для змінних:
_SEGMENT_ - Color
MeanHHSz – X
MedHHInc – Y
RegDens – Z
 Натисніть Finish
51
Тривимірне зображення кластерів
52
Детальне дослідження окремих сегментів
(побудова додаткових діаграм)
 Виберіть Actions => Plot.
 У вікні Select a Chart Type оберіть тип Bar
 Встановіть наступні ролі для змінних:
_SEGMENT_ - Category
 Натисніть Finish
 Виберіть Actions => Plot.
 У вікні Select a Chart Type оберіть тип
Scatter вид діаграми - двовимірна
 Встановіть наступні ролі для змінних:
_SEGMENT_ - Color
LocX – X
LocY –Y
 Натисніть Finish
53
Можливі варіанти дослідження особливостей
кластерів
54
Профілювання сегментів
 Додайте вузол Segment Profile на діаграму
(панель Assess)
55
Вибір змінних
 За допомогою блоку властивостей оберіть Variable і визначте змінні,
які будуть приймати участь у профілюванні (LogMedHHInc,
MeanHHSz, RegDens, _SEGMENT_)
56
Результат роботи вузла профілювання
57
Детальний аналіз розподілу змінних в межах
сегментів
58
Детальний аналіз вкладу кожної
змінної у окремі сегменти
59
Характеристика кластерів
60
Кластер 1 (синій) Кластер 2 (сірий) Кластер 3
(рожевий)
Кластер 4
(червоний)
Дохід До 100 000 дол. До 100 000 дол. Від 0 до 60 000
тис.
Від 60 000 дол. і
вище
Розмір
сім’ї
1-3 чоловіки Від 3 і вище
(переважно
багатодітні сім’ї)
Від 1 до 3
чоловік
Від 1.5 до 4 чол.
Щільність
населення
Низька і середня Різна Вище середнього Вище середнього
Географія Приблизно
рівномірно
розподілені по
усій території
Переважно
східний та
північно-східний
регіони, західне
узбережжя
(скоріше за все
великі міста),
менше центр
Переважно
східні, південо- і
північно-східні
регіони
Переважно
східний та
північно-східний
регіони, західне
узбережжя
(скоріше за все
великі міста)

More Related Content

Similar to ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt

Метод гусениця SSA (Володимир Стодола)
Метод гусениця SSA (Володимир Стодола)Метод гусениця SSA (Володимир Стодола)
Метод гусениця SSA (Володимир Стодола)
Oleg Nazarevych
 
база даних
база данихбаза даних
база данихMaria Gulko
 
11 клас 11 урок. Призначення й використання основних математичних, статистичн...
11 клас 11 урок. Призначення й використання основних математичних, статистичн...11 клас 11 урок. Призначення й використання основних математичних, статистичн...
11 клас 11 урок. Призначення й використання основних математичних, статистичн...
StAlKeRoV
 
база даних
база данихбаза даних
база данихMaria Gulko
 
Дискримінантний аналіз (метод класифікації з навчанням)
Дискримінантний аналіз (метод класифікації з навчанням)Дискримінантний аналіз (метод класифікації з навчанням)
Дискримінантний аналіз (метод класифікації з навчанням)
ssuser847e42
 
Lesson #12. basics of statistical data analysis. data series
Lesson #12. basics of statistical data analysis. data seriesLesson #12. basics of statistical data analysis. data series
Lesson #12. basics of statistical data analysis. data series
Nikolay Shaygorodskiy
 
11 2.10 обчислення підсумкових характеристик
11 2.10 обчислення підсумкових характеристик11 2.10 обчислення підсумкових характеристик
11 2.10 обчислення підсумкових характеристикlubap1
 
ACM2020_Lecture1
ACM2020_Lecture1ACM2020_Lecture1
ACM2020_Lecture1
Назар Козак
 
ABC аналіз Техніка застосування.pptx
ABC аналіз Техніка застосування.pptxABC аналіз Техніка застосування.pptx
ABC аналіз Техніка застосування.pptx
RostyslavDmytruk
 
Урок №23 8 клас
Урок №23 8 класУрок №23 8 клас
Урок №23 8 клас
Nikolay Shaygorodskiy
 
Презентація курсу з аналізу даних
Презентація курсу з аналізу данихПрезентація курсу з аналізу даних
Презентація курсу з аналізу даних
Vladimir Bakhrushin
 
Урок 58. Проміжні підсумки. Умовне форматування.
Урок 58. Проміжні підсумки. Умовне форматування.Урок 58. Проміжні підсумки. Умовне форматування.
Урок 58. Проміжні підсумки. Умовне форматування.
Василь Тереховський
 
Урок №10. Типи даних. Редагування даних таблиці. Автозаповнення. Форматуванн...
Урок №10. Типи даних. Редагування даних таблиці. Автозаповнення.  Форматуванн...Урок №10. Типи даних. Редагування даних таблиці. Автозаповнення.  Форматуванн...
Урок №10. Типи даних. Редагування даних таблиці. Автозаповнення. Форматуванн...
Nikolay Shaygorodskiy
 
21a функції в microsoft excel
21a функції в microsoft excel21a функції в microsoft excel
21a функції в microsoft excel
Admin Admin
 
11 11 12a функц-ї в microsoft excel
11 11 12a функц-ї в microsoft excel11 11 12a функц-ї в microsoft excel
11 11 12a функц-ї в microsoft excel
kvasira52
 
Системний аналіз та імітаційне моделювання.ppt
Системний аналіз та імітаційне моделювання.pptСистемний аналіз та імітаційне моделювання.ppt
Системний аналіз та імітаційне моделювання.ppt
MaryLuchechko1
 

Similar to ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt (20)

Метод гусениця SSA (Володимир Стодола)
Метод гусениця SSA (Володимир Стодола)Метод гусениця SSA (Володимир Стодола)
Метод гусениця SSA (Володимир Стодола)
 
база даних
база данихбаза даних
база даних
 
11 клас 11 урок. Призначення й використання основних математичних, статистичн...
11 клас 11 урок. Призначення й використання основних математичних, статистичн...11 клас 11 урок. Призначення й використання основних математичних, статистичн...
11 клас 11 урок. Призначення й використання основних математичних, статистичн...
 
база даних
база данихбаза даних
база даних
 
Дискримінантний аналіз (метод класифікації з навчанням)
Дискримінантний аналіз (метод класифікації з навчанням)Дискримінантний аналіз (метод класифікації з навчанням)
Дискримінантний аналіз (метод класифікації з навчанням)
 
Lesson #12. basics of statistical data analysis. data series
Lesson #12. basics of statistical data analysis. data seriesLesson #12. basics of statistical data analysis. data series
Lesson #12. basics of statistical data analysis. data series
 
11 2.10 обчислення підсумкових характеристик
11 2.10 обчислення підсумкових характеристик11 2.10 обчислення підсумкових характеристик
11 2.10 обчислення підсумкових характеристик
 
ACM2020_Lecture1
ACM2020_Lecture1ACM2020_Lecture1
ACM2020_Lecture1
 
ABC аналіз Техніка застосування.pptx
ABC аналіз Техніка застосування.pptxABC аналіз Техніка застосування.pptx
ABC аналіз Техніка застосування.pptx
 
Урок №23 8 клас
Урок №23 8 класУрок №23 8 клас
Урок №23 8 клас
 
l9
l9l9
l9
 
011
011011
011
 
Презентація курсу з аналізу даних
Презентація курсу з аналізу данихПрезентація курсу з аналізу даних
Презентація курсу з аналізу даних
 
Урок 58. Проміжні підсумки. Умовне форматування.
Урок 58. Проміжні підсумки. Умовне форматування.Урок 58. Проміжні підсумки. Умовне форматування.
Урок 58. Проміжні підсумки. Умовне форматування.
 
Inf78
Inf78Inf78
Inf78
 
Урок №10. Типи даних. Редагування даних таблиці. Автозаповнення. Форматуванн...
Урок №10. Типи даних. Редагування даних таблиці. Автозаповнення.  Форматуванн...Урок №10. Типи даних. Редагування даних таблиці. Автозаповнення.  Форматуванн...
Урок №10. Типи даних. Редагування даних таблиці. Автозаповнення. Форматуванн...
 
21a функції в microsoft excel
21a функції в microsoft excel21a функції в microsoft excel
21a функції в microsoft excel
 
11 11 12a функц-ї в microsoft excel
11 11 12a функц-ї в microsoft excel11 11 12a функц-ї в microsoft excel
11 11 12a функц-ї в microsoft excel
 
87 1 word
87 1 word87 1 word
87 1 word
 
Системний аналіз та імітаційне моделювання.ppt
Системний аналіз та імітаційне моделювання.pptСистемний аналіз та імітаційне моделювання.ppt
Системний аналіз та імітаційне моделювання.ppt
 

ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt

  • 2. План  Загальна характеристика кластерного аналізу  Особливості реалізації методу k-середніх  Основні етапи проведення кластерного аналізу в SAS:  попередній аналіз вхідних даних  підготовка даних для проведення кластерного аналізу  визначення оптимального числа кластерів і проведення процедури кластерного аналізу  профілювання сегментів та інтерпретація результатів 2
  • 3. Основні напрямки застосування інструментів для виявлення структури даних  стиснення даних;  виявлення новизни в даних;  профілювання;  аналіз «ринкового кошика»  послідовний аналіз 3
  • 4. Основні компоненти SAS для виявлення структури даних  стиснення даних Cluster  виявлення новизни в даних SOM/Kohonen  профілювання Segment Profile  аналіз «ринкового кошика» Market Basket  послідовний аналіз Path Analysis 4
  • 5. Визначення кластерного аналізу  Кластерний аналіз (англ. cluster analysis) - математична процедура багатовимірного аналізу, що дозволяє на основі множини показників (як об'єктивних, так і суб'єктивних), що характеризують ряд об'єктів, згрупувати їх в класи (кластери) таким чином, щоб об'єкти, що входять в один клас, були більш однорідними, подібними у порівнянні з об'єктами, що входять в інші класи. 5
  • 7. Виділення груп на основі видів фруктів 7
  • 8. Виділення груп за кольором 8
  • 9. Виділення груп за кольором та видом фруктів 9
  • 10. До якої групи віднести новий об’єкт? 10
  • 11. Приклад класифікації за кольором і типом фруктів 11
  • 12. Основні цілі кластерного аналізу  Розробка типології або класифікації.  Дослідження корисних концептуальних схем групування об'єктів.  Висунення гіпотез на основі дослідження даних.  Перевірка гіпотез або дослідження присутності виділених типів (груп) у наявних даних. 12
  • 13. Основні задачі, які можуть бути вирішені за допомогою кластерного аналізу Галузь Приклад Маркетинг Сегментація конкурентів та споживачів Менеджмент Класифікація персоналу за рівнем мотивації Біологія Розбиття на види Медицина Класифікація захворювань, симптомів, методів лікування захворювань 13
  • 14. Етапи проведення кластерного аналізу  Відбір даних для кластеризації (як правило, передбачається, що це кількісні дані).  Визначення змінних, за якими будуть оцінюватися об'єкти у вибірці, тобто простору ознак.  Обчислення значень тієї чи іншої міри подібності (або відмінності) між об'єктами.  Застосування методу кластерного аналізу для створення груп схожих об'єктів.  Перевірка достовірності результатів кластерного рішення. 14
  • 15. Існуючі методи розбиття схожих об'єктів на групи  K-середніх (K-means)  Нечітка кластеризація C-середніх (C-means)  Графові алгоритми кластеризації  Статистичні алгоритми кластеризації  Алгоритми сімейства FOREL  Ієрархічна кластеризація або таксономія  Нейронна мережа Кохонена  Ансамбль кластеризаторів  Алгоритми сімейства KRAB  ЕМ-алгоритм  Метод просіювання 15
  • 16. Загальна характеристика методу k-середніх (k-means)  був розроблений Г. Штейнгаузом у 1950-х роках майже одночасно із С. Ллойдом.  намагається мінімізувати сумарне квадратичне відхилення точок кластерів від центрів цих кластерів: де k – кількість кластерів Si – одержані кластери і = 1…k µi – центри мас векторів xj Є Si 16
  • 17. Алгоритм методу k-середніх 1. Вибір вхідних даних 2. Вибір k центрів кластерів 3. Встановлення відповідності між спостереженнями і найближчими центрами кластерів 4. Оновлення центрів кластерів 5. Встановлення відповідності між спостереженнями і найближчими центрами кластерів 6. Повторення кроків 4 і 5 до моменту сходження алгоритму 17
  • 18. Демонстрація алгоритму  Етап 1. Початкові точки обрані випадковим чином  Етап 2. Розбиття точок відносно початкових центів 18
  • 19. Демонстрація алгоритму  Етап 3. Розрахунок нових центрів кластерів (центрів мас).  Етап 4. Повне розбиття точок і розрахунок нових центрів кластерів до сходження алгоритму 19
  • 20. Реалізація кластерного аналізу в SAS  Продовжуємо працювати з існуючим проектом: 20
  • 21. Реалізація кластерного аналізу в SAS 1 Крок – вибір змінних Вхідні змінні повинні мати наступні властивості:  бути значимими для цілей аналізу;  бути відносно незалежними;  бути обмеженими по кількості;  бути інтервальними (тип Interval);  мати невеликі значення асиметрії та ексцесу 21
  • 22. Встановлення ролей для змінних  Обрати кнопку Variables у властивостях вузла CENSUS2000. 22
  • 23. Встановлення ролей для змінних  Обрати змінні LосХ, LосУ і RegРор і встановити роль Rejected 23
  • 24. Попередній аналіз обраних змінних  Обрати змінні MeanHHSz, MedHHInc і RegDens і натиснути Explore.... 24
  • 26. Основні проблеми:  Асиметричність даних  Відмінності у шкалах вимірювання даних 26
  • 27. Трансформація даних для вирішення проблеми асиметричності  Основні методи трансформації даних, які мають додатну асиметрію:  квадратний корінь  логарифм  обернене значення (1/х) 27
  • 28. Трансформація даних в SAS  Обрати вкладку Modify і перетягнути в область діаграми інструмент Transform Variables, з'єднати його із вузлом фільтрації 28
  • 29. Трансформація даних в SAS  Обрати властивість Formulas вузла Transform Variables 29
  • 30. Створення нової змінної  Необхідно натиснути кнопку Create і ввести ім'я для створюваної змінної 30
  • 31. Введення формули  Натиснути кнопку Build.... Відкриється вікно Expression Builder.  Обрати папку категорії Mathematical  Обрати формулу LOG(argument) і потім натиснути кнопку Insert. 31
  • 32. Вибір змінної  Обрати вкладку Variables List, де вибрати змінну MedHHInc. Натиснути Insert.  Натиснути кнопку ОК 32
  • 33. Перегляд гістограми розподілу для модифікованих даних  Оберіть щойно створену змінну та натисніть Generate Plot. Для порівняння у верхній частині вікна оберіть відповідну змінну до модифікації. 33
  • 34. Результуючий графік  За бажанням можна збільшити кількість інтервалів осі Х гістограми, викликавши контекстне меню графіку і обравши меню Graph Properties… та встановивши величину кількість поділок горизонтальної осі (Horisontal) рівною 100. 34
  • 36. Додання елемента «Кластерний аналіз»  Виберіть вкладку Explore.  Виберіть та перетягніть інструмент Cluster в робочу область діаграми.  Об'єднайте вузол Transform Variables з вузлом Cluster. 36
  • 37. Додання елемента «Кластерний аналіз»  Вузел Cluster створює сегменти, використовуючи вхідні змінні LogMedHHInc, MeanHHSz і RegDens. 37
  • 39. Налаштування елемента «Кластерний аналіз» 1. Стандартизація даних Основні методи стандартизації в SAS:  Standardization  Range Встановіть для властивості Internal Standardization значення Standardization 39
  • 40. Методи об'єднання у кластери, доступні у SAS Загалом виділяють наступні найбільш поширені методи об'єднання у кластери:  Single linkage – метод «одиночного зв'язку»;  Complete linkage – метод «повного зв'язку»;  Unweighted pair group average – метод «середнього зв'язку»;  Weighted pair group average – зважений метод середнього зв'язку;  Unweighted pair group centroid – незважений центроїдний метод;  Weighted pair group centroid – зважений центроїдний метод;  Ward′s method – метод Уорда. У SAS реалізовані наступні методи:  метод середнього зв'язку  центроїдний метод  метод Уорда. 40
  • 42. Результати проведення кластерного аналізу Інформація щодо розміру кластерів Інформація щодо процесу об'єднання Статистика у розрізі окремих кластерів Розподіл кожної із вхідних змінних в межах кластерів 42
  • 43. Вибір оптимального числа кластерів Крок 1. Дослідження процесу об'єднання  Максимізуйте вікно, яке містить інформацію щодо процесу об'єднання та зверніть увагу на показник R-Square. Він відображає частку варіації вхідних даних, що описується кластерами …… ! 43
  • 44. Вибір оптимального числа кластерів Крок 2. Дослідження основних критеріїв, що характеризують процес об'єднання Критерії, що використовуються в SAS:  CCC (кубічний критерій кластеризації) - відображає відхилення фактичного значення коефіцієнта R-квадрат, одержаного в результаті розбиття даних на кластери, від очікуваного у випадку прийняття гіпотези, що дані відповідають рівномірному розподілу, тобто формують один кластер. Наявність піків на графіку при кількості кластерів більше 2 або 3 вказує на можливе оптимальне число кластерів. Значні від'ємні значення величини можуть вказувати на наявність викидів.  Pseudo F Statistic – характеризує «компактність» кластерів. Це величина, що відображає співвідношення міжгрупової та внутрішньогрупової варіації. Збільшення даної величини вказує на наявність «гарних» кластерів. Важливими є піки на графіку.  Pseudo t-Squared – аналізується починаючи від більшого числа кластерів до меншого (на графіку – справа наліво). Необхідно знайти перше таке значення, яке було б явно вище за попереднє, тоді відповідне значення, яке знаходиться на одне значення назад (правіше на графіку) відповідає оптимальному числу кластерів. 44
  • 45. Вибір оптимального числа кластерів. Статистика ССP 45 У вікні результатів аналізу оберіть View => Summary Statistics => CCC Plot
  • 46. Побудова графіків критеріїв  У вікні результатів аналізу натисніть кнопку Plot…  Виберіть тип Line  Оберіть змінні по осям (кількість кластерів та критерій ССС відповідно) та назначте їм ролі Х та У.  Натисніть Finish.  Аналогічні дії проведіть для критеріїв Pseudo F і Pseudo T-Squared.  Для зручності відображення оберіть меню Window - > Tile. 46
  • 47. Графічне представлення критеріїв та їх інтерпретація 47
  • 48. Встановлення заданої кількості сегментів  В меню Specification Method оберіть User Specify та встановіть кількість кластерів рівною 4.  Запустіть процес кластерного аналізу на виконання 48
  • 49. Дослідження структури кластерів  У властивостях вузла кластерного аналізу оберіть Explored Data  Оберіть набір даних Train та натисніть Explore… 49
  • 50. Результуюче вікно  Для величини Fetch Size можна встановити Max і натиснути Apply. Це збільшить розмір вибірки 50
  • 51. Графічне представлення структури кластерів  Виберіть Actions => Plot.  У вікні Select a Chart Type оберіть тип Scatter (Діаграма розсіювання ) і вид діаграми - тривимірна  Встановіть наступні ролі для змінних: _SEGMENT_ - Color MeanHHSz – X MedHHInc – Y RegDens – Z  Натисніть Finish 51
  • 53. Детальне дослідження окремих сегментів (побудова додаткових діаграм)  Виберіть Actions => Plot.  У вікні Select a Chart Type оберіть тип Bar  Встановіть наступні ролі для змінних: _SEGMENT_ - Category  Натисніть Finish  Виберіть Actions => Plot.  У вікні Select a Chart Type оберіть тип Scatter вид діаграми - двовимірна  Встановіть наступні ролі для змінних: _SEGMENT_ - Color LocX – X LocY –Y  Натисніть Finish 53
  • 54. Можливі варіанти дослідження особливостей кластерів 54
  • 55. Профілювання сегментів  Додайте вузол Segment Profile на діаграму (панель Assess) 55
  • 56. Вибір змінних  За допомогою блоку властивостей оберіть Variable і визначте змінні, які будуть приймати участь у профілюванні (LogMedHHInc, MeanHHSz, RegDens, _SEGMENT_) 56
  • 57. Результат роботи вузла профілювання 57
  • 58. Детальний аналіз розподілу змінних в межах сегментів 58
  • 59. Детальний аналіз вкладу кожної змінної у окремі сегменти 59
  • 60. Характеристика кластерів 60 Кластер 1 (синій) Кластер 2 (сірий) Кластер 3 (рожевий) Кластер 4 (червоний) Дохід До 100 000 дол. До 100 000 дол. Від 0 до 60 000 тис. Від 60 000 дол. і вище Розмір сім’ї 1-3 чоловіки Від 3 і вище (переважно багатодітні сім’ї) Від 1 до 3 чоловік Від 1.5 до 4 чол. Щільність населення Низька і середня Різна Вище середнього Вище середнього Географія Приблизно рівномірно розподілені по усій території Переважно східний та північно-східний регіони, західне узбережжя (скоріше за все великі міста), менше центр Переважно східні, південо- і північно-східні регіони Переважно східний та північно-східний регіони, західне узбережжя (скоріше за все великі міста)