Este documento apresenta os fundamentos da Teoria Clássica da Administração de acordo com Henri Fayol. Apresenta os elementos e princípios da administração como prever, organizar, comandar, coordenar e controlar, além dos 14 princípios gerais da administração proposta por Fayol. Discorre sobre as críticas à Teoria Clássica, especialmente por sua abordagem simplificada e racionalista da organização.
Este documento apresenta os fundamentos da Teoria Clássica da Administração de acordo com Henri Fayol. Apresenta os elementos e princípios da administração como prever, organizar, comandar, coordenar e controlar, além dos 14 princípios gerais da administração proposta por Fayol. Discorre sobre as críticas à Teoria Clássica, especialmente por sua abordagem simplificada e racionalista da organização.
Системний аналіз та імітаційне моделювання.pptMaryLuchechko1
fdfsssssssssssdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfds s dfsd fsd dsfsd fsdf d sfdsfsdfs sdfwerrt re tretaet sre re terat r t re tart rtea a terrttretretretretretr ttrerw- Ddfsfdfdsfsdffsdsd twrt rter tertaerteatret ret er t ertrt
More Related Content
Similar to ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
Системний аналіз та імітаційне моделювання.pptMaryLuchechko1
fdfsssssssssssdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfsdfds s dfsd fsd dsfsd fsdf d sfdsfsdfs sdfwerrt re tretaet sre re terat r t re tart rtea a terrttretretretretretr ttrerw- Ddfsfdfdsfsdffsdsd twrt rter tertaerteatret ret er t ertrt
Similar to ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt (20)
2. План
Загальна характеристика кластерного аналізу
Особливості реалізації методу k-середніх
Основні етапи проведення кластерного аналізу в
SAS:
попередній аналіз вхідних даних
підготовка даних для проведення кластерного аналізу
визначення оптимального числа кластерів і проведення
процедури кластерного аналізу
профілювання сегментів та інтерпретація результатів
2
3. Основні напрямки застосування інструментів
для виявлення структури даних
стиснення даних;
виявлення новизни в даних;
профілювання;
аналіз «ринкового кошика»
послідовний аналіз
3
4. Основні компоненти SAS для виявлення
структури даних
стиснення даних Cluster
виявлення новизни в даних SOM/Kohonen
профілювання Segment Profile
аналіз «ринкового кошика» Market Basket
послідовний аналіз Path Analysis
4
5. Визначення кластерного аналізу
Кластерний аналіз (англ. cluster analysis) -
математична процедура багатовимірного аналізу,
що дозволяє на основі множини показників (як
об'єктивних, так і суб'єктивних), що
характеризують ряд об'єктів, згрупувати їх в класи
(кластери) таким чином, щоб об'єкти, що входять
в один клас, були більш однорідними, подібними
у порівнянні з об'єктами, що входять в інші класи.
5
12. Основні цілі кластерного аналізу
Розробка типології або класифікації.
Дослідження корисних концептуальних схем
групування об'єктів.
Висунення гіпотез на основі дослідження даних.
Перевірка гіпотез або дослідження присутності
виділених типів (груп) у наявних даних.
12
13. Основні задачі, які можуть бути вирішені за
допомогою кластерного аналізу
Галузь Приклад
Маркетинг Сегментація конкурентів та споживачів
Менеджмент Класифікація персоналу за рівнем мотивації
Біологія Розбиття на види
Медицина Класифікація захворювань, симптомів, методів лікування
захворювань
13
14. Етапи проведення кластерного аналізу
Відбір даних для кластеризації (як правило,
передбачається, що це кількісні дані).
Визначення змінних, за якими будуть оцінюватися
об'єкти у вибірці, тобто простору ознак.
Обчислення значень тієї чи іншої міри подібності
(або відмінності) між об'єктами.
Застосування методу кластерного аналізу для
створення груп схожих об'єктів.
Перевірка достовірності результатів кластерного
рішення.
14
15. Існуючі методи розбиття схожих
об'єктів на групи
K-середніх (K-means)
Нечітка кластеризація C-середніх (C-means)
Графові алгоритми кластеризації
Статистичні алгоритми кластеризації
Алгоритми сімейства FOREL
Ієрархічна кластеризація або таксономія
Нейронна мережа Кохонена
Ансамбль кластеризаторів
Алгоритми сімейства KRAB
ЕМ-алгоритм
Метод просіювання
15
16. Загальна характеристика методу k-середніх
(k-means)
був розроблений Г. Штейнгаузом у 1950-х роках
майже одночасно із С. Ллойдом.
намагається мінімізувати сумарне квадратичне
відхилення точок кластерів від центрів цих
кластерів:
де k – кількість кластерів
Si – одержані кластери і = 1…k
µi – центри мас векторів xj Є Si
16
17. Алгоритм методу k-середніх
1. Вибір вхідних даних
2. Вибір k центрів кластерів
3. Встановлення відповідності між спостереженнями
і найближчими центрами кластерів
4. Оновлення центрів кластерів
5. Встановлення відповідності між спостереженнями
і найближчими центрами кластерів
6. Повторення кроків 4 і 5 до моменту сходження
алгоритму
17
18. Демонстрація алгоритму
Етап 1. Початкові точки обрані випадковим чином
Етап 2. Розбиття точок відносно початкових центів
18
19. Демонстрація алгоритму
Етап 3. Розрахунок нових центрів кластерів (центрів
мас).
Етап 4. Повне розбиття точок і розрахунок нових
центрів кластерів до сходження алгоритму
19
21. Реалізація кластерного аналізу в SAS
1 Крок – вибір змінних
Вхідні змінні повинні мати наступні властивості:
бути значимими для цілей аналізу;
бути відносно незалежними;
бути обмеженими по кількості;
бути інтервальними (тип Interval);
мати невеликі значення асиметрії та ексцесу
21
22. Встановлення ролей для змінних
Обрати кнопку Variables у властивостях вузла
CENSUS2000.
22
23. Встановлення ролей для змінних
Обрати змінні LосХ, LосУ і RegРор і встановити
роль Rejected
23
24. Попередній аналіз обраних змінних
Обрати змінні MeanHHSz, MedHHInc і RegDens і
натиснути Explore....
24
27. Трансформація даних для вирішення
проблеми асиметричності
Основні методи трансформації даних, які мають
додатну асиметрію:
квадратний корінь
логарифм
обернене значення (1/х)
27
28. Трансформація даних в SAS
Обрати вкладку Modify і перетягнути в область діаграми інструмент
Transform Variables, з'єднати його із вузлом фільтрації
28
29. Трансформація даних в SAS
Обрати властивість Formulas вузла Transform
Variables
29
30. Створення нової змінної
Необхідно натиснути кнопку Create і ввести
ім'я для створюваної змінної
30
31. Введення формули
Натиснути кнопку Build.... Відкриється вікно Expression Builder.
Обрати папку категорії Mathematical
Обрати формулу LOG(argument) і потім натиснути кнопку Insert.
31
32. Вибір змінної
Обрати вкладку Variables List, де вибрати змінну MedHHInc.
Натиснути Insert.
Натиснути кнопку ОК
32
33. Перегляд гістограми розподілу для
модифікованих даних
Оберіть щойно створену змінну та натисніть Generate Plot. Для
порівняння у верхній частині вікна оберіть відповідну змінну до
модифікації.
33
34. Результуючий графік
За бажанням можна збільшити кількість інтервалів осі Х гістограми,
викликавши контекстне меню графіку і обравши меню Graph Properties… та
встановивши величину кількість поділок горизонтальної осі (Horisontal)
рівною 100.
34
39. Налаштування елемента «Кластерний аналіз»
1. Стандартизація даних
Основні методи стандартизації в SAS:
Standardization
Range
Встановіть для властивості Internal
Standardization значення
Standardization
39
40. Методи об'єднання у кластери,
доступні у SAS
Загалом виділяють наступні найбільш поширені методи об'єднання у кластери:
Single linkage – метод «одиночного зв'язку»;
Complete linkage – метод «повного зв'язку»;
Unweighted pair group average – метод «середнього зв'язку»;
Weighted pair group average – зважений метод середнього зв'язку;
Unweighted pair group centroid – незважений центроїдний метод;
Weighted pair group centroid – зважений центроїдний метод;
Ward′s method – метод Уорда.
У SAS реалізовані наступні методи:
метод середнього зв'язку
центроїдний метод
метод Уорда.
40
43. Вибір оптимального числа кластерів
Крок 1. Дослідження процесу об'єднання
Максимізуйте вікно, яке містить інформацію щодо процесу об'єднання та зверніть увагу на
показник R-Square. Він відображає частку варіації вхідних даних, що описується кластерами
……
!
43
44. Вибір оптимального числа кластерів
Крок 2. Дослідження основних критеріїв, що характеризують
процес об'єднання
Критерії, що використовуються в SAS:
CCC (кубічний критерій кластеризації) - відображає відхилення фактичного значення
коефіцієнта R-квадрат, одержаного в результаті розбиття даних на кластери, від
очікуваного у випадку прийняття гіпотези, що дані відповідають рівномірному
розподілу, тобто формують один кластер. Наявність піків на графіку при кількості
кластерів більше 2 або 3 вказує на можливе оптимальне число кластерів. Значні
від'ємні значення величини можуть вказувати на наявність викидів.
Pseudo F Statistic – характеризує «компактність» кластерів. Це величина, що
відображає співвідношення міжгрупової та внутрішньогрупової варіації. Збільшення
даної величини вказує на наявність «гарних» кластерів. Важливими є піки на графіку.
Pseudo t-Squared – аналізується починаючи від більшого числа кластерів до меншого
(на графіку – справа наліво). Необхідно знайти перше таке значення, яке було б явно
вище за попереднє, тоді відповідне значення, яке знаходиться на одне значення назад
(правіше на графіку) відповідає оптимальному числу кластерів.
44
45. Вибір оптимального числа кластерів.
Статистика ССP
45
У вікні результатів аналізу оберіть View => Summary Statistics => CCC Plot
46. Побудова графіків критеріїв
У вікні результатів аналізу натисніть кнопку Plot…
Виберіть тип Line
Оберіть змінні по осям (кількість кластерів та критерій ССС відповідно) та назначте їм ролі Х та У.
Натисніть Finish.
Аналогічні дії проведіть для критеріїв Pseudo F і Pseudo T-Squared.
Для зручності відображення оберіть меню Window - > Tile.
46
48. Встановлення заданої кількості
сегментів
В меню Specification Method оберіть User Specify та встановіть кількість кластерів
рівною 4.
Запустіть процес кластерного аналізу на виконання
48
49. Дослідження структури кластерів
У властивостях вузла кластерного аналізу оберіть Explored Data
Оберіть набір даних Train та натисніть Explore…
49
50. Результуюче вікно
Для величини Fetch Size можна встановити Max і натиснути Apply. Це
збільшить розмір вибірки
50
51. Графічне представлення структури кластерів
Виберіть Actions => Plot.
У вікні Select a Chart Type оберіть тип Scatter (Діаграма розсіювання ) і вид діаграми -
тривимірна
Встановіть наступні ролі для змінних:
_SEGMENT_ - Color
MeanHHSz – X
MedHHInc – Y
RegDens – Z
Натисніть Finish
51
53. Детальне дослідження окремих сегментів
(побудова додаткових діаграм)
Виберіть Actions => Plot.
У вікні Select a Chart Type оберіть тип Bar
Встановіть наступні ролі для змінних:
_SEGMENT_ - Category
Натисніть Finish
Виберіть Actions => Plot.
У вікні Select a Chart Type оберіть тип
Scatter вид діаграми - двовимірна
Встановіть наступні ролі для змінних:
_SEGMENT_ - Color
LocX – X
LocY –Y
Натисніть Finish
53
56. Вибір змінних
За допомогою блоку властивостей оберіть Variable і визначте змінні,
які будуть приймати участь у профілюванні (LogMedHHInc,
MeanHHSz, RegDens, _SEGMENT_)
56
60. Характеристика кластерів
60
Кластер 1 (синій) Кластер 2 (сірий) Кластер 3
(рожевий)
Кластер 4
(червоний)
Дохід До 100 000 дол. До 100 000 дол. Від 0 до 60 000
тис.
Від 60 000 дол. і
вище
Розмір
сім’ї
1-3 чоловіки Від 3 і вище
(переважно
багатодітні сім’ї)
Від 1 до 3
чоловік
Від 1.5 до 4 чол.
Щільність
населення
Низька і середня Різна Вище середнього Вище середнього
Географія Приблизно
рівномірно
розподілені по
усій території
Переважно
східний та
північно-східний
регіони, західне
узбережжя
(скоріше за все
великі міста),
менше центр
Переважно
східні, південо- і
північно-східні
регіони
Переважно
східний та
північно-східний
регіони, західне
узбережжя
(скоріше за все
великі міста)