SlideShare a Scribd company logo
1 of 33
1
Общие модели дискриминантного анализа
Известно, что методы дискриминации можно условно разделить на пара-
метрические и непараметрические. Классический дискриминантный анализ
(DA) является параметрическим методом и, применяется в предположении, что
наблюдаемые величины непрерывные, измерены как минимум в интервальной
шкале, имеют нормальное распределение. Также предполагается, что диспер-
сии и ковариации наблюдаемых переменных в разных классах однородны. Ес-
ли перечисленные условия не выполняются, необходимо воспользоваться ме-
тодом общие модели дискриминантного анализа (GDA). Метод имеет такое
название, потому что в нем для анализа дискриминантных функций исполь-
зуется общая линейная модель (GLA). В этом методе анализ дискриминант-
ных функций рассматривается как общая многомерная линейная модель, в
которой категориальная зависимая переменная (отклик) представляется век-
торами с кодами, обозначающими различные группы. Например, если кате-
гориальная переменная Группа риска – принимает значения низкий, средний,
высокий и в методе DA эти значения можно кодировать целыми числами 1, 2,
3, то в методе GDA эти значения будут закодированы векторами (1, 0, 0), (0,
1, 0), (0, 0, 1):
Группа
риска
Коды
низкий 1 0 0
средний 0 1 0
высокий 0 0 1
Метод GDA обладает рядом существенных преимуществ перед классиче-
ским методом DA:
– не устанавливается никаких ограничений на тип используемого предик-
тора и на тип определяемой модели. Предикторы могут быть категориальными,
или непрерывными переменными. В методе GDA категориальные предикторы по
аналогии с методом общие линейные модели также называются факторами;
– предусмотрены опции для пошагового выбора предикторов и вы-
бора наилучшего подмножества предикторов на основе статистик F-
включить и p-включить;
– в таблице данных можно выделить кросс-проверочную выборку. В
этом случае выбор наилучшего подмножества предикторов можно провести
на основе долей ошибочной классификации для кросс-проверочной выборки,
такой способ выбора модели позволяет получать в итоге высокую точность
прогноза, избегая при этом переобучения;
– другой уникальной особенностью метода GDA является наличие
опций для построения и анализа профилей предсказанных значений отклика
и показателя желательности. Вычисляются предсказанные значения отклика,
полученные значения объединяются в один показатель желательности. Что-
2
бы наглядно показать «поведение» предсказанных откликов и показателя же-
лательности, для различных диапазонов значений предикторов можно стро-
ить различные графики – профили. Также метод позволяет строить профили
апостериорных вероятностей предсказания. Профили позволяют анализиро-
вать, насколько различные уровни предикторов влияют на классификацию
наблюдений, что в конечном итоге дает возможность определить комбина-
ции значений предикторов, которые максимизируют правдоподобие того, что
соответствующее наблюдение принадлежит тому или иному классу;
– в методе предусмотрена возможность включения категориальных
«ANOVA-подобных» эффектов в сложные ANOVA-подобные модели для пре-
дикторов. Возможно проведение поиска наилучшего подмножества предик-
торов для ANOVA-подобных эффектов.
Для ознакомления с возможностями метода GDA и технологии работы
с соответствующим модулем программы STATISTICA воспользуемся файлом
данных 50 предприятий малого и среднего бизнеса. Наша задача – исследо-
вать возможность использования GDA для идентификации группы риска не-
платежеспособности предприятий. В качестве независимых количественных
переменных – предикторов используем экономические показатели: коэффи-
циенты рентабельности (R1, R2, R3, R4), коэффициенты деловой активности
(А1, А2), коэффициенты ликвидности (L1, L2, L3). Категориальными предикто-
рами являются: Тип предприятия – малое, среднее; Сфера деятельности –
строительство, торговля, туризм. Группу риска неплатежеспособности
предприятия оценивали в порядковой шкале, поэтому в качестве зависимой
группирующей переменной – отклика в таблице данных использовали пере-
менную Группа риска с текстовыми значениями: низкий, средний, высокий
(рис. 1).
R1 R2 R3 R4 A1 A2 L1 L2 L3 Тип
предпр.
Сфера де-
ят.
Группа рис-
ка
1 21 36,2 76 20 3,79 140,0 64,7 6,80 0,34 малое строит. низкий
2 75 39,0 99 43 4,29 132,2 411,2 8,45 0,58 малое туризм высокий
3 18 37,7 79 20 3,83 141,5 61,5 6,87 0,36 среднее строит. низкий
4 30 38,1 90 26 4,01 141,7 171,5 5,31 0,41 малое строит. низкий
5 37 36,9 84 19 3,34 144,7 25,6 7,13 0,40 среднее торговля средний
6 32 37,5 85 20 3,58 139,2 36,4 6,83 0,35 среднее строит. низкий
7 37 41,4 99 42 3,68 134,9 328,7 7,52 0,49 малое туризм высокий
8 48 40,4 105 41 3,23 137,3 178,9 11,05 0,45 малое торговля высокий
9 31 39,6 93 32 4,22 138,2 127,7 6,06 0,48 среднее торговля средний
10 36 39,2 85 28 3,84 131,7 140,7 9,84 0,47 среднее туризм средний
11 42 40,3 88 31 3,94 126,5 116,1 9,13 0,50 малое строит. низкий
12 38 37,6 86 30 3,52 139,4 130,6 10,10 0,50 среднее туризм низкий
13 74 40,7 94 42 4,52 138,9 465,8 12,47 0,45 малое туризм высокий
14 46 39,2 90 26 4,49 144,9 124,4 8,39 0,47 среднее торговля средний
15 18 36,1 77 25 3,55 140,3 52,4 6,29 0,31 среднее строит. низкий
16 63 40,4 99 41 3,86 131,0 300,0 12,96 0,56 малое торговля высокий
17 67 39,1 103 36 4,18 132,1 360,2 11,76 0,54 малое торговля высокий
18 31 37,2 81 24 3,23 141,3 65,2 7,07 0,44 малое торговля средний
19 59 39,7 95 43 3,70 134,6 152,9 2,11 0,59 малое туризм высокий
20 32 37,3 77 17 3,88 144,7 65,9 6,79 0,37 среднее торговля средний
3
R1 R2 R3 R4 A1 A2 L1 L2 L3 Тип
предпр.
Сфера де-
ят.
Группа рис-
ка
21 33 38,4 76 15 3,87 140,7 58,6 5,71 0,39 среднее строит. низкий
22 58 39,7 98 41 3,00 133,3 218,2 8,46 0,51 малое туризм высокий
23 40 37,5 91 29 4,60 127,6 136,1 7,37 0,41 среднее строит. низкий
24 39 36,8 83 29 4,41 136,9 131,2 6,58 0,41 малое строит. средний
25 28 35,6 91 23 3,33 144,5 33,3 7,53 0,49 среднее торговля низкий
26 35 39,4 82 33 4,01 142,7 169,0 8,87 0,47 среднее торговля средний
27 44 37,8 89 33 4,71 139,2 80,3 9,63 0,45 среднее торговля средний
28 44 38,3 87 32 4,28 139,9 93,3 5,59 0,49 среднее торговля средний
29 43 39,6 93 35 4,29 140,5 142,5 4,76 0,48 малое туризм высокий
30 47 37,3 80 19 3,61 140,2 48,2 5,80 0,44 малое строит. низкий
31 76 41,3 106 44 4,66 136,9 298,8 10,91 0,49 малое туризм высокий
32 63 40,5 109 36 3,53 133,8 153,3 11,67 0,46 малое туризм высокий
33 68 38,9 99 40 3,89 136,1 354,0 11,65 0,43 малое торговля высокий
34 36 39,2 87 31 4,14 135,1 225,8 8,43 0,48 среднее торговля средний
35 47 41,0 82 30 4,37 139,9 158,2 11,99 0,47 малое торговля средний
36 30 37,5 73 19 3,63 138,6 51,6 5,28 0,46 среднее строит. низкий
37 38 39,4 90 30 4,23 135,2 112,0 7,00 0,43 малое торговля средний
38 41 40,5 81 32 4,80 127,4 216,5 8,36 0,37 среднее строит. низкий
39 44 38,4 83 29 3,93 143,1 202,2 6,82 0,45 среднее торговля средний
40 26 36,6 82 18 3,44 140,1 51,0 5,92 0,39 среднее строит. низкий
41 44 37,9 94 29 4,22 130,4 143,2 9,64 0,45 среднее торговля средний
42 65 39,9 105 39 4,84 131,4 273,5 6,01 0,41 малое туризм высокий
43 49 39,3 96 44 3,95 131,5 234,3 12,48 0,48 малое туризм высокий
44 46 37,8 80 27 3,57 138,2 206,9 6,06 0,50 среднее торговля средний
45 30 36,4 77 17 3,57 139,0 41,8 5,90 0,44 малое торговля средний
46 42 40,3 88 27 4,40 129,3 160,3 3,66 0,49 малое строит. низкий
47 54 39,9 95 40 3,70 138,3 144,4 3,85 0,48 малое туризм высокий
48 27 38,3 77 29 3,73 141,1 44,7 6,10 0,40 среднее строит. низкий
49 49 40,7 100 39 3,43 129,1 243,4 12,66 0,47 малое туризм высокий
50 34 39,9 95 23 4,41 133,6 157,9 14,11 0,45 среднее туризм средний
Рис. 1
Для более глубокого понимания структуры категориальных предикто-
ров и их взаимосвязи с группами рискам предприятий воспользуемся табли-
цами сопряженности. На рис. 2 представлена таблица со значением критери-
ев Пирсона Хи-квадрат, М-П Хи-квадрат, статистикой гамма и коэффициен-
том корреляции Спирмена для переменных Сфера деятельности и Группа
риска. Так как уровни значимости обоих критериев Хи-квадрат значительно
меньше, чем 0,05, а статистика гамма и корреляция Спирмена больше, чем
0,75, то ожидаемые частоты статистически значимо отличаются от наблю-
даемых. Следовательно, между сферой деятельности и группой риска пред-
приятий существует сильная взаимосвязь.
Статист.
Статистики: Сфера деят.(3) x
Группа риска(3) (Омда)
Хи-квадрат ст.св. p
Пирсона Хи-квадрат 55,87384 сс=4 p=,00000
М-П Хи-квадрат 56,02675 сс=4 p=,00000
Гамма ,9172611
Корр. Спирмена ,8068715 t=9,4632 p=,00000
Рис. 2
4
Для понимания структуры взаимосвязи следует обратиться к таблице
частот на рис. 3, из которой видно, что наибольший процент предприятий –
93,33% со сферой деятельности строительство принадлежит группе низкого
риска. Наибольший процент предприятий – 75 % со сферой деятельности
торговля принадлежит группе среднего риска. Наибольший процент пред-
приятий – 80 % со сферой деятельности туризм принадлежит группе высоко-
го риска.
Сфера деят.
2-входовая итоговая: наблюдаемые частоты (Омда)
Частоты выделенных ячеек > 10
Группа риска
низкий
Группа риска
средний
Группа риска
высокий
Всего
по стр.
строит. 14 1 0 15
строк.% 93,33% 6,67% 0,00%
торговля 1 15 4 20
строк.% 5,00% 75,00% 20,00%
туризм 1 2 12 15
строк.% 6,67% 13,33% 80,00%
Всего 16 18 16 50
Рис. 3
На рис. 4 представлена таблица со значением критериев Пирсона Хи-
квадрат, М-П Хи-квадрат, статистикой гамма и коэффициентом корреляции
Спирмена для переменных Тип рпедприятия и Группа риска. Так как уровни
значимости обоих критериев Пирсона Хи-квадрат и М-П Хи-квадрат значи-
тельно меньше, чем 0,05, а статистика гамма и корреляция Спирмена по аб-
солютной величине близки к 0,75 (рис. 4), то ожидаемые частоты статистиче-
ски значимо отличаются от наблюдаемых, следовательно, между полом и
группа рискам предприятий существует близкая к сильной взаимосвязь.
Статист.
Статистики: Тип предприятия(2)
x Группа риска(3) (Омда)
Хи-квадрат ст.св. p
Пирсона Хи-квадрат 21,76037 сс=2 p=,00002
М-П Хи-квадрат 28,08961 сс=2 p=,00000
Гамма -,742063
Корр. Спирмена -,550441 t=-4,568 p=,00003
Рис. 4
Для анализа структуры взаимосвязи воспользуемся таблицей частот на
рис. 5, из которой видно, что наибольший процент предприятий малого биз-
неса – 61,54% относится к группе высокого риска. Наибольший процент
предприятий среднего бизнеса – 54,17% относится к группе среднего риска.
Тип предприятия
2-входовая итоговая: наблюдаемые частоты (Омда)
Частоты выделенных ячеек > 10
Группа риска
низкий
Группа риска
средний
Группа риска
высокий
Всего
по стр.
малое 5 5 16 26
строк.% 19,23% 19,23% 61,54%
среднее 11 13 0 24
5
Тип предприятия
2-входовая итоговая: наблюдаемые частоты (Омда)
Частоты выделенных ячеек > 10
Группа риска
низкий
Группа риска
средний
Группа риска
высокий
Всего
по стр.
строк.% 45,83% 54,17% 0,00%
Всего 16 18 16 50
Рис. 5
Таким образом, категориальные предикторы Сфера деятельности и
Тип предприятия взаимосвязаны с откликом Группа риска, поэтому целесо-
образно для оценки состояния предприятий включить в модель дискримина-
ции эти категориальные предикторы.
Щелкнем по кнопке Анализ на панели инструментов и, выберем коман-
ду Многомерный разведочный анализ, в появившемся меню – Общие модели
дискриминантного анализа (рис. 6). Откроется стартовое окно, в рамке Вид
анализа следует выбрать Общий дискриминантный анализ, в рамке Задание
анализа – Диалог (рис. 7) и щелкнуть по ОК. В появившемся диалоге (рис. 8)
надо нажать на кнопку Переменные и выделить переменные в соответствии с
рис. 9. Если щелкнуть по ОК и в диалоге на рис. 8 указать коды зависимой
переменой и коды факторов (предикторов), то диалог Общий дискриминант-
ный анализ примет вид, представленный на рис. 10.
Рис. 6
6
Рис. 7
Рис. 8
Рис. 9
7
Рис. 10
В соответствии с диалогом на рис. 10, при построении модели дискри-
минации в качестве эффектов по умолчанию будут использованы все непре-
рывные предикторы, оба категориальных предиктора и их комбинация
(взаимодействие). Если пользователя интересуют не все эффекты, или до-
полнительные эффекты, являющиеся комбинациями непрерывных и катего-
риальных предикторов, то следует щелкнуть по кнопке Эффекты. В от-
крывшемся окне Эффекты в плане (рис. 11) надо выбрать опцию Использо-
вать пользовательские эффекты в плане, тогда в рамке Предикторы актив-
ными станут поля Категориальные и Непрерывные, в которых указываются
имена предикторов. Далее надо в рамке Метод нажать на кнопку Добавить,
в поле Эффекты в плане появятся названия предикторов. Если нажать на
кнопку Взаимодействие, появится взаимодействие предикторов. Если щелк-
нуть по кнопке Полный факторный, программа высветит факторный план, в
соответствии с которым будет проведен дискриминантный анализ. Выберем
опцию Использовать стандартные эффекты в плане, щелкнем по ОК чтобы
вернуться в диалог на рис.10.
Рассмотрим опции вкладки Дополнительно (рис. 12). В рамке Априор-
ные вероятности задаются способы вычисления априорных вероятностей,
которые используются для классификации наблюдений на основе текущего
множества предикторов. Опция Пропорциональные размерам означает, что
априорные вероятности пропорциональны размерам классов, которые опре-
деляются зависимой переменной – откликом. Например, если имеется три
класса наблюдений и в каждом классе соответственно 20, 30 и 50 наблюде-
ний, то априорные вероятности будут равны соответственно 0,2, 0,3, 0,5. Оп-
ция Равные присваивает априорным вероятностям одинаковые значения. На-
пример, если три группы наблюдений, то априорные вероятности будут
равны 1/3 для каждой группы. Опция Пользователя предполагает задание
априорных вероятностей пользователями, она не доступна, если на вкладке
Быстрый указаны коды отклика.
8
Рис. 11
Кнопка Кросс-проверка вызывает одноименный диалог, в котором
можно задать категориальную переменную-идентификатор и кодовое значе-
ние, определяющее наблюдения, которые необходимо использовать в вычис-
лениях при подгонке модели.
Рис. 12
В поле Опции построения модели можно задать способы построения
моделей для дискриминантного анализа:
9
– Все эффекты, все эффекты одновременно вводятся в текущий план;
– Пошаговый с включением, эффекты добавляются, или исключаются в
модель последовательно на основе текущих значений параметров p или F;
– Пошаговый с исключением, начальная модель состоит из всех эффек-
тов, которые затем в процессе реализации метода будут последовательно уда-
ляться, или добавляться на основе текущих значений параметров p или F;
– Только с включением, эффекты будут только включаться в модель;
– Только с исключением, эффекты будут только исключаться из модели;
– Лучшие подмножества. Среди всех допустимых подмножеств эф-
фектов, заданных в текущем плане анализа, выбирается лучшее подмножест-
во при заданном числе эффектов. Если в модели много эффектов, то общее
число всевозможных подмножеств может быть очень большим. Поэтому по-
иск наилучшего подмножества необходимо проводить очень осторожно.
В поле Количество эффектов указывается количество эффектов, при-
нудительно включенных в каждую построенную программой модель. Если
указано k эффектов, то первые k эффектов в плане будут принудительно до-
бавлены во все рассматриваемые модели.
Дельта выметания, Дельта обращения – параметры математических
моделей, которые используются для построения матрицы выметания и про-
верки сингулярности при обращении матрицы.
Опции Лямбда Уилкса, Ошибки анализа, Ошибки кросс-проверки опре-
деляют критерии выбора наилучшего подмножества – по значению параметра
лямбда Уилкса, по долям ошибочной классификации всех наблюдений и по
долям ошибочной классификации кросспроверочной выборки. Статистика
лямбда Уилкса для общей дискриминантной модели вычисляется как отноше-
ние детерминанта матрицы межгрупповой дисперсии к детерминанту матрицы
общей дисперсии. Доля ошибок классификации вычисляется как число оши-
бок при классификации наблюдений, деленное на общее число наблюдений.
В рамке Опции построения модели выберем опцию Все эффекты (в
версии 10 при выборе опции Лямбда Уилкса, выбор опции Лучшие подмно-
жества невозможен, появляется сообщение об ошибке).
Щелкнем по ОК, появится диалог Результаты 1 на вкладке Быстрый,
перейдем на вкладку Эффекты (рис. 13) и щелкнем по кнопке Все эффекты.
При желании для оценки эффектов кроме лямбды Уилкса можно выбрать в
рамке Критерии многомерные критерии: Пиллая, Хотеллинга, Роя. Если
щелкнуть по кнопке Все эффекты, то появится таблица результатов много-
мерного дискриминантного анализа со статистиками лямбда Уилкса для каж-
дого показателя (рис. 14). Значение лямбды Уилкса показывает, каким будет
лямбда Уилкса модели, если из нее исключить соответствующий предиктор.
Поэтому, чем ближе значение критерия к 1, тем менее значим предиктор в
модели. Из таблицы видно, что наименее значимым предиктором является
L2. По критерию лямбда Уилкса значимыми будут эффекты количественные
предикторы R3, A1 (уровни значимости р критерия Фишера (F) меньше, чем
0,05) и эффекты обоих категориальных предикторов с их взаимодействием.
10
Это означает, что данные предикторы будут иметь наибольшее влияние на
определение принадлежности предприятий к определенной группе по со-
стоянию – низкий, средний, высокий. Эффекты, для которых уровни значимо-
сти р критериев значительно больше, чем 0,05, из модели можно исключить.
Рис. 13
Эффект
Многомерные критерии значимости (Омда)
Сигма-ограниченная параметризация
Декомпозиция гипотезы
Крит. Знач. F Эффект
сс
Ошибка
сс
p
Св.член Уилкса 0,898304 1,92455 2 34 0,161509
Тип пред.*Сфера деят. Уилкса 0,598763 4,96956 4 68 0,001420
Тип пред. Уилкса 0,678632 8,05038 2 34 0,001373
Сфера деят. Уилкса 0,273394 15,51278 4 68 0,000000
R1 Уилкса 0,926201 1,35454 2 34 0,271639
R2 Уилкса 0,979234 0,36051 2 34 0,699952
R3 Уилкса 0,706398 7,06575 2 34 0,002715
R4 Уилкса 0,919289 1,49255 2 34 0,239159
A1 Уилкса 0,765109 5,21907 2 34 0,010551
A2 Уилкса 0,917111 1,53646 2 34 0,229707
L1 Уилкса 0,886950 2,16682 2 34 0,130101
L2 Уилкса 0,995570 0,07564 2 34 0,927304
L3 Уилкса 0,924166 1,39496 2 34 0,261668
Рис. 14
11
Исключим только предиктор L2, что соответствует лучшей модели, ес-
ли бы мы подбирали модель при помощи опции Лучшие подмножества (рис.
12). Таблица со значениями критерия Лямбда Уилкса, критерия Фишера и
уровня значимости р отображена на рис. 15.
Эффект
Многомерные критерии значимости (Омда)
Сигма-ограниченная параметризация
Декомпозиция гипотезы
Крит. Знач. F Эффект
сс
Ошибка
сс
p
Св.член Уилкса 0,897249 2,00406 2 35 0,149960
R1 Уилкса 0,928741 1,34272 2 35 0,274254
R2 Уилкса 0,979497 0,36631 2 35 0,695914
R3 Уилкса 0,701203 7,45711 2 35 0,002006
R4 Уилкса 0,919308 1,53605 2 35 0,229388
A1 Уилкса 0,760260 5,51843 2 35 0,008257
A2 Уилкса 0,915921 1,60645 2 35 0,215038
L3 Уилкса 0,926054 1,39738 2 35 0,260697
L1 Уилкса 0,883845 2,29985 2 35 0,115235
Тип пред. Уилкса 0,636875 9,97793 2 35 0,000372
Сфера деят. Уилкса 0,263460 16,59419 4 70 0,000000
Тип пред.*Сфера деят. Уилкса 0,569846 5,68245 4 70 0,000509
Рис. 15
Для более полного понимания модели дискриминации, целесообразно
щелкнуть по кнопке Члены плана.
Появится таблица Метки столбцов (рис. 15), при помощи которой лег-
ко определить, как закодированы категориальные переменные в общей дис-
криминационной модели. Для кодирования категориальных предикторов в
модуле использована сигма-ограниченная параметризация, при которой каж-
дый эффект представляется в виде совокупности одноименных двухуровне-
вых переменных. Например, так как предиктор Тип предприятия имеет два
уровня, то он и представляется с двумя уровнями: малое, среднее. Предиктор
Сфера деятельности состоит из 3 уровней, поэтому представляется в виде 2
одноименных двухуровневых переменных: Сфера деятельности (строи-
тельство, туризм); Сфера деятельности (торговля, туризм). При этом
уровню 1 присваивается числовое значение 1, а уровню 2 – числовое значе-
ние 0. Например, если рассматривается предиктор Тип предприятия, то аль-
тернативным значениям предиктора малое, среднее будут присвоены соот-
ветственно значения 1 и 0, которые будут представлять количественные раз-
личия между группами наблюдений (предприятий) малое, среднее. Предик-
тор Сфера деятельности в строке 12 таблицы имеет 2 значения строитель-
ство, туризм, которые соответственно будут закодированы как 1 и 0. Этот
же предиктор в строке 13 имеет 2 значения торговля, туризм, которые также
будут закодированы как 1 и 0.
12
Метка
Метки столбцов (Омда)
Метки для столбцов матрицы плана X
Ст-ц Перемен. Уровень
Перемен.
от
Уров.
Перемен. Уровень
Перемен.
от
Уров.
Св.член 1
R1 2 R1
R2 3 R2
R3 4 R3
R4 5 R4
A1 6 A1
A2 7 A2
L1 8 L1
L2 9 L2
L3 10 L3
Тип пред. 11 Тип пред. малое среднее
Сфера деят. 12 Сфера деят. строит. туризм
Сфера деят. 13 Сфера деят. торговля туризм
Тип пред.*Сфера деят. 14 Тип пред. малое среднее Сф. деят. строит. туризм
Тип пред.*Сфера деят. 15 Тип пред. малое среднее Сф. деят. торговля туризм
Рис. 15
Значения сложных эффектов Тип предприятия *Сфера деятельности в
строке 14 и 15 также кодируются числами 1 и 0, которые являются результа-
тами умножения соответствующих числовых значений предикторов Тип
предприятия , Сфера деятельности. Так, для Тип предприятия*Сфера дея-
тельности в строке 14 возможны следующие 4 комбинации ма-
лое*строительство, малое*туризм, жен*строительство, жен*туризм, ко-
торые в регрессионных моделях принимают следующие значения: 1·1 =1, 1·0
= 0, 0·1 = 0, 0·0 = 0. Для Тип предприятия * Сфера деятельности в строке 15
возможны другие 4 комбинации малое* торговля, малое*туризм, жен* тор-
говля, жен*туризм, которые в регрессионных моделях принимают значения:
1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. При этом, сумма всех значений каждого про-
стого и сложного эффекта равна 1.
Если нажать на кнстроительствоку Коэффициенты, программа по-
строит таблицу, содержащую оценки параметров регрессионных моделей, их
стандартизованные оценки, стандартные ошибки, уровни значимости (p) и со-
ответствующие статистики t-критерия для всех значений отклика. Как было
отмечено ранее, в общей многомерной линейной модели значения отклика
представляются векторами с кодами. Так состоянию низкий соответствует
вектор (1, 0, 0), состоянию средний – вектор (0, 1, 0), состоянию высокий –
вектор (0, 0, 1). В методе ODA строятся общие линейные модели, позволяю-
щие для каждого объекта вычислить предсказанные координаты вектора. В
соответствии с предсказанными координатами вектора можно решать задачу
классификации объектов. В нашем случае, правило достаточно простое.
Предположим, для некоторого предприятия вычислены прогнозные значения
координат вектора (x, y, z). Если наиболее близкое к 1 значение принимает x,
то предприятие следует отнести к группе низкий, если наиболее близкое к 1
значение принимает y, то предприятие следует отнести к группе средний, если
13
наиболее близкое к 1 значение принимает z, то предприятие следует отнести
к группе высокий. Координаты векторов x, y, z могут принимать отрицатель-
ные значения, но их сумма должна быть равна 1, т.е., x + y + z = 1.
На рис. 17 приведен фрагмент сокращенной таблицы с оценками пара-
метров – коэффициентов линейной модели.
Оценки параметров (Омда)
Сигма-ограниченная параметризация
Эффект
Уровень
Эффект
Столбец низкий
Парам.
низкий
p
средний
Парам.
средний
p
высокий
Парам.
высокий
p
Св.член
R1
R2
R3
R4
A1
A2
L3
L1
Тип пред.
Сфера деят.
Сфера деят.
Тип пред.*Сфера деят.
Тип пред.*Сфера деят.
1 -1,08449 0,632554 3,62708 0,147386 -1,54260 0,261246
2 -0,00301 0,540047 -0,00172 0,748038 0,00473 0,114808
3 -0,02168 0,544031 0,03272 0,401495 -0,01105 0,606567
4 0,00931 0,192772 -0,02386 0,003519 0,01455 0,001435
5 -0,00389 0,684973 -0,00623 0,551181 0,01012 0,085029
6 -0,09300 0,333292 0,26662 0,014064 -0,17363 0,004315
7 0,00998 0,315708 -0,01789 0,102629 0,00791 0,187817
8 1,54457 0,098777 -1,38107 0,172733 -0,16350 0,767048
9 0,00013 0,826885 -0,00090 0,180469 0,00077 0,041973
малое 10 -0,10263 0,036515 -0,01804 0,728042 0,12067 0,000145
строит. 11 0,61633 0,000000 -0,58085 0,000000 -0,03548 0,437927
торговля 12 -0,37569 0,000000 0,43176 0,000000 -0,05608 0,096828
1 13 -0,00791 0,893654 0,17807 0,008572 -0,17016 0,000026
2 14 0,06717 0,206756 -0,08662 0,136708 0,01945 0,539489
Рис. 17
В столбцах низкий Парам., средний Парам., высокий Парам. приведены
коэффициенты уравнений для вычисления координат х1, х2, х3. Уровни значи-
мости р показывают статистическую значимость эффектов в модели. Эффекты
статистически значимы в модели, если р меньше 0,05. Оценки параметров –
коэффициенты, также характеризуют силу и характер вклада эффектов в опре-
деление принадлежности предприятий к той или иной группе. Например, эф-
фекты R3, К являются определяющими, т.е. наиболее информативными при-
знаками для групп предприятий средний, высокий (р < 0,05). При этом эффект
R3, для группы средний имеет преимущественно меньшие значения (параметр
имеет отрицательный знак), а для группы высокий – большие значения (пара-
метр имеет положительный знак). Эффект К наоборот, для группы средний
имеет преимущественно большие значения, а для группы высокий – меньшие
значения. Эффект Тип предприятия является определяющим признаком для
групп низкий, высокий; эффект Сфера деятельности – для групп низкий и
средний; эффект Тип предприятия *Сфера деятельности – для групп средний,
высокий.
Общие линейные уравнения имеют вид:
x = –1,0845 – 0,003R1 – 0,0217R2 + 0,0093R3 – 0,0039R4 – 0,093А1 + 0,01А2 +
0,00013L1 + 1,5446L3 – 0,1026Тип предприятия + 0,6163Форма
течения1 – 0,3757Сфера деятельности2 – 0,0079Тип предприятия *Сфера
деятельности1 + 0,0671Тип предприятия *Сфера деятельности2;
14
y = 3,62 – 0,002R1 + 0,03R2 – 0,02R3 – 0,006R4 + 0,266 А1 – 0,02А2 – 0,0009L1
– 1,38L3 – 0,01Тип предприятия – 0,58Сфера деятельности1 + 0,43Сфера
деятельности2 + 0,17Тип предприятия *Сфера деятельности1 – 0,09Тип
предприятия *Сфера деятельности2;
z = – 1,54 + 0,004R1 – 0,01R2 + 0,01R3 + 0,01R4 – 0,17 А1 + 0,008А2 +
0,0008L1 – 0,16L3 + 0,12Тип предприятия – 0,04Сфера деятельности1 –
0,06Сфера деятельности2 – 0,17Тип предприятия *Сфера деятельности1 +
0,02Тип предприятия *Сфера деятельности2.
В качестве примера вычислим предсказанные по моделям координаты
вектора (х1, х2, х3) для предприятия №1, подставив в каждое линейное уравне-
ние значение показателей предприятия: R1 – 21; Тип предприятия – малое;
Сфера деятельности – строительство; R2 – 36,2; R3 – 76; R4 – 20; А1 – 3,79;
А2 – 140,03; L1 – 64,67; L3 – 0,34:
x = –1,0845 – 0,003·21 – 0,0217·36,2 + 0,0093·76 – 0,0039·20 – 0,093·3,79 +
0,01·140,03 + 0,00013·64,67 + 1,5446·0,34 – 0,1026·1 + 0,6163·1 – 0,3757·0 –
0,0079·1 + 0,0671·0 = 0,7829
y = 3,627 – 0,0017·21 + 0,0327·36,2 – 0,0239·76 – 0,0062·20 + 0,2666·3,79 –
0,0179·140,03 – 0,0009·64,67 – 1,381·0,34 – 0,018·1 – 0,5809·1 + 0,4318·0 +
0,1781·1 – 0,0866·0 = 0,3899
z = – 1,5426 + 0,0047·21 – 0,011·36,2 + 0,0145·76 + 0,0101·20 – 0,1736·3,79 +
0,0079·140,03 + 0,0008·64,67 – 0,1635·0,34 + 0,1207·1 – 0,0354·1 – 0,056·0 –
0,1701·1 + 0,0195·0 = – 0,1804
При этом, x + y + z = 0,9924, учитывая погрешности при округлении x +
y + z = 1. Так как x = 0,7829 имеет значение, наиболее близкое к 1, то пред-
приятие следует отнести к группе низкого риска. Классификация наблюде-
ний (предприятий) посредством значений координат вектора, позволяет уви-
деть пограничное группа риска наблюдения (предприятия). Например, если
некоторому больному соответствует вектор с прогнозными значениями ко-
ординат (0,5, 0,45, 0,05), то предприятие автоматически будет отнесено к
группе низкий. Но при этом, очевидно, что он находится в пограничном со-
стоянии, близком к группе средний.
Если нажать на кнопку Одномерные результаты, то откроется таблица
(рис. 18), в которой приведены одномерные результаты стандартного диспер-
сионного анализа, по которым также можно судить о роли эффектов в опре-
делении принадлежности предприятий к той или иной группе. Чем больше
значение статистики SS (сумма квадратов отклонений, обусловленная разли-
чием средних значений между группами), тем больше вклад эффекта в про-
цедуру дискриминации.
15
Одномерные результаты для каждой ЗП (Омда)
Сигма-ограниченная параметризация
Декомпозиция гипотезы
Эффект
Степени
Свободы
низкий
SS
низкий
p
средний
SS
средний
p
высокий
SS
высокий
p
Св.член
R1
R2
R3
R4
A1
A2
L3
L1
Тип пред.
Сфера деят.
Тип пред.*Сфера деят.
Ошиб.
Всего
1 0,01261 0,632554 0,14110 0,147386 0,02552 0,261246
1 0,02076 0,540047 0,00674 0,748038 0,05117 0,114808
1 0,02035 0,544031 0,04639 0,401495 0,00529 0,606567
1 0,09556 0,192772 0,62793 0,003519 0,23358 0,001435
1 0,00907 0,684973 0,02330 0,551181 0,06145 0,085029
1 0,05217 0,333292 0,42882 0,014064 0,18185 0,004315
1 0,05616 0,315708 0,18054 0,102629 0,03531 0,187817
1 0,15578 0,098777 0,12454 0,172733 0,00175 0,767048
1 0,00263 0,826885 0,12006 0,180469 0,08713 0,041973
1 0,25592 0,036515 0,00790 0,728042 0,35377 0,000145
2 4,25382 0,000000 4,47619 0,000000 0,12151 0,057206
2 0,09312 0,432356 0,53306 0,024056 0,46774 0,000105
36 1,95275 2,31690 0,70529
49 10,88000 11,52000 10,88000
Рис. 18
Если уровень значимости р меньше, чем 0,05, то вклад эффекта стати-
стически значим. Так, наибольший статистически значимый вклад в проце-
дуру дискриминации для группы низкий у эффекта Сфера деятельности (SS
= 4,25), далее у эффекта Тип предприятия (SS = 0,25). Наибольший статисти-
чески значимый вклад в процедуру дискриминации для группы средний у
эффекта Сфера деятельности (SS = 4,47), далее у эффектов R3 (SS = 0,628);
Тип предприятия *Сфера деятельности (SS = 0,533), А1 (SS = 0,428). Наи-
больший статистически значимый вклад в процедуру дискриминации для
группы высокий у эффекта Тип предприятия *Сфера деятельности (SS =
0,468), далее у эффектов Тип предприятия (SS = 0,354), R3 (SS = 0,234), А1
(SS = 0,182), L1 (SS = 0,087). Обратите внимание, что одномерные результаты
не противоречат оценкам параметров регрессии, приведенным в таблице на
рис. 17.
Наиболее информативной по результатам дискриминантного анализа
является вкладка Функции (рис.19). Рассмотрим ее функциональные воз-
можности. Если нажать на кнопки Средние в классах для предикторов,
Стандартные отклонения в классах для предикторов, модуль отобразит таб-
лицы результатов со средними (рис. 20) и стандартными отклонениями (рис.
21) для эффектов каждого класса отклика Группа риска. Для эффектов кате-
гориальных предикторов статистики будут вычислены в соответствии с
принципами сигма-ограниченной параметризации. Например, из представ-
ленных таблиц следует, что средние значения R1 в группах низкий, средний,
высокий составляют соответственно 32, 39 и 59. При этом наибольший раз-
брос R1 соответствует группе высокий, так как стандартное отклонение, рав-
ное 11,81, принимает наибольшее значение. Наименьший разброс R1 соот-
ветствует группе средний, так как стандартное отклонение, равное 5,82, при-
нимает наименьшее значение. Наибольшее среднее значение R2 соответству-
ет группе высокий (40), наименьшее – группе низкий (37,85), и т.д.
16
Рис. 19
Эффект
Средние в классах для предикторов (Омда)
Сигма-ограниченная параметризация
Уровень
Эффект
Столбец низкий
p=,3200
средний
p=,3600
высокий
p=,3200
Общее
Средн
R1 1 32,0407 38,6365 59,2879 43,1343
R2 2 37,8535 38,4266 40,0291 38,7560
R3 3 82,4756 85,5945 99,7704 89,1327
R4 4 23,9575 27,2452 40,3108 30,3741
A1 5 3,8510 4,0476 3,9212 3,9442
A2 6 137,3853 138,8128 134,4970 136,9750
L3 7 0,4140 0,4509 0,4928 0,4525
L1 8 89,5921 126,1867 266,2487 159,2963
Тип пред. 1 9 -0,3750 -0,4444 1,0000 0,0400
Сфера деят. 1 10 0,8125 -0,0556 -0,7500 0,0000
Сфера деят. 2 11 0,0000 0,7222 -0,5000 0,1000
Тип пред.*Сфера деят. 1 12 -0,1875 0,1667 -0,7500 -0,2400
Тип пред.*Сфера деят. 2 13 0,0000 -0,2778 -0,5000 -0,2600
Рис. 20
Эффект
Стандартные отклонения в классах для предикторов (Омда)
Сигма-ограниченная параметризация
Уровень
Эффект
Столбец низкий
N=16,00
средний
N=18,00
высокий
N=16,00
Всего
N=50,00
R1 1 8,74296 5,82221 11,8113 14,5151
R2 2 1,47279 1,26293 0,7828 1,4967
17
Эффект
Стандартные отклонения в классах для предикторов (Омда)
Сигма-ограниченная параметризация
Уровень
Эффект
Столбец низкий
N=16,00
средний
N=18,00
высокий
N=16,00
Всего
N=50,00
R3 3 6,10189 5,41053 4,7419 9,1901
R4 4 5,33744 5,24055 2,8264 8,3652
A1 5 0,41856 0,40999 0,5138 0,4469
A2 6 5,94120 4,39060 3,2527 4,9023
L3 7 0,06069 0,03174 0,0522 0,0577
L1 8 57,01878 56,67459 100,2542 104,4546
Тип пред. 1 9 0,95743 0,92178 0,0000 1,0093
Сфера деят. 1 10 0,54391 0,41618 0,4472 0,7825
Сфера деят. 2 11 0,36515 0,66911 0,8944 0,8391
Тип пред.*Сфера деят. 1 12 0,98107 0,38348 0,4472 0,7440
Тип пред.*Сфера деят. 2 13 0,36515 0,95828 0,8944 0,8033
Рис. 21
Если нажать на кнопку Хи-квадрат критерий для удаленных корней,
программа отобразит таблицу (рис. 22) с пошаговым критерием для канони-
ческих корней (дискриминантных функций). Первая строка содержит резуль-
таты оценки критерия значимости для всех корней. Во второй строке приве-
дены оценки значимости корней, оставшихся после удаления первого корня,
и т.д. Таблица позволяет определить необходимое для дискриминантного
анализа количество дискриминантных функций. В столбцах таблицы указано
число удаленных корней, собственные значения, канонические корреляции,
значения лямбды Уилкса, критерия χ2
и соответствующие им уровни значи-
мости р. Из данных таблицы следует, что оба канонических корня (обе дис-
криминантные функции) статистически значимы, так как уровни значимости
р критерия Хи-квадрат в обеих строках таблицы меньше, чем 0,05.
Удал.
Критерии хи-квадрат с последовательно удаленными корнями
(Омда)
Сигма-ограниченная параметризация
Собст-
знач.
Канон.
R
Уилкса
Лямбда
Хи-квад. сс p-ур.
0 14,83974 0,967919 0,014629 173,2160 26,00000 0,000000
1 3,31570 0,876520 0,231712 59,9526 12,00000 0,000000
Рис. 22
Параметры дискриминантных функций доступны, если воспользовать-
ся кнопками Стандартизованные коэффициенты, или Исходные коэффици-
енты. Дискриминантные функции представляют собою общие линейные мо-
дели, так как содержат уровни категориальных эффектов. Стандартизован-
ные коэффициенты (k) (рис. 23) вычисляются по стандартизованным (норми-
рованным) исходным данным, поэтому принадлежат к одной и то же абсо-
лютной шкале измерений. Сравнивая их между собою (больше, меньше)
можно определить величины и направления вкладов соответствующих эф-
фектов в дискриминантную функцию. В таблице приведены собственные зна-
чения для каждой дискриминантной функции и кумулятивная доля объяс-
ненной дисперсии (Кумулятивный процент), накопленной каждой функцией.
18
Из таблицы следует, что дискриминантная функция 1 ответственна за 81,7%
объясненной дисперсии, т. е. 81,7% всей дискриминирующей мощности при-
ходится на эту функцию. На дискриминантную функцию 2 приходится всего
100% – 81,7% = 8,3%. Поэтому Функция 1 значительно более важна для клас-
сификации предприятий, чем Функция 2.
Из таблицы на рис. 23 следует, что наибольший вклад в дискрими-
нантную функцию 1 вносят эффекты Тип предприятия *Сфера деятельности
(k = 0,89), далее, Тип предприятия (k = – 0,82), R3 (k = – 0,58), А1 (k = 0,58), и
т.д. При этом, если эффект Тип предприятия *Сфера деятельности в строке
14 принимает значение малое*строительство, то значение дискриминант-
ной функции увеличивается, при всех других комбинациях – уменьшается;
если эффект Тип предприятия принимает значение малое, то значение дис-
криминантной функции уменьшается; если эффект R3 возрастает, то значе-
ние дискриминантной функции увеличивается; если эффект А1 возрастает, то
значение дискриминантной функции также возрастает и т.д.
Эффект
Стандартизованные коэф. канонической
дискриминантной функции (Омда)
Сигма-ограниченная параметризация
Уровень
Эффект
Столбец Функция
1
Функция
2
Св.член 1 0,00000 0,00000
R1 2 -0,36911 -0,01835
R2 3 0,08214 -0,18727
R3 4 -0,58831 0,52768
R4 5 -0,39573 0,04574
A1 6 0,58585 -0,47345
A2 7 -0,25100 0,37202
L3 8 0,13819 0,39631
L1 9 -0,44557 0,23037
Тип пред. малое 10 -0,82915 -0,15112
Сфера деят. строит. 11 0,41529 1,55723
Сфера деят. торговля 12 0,05876 -1,53325
Тип пред.*Сфера деят. 1 13 0,88675 -0,37303
Тип пред.*Сфера деят. 2 14 -0,07249 0,34415
Собс.знач. 14,83974 3,31570
Кум.Проп. 0,81737 1,00000
Рис. 23
Исходные коэффициенты могут быть использованы для вычисления
значений дискриминантной функции для каждого предприятия. В соответст-
вии со значениями коэффициентов в таблице на рис. 24 общие модели дис-
криминантных функций имеют вид:
Функция 1 = 13,62 – 0,04R1 + 0,07 R2– 0,11R3 – 0,09R4 + 1,31А1 – 0,05А2 –
0,01L1 + 2,81L3 – 1,07Тип предприятия + 0,88Сфера деятельности1 +
0,09Сфера деятельности2 + 1,36Тип предприятия *Сфера деятельности1 –
0,09Тип предприятия *Сфера деятельности2
19
Функция 2 = – 13,62 – 0,002R1 – 0,15 R2 + 0,1R3 + 0,01R4 – 1,06 А1 + 0,08А2 +
0,003L1 + 8,07L3 – 0,19Тип предприятия + 3,31Сфера деятельности1–
2,26Форма течени2– 0,57Тип предприятия *Сфера деятельности1+ 0,43Тип
предприятия *Сфера деятельности2
Эффект
Исходные коэффициенты канонической
дискриминантной функции (Омда)
Сигма-ограниченная параметризация
Уровень
Эффект
Столбец Функция
1
Функция
2
Св.член 1 13,62439 -13,5897
R1 2 -0,04097 -0,0020
R2 3 0,06787 -0,1547
R3 4 -0,10805 0,0969
R4 5 -0,08520 0,0098
A1 6 1,30684 -1,0561
A2 7 -0,05399 0,0800
L3 8 2,81444 8,0716
L1 9 -0,00606 0,0031
Тип пред. малое 10 -1,07054 -0,1951
Сфера деят. строит. 11 0,88361 3,3133
Сфера деят. торговля 12 0,08665 -2,2611
Тип пред.*Сфера деят. 1 13 1,36149 -0,5727
Тип пред.*Сфера деят. 2 14 -0,09133 0,4336
Собс.знач. 14,83974 3,3157
Кум.Проп. 0,81737 1,0000
Рис. 24
Подставляя в выписанные уравнения значения показателей произволь-
ного предприятия, легко посчитать значения дискриминантных функций.
При этом следует учитывать значения категориальных предикторов в соот-
ветствии с сигма-ограниченной параметризацией. По-сути, вычисление двух
дискриминантных функций означает перенос предприятий из пространства
размерности 11 (каждое предприятие характеризуется 11 параметрами, по-
этому является точкой в пространстве размерности 11) в пространство раз-
мерности 2, т.е. на плоскость, максимально сохраняя при этом сходство (раз-
личие) между группами предприятий по отклику Группа риска (низкий, сред-
ний, высокий).
Если нажать на кнопку Коэффициенты факторной структуры, мо-
дуль отобразит объединенные межклассовые коэффициенты корреляции для
эффектов с обеими дискриминантными функциями (рис. 25). Коэффициенты
корреляции (r) оценивают степень и направление взаимосвязи эффектов и
дискриминантных функций. Так наибольшая взаимосвязь с дискриминант-
ной функцией 1 у эффекта R4 (r = – 0,39), далее R3 (r = – 0,36), Сфера дея-
тельности строительство (r = 0,31) и т.д. Наибольшая взаимосвязь с дис-
криминантной функцией 2 у эффекта Сфера деятельности строительство
(r = 0,37), Сфера деятельности торговля (r = –0,28) и т.д. Положительный
знак означает, что с увеличением эффекта значение дискриминантной функ-
ции Возрастает, отрицательный знак – наоборот, значение дискриминантной
20
функции убывает. Но это справедливо для статистически значимых корреля-
ций, к сожалению, в модуле не предусмотрена оценка статистической значи-
мости коэффициентов корреляции.
Эффект
Коэффициенты факторной структуры (Ом-
да)
Сигма-ограниченная параметризация
Уровень
Эффект
Столбец Функция
1
Функция
2
Св.член 1 0,000000 0,000000
R1 2 -0,335722 -0,100018
R2 3 -0,197466 -0,068896
R3 4 -0,363355 -0,056813
R4 5 -0,398762 -0,080904
A1 6 0,004550 -0,103715
A2 7 0,094012 -0,091976
L3 8 -0,158355 -0,142138
L1 9 -0,271298 -0,058818
Тип пред. малое 10 -0,225522 0,069053
Сфера деят. строит. 11 0,312017 0,366312
Сфера деят. торговля 12 0,149942 -0,281512
Тип пред.*Сфера деят. 1 13 0,137095 -0,156624
Тип пред.*Сфера деят. 2 14 0,059121 0,069409
Рис. 25
Для определения групп предприятий, при идентификации которых
дискриминантные функции вносят наибольший вклад, следует воспользовать-
ся кнопкой Средние канонических переменных. Программа построит таблицу
(рис. 26) со средними значениями дискриминантных функций для каждой
группы. Из таблицы видно, что наибольший вклад в классификацию пред-
приятий группы высокий вносит дискриминантная функция 1, так как сред-
ний принимает наибольшее по модулю значение (5,41). Наибольший вклад в
классификацию предприятий групп низкий, средний вносит дискриминант-
ная функция 2, так как средние принимают наибольшие по модулю значения
(2,13). Но надо при этом помнить, что на дискриминантную функция 2 при-
ходится всего лишь 8,3% дискриминирующей мощности.
Корень
Средние в классах для канон.
переменных (Омда)
Сигма-ограниченная парамет-
ризация
низкий средний высокий
1 3,030526 2,12139 -5,41709
2 2,138007 -2,12964 0,25784
Рис. 26
Классификация (дискриминация) предприятий по группам отклика
Группа риска будет тем более успешной, чем больше сходство между боль-
ными внутри групп и выше различие между группами. В методах классифи-
кационного анализа сходство оценивается посредством оценки расстояний
между объектами как точками многомерного пространства. Одним из спосо-
бов измерения расстояний в многомерном пространстве является расстояние
21
Махаланобиса, которое подобно евклидово расстоянию, но дополнительно
учитывается корреляция между переменными. Если нажать на кнопку Квад-
раты расстояний Махаланобиса, то появится симметричная таблица, изо-
браженная на рис. 27. Чем меньше квадрат расстояния между группами, тем
больше сходство между ними, и наоборот, чем больше квадрат расстояния
между группами, тем меньше сходство между ними. Из таблицы видно, что
сходство между группами низкий и средний значительно выше, чем между
группами низкий и высокий, средний и высокий.
Класс
Квадраты рас. Махаланобиса (Омда)
Сигма-ограниченная параметризация
низкий средний высокий
низкий 0,00000 19,10405 75,18986
средний 19,10405 0,00000 62,61087
высокий 75,18986 62,61087 0,00000
Рис. 27
Статистическую значимость расстояний можно оценить при помощи
кнопки Критерии значимости расстояний. Из таблицы на рис.28 следует,
что все расстояния статистически значимы, так как уровни значимости р кри-
терия Фишера (F-критерия) меньше, чем 0,05.
Класс
Критерии значимости квадратов расстояний Махаланобиса (Омда)
F-крит. с 13 и 35, степенями свободы
Сигма-ограниченная параметризация
низкий
F
низкий
p
средний
F
средний
p
высокий
F
высокий
p
низкий 9,23833 0,000000 34,32276 0,000000
средний 9,23833 0,000000 30,34028 0,000000
высокий 34,32276 0,000000 30,34028 0,000000
Рис. 28
Об адекватности модели дискриминации можно судить по количеству
верно классифицированных наблюдений в соответствии с построенной мо-
делью классификации. Если нажать на кнопку Матрица классификации, то
будет построена таблица (рис. 29), которая содержит информацию о количест-
ве и проценте корректно классифицированных предприятий в каждой группе.
Строки матрицы – исходные (наблюдаемые) группы предприятий, столбцы –
предсказанные моделью группы предприятий.
Класс
Матрица классификации (Омда)
Строки: Наблюдаемые
Столбцы: Предсказанные
Доля
Правил.
низкий
p=,3200
средний
p=,3600
высокий
p=,3200
низкий 87,5000 14,00000 2,00000 0,00000
средний 94,4444 1,00000 17,00000 0,00000
высокий 100,0000 0,00000 0,00000 16,00000
Всего 94,0000 15,00000 19,00000 16,00000
Рис. 29
22
Из таблицы следует, что 14 предприятий из группы низкий моде-
лью дискриминации отнесены к группе низкий, 2 предприятий ошибочно от-
несены к группе средний; 1 предприятие из группы средний ошибочно отне-
сен к группе низкий, 17 предприятий из группы средний правильно отнесены
к группе средний; все 16 предприятий из группы высокий классифицированы
правильно. Общий процент правильно классифицированных предприятий
достаточно высок и составляет 94%.
Конечная цель дискриминантного анализа – построить адекватную ма-
тематическую модель, которая позволит по значению независимых предик-
торов (признаков), характеризующих объект, классифицировать его, т.е. оп-
ределить принадлежность к одному из классов зависимой переменной – от-
клика. Все ранее приведенные результаты анализа говорят о том, что по-
строена достаточно адекватная модель классификации предприятий по тяже-
сти состояния. Если щелкнуть по кнопке Коэффициенты функции классифи-
кации, то появится таблица с коэффициентами функций классификаций для
каждой группы предприятий (рис. 30). Функции классификации – это общие
линейные модели, которые могут быть использованы в качестве альтерна-
тивного метода классификации наблюдений. Наблюдение (предприятий)
следует отнести к той группе, для которой классификационная функция име-
ет наибольшее значение.
Эффект
Функции классификации для Группа риска (Омда)
Сигма-ограниченная параметризация
Уровень
Эффект
Столбец низкий
p=,3200
средний
p=,3600
высокий
p=,3200
Св.член 1 -2344,21 -2296,12 -2441,58
R1 2 -0,50 -0,46 -0,15
R2 3 36,52 37,12 36,24
R3 4 7,31 6,99 8,04
R4 5 -0,38 -0,35 0,32
A1 6 1,60 4,92 -7,45
A2 7 17,33 17,04 17,64
L3 8 598,30 561,30 559,35
L1 9 0,05 0,04 0,10
Тип пред. малое 10 -5,45 -3,65 3,96
Сфера деят. строит. 11 99,10 84,15 85,40
Сфера деят. торговля 12 -62,22 -52,65 -58,70
Тип пред.*Сфера деят. 1 13 -21,79 -20,58 -32,21
Тип пред.*Сфера деят. 2 14 26,31 24,54 26,27
Рис. 30
Обозначим функции классификации для групп низкий, средний, высо-
кий как ФКл, ФКс, ФКт, тогда общие линейные уравнения примут вид:
ФКл = –2344,21 – 0,5R1 + 36,52 R2 + 7,31R3 – 0,38R4 + 1,6 А1 + 17,33А2 +
0,05L1 + 598,3L3 – 5,45Тип предприятия + 99,1Сфера деятельности1 –
62,22Сфера деятельности2 – 21,79Тип предприятия *Сфера деятельности1
+ 26,31Тип предприятия *Сфера деятельности2;
23
ФКс = –2296,12 – 0,46R1 + 37,12 R2 + 6,99R3 – 0,35R4 + 4,92 А1 + 17,04А2 +
0,04L1 + 561,3L3 – 3,65Тип предприятия + 84,15Сфера деятельности1 –
52,65Форма течения2 – 20,58Тип предприятия *Сфера деятельности1 +
24,54Тип предприятия *Сфера деятельности2;
ФКт = –2441,58 – 0,15R1 + 36,24 R2 + 8,04R3 + 0,32R4 – 7,45 А1 + 17,64А2 +
0,1L1 + 559,35L3 + 3,96Тип предприятия + 85,4Сфера деятельности1 –
58,7Сфера деятельности2 – 32,21Тип предприятия *Сфера деятельности1 +
26,27Тип предприятия *Сфера деятельности2.
В качестве примера при помощи выписанных классификационных
функций определим прогнозируемую группу риска для предприятия № 1 из
таблицы на рис. 1. Подставим в каждое линейное уравнение значение показа-
телей данного предприятия: R1 – 21; Тип предприятия – малое; Сфера дея-
тельности – строительство; R2– 36,2; R3 – 76; R4 – 20; А1 – 3,79; А2 –
140,03; L1 – 64,67; L3 – 0,34 и вычислим значения ФКл, ФКс, ФКт:
ФКл = –2344,21 – 0,5·21 + 36,52·36,2 + 7,31·76 – 0,38·20 + 1,6·3,79 +
17,33·140,03 + 0,05·64,67 + 598,3·0,34 – 5,45·1 + 99,1·1 – 62,22·0 – 21,79·1 +
26,31·0 = 2226,77,
ФКс = –2396,12 – 0,46·21 + 37,12·36,2 + 6,99·76 – 0,35·20 + 4,92·3,79 +
17,04·140,03 + 0,04·64,67 + 561,3·0,34 – 3,65·1 + 84,15·1 – 52,65·0 – 20,58·1 +
24,54·0 = 2120,31,
ФКт = –2441,58 – 0,15·21 + 36,24·36,2 + 8,04·76 – 0,32·20 + 7,45·3,79 +
17,64·140,03 + 0,1·64,67 + 559,35·0,34 – 3,96·1 + 85,4·1 – 58,7·0 – 32,21·1 +
26,27·0 = 2216,03.
Наибольшее значение у классификационной функции ФКл, следова-
тельно, предприятие следует отнести к группе низкий. Таким образом, прогно-
зируемое значение отклика совпало с исходным значением – низкий.
Дополнительным признаком адекватности модели дискриминации яв-
ляется распределение остатков. Для адекватной модели остатки должны быть
случайными числами со средним значением, равным 0 и распределением
близким к нормальному закону. Если перейти на вкладку Остатки регрессии
(рис. 31), щелкнуть по кнопке Остатки, программа построит гистограммы
остатков для классов (групп предприятий), указанных при помощи выпа-
дающего меню Классы. Как видно из рис. 32 – 34 условия адекватности мо-
дели выполняются, так как гистограммы напоминают нормальное распреде-
ление.
24
Рис. 31
Гистограмма исходных остатков
Зависимая переменная: низкий
(Анализ. выборка)
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
X <= Граница категории
0
5
10
15
20
25
30
35
Кол-вонабл.
Рис. 32
25
Гистограмма исходных остатков
Зависимая переменная: средний
(Анализ. выборка)
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
X <= Граница категории
0
2
4
6
8
10
12
14
16
18
20
22
Кол-вонабл.
Рис. 33
Гистограмма исходных остатков
Зависимая переменная: высокий
(Анализ. выборка)
-0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4
X <= Граница категории
0
2
4
6
8
10
12
14
16
18
Кол-вонабл.
Рис. 34
В модуле GDA классификация наблюдений осуществляется посредством
общих линейных моделей, параметры которых отображены в таблице Оценки
параметров, представленной на рис. 17. Если на вкладке Остатки регрессии
(рис. 31) щелкнуть по кнопке Предсказанные значения и остатки, то про-
грамма для каждого предприятия построит таблицу с наблюдаемыми и пред-
сказанными значениями координат вектора (x, y, z) (рис. 35). Остатки вычис-
ляются как разность между наблюдаемым и предсказанным значением коор-
динаты.
26
Как было отмечено, двое предприятий из группы низкий ошибочно от-
несены к группе средний; одно предприятие из группы средний ошибочно
отнесено к группе низкий (рис. 29). Найти такие наблюдения можно посред-
ством таблицы на рис. 35. Ячейки таблицы, соответствующие выявленным
предприятиям выделены полужирным начертанием. Это предприятие № 12
из группы низкий (1, 0, 0) ошибочно отнесен к группе средний (0,44; 0,45;
0,11), так как вторая координата имеет значение наиболее близкое к 1, чем
первая.
.
Наблюдаемые, предсказанные и значения остатков (Омда)
Сигма-ограниченная параметризация
(Анализ. выборка)
низкий
Наблюд.
низкий
Предск.
низкий
Остатки
средний
Наблюд.
средний
Предск.
средний
Остатки
высокий
Наблюд.
высокий
Предск.
1 1,000000 0,791875 0,208125 0,000000 0,394775 -0,394775 0,000000 -0,186650
2 0,000000 0,072607 -0,072607 0,000000 -0,214734 0,214734 1,000000 1,142127
3 1,000000 1,051450 -0,051450 0,000000 0,015555 -0,015555 0,000000 -0,067005
4 1,000000 0,937963 0,062037 0,000000 -0,102426 0,102426 0,000000 0,164463
5 0,000000 0,131948 -0,131948 1,000000 0,900617 0,099383 0,000000 -0,032566
6 1,000000 1,050306 -0,050306 0,000000 -0,154257 0,154257 0,000000 0,103951
7 0,000000 0,063135 -0,063135 0,000000 -0,061382 0,061382 1,000000 0,998246
8 0,000000 0,084587 -0,084587 0,000000 0,050122 -0,050122 1,000000 0,865291
9 0,000000 0,103041 -0,103041 1,000000 0,858756 0,141244 0,000000 0,038203
10 0,000000 0,253255 -0,253255 1,000000 0,797819 0,202181 0,000000 -0,051074
11 1,000000 0,827760 0,172240 0,000000 0,130704 -0,130704 0,000000 0,041537
12 1,000000 0,444272 0,555728 0,000000 0,450154 -0,450154 0,000000 0,105574
13 0,000000 -0,145175 0,145175 0,000000 0,041099 -0,041099 1,000000 1,104076
14 0,000000 0,095559 -0,095559 1,000000 0,900062 0,099938 0,000000 0,004378
15 1,000000 0,979537 0,020463 0,000000 0,001904 -0,001904 0,000000 0,018559
16 0,000000 0,066837 -0,066837 0,000000 0,181392 -0,181392 1,000000 0,751771
17 0,000000 0,092797 -0,092797 0,000000 0,111081 -0,111081 1,000000 0,796122
18 0,000000 0,059959 -0,059959 1,000000 0,700901 0,299099 0,000000 0,239140
19 0,000000 0,105064 -0,105064 0,000000 -0,037318 0,037318 1,000000 0,932254
20 0,000000 -0,015710 0,015710 1,000000 1,262090 -0,262090 0,000000 -0,246380
21 1,000000 1,011739 -0,011739 0,000000 0,105736 -0,105736 0,000000 -0,117476
22 0,000000 0,094338 -0,094338 0,000000 -0,212416 0,212416 1,000000 1,118078
23 1,000000 0,944260 0,055740 0,000000 -0,053789 0,053789 0,000000 0,109529
24 0,000000 0,784562 -0,784562 1,000000 0,210310 0,789690 0,000000 0,005128
25 1,000000 0,393838 0,606162 0,000000 0,538872 -0,538872 0,000000 0,067290
26 0,000000 0,061032 -0,061032 1,000000 0,938544 0,061456 0,000000 0,000424
27 0,000000 0,003497 -0,003497 1,000000 1,044452 -0,044452 0,000000 -0,047949
28 0,000000 0,058247 -0,058247 1,000000 0,940464 0,059536 0,000000 0,001289
29 0,000000 0,009400 -0,009400 0,000000 0,296442 -0,296442 1,000000 0,694158
30 1,000000 0,892630 0,107370 0,000000 0,127951 -0,127951 0,000000 -0,020582
31 0,000000 -0,058032 0,058032 0,000000 -0,071896 0,071896 1,000000 1,129928
32 0,000000 0,074494 -0,074494 0,000000 -0,175624 0,175624 1,000000 1,101130
33 0,000000 -0,076486 0,076486 0,000000 0,193683 -0,193683 1,000000 0,882802
34 0,000000 0,033564 -0,033564 1,000000 0,946348 0,053652 0,000000 0,020088
35 0,000000 -0,115782 0,115782 1,000000 0,930919 0,069081 0,000000 0,184864
36 1,000000 1,109299 -0,109299 0,000000 0,010695 -0,010695 0,000000 -0,119994
37 0,000000 -0,121334 0,121334 1,000000 0,862253 0,137747 0,000000 0,259081
38 1,000000 0,689179 0,310821 0,000000 0,315683 -0,315683 0,000000 -0,004862
39 0,000000 0,040239 -0,040239 1,000000 0,872716 0,127284 0,000000 0,087045
40 1,000000 1,146679 -0,146679 0,000000 -0,201002 0,201002 0,000000 0,054323
41 0,000000 0,005364 -0,005364 1,000000 0,948539 0,051461 0,000000 0,046097
42 0,000000 -0,208467 0,208467 0,000000 0,239722 -0,239722 1,000000 0,968745
27
.
Наблюдаемые, предсказанные и значения остатков (Омда)
Сигма-ограниченная параметризация
(Анализ. выборка)
низкий
Наблюд.
низкий
Предск.
низкий
Остатки
средний
Наблюд.
средний
Предск.
средний
Остатки
высокий
Наблюд.
высокий
Предск.
43 0,000000 -0,010540 0,010540 0,000000 0,096618 -0,096618 1,000000 0,913922
44 0,000000 0,089381 -0,089381 1,000000 0,848537 0,151463 0,000000 0,062082
45 0,000000 0,009421 -0,009421 1,000000 0,969649 0,030351 0,000000 0,020930
46 1,000000 0,765209 0,234791 0,000000 0,238686 -0,238686 0,000000 -0,003896
47 0,000000 -0,010005 0,010005 0,000000 0,092827 -0,092827 1,000000 0,917178
48 1,000000 1,017551 -0,017551 0,000000 -0,040526 0,040526 0,000000 0,022974
49 0,000000 0,013182 -0,013182 0,000000 0,006661 -0,006661 1,000000 0,980157
50 0,000000 0,302473 -0,302473 1,000000 0,752027 0,247973 0,000000 -0,054500
Рис. 35
Предприятие № 25 из группы низкий (1; 0; 0) ошибочно отнесено к
группе средний (0,38; 0,55; 0,07) по этой же причине. Предприятие № 24 из
группы средний (0; 1; 0), ошибочно отнесено к группе низкий (0,78; 0,21;
0,01) так как первая координата имеет значение наиболее близкое к 1, чем
вторая.
Если выбрана опция Таблица для каждой зависимой переменной, то мо-
дуль построит таблицы идентичные таблице на рис. 35, но отдельно для каж-
дой группы предприятий.
Рис. 36
28
Если выбрана опция Дополнительные статистики, то вместе с пред-
сказанными, наблюдаемыми и остаточными значениями STATISTICA вычис-
лит стандартные 95% предсказанные интервалы, 95% доверительные интер-
валы, стандартизованные предсказанные и т.д.
В модуле GDA, как и в модуле DA предусмотрено автоматическое вы-
деление ошибочно классифицированных наблюдений посредством вычисле-
ния апостериорных вероятностей. Если перейти на вкладку Наблюдения, в
рамке Статистики наблюдений выделить опцию Апостериорные вероятно-
сти, канонические значения и нажать на кнопку Показать статистики (рис.
36), появится таблица с апостериорными вероятностями и каноническими
корнями, в которой звездочками помечены номера неправильно классифици-
рованных наблюдений (предприятий) (рис. 37).
Номер набл.
Статистики для каждого наблюдения (Омда)
Неверные классификации отмечены символом *
Анализируемая выборка N = 50
Наблюдае
Классиф.
низкий
вер.
средний
вер.
высокий
вер.
Корень
1
Корень
2
1 низкий 0,997328 0,002672 0,000000 4,49486 1,01072
2 высокий 0,000000 0,000000 1,000000 -6,85527 1,18060
3 низкий 0,999998 0,000002 0,000000 3,79766 2,83673
4 низкий 0,999994 0,000006 0,000000 1,89323 2,98733
5 средний 0,000104 0,999896 0,000000 2,66061 -2,13459
6 низкий 0,999999 0,000001 0,000000 2,45883 3,39588
7 высокий 0,000000 0,000000 1,000000 -5,66642 0,71734
8 высокий 0,000000 0,000000 1,000000 -4,58861 0,41173
9 средний 0,000097 0,999903 0,000000 2,10896 -2,03378
10 средний 0,002259 0,997741 0,000000 2,97025 -1,47938
11 низкий 0,999681 0,000319 0,000000 2,67050 1,89825
*12 низкий 0,337120 0,662880 0,000000 1,85034 0,02792
13 высокий 0,000000 0,000000 1,000000 -6,81230 -0,19430
14 средний 0,000046 0,999954 0,000000 2,29845 -2,24868
15 низкий 0,999994 0,000006 0,000000 3,06895 2,72991
16 высокий 0,000000 0,000000 1,000000 -3,77276 -0,11233
17 высокий 0,000000 0,000000 1,000000 -4,05663 0,21294
18 средний 0,000092 0,999908 0,000000 0,40950 -1,68560
19 высокий 0,000000 0,000000 1,000000 -5,03615 0,79816
20 средний 0,000001 0,999999 0,000000 4,24081 -3,61650
21 низкий 0,999994 0,000006 0,000000 4,20023 2,49096
22 высокий 0,000000 0,000000 1,000000 -6,63414 1,23249
23 низкий 0,999991 0,000009 0,000000 2,30470 2,81842
*24 средний 0,999055 0,000945 0,000000 2,96151 1,58132
*25 низкий 0,080690 0,919310 0,000000 2,04884 -0,42603
26 средний 0,000018 0,999982 0,000000 2,28102 -2,46701
27 средний 0,000003 0,999997 0,000000 2,57400 -2,97349
28 средний 0,000024 0,999976 0,000000 2,34526 -2,41292
29 высокий 0,000000 0,000002 0,999998 -3,28568 -0,53873
30 низкий 0,999926 0,000074 0,000000 3,28286 2,11041
31 высокий 0,000000 0,000000 1,000000 -6,92289 0,38174
32 высокий 0,000000 0,000000 1,000000 -6,58475 1,00832
33 высокий 0,000000 0,000000 1,000000 -4,86987 -0,41414
34 средний 0,000013 0,999987 0,000000 2,14405 -2,51514
35 средний 0,000001 0,999999 0,000000 0,56586 -2,92984
36 низкий 0,999999 0,000001 0,000000 4,28713 2,99968
37 средний 0,000001 0,999998 0,000000 0,11939 -2,58881
29
Номер набл.
Статистики для каждого наблюдения (Омда)
Неверные классификации отмечены символом *
Анализируемая выборка N = 50
Наблюдае
Классиф.
низкий
вер.
средний
вер.
высокий
вер.
Корень
1
Корень
2
38 низкий 0,991727 0,008273 0,000000 2,99705 1,06362
39 средний 0,000027 0,999973 0,000000 1,64927 -2,23605
40 низкий 1,000000 0,000000 0,000000 2,94263 3,76881
41 средний 0,000007 0,999993 0,000000 1,88215 -2,61380
42 высокий 0,000000 0,000000 1,000000 -5,62045 -0,81773
43 высокий 0,000000 0,000000 1,000000 -5,23424 -0,11213
44 средний 0,000082 0,999918 0,000000 1,90906 -2,03048
45 средний 0,000007 0,999993 0,000000 2,12198 -2,63926
46 низкий 0,999094 0,000906 0,000000 3,13509 1,55413
47 высокий 0,000000 0,000000 1,000000 -5,03211 0,10706
48 низкий 0,999997 0,000003 0,000000 3,05550 2,94138
49 высокий 0,000000 0,000000 1,000000 -5,70109 0,26446
50 средний 0,004537 0,995463 0,000000 2,94283 -1,30959
Рис. 37
Предприятие следует отнести к той группе, соответствующая апостери-
орная вероятность для которой максимальна. Если дополнительно выделить
опции Квадраты расстояний Махаланобиса, Классификация, Канонические
значения, то в таблице дополнительно для каждого предприятия будут ото-
бражены:
– квадраты расстояний Махаланобиса от предприятия до центра каждой
из групп (предприятие следует отнести к той группе, расстояние до центра
которой минимально);
– максимальная вероятность, 2-я максимальная вероятность, 3-я макси-
мальная вероятность принадлежности предприятия к группам;
– значения дискриминантных функций (канонические значения).
Как было ранее замечено по дискриминантным функциям 1 и 2 можно
вычислить дискриминантные функции (канонические корни) для каждого на-
блюдения (предприятия). К сожалению в модуле не предусмотрена процедура
аналогичная модулю классического дискриминантного анализа для построе-
ния диаграммы рассеяния канонических корней. Но можно построить такую
диаграмму, если воспользоваться категоризованными графиками (рис. 38).
Предварительно следует сохранить столбцы Корень 1, Корень 2 в файле
исходных данных, например простым копированием из рабочей книги. Да-
лее, в открывшемся окне модуля диаграммы рассеяния следует переменным
Корень 1, Корень 2 поставить в соответствие оси системы координат (рис.
39).
30
Рис. 38
Рис. 39
На вкладке Быстрый (рис. 40) выделить опцию С перекрытием щелк-
нуть по кнопке ОК, программа запросит указать категоризующую перемен-
ную (рис. 41). Если далее щелкнуть по ОК программа построит диаграмму
рассеяния канонических корней (рис.42).
31
Рис. 40
Рис. 41
32
Диаграмма рассеяния для Корень 2 и Корень 1; категор. по Группа риска
Омда 14v*50c
Корень 1
Корень2
Группа риска: низкий
Группа риска: средний
Группа риска: высокий-8 -6 -4 -2 0 2 4 6
-4
-3
-2
-1
0
1
2
3
4
5
Рис. 42
Как и в модуле DA, в модуле GDA можно провести классификацию на-
блюдений, для которых класс не определен. Для этого надо закрыть все окна
модуля GDA, добавить в таблицу данных новые строки, оставив ячейку кате-
гориальной переменной пустой и выключить опцию кросс-проверки. В каче-
стве примера, добавим в таблицу данных новую 51 строку, и наберем данные
нового предприятия, группу риска которого следует идентифицировать (рис.
43). Запустим модуль GDA, далее на вкладке Наблюдения диалога Результа-
ты (рис. 36) надо в рамке Выборка для построения остатков выделить оп-
цию Предсказанные, в рамке Статистика наблюдений – интересующие нас
статистики, в том числе Апостериорные вероятности, или квадраты рас-
стояний Махаланобиса.
Если нажать на кнопку Показать статистики, появится таблица (рис.
44) со значениями обозначенных статистик для нового предприятия № 51.
33
1
R1
2
R2
3
R3
4
R4
5
A1
6
A2
7
L1
8
L2
9
L3
10
Тип пред.
11
Сфера
деят.
12
Группа
риска
13
Корень 1
40
41
42
43
44
45
46
47
48
49
50
51
26 36,6 82 18 3,44 140,1 51,0 5,92 0,39 среднее строит. низкий 2,94263
44 37,9 94 29 4,22 130,4 143,2 9,64 0,45 среднее торговлясредний 1,88215
65 39,9 105 39 4,84 131,4 273,5 6,01 0,41 малое туризм высокий -5,62045
49 39,3 96 44 3,95 131,5 234,3 12,48 0,48 малое туризм высокий -5,23424
46 37,8 80 27 3,57 138,2 206,9 6,06 0,50 среднее торговлясредний 1,90906
30 36,4 77 17 3,57 139,0 41,8 5,90 0,44 малое торговлясредний 2,12198
42 40,3 88 27 4,40 129,3 160,3 3,66 0,49 малое строит. низкий 3,13509
54 39,9 95 40 3,70 138,3 144,4 3,85 0,48 малое туризм высокий -5,03211
27 38,3 77 29 3,73 141,1 44,7 6,10 0,40 среднее строит. низкий 3,05550
49 40,7 100 39 3,43 129,1 243,4 12,66 0,47 малое туризм высокий -5,70109
34 39,9 95 23 4,41 133,6 157,9 14,11 0,45 среднее туризм средний 2,94283
25 37,0 80 25 3,50 145,0 60,0 6,00 0,45 среднее туризм
Рис. 43
Статистики для каждого наблюдения (Омда)
Предск. выборка N = 1
Номер набл.
низкий
Рас.Махл
средний
Рас.Махл
высокий
Рас.Махл
низкий
вер.
средний
вер.
высокий
вер.
Макс.
Вероят.
2-ая
Макс.
3-я
Макс.
51 29,61408 25,56545 99,589660,105072 0,894928 0,000000 средний низкий высокий
Рис. 44
Из таблицы видно, что минимальное значение квадрата расстояния
Махаланобиса (25,56), максимальное значение апостериорной вероятности
(0,89), максимальная вероятность соответствуют группе средний, следова-
тельно, группа риска предприятия соответствует группе средний. Обратите
внимание, что апостериорная вероятность для группы низкий (0,11), больше,
чем вероятность для группы высокий (0,00), а расстояние Махаланобиса на-
оборот, к группе низкий (29,61) значительно меньше, чем к группе высокий
(99,58). Это означает, что предприятие, которое в соответствии с произве-
денной классификацией следует отнести к группе средний, по своему со-
стоянию ближе к группе низкий, чем высокий.

More Related Content

More from Alexan Khalafyan

Ковариационный анализ (главная)
Ковариационный анализ (главная)Ковариационный анализ (главная)
Ковариационный анализ (главная)Alexan Khalafyan
 
Канонический анализ (главн)
Канонический анализ (главн)Канонический анализ (главн)
Канонический анализ (главн)Alexan Khalafyan
 
ответы к задачам по тв и мс
ответы к задачам по тв и мсответы к задачам по тв и мс
ответы к задачам по тв и мсAlexan Khalafyan
 
задачи для студентов по тв и мс
задачи для студентов по тв и мсзадачи для студентов по тв и мс
задачи для студентов по тв и мсAlexan Khalafyan
 
Mathematical statistic in sport of football
Mathematical statistic in sport of footballMathematical statistic in sport of football
Mathematical statistic in sport of footballAlexan Khalafyan
 
Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Alexan Khalafyan
 
математическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейматематическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейAlexan Khalafyan
 

More from Alexan Khalafyan (9)

Ковариационный анализ (главная)
Ковариационный анализ (главная)Ковариационный анализ (главная)
Ковариационный анализ (главная)
 
Канонический анализ (главн)
Канонический анализ (главн)Канонический анализ (главн)
Канонический анализ (главн)
 
ответы к задачам по тв и мс
ответы к задачам по тв и мсответы к задачам по тв и мс
ответы к задачам по тв и мс
 
задачи для студентов по тв и мс
задачи для студентов по тв и мсзадачи для студентов по тв и мс
задачи для студентов по тв и мс
 
Mathematical statistic in sport of football
Mathematical statistic in sport of footballMathematical statistic in sport of football
Mathematical statistic in sport of football
 
Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.
 
монография
монографиямонография
монография
 
математическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейматематическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностей
 
Aist
AistAist
Aist
 

Общие модели дискриминантного анализа для магистров

  • 1. 1 Общие модели дискриминантного анализа Известно, что методы дискриминации можно условно разделить на пара- метрические и непараметрические. Классический дискриминантный анализ (DA) является параметрическим методом и, применяется в предположении, что наблюдаемые величины непрерывные, измерены как минимум в интервальной шкале, имеют нормальное распределение. Также предполагается, что диспер- сии и ковариации наблюдаемых переменных в разных классах однородны. Ес- ли перечисленные условия не выполняются, необходимо воспользоваться ме- тодом общие модели дискриминантного анализа (GDA). Метод имеет такое название, потому что в нем для анализа дискриминантных функций исполь- зуется общая линейная модель (GLA). В этом методе анализ дискриминант- ных функций рассматривается как общая многомерная линейная модель, в которой категориальная зависимая переменная (отклик) представляется век- торами с кодами, обозначающими различные группы. Например, если кате- гориальная переменная Группа риска – принимает значения низкий, средний, высокий и в методе DA эти значения можно кодировать целыми числами 1, 2, 3, то в методе GDA эти значения будут закодированы векторами (1, 0, 0), (0, 1, 0), (0, 0, 1): Группа риска Коды низкий 1 0 0 средний 0 1 0 высокий 0 0 1 Метод GDA обладает рядом существенных преимуществ перед классиче- ским методом DA: – не устанавливается никаких ограничений на тип используемого предик- тора и на тип определяемой модели. Предикторы могут быть категориальными, или непрерывными переменными. В методе GDA категориальные предикторы по аналогии с методом общие линейные модели также называются факторами; – предусмотрены опции для пошагового выбора предикторов и вы- бора наилучшего подмножества предикторов на основе статистик F- включить и p-включить; – в таблице данных можно выделить кросс-проверочную выборку. В этом случае выбор наилучшего подмножества предикторов можно провести на основе долей ошибочной классификации для кросс-проверочной выборки, такой способ выбора модели позволяет получать в итоге высокую точность прогноза, избегая при этом переобучения; – другой уникальной особенностью метода GDA является наличие опций для построения и анализа профилей предсказанных значений отклика и показателя желательности. Вычисляются предсказанные значения отклика, полученные значения объединяются в один показатель желательности. Что-
  • 2. 2 бы наглядно показать «поведение» предсказанных откликов и показателя же- лательности, для различных диапазонов значений предикторов можно стро- ить различные графики – профили. Также метод позволяет строить профили апостериорных вероятностей предсказания. Профили позволяют анализиро- вать, насколько различные уровни предикторов влияют на классификацию наблюдений, что в конечном итоге дает возможность определить комбина- ции значений предикторов, которые максимизируют правдоподобие того, что соответствующее наблюдение принадлежит тому или иному классу; – в методе предусмотрена возможность включения категориальных «ANOVA-подобных» эффектов в сложные ANOVA-подобные модели для пре- дикторов. Возможно проведение поиска наилучшего подмножества предик- торов для ANOVA-подобных эффектов. Для ознакомления с возможностями метода GDA и технологии работы с соответствующим модулем программы STATISTICA воспользуемся файлом данных 50 предприятий малого и среднего бизнеса. Наша задача – исследо- вать возможность использования GDA для идентификации группы риска не- платежеспособности предприятий. В качестве независимых количественных переменных – предикторов используем экономические показатели: коэффи- циенты рентабельности (R1, R2, R3, R4), коэффициенты деловой активности (А1, А2), коэффициенты ликвидности (L1, L2, L3). Категориальными предикто- рами являются: Тип предприятия – малое, среднее; Сфера деятельности – строительство, торговля, туризм. Группу риска неплатежеспособности предприятия оценивали в порядковой шкале, поэтому в качестве зависимой группирующей переменной – отклика в таблице данных использовали пере- менную Группа риска с текстовыми значениями: низкий, средний, высокий (рис. 1). R1 R2 R3 R4 A1 A2 L1 L2 L3 Тип предпр. Сфера де- ят. Группа рис- ка 1 21 36,2 76 20 3,79 140,0 64,7 6,80 0,34 малое строит. низкий 2 75 39,0 99 43 4,29 132,2 411,2 8,45 0,58 малое туризм высокий 3 18 37,7 79 20 3,83 141,5 61,5 6,87 0,36 среднее строит. низкий 4 30 38,1 90 26 4,01 141,7 171,5 5,31 0,41 малое строит. низкий 5 37 36,9 84 19 3,34 144,7 25,6 7,13 0,40 среднее торговля средний 6 32 37,5 85 20 3,58 139,2 36,4 6,83 0,35 среднее строит. низкий 7 37 41,4 99 42 3,68 134,9 328,7 7,52 0,49 малое туризм высокий 8 48 40,4 105 41 3,23 137,3 178,9 11,05 0,45 малое торговля высокий 9 31 39,6 93 32 4,22 138,2 127,7 6,06 0,48 среднее торговля средний 10 36 39,2 85 28 3,84 131,7 140,7 9,84 0,47 среднее туризм средний 11 42 40,3 88 31 3,94 126,5 116,1 9,13 0,50 малое строит. низкий 12 38 37,6 86 30 3,52 139,4 130,6 10,10 0,50 среднее туризм низкий 13 74 40,7 94 42 4,52 138,9 465,8 12,47 0,45 малое туризм высокий 14 46 39,2 90 26 4,49 144,9 124,4 8,39 0,47 среднее торговля средний 15 18 36,1 77 25 3,55 140,3 52,4 6,29 0,31 среднее строит. низкий 16 63 40,4 99 41 3,86 131,0 300,0 12,96 0,56 малое торговля высокий 17 67 39,1 103 36 4,18 132,1 360,2 11,76 0,54 малое торговля высокий 18 31 37,2 81 24 3,23 141,3 65,2 7,07 0,44 малое торговля средний 19 59 39,7 95 43 3,70 134,6 152,9 2,11 0,59 малое туризм высокий 20 32 37,3 77 17 3,88 144,7 65,9 6,79 0,37 среднее торговля средний
  • 3. 3 R1 R2 R3 R4 A1 A2 L1 L2 L3 Тип предпр. Сфера де- ят. Группа рис- ка 21 33 38,4 76 15 3,87 140,7 58,6 5,71 0,39 среднее строит. низкий 22 58 39,7 98 41 3,00 133,3 218,2 8,46 0,51 малое туризм высокий 23 40 37,5 91 29 4,60 127,6 136,1 7,37 0,41 среднее строит. низкий 24 39 36,8 83 29 4,41 136,9 131,2 6,58 0,41 малое строит. средний 25 28 35,6 91 23 3,33 144,5 33,3 7,53 0,49 среднее торговля низкий 26 35 39,4 82 33 4,01 142,7 169,0 8,87 0,47 среднее торговля средний 27 44 37,8 89 33 4,71 139,2 80,3 9,63 0,45 среднее торговля средний 28 44 38,3 87 32 4,28 139,9 93,3 5,59 0,49 среднее торговля средний 29 43 39,6 93 35 4,29 140,5 142,5 4,76 0,48 малое туризм высокий 30 47 37,3 80 19 3,61 140,2 48,2 5,80 0,44 малое строит. низкий 31 76 41,3 106 44 4,66 136,9 298,8 10,91 0,49 малое туризм высокий 32 63 40,5 109 36 3,53 133,8 153,3 11,67 0,46 малое туризм высокий 33 68 38,9 99 40 3,89 136,1 354,0 11,65 0,43 малое торговля высокий 34 36 39,2 87 31 4,14 135,1 225,8 8,43 0,48 среднее торговля средний 35 47 41,0 82 30 4,37 139,9 158,2 11,99 0,47 малое торговля средний 36 30 37,5 73 19 3,63 138,6 51,6 5,28 0,46 среднее строит. низкий 37 38 39,4 90 30 4,23 135,2 112,0 7,00 0,43 малое торговля средний 38 41 40,5 81 32 4,80 127,4 216,5 8,36 0,37 среднее строит. низкий 39 44 38,4 83 29 3,93 143,1 202,2 6,82 0,45 среднее торговля средний 40 26 36,6 82 18 3,44 140,1 51,0 5,92 0,39 среднее строит. низкий 41 44 37,9 94 29 4,22 130,4 143,2 9,64 0,45 среднее торговля средний 42 65 39,9 105 39 4,84 131,4 273,5 6,01 0,41 малое туризм высокий 43 49 39,3 96 44 3,95 131,5 234,3 12,48 0,48 малое туризм высокий 44 46 37,8 80 27 3,57 138,2 206,9 6,06 0,50 среднее торговля средний 45 30 36,4 77 17 3,57 139,0 41,8 5,90 0,44 малое торговля средний 46 42 40,3 88 27 4,40 129,3 160,3 3,66 0,49 малое строит. низкий 47 54 39,9 95 40 3,70 138,3 144,4 3,85 0,48 малое туризм высокий 48 27 38,3 77 29 3,73 141,1 44,7 6,10 0,40 среднее строит. низкий 49 49 40,7 100 39 3,43 129,1 243,4 12,66 0,47 малое туризм высокий 50 34 39,9 95 23 4,41 133,6 157,9 14,11 0,45 среднее туризм средний Рис. 1 Для более глубокого понимания структуры категориальных предикто- ров и их взаимосвязи с группами рискам предприятий воспользуемся табли- цами сопряженности. На рис. 2 представлена таблица со значением критери- ев Пирсона Хи-квадрат, М-П Хи-квадрат, статистикой гамма и коэффициен- том корреляции Спирмена для переменных Сфера деятельности и Группа риска. Так как уровни значимости обоих критериев Хи-квадрат значительно меньше, чем 0,05, а статистика гамма и корреляция Спирмена больше, чем 0,75, то ожидаемые частоты статистически значимо отличаются от наблю- даемых. Следовательно, между сферой деятельности и группой риска пред- приятий существует сильная взаимосвязь. Статист. Статистики: Сфера деят.(3) x Группа риска(3) (Омда) Хи-квадрат ст.св. p Пирсона Хи-квадрат 55,87384 сс=4 p=,00000 М-П Хи-квадрат 56,02675 сс=4 p=,00000 Гамма ,9172611 Корр. Спирмена ,8068715 t=9,4632 p=,00000 Рис. 2
  • 4. 4 Для понимания структуры взаимосвязи следует обратиться к таблице частот на рис. 3, из которой видно, что наибольший процент предприятий – 93,33% со сферой деятельности строительство принадлежит группе низкого риска. Наибольший процент предприятий – 75 % со сферой деятельности торговля принадлежит группе среднего риска. Наибольший процент пред- приятий – 80 % со сферой деятельности туризм принадлежит группе высоко- го риска. Сфера деят. 2-входовая итоговая: наблюдаемые частоты (Омда) Частоты выделенных ячеек > 10 Группа риска низкий Группа риска средний Группа риска высокий Всего по стр. строит. 14 1 0 15 строк.% 93,33% 6,67% 0,00% торговля 1 15 4 20 строк.% 5,00% 75,00% 20,00% туризм 1 2 12 15 строк.% 6,67% 13,33% 80,00% Всего 16 18 16 50 Рис. 3 На рис. 4 представлена таблица со значением критериев Пирсона Хи- квадрат, М-П Хи-квадрат, статистикой гамма и коэффициентом корреляции Спирмена для переменных Тип рпедприятия и Группа риска. Так как уровни значимости обоих критериев Пирсона Хи-квадрат и М-П Хи-квадрат значи- тельно меньше, чем 0,05, а статистика гамма и корреляция Спирмена по аб- солютной величине близки к 0,75 (рис. 4), то ожидаемые частоты статистиче- ски значимо отличаются от наблюдаемых, следовательно, между полом и группа рискам предприятий существует близкая к сильной взаимосвязь. Статист. Статистики: Тип предприятия(2) x Группа риска(3) (Омда) Хи-квадрат ст.св. p Пирсона Хи-квадрат 21,76037 сс=2 p=,00002 М-П Хи-квадрат 28,08961 сс=2 p=,00000 Гамма -,742063 Корр. Спирмена -,550441 t=-4,568 p=,00003 Рис. 4 Для анализа структуры взаимосвязи воспользуемся таблицей частот на рис. 5, из которой видно, что наибольший процент предприятий малого биз- неса – 61,54% относится к группе высокого риска. Наибольший процент предприятий среднего бизнеса – 54,17% относится к группе среднего риска. Тип предприятия 2-входовая итоговая: наблюдаемые частоты (Омда) Частоты выделенных ячеек > 10 Группа риска низкий Группа риска средний Группа риска высокий Всего по стр. малое 5 5 16 26 строк.% 19,23% 19,23% 61,54% среднее 11 13 0 24
  • 5. 5 Тип предприятия 2-входовая итоговая: наблюдаемые частоты (Омда) Частоты выделенных ячеек > 10 Группа риска низкий Группа риска средний Группа риска высокий Всего по стр. строк.% 45,83% 54,17% 0,00% Всего 16 18 16 50 Рис. 5 Таким образом, категориальные предикторы Сфера деятельности и Тип предприятия взаимосвязаны с откликом Группа риска, поэтому целесо- образно для оценки состояния предприятий включить в модель дискримина- ции эти категориальные предикторы. Щелкнем по кнопке Анализ на панели инструментов и, выберем коман- ду Многомерный разведочный анализ, в появившемся меню – Общие модели дискриминантного анализа (рис. 6). Откроется стартовое окно, в рамке Вид анализа следует выбрать Общий дискриминантный анализ, в рамке Задание анализа – Диалог (рис. 7) и щелкнуть по ОК. В появившемся диалоге (рис. 8) надо нажать на кнопку Переменные и выделить переменные в соответствии с рис. 9. Если щелкнуть по ОК и в диалоге на рис. 8 указать коды зависимой переменой и коды факторов (предикторов), то диалог Общий дискриминант- ный анализ примет вид, представленный на рис. 10. Рис. 6
  • 7. 7 Рис. 10 В соответствии с диалогом на рис. 10, при построении модели дискри- минации в качестве эффектов по умолчанию будут использованы все непре- рывные предикторы, оба категориальных предиктора и их комбинация (взаимодействие). Если пользователя интересуют не все эффекты, или до- полнительные эффекты, являющиеся комбинациями непрерывных и катего- риальных предикторов, то следует щелкнуть по кнопке Эффекты. В от- крывшемся окне Эффекты в плане (рис. 11) надо выбрать опцию Использо- вать пользовательские эффекты в плане, тогда в рамке Предикторы актив- ными станут поля Категориальные и Непрерывные, в которых указываются имена предикторов. Далее надо в рамке Метод нажать на кнопку Добавить, в поле Эффекты в плане появятся названия предикторов. Если нажать на кнопку Взаимодействие, появится взаимодействие предикторов. Если щелк- нуть по кнопке Полный факторный, программа высветит факторный план, в соответствии с которым будет проведен дискриминантный анализ. Выберем опцию Использовать стандартные эффекты в плане, щелкнем по ОК чтобы вернуться в диалог на рис.10. Рассмотрим опции вкладки Дополнительно (рис. 12). В рамке Априор- ные вероятности задаются способы вычисления априорных вероятностей, которые используются для классификации наблюдений на основе текущего множества предикторов. Опция Пропорциональные размерам означает, что априорные вероятности пропорциональны размерам классов, которые опре- деляются зависимой переменной – откликом. Например, если имеется три класса наблюдений и в каждом классе соответственно 20, 30 и 50 наблюде- ний, то априорные вероятности будут равны соответственно 0,2, 0,3, 0,5. Оп- ция Равные присваивает априорным вероятностям одинаковые значения. На- пример, если три группы наблюдений, то априорные вероятности будут равны 1/3 для каждой группы. Опция Пользователя предполагает задание априорных вероятностей пользователями, она не доступна, если на вкладке Быстрый указаны коды отклика.
  • 8. 8 Рис. 11 Кнопка Кросс-проверка вызывает одноименный диалог, в котором можно задать категориальную переменную-идентификатор и кодовое значе- ние, определяющее наблюдения, которые необходимо использовать в вычис- лениях при подгонке модели. Рис. 12 В поле Опции построения модели можно задать способы построения моделей для дискриминантного анализа:
  • 9. 9 – Все эффекты, все эффекты одновременно вводятся в текущий план; – Пошаговый с включением, эффекты добавляются, или исключаются в модель последовательно на основе текущих значений параметров p или F; – Пошаговый с исключением, начальная модель состоит из всех эффек- тов, которые затем в процессе реализации метода будут последовательно уда- ляться, или добавляться на основе текущих значений параметров p или F; – Только с включением, эффекты будут только включаться в модель; – Только с исключением, эффекты будут только исключаться из модели; – Лучшие подмножества. Среди всех допустимых подмножеств эф- фектов, заданных в текущем плане анализа, выбирается лучшее подмножест- во при заданном числе эффектов. Если в модели много эффектов, то общее число всевозможных подмножеств может быть очень большим. Поэтому по- иск наилучшего подмножества необходимо проводить очень осторожно. В поле Количество эффектов указывается количество эффектов, при- нудительно включенных в каждую построенную программой модель. Если указано k эффектов, то первые k эффектов в плане будут принудительно до- бавлены во все рассматриваемые модели. Дельта выметания, Дельта обращения – параметры математических моделей, которые используются для построения матрицы выметания и про- верки сингулярности при обращении матрицы. Опции Лямбда Уилкса, Ошибки анализа, Ошибки кросс-проверки опре- деляют критерии выбора наилучшего подмножества – по значению параметра лямбда Уилкса, по долям ошибочной классификации всех наблюдений и по долям ошибочной классификации кросспроверочной выборки. Статистика лямбда Уилкса для общей дискриминантной модели вычисляется как отноше- ние детерминанта матрицы межгрупповой дисперсии к детерминанту матрицы общей дисперсии. Доля ошибок классификации вычисляется как число оши- бок при классификации наблюдений, деленное на общее число наблюдений. В рамке Опции построения модели выберем опцию Все эффекты (в версии 10 при выборе опции Лямбда Уилкса, выбор опции Лучшие подмно- жества невозможен, появляется сообщение об ошибке). Щелкнем по ОК, появится диалог Результаты 1 на вкладке Быстрый, перейдем на вкладку Эффекты (рис. 13) и щелкнем по кнопке Все эффекты. При желании для оценки эффектов кроме лямбды Уилкса можно выбрать в рамке Критерии многомерные критерии: Пиллая, Хотеллинга, Роя. Если щелкнуть по кнопке Все эффекты, то появится таблица результатов много- мерного дискриминантного анализа со статистиками лямбда Уилкса для каж- дого показателя (рис. 14). Значение лямбды Уилкса показывает, каким будет лямбда Уилкса модели, если из нее исключить соответствующий предиктор. Поэтому, чем ближе значение критерия к 1, тем менее значим предиктор в модели. Из таблицы видно, что наименее значимым предиктором является L2. По критерию лямбда Уилкса значимыми будут эффекты количественные предикторы R3, A1 (уровни значимости р критерия Фишера (F) меньше, чем 0,05) и эффекты обоих категориальных предикторов с их взаимодействием.
  • 10. 10 Это означает, что данные предикторы будут иметь наибольшее влияние на определение принадлежности предприятий к определенной группе по со- стоянию – низкий, средний, высокий. Эффекты, для которых уровни значимо- сти р критериев значительно больше, чем 0,05, из модели можно исключить. Рис. 13 Эффект Многомерные критерии значимости (Омда) Сигма-ограниченная параметризация Декомпозиция гипотезы Крит. Знач. F Эффект сс Ошибка сс p Св.член Уилкса 0,898304 1,92455 2 34 0,161509 Тип пред.*Сфера деят. Уилкса 0,598763 4,96956 4 68 0,001420 Тип пред. Уилкса 0,678632 8,05038 2 34 0,001373 Сфера деят. Уилкса 0,273394 15,51278 4 68 0,000000 R1 Уилкса 0,926201 1,35454 2 34 0,271639 R2 Уилкса 0,979234 0,36051 2 34 0,699952 R3 Уилкса 0,706398 7,06575 2 34 0,002715 R4 Уилкса 0,919289 1,49255 2 34 0,239159 A1 Уилкса 0,765109 5,21907 2 34 0,010551 A2 Уилкса 0,917111 1,53646 2 34 0,229707 L1 Уилкса 0,886950 2,16682 2 34 0,130101 L2 Уилкса 0,995570 0,07564 2 34 0,927304 L3 Уилкса 0,924166 1,39496 2 34 0,261668 Рис. 14
  • 11. 11 Исключим только предиктор L2, что соответствует лучшей модели, ес- ли бы мы подбирали модель при помощи опции Лучшие подмножества (рис. 12). Таблица со значениями критерия Лямбда Уилкса, критерия Фишера и уровня значимости р отображена на рис. 15. Эффект Многомерные критерии значимости (Омда) Сигма-ограниченная параметризация Декомпозиция гипотезы Крит. Знач. F Эффект сс Ошибка сс p Св.член Уилкса 0,897249 2,00406 2 35 0,149960 R1 Уилкса 0,928741 1,34272 2 35 0,274254 R2 Уилкса 0,979497 0,36631 2 35 0,695914 R3 Уилкса 0,701203 7,45711 2 35 0,002006 R4 Уилкса 0,919308 1,53605 2 35 0,229388 A1 Уилкса 0,760260 5,51843 2 35 0,008257 A2 Уилкса 0,915921 1,60645 2 35 0,215038 L3 Уилкса 0,926054 1,39738 2 35 0,260697 L1 Уилкса 0,883845 2,29985 2 35 0,115235 Тип пред. Уилкса 0,636875 9,97793 2 35 0,000372 Сфера деят. Уилкса 0,263460 16,59419 4 70 0,000000 Тип пред.*Сфера деят. Уилкса 0,569846 5,68245 4 70 0,000509 Рис. 15 Для более полного понимания модели дискриминации, целесообразно щелкнуть по кнопке Члены плана. Появится таблица Метки столбцов (рис. 15), при помощи которой лег- ко определить, как закодированы категориальные переменные в общей дис- криминационной модели. Для кодирования категориальных предикторов в модуле использована сигма-ограниченная параметризация, при которой каж- дый эффект представляется в виде совокупности одноименных двухуровне- вых переменных. Например, так как предиктор Тип предприятия имеет два уровня, то он и представляется с двумя уровнями: малое, среднее. Предиктор Сфера деятельности состоит из 3 уровней, поэтому представляется в виде 2 одноименных двухуровневых переменных: Сфера деятельности (строи- тельство, туризм); Сфера деятельности (торговля, туризм). При этом уровню 1 присваивается числовое значение 1, а уровню 2 – числовое значе- ние 0. Например, если рассматривается предиктор Тип предприятия, то аль- тернативным значениям предиктора малое, среднее будут присвоены соот- ветственно значения 1 и 0, которые будут представлять количественные раз- личия между группами наблюдений (предприятий) малое, среднее. Предик- тор Сфера деятельности в строке 12 таблицы имеет 2 значения строитель- ство, туризм, которые соответственно будут закодированы как 1 и 0. Этот же предиктор в строке 13 имеет 2 значения торговля, туризм, которые также будут закодированы как 1 и 0.
  • 12. 12 Метка Метки столбцов (Омда) Метки для столбцов матрицы плана X Ст-ц Перемен. Уровень Перемен. от Уров. Перемен. Уровень Перемен. от Уров. Св.член 1 R1 2 R1 R2 3 R2 R3 4 R3 R4 5 R4 A1 6 A1 A2 7 A2 L1 8 L1 L2 9 L2 L3 10 L3 Тип пред. 11 Тип пред. малое среднее Сфера деят. 12 Сфера деят. строит. туризм Сфера деят. 13 Сфера деят. торговля туризм Тип пред.*Сфера деят. 14 Тип пред. малое среднее Сф. деят. строит. туризм Тип пред.*Сфера деят. 15 Тип пред. малое среднее Сф. деят. торговля туризм Рис. 15 Значения сложных эффектов Тип предприятия *Сфера деятельности в строке 14 и 15 также кодируются числами 1 и 0, которые являются результа- тами умножения соответствующих числовых значений предикторов Тип предприятия , Сфера деятельности. Так, для Тип предприятия*Сфера дея- тельности в строке 14 возможны следующие 4 комбинации ма- лое*строительство, малое*туризм, жен*строительство, жен*туризм, ко- торые в регрессионных моделях принимают следующие значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. Для Тип предприятия * Сфера деятельности в строке 15 возможны другие 4 комбинации малое* торговля, малое*туризм, жен* тор- говля, жен*туризм, которые в регрессионных моделях принимают значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. При этом, сумма всех значений каждого про- стого и сложного эффекта равна 1. Если нажать на кнстроительствоку Коэффициенты, программа по- строит таблицу, содержащую оценки параметров регрессионных моделей, их стандартизованные оценки, стандартные ошибки, уровни значимости (p) и со- ответствующие статистики t-критерия для всех значений отклика. Как было отмечено ранее, в общей многомерной линейной модели значения отклика представляются векторами с кодами. Так состоянию низкий соответствует вектор (1, 0, 0), состоянию средний – вектор (0, 1, 0), состоянию высокий – вектор (0, 0, 1). В методе ODA строятся общие линейные модели, позволяю- щие для каждого объекта вычислить предсказанные координаты вектора. В соответствии с предсказанными координатами вектора можно решать задачу классификации объектов. В нашем случае, правило достаточно простое. Предположим, для некоторого предприятия вычислены прогнозные значения координат вектора (x, y, z). Если наиболее близкое к 1 значение принимает x, то предприятие следует отнести к группе низкий, если наиболее близкое к 1 значение принимает y, то предприятие следует отнести к группе средний, если
  • 13. 13 наиболее близкое к 1 значение принимает z, то предприятие следует отнести к группе высокий. Координаты векторов x, y, z могут принимать отрицатель- ные значения, но их сумма должна быть равна 1, т.е., x + y + z = 1. На рис. 17 приведен фрагмент сокращенной таблицы с оценками пара- метров – коэффициентов линейной модели. Оценки параметров (Омда) Сигма-ограниченная параметризация Эффект Уровень Эффект Столбец низкий Парам. низкий p средний Парам. средний p высокий Парам. высокий p Св.член R1 R2 R3 R4 A1 A2 L3 L1 Тип пред. Сфера деят. Сфера деят. Тип пред.*Сфера деят. Тип пред.*Сфера деят. 1 -1,08449 0,632554 3,62708 0,147386 -1,54260 0,261246 2 -0,00301 0,540047 -0,00172 0,748038 0,00473 0,114808 3 -0,02168 0,544031 0,03272 0,401495 -0,01105 0,606567 4 0,00931 0,192772 -0,02386 0,003519 0,01455 0,001435 5 -0,00389 0,684973 -0,00623 0,551181 0,01012 0,085029 6 -0,09300 0,333292 0,26662 0,014064 -0,17363 0,004315 7 0,00998 0,315708 -0,01789 0,102629 0,00791 0,187817 8 1,54457 0,098777 -1,38107 0,172733 -0,16350 0,767048 9 0,00013 0,826885 -0,00090 0,180469 0,00077 0,041973 малое 10 -0,10263 0,036515 -0,01804 0,728042 0,12067 0,000145 строит. 11 0,61633 0,000000 -0,58085 0,000000 -0,03548 0,437927 торговля 12 -0,37569 0,000000 0,43176 0,000000 -0,05608 0,096828 1 13 -0,00791 0,893654 0,17807 0,008572 -0,17016 0,000026 2 14 0,06717 0,206756 -0,08662 0,136708 0,01945 0,539489 Рис. 17 В столбцах низкий Парам., средний Парам., высокий Парам. приведены коэффициенты уравнений для вычисления координат х1, х2, х3. Уровни значи- мости р показывают статистическую значимость эффектов в модели. Эффекты статистически значимы в модели, если р меньше 0,05. Оценки параметров – коэффициенты, также характеризуют силу и характер вклада эффектов в опре- деление принадлежности предприятий к той или иной группе. Например, эф- фекты R3, К являются определяющими, т.е. наиболее информативными при- знаками для групп предприятий средний, высокий (р < 0,05). При этом эффект R3, для группы средний имеет преимущественно меньшие значения (параметр имеет отрицательный знак), а для группы высокий – большие значения (пара- метр имеет положительный знак). Эффект К наоборот, для группы средний имеет преимущественно большие значения, а для группы высокий – меньшие значения. Эффект Тип предприятия является определяющим признаком для групп низкий, высокий; эффект Сфера деятельности – для групп низкий и средний; эффект Тип предприятия *Сфера деятельности – для групп средний, высокий. Общие линейные уравнения имеют вид: x = –1,0845 – 0,003R1 – 0,0217R2 + 0,0093R3 – 0,0039R4 – 0,093А1 + 0,01А2 + 0,00013L1 + 1,5446L3 – 0,1026Тип предприятия + 0,6163Форма течения1 – 0,3757Сфера деятельности2 – 0,0079Тип предприятия *Сфера деятельности1 + 0,0671Тип предприятия *Сфера деятельности2;
  • 14. 14 y = 3,62 – 0,002R1 + 0,03R2 – 0,02R3 – 0,006R4 + 0,266 А1 – 0,02А2 – 0,0009L1 – 1,38L3 – 0,01Тип предприятия – 0,58Сфера деятельности1 + 0,43Сфера деятельности2 + 0,17Тип предприятия *Сфера деятельности1 – 0,09Тип предприятия *Сфера деятельности2; z = – 1,54 + 0,004R1 – 0,01R2 + 0,01R3 + 0,01R4 – 0,17 А1 + 0,008А2 + 0,0008L1 – 0,16L3 + 0,12Тип предприятия – 0,04Сфера деятельности1 – 0,06Сфера деятельности2 – 0,17Тип предприятия *Сфера деятельности1 + 0,02Тип предприятия *Сфера деятельности2. В качестве примера вычислим предсказанные по моделям координаты вектора (х1, х2, х3) для предприятия №1, подставив в каждое линейное уравне- ние значение показателей предприятия: R1 – 21; Тип предприятия – малое; Сфера деятельности – строительство; R2 – 36,2; R3 – 76; R4 – 20; А1 – 3,79; А2 – 140,03; L1 – 64,67; L3 – 0,34: x = –1,0845 – 0,003·21 – 0,0217·36,2 + 0,0093·76 – 0,0039·20 – 0,093·3,79 + 0,01·140,03 + 0,00013·64,67 + 1,5446·0,34 – 0,1026·1 + 0,6163·1 – 0,3757·0 – 0,0079·1 + 0,0671·0 = 0,7829 y = 3,627 – 0,0017·21 + 0,0327·36,2 – 0,0239·76 – 0,0062·20 + 0,2666·3,79 – 0,0179·140,03 – 0,0009·64,67 – 1,381·0,34 – 0,018·1 – 0,5809·1 + 0,4318·0 + 0,1781·1 – 0,0866·0 = 0,3899 z = – 1,5426 + 0,0047·21 – 0,011·36,2 + 0,0145·76 + 0,0101·20 – 0,1736·3,79 + 0,0079·140,03 + 0,0008·64,67 – 0,1635·0,34 + 0,1207·1 – 0,0354·1 – 0,056·0 – 0,1701·1 + 0,0195·0 = – 0,1804 При этом, x + y + z = 0,9924, учитывая погрешности при округлении x + y + z = 1. Так как x = 0,7829 имеет значение, наиболее близкое к 1, то пред- приятие следует отнести к группе низкого риска. Классификация наблюде- ний (предприятий) посредством значений координат вектора, позволяет уви- деть пограничное группа риска наблюдения (предприятия). Например, если некоторому больному соответствует вектор с прогнозными значениями ко- ординат (0,5, 0,45, 0,05), то предприятие автоматически будет отнесено к группе низкий. Но при этом, очевидно, что он находится в пограничном со- стоянии, близком к группе средний. Если нажать на кнопку Одномерные результаты, то откроется таблица (рис. 18), в которой приведены одномерные результаты стандартного диспер- сионного анализа, по которым также можно судить о роли эффектов в опре- делении принадлежности предприятий к той или иной группе. Чем больше значение статистики SS (сумма квадратов отклонений, обусловленная разли- чием средних значений между группами), тем больше вклад эффекта в про- цедуру дискриминации.
  • 15. 15 Одномерные результаты для каждой ЗП (Омда) Сигма-ограниченная параметризация Декомпозиция гипотезы Эффект Степени Свободы низкий SS низкий p средний SS средний p высокий SS высокий p Св.член R1 R2 R3 R4 A1 A2 L3 L1 Тип пред. Сфера деят. Тип пред.*Сфера деят. Ошиб. Всего 1 0,01261 0,632554 0,14110 0,147386 0,02552 0,261246 1 0,02076 0,540047 0,00674 0,748038 0,05117 0,114808 1 0,02035 0,544031 0,04639 0,401495 0,00529 0,606567 1 0,09556 0,192772 0,62793 0,003519 0,23358 0,001435 1 0,00907 0,684973 0,02330 0,551181 0,06145 0,085029 1 0,05217 0,333292 0,42882 0,014064 0,18185 0,004315 1 0,05616 0,315708 0,18054 0,102629 0,03531 0,187817 1 0,15578 0,098777 0,12454 0,172733 0,00175 0,767048 1 0,00263 0,826885 0,12006 0,180469 0,08713 0,041973 1 0,25592 0,036515 0,00790 0,728042 0,35377 0,000145 2 4,25382 0,000000 4,47619 0,000000 0,12151 0,057206 2 0,09312 0,432356 0,53306 0,024056 0,46774 0,000105 36 1,95275 2,31690 0,70529 49 10,88000 11,52000 10,88000 Рис. 18 Если уровень значимости р меньше, чем 0,05, то вклад эффекта стати- стически значим. Так, наибольший статистически значимый вклад в проце- дуру дискриминации для группы низкий у эффекта Сфера деятельности (SS = 4,25), далее у эффекта Тип предприятия (SS = 0,25). Наибольший статисти- чески значимый вклад в процедуру дискриминации для группы средний у эффекта Сфера деятельности (SS = 4,47), далее у эффектов R3 (SS = 0,628); Тип предприятия *Сфера деятельности (SS = 0,533), А1 (SS = 0,428). Наи- больший статистически значимый вклад в процедуру дискриминации для группы высокий у эффекта Тип предприятия *Сфера деятельности (SS = 0,468), далее у эффектов Тип предприятия (SS = 0,354), R3 (SS = 0,234), А1 (SS = 0,182), L1 (SS = 0,087). Обратите внимание, что одномерные результаты не противоречат оценкам параметров регрессии, приведенным в таблице на рис. 17. Наиболее информативной по результатам дискриминантного анализа является вкладка Функции (рис.19). Рассмотрим ее функциональные воз- можности. Если нажать на кнопки Средние в классах для предикторов, Стандартные отклонения в классах для предикторов, модуль отобразит таб- лицы результатов со средними (рис. 20) и стандартными отклонениями (рис. 21) для эффектов каждого класса отклика Группа риска. Для эффектов кате- гориальных предикторов статистики будут вычислены в соответствии с принципами сигма-ограниченной параметризации. Например, из представ- ленных таблиц следует, что средние значения R1 в группах низкий, средний, высокий составляют соответственно 32, 39 и 59. При этом наибольший раз- брос R1 соответствует группе высокий, так как стандартное отклонение, рав- ное 11,81, принимает наибольшее значение. Наименьший разброс R1 соот- ветствует группе средний, так как стандартное отклонение, равное 5,82, при- нимает наименьшее значение. Наибольшее среднее значение R2 соответству- ет группе высокий (40), наименьшее – группе низкий (37,85), и т.д.
  • 16. 16 Рис. 19 Эффект Средние в классах для предикторов (Омда) Сигма-ограниченная параметризация Уровень Эффект Столбец низкий p=,3200 средний p=,3600 высокий p=,3200 Общее Средн R1 1 32,0407 38,6365 59,2879 43,1343 R2 2 37,8535 38,4266 40,0291 38,7560 R3 3 82,4756 85,5945 99,7704 89,1327 R4 4 23,9575 27,2452 40,3108 30,3741 A1 5 3,8510 4,0476 3,9212 3,9442 A2 6 137,3853 138,8128 134,4970 136,9750 L3 7 0,4140 0,4509 0,4928 0,4525 L1 8 89,5921 126,1867 266,2487 159,2963 Тип пред. 1 9 -0,3750 -0,4444 1,0000 0,0400 Сфера деят. 1 10 0,8125 -0,0556 -0,7500 0,0000 Сфера деят. 2 11 0,0000 0,7222 -0,5000 0,1000 Тип пред.*Сфера деят. 1 12 -0,1875 0,1667 -0,7500 -0,2400 Тип пред.*Сфера деят. 2 13 0,0000 -0,2778 -0,5000 -0,2600 Рис. 20 Эффект Стандартные отклонения в классах для предикторов (Омда) Сигма-ограниченная параметризация Уровень Эффект Столбец низкий N=16,00 средний N=18,00 высокий N=16,00 Всего N=50,00 R1 1 8,74296 5,82221 11,8113 14,5151 R2 2 1,47279 1,26293 0,7828 1,4967
  • 17. 17 Эффект Стандартные отклонения в классах для предикторов (Омда) Сигма-ограниченная параметризация Уровень Эффект Столбец низкий N=16,00 средний N=18,00 высокий N=16,00 Всего N=50,00 R3 3 6,10189 5,41053 4,7419 9,1901 R4 4 5,33744 5,24055 2,8264 8,3652 A1 5 0,41856 0,40999 0,5138 0,4469 A2 6 5,94120 4,39060 3,2527 4,9023 L3 7 0,06069 0,03174 0,0522 0,0577 L1 8 57,01878 56,67459 100,2542 104,4546 Тип пред. 1 9 0,95743 0,92178 0,0000 1,0093 Сфера деят. 1 10 0,54391 0,41618 0,4472 0,7825 Сфера деят. 2 11 0,36515 0,66911 0,8944 0,8391 Тип пред.*Сфера деят. 1 12 0,98107 0,38348 0,4472 0,7440 Тип пред.*Сфера деят. 2 13 0,36515 0,95828 0,8944 0,8033 Рис. 21 Если нажать на кнопку Хи-квадрат критерий для удаленных корней, программа отобразит таблицу (рис. 22) с пошаговым критерием для канони- ческих корней (дискриминантных функций). Первая строка содержит резуль- таты оценки критерия значимости для всех корней. Во второй строке приве- дены оценки значимости корней, оставшихся после удаления первого корня, и т.д. Таблица позволяет определить необходимое для дискриминантного анализа количество дискриминантных функций. В столбцах таблицы указано число удаленных корней, собственные значения, канонические корреляции, значения лямбды Уилкса, критерия χ2 и соответствующие им уровни значи- мости р. Из данных таблицы следует, что оба канонических корня (обе дис- криминантные функции) статистически значимы, так как уровни значимости р критерия Хи-квадрат в обеих строках таблицы меньше, чем 0,05. Удал. Критерии хи-квадрат с последовательно удаленными корнями (Омда) Сигма-ограниченная параметризация Собст- знач. Канон. R Уилкса Лямбда Хи-квад. сс p-ур. 0 14,83974 0,967919 0,014629 173,2160 26,00000 0,000000 1 3,31570 0,876520 0,231712 59,9526 12,00000 0,000000 Рис. 22 Параметры дискриминантных функций доступны, если воспользовать- ся кнопками Стандартизованные коэффициенты, или Исходные коэффици- енты. Дискриминантные функции представляют собою общие линейные мо- дели, так как содержат уровни категориальных эффектов. Стандартизован- ные коэффициенты (k) (рис. 23) вычисляются по стандартизованным (норми- рованным) исходным данным, поэтому принадлежат к одной и то же абсо- лютной шкале измерений. Сравнивая их между собою (больше, меньше) можно определить величины и направления вкладов соответствующих эф- фектов в дискриминантную функцию. В таблице приведены собственные зна- чения для каждой дискриминантной функции и кумулятивная доля объяс- ненной дисперсии (Кумулятивный процент), накопленной каждой функцией.
  • 18. 18 Из таблицы следует, что дискриминантная функция 1 ответственна за 81,7% объясненной дисперсии, т. е. 81,7% всей дискриминирующей мощности при- ходится на эту функцию. На дискриминантную функцию 2 приходится всего 100% – 81,7% = 8,3%. Поэтому Функция 1 значительно более важна для клас- сификации предприятий, чем Функция 2. Из таблицы на рис. 23 следует, что наибольший вклад в дискрими- нантную функцию 1 вносят эффекты Тип предприятия *Сфера деятельности (k = 0,89), далее, Тип предприятия (k = – 0,82), R3 (k = – 0,58), А1 (k = 0,58), и т.д. При этом, если эффект Тип предприятия *Сфера деятельности в строке 14 принимает значение малое*строительство, то значение дискриминант- ной функции увеличивается, при всех других комбинациях – уменьшается; если эффект Тип предприятия принимает значение малое, то значение дис- криминантной функции уменьшается; если эффект R3 возрастает, то значе- ние дискриминантной функции увеличивается; если эффект А1 возрастает, то значение дискриминантной функции также возрастает и т.д. Эффект Стандартизованные коэф. канонической дискриминантной функции (Омда) Сигма-ограниченная параметризация Уровень Эффект Столбец Функция 1 Функция 2 Св.член 1 0,00000 0,00000 R1 2 -0,36911 -0,01835 R2 3 0,08214 -0,18727 R3 4 -0,58831 0,52768 R4 5 -0,39573 0,04574 A1 6 0,58585 -0,47345 A2 7 -0,25100 0,37202 L3 8 0,13819 0,39631 L1 9 -0,44557 0,23037 Тип пред. малое 10 -0,82915 -0,15112 Сфера деят. строит. 11 0,41529 1,55723 Сфера деят. торговля 12 0,05876 -1,53325 Тип пред.*Сфера деят. 1 13 0,88675 -0,37303 Тип пред.*Сфера деят. 2 14 -0,07249 0,34415 Собс.знач. 14,83974 3,31570 Кум.Проп. 0,81737 1,00000 Рис. 23 Исходные коэффициенты могут быть использованы для вычисления значений дискриминантной функции для каждого предприятия. В соответст- вии со значениями коэффициентов в таблице на рис. 24 общие модели дис- криминантных функций имеют вид: Функция 1 = 13,62 – 0,04R1 + 0,07 R2– 0,11R3 – 0,09R4 + 1,31А1 – 0,05А2 – 0,01L1 + 2,81L3 – 1,07Тип предприятия + 0,88Сфера деятельности1 + 0,09Сфера деятельности2 + 1,36Тип предприятия *Сфера деятельности1 – 0,09Тип предприятия *Сфера деятельности2
  • 19. 19 Функция 2 = – 13,62 – 0,002R1 – 0,15 R2 + 0,1R3 + 0,01R4 – 1,06 А1 + 0,08А2 + 0,003L1 + 8,07L3 – 0,19Тип предприятия + 3,31Сфера деятельности1– 2,26Форма течени2– 0,57Тип предприятия *Сфера деятельности1+ 0,43Тип предприятия *Сфера деятельности2 Эффект Исходные коэффициенты канонической дискриминантной функции (Омда) Сигма-ограниченная параметризация Уровень Эффект Столбец Функция 1 Функция 2 Св.член 1 13,62439 -13,5897 R1 2 -0,04097 -0,0020 R2 3 0,06787 -0,1547 R3 4 -0,10805 0,0969 R4 5 -0,08520 0,0098 A1 6 1,30684 -1,0561 A2 7 -0,05399 0,0800 L3 8 2,81444 8,0716 L1 9 -0,00606 0,0031 Тип пред. малое 10 -1,07054 -0,1951 Сфера деят. строит. 11 0,88361 3,3133 Сфера деят. торговля 12 0,08665 -2,2611 Тип пред.*Сфера деят. 1 13 1,36149 -0,5727 Тип пред.*Сфера деят. 2 14 -0,09133 0,4336 Собс.знач. 14,83974 3,3157 Кум.Проп. 0,81737 1,0000 Рис. 24 Подставляя в выписанные уравнения значения показателей произволь- ного предприятия, легко посчитать значения дискриминантных функций. При этом следует учитывать значения категориальных предикторов в соот- ветствии с сигма-ограниченной параметризацией. По-сути, вычисление двух дискриминантных функций означает перенос предприятий из пространства размерности 11 (каждое предприятие характеризуется 11 параметрами, по- этому является точкой в пространстве размерности 11) в пространство раз- мерности 2, т.е. на плоскость, максимально сохраняя при этом сходство (раз- личие) между группами предприятий по отклику Группа риска (низкий, сред- ний, высокий). Если нажать на кнопку Коэффициенты факторной структуры, мо- дуль отобразит объединенные межклассовые коэффициенты корреляции для эффектов с обеими дискриминантными функциями (рис. 25). Коэффициенты корреляции (r) оценивают степень и направление взаимосвязи эффектов и дискриминантных функций. Так наибольшая взаимосвязь с дискриминант- ной функцией 1 у эффекта R4 (r = – 0,39), далее R3 (r = – 0,36), Сфера дея- тельности строительство (r = 0,31) и т.д. Наибольшая взаимосвязь с дис- криминантной функцией 2 у эффекта Сфера деятельности строительство (r = 0,37), Сфера деятельности торговля (r = –0,28) и т.д. Положительный знак означает, что с увеличением эффекта значение дискриминантной функ- ции Возрастает, отрицательный знак – наоборот, значение дискриминантной
  • 20. 20 функции убывает. Но это справедливо для статистически значимых корреля- ций, к сожалению, в модуле не предусмотрена оценка статистической значи- мости коэффициентов корреляции. Эффект Коэффициенты факторной структуры (Ом- да) Сигма-ограниченная параметризация Уровень Эффект Столбец Функция 1 Функция 2 Св.член 1 0,000000 0,000000 R1 2 -0,335722 -0,100018 R2 3 -0,197466 -0,068896 R3 4 -0,363355 -0,056813 R4 5 -0,398762 -0,080904 A1 6 0,004550 -0,103715 A2 7 0,094012 -0,091976 L3 8 -0,158355 -0,142138 L1 9 -0,271298 -0,058818 Тип пред. малое 10 -0,225522 0,069053 Сфера деят. строит. 11 0,312017 0,366312 Сфера деят. торговля 12 0,149942 -0,281512 Тип пред.*Сфера деят. 1 13 0,137095 -0,156624 Тип пред.*Сфера деят. 2 14 0,059121 0,069409 Рис. 25 Для определения групп предприятий, при идентификации которых дискриминантные функции вносят наибольший вклад, следует воспользовать- ся кнопкой Средние канонических переменных. Программа построит таблицу (рис. 26) со средними значениями дискриминантных функций для каждой группы. Из таблицы видно, что наибольший вклад в классификацию пред- приятий группы высокий вносит дискриминантная функция 1, так как сред- ний принимает наибольшее по модулю значение (5,41). Наибольший вклад в классификацию предприятий групп низкий, средний вносит дискриминант- ная функция 2, так как средние принимают наибольшие по модулю значения (2,13). Но надо при этом помнить, что на дискриминантную функция 2 при- ходится всего лишь 8,3% дискриминирующей мощности. Корень Средние в классах для канон. переменных (Омда) Сигма-ограниченная парамет- ризация низкий средний высокий 1 3,030526 2,12139 -5,41709 2 2,138007 -2,12964 0,25784 Рис. 26 Классификация (дискриминация) предприятий по группам отклика Группа риска будет тем более успешной, чем больше сходство между боль- ными внутри групп и выше различие между группами. В методах классифи- кационного анализа сходство оценивается посредством оценки расстояний между объектами как точками многомерного пространства. Одним из спосо- бов измерения расстояний в многомерном пространстве является расстояние
  • 21. 21 Махаланобиса, которое подобно евклидово расстоянию, но дополнительно учитывается корреляция между переменными. Если нажать на кнопку Квад- раты расстояний Махаланобиса, то появится симметричная таблица, изо- браженная на рис. 27. Чем меньше квадрат расстояния между группами, тем больше сходство между ними, и наоборот, чем больше квадрат расстояния между группами, тем меньше сходство между ними. Из таблицы видно, что сходство между группами низкий и средний значительно выше, чем между группами низкий и высокий, средний и высокий. Класс Квадраты рас. Махаланобиса (Омда) Сигма-ограниченная параметризация низкий средний высокий низкий 0,00000 19,10405 75,18986 средний 19,10405 0,00000 62,61087 высокий 75,18986 62,61087 0,00000 Рис. 27 Статистическую значимость расстояний можно оценить при помощи кнопки Критерии значимости расстояний. Из таблицы на рис.28 следует, что все расстояния статистически значимы, так как уровни значимости р кри- терия Фишера (F-критерия) меньше, чем 0,05. Класс Критерии значимости квадратов расстояний Махаланобиса (Омда) F-крит. с 13 и 35, степенями свободы Сигма-ограниченная параметризация низкий F низкий p средний F средний p высокий F высокий p низкий 9,23833 0,000000 34,32276 0,000000 средний 9,23833 0,000000 30,34028 0,000000 высокий 34,32276 0,000000 30,34028 0,000000 Рис. 28 Об адекватности модели дискриминации можно судить по количеству верно классифицированных наблюдений в соответствии с построенной мо- делью классификации. Если нажать на кнопку Матрица классификации, то будет построена таблица (рис. 29), которая содержит информацию о количест- ве и проценте корректно классифицированных предприятий в каждой группе. Строки матрицы – исходные (наблюдаемые) группы предприятий, столбцы – предсказанные моделью группы предприятий. Класс Матрица классификации (Омда) Строки: Наблюдаемые Столбцы: Предсказанные Доля Правил. низкий p=,3200 средний p=,3600 высокий p=,3200 низкий 87,5000 14,00000 2,00000 0,00000 средний 94,4444 1,00000 17,00000 0,00000 высокий 100,0000 0,00000 0,00000 16,00000 Всего 94,0000 15,00000 19,00000 16,00000 Рис. 29
  • 22. 22 Из таблицы следует, что 14 предприятий из группы низкий моде- лью дискриминации отнесены к группе низкий, 2 предприятий ошибочно от- несены к группе средний; 1 предприятие из группы средний ошибочно отне- сен к группе низкий, 17 предприятий из группы средний правильно отнесены к группе средний; все 16 предприятий из группы высокий классифицированы правильно. Общий процент правильно классифицированных предприятий достаточно высок и составляет 94%. Конечная цель дискриминантного анализа – построить адекватную ма- тематическую модель, которая позволит по значению независимых предик- торов (признаков), характеризующих объект, классифицировать его, т.е. оп- ределить принадлежность к одному из классов зависимой переменной – от- клика. Все ранее приведенные результаты анализа говорят о том, что по- строена достаточно адекватная модель классификации предприятий по тяже- сти состояния. Если щелкнуть по кнопке Коэффициенты функции классифи- кации, то появится таблица с коэффициентами функций классификаций для каждой группы предприятий (рис. 30). Функции классификации – это общие линейные модели, которые могут быть использованы в качестве альтерна- тивного метода классификации наблюдений. Наблюдение (предприятий) следует отнести к той группе, для которой классификационная функция име- ет наибольшее значение. Эффект Функции классификации для Группа риска (Омда) Сигма-ограниченная параметризация Уровень Эффект Столбец низкий p=,3200 средний p=,3600 высокий p=,3200 Св.член 1 -2344,21 -2296,12 -2441,58 R1 2 -0,50 -0,46 -0,15 R2 3 36,52 37,12 36,24 R3 4 7,31 6,99 8,04 R4 5 -0,38 -0,35 0,32 A1 6 1,60 4,92 -7,45 A2 7 17,33 17,04 17,64 L3 8 598,30 561,30 559,35 L1 9 0,05 0,04 0,10 Тип пред. малое 10 -5,45 -3,65 3,96 Сфера деят. строит. 11 99,10 84,15 85,40 Сфера деят. торговля 12 -62,22 -52,65 -58,70 Тип пред.*Сфера деят. 1 13 -21,79 -20,58 -32,21 Тип пред.*Сфера деят. 2 14 26,31 24,54 26,27 Рис. 30 Обозначим функции классификации для групп низкий, средний, высо- кий как ФКл, ФКс, ФКт, тогда общие линейные уравнения примут вид: ФКл = –2344,21 – 0,5R1 + 36,52 R2 + 7,31R3 – 0,38R4 + 1,6 А1 + 17,33А2 + 0,05L1 + 598,3L3 – 5,45Тип предприятия + 99,1Сфера деятельности1 – 62,22Сфера деятельности2 – 21,79Тип предприятия *Сфера деятельности1 + 26,31Тип предприятия *Сфера деятельности2;
  • 23. 23 ФКс = –2296,12 – 0,46R1 + 37,12 R2 + 6,99R3 – 0,35R4 + 4,92 А1 + 17,04А2 + 0,04L1 + 561,3L3 – 3,65Тип предприятия + 84,15Сфера деятельности1 – 52,65Форма течения2 – 20,58Тип предприятия *Сфера деятельности1 + 24,54Тип предприятия *Сфера деятельности2; ФКт = –2441,58 – 0,15R1 + 36,24 R2 + 8,04R3 + 0,32R4 – 7,45 А1 + 17,64А2 + 0,1L1 + 559,35L3 + 3,96Тип предприятия + 85,4Сфера деятельности1 – 58,7Сфера деятельности2 – 32,21Тип предприятия *Сфера деятельности1 + 26,27Тип предприятия *Сфера деятельности2. В качестве примера при помощи выписанных классификационных функций определим прогнозируемую группу риска для предприятия № 1 из таблицы на рис. 1. Подставим в каждое линейное уравнение значение показа- телей данного предприятия: R1 – 21; Тип предприятия – малое; Сфера дея- тельности – строительство; R2– 36,2; R3 – 76; R4 – 20; А1 – 3,79; А2 – 140,03; L1 – 64,67; L3 – 0,34 и вычислим значения ФКл, ФКс, ФКт: ФКл = –2344,21 – 0,5·21 + 36,52·36,2 + 7,31·76 – 0,38·20 + 1,6·3,79 + 17,33·140,03 + 0,05·64,67 + 598,3·0,34 – 5,45·1 + 99,1·1 – 62,22·0 – 21,79·1 + 26,31·0 = 2226,77, ФКс = –2396,12 – 0,46·21 + 37,12·36,2 + 6,99·76 – 0,35·20 + 4,92·3,79 + 17,04·140,03 + 0,04·64,67 + 561,3·0,34 – 3,65·1 + 84,15·1 – 52,65·0 – 20,58·1 + 24,54·0 = 2120,31, ФКт = –2441,58 – 0,15·21 + 36,24·36,2 + 8,04·76 – 0,32·20 + 7,45·3,79 + 17,64·140,03 + 0,1·64,67 + 559,35·0,34 – 3,96·1 + 85,4·1 – 58,7·0 – 32,21·1 + 26,27·0 = 2216,03. Наибольшее значение у классификационной функции ФКл, следова- тельно, предприятие следует отнести к группе низкий. Таким образом, прогно- зируемое значение отклика совпало с исходным значением – низкий. Дополнительным признаком адекватности модели дискриминации яв- ляется распределение остатков. Для адекватной модели остатки должны быть случайными числами со средним значением, равным 0 и распределением близким к нормальному закону. Если перейти на вкладку Остатки регрессии (рис. 31), щелкнуть по кнопке Остатки, программа построит гистограммы остатков для классов (групп предприятий), указанных при помощи выпа- дающего меню Классы. Как видно из рис. 32 – 34 условия адекватности мо- дели выполняются, так как гистограммы напоминают нормальное распреде- ление.
  • 24. 24 Рис. 31 Гистограмма исходных остатков Зависимая переменная: низкий (Анализ. выборка) -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 X <= Граница категории 0 5 10 15 20 25 30 35 Кол-вонабл. Рис. 32
  • 25. 25 Гистограмма исходных остатков Зависимая переменная: средний (Анализ. выборка) -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 X <= Граница категории 0 2 4 6 8 10 12 14 16 18 20 22 Кол-вонабл. Рис. 33 Гистограмма исходных остатков Зависимая переменная: высокий (Анализ. выборка) -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 X <= Граница категории 0 2 4 6 8 10 12 14 16 18 Кол-вонабл. Рис. 34 В модуле GDA классификация наблюдений осуществляется посредством общих линейных моделей, параметры которых отображены в таблице Оценки параметров, представленной на рис. 17. Если на вкладке Остатки регрессии (рис. 31) щелкнуть по кнопке Предсказанные значения и остатки, то про- грамма для каждого предприятия построит таблицу с наблюдаемыми и пред- сказанными значениями координат вектора (x, y, z) (рис. 35). Остатки вычис- ляются как разность между наблюдаемым и предсказанным значением коор- динаты.
  • 26. 26 Как было отмечено, двое предприятий из группы низкий ошибочно от- несены к группе средний; одно предприятие из группы средний ошибочно отнесено к группе низкий (рис. 29). Найти такие наблюдения можно посред- ством таблицы на рис. 35. Ячейки таблицы, соответствующие выявленным предприятиям выделены полужирным начертанием. Это предприятие № 12 из группы низкий (1, 0, 0) ошибочно отнесен к группе средний (0,44; 0,45; 0,11), так как вторая координата имеет значение наиболее близкое к 1, чем первая. . Наблюдаемые, предсказанные и значения остатков (Омда) Сигма-ограниченная параметризация (Анализ. выборка) низкий Наблюд. низкий Предск. низкий Остатки средний Наблюд. средний Предск. средний Остатки высокий Наблюд. высокий Предск. 1 1,000000 0,791875 0,208125 0,000000 0,394775 -0,394775 0,000000 -0,186650 2 0,000000 0,072607 -0,072607 0,000000 -0,214734 0,214734 1,000000 1,142127 3 1,000000 1,051450 -0,051450 0,000000 0,015555 -0,015555 0,000000 -0,067005 4 1,000000 0,937963 0,062037 0,000000 -0,102426 0,102426 0,000000 0,164463 5 0,000000 0,131948 -0,131948 1,000000 0,900617 0,099383 0,000000 -0,032566 6 1,000000 1,050306 -0,050306 0,000000 -0,154257 0,154257 0,000000 0,103951 7 0,000000 0,063135 -0,063135 0,000000 -0,061382 0,061382 1,000000 0,998246 8 0,000000 0,084587 -0,084587 0,000000 0,050122 -0,050122 1,000000 0,865291 9 0,000000 0,103041 -0,103041 1,000000 0,858756 0,141244 0,000000 0,038203 10 0,000000 0,253255 -0,253255 1,000000 0,797819 0,202181 0,000000 -0,051074 11 1,000000 0,827760 0,172240 0,000000 0,130704 -0,130704 0,000000 0,041537 12 1,000000 0,444272 0,555728 0,000000 0,450154 -0,450154 0,000000 0,105574 13 0,000000 -0,145175 0,145175 0,000000 0,041099 -0,041099 1,000000 1,104076 14 0,000000 0,095559 -0,095559 1,000000 0,900062 0,099938 0,000000 0,004378 15 1,000000 0,979537 0,020463 0,000000 0,001904 -0,001904 0,000000 0,018559 16 0,000000 0,066837 -0,066837 0,000000 0,181392 -0,181392 1,000000 0,751771 17 0,000000 0,092797 -0,092797 0,000000 0,111081 -0,111081 1,000000 0,796122 18 0,000000 0,059959 -0,059959 1,000000 0,700901 0,299099 0,000000 0,239140 19 0,000000 0,105064 -0,105064 0,000000 -0,037318 0,037318 1,000000 0,932254 20 0,000000 -0,015710 0,015710 1,000000 1,262090 -0,262090 0,000000 -0,246380 21 1,000000 1,011739 -0,011739 0,000000 0,105736 -0,105736 0,000000 -0,117476 22 0,000000 0,094338 -0,094338 0,000000 -0,212416 0,212416 1,000000 1,118078 23 1,000000 0,944260 0,055740 0,000000 -0,053789 0,053789 0,000000 0,109529 24 0,000000 0,784562 -0,784562 1,000000 0,210310 0,789690 0,000000 0,005128 25 1,000000 0,393838 0,606162 0,000000 0,538872 -0,538872 0,000000 0,067290 26 0,000000 0,061032 -0,061032 1,000000 0,938544 0,061456 0,000000 0,000424 27 0,000000 0,003497 -0,003497 1,000000 1,044452 -0,044452 0,000000 -0,047949 28 0,000000 0,058247 -0,058247 1,000000 0,940464 0,059536 0,000000 0,001289 29 0,000000 0,009400 -0,009400 0,000000 0,296442 -0,296442 1,000000 0,694158 30 1,000000 0,892630 0,107370 0,000000 0,127951 -0,127951 0,000000 -0,020582 31 0,000000 -0,058032 0,058032 0,000000 -0,071896 0,071896 1,000000 1,129928 32 0,000000 0,074494 -0,074494 0,000000 -0,175624 0,175624 1,000000 1,101130 33 0,000000 -0,076486 0,076486 0,000000 0,193683 -0,193683 1,000000 0,882802 34 0,000000 0,033564 -0,033564 1,000000 0,946348 0,053652 0,000000 0,020088 35 0,000000 -0,115782 0,115782 1,000000 0,930919 0,069081 0,000000 0,184864 36 1,000000 1,109299 -0,109299 0,000000 0,010695 -0,010695 0,000000 -0,119994 37 0,000000 -0,121334 0,121334 1,000000 0,862253 0,137747 0,000000 0,259081 38 1,000000 0,689179 0,310821 0,000000 0,315683 -0,315683 0,000000 -0,004862 39 0,000000 0,040239 -0,040239 1,000000 0,872716 0,127284 0,000000 0,087045 40 1,000000 1,146679 -0,146679 0,000000 -0,201002 0,201002 0,000000 0,054323 41 0,000000 0,005364 -0,005364 1,000000 0,948539 0,051461 0,000000 0,046097 42 0,000000 -0,208467 0,208467 0,000000 0,239722 -0,239722 1,000000 0,968745
  • 27. 27 . Наблюдаемые, предсказанные и значения остатков (Омда) Сигма-ограниченная параметризация (Анализ. выборка) низкий Наблюд. низкий Предск. низкий Остатки средний Наблюд. средний Предск. средний Остатки высокий Наблюд. высокий Предск. 43 0,000000 -0,010540 0,010540 0,000000 0,096618 -0,096618 1,000000 0,913922 44 0,000000 0,089381 -0,089381 1,000000 0,848537 0,151463 0,000000 0,062082 45 0,000000 0,009421 -0,009421 1,000000 0,969649 0,030351 0,000000 0,020930 46 1,000000 0,765209 0,234791 0,000000 0,238686 -0,238686 0,000000 -0,003896 47 0,000000 -0,010005 0,010005 0,000000 0,092827 -0,092827 1,000000 0,917178 48 1,000000 1,017551 -0,017551 0,000000 -0,040526 0,040526 0,000000 0,022974 49 0,000000 0,013182 -0,013182 0,000000 0,006661 -0,006661 1,000000 0,980157 50 0,000000 0,302473 -0,302473 1,000000 0,752027 0,247973 0,000000 -0,054500 Рис. 35 Предприятие № 25 из группы низкий (1; 0; 0) ошибочно отнесено к группе средний (0,38; 0,55; 0,07) по этой же причине. Предприятие № 24 из группы средний (0; 1; 0), ошибочно отнесено к группе низкий (0,78; 0,21; 0,01) так как первая координата имеет значение наиболее близкое к 1, чем вторая. Если выбрана опция Таблица для каждой зависимой переменной, то мо- дуль построит таблицы идентичные таблице на рис. 35, но отдельно для каж- дой группы предприятий. Рис. 36
  • 28. 28 Если выбрана опция Дополнительные статистики, то вместе с пред- сказанными, наблюдаемыми и остаточными значениями STATISTICA вычис- лит стандартные 95% предсказанные интервалы, 95% доверительные интер- валы, стандартизованные предсказанные и т.д. В модуле GDA, как и в модуле DA предусмотрено автоматическое вы- деление ошибочно классифицированных наблюдений посредством вычисле- ния апостериорных вероятностей. Если перейти на вкладку Наблюдения, в рамке Статистики наблюдений выделить опцию Апостериорные вероятно- сти, канонические значения и нажать на кнопку Показать статистики (рис. 36), появится таблица с апостериорными вероятностями и каноническими корнями, в которой звездочками помечены номера неправильно классифици- рованных наблюдений (предприятий) (рис. 37). Номер набл. Статистики для каждого наблюдения (Омда) Неверные классификации отмечены символом * Анализируемая выборка N = 50 Наблюдае Классиф. низкий вер. средний вер. высокий вер. Корень 1 Корень 2 1 низкий 0,997328 0,002672 0,000000 4,49486 1,01072 2 высокий 0,000000 0,000000 1,000000 -6,85527 1,18060 3 низкий 0,999998 0,000002 0,000000 3,79766 2,83673 4 низкий 0,999994 0,000006 0,000000 1,89323 2,98733 5 средний 0,000104 0,999896 0,000000 2,66061 -2,13459 6 низкий 0,999999 0,000001 0,000000 2,45883 3,39588 7 высокий 0,000000 0,000000 1,000000 -5,66642 0,71734 8 высокий 0,000000 0,000000 1,000000 -4,58861 0,41173 9 средний 0,000097 0,999903 0,000000 2,10896 -2,03378 10 средний 0,002259 0,997741 0,000000 2,97025 -1,47938 11 низкий 0,999681 0,000319 0,000000 2,67050 1,89825 *12 низкий 0,337120 0,662880 0,000000 1,85034 0,02792 13 высокий 0,000000 0,000000 1,000000 -6,81230 -0,19430 14 средний 0,000046 0,999954 0,000000 2,29845 -2,24868 15 низкий 0,999994 0,000006 0,000000 3,06895 2,72991 16 высокий 0,000000 0,000000 1,000000 -3,77276 -0,11233 17 высокий 0,000000 0,000000 1,000000 -4,05663 0,21294 18 средний 0,000092 0,999908 0,000000 0,40950 -1,68560 19 высокий 0,000000 0,000000 1,000000 -5,03615 0,79816 20 средний 0,000001 0,999999 0,000000 4,24081 -3,61650 21 низкий 0,999994 0,000006 0,000000 4,20023 2,49096 22 высокий 0,000000 0,000000 1,000000 -6,63414 1,23249 23 низкий 0,999991 0,000009 0,000000 2,30470 2,81842 *24 средний 0,999055 0,000945 0,000000 2,96151 1,58132 *25 низкий 0,080690 0,919310 0,000000 2,04884 -0,42603 26 средний 0,000018 0,999982 0,000000 2,28102 -2,46701 27 средний 0,000003 0,999997 0,000000 2,57400 -2,97349 28 средний 0,000024 0,999976 0,000000 2,34526 -2,41292 29 высокий 0,000000 0,000002 0,999998 -3,28568 -0,53873 30 низкий 0,999926 0,000074 0,000000 3,28286 2,11041 31 высокий 0,000000 0,000000 1,000000 -6,92289 0,38174 32 высокий 0,000000 0,000000 1,000000 -6,58475 1,00832 33 высокий 0,000000 0,000000 1,000000 -4,86987 -0,41414 34 средний 0,000013 0,999987 0,000000 2,14405 -2,51514 35 средний 0,000001 0,999999 0,000000 0,56586 -2,92984 36 низкий 0,999999 0,000001 0,000000 4,28713 2,99968 37 средний 0,000001 0,999998 0,000000 0,11939 -2,58881
  • 29. 29 Номер набл. Статистики для каждого наблюдения (Омда) Неверные классификации отмечены символом * Анализируемая выборка N = 50 Наблюдае Классиф. низкий вер. средний вер. высокий вер. Корень 1 Корень 2 38 низкий 0,991727 0,008273 0,000000 2,99705 1,06362 39 средний 0,000027 0,999973 0,000000 1,64927 -2,23605 40 низкий 1,000000 0,000000 0,000000 2,94263 3,76881 41 средний 0,000007 0,999993 0,000000 1,88215 -2,61380 42 высокий 0,000000 0,000000 1,000000 -5,62045 -0,81773 43 высокий 0,000000 0,000000 1,000000 -5,23424 -0,11213 44 средний 0,000082 0,999918 0,000000 1,90906 -2,03048 45 средний 0,000007 0,999993 0,000000 2,12198 -2,63926 46 низкий 0,999094 0,000906 0,000000 3,13509 1,55413 47 высокий 0,000000 0,000000 1,000000 -5,03211 0,10706 48 низкий 0,999997 0,000003 0,000000 3,05550 2,94138 49 высокий 0,000000 0,000000 1,000000 -5,70109 0,26446 50 средний 0,004537 0,995463 0,000000 2,94283 -1,30959 Рис. 37 Предприятие следует отнести к той группе, соответствующая апостери- орная вероятность для которой максимальна. Если дополнительно выделить опции Квадраты расстояний Махаланобиса, Классификация, Канонические значения, то в таблице дополнительно для каждого предприятия будут ото- бражены: – квадраты расстояний Махаланобиса от предприятия до центра каждой из групп (предприятие следует отнести к той группе, расстояние до центра которой минимально); – максимальная вероятность, 2-я максимальная вероятность, 3-я макси- мальная вероятность принадлежности предприятия к группам; – значения дискриминантных функций (канонические значения). Как было ранее замечено по дискриминантным функциям 1 и 2 можно вычислить дискриминантные функции (канонические корни) для каждого на- блюдения (предприятия). К сожалению в модуле не предусмотрена процедура аналогичная модулю классического дискриминантного анализа для построе- ния диаграммы рассеяния канонических корней. Но можно построить такую диаграмму, если воспользоваться категоризованными графиками (рис. 38). Предварительно следует сохранить столбцы Корень 1, Корень 2 в файле исходных данных, например простым копированием из рабочей книги. Да- лее, в открывшемся окне модуля диаграммы рассеяния следует переменным Корень 1, Корень 2 поставить в соответствие оси системы координат (рис. 39).
  • 30. 30 Рис. 38 Рис. 39 На вкладке Быстрый (рис. 40) выделить опцию С перекрытием щелк- нуть по кнопке ОК, программа запросит указать категоризующую перемен- ную (рис. 41). Если далее щелкнуть по ОК программа построит диаграмму рассеяния канонических корней (рис.42).
  • 32. 32 Диаграмма рассеяния для Корень 2 и Корень 1; категор. по Группа риска Омда 14v*50c Корень 1 Корень2 Группа риска: низкий Группа риска: средний Группа риска: высокий-8 -6 -4 -2 0 2 4 6 -4 -3 -2 -1 0 1 2 3 4 5 Рис. 42 Как и в модуле DA, в модуле GDA можно провести классификацию на- блюдений, для которых класс не определен. Для этого надо закрыть все окна модуля GDA, добавить в таблицу данных новые строки, оставив ячейку кате- гориальной переменной пустой и выключить опцию кросс-проверки. В каче- стве примера, добавим в таблицу данных новую 51 строку, и наберем данные нового предприятия, группу риска которого следует идентифицировать (рис. 43). Запустим модуль GDA, далее на вкладке Наблюдения диалога Результа- ты (рис. 36) надо в рамке Выборка для построения остатков выделить оп- цию Предсказанные, в рамке Статистика наблюдений – интересующие нас статистики, в том числе Апостериорные вероятности, или квадраты рас- стояний Махаланобиса. Если нажать на кнопку Показать статистики, появится таблица (рис. 44) со значениями обозначенных статистик для нового предприятия № 51.
  • 33. 33 1 R1 2 R2 3 R3 4 R4 5 A1 6 A2 7 L1 8 L2 9 L3 10 Тип пред. 11 Сфера деят. 12 Группа риска 13 Корень 1 40 41 42 43 44 45 46 47 48 49 50 51 26 36,6 82 18 3,44 140,1 51,0 5,92 0,39 среднее строит. низкий 2,94263 44 37,9 94 29 4,22 130,4 143,2 9,64 0,45 среднее торговлясредний 1,88215 65 39,9 105 39 4,84 131,4 273,5 6,01 0,41 малое туризм высокий -5,62045 49 39,3 96 44 3,95 131,5 234,3 12,48 0,48 малое туризм высокий -5,23424 46 37,8 80 27 3,57 138,2 206,9 6,06 0,50 среднее торговлясредний 1,90906 30 36,4 77 17 3,57 139,0 41,8 5,90 0,44 малое торговлясредний 2,12198 42 40,3 88 27 4,40 129,3 160,3 3,66 0,49 малое строит. низкий 3,13509 54 39,9 95 40 3,70 138,3 144,4 3,85 0,48 малое туризм высокий -5,03211 27 38,3 77 29 3,73 141,1 44,7 6,10 0,40 среднее строит. низкий 3,05550 49 40,7 100 39 3,43 129,1 243,4 12,66 0,47 малое туризм высокий -5,70109 34 39,9 95 23 4,41 133,6 157,9 14,11 0,45 среднее туризм средний 2,94283 25 37,0 80 25 3,50 145,0 60,0 6,00 0,45 среднее туризм Рис. 43 Статистики для каждого наблюдения (Омда) Предск. выборка N = 1 Номер набл. низкий Рас.Махл средний Рас.Махл высокий Рас.Махл низкий вер. средний вер. высокий вер. Макс. Вероят. 2-ая Макс. 3-я Макс. 51 29,61408 25,56545 99,589660,105072 0,894928 0,000000 средний низкий высокий Рис. 44 Из таблицы видно, что минимальное значение квадрата расстояния Махаланобиса (25,56), максимальное значение апостериорной вероятности (0,89), максимальная вероятность соответствуют группе средний, следова- тельно, группа риска предприятия соответствует группе средний. Обратите внимание, что апостериорная вероятность для группы низкий (0,11), больше, чем вероятность для группы высокий (0,00), а расстояние Махаланобиса на- оборот, к группе низкий (29,61) значительно меньше, чем к группе высокий (99,58). Это означает, что предприятие, которое в соответствии с произве- денной классификацией следует отнести к группе средний, по своему со- стоянию ближе к группе низкий, чем высокий.