SlideShare a Scribd company logo
1 of 16
1
Общие линейные модели
В классическом регрессионном анализе предполагается, что отклик и пре-
дикторы – это непрерывные случайные величины, имеющие нормальное рас-
пределение. Однако в некоторых задачах в качестве предикторов целесообразно
рассматривать качественные переменные, измеренные в номинальной или по-
рядковой шкале. Если в качестве предикторов используются непрерывные и ка-
тегориальные переменные, то для построения регрессионной модели следует
использовать метод Общие линейные модели, который реализован в пакете
STATISTICA с одноименным модулем (GLM).
Рассмотрим пример. Предположим, группа людей, состоящая из врачей,
педагогов и менеджеров в количестве 46 чел., пребывая в состоянии душевного
дискомфорта, наблюдаются у психолога. Для улучшения их психического со-
стояния им было предложено, выбрав себе увлечение (хобби), посвятить боль-
шую часть своего времени этому увлечению. Был измерен уровень стресса до
занятия хобби и через определенное время, например через полгода (рис. 1).
1
Возраст
2
Пол
3
Профессия
4
Длит.
набл.
5
SLBT
6
SLAT
7
dst
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
24 муж. врач 5 22 5 17
41 муж. менеджер 730 19 8 11
53 жен. врач 60 37 10 27
42 муж. менеджер 180 32 20 12
32 муж. педагог 1095 15 9 6
63 жен. менеджер 1095 19 7 12
19 муж. менеджер 730 32 6 26
19 муж. менеджер 180 27 6 21
49 жен. менеджер 1095 14 5 9
43 жен. менеджер 365 39 8 31
19 муж. менеджер 365 20 13 7
45 жен. менеджер 730 32 7 25
52 жен. врач 120 26 10 16
47 муж. менеджер 2555 21 12 9
31 муж. менеджер 60 42 16 26
45 муж. менеджер 730 44 15 29
44 муж. врач 60 16 5 11
29 муж. врач 14 18 12 6
46 жен. педагог 5110 38 31 7
33 муж. менеджер 180 13 2 11
47 жен. менеджер 365 22 7 15
26 жен. врач 90 23 5 18
51 муж. менеджер 5110 13 3 10
24 муж. врач 10 22 5 17
41 муж. менеджер 730 19 8 11
53 жен. врач 60 37 10 27
42 муж. менеджер 180 32 20 12
Рис. 1
2
Известны возраст, пол, профессии, длительность наблюдения у психоло-
га, уровень стресса до (SLBT, stress levels before treatment) и после трудовой те-
рапии (SLAT, stress levels after treatment), а также определена разность между
уровнями стресса (dst = SLBT – SLAT).
Наша задача, построить общую линейную модель зависимости отклика
SLAT – показателя выраженности стресса в баллах после терапии увлечением,
от качественных предикторов Пол, Профессия и количественных – Возраст,
Длительность наблюдения, SLBT – показателя выраженности стресса в баллах
до появления хобби.
Для начала работы с модулем Общие линейные модели следует в меню
Анализ высветить Углубленные методы анализа (рис.3), в открывшемся меню
щелкнуть по процедуре Общие линейные модели, откроется стартовое окно
модуля (рис.4). Если в появившемся окне щелкнуть пол кнопке ОК, то откроет-
ся одноименное окно (рис.5), в котором надо щелкнуть по кнопке Переменные и
в появившемся окне (рис.6) выделить зависимую переменную, категориальные
и непрерывные предикторы.
Рис.3
3
Рис.4
Рис.5
4
Рис.6
После проведенных манипуляций стартовое окно программы примет вид,
представленный на рис.6. Если нажать на ОК, то откроется окно Результаты
анализа, в котором следует перейти на вкладку Итоги (рис.7).
Рис.6
5
Рис.7
Если нажать на кнопку Одномерные результаты, то откроется таблица, в
которой приведены одномерные результаты для оценки степени и характера
взаимосвязи отклика SLAT и эффектов в регрессионной модели (рис.8). Из таб-
лицы видно, что статистически значимы все эффекты за исключением Длит.
набл., так как уровни значимости р критерия Фишера меньше, чем 0,05. Но и
для переменной Длит. набл. уровень значимости р равный 0,07, незначительно
превосходит 0,05. Другими словами факторы Пол, Профессия влияют на от-
клик, но они также взаимодействуют в своем влиянии на него. Наибольший
вклад в общую линейную модель вносит эффект Профессия, так как статистика
SS, равная 410,091, принимает наибольшее значение. Далее идут эффекты
Пол*Профессия, SLBT, Возраст, Пол, Длит. набл.
6
Эффект
Одномерный критерий значимостидля SLAT (Стресс)
Сигма-ограниченная параметризация
Декомпозиция гипотезы
SS Степени
Свободы
MS F p
Св. член 10,0214 1 10,0214 0,86409 0,358621
Возраст 60,5705 1 60,5705 5,22270 0,028121
Длит. набл. 38,6992 1 38,6992 3,33684 0,075821
SLBT 173,9651 1 173,9651 15,00016 0,000423
Пол 50,2161 1 50,2161 4,32989 0,044427
Профессия 410,0905 2 205,0453 17,68005 0,000004
Пол*Профессия 263,4004 2 131,7002 11,35587 0,000143
Ошибка 429,1093 37 11,5975
Рис.8
Для того, чтобы определить, как закодированы категориальные перемен-
ные в общей линейной модели, надо нажать на кнопку Члены плана (рис.7) и
воспользоваться таблицей Метки столбцов на рис.9. Для кодирования категори-
альных предикторов в модуле использована сигма-ограниченная параметризация.
Метка
Метки столбцов (Стресс)
Метки для столбцов матрицы плана X
Столбец Перемен. Уровень
Перемен.
от
Уровень
Перемен. Уровень
Перемен.
от
Уровень
Св. член 1
Возраст 2 Возраст
Длит. набл. 3 Длит. набл.
SLBT 4 SLBT
Пол 5 Пол муж. жен.
Профессия 6 Профессия врач педагог
Профессия 7 Профессия менеджер педагог
Пол*Профессия 8 Пол муж. жен. Профессия врач педагог
Пол*Профессия 9 Пол муж. жен. Профессия менеджер педагог
Рис.9
При такой параметризации каждый эффект (фактор) представляется в ви-
де совокупности одноименных двухуровневых эффектов. Например, так как пе-
ременная Пол имеет два уровня, то она и представляется с двумя уровнями:
муж., жен. Предиктор Профессия состоит из 3 уровней, поэтому представляет-
ся в виде 2 одноименных двухуровневых переменных: Профессия (врач, педа-
гог); Профессия (менеджер, педагог). При этом уровню 1 присваивается число-
вое значение 1, а уровню 2 – числовое значение 0, или –1. Например, если рас-
сматривается предиктор Пол, то альтернативным значениям предиктора муж.,
жен. будут присвоены соответственно значения 1 и 0, которые будут представ-
лять количественные различия между группами наблюдений (больных) муж.,
жен.. Предиктор Профессия в строке 6 таблицы имеет 2 значения врач, педагог,
которые соответственно будут закодированы как 1 и 0. Этот же предиктор в
7
строке 7 имеет 2 значения менеджер, педагог, которые также будут закодирова-
ны как 1 и 0.
При этом, если респондент имеет профессию врач, то Профессия в строке
6 примет значение 1, а Профессия в строке 7 примет значение 0; если респон-
дент имеет профессию менеджер, то Профессия в строке 6 примет значение 0,
а Профессия в строке 7 примет значение 1. Но если респондент педагог, то
Профессия в строках 6 и 7 примет значение –1.
Значения, обозначающие членство в одной из двух групп, выбираются с
учетом облегчения последующей интерпретации регрессионного коэффициента,
соответствующего этому предиктору. Поэтому, если регрессионный коэффици-
ент для этой переменной является положительным, то группа, закодированная с
помощью значения 1, будет иметь большее предсказанное значение отклика.
Если получен отрицательный регрессионный коэффициент, то группа, закоди-
рованная значением 1, будет иметь меньшее предсказанное значение отклика.
Значения сложных эффектов Пол*Профессия в строках 8 и 9 также коди-
руются числами 1 и 0, которые являются результатами умножения соответст-
вующих числовых значений предикторов Пол, Профессия. Так, для
Пол*Профессия в строке 8 возможны следующие 4 комбинации муж.*врач,
муж.*педагог, жен.*врач, жен.*педагог, которые в регрессионных моделях
принимают следующие значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. Для
Пол*Профессия в строке 9 возможны другие 4 комбинации муж.*менеджер,
муж.*педагог, жен.*менеджер, жен.*педагог, которые принимают следующие
значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. Обратите внимание, что сумма всех
значений каждого простого и сложного эффекта равна 1.
Если нажать на кнопку Коэффициенты, то откроется таблица Оценки па-
раметров (рис.10), в третьем столбце которой (SLAT Парам.) отображены ко-
эффициенты регрессионного уравнения. В столбце Уровень Эффект приведены
уровни эффектов муж., врач, менеджер, которые кодируются программой как
1. В четвертом столбце таблицы приведены стандартные ошибки параметров,
которые определяются как стандартное отклонение параметра, деленное на объ-
ем выборки. Стандартные ошибки характеризуют точность вычисления пара-
метров. Для всех эффектов, за исключением свободного члена, стандартные
ошибки значительно меньше оцениваемых параметров. В столбцах 5 и 6 приве-
дены значения t-критерия (критерия Стьюдента) и соответствующие им уровни
значимости р для оценки значимости коэффициентов регрессионного уравне-
ния. Так как р эффектов Св. член и Длит. набл. больше, чем 0,05, то соответст-
вующие им параметры статистически не значимы и из общей линейной модели
могут быть удалены.
8
Эффект
Оценки параметров (Стресс)
Сигма-ограниченная параметризация
Уровень
Эффект
Столбец SLAT
Парам.
SLAT
Ст.Ош.
SLAT
t
SLAT
p
Св. член 1 2,50478 2,694565 0,92957 0,358621
Возраст 2 0,12713 0,055629 2,28532 0,028121
Длит. набл. 3 -0,00137 0,000753 -1,82670 0,075821
SLBT 4 0,25056 0,064694 3,87300 0,000423
Пол муж. 5 -1,85635 0,892116 -2,08084 0,044427
Профессия врач 6 -5,35170 1,256505 -4,25920 0,000135
Профессия менеджер 7 -4,30875 0,841715 -5,11901 0,000010
Пол*Профессия 1 8 3,28649 0,954883 3,44177 0,001449
Пол*Профессия 2 9 4,34371 1,076842 4,03375 0,000264
Рис.10
Если нажать на кнопку Общая R модели, то справедливым будет вывод,
что в целом, построенная модель взаимосвязи отклика с предикторами доста-
точно адекватная, так коэффициент множественной корреляции R = 0,87 и бли-
зок к 1, а R2
= 0, 76 значительно больше, чем 0,5 и описывает более 76% измен-
чивости отклика (рис.11).
Зависим.
Перемен.
SS модели и SS остатков (Стресс)
Множеств
R
Множеств
R2
Скоррект
R2
SS
Модель
сс
Модель
MS
Модель
SS
Остаток
сс
Остаток
SLAT 0,872277 0,760867 0,709162 1365,32 8 170,665 429,1093 37
Рис.11
Категориальные переменные Социальный статус, Нозологические болез-
ни делят всю совокупность больных на подгруппы. Значимость категориальных
факторов в модели определяется различием средних в подгруппах. Если вос-
пользоваться кнопкой Статистики ячеек, то появится таблица, в которой будут
отображены значения средних отклика SLAT во всех 11 подгруппах, также при-
ведены стандартные отклонения, стандартные ошибки и доверительные интер-
валы вычисленных оценок (рис.12). К сожалению по данной таблице невоз-
можно оценить статистическую значимость отличия средних в подгруппах
больных.
Эффект
Описательные статистики для зависимых переменных (Стресс)
Уровень
Фактор
Уровень
Фактор
N SLAT
Среднее
SLAT
Ст.Откл.
SLAT
Ст.Ош.
SLAT
-95,00%
SLAT
+95,00%
Всего 46 9,65217 6,31477 0,931062 7,77692 11,52743
Пол муж. 26 9,46154 5,09298 0,998816 7,40444 11,51864
Пол жен. 20 9,90000 7,75887 1,734935 6,26874 13,53126
Профессия врач 12 7,83333 3,04014 0,877612 5,90172 9,76494
Профессия менеджер 30 9,00000 5,01033 0,914758 7,12911 10,87089
Профессия педагог 4 20,00000 12,70171 6,350853 -0,21125 40,21125
Пол*Профессия муж. врач 6 7,33333 3,61478 1,475730 3,53985 11,12682
Пол*Профессия муж. менеджер 18 10,22222 5,66263 1,334694 7,40626 13,03818
Пол*Профессия муж. педагог 2 9,00000 0,00000 0,000000 9,00000 9,00000
9
Эффект
Описательные статистики для зависимых переменных (Стресс)
Уровень
Фактор
Уровень
Фактор
N SLAT
Среднее
SLAT
Ст.Откл.
SLAT
Ст.Ош.
SLAT
-95,00%
SLAT
+95,00%
Пол*Профессия жен. врач 6 8,33333 2,58199 1,054093 5,62370 11,04296
Пол*Профессия жен. менеджер 12 7,16667 3,24271 0,936089 5,10635 9,22698
Пол*Профессия жен. педагог 2 31,00000 0,00000 0,000000 31,00000 31,00000
Рис.12
Статистическую значимость отличия средних в подгруппах больных от-
клика SLAT можно оценить при помощи критерия наименьшей значимой разно-
сти (НЗР). Для этого надо воспользовавшись кнопкой Больше (рис.7), перейти в
диалог, окно которого представлено на рис. 13.
Рис.13
Далее перейти на вкладку Апостер. и нажать на кнопку Фишера НЗР,
предварительно установив при помощи выпадающего меню в поле Эффект
«Пол» «Профессия». Из открывшейся таблицы (рис.14) видно, что наиболее
эффективно лечение комбинированным методом в подгруппе 5 – женщин, ме-
неджеров, так как отклик SLAT принимает наименьшее значение, равное 7,1667.
Но при этом отличие статистически значимо лишь с подгруппами 2 и 6, муж-
чин, менеджеров (10,222) и женщин, педагогов (31,00). Среднее значения откли-
ка в подгруппе 6 принимает достаточно большое значение, равное 31, что свиде-
10
тельствует о низкой эффективности терапии увлечением для этих больных.
Среднее значение отклика в этой подгруппе значительно и статистически зна-
чимо отличается от средних во всех остальных 5 подгруппах.
N ячейки
НЗР крит.; перем.SLAT (Стресс)
Вероятности для апостер. критериев
Ошибка: Межгр. MS = 11,598, сс = 37,000
Пол Профессия 1
7,3333
2
10,222
3
9,0000
4
8,3333
5
7,1667
6
31,000
1 муж. врач 0,080098 0,552564 0,614051 0,922556 0,000000
2 муж. менеджер 0,080098 0,632991 0,246869 0,021163 0,000000
3 муж. педагог 0,552564 0,632991 0,811842 0,485314 0,000000
4 жен. врач 0,614051 0,246869 0,811842 0,497512 0,000000
5 жен. менеджер 0,922556 0,021163 0,485314 0,497512 0,000000
6 жен. педагог 0,000000 0,000000 0,000000 0,000000 0,000000
Рис.14
В группах по профессии наиболее эффективна терапия увлечением у вра-
чей (7,8333), и наименее эффективно в группе педагогов (20,0). Причем среднее
отклика в этой группе статистически значимо отличается от средних в группах
1 (7,8333) и 2 (9,0).
В группах по полу отличие средних отклика не является статистически
значимым (рис. 15).
Профессия
SLAT, Крит. НЗР; Отмечены
разности, значимые на уровне p
< ,05000
SLAT, Крит. НЗР; Отмечены
разности, значимые на уровне p
< ,05000
1
M=7,8333
2
M=9,0000
3
M=20,000
Пол 1
M=9,4615
2
M=9,9000
врач 1 0,539857 0,000434 муж. 0,818399
менеджер 2 0,539857 0,000542 жен. 0,818399
педагог 3 0,000434 0,000542
Рис.15
В программе предусмотрена возможность сравнения значений отклика,
вычисленных программой по составленной модели SLAT Предск., с исходными
значениями SLAT Наблюд. из таблицы исходных данных. Для этого надо перей-
ти на вкладку Остатки 1 (рис.16) и нажать на кнопку Предсказ. и остатки. На
рис.17 приведен фрагмент таблицы для первых 25 больных. Из таблицы видно,
что уравнение достаточно «хорошо» предсказывает значение отклика SLAT–
состояние группы людей по шкале Бека после лечения комбинированным мето-
дом. Существенные отличия у людей под номерами 4, 11, 18, 20, что в принципе
можно объяснить также и высокими погрешностями бальной оценки их состоя-
ния.
11
Рис.16
12
Наблюдаемые, предсказанные значения и остатки (Т аблица псих1)
Сигма-ограниченная параметризация
(Анализируемая выборка)
Номер набл.
SLAT
Наблюд.
SLAT
Предск.
SLAT
Остатки
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
5,00000 7,13982 -2,13982
8,00000 9,65289 -1,65289
10,0000011,64914 -1,64914
20,0000013,79339 6,20661
9,00000 9,00000 -0,00000
7,00000 6,97327 0,02673
6,00000 10,11331 -4,11331
6,00000 9,61658 -3,61658
5,00000 3,94064 1,05936
8,00000 10,44541 -2,44541
13,00000 7,60834 5,39166
7,00000 8,44398 -1,44398
10,00000 8,68335 1,31665
12,00000 8,40800 3,59200
16,0000015,06553 0,93447
15,0000016,42544 -1,42544
5,00000 8,10345 -3,10345
12,00000 6,76085 5,23915
31,0000029,99648 1,00352
2,00000 7,88855 -5,88855
7,00000 6,69439 0,30561
5,00000 4,66751 0,33249
3,00000 3,39972 -0,39972
5,00000 7,13294 -2,13294
8,00000 9,65289 -1,65289
10,0000011,64914 -1,64914
20,0000013,79339 6,20661
Рис.17
13
Наблюдаемые и предсказанные значения
Зависимая переменная: SLAT
(Анализируемая выборка)
-5 0 5 10 15 20 25 30 35
Наблюдаемые значения
0
5
10
15
20
25
30
35
Предсказанныезначения
Рис.18
Гистограмма исходных остатков
Зависимая переменная: SLAT
(Анализиру емая выборка)
-10 -8 -6 -4 -2 0 2 4 6 8
X <= Граница категории
0
2
4
6
8
10
12
14
16
Кол-вонабл.
Рис.19
В соответствии с параметрами общей линейной модели (коэффициентами
регрессии, рис.10) легко выписать уравнение регрессии:
SLAT= 2,504 + 0,127Возраст – 0,001Длит. набл.+ 0,250SLBT – 1,856Пол/(муж.) –
5,351Профессия (врач) – 4,308Профессия (менеджер) + 3,286
Пол*Профессия(1) + 4,343Пол*Профессия(2)
14
Так как количество предикторов не велико, то можно воспользоваться
общей линейной моделью для прогнозирования состояния человека по шкале
Бека после терапии. Применим ручной счет при помощи обычного калькулято-
ра. Для этого надо в уравнение подставить значения предикторов и произвести
несложные арифметические действия. С количественными предикторами здесь
все предельно понятно, а с категориальными, с учетом принципов сигма-
ограниченной параметризации следует поступить так:
– если респондент из подгруппы муж., то эффект Пол/(муж.) следует за-
менить на 1, если из подгруппы жен., то Пол/(муж.) следует заменить на 0;
– если профессия респондента врач, то Профессия (врач) следует заме-
нить на 1, Профессия (менеджер) на 0;
– если профессия респондента менеджер, то Профессия (менеджер) сле-
дует заменить на 1, Профессия (врач) на 0;
– если профессия респондента педагог, то Профессия (менеджер) и Про-
фессия (врач) следует заменить на –1;
– если эффект Пол*Профессия (1) соответствует комбинации муж.*врач,
то его следует заменить на 1, в любом другом случае – на 0.
– если эффект Пол *Профессия (2) соответствует комбинации муж.* ме-
неджер, то его следует заменить на 1, в любом другом случае – на 0.
Для иллюстрации сказанного вычислим, например прогнозное значение
отклика SLAT для М. (№ 2, см. рис.1), если возраст 41 год, муж, менеджер, дли-
тельность наблюдения 730 дней, показатель тревоги SLBT = 19. Подставим дан-
ные в уравнение, получим:
SLAT= 2,50477 + 0,12713· 41 – 0,00137·730 + 0 ,25056·19 – 1,85635·1 – 5,3517·0 –
4,30874·1 – 3,28648·0 + 4,34371 = 9,65625.
Это означает, что прогнозируемое состояние после терапии составит
9,65625 баллов.
Если на вкладке Отчет (рис.20) щелкнуть по кнопке Печатать уравне-
ние предсказания, то программа сама выпишет уравнение регрессии:
Предск. уравнение для " SLAT ":
" SLAT "=2,50477626+,127130542*Возраст-0,00137468*"Длит. набл."+
0,250561207*"SLBT"-1,8563479*"Пол"(муж.)-5,3517041
*"Профессия"("врач")- 4,3087480*"Профессия"("менеджер") +
3,28648701*"Пол"*"Профессия"(1) + 4,34371226*"Пол"*"Профессия"(2)
В модуле Общие линейные модели программы STATISTICA предусмотрена
возможность сгенерировать код (автоматически составить текст процедуры) на
одном из языков программирования − STATISTICA Visual Basic (SVB), C/C++,
15
PMML код. Если выбрать SVB, то программа напишет текст процедуры и соз-
даст макрос, который потом можно будет сохранить и использовать для автома-
тического вычисления величины отклика при заданных пользователем значени-
ях предикторов.
Можно воспользоваться сохраненным кодом программы для вычисления
прогнозного значения состояния по шкале Бека произвольного человека после
терапии увлечением. Для этого достаточно последовательно в соответствии с
запросами программы ввести в окно (рис.21) данные. В качестве примера вве-
дены данные больного М. (№ 2, рис.10). После ввода значения последнего пре-
диктора – длительности наблюдения (Dlit. zab), равного 730 и нажатия на Enter,
программа в последней строке запишет результат автоматически произведенных
вычислений – 9,65289.
Рис.20
16
Рис. 21
Обратите внимание, что вычисленное программой значение примерно
равно значению 9,65625, вычисленному нами вручную по построенному урав-
нению. Незначительное расхождение вызвано погрешностью округления до пя-
того знака после запятой.
Таким образом, построена вполне адекватная общая линейная модель, ко-
торая позволяет с достаточно высокой точностью прогнозировать состояния по
шкале Бека после терапии увлечением, если известны возраст, длительность на-
блюдения, состояние до лечения, профессия и пол.

More Related Content

Similar to Общие линейные модели для магистров

Sindrom emotsionalnogo vygorania_u_vrachey-stomatologov_cherepanova_alisa_ven...
Sindrom emotsionalnogo vygorania_u_vrachey-stomatologov_cherepanova_alisa_ven...Sindrom emotsionalnogo vygorania_u_vrachey-stomatologov_cherepanova_alisa_ven...
Sindrom emotsionalnogo vygorania_u_vrachey-stomatologov_cherepanova_alisa_ven...
stomat12
 

Similar to Общие линейные модели для магистров (10)

Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HR
 
матстатистика для Hr
матстатистика для Hrматстатистика для Hr
матстатистика для Hr
 
Экспресс-методика
Экспресс-методикаЭкспресс-методика
Экспресс-методика
 
Канонический анализ (главн)
Канонический анализ (главн)Канонический анализ (главн)
Канонический анализ (главн)
 
Sindrom emotsionalnogo vygorania_u_vrachey-stomatologov_cherepanova_alisa_ven...
Sindrom emotsionalnogo vygorania_u_vrachey-stomatologov_cherepanova_alisa_ven...Sindrom emotsionalnogo vygorania_u_vrachey-stomatologov_cherepanova_alisa_ven...
Sindrom emotsionalnogo vygorania_u_vrachey-stomatologov_cherepanova_alisa_ven...
 
The First Study in Russian of the Outcome Rating Scale
The First Study in Russian of the Outcome Rating ScaleThe First Study in Russian of the Outcome Rating Scale
The First Study in Russian of the Outcome Rating Scale
 
Шкала оценки результата (ORS)
Шкала оценки результата (ORS)Шкала оценки результата (ORS)
Шкала оценки результата (ORS)
 
Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)
 

More from Alexan Khalafyan (8)

Логлинейный анализ (главная)
Логлинейный анализ (главная)Логлинейный анализ (главная)
Логлинейный анализ (главная)
 
ответы к задачам по тв и мс
ответы к задачам по тв и мсответы к задачам по тв и мс
ответы к задачам по тв и мс
 
задачи для студентов по тв и мс
задачи для студентов по тв и мсзадачи для студентов по тв и мс
задачи для студентов по тв и мс
 
Mathematical statistic in sport of football
Mathematical statistic in sport of footballMathematical statistic in sport of football
Mathematical statistic in sport of football
 
Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.
 
монография
монографиямонография
монография
 
математическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейматематическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностей
 
Aist
AistAist
Aist
 

Общие линейные модели для магистров

  • 1. 1 Общие линейные модели В классическом регрессионном анализе предполагается, что отклик и пре- дикторы – это непрерывные случайные величины, имеющие нормальное рас- пределение. Однако в некоторых задачах в качестве предикторов целесообразно рассматривать качественные переменные, измеренные в номинальной или по- рядковой шкале. Если в качестве предикторов используются непрерывные и ка- тегориальные переменные, то для построения регрессионной модели следует использовать метод Общие линейные модели, который реализован в пакете STATISTICA с одноименным модулем (GLM). Рассмотрим пример. Предположим, группа людей, состоящая из врачей, педагогов и менеджеров в количестве 46 чел., пребывая в состоянии душевного дискомфорта, наблюдаются у психолога. Для улучшения их психического со- стояния им было предложено, выбрав себе увлечение (хобби), посвятить боль- шую часть своего времени этому увлечению. Был измерен уровень стресса до занятия хобби и через определенное время, например через полгода (рис. 1). 1 Возраст 2 Пол 3 Профессия 4 Длит. набл. 5 SLBT 6 SLAT 7 dst 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 24 муж. врач 5 22 5 17 41 муж. менеджер 730 19 8 11 53 жен. врач 60 37 10 27 42 муж. менеджер 180 32 20 12 32 муж. педагог 1095 15 9 6 63 жен. менеджер 1095 19 7 12 19 муж. менеджер 730 32 6 26 19 муж. менеджер 180 27 6 21 49 жен. менеджер 1095 14 5 9 43 жен. менеджер 365 39 8 31 19 муж. менеджер 365 20 13 7 45 жен. менеджер 730 32 7 25 52 жен. врач 120 26 10 16 47 муж. менеджер 2555 21 12 9 31 муж. менеджер 60 42 16 26 45 муж. менеджер 730 44 15 29 44 муж. врач 60 16 5 11 29 муж. врач 14 18 12 6 46 жен. педагог 5110 38 31 7 33 муж. менеджер 180 13 2 11 47 жен. менеджер 365 22 7 15 26 жен. врач 90 23 5 18 51 муж. менеджер 5110 13 3 10 24 муж. врач 10 22 5 17 41 муж. менеджер 730 19 8 11 53 жен. врач 60 37 10 27 42 муж. менеджер 180 32 20 12 Рис. 1
  • 2. 2 Известны возраст, пол, профессии, длительность наблюдения у психоло- га, уровень стресса до (SLBT, stress levels before treatment) и после трудовой те- рапии (SLAT, stress levels after treatment), а также определена разность между уровнями стресса (dst = SLBT – SLAT). Наша задача, построить общую линейную модель зависимости отклика SLAT – показателя выраженности стресса в баллах после терапии увлечением, от качественных предикторов Пол, Профессия и количественных – Возраст, Длительность наблюдения, SLBT – показателя выраженности стресса в баллах до появления хобби. Для начала работы с модулем Общие линейные модели следует в меню Анализ высветить Углубленные методы анализа (рис.3), в открывшемся меню щелкнуть по процедуре Общие линейные модели, откроется стартовое окно модуля (рис.4). Если в появившемся окне щелкнуть пол кнопке ОК, то откроет- ся одноименное окно (рис.5), в котором надо щелкнуть по кнопке Переменные и в появившемся окне (рис.6) выделить зависимую переменную, категориальные и непрерывные предикторы. Рис.3
  • 4. 4 Рис.6 После проведенных манипуляций стартовое окно программы примет вид, представленный на рис.6. Если нажать на ОК, то откроется окно Результаты анализа, в котором следует перейти на вкладку Итоги (рис.7). Рис.6
  • 5. 5 Рис.7 Если нажать на кнопку Одномерные результаты, то откроется таблица, в которой приведены одномерные результаты для оценки степени и характера взаимосвязи отклика SLAT и эффектов в регрессионной модели (рис.8). Из таб- лицы видно, что статистически значимы все эффекты за исключением Длит. набл., так как уровни значимости р критерия Фишера меньше, чем 0,05. Но и для переменной Длит. набл. уровень значимости р равный 0,07, незначительно превосходит 0,05. Другими словами факторы Пол, Профессия влияют на от- клик, но они также взаимодействуют в своем влиянии на него. Наибольший вклад в общую линейную модель вносит эффект Профессия, так как статистика SS, равная 410,091, принимает наибольшее значение. Далее идут эффекты Пол*Профессия, SLBT, Возраст, Пол, Длит. набл.
  • 6. 6 Эффект Одномерный критерий значимостидля SLAT (Стресс) Сигма-ограниченная параметризация Декомпозиция гипотезы SS Степени Свободы MS F p Св. член 10,0214 1 10,0214 0,86409 0,358621 Возраст 60,5705 1 60,5705 5,22270 0,028121 Длит. набл. 38,6992 1 38,6992 3,33684 0,075821 SLBT 173,9651 1 173,9651 15,00016 0,000423 Пол 50,2161 1 50,2161 4,32989 0,044427 Профессия 410,0905 2 205,0453 17,68005 0,000004 Пол*Профессия 263,4004 2 131,7002 11,35587 0,000143 Ошибка 429,1093 37 11,5975 Рис.8 Для того, чтобы определить, как закодированы категориальные перемен- ные в общей линейной модели, надо нажать на кнопку Члены плана (рис.7) и воспользоваться таблицей Метки столбцов на рис.9. Для кодирования категори- альных предикторов в модуле использована сигма-ограниченная параметризация. Метка Метки столбцов (Стресс) Метки для столбцов матрицы плана X Столбец Перемен. Уровень Перемен. от Уровень Перемен. Уровень Перемен. от Уровень Св. член 1 Возраст 2 Возраст Длит. набл. 3 Длит. набл. SLBT 4 SLBT Пол 5 Пол муж. жен. Профессия 6 Профессия врач педагог Профессия 7 Профессия менеджер педагог Пол*Профессия 8 Пол муж. жен. Профессия врач педагог Пол*Профессия 9 Пол муж. жен. Профессия менеджер педагог Рис.9 При такой параметризации каждый эффект (фактор) представляется в ви- де совокупности одноименных двухуровневых эффектов. Например, так как пе- ременная Пол имеет два уровня, то она и представляется с двумя уровнями: муж., жен. Предиктор Профессия состоит из 3 уровней, поэтому представляет- ся в виде 2 одноименных двухуровневых переменных: Профессия (врач, педа- гог); Профессия (менеджер, педагог). При этом уровню 1 присваивается число- вое значение 1, а уровню 2 – числовое значение 0, или –1. Например, если рас- сматривается предиктор Пол, то альтернативным значениям предиктора муж., жен. будут присвоены соответственно значения 1 и 0, которые будут представ- лять количественные различия между группами наблюдений (больных) муж., жен.. Предиктор Профессия в строке 6 таблицы имеет 2 значения врач, педагог, которые соответственно будут закодированы как 1 и 0. Этот же предиктор в
  • 7. 7 строке 7 имеет 2 значения менеджер, педагог, которые также будут закодирова- ны как 1 и 0. При этом, если респондент имеет профессию врач, то Профессия в строке 6 примет значение 1, а Профессия в строке 7 примет значение 0; если респон- дент имеет профессию менеджер, то Профессия в строке 6 примет значение 0, а Профессия в строке 7 примет значение 1. Но если респондент педагог, то Профессия в строках 6 и 7 примет значение –1. Значения, обозначающие членство в одной из двух групп, выбираются с учетом облегчения последующей интерпретации регрессионного коэффициента, соответствующего этому предиктору. Поэтому, если регрессионный коэффици- ент для этой переменной является положительным, то группа, закодированная с помощью значения 1, будет иметь большее предсказанное значение отклика. Если получен отрицательный регрессионный коэффициент, то группа, закоди- рованная значением 1, будет иметь меньшее предсказанное значение отклика. Значения сложных эффектов Пол*Профессия в строках 8 и 9 также коди- руются числами 1 и 0, которые являются результатами умножения соответст- вующих числовых значений предикторов Пол, Профессия. Так, для Пол*Профессия в строке 8 возможны следующие 4 комбинации муж.*врач, муж.*педагог, жен.*врач, жен.*педагог, которые в регрессионных моделях принимают следующие значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. Для Пол*Профессия в строке 9 возможны другие 4 комбинации муж.*менеджер, муж.*педагог, жен.*менеджер, жен.*педагог, которые принимают следующие значения: 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. Обратите внимание, что сумма всех значений каждого простого и сложного эффекта равна 1. Если нажать на кнопку Коэффициенты, то откроется таблица Оценки па- раметров (рис.10), в третьем столбце которой (SLAT Парам.) отображены ко- эффициенты регрессионного уравнения. В столбце Уровень Эффект приведены уровни эффектов муж., врач, менеджер, которые кодируются программой как 1. В четвертом столбце таблицы приведены стандартные ошибки параметров, которые определяются как стандартное отклонение параметра, деленное на объ- ем выборки. Стандартные ошибки характеризуют точность вычисления пара- метров. Для всех эффектов, за исключением свободного члена, стандартные ошибки значительно меньше оцениваемых параметров. В столбцах 5 и 6 приве- дены значения t-критерия (критерия Стьюдента) и соответствующие им уровни значимости р для оценки значимости коэффициентов регрессионного уравне- ния. Так как р эффектов Св. член и Длит. набл. больше, чем 0,05, то соответст- вующие им параметры статистически не значимы и из общей линейной модели могут быть удалены.
  • 8. 8 Эффект Оценки параметров (Стресс) Сигма-ограниченная параметризация Уровень Эффект Столбец SLAT Парам. SLAT Ст.Ош. SLAT t SLAT p Св. член 1 2,50478 2,694565 0,92957 0,358621 Возраст 2 0,12713 0,055629 2,28532 0,028121 Длит. набл. 3 -0,00137 0,000753 -1,82670 0,075821 SLBT 4 0,25056 0,064694 3,87300 0,000423 Пол муж. 5 -1,85635 0,892116 -2,08084 0,044427 Профессия врач 6 -5,35170 1,256505 -4,25920 0,000135 Профессия менеджер 7 -4,30875 0,841715 -5,11901 0,000010 Пол*Профессия 1 8 3,28649 0,954883 3,44177 0,001449 Пол*Профессия 2 9 4,34371 1,076842 4,03375 0,000264 Рис.10 Если нажать на кнопку Общая R модели, то справедливым будет вывод, что в целом, построенная модель взаимосвязи отклика с предикторами доста- точно адекватная, так коэффициент множественной корреляции R = 0,87 и бли- зок к 1, а R2 = 0, 76 значительно больше, чем 0,5 и описывает более 76% измен- чивости отклика (рис.11). Зависим. Перемен. SS модели и SS остатков (Стресс) Множеств R Множеств R2 Скоррект R2 SS Модель сс Модель MS Модель SS Остаток сс Остаток SLAT 0,872277 0,760867 0,709162 1365,32 8 170,665 429,1093 37 Рис.11 Категориальные переменные Социальный статус, Нозологические болез- ни делят всю совокупность больных на подгруппы. Значимость категориальных факторов в модели определяется различием средних в подгруппах. Если вос- пользоваться кнопкой Статистики ячеек, то появится таблица, в которой будут отображены значения средних отклика SLAT во всех 11 подгруппах, также при- ведены стандартные отклонения, стандартные ошибки и доверительные интер- валы вычисленных оценок (рис.12). К сожалению по данной таблице невоз- можно оценить статистическую значимость отличия средних в подгруппах больных. Эффект Описательные статистики для зависимых переменных (Стресс) Уровень Фактор Уровень Фактор N SLAT Среднее SLAT Ст.Откл. SLAT Ст.Ош. SLAT -95,00% SLAT +95,00% Всего 46 9,65217 6,31477 0,931062 7,77692 11,52743 Пол муж. 26 9,46154 5,09298 0,998816 7,40444 11,51864 Пол жен. 20 9,90000 7,75887 1,734935 6,26874 13,53126 Профессия врач 12 7,83333 3,04014 0,877612 5,90172 9,76494 Профессия менеджер 30 9,00000 5,01033 0,914758 7,12911 10,87089 Профессия педагог 4 20,00000 12,70171 6,350853 -0,21125 40,21125 Пол*Профессия муж. врач 6 7,33333 3,61478 1,475730 3,53985 11,12682 Пол*Профессия муж. менеджер 18 10,22222 5,66263 1,334694 7,40626 13,03818 Пол*Профессия муж. педагог 2 9,00000 0,00000 0,000000 9,00000 9,00000
  • 9. 9 Эффект Описательные статистики для зависимых переменных (Стресс) Уровень Фактор Уровень Фактор N SLAT Среднее SLAT Ст.Откл. SLAT Ст.Ош. SLAT -95,00% SLAT +95,00% Пол*Профессия жен. врач 6 8,33333 2,58199 1,054093 5,62370 11,04296 Пол*Профессия жен. менеджер 12 7,16667 3,24271 0,936089 5,10635 9,22698 Пол*Профессия жен. педагог 2 31,00000 0,00000 0,000000 31,00000 31,00000 Рис.12 Статистическую значимость отличия средних в подгруппах больных от- клика SLAT можно оценить при помощи критерия наименьшей значимой разно- сти (НЗР). Для этого надо воспользовавшись кнопкой Больше (рис.7), перейти в диалог, окно которого представлено на рис. 13. Рис.13 Далее перейти на вкладку Апостер. и нажать на кнопку Фишера НЗР, предварительно установив при помощи выпадающего меню в поле Эффект «Пол» «Профессия». Из открывшейся таблицы (рис.14) видно, что наиболее эффективно лечение комбинированным методом в подгруппе 5 – женщин, ме- неджеров, так как отклик SLAT принимает наименьшее значение, равное 7,1667. Но при этом отличие статистически значимо лишь с подгруппами 2 и 6, муж- чин, менеджеров (10,222) и женщин, педагогов (31,00). Среднее значения откли- ка в подгруппе 6 принимает достаточно большое значение, равное 31, что свиде-
  • 10. 10 тельствует о низкой эффективности терапии увлечением для этих больных. Среднее значение отклика в этой подгруппе значительно и статистически зна- чимо отличается от средних во всех остальных 5 подгруппах. N ячейки НЗР крит.; перем.SLAT (Стресс) Вероятности для апостер. критериев Ошибка: Межгр. MS = 11,598, сс = 37,000 Пол Профессия 1 7,3333 2 10,222 3 9,0000 4 8,3333 5 7,1667 6 31,000 1 муж. врач 0,080098 0,552564 0,614051 0,922556 0,000000 2 муж. менеджер 0,080098 0,632991 0,246869 0,021163 0,000000 3 муж. педагог 0,552564 0,632991 0,811842 0,485314 0,000000 4 жен. врач 0,614051 0,246869 0,811842 0,497512 0,000000 5 жен. менеджер 0,922556 0,021163 0,485314 0,497512 0,000000 6 жен. педагог 0,000000 0,000000 0,000000 0,000000 0,000000 Рис.14 В группах по профессии наиболее эффективна терапия увлечением у вра- чей (7,8333), и наименее эффективно в группе педагогов (20,0). Причем среднее отклика в этой группе статистически значимо отличается от средних в группах 1 (7,8333) и 2 (9,0). В группах по полу отличие средних отклика не является статистически значимым (рис. 15). Профессия SLAT, Крит. НЗР; Отмечены разности, значимые на уровне p < ,05000 SLAT, Крит. НЗР; Отмечены разности, значимые на уровне p < ,05000 1 M=7,8333 2 M=9,0000 3 M=20,000 Пол 1 M=9,4615 2 M=9,9000 врач 1 0,539857 0,000434 муж. 0,818399 менеджер 2 0,539857 0,000542 жен. 0,818399 педагог 3 0,000434 0,000542 Рис.15 В программе предусмотрена возможность сравнения значений отклика, вычисленных программой по составленной модели SLAT Предск., с исходными значениями SLAT Наблюд. из таблицы исходных данных. Для этого надо перей- ти на вкладку Остатки 1 (рис.16) и нажать на кнопку Предсказ. и остатки. На рис.17 приведен фрагмент таблицы для первых 25 больных. Из таблицы видно, что уравнение достаточно «хорошо» предсказывает значение отклика SLAT– состояние группы людей по шкале Бека после лечения комбинированным мето- дом. Существенные отличия у людей под номерами 4, 11, 18, 20, что в принципе можно объяснить также и высокими погрешностями бальной оценки их состоя- ния.
  • 12. 12 Наблюдаемые, предсказанные значения и остатки (Т аблица псих1) Сигма-ограниченная параметризация (Анализируемая выборка) Номер набл. SLAT Наблюд. SLAT Предск. SLAT Остатки 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 5,00000 7,13982 -2,13982 8,00000 9,65289 -1,65289 10,0000011,64914 -1,64914 20,0000013,79339 6,20661 9,00000 9,00000 -0,00000 7,00000 6,97327 0,02673 6,00000 10,11331 -4,11331 6,00000 9,61658 -3,61658 5,00000 3,94064 1,05936 8,00000 10,44541 -2,44541 13,00000 7,60834 5,39166 7,00000 8,44398 -1,44398 10,00000 8,68335 1,31665 12,00000 8,40800 3,59200 16,0000015,06553 0,93447 15,0000016,42544 -1,42544 5,00000 8,10345 -3,10345 12,00000 6,76085 5,23915 31,0000029,99648 1,00352 2,00000 7,88855 -5,88855 7,00000 6,69439 0,30561 5,00000 4,66751 0,33249 3,00000 3,39972 -0,39972 5,00000 7,13294 -2,13294 8,00000 9,65289 -1,65289 10,0000011,64914 -1,64914 20,0000013,79339 6,20661 Рис.17
  • 13. 13 Наблюдаемые и предсказанные значения Зависимая переменная: SLAT (Анализируемая выборка) -5 0 5 10 15 20 25 30 35 Наблюдаемые значения 0 5 10 15 20 25 30 35 Предсказанныезначения Рис.18 Гистограмма исходных остатков Зависимая переменная: SLAT (Анализиру емая выборка) -10 -8 -6 -4 -2 0 2 4 6 8 X <= Граница категории 0 2 4 6 8 10 12 14 16 Кол-вонабл. Рис.19 В соответствии с параметрами общей линейной модели (коэффициентами регрессии, рис.10) легко выписать уравнение регрессии: SLAT= 2,504 + 0,127Возраст – 0,001Длит. набл.+ 0,250SLBT – 1,856Пол/(муж.) – 5,351Профессия (врач) – 4,308Профессия (менеджер) + 3,286 Пол*Профессия(1) + 4,343Пол*Профессия(2)
  • 14. 14 Так как количество предикторов не велико, то можно воспользоваться общей линейной моделью для прогнозирования состояния человека по шкале Бека после терапии. Применим ручной счет при помощи обычного калькулято- ра. Для этого надо в уравнение подставить значения предикторов и произвести несложные арифметические действия. С количественными предикторами здесь все предельно понятно, а с категориальными, с учетом принципов сигма- ограниченной параметризации следует поступить так: – если респондент из подгруппы муж., то эффект Пол/(муж.) следует за- менить на 1, если из подгруппы жен., то Пол/(муж.) следует заменить на 0; – если профессия респондента врач, то Профессия (врач) следует заме- нить на 1, Профессия (менеджер) на 0; – если профессия респондента менеджер, то Профессия (менеджер) сле- дует заменить на 1, Профессия (врач) на 0; – если профессия респондента педагог, то Профессия (менеджер) и Про- фессия (врач) следует заменить на –1; – если эффект Пол*Профессия (1) соответствует комбинации муж.*врач, то его следует заменить на 1, в любом другом случае – на 0. – если эффект Пол *Профессия (2) соответствует комбинации муж.* ме- неджер, то его следует заменить на 1, в любом другом случае – на 0. Для иллюстрации сказанного вычислим, например прогнозное значение отклика SLAT для М. (№ 2, см. рис.1), если возраст 41 год, муж, менеджер, дли- тельность наблюдения 730 дней, показатель тревоги SLBT = 19. Подставим дан- ные в уравнение, получим: SLAT= 2,50477 + 0,12713· 41 – 0,00137·730 + 0 ,25056·19 – 1,85635·1 – 5,3517·0 – 4,30874·1 – 3,28648·0 + 4,34371 = 9,65625. Это означает, что прогнозируемое состояние после терапии составит 9,65625 баллов. Если на вкладке Отчет (рис.20) щелкнуть по кнопке Печатать уравне- ние предсказания, то программа сама выпишет уравнение регрессии: Предск. уравнение для " SLAT ": " SLAT "=2,50477626+,127130542*Возраст-0,00137468*"Длит. набл."+ 0,250561207*"SLBT"-1,8563479*"Пол"(муж.)-5,3517041 *"Профессия"("врач")- 4,3087480*"Профессия"("менеджер") + 3,28648701*"Пол"*"Профессия"(1) + 4,34371226*"Пол"*"Профессия"(2) В модуле Общие линейные модели программы STATISTICA предусмотрена возможность сгенерировать код (автоматически составить текст процедуры) на одном из языков программирования − STATISTICA Visual Basic (SVB), C/C++,
  • 15. 15 PMML код. Если выбрать SVB, то программа напишет текст процедуры и соз- даст макрос, который потом можно будет сохранить и использовать для автома- тического вычисления величины отклика при заданных пользователем значени- ях предикторов. Можно воспользоваться сохраненным кодом программы для вычисления прогнозного значения состояния по шкале Бека произвольного человека после терапии увлечением. Для этого достаточно последовательно в соответствии с запросами программы ввести в окно (рис.21) данные. В качестве примера вве- дены данные больного М. (№ 2, рис.10). После ввода значения последнего пре- диктора – длительности наблюдения (Dlit. zab), равного 730 и нажатия на Enter, программа в последней строке запишет результат автоматически произведенных вычислений – 9,65289. Рис.20
  • 16. 16 Рис. 21 Обратите внимание, что вычисленное программой значение примерно равно значению 9,65625, вычисленному нами вручную по построенному урав- нению. Незначительное расхождение вызвано погрешностью округления до пя- того знака после запятой. Таким образом, построена вполне адекватная общая линейная модель, ко- торая позволяет с достаточно высокой точностью прогнозировать состояния по шкале Бека после терапии увлечением, если известны возраст, длительность на- блюдения, состояние до лечения, профессия и пол.