SlideShare a Scribd company logo
1 of 27
9.3. ЛОГЛИНЕЙНЫЙ АНАЛИЗ
Одним из основных методов анализа взаимосвязи качественных (категориальных)
переменных (факторов) является кросстабуляция (сопряжение), заключающееся в
построении и анализе многомерных (многовходовых) таблиц частот. Например, в
медицине можно табулировать частоты различных симптомов заболевания по возрасту и
полу пациентов; табулировать число выживших больных в зависимости от применяемых
методов лечения и т.д.
Логлинейный анализ является более «глубоким» методы исследования многомерных
таблиц, а именно, этот метод посредством моделирования частот в таблицах
сопряженности позволяет проверить статистическую значимость различных факторов и
их взаимодействий. Логлинейный анализ имеет сходство с дисперсионным анализом и
регрессионным анализом. Для проведения логлинейного анализа все переменные должны
быть измерены в категориальной шкале.
При анализе категориальных переменных также уместно ввести понятие зависимых и
независимых переменных. Зависимые переменные, это те переменные, поведение которых
мы пытаемся объяснить, то есть, предполагаем, что эти переменные зависят от
независимых переменных– предикторов. Например, выживаемость можем рассматривать
как переменную, зависимую от методов лечения, или различные симптомы заболеваний
можем рассматривать как переменные, зависимые от возраста, или пола больных. В этом
случае в терминологии логлинейного анализа зависимую переменную будем называть
переменной отклика, или просто откликом, а независимые – объясняющими
переменными. Переменные отклика – это те переменные, которые изменяются в ответ на
изменение объясняющих переменных. Понятно, что такое разделение достаточно условно
и зависит от содержательной постановки решаемой задачи. Таким образом, предикторами
в логлинейной модели выступают категориальные переменные и их взаимодействия.
Логлинейная модель представляет собой линейную множественную модель регрессии.
Зависимая переменная в логлинейной модели представляет собой натуральный логарифм
соответствующей частоты многомерной таблицы сопряженности. Использование
логарифма обуславливает линейность модели, что нашло отражение в названии модели –
логарифмическая линейная модель.
Рассмотрим применение логлинейного анализа на примере из хирургии. Исходные
данные представляют таблицу, содержащую данные 412 больных, прошедших лечение по
поводу рака прямой кишки [47]. На рис.9.3.1 отображен фрагмент файла данных,
состоящий из 25 первых больных. В первом столбце указана стадия заболевания, во
втором – применялось или нет лучевая терапия, в третьем – метод хирургического
лечения: ТМЭ – тотальная мезоректумэктомия; СВПК – «слепое», без прямого
визуального контроля выделение прямой кишки, в четвертом – выживаемость больных в
течение первых пяти лет после проведения лечения. Чтобы лучше понять структуру
данных начнем анализ «от простого к сложному» – с построения одномерных и
двумерных таблиц частот.
1
Стадии I-IV
2
Лучевое ПрО
3
ТМЭ/СВПК
4
Выжил
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
3 да ТМЭ да
1 да СВПК нет
2 нет ТМЭ да
1 да СВПК нет
2 нет СВПК да
1 нет ТМЭ да
1 да ТМЭ да
2 да ТМЭ да
3 да ТМЭ да
2 нет ТМЭ да
2 да ТМЭ да
1 да СВПК да
4 нет ТМЭ да
3 да ТМЭ да
1 да ТМЭ да
2 да ТМЭ да
2 да ТМЭ да
3 да ТМЭ нет
3 да ТМЭ да
4 нет СВПК да
3 да ТМЭ да
2 да СВПК нет
3 да СВПК нет
4 да ТМЭ да
2 да ТМЭ да
4 нет ТМЭ нет
4 нет ТМЭ нет
Рис.9.3.1
Из таблицы на рис. 2 следует, что больные по стадиям заболевания распределены далеко
неравномерно, преобладают больные со второй стадией (39%), далее идут больные с
третьей стадией (25%), с первой стадией (20%) и самой тяжелой – четвертой стадией (15%).
Таблица частот: Стадии I-IV (Логлинейный анализ)
Группа
Частота Кумул.
Частота
Процент Кумул.
Процент
1
2
3
4
Пропущ.
82 82 19,90291 19,9029
162 244 39,32039 59,2233
105 349 25,48544 84,7087
63 412 15,29126 100,0000
0 412 0,00000 100,0000
Рис.9.3.2
Большинству больных (64%) было проведено комбинированное лечение с лучевой
терапией (рис.9.3.3).
Таблица частот: Лучевое ПрО (Логлинейный анализ)
Группа
Частота Кумул.
Частота
Процент Кумул.
Процент
нет
да
Пропущ.
150 150 36,40777 36,4078
262 412 63,59223 100,0000
0 412 0,00000 100,0000
Рис.9.3.3
Количество больных прооперированных по методу ТМЭ (70%) более, чем в два
раза превосходит больных, которым была сделана операция по методу СВПК (30%)
(рис.9.3. 9.3.4).
Таблица частот: ТМЭ/СВПК (Логлинейный анализ)
Группа
Частота Кумул.
Частота
Процент Кумул.
Процент
СВПК
ТМЭ
Пропущ.
124 124 30,09709 30,0971
288 412 69,90291 100,0000
0 412 0,00000 100,0000
Рис.9.3.4
Количество выживших больных (72%) более, чем в 2,5 раза превосходит умерших
больных (28%) (рис.9.3.5).
Таблица частот: Выжил (Логлинейный анализ)
Группа
Частота Кумул.
Частота
Процент Кумул.
Процент
да
нет
Пропущ.
295 295 71,60194 71,6019
117 412 28,39806 100,0000
0 412 0,00000 100,0000
Рис.9.3.5
Естественно, представляет интерес вопрос, влияют ли стадия заболевания, лучевая
терапия, метод хирургического лечения на выживаемость больных. Поэтому, в контексте
такой постановки задачи, переменные Стадия I-IV, Лучевое ПрО, ТМЭ/СВПК следует
считать независимыми (объясняющими) предикторами, а переменную Выжил – откликом.
Исследуем сначала влияние предикторов на отклик «в статике», без учета их
взаимодействия друг с другом, применив таблицы сопряженности.
Для понимания принципов логлинейного анализа нам потребуются некоторые понятия,
которые рассмотрим на примере анализа структуры взаимосвязи стадии заболевания с
выживаемостью больных. На рис.9.3.6 приведена итоговая таблица частот в соответствии,
с которой можно утверждать, что количество выживших для первых трех стадий в
несколько раз превышает количество умерших, но совсем иная картина для стадии IV, где
число умерших превосходит количество выживших. Но, на вопрос, проявляется ли в
сделанном заключении влияние стадии на выживаемость, ответить проблематично, так
как количество больных по стадиям заболевания отличаются и равны соответственно 82,
162, 105, 63 чел. Поэтому, целесообразно рассмотрение относительных частот, которые
являются отношением частот к маргинальным частотам. Маргинальными частотами
называются частоты, расположенные по краям таблицы – последний столбец Всего по
стр. и последняя строка Всего.
Итоговая таблица частот (Логлинейный анализ)
Табл.: Стадии I-IV(4) x Выжил(2)
Стадии I-IV Выжил
да
Выжил
нет
Всего
по стр.
1 73 9 82
2 117 45 162
3 78 27 105
4 27 36 63
Всего 295 117 412
Рис.9.3.6
Для анализа взаимосвязи между категориальными переменными используется таблица
частот в предположении, что между ними нет взаимосвязи. Такая таблица называется
таблицей ожидаемых частот. Таблица ожидаемых частот обладает тем свойством, что
частоты в каждой ячейке пропорциональны маргинальным частотам, т.е. частотам,
расположенным на краях таблицы. На рис.9.3.7 представлена таблица ожидаемых частот
для переменных Стадия I-IV, Выжил. Легко убедиться в пропорциональности частот и
маргинальных частот, например:
58,71:115,99 ≈ 23,28:46,00 ≈ 82:162 ≈ 0,5, т.е., примерно 1 к 2, или
58,71: 23,28 ≈ 115,99:46 ≈ 295:117 ≈ 2,5, т.е., примерно 5 к 2.
2-входовая итоговая: Ожидаемые частоты (Логлинейный анализ)
Частоты выделенных ячеек > 10
Стадии I-IV
Выжил
да
Выжил
нет
Всего
по стр.
1
2
3
4
Всего
58,7136 23,2864 82,0000
115,9951 46,0049 162,0000
75,1820 29,8180 105,0000
45,1092 17,8908 63,0000
295,0000117,0000 412,0000
Рис.9.3.7
Таким образом, при заданных маргинальных частотах в ячейках содержатся частоты,
которые следовало бы ожидать при отсутствии связи между стадией и выживаемостью
больных. Если сравнить эту таблицу с предыдущей, то можно увидеть, что предыдущая
таблица показывает зависимость между двумя переменными: наблюдается больше
выживших больных с первой стадией, чем ожидается; наблюдается меньше выживших
больных с четвертой стадией, чем ожидается.
Здесь проявляется общий принцип, на котором основан частотный, в том числе и
логлинейный анализ: имея маргинальные суммы частоты для двух (или более) факторов,
мы можем вычислить частоты в ячейках, которые следовало бы ожидать при отсутствии
связи между факторами. Статистически значимые отклонения наблюдаемых частот от
ожидаемых указывают на зависимость между двумя (или более) категориальными
переменными. Разница между ожидаемыми и наблюдаемыми частотами представлена в
таблице на рис.9.3.8. Очевидно, что, чем больше величины в ячейках таблицы, тем более
взаимосвязаны категориальные переменные, или другими словами, больше влияние
предиктора на отклик.
2-входовая итоговая: Наблюдаемые минус ожидаемые частоты (Логлинейны
Частоты выделенных ячеек > 10
Стадии I-IV
Выжил
да
Выжил
нет
Всего
по стр.
1
2
3
4
Всего
14,2864 -14,2864 0,00
1,0049 -1,0049 0,00
2,8180 -2,8180 0,00
-18,1092 18,1092 0,00
0,0000 0,0000 0,00
Рис.9.3.8
Вычисление частот в ячейках таблицы на основании маргинальных частот при
предположении, что категориальные переменные не связаны, называется подгонкой
модели. Значимые отклонения наблюдаемых частот от ожидаемых указывают на
несогласие с гипотезой о независимости двух переменных, т.е. на наличие связи.
Значимость отклонений проверяется при помощи критериев согласия Пирсона Хи-
квадрат и максимального правдоподобия М-П Хи-квадрат (рис.9.3.9).
Статистики: Стадии I-IV(4) x Выжил(2) (Логлинейный анализ)
Статист. Хи-квадрат ст.св. p
Пирсона Хи-квадрат
М-П Хи-квадрат
Фи
Коэфф.сопряженности
Крамера V
Тау b и c Кендалла
D(X|Y), D(Y|X) Соммера
Гамма
Корр. Спирмена
Коэф.неопределенности
38,24398 сс=3 p=,00000
37,72503 сс=3 p=,00000
,3046723
,2914456
,3046723
b=,2314599 c=,2500471
X|Y=,30743 Y|X=,17426
,4158730
,2515419 t=5,2625 p=,00000
X=,0345824Y=,0767301X|Y=,04768
Рис.9.3.9
Так как уровни значимости р критериев Пирсона Хи-квадрат, М-П Хи-квадрат меньше,
чем 0,05, а критерии принимают достаточно большие значения, то ожидаемые частоты
значимо отклоняются от наблюдаемых, а следовательно между выживаемостью и стадией
заболевания есть взаимосвязь, т.е., стадия заболевания влияет на выживаемость. Наличие
взаимосвязи между переменными также проверяется при помощи приведенных в таблице
статистик. Чем ближе значения статистик по модулю к 1, тем влияние предиктора на
отклик выше. Наиболее объективным показателем для нашего случая, является статистика
гамма, которая является непараметрическим аналогом корреляции Пирсона и
применяется в случае, если категориальные переменные принимают много
повторяющихся значений. Так как гамма равна 0,4, то можем утверждать, что степень
влияния стадии на выживаемость умеренная.
Для анализа структуры взаимосвязи воспользуемся двумерной таблицей частот на
рис.9.3.10.
2-входовая итоговая: наблюдаемые частоты (Логлинейный анализ)
Частоты выделенных ячеек > 10
Стадии I-IV
Выжил
да
Выжил
нет
Всего
по стр.
1
столбц.%
строк.%
2
столбц.%
строк.%
3
столбц.%
строк.%
4
столбц.%
строк.%
Всего
73 9 82
25% 8%
89% 11%
117 45 162
40% 38%
72% 28%
78 27 105
26% 23%
74% 26%
27 36 63
9% 31%
43% 57%
295 117 412
Рис.9.3.10
Легко видеть, что:
– для больных в стадии I, выжившие и умершие составляют соответственно 89% и
11%;
– для больных в стадии II, выжившие и умершие составляют 72% и 28%;
– для больных в стадии III, выжившие и умершие составляют 74% и 26%;
– для больных в стадии IV ситуация резко меняется – выжившие и умершие составляют
соответственно 43% и 57%.
В таблице на рис.9.3.11 представлены критерии значимости отклонений ожидаемых
частот от наблюдаемых и статистики для оценки взаимосвязи лучевой терапии и
выживаемости больных. Так как таблица 2×2, то дополнительно к критериям Хи-квадрат
использованы критерии Йется Хи-квадрат; Точный Фишера, односторонний и
двухсторонний; Макнемара Хи-квадрат (А/D) и (B/C). Как видно из таблицы, только для
последних двух критериев уровень значимости р меньше, чем 0,05. Все статистики
принимают малые, близкие к 0 значения. Наибольшее значение принимает статистика
гамма, но и она меньше, чем 0,25. Это означает, что влияние лучевой терапии на
выживаемость больных очень слабое.
Статистики: Лучевое ПрО(2) x Выжил(2)
Статист. Хи-квадрат ст.св. p
Пирсона Хи-квадрат
М-П Хи-квадрат
Йетса хи-квад.
Точный Фишера, одностор.
двустор.
хи-квад. Макнемара (A/D)
(B/C)
Фи для 2 x 2 таблиц
Тетрахор. корреляции
Коэфф.сопряженности
Тау b и c Кендалла
D(X|Y), D(Y|X) Соммера
Гамма
Корр. Спирмена
Коэф.неопределенности
2,825507 сс=1 p=,09278
2,790947 сс=1 p=,09480
2,456722 сс=1 p=,11702
p=,05914
p=,11176
6,131737 сс=1 p=,01328
84,63673 сс=1 p=0,0000
-,082813
-,138960
,0825307
b=-,082813 c=-,071873
X|Y=-,0883 Y|X=-,0776
-,185410
-,082813 t=-1,683 p=,09321
X=,0051654Y=,0056766 X|Y=,00541
Рис.9.3.11
О слабом влиянии лучевой терапии на выживаемость также говорит поведение
относительных частот в таблице на рис.9.3.12. Для тех больных, которым не проводилась
лучевая терапия, количество выживших больных (67%), значительно преобладает над
количеством умерших (33%) и эти величины соотносятся примерно, как 2 к 1. Для тех
больных, которым проводилась лучевая терапия, число выживших больных (74%),также
значительно преобладает над числом умерших (26%) и эти величины соотносятся примерно,
как 3 к 1.
2-входовая итоговая: наблюдаемые частоты (Логлинейный анализ)
Лучевое ПрО
Выжил
да
Выжил
нет
Всего
по стр.
нет
столбц.%
строк.%
да
столбц.%
строк.%
Всего
100 50 150
34% 43%
67% 33%
195 67 262
66% 57%
74% 26%
295 117 412
Рис.9.3.12
В таблице на рис.9.3.13 представлены критерии значимости отклонений ожидаемых
частот от наблюдаемых и статистики для оценки взаимосвязи метода хирургического
лечения и выживаемости больных. Как видно из таблицы, только для критерия
Макнемара Хи-квадрат (А/D) уровень значимости р больше, чем 0,05. Все статистики
принимают значения, большие, чем 0,25, а статистика гамма по модулю близка к 0,75. Это
означает, что взаимосвязь метода хирургического лечения и выживаемости больных
умеренная, близкая к сильной.
Статистики: ТМЭ/СВПК(2) x Выжил(2) (Логлинейный анализ
Статист. Хи-квадрат ст.св. p
Пирсона Хи-квадрат
М-П Хи-квадрат
Йетса хи-квад.
Точный Фишера, одностор.
двустор.
хи-квад. Макнемара (A/D)
(B/C)
Фи для 2 x 2 таблиц
Тетрахор. корреляции
Коэфф.сопряженности
Тау b и c Кендалла
D(X|Y), D(Y|X) Соммера
Гамма
Корр. Спирмена
Коэф.неопределенности
60,98981 сс=1 p=,00000
58,20442 сс=1 p=,00000
59,14378 сс=1 p=,00000
p=,00000
p=,00000
,3428572 сс=1 p=,55818
94,13681 сс=1 p=0,0000
-,384751
-,590232
,3590895
b=-,384751 c=-,318315
X|Y=-,3913 Y|X=-,3782
-,711097
-,384751 t=-8,440 p=,00000
X=,1154785Y=,1183837X|Y=,11691
Рис.9.3.13
О сильном влиянии метода хирургического лечения на выживаемость также говорит
поведение относительных частот в таблице на рис.9.3.14. Для тех больных, которым был
применен метод СВПК, число умерших больных (55%), преобладает над числом выживших
(45%) и эти величины соотносятся как 11 к 9. Для тех больных, которым был применен
метод ТМЭ, число выживших больных (83%), значительно преобладают над числом
умерших (17%) и эти величины соотносятся примерно, как 5 к 1.
2-входовая итоговая: наблюдаемые частоты (Логлинейный анализ)
ТМЭ/СВПК
Выжил
да
Выжил
нет
Всего
по стр.
СВПК
столбц.%
строк.%
ТМЭ
столбц.%
строк.%
Всего
56 68 124
19% 58%
45% 55%
239 49 288
81% 42%
83% 17%
295 117 412
Рис.9.3.14
Таким образом, при помощи кростабуляции нам удалось выявить влияние таких
факторов как стадия заболевания, лучевая терапия, метод хирургического лечения на
выживаемость больных. Но установлен не только факт взаимодействия перечисленных
факторов с выживаемостью больных, а посредством таблиц относительных и
маргинальных частот исследована структура такого взаимодействия. Показано, что
наибольшее влияние на выживаемость имеет метод хирургического лечения, далее стадия
заболевания и незначительное влияние – проведение лучевой терапии в комбинации с
хирургическим лечением. Этого результата было бы вполне достаточно при отсутствии
взаимосвязи факторов друг с другом. В этом случае наблюдаемые частоты должны
соответствовать, т.е. быть пропорциональны маргинальным частотам. Если возникают
какие-либо значимые отклонения от этого соответствия, то гипотезу о независимости
табулированных предикторов следует отклонить.
При наличии взаимосвязи между объясняющими факторами, открытым остается вопрос
о структуре и степени их влияния на выживаемость с учетом их взаимодействия друг с
другом. В этом случае вычисление ожидаемых частот значительно усложняется, так как
таблица содержит более двух факторов (входов). Тем не менее, в рамках логлинейного
анализа эта задача решается, а частоты вычисляются при помощи итеративной
пропорциональной подгонки.
При помощи модуля Таблицы сопряженности, флагов и заголовков можно построить
многовходовую (с четырьмя входами) таблицу частот, компактно представляющую
исходные данные (рис.9.3.15). Но, в логлинейном анализе статистики Хи-квадрат
вычисляются по двухмерным таблицам частот для двух факторов при фиксированных
уровнях остальных.
Итоговая таблица частот (Логлинейный анализ)
Частоты выделенных ячеек > 10
(Маргинальные суммы не отмечены)
Стадии I-IV Лучевое ПрО ТМЭ/СВПК Выжил
да
Выжил
нет
Всего
по стр.
1 нет СВПК 3 3 6
1 нет ТМЭ 17 0 17
Всего 20 3 23
1 да СВПК 12 5 17
1 да ТМЭ 41 1 42
Всего 53 6 59
2 нет СВПК 9 12 21
2 нет ТМЭ 34 4 38
Всего 43 16 59
2 да СВПК 16 21 37
2 да ТМЭ 58 8 66
Всего 74 29 103
3 нет СВПК 4 3 7
3 нет ТМЭ 18 5 23
Всего 22 8 30
3 да СВПК 8 10 18
3 да ТМЭ 48 9 57
Всего 56 19 75
4 нет СВПК 3 10 13
4 нет ТМЭ 12 13 25
Всего 15 23 38
4 да СВПК 1 4 5
4 да ТМЭ 11 9 20
Всего 12 13 25
Суммы по стл 295 117 412
Рис.9.3.15
Модуль Логлинейный анализ, как и модуль Таблицы сопряженности, флагов и
заголовков вычисляет два критерия Хи-квадрат: критерий Хи-квадрат Пирсона и
критерий максимума отношения правдоподобия (М-П) Хи-квадрат. Оба критерия
оценивают, являются ли ожидаемые частоты в ячейках для соответствующей модели
значимо отличающимися от наблюдаемых частот или нет. Если отличие значимо, то
гипотеза об отсутствии связей отвергается. Если отличие незначимо, то говорят, что
модель согласуется с данными. Чем больше значение критериев Хи-квадрат и меньше
уровень значимости, тем более вероятно, что ожидаемые частоты в ячейках значимо
отличаются от наблюдаемых частот. Если уровень значимости р меньше, чем 0,05, то
такое отличие считают статистически значимым. После выбора логлинейной модели и
подгонки ожидаемых частот, следует исследовать остаточные частоты, которые
представляют разность наблюдаемых и ожидаемых частот. Если модель согласуется с
таблицей, все остаточные частоты будут состоять из положительных и отрицательных
значений примерно одинакового размаха, случайным образом распределенных по всем
ячейкам таблицы со средним значением, близким к 0. Модуль Логлинейный анализ
позволяет получать различные графики остаточных частот и относящиеся к ним
статистики. Например, в таблице на рис.9.3.8 остаточные частоты имеют значительно
отличные от нуля значения, большой размах, что говорит о плохом согласовании модели с
данными, а значит о наличии взаимосвязи между категориальными переменными.
Критерии Хи-квадрат для моделей, связанных иерархически друг с другом или
иерархически вкладывающихся друг в друга, могут сравниваться непосредственно. Две
модели иерархически связаны друг с другом, если одна может быть получена из другой
добавлением некоторых факторов. Например, если мы сначала рассмотрим модель,
учитывающую влияние стадии на выживаемость, или метода хирургического лечения на
выживаемость, а затем рассмотрим модель, учитывающую взаимосвязь стадии, метода
хирургического лечения и выживаемости, то вторая модель – это расширение первой.
Можно оценить разницу между критериями Хи-квадрат для двух моделей на основании
разности между критериями и их степенями свободы. Если критерий Хи-квадрат для
разности значим, то можно заключить, что трехфакторная модель взаимодействия дает
значимо лучшее согласие для наблюдаемой таблицы, чем модель без этого
взаимодействия. Поэтому трехфакторное взаимодействие считается статистически
значимым.
Для запуска процедуры логлинейного анализа следует в меню Анализ выбрать команду
Углубленные методы анализа (рис.9.3.16), в открывшемся меню – модуль Логлинейный
анализ таблиц частот.
Рис.9.3.16
В стартовом диалоге надо щелкнуть по кнопке Исходные данные и в выпадающем
меню (рис.9.3.17) выбрать одноименную опцию, так как анализируемый файл
представляет собою стандартную таблицу данных пакета STATISTICA (рис.9.3.1). Далее,
щелкнуть по кнопке Переменные и выделить все переменные в соответствии с рис.9.3.18.
Рис.9.3.17
Рис.9.3.18
Если, после проведенных манипуляций, щелкнуть по ОК и после возврата программы в
стартовое окно, вновь щелкнуть по ОК, появится диалог Задание модели логлинейного
анализа (рис.9.3.19), в котором на вкладке Просмотр/Сохранение можно визуализировать
многовходовую таблицу частот в виде двухмерных таблиц при различных уровнях
факторов, не участвующих в построении таблиц. Если нажать на кнопку Просмотр
полной наблюдаемой таблицы, то откроется вспомогательное окно, в котором надо
выделить переменные, обозначающие столбцы и строки таблицы. Выберем, например,
переменные Стадия I-IV и ТМЭ/СВПК как это показано на рис.9.3.20.
Рис.9.3.19
Рис.9.3.20
На рис.9.3.21 – 24 отображены, построенные программой двухмерные таблицы
частот. Столбцы соответствуют переменной Стадия I-IV , строки – переменной
ТМЭ/СВПК . В таблицах фиксированы уровни переменных Лучевое ПрО и Выжил.
Например, в таблице на рис.9.3.21 представлены частоты больных в соответствии с
методом хирургического лечения и стадии заболевания, для которых не проводилась
лучевая терапия и эти больные выжили.
Набл.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:нет Выжил:да
ТМЭ/СВПК
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
СВПК
ТМЭ
Сумма
3 9 4 3 19
17 34 18 12 81
20 43 22 15 100
Рис.9.3.21
Набл.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:да Выжил:да
ТМЭ/СВПК
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
СВПК
ТМЭ
Сумма
12 16 8 1 37
41 58 48 11 158
53 74 56 12 195
Рис.9.3.22
Набл.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:нет Выжил:нет
ТМЭ/СВПК
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
СВПК
ТМЭ
Сумма
3 12 3 10 28
0 4 5 13 22
3 16 8 23 50
Рис.9.3.23
Набл.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:да Выжил:нет
ТМЭ/СВПК
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
СВПК
ТМЭ
Сумма
5 21 10 4 40
1 8 9 9 27
6 29 19 13 67
Рис.9.3.24
Если нажать на кнопку Сохранить таблицу, то файл исходных данных состоящий из
412 строк, будет представлен в более наглядной и компактной записи из 32 строк, которая
представляет собою альтернативную форму организация файла данных (рис.9.3.25).
Полученный файл будет содержать по одной строке на каждую ячейку таблицы. В
дополнение к переменной частот в каждой строке также будет содержаться информация
об уровне каждого наблюдаемого фактора, записанная в виде целочисленных кодов,
обозначающих соответствующие уровни. При желании логлинейный анализ можно
проводить, используя эту таблицу. Для этого в окне на рис.9.3.17 в выпадающем меню
следует выбрать опцию Частоты и коды.
Для построения логлинейной модели следует просмотреть таблицу одновременных
критериев для всех k-факторных взаимодействий, а также таблицу критериев для всех
моделей с маргинальными и частными взаимодействиями. Эти критерии вычисляются
после нажатия кнопки Проверка всех маргинальных и частных связей (рис.9.3.26, 27).
Логлинейный анализ
1
Стадии I-IV
2
Лучевое ПрО
3
ТМЭ/СВПК
4
Выжил
5
ЧАСТОТА
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
1,000 нет СВПК да 3
2,000 нет СВПК да 9
3,000 нет СВПК да 4
4,000 нет СВПК да 3
1,000 да СВПК да 12
2,000 да СВПК да 16
3,000 да СВПК да 8
4,000 да СВПК да 1
1,000 нет ТМЭ да 17
2,000 нет ТМЭ да 34
3,000 нет ТМЭ да 18
4,000 нет ТМЭ да 12
1,000 да ТМЭ да 41
2,000 да ТМЭ да 58
3,000 да ТМЭ да 48
4,000 да ТМЭ да 11
1,000 нет СВПК нет 3
2,000 нет СВПК нет 12
3,000 нет СВПК нет 3
4,000 нет СВПК нет 10
1,000 да СВПК нет 5
2,000 да СВПК нет 21
3,000 да СВПК нет 10
4,000 да СВПК нет 4
1,000 нет ТМЭ нет 0
2,000 нет ТМЭ нет 4
3,000 нет ТМЭ нет 5
4,000 нет ТМЭ нет 13
1,000 да ТМЭ нет 1
2,000 да ТМЭ нет 8
3,000 да ТМЭ нет 9
4,000 да ТМЭ нет 9
Рис.9.3.25
Результаты подгонки К-факторн. взаимодействий (Логлинейный анализ)
Это одновременная проверка того, что все
К-факторные взаимодействия равны нулю
K-фактор
Число
ст.своб.
МП
хи-квад.
Вероятн.
p
Пирсона
хи-квад.
Вероятн.
p
1
2
3
4
6 219,9833 0,000000 304,9963 0,000000
12 122,5669 0,000000 132,0629 0,000000
10 5,8255 0,829706 5,9754 0,817326
3 1,0545 0,788077 1,0401 0,791549
Рис.9.3.26
Таблица на рис.9.3.26 показывает, что улучшение согласия при включении всех
двухфакторных взаимодействий {12, 13, 14, 23, 24, 34}(k-фактор = 2) статистически
значимо, так как уровень значимости р меньше, чем 0,05. Это означает, что произвольная
двухфакторная модель имеет очень слабое согласие с данными. Увеличение согласия при
добавлении в модель всех трехфакторных взаимодействий {123, 124, 234, 134}(k-фактор
= 3) не значимо, так как р больше, чем 0,05. Это означает, что получившаяся
двухфакторная модель является приемлемой. Поэтому можно заключить, что наименее
сложная модель, согласующаяся с данными, не нуждается в трехфакторных
взаимодействиях, но может содержать одно или более двухфакторное взаимодействие. Но
это не значит, что мы не можем, исходя из содержательной постановки задачи, построить
модель, согласующуюся с исходными данными, содержащую двухфакторные и
трехфакторные взаимодействия.
Критерии маргинальных и частных связей позволяют из всех двухфакторных и
трехфакторных взаимодействий выявить значимые связи. Критерий определяет
значимость влияний, указанных цифрами в столбце Эффект (рис.9.3.27) путем сравнения
модели, включающей взаимодействие некоторого порядка, с моделью без него.
Из таблицы на рис.9.3.27 видно, что с учетом критериев частных и маргинальных
связей Хи-квадрат статистически значимы следующие двумерные взаимодействия:
– {12}, взаимодействие между факторами стадия и лучевая терапия;
– {14}, взаимодействие между факторами стадия и выжил;
– {34}, взаимодействие между факторами метод хирургического лечения и выжил.
Критерии маргинальных и частных связей (Логлинейный анализ)
Эффект
Число
ст.своб.
Част.св.
хи-квад.
Част.св.
p
Марг.св.
хи-квад.
Марг.св.
p
1
2
3
4
12
13
14
23
24
34
123
124
134
234
3 49,528960,000000 49,52896 0,000000
1 29,652390,000000 29,65239 0,000000
1 64,477190,000000 64,47719 0,000000
1 76,325100,000000 76,32510 0,000000
3 16,731840,000802 19,37857 0,000228
3 10,520100,014625 4,24773 0,235927
3 39,135220,000000 35,44788 0,000000
1 0,04309 0,835559 0,24181 0,622905
1 0,17693 0,674025 2,96043 0,085325
1 63,031900,000000 56,89653 0,000000
3 1,20237 0,752435 1,14354 0,766575
3 0,49600 0,919770 0,51442 0,915712
3 4,05798 0,255271 4,07602 0,253371
1 0,06436 0,799739 0,15116 0,697428
Рис.9.3.27
Как уже было выше отмечено, значимость взаимодействия определяется путем
сравнения модели, включающей взаимодействие некоторого порядка, с моделью без него.
Например, для взаимодействия {14}, значимость определяется так: если мы исключаем
это взаимодействие из модели, содержащей все двухфакторные взаимодействия, то
разность в значениях статистики частные связи Хи-квадрат равна 39.14 с 3 степенями
свободы. Эта величина значима на уровне p = 0,000, меньшем 0,05. Таким образом, это
взаимодействие должно быть включено в модель. Так, для модели, содержащей все
двухфакторные взаимодействия {12, 13, 14, 23, 24, 34} критерий Хи-квадрат равен 6,87
при числе степеней свободы сс = 13; для модели {12, 13, 23, 24, 34} согласие модели
значительно ухудшилось, так критерий Хи-квадрат уже равен 46,01 при сс = 16. Разность
критериев составит 46,01 – 6,87 = 39,14 при числе степеней свободы сс = 16 – 13 = 3. Как
определяется значимость Хи-квадрат при помощи вероятностного калькулятора, будет
показано ниже.
Далее с учетов всех значимых двухфакторных взаимодействий следует задать модель
логлинейного анализа. При задании переменных в стартовом диалоге (рис.9.3.18), никак
не учитывается, какие переменные являются независимыми, а какая – откликом, поэтому
необходимо это учесть при задании модели. Так как независимыми переменными –
предикторами являются факторы: стадия заболевания, лучевая терапия и метод
хирургического лечения, а откликом – выживаемость, то естественно в модели должны
быть указаны все значимые двумерные взаимодействия отклика Выжил с независимыми
факторами Стадия I-IV, ТМЭ/СВПК. Это взаимодействия {14, 34}. Но так как нас
интересуют взаимодействия между всеми объясняющими факторами, то необходимо в
модель включить также и взаимодействие {123}.
Для задания модели следует в диалоге Задание модели логлинейного анализа на
рис.9.3.19 перейти на вкладку Быстрый, или Дополнительно и нажать на кнопку Задать
модель для тестирования (рис.9.3.28). В появившемся окне надо указать взаимодействия
в соответствии с рис.9.3.29 и щелкнуть по ОК. Откроется окно Результаты: Логлинейный
анализ (рис.9.3.30).
Рис.9.3.28
Рис.9.3.29
В информационной части окна указана тестируемая модель, параметры построения
модели (дельта, максимальное число предусмотренный итераций, критерий сходимости
итерационного процесса). Как видно из этой части окна, программе потребовалось всего 7
итераций для получения решения, удовлетворяющего критерию сходимости 0,01,
значение Хи-квадрат максимума правдоподобия равно 5,91 при числе степеней свободы
сс = 11 и уровне значимости р = 0,88; значение Хи-квадрат Пирсона равно 6,16 при числе
степеней свободы сс = 11 и уровне значимости р = 0,86. Малые значения критериев Хи-
квадрат и близкие к 1 уровни значимости р говорят о том, что, построена достаточно
хорошо согласующаяся с исходными данными логлинейная модель взаимодействия
объясняющих факторов и отклика.
Рис.9.3.30
Естественно одним из показателей качества (согласованности с исходными данными)
построенной модели является расхождение между наблюдаемыми и подогнанными
частотами. Если нажать на кнопку Наблюдаемые и подогнанные частоты на вкладке
Дополнительно, то появится график, иллюстрирующий степень расхождения в таблице
между подогнанными и наблюдаемыми частотами. Из графика на рис.9.3.31 видно, что
расхождения минимальные, так как точки на плоскости, обозначающие наблюдаемые (по
оси OY) и подогнанные (по оси ОХ) частоты расположены практически на прямой линии.
Наблюдаемые и подогнанные частоты
-10 0 10 20 30 40 50 60
Подогнанные частот
-10
0
10
20
30
40
50
60
70
Наблюдаемыечастоты
Рис.9.3.31
Для правильной интерпретации результатов анализа следует сначала проверить
статистическую значимость взаимодействий {14, 34}, включенных в модель,
статистическую значимость взаимодействия {12}, не включенного в модель и
статистическую значимость трехфакторного взаимодействия {123}. Для этого, как было
отмечено выше, надо сравнить значения статистики Хи-квадрат для модели с
включенным взаимодействием и для модели без этого взаимодействия. Проверим
статистическую значимость взаимодействия {14}, задав модель, как это показано на
рис.9.3.32.
Рис.9.3.32
Как показывает информационная часть окна на рис.9.3.33, согласованность модели
значительно ухудшилась, так как существенно возросли значения обоих критериев Хи-
квадрат: со значения 5,91 до 47,61 для первого критерия, и со значения 6,16 до 50,94 для
второго критерия.
Рис.9.3.33
Для оценки статистической значимости ухудшения модели найдем разности между
значениями критериев Хи-квадрат и числом степеней свободы для обеих моделей.
Значение разности статистик Хи-квадрат равно 47,61 – 5,91 = 41,7 с числом степеней
свободы 14 – 11 = 3. При помощи вероятностного калькулятора оценим уровень
значимости критерия. В меню Анализ выберем процедуру Вероятностный калькулятор, в
выпадающем меню – команду Распределения (рис.9.3.34).
Рис.9.3.34
Установим опции в окне вероятностного калькулятора так, как это показано на
рис.9.3.35 и нажмем на кнопку Вычислить.
Рис.9.3.35
В поле р появится вычисленное значения уровня значимости р = 0,000, которое
значительно меньше, чем 0,05. Поэтому, справедливым будет вывод, что взаимодействие
14 статистически значимо в построенной логлинейной модели. Это значит, что фактор
стадия заболевания статистически значимо влияет на выживаемость больных.
Проверим статистическую значимость взаимодействия 34, задав модель, как это
показано на рис.9.3.36.
Рис.9.3.36
Как показывает информационная часть окна на рис.9.3.37, модель ухудшилась еще в
большей степени, чем предыдущая, так как существенно возросли значения обоих
критериев Хи-квадрат: со значения 5,91 до 69,07 для первого критерия, и со значения
6,16 до 72,53 для второго критерия.
Рис.9.3.37
Для оценки статистической значимости ухудшения модели найдем разность между
значениями критериев Хи-квадрат и числом степеней свободы для обеих моделей.
Значение разности статистик Хи-квадрат равно 69,07 – 5,91 = 63,16 с числом степеней
свободы 12 – 11 = 1. При помощи вероятностного калькулятора оценим уровень
значимости критерия (рис.9.3.38).
Рис.9.3.38
Установим опции в окне вероятностного калькулятора так, как это показано на
рис.9.3.38 и нажмем на кнопку Вычислить. В поле р появится вычисленное значения
уровня значимости р = 0,000, которое значительно меньше, чем 0,05. Поэтому,
справедливым будет вывод, что взаимодействие 34 также статистически значимо в
построенной логлинейной модели. Это значит, что фактор метод хирургического о
лечения статистически значимо влияет на выживаемость больных. Но это влияние еще
более сильное, чем в предыдущем случае для фактора стадия.
Можно аналогично оценить значимость связи {24} между лучевой терапией и
выживаемостью, отсутствующей в настоящей модели, так как уровни значимости обоих
критериев Хи-квадрат были больше, чем 0,05 (рис.9.3.27). Добавим ее в модель (рис.9.3.39)
и оценим значимость улучшения в согласованности модели с данными по результатам
логлинейного анализа на рис.9.3.40.
Рис.9.3.39
Рис.9.3.40
Как видно из информационной части окна связь {24} не увеличивает значимо согласие
модели с наблюдаемой таблицей частот. Статистики Хи-квадрат и уровни значимости р
изменились незначительно по сравнению с соответствующим значениями для модели {14,
34, 123} (рис.9.3.30), а число степеней свободы уменьшилось с 11 до 10. Таки образом,
лучевая терапия не имеет статистически значимого влияния на выживаемость больных.
Осталось проверить статистическую значимость взаимодействия {123}. Если
исключить его из модели {14, 34, 123}, то значение критерия Хи-квадрат изменится с 5,
91 до 66,75, число степеней свободы (сс) возрастет с 11 до 22. Разности значений критерия
Хи-квадрат и чисел степеней свободы составят соответственно 66,75 – 5,91 = 60,81 и 22 –
11 = 11. При помощи вероятностного калькулятора легко определить уровень значимости
разности Хи-квадрат = 60,81 для сс =11, который составит 0,00…. Следовательно,
трехфакторное взаимодействие {123} статистически значимо в построенной логлинейной
модели.
Таким образом, проведенный анализ позволил построить хорошо согласующуюся с
исходными данными модель и выявил два значимых двухфакторных взаимодействия
предикторов и отклика и одно значимое трехфакторное взаимодействие объясняющих
факторов (предикторов):
– взаимодействие между предиктором Стадия I-IV (фактор 1) и откликом Выжил
(фактор 4);
– взаимодействие между предиктором ТМЭ/СВП (фактор 3) и откликом Выжил
(фактор 4);
– взаимодействие между объясняющими факторами Стадия I-IV, ТМЭ/СВП и Лучевое
ПрО.
Другими словами, статистически обоснованно влияние стадии заболевания и метода
хирургического лечения на выживаемость больных и отсутствие влияния лучевой терапии
на выживаемость. Причем метод хирургического лечения в большей степени влияет на
выживаемость, чем стадия заболевания.
Для интерпретации результатов многомерного взаимодействия факторов следует
исследовать подогнанные и маргинальные таблицы. Вернемся к модели {11, 34, 123} на
рис.9.3.30 и нажмем на кнопку Маргинальные таблицы.
По таблице на рис.9.3.41 можно посчитать, что отношение выживших больных к
умершим больным на стадии 1 примерно 7 к 1, т.е. на 1 умершего больного приходится
примерно 7 выживших! На стадии 2 отношение изменилось, и равно примерно 5 к 2, т.е.
на 2 умерших приходится примерно 5 выживших больных. На стадии 3 отношение
примерно такое же. На стадии 4 ситуация резко меняется, число умерших преобладает над
числом выживших и отношение примерно равно 10 к 8, т.е. на 8 выживших приходится
10 умерших больных. Эти соотношения справедливы с учетом взаимодействия значимых
объясняющих факторов!
Марг.Табл.(част+дельта): Стадии I-IV по Выжил (Логлинейный анализ)
Выжил
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
да
нет
Сумма
75,00000 119,0000 80,0000 29,00000 303,0000
11,00000 47,0000 29,0000 38,00000 125,0000
86,00000 166,0000 109,0000 67,00000 428,0000
Рис.9.3.41
По таблице на рис.9.3.42 можно посчитать, что отношение выживших больных к
умершим больным, если применялась техника хирургического лечения СВПК, примерно 6
к 7, т.е. на 6 выживших больных приходится примерно 7 умерших больных! Отношение
выживших больных к умершим больным, если применялась техника ТМЭ примерно 5 к 1,
т.е. на 5 выживших больных приходится примерно 1 умерший больной! Обратите
внимание, что частоты в маргинальных таблицах несколько отличаются от
соответствующих двухвходовых таблиц на рис.9.3.10 и рис.14.
Марг.Табл.(част+дельта): ТМЭ/СВПК по Выжил (Логлинейный анализ)
Выжил
ТМЭ/СВПК
СВПК
ТМЭ/СВПК
ТМЭ
Сумма
да
нет
Сумма
60,0000 243,0000 303,0000
72,0000 53,0000 125,0000
132,0000 296,0000 428,0000
Рис.9.3.42
В таблицах на рис.9.3.43 – 9.3.44 приведены маргинальные таблицы частот для анализа
характера взаимодействия между объясняющими факторами. В таблице на рис.9.3.43
представлена таблица частот для исследования характера взаимодействий между
факторами лучевая терапия и стадия заболевания при предположении, что применен
метод хирургического лечения СВПК.
Марг.Табл.(част+дельта): Стадии I-IV по Лучевое ПрО в перем.: (Логлинейный
ТМЭ/СВПК:СВПК
Лучевое ПрО
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
нет
да
Сумма
7,00000 22,00000 8,00000 14,00000 51,0000
18,00000 38,00000 19,00000 6,00000 81,0000
25,00000 60,00000 27,00000 20,00000 132,0000
Рис.9.3.43
В таблице на рис.9.3.44 представлена таблица частот для исследования характера
взаимодействий между теми же факторами при предположении, что применен метод
хирургического лечения ТМЭ.
Марг.Т абл.(част+дельта): Стадии I-IV по Лучевое ПрО в перем.: (Логлинейный
ТМЭ/СВПК:ТМЭ
Лучевое ПрО
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
нет
да
Сумма
18,00000 39,0000 24,00000 26,00000107,0000
43,00000 67,0000 58,00000 21,00000189,0000
61,00000 106,0000 82,00000 47,00000296,0000
Рис.9.3.44
Анализ представленных таблиц показывает, что способ хирургического лечения не
оказывает влияние на характер взаимосвязи лучевой терапии и стадии заболевания, так
как отношения частот применения лучевой терапии при определенных стадиях
заболевания для двух уровней переменной ТМЭ/СВПК примерно одинаковы и равны 0,38;
0,58; 0,42; 2,33 для СВПК и 0,41; 0,58; 0,41; 1,23 для ТМЭ. Сделанный вывод согласуется с
результатами анализа значимости взаимодействий по критериям маргинальных и частных
связей, представленных на рис.9.3.27. Уровни значимости обоих критериев Хи-квадрат
примерно равны 0,75 (значительно больше, чем 0,05), а сами значения критериев малы и
близки к 1, а это и означает, что взаимодействие объясняющих переменных статистически
не значимо.
Если в диалоге Результаты анализа на рис.9.3.30 нажать на кнопку Подогнанная
таблица, то программа построит различные вариации таблиц частот в соответствии с тем,
какие факторы пользователь укажет для обозначения строки и столбца таблицы. В
таблицах будут приведены частоты вычисленные программой в соответствии с
построенной логлинейной моделью. Если выбрать факторы в соответствии с рис.9.3.45, то
будут построены таблицы, приведенные на рис.9.3.46 – 49. Если сравнить частоты в этих
таблицах с частотами на рис.9.3.21 – 24, то можно убедиться в минимальном расхождении
частот в соответствующих ячейках таблиц.
Рис.9.3.45
Подогн.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:нет Выжил:да
ТМЭ/СВПК
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
СВПК
ТМЭ
Сумма
4,90873 10,26685 3,39102 2,11821 20,6848
16,95769 33,47985 20,06532 14,37031 84,8732
21,86642 43,74671 23,45634 16,48853 105,5580
Рис.9.3.46
Подогн.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:да Выжил:да
ТМЭ/СВПК
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
СВПК
ТМЭ
Сумма
12,62245 17,73366 8,05368 0,90781 39,3176
40,51003 57,51667 48,49118 11,60679 158,1247
53,13248 75,25032 56,54486 12,51460 197,4423
Рис.9.3.47
Подогн.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:нет Выжил:нет
ТМЭ/СВПК
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
СВПК
ТМЭ
Сумма
2,091271 11,73315 4,608977 11,88179 30,31518
1,042312 5,52015 3,934684 11,62969 22,12683
3,133583 17,25329 8,543661 23,51147 52,44201
Рис.9.3.48
Подогн.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:да Выжил:нет
ТМЭ/СВПК
Стадии I-IV
1
Стадии I-IV
2
Стадии I-IV
3
Стадии I-IV
4
Сумма
СВПК
ТМЭ
Сумма
5,377553 20,26634 10,94632 5,09219 41,68241
2,489967 9,48333 9,50882 9,39321 30,87533
7,867520 29,74967 20,45514 14,48540 72,55774
Рис.9.3.49
Дополнительным показателем согласованности построенной логлинейной модели с
исходными данными является графическое изображение взаимосвязи подогнанных частот
и остатков между наблюдаемыми и подогнанными частотами. Если нажать на кнопку
Подогнанные частоты и остатки, то появится график, изображенный на рис.9.3.50.
Подогнанные частоты и остатки
Лучевое ПрО:да Выжил:нет
-10 0 10 20 30 40 50 60
Подогнанные частот
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
Остаточныечастоты
Рис.9.3.50
Из графика видно, что точки, обозначающие остаточные частоты (по оси OY) и
подогнанные частоты (по оси ОХ) рассеяны практически равномерно на плоскости.
Прямая, изображающая линию регрессии между остаточными и подогнанными частотами,
почти параллельна оси ОХ и проходит вблизи 0. Отмеченные свойства графика
характеризуют остаточные частоты как случайные величины со средним значением,
равным 0, что свидетельствует о хорошей подгонке модели.
Альтернативным способом построения логлинейной модели является автоматический
выбор модели. Для этого надо в диалоге Задание модели логлинейного анализа на вкладке
Быстрый, или Дополнительно нажать на кнопку Автоматический выбор лучшей модели
(рис.9.3.28). В появившемся окне (рис.9.3.51) надо щелкнуть по ОК, откроется окно
Автоматический выбор наилучшей модели (рис.9.3.52).
Рис.9.3.51
Рис.9.3.52
В информационной части окна указаны начальная модель, состоящая из всех
двухфакторных взаимодействий 21, 31, 32, 41, 42, 43 и лучшая модель – 21, 31, 43, 41.
Если нажать на кнопку Продолжить поиск лучшей модели, то появится уже знакомое нам
окно (рис.53), в котором в соответствии с выбором переменной отклика и объясняющих
переменных следует указать компоненты модели.
Рис.9.3.53
Как итог проведенных исследований, справедливо заключение, что главными,
статистически значимыми факторами, связанными с выживанием пациентов являются
метод хирургического лечения и стадия заболевания, а лучевая терапия не является
фактором, существенно влияющим на выживаемость. Причем метод хирургического
лечения в своем влиянии на выживаемость доминирует над стадией заболевания.
Взаимодействие между собою перечисленных факторов в их влиянии на выживаемость
также является статистически значимым.

More Related Content

Similar to Логлинейный анализ (главная)

БЕСКОНТАКТНЫЙ КОНТРОЛЬ МИКРООБЪЕКТОВ МЕТОДАМИ ИНТЕРФЕРОМЕТРИИ МАЛОЙ КОГЕРЕНТН...
БЕСКОНТАКТНЫЙ КОНТРОЛЬ МИКРООБЪЕКТОВ МЕТОДАМИ ИНТЕРФЕРОМЕТРИИ МАЛОЙ КОГЕРЕНТН...БЕСКОНТАКТНЫЙ КОНТРОЛЬ МИКРООБЪЕКТОВ МЕТОДАМИ ИНТЕРФЕРОМЕТРИИ МАЛОЙ КОГЕРЕНТН...
БЕСКОНТАКТНЫЙ КОНТРОЛЬ МИКРООБЪЕКТОВ МЕТОДАМИ ИНТЕРФЕРОМЕТРИИ МАЛОЙ КОГЕРЕНТН...ITMO University
 
Влияние объема очага ишемии на результат применения интервенционных методов л...
Влияние объема очага ишемии на результат применения интервенционных методов л...Влияние объема очага ишемии на результат применения интервенционных методов л...
Влияние объема очага ишемии на результат применения интервенционных методов л...NPSAIC
 
Влияние объема очага ишемии на результат применения интервенционных методов л...
Влияние объема очага ишемии на результат применения интервенционных методов л...Влияние объема очага ишемии на результат применения интервенционных методов л...
Влияние объема очага ишемии на результат применения интервенционных методов л...NPSAIC
 
ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ ПРЕПАРАТА ВЕНАРУС В ЛЕЧЕНИИ БОЛЬНЫХ С ПОСТТРОМБОТИЧЕ...
ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ ПРЕПАРАТА ВЕНАРУС В ЛЕЧЕНИИ БОЛЬНЫХ С ПОСТТРОМБОТИЧЕ...ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ ПРЕПАРАТА ВЕНАРУС В ЛЕЧЕНИИ БОЛЬНЫХ С ПОСТТРОМБОТИЧЕ...
ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ ПРЕПАРАТА ВЕНАРУС В ЛЕЧЕНИИ БОЛЬНЫХ С ПОСТТРОМБОТИЧЕ...OBL-Pharm
 
оценка риска возникновения фатальный аритмий у больных в в условиях общей а...
оценка риска возникновения фатальный аритмий  у больных в  в условиях общей а...оценка риска возникновения фатальный аритмий  у больных в  в условиях общей а...
оценка риска возникновения фатальный аритмий у больных в в условиях общей а...Georgy Atanasov
 
medical_Rita_Nesterova
medical_Rita_Nesterovamedical_Rita_Nesterova
medical_Rita_NesterovaRita Nesterova
 
сравнительный анализ методов преинвазивной диагностики меланомы кожи, козлов ...
сравнительный анализ методов преинвазивной диагностики меланомы кожи, козлов ...сравнительный анализ методов преинвазивной диагностики меланомы кожи, козлов ...
сравнительный анализ методов преинвазивной диагностики меланомы кожи, козлов ...oncoportal.net
 
построение неприводимых представлений симметрической группы S(n) с большими и...
построение неприводимых представлений симметрической группы S(n) с большими и...построение неприводимых представлений симметрической группы S(n) с большими и...
построение неприводимых представлений симметрической группы S(n) с большими и...Иван Иванов
 
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)Alexan Khalafyan
 
Применение СВЧ технологии сверхнизкой интенсивности в сельском хозяйстве
Применение СВЧ технологии сверхнизкой интенсивности в сельском хозяйствеПрименение СВЧ технологии сверхнизкой интенсивности в сельском хозяйстве
Применение СВЧ технологии сверхнизкой интенсивности в сельском хозяйствеAnamezon
 
Общие линейные модели (главн)
Общие линейные модели (главн)Общие линейные модели (главн)
Общие линейные модели (главн)Alexan Khalafyan
 
Органосохраняющее лечение у больных мышечно-инвазивным раком мочевого пузыря
Органосохраняющее лечение у больных мышечно-инвазивным раком мочевого пузыряОрганосохраняющее лечение у больных мышечно-инвазивным раком мочевого пузыря
Органосохраняющее лечение у больных мышечно-инвазивным раком мочевого пузыряSt. Peterburg State Pediatric Medical University
 
система связи, основанная на синхронизации систем с задержкой с переключением...
система связи, основанная на синхронизации систем с задержкой с переключением...система связи, основанная на синхронизации систем с задержкой с переключением...
система связи, основанная на синхронизации систем с задержкой с переключением...Иван Иванов
 

Similar to Логлинейный анализ (главная) (16)

БЕСКОНТАКТНЫЙ КОНТРОЛЬ МИКРООБЪЕКТОВ МЕТОДАМИ ИНТЕРФЕРОМЕТРИИ МАЛОЙ КОГЕРЕНТН...
БЕСКОНТАКТНЫЙ КОНТРОЛЬ МИКРООБЪЕКТОВ МЕТОДАМИ ИНТЕРФЕРОМЕТРИИ МАЛОЙ КОГЕРЕНТН...БЕСКОНТАКТНЫЙ КОНТРОЛЬ МИКРООБЪЕКТОВ МЕТОДАМИ ИНТЕРФЕРОМЕТРИИ МАЛОЙ КОГЕРЕНТН...
БЕСКОНТАКТНЫЙ КОНТРОЛЬ МИКРООБЪЕКТОВ МЕТОДАМИ ИНТЕРФЕРОМЕТРИИ МАЛОЙ КОГЕРЕНТН...
 
Влияние объема очага ишемии на результат применения интервенционных методов л...
Влияние объема очага ишемии на результат применения интервенционных методов л...Влияние объема очага ишемии на результат применения интервенционных методов л...
Влияние объема очага ишемии на результат применения интервенционных методов л...
 
Влияние объема очага ишемии на результат применения интервенционных методов л...
Влияние объема очага ишемии на результат применения интервенционных методов л...Влияние объема очага ишемии на результат применения интервенционных методов л...
Влияние объема очага ишемии на результат применения интервенционных методов л...
 
ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ ПРЕПАРАТА ВЕНАРУС В ЛЕЧЕНИИ БОЛЬНЫХ С ПОСТТРОМБОТИЧЕ...
ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ ПРЕПАРАТА ВЕНАРУС В ЛЕЧЕНИИ БОЛЬНЫХ С ПОСТТРОМБОТИЧЕ...ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ ПРЕПАРАТА ВЕНАРУС В ЛЕЧЕНИИ БОЛЬНЫХ С ПОСТТРОМБОТИЧЕ...
ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ ПРЕПАРАТА ВЕНАРУС В ЛЕЧЕНИИ БОЛЬНЫХ С ПОСТТРОМБОТИЧЕ...
 
оценка риска возникновения фатальный аритмий у больных в в условиях общей а...
оценка риска возникновения фатальный аритмий  у больных в  в условиях общей а...оценка риска возникновения фатальный аритмий  у больных в  в условиях общей а...
оценка риска возникновения фатальный аритмий у больных в в условиях общей а...
 
medical_Rita_Nesterova
medical_Rita_Nesterovamedical_Rita_Nesterova
medical_Rita_Nesterova
 
сравнительный анализ методов преинвазивной диагностики меланомы кожи, козлов ...
сравнительный анализ методов преинвазивной диагностики меланомы кожи, козлов ...сравнительный анализ методов преинвазивной диагностики меланомы кожи, козлов ...
сравнительный анализ методов преинвазивной диагностики меланомы кожи, козлов ...
 
503
503503
503
 
503
503503
503
 
№16
№16№16
№16
 
построение неприводимых представлений симметрической группы S(n) с большими и...
построение неприводимых представлений симметрической группы S(n) с большими и...построение неприводимых представлений симметрической группы S(n) с большими и...
построение неприводимых представлений симметрической группы S(n) с большими и...
 
Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)Общие модели дискриминантного анализа (главная)
Общие модели дискриминантного анализа (главная)
 
Применение СВЧ технологии сверхнизкой интенсивности в сельском хозяйстве
Применение СВЧ технологии сверхнизкой интенсивности в сельском хозяйствеПрименение СВЧ технологии сверхнизкой интенсивности в сельском хозяйстве
Применение СВЧ технологии сверхнизкой интенсивности в сельском хозяйстве
 
Общие линейные модели (главн)
Общие линейные модели (главн)Общие линейные модели (главн)
Общие линейные модели (главн)
 
Органосохраняющее лечение у больных мышечно-инвазивным раком мочевого пузыря
Органосохраняющее лечение у больных мышечно-инвазивным раком мочевого пузыряОрганосохраняющее лечение у больных мышечно-инвазивным раком мочевого пузыря
Органосохраняющее лечение у больных мышечно-инвазивным раком мочевого пузыря
 
система связи, основанная на синхронизации систем с задержкой с переключением...
система связи, основанная на синхронизации систем с задержкой с переключением...система связи, основанная на синхронизации систем с задержкой с переключением...
система связи, основанная на синхронизации систем с задержкой с переключением...
 

More from Alexan Khalafyan

Позиционный анализ для магистров
Позиционный анализ для магистровПозиционный анализ для магистров
Позиционный анализ для магистровAlexan Khalafyan
 
Общие модели дискриминантного анализа для магистров
Общие модели дискриминантного анализа для магистровОбщие модели дискриминантного анализа для магистров
Общие модели дискриминантного анализа для магистровAlexan Khalafyan
 
Общие линейные модели для магистров
Общие линейные модели для магистровОбщие линейные модели для магистров
Общие линейные модели для магистровAlexan Khalafyan
 
ковариационный анализ для магистров
ковариационный анализ для магистровковариационный анализ для магистров
ковариационный анализ для магистровAlexan Khalafyan
 
Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)Alexan Khalafyan
 
Ковариационный анализ (главная)
Ковариационный анализ (главная)Ковариационный анализ (главная)
Ковариационный анализ (главная)Alexan Khalafyan
 
ответы к задачам по тв и мс
ответы к задачам по тв и мсответы к задачам по тв и мс
ответы к задачам по тв и мсAlexan Khalafyan
 
задачи для студентов по тв и мс
задачи для студентов по тв и мсзадачи для студентов по тв и мс
задачи для студентов по тв и мсAlexan Khalafyan
 
Mathematical statistic in sport of football
Mathematical statistic in sport of footballMathematical statistic in sport of football
Mathematical statistic in sport of footballAlexan Khalafyan
 
Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Alexan Khalafyan
 
математическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейматематическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейAlexan Khalafyan
 

More from Alexan Khalafyan (12)

Позиционный анализ для магистров
Позиционный анализ для магистровПозиционный анализ для магистров
Позиционный анализ для магистров
 
Общие модели дискриминантного анализа для магистров
Общие модели дискриминантного анализа для магистровОбщие модели дискриминантного анализа для магистров
Общие модели дискриминантного анализа для магистров
 
Общие линейные модели для магистров
Общие линейные модели для магистровОбщие линейные модели для магистров
Общие линейные модели для магистров
 
ковариационный анализ для магистров
ковариационный анализ для магистровковариационный анализ для магистров
ковариационный анализ для магистров
 
Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)Надежность и позиционный анализ (главная)
Надежность и позиционный анализ (главная)
 
Ковариационный анализ (главная)
Ковариационный анализ (главная)Ковариационный анализ (главная)
Ковариационный анализ (главная)
 
ответы к задачам по тв и мс
ответы к задачам по тв и мсответы к задачам по тв и мс
ответы к задачам по тв и мс
 
задачи для студентов по тв и мс
задачи для студентов по тв и мсзадачи для студентов по тв и мс
задачи для студентов по тв и мс
 
Mathematical statistic in sport of football
Mathematical statistic in sport of footballMathematical statistic in sport of football
Mathematical statistic in sport of football
 
Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.Современный статистический анализ данных. Второе издание.
Современный статистический анализ данных. Второе издание.
 
математическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностейматематическая статистика с элементами теории вероятностей
математическая статистика с элементами теории вероятностей
 
Aist
AistAist
Aist
 

Логлинейный анализ (главная)

  • 1. 9.3. ЛОГЛИНЕЙНЫЙ АНАЛИЗ Одним из основных методов анализа взаимосвязи качественных (категориальных) переменных (факторов) является кросстабуляция (сопряжение), заключающееся в построении и анализе многомерных (многовходовых) таблиц частот. Например, в медицине можно табулировать частоты различных симптомов заболевания по возрасту и полу пациентов; табулировать число выживших больных в зависимости от применяемых методов лечения и т.д. Логлинейный анализ является более «глубоким» методы исследования многомерных таблиц, а именно, этот метод посредством моделирования частот в таблицах сопряженности позволяет проверить статистическую значимость различных факторов и их взаимодействий. Логлинейный анализ имеет сходство с дисперсионным анализом и регрессионным анализом. Для проведения логлинейного анализа все переменные должны быть измерены в категориальной шкале. При анализе категориальных переменных также уместно ввести понятие зависимых и независимых переменных. Зависимые переменные, это те переменные, поведение которых мы пытаемся объяснить, то есть, предполагаем, что эти переменные зависят от независимых переменных– предикторов. Например, выживаемость можем рассматривать как переменную, зависимую от методов лечения, или различные симптомы заболеваний можем рассматривать как переменные, зависимые от возраста, или пола больных. В этом случае в терминологии логлинейного анализа зависимую переменную будем называть переменной отклика, или просто откликом, а независимые – объясняющими переменными. Переменные отклика – это те переменные, которые изменяются в ответ на изменение объясняющих переменных. Понятно, что такое разделение достаточно условно и зависит от содержательной постановки решаемой задачи. Таким образом, предикторами в логлинейной модели выступают категориальные переменные и их взаимодействия. Логлинейная модель представляет собой линейную множественную модель регрессии. Зависимая переменная в логлинейной модели представляет собой натуральный логарифм соответствующей частоты многомерной таблицы сопряженности. Использование логарифма обуславливает линейность модели, что нашло отражение в названии модели – логарифмическая линейная модель. Рассмотрим применение логлинейного анализа на примере из хирургии. Исходные данные представляют таблицу, содержащую данные 412 больных, прошедших лечение по поводу рака прямой кишки [47]. На рис.9.3.1 отображен фрагмент файла данных, состоящий из 25 первых больных. В первом столбце указана стадия заболевания, во втором – применялось или нет лучевая терапия, в третьем – метод хирургического лечения: ТМЭ – тотальная мезоректумэктомия; СВПК – «слепое», без прямого визуального контроля выделение прямой кишки, в четвертом – выживаемость больных в течение первых пяти лет после проведения лечения. Чтобы лучше понять структуру данных начнем анализ «от простого к сложному» – с построения одномерных и двумерных таблиц частот.
  • 2. 1 Стадии I-IV 2 Лучевое ПрО 3 ТМЭ/СВПК 4 Выжил 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 3 да ТМЭ да 1 да СВПК нет 2 нет ТМЭ да 1 да СВПК нет 2 нет СВПК да 1 нет ТМЭ да 1 да ТМЭ да 2 да ТМЭ да 3 да ТМЭ да 2 нет ТМЭ да 2 да ТМЭ да 1 да СВПК да 4 нет ТМЭ да 3 да ТМЭ да 1 да ТМЭ да 2 да ТМЭ да 2 да ТМЭ да 3 да ТМЭ нет 3 да ТМЭ да 4 нет СВПК да 3 да ТМЭ да 2 да СВПК нет 3 да СВПК нет 4 да ТМЭ да 2 да ТМЭ да 4 нет ТМЭ нет 4 нет ТМЭ нет Рис.9.3.1 Из таблицы на рис. 2 следует, что больные по стадиям заболевания распределены далеко неравномерно, преобладают больные со второй стадией (39%), далее идут больные с третьей стадией (25%), с первой стадией (20%) и самой тяжелой – четвертой стадией (15%). Таблица частот: Стадии I-IV (Логлинейный анализ) Группа Частота Кумул. Частота Процент Кумул. Процент 1 2 3 4 Пропущ. 82 82 19,90291 19,9029 162 244 39,32039 59,2233 105 349 25,48544 84,7087 63 412 15,29126 100,0000 0 412 0,00000 100,0000 Рис.9.3.2 Большинству больных (64%) было проведено комбинированное лечение с лучевой терапией (рис.9.3.3). Таблица частот: Лучевое ПрО (Логлинейный анализ) Группа Частота Кумул. Частота Процент Кумул. Процент нет да Пропущ. 150 150 36,40777 36,4078 262 412 63,59223 100,0000 0 412 0,00000 100,0000 Рис.9.3.3
  • 3. Количество больных прооперированных по методу ТМЭ (70%) более, чем в два раза превосходит больных, которым была сделана операция по методу СВПК (30%) (рис.9.3. 9.3.4). Таблица частот: ТМЭ/СВПК (Логлинейный анализ) Группа Частота Кумул. Частота Процент Кумул. Процент СВПК ТМЭ Пропущ. 124 124 30,09709 30,0971 288 412 69,90291 100,0000 0 412 0,00000 100,0000 Рис.9.3.4 Количество выживших больных (72%) более, чем в 2,5 раза превосходит умерших больных (28%) (рис.9.3.5). Таблица частот: Выжил (Логлинейный анализ) Группа Частота Кумул. Частота Процент Кумул. Процент да нет Пропущ. 295 295 71,60194 71,6019 117 412 28,39806 100,0000 0 412 0,00000 100,0000 Рис.9.3.5 Естественно, представляет интерес вопрос, влияют ли стадия заболевания, лучевая терапия, метод хирургического лечения на выживаемость больных. Поэтому, в контексте такой постановки задачи, переменные Стадия I-IV, Лучевое ПрО, ТМЭ/СВПК следует считать независимыми (объясняющими) предикторами, а переменную Выжил – откликом. Исследуем сначала влияние предикторов на отклик «в статике», без учета их взаимодействия друг с другом, применив таблицы сопряженности. Для понимания принципов логлинейного анализа нам потребуются некоторые понятия, которые рассмотрим на примере анализа структуры взаимосвязи стадии заболевания с выживаемостью больных. На рис.9.3.6 приведена итоговая таблица частот в соответствии, с которой можно утверждать, что количество выживших для первых трех стадий в несколько раз превышает количество умерших, но совсем иная картина для стадии IV, где число умерших превосходит количество выживших. Но, на вопрос, проявляется ли в сделанном заключении влияние стадии на выживаемость, ответить проблематично, так как количество больных по стадиям заболевания отличаются и равны соответственно 82, 162, 105, 63 чел. Поэтому, целесообразно рассмотрение относительных частот, которые являются отношением частот к маргинальным частотам. Маргинальными частотами называются частоты, расположенные по краям таблицы – последний столбец Всего по стр. и последняя строка Всего. Итоговая таблица частот (Логлинейный анализ) Табл.: Стадии I-IV(4) x Выжил(2) Стадии I-IV Выжил да Выжил нет Всего по стр. 1 73 9 82 2 117 45 162 3 78 27 105 4 27 36 63 Всего 295 117 412 Рис.9.3.6
  • 4. Для анализа взаимосвязи между категориальными переменными используется таблица частот в предположении, что между ними нет взаимосвязи. Такая таблица называется таблицей ожидаемых частот. Таблица ожидаемых частот обладает тем свойством, что частоты в каждой ячейке пропорциональны маргинальным частотам, т.е. частотам, расположенным на краях таблицы. На рис.9.3.7 представлена таблица ожидаемых частот для переменных Стадия I-IV, Выжил. Легко убедиться в пропорциональности частот и маргинальных частот, например: 58,71:115,99 ≈ 23,28:46,00 ≈ 82:162 ≈ 0,5, т.е., примерно 1 к 2, или 58,71: 23,28 ≈ 115,99:46 ≈ 295:117 ≈ 2,5, т.е., примерно 5 к 2. 2-входовая итоговая: Ожидаемые частоты (Логлинейный анализ) Частоты выделенных ячеек > 10 Стадии I-IV Выжил да Выжил нет Всего по стр. 1 2 3 4 Всего 58,7136 23,2864 82,0000 115,9951 46,0049 162,0000 75,1820 29,8180 105,0000 45,1092 17,8908 63,0000 295,0000117,0000 412,0000 Рис.9.3.7 Таким образом, при заданных маргинальных частотах в ячейках содержатся частоты, которые следовало бы ожидать при отсутствии связи между стадией и выживаемостью больных. Если сравнить эту таблицу с предыдущей, то можно увидеть, что предыдущая таблица показывает зависимость между двумя переменными: наблюдается больше выживших больных с первой стадией, чем ожидается; наблюдается меньше выживших больных с четвертой стадией, чем ожидается. Здесь проявляется общий принцип, на котором основан частотный, в том числе и логлинейный анализ: имея маргинальные суммы частоты для двух (или более) факторов, мы можем вычислить частоты в ячейках, которые следовало бы ожидать при отсутствии связи между факторами. Статистически значимые отклонения наблюдаемых частот от ожидаемых указывают на зависимость между двумя (или более) категориальными переменными. Разница между ожидаемыми и наблюдаемыми частотами представлена в таблице на рис.9.3.8. Очевидно, что, чем больше величины в ячейках таблицы, тем более взаимосвязаны категориальные переменные, или другими словами, больше влияние предиктора на отклик. 2-входовая итоговая: Наблюдаемые минус ожидаемые частоты (Логлинейны Частоты выделенных ячеек > 10 Стадии I-IV Выжил да Выжил нет Всего по стр. 1 2 3 4 Всего 14,2864 -14,2864 0,00 1,0049 -1,0049 0,00 2,8180 -2,8180 0,00 -18,1092 18,1092 0,00 0,0000 0,0000 0,00 Рис.9.3.8 Вычисление частот в ячейках таблицы на основании маргинальных частот при предположении, что категориальные переменные не связаны, называется подгонкой модели. Значимые отклонения наблюдаемых частот от ожидаемых указывают на
  • 5. несогласие с гипотезой о независимости двух переменных, т.е. на наличие связи. Значимость отклонений проверяется при помощи критериев согласия Пирсона Хи- квадрат и максимального правдоподобия М-П Хи-квадрат (рис.9.3.9). Статистики: Стадии I-IV(4) x Выжил(2) (Логлинейный анализ) Статист. Хи-квадрат ст.св. p Пирсона Хи-квадрат М-П Хи-квадрат Фи Коэфф.сопряженности Крамера V Тау b и c Кендалла D(X|Y), D(Y|X) Соммера Гамма Корр. Спирмена Коэф.неопределенности 38,24398 сс=3 p=,00000 37,72503 сс=3 p=,00000 ,3046723 ,2914456 ,3046723 b=,2314599 c=,2500471 X|Y=,30743 Y|X=,17426 ,4158730 ,2515419 t=5,2625 p=,00000 X=,0345824Y=,0767301X|Y=,04768 Рис.9.3.9 Так как уровни значимости р критериев Пирсона Хи-квадрат, М-П Хи-квадрат меньше, чем 0,05, а критерии принимают достаточно большие значения, то ожидаемые частоты значимо отклоняются от наблюдаемых, а следовательно между выживаемостью и стадией заболевания есть взаимосвязь, т.е., стадия заболевания влияет на выживаемость. Наличие взаимосвязи между переменными также проверяется при помощи приведенных в таблице статистик. Чем ближе значения статистик по модулю к 1, тем влияние предиктора на отклик выше. Наиболее объективным показателем для нашего случая, является статистика гамма, которая является непараметрическим аналогом корреляции Пирсона и применяется в случае, если категориальные переменные принимают много повторяющихся значений. Так как гамма равна 0,4, то можем утверждать, что степень влияния стадии на выживаемость умеренная. Для анализа структуры взаимосвязи воспользуемся двумерной таблицей частот на рис.9.3.10. 2-входовая итоговая: наблюдаемые частоты (Логлинейный анализ) Частоты выделенных ячеек > 10 Стадии I-IV Выжил да Выжил нет Всего по стр. 1 столбц.% строк.% 2 столбц.% строк.% 3 столбц.% строк.% 4 столбц.% строк.% Всего 73 9 82 25% 8% 89% 11% 117 45 162 40% 38% 72% 28% 78 27 105 26% 23% 74% 26% 27 36 63 9% 31% 43% 57% 295 117 412 Рис.9.3.10 Легко видеть, что: – для больных в стадии I, выжившие и умершие составляют соответственно 89% и 11%;
  • 6. – для больных в стадии II, выжившие и умершие составляют 72% и 28%; – для больных в стадии III, выжившие и умершие составляют 74% и 26%; – для больных в стадии IV ситуация резко меняется – выжившие и умершие составляют соответственно 43% и 57%. В таблице на рис.9.3.11 представлены критерии значимости отклонений ожидаемых частот от наблюдаемых и статистики для оценки взаимосвязи лучевой терапии и выживаемости больных. Так как таблица 2×2, то дополнительно к критериям Хи-квадрат использованы критерии Йется Хи-квадрат; Точный Фишера, односторонний и двухсторонний; Макнемара Хи-квадрат (А/D) и (B/C). Как видно из таблицы, только для последних двух критериев уровень значимости р меньше, чем 0,05. Все статистики принимают малые, близкие к 0 значения. Наибольшее значение принимает статистика гамма, но и она меньше, чем 0,25. Это означает, что влияние лучевой терапии на выживаемость больных очень слабое. Статистики: Лучевое ПрО(2) x Выжил(2) Статист. Хи-квадрат ст.св. p Пирсона Хи-квадрат М-П Хи-квадрат Йетса хи-квад. Точный Фишера, одностор. двустор. хи-квад. Макнемара (A/D) (B/C) Фи для 2 x 2 таблиц Тетрахор. корреляции Коэфф.сопряженности Тау b и c Кендалла D(X|Y), D(Y|X) Соммера Гамма Корр. Спирмена Коэф.неопределенности 2,825507 сс=1 p=,09278 2,790947 сс=1 p=,09480 2,456722 сс=1 p=,11702 p=,05914 p=,11176 6,131737 сс=1 p=,01328 84,63673 сс=1 p=0,0000 -,082813 -,138960 ,0825307 b=-,082813 c=-,071873 X|Y=-,0883 Y|X=-,0776 -,185410 -,082813 t=-1,683 p=,09321 X=,0051654Y=,0056766 X|Y=,00541 Рис.9.3.11 О слабом влиянии лучевой терапии на выживаемость также говорит поведение относительных частот в таблице на рис.9.3.12. Для тех больных, которым не проводилась лучевая терапия, количество выживших больных (67%), значительно преобладает над количеством умерших (33%) и эти величины соотносятся примерно, как 2 к 1. Для тех больных, которым проводилась лучевая терапия, число выживших больных (74%),также значительно преобладает над числом умерших (26%) и эти величины соотносятся примерно, как 3 к 1. 2-входовая итоговая: наблюдаемые частоты (Логлинейный анализ) Лучевое ПрО Выжил да Выжил нет Всего по стр. нет столбц.% строк.% да столбц.% строк.% Всего 100 50 150 34% 43% 67% 33% 195 67 262 66% 57% 74% 26% 295 117 412 Рис.9.3.12
  • 7. В таблице на рис.9.3.13 представлены критерии значимости отклонений ожидаемых частот от наблюдаемых и статистики для оценки взаимосвязи метода хирургического лечения и выживаемости больных. Как видно из таблицы, только для критерия Макнемара Хи-квадрат (А/D) уровень значимости р больше, чем 0,05. Все статистики принимают значения, большие, чем 0,25, а статистика гамма по модулю близка к 0,75. Это означает, что взаимосвязь метода хирургического лечения и выживаемости больных умеренная, близкая к сильной. Статистики: ТМЭ/СВПК(2) x Выжил(2) (Логлинейный анализ Статист. Хи-квадрат ст.св. p Пирсона Хи-квадрат М-П Хи-квадрат Йетса хи-квад. Точный Фишера, одностор. двустор. хи-квад. Макнемара (A/D) (B/C) Фи для 2 x 2 таблиц Тетрахор. корреляции Коэфф.сопряженности Тау b и c Кендалла D(X|Y), D(Y|X) Соммера Гамма Корр. Спирмена Коэф.неопределенности 60,98981 сс=1 p=,00000 58,20442 сс=1 p=,00000 59,14378 сс=1 p=,00000 p=,00000 p=,00000 ,3428572 сс=1 p=,55818 94,13681 сс=1 p=0,0000 -,384751 -,590232 ,3590895 b=-,384751 c=-,318315 X|Y=-,3913 Y|X=-,3782 -,711097 -,384751 t=-8,440 p=,00000 X=,1154785Y=,1183837X|Y=,11691 Рис.9.3.13 О сильном влиянии метода хирургического лечения на выживаемость также говорит поведение относительных частот в таблице на рис.9.3.14. Для тех больных, которым был применен метод СВПК, число умерших больных (55%), преобладает над числом выживших (45%) и эти величины соотносятся как 11 к 9. Для тех больных, которым был применен метод ТМЭ, число выживших больных (83%), значительно преобладают над числом умерших (17%) и эти величины соотносятся примерно, как 5 к 1. 2-входовая итоговая: наблюдаемые частоты (Логлинейный анализ) ТМЭ/СВПК Выжил да Выжил нет Всего по стр. СВПК столбц.% строк.% ТМЭ столбц.% строк.% Всего 56 68 124 19% 58% 45% 55% 239 49 288 81% 42% 83% 17% 295 117 412 Рис.9.3.14 Таким образом, при помощи кростабуляции нам удалось выявить влияние таких факторов как стадия заболевания, лучевая терапия, метод хирургического лечения на выживаемость больных. Но установлен не только факт взаимодействия перечисленных факторов с выживаемостью больных, а посредством таблиц относительных и маргинальных частот исследована структура такого взаимодействия. Показано, что наибольшее влияние на выживаемость имеет метод хирургического лечения, далее стадия заболевания и незначительное влияние – проведение лучевой терапии в комбинации с хирургическим лечением. Этого результата было бы вполне достаточно при отсутствии
  • 8. взаимосвязи факторов друг с другом. В этом случае наблюдаемые частоты должны соответствовать, т.е. быть пропорциональны маргинальным частотам. Если возникают какие-либо значимые отклонения от этого соответствия, то гипотезу о независимости табулированных предикторов следует отклонить. При наличии взаимосвязи между объясняющими факторами, открытым остается вопрос о структуре и степени их влияния на выживаемость с учетом их взаимодействия друг с другом. В этом случае вычисление ожидаемых частот значительно усложняется, так как таблица содержит более двух факторов (входов). Тем не менее, в рамках логлинейного анализа эта задача решается, а частоты вычисляются при помощи итеративной пропорциональной подгонки. При помощи модуля Таблицы сопряженности, флагов и заголовков можно построить многовходовую (с четырьмя входами) таблицу частот, компактно представляющую исходные данные (рис.9.3.15). Но, в логлинейном анализе статистики Хи-квадрат вычисляются по двухмерным таблицам частот для двух факторов при фиксированных уровнях остальных. Итоговая таблица частот (Логлинейный анализ) Частоты выделенных ячеек > 10 (Маргинальные суммы не отмечены) Стадии I-IV Лучевое ПрО ТМЭ/СВПК Выжил да Выжил нет Всего по стр. 1 нет СВПК 3 3 6 1 нет ТМЭ 17 0 17 Всего 20 3 23 1 да СВПК 12 5 17 1 да ТМЭ 41 1 42 Всего 53 6 59 2 нет СВПК 9 12 21 2 нет ТМЭ 34 4 38 Всего 43 16 59 2 да СВПК 16 21 37 2 да ТМЭ 58 8 66 Всего 74 29 103 3 нет СВПК 4 3 7 3 нет ТМЭ 18 5 23 Всего 22 8 30 3 да СВПК 8 10 18 3 да ТМЭ 48 9 57 Всего 56 19 75 4 нет СВПК 3 10 13 4 нет ТМЭ 12 13 25 Всего 15 23 38 4 да СВПК 1 4 5 4 да ТМЭ 11 9 20 Всего 12 13 25 Суммы по стл 295 117 412 Рис.9.3.15 Модуль Логлинейный анализ, как и модуль Таблицы сопряженности, флагов и заголовков вычисляет два критерия Хи-квадрат: критерий Хи-квадрат Пирсона и критерий максимума отношения правдоподобия (М-П) Хи-квадрат. Оба критерия оценивают, являются ли ожидаемые частоты в ячейках для соответствующей модели значимо отличающимися от наблюдаемых частот или нет. Если отличие значимо, то гипотеза об отсутствии связей отвергается. Если отличие незначимо, то говорят, что
  • 9. модель согласуется с данными. Чем больше значение критериев Хи-квадрат и меньше уровень значимости, тем более вероятно, что ожидаемые частоты в ячейках значимо отличаются от наблюдаемых частот. Если уровень значимости р меньше, чем 0,05, то такое отличие считают статистически значимым. После выбора логлинейной модели и подгонки ожидаемых частот, следует исследовать остаточные частоты, которые представляют разность наблюдаемых и ожидаемых частот. Если модель согласуется с таблицей, все остаточные частоты будут состоять из положительных и отрицательных значений примерно одинакового размаха, случайным образом распределенных по всем ячейкам таблицы со средним значением, близким к 0. Модуль Логлинейный анализ позволяет получать различные графики остаточных частот и относящиеся к ним статистики. Например, в таблице на рис.9.3.8 остаточные частоты имеют значительно отличные от нуля значения, большой размах, что говорит о плохом согласовании модели с данными, а значит о наличии взаимосвязи между категориальными переменными. Критерии Хи-квадрат для моделей, связанных иерархически друг с другом или иерархически вкладывающихся друг в друга, могут сравниваться непосредственно. Две модели иерархически связаны друг с другом, если одна может быть получена из другой добавлением некоторых факторов. Например, если мы сначала рассмотрим модель, учитывающую влияние стадии на выживаемость, или метода хирургического лечения на выживаемость, а затем рассмотрим модель, учитывающую взаимосвязь стадии, метода хирургического лечения и выживаемости, то вторая модель – это расширение первой. Можно оценить разницу между критериями Хи-квадрат для двух моделей на основании разности между критериями и их степенями свободы. Если критерий Хи-квадрат для разности значим, то можно заключить, что трехфакторная модель взаимодействия дает значимо лучшее согласие для наблюдаемой таблицы, чем модель без этого взаимодействия. Поэтому трехфакторное взаимодействие считается статистически значимым. Для запуска процедуры логлинейного анализа следует в меню Анализ выбрать команду Углубленные методы анализа (рис.9.3.16), в открывшемся меню – модуль Логлинейный анализ таблиц частот.
  • 10. Рис.9.3.16 В стартовом диалоге надо щелкнуть по кнопке Исходные данные и в выпадающем меню (рис.9.3.17) выбрать одноименную опцию, так как анализируемый файл представляет собою стандартную таблицу данных пакета STATISTICA (рис.9.3.1). Далее, щелкнуть по кнопке Переменные и выделить все переменные в соответствии с рис.9.3.18. Рис.9.3.17
  • 11. Рис.9.3.18 Если, после проведенных манипуляций, щелкнуть по ОК и после возврата программы в стартовое окно, вновь щелкнуть по ОК, появится диалог Задание модели логлинейного анализа (рис.9.3.19), в котором на вкладке Просмотр/Сохранение можно визуализировать многовходовую таблицу частот в виде двухмерных таблиц при различных уровнях факторов, не участвующих в построении таблиц. Если нажать на кнопку Просмотр полной наблюдаемой таблицы, то откроется вспомогательное окно, в котором надо выделить переменные, обозначающие столбцы и строки таблицы. Выберем, например, переменные Стадия I-IV и ТМЭ/СВПК как это показано на рис.9.3.20. Рис.9.3.19
  • 12. Рис.9.3.20 На рис.9.3.21 – 24 отображены, построенные программой двухмерные таблицы частот. Столбцы соответствуют переменной Стадия I-IV , строки – переменной ТМЭ/СВПК . В таблицах фиксированы уровни переменных Лучевое ПрО и Выжил. Например, в таблице на рис.9.3.21 представлены частоты больных в соответствии с методом хирургического лечения и стадии заболевания, для которых не проводилась лучевая терапия и эти больные выжили. Набл.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:нет Выжил:да ТМЭ/СВПК Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма СВПК ТМЭ Сумма 3 9 4 3 19 17 34 18 12 81 20 43 22 15 100 Рис.9.3.21 Набл.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:да Выжил:да ТМЭ/СВПК Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма СВПК ТМЭ Сумма 12 16 8 1 37 41 58 48 11 158 53 74 56 12 195 Рис.9.3.22 Набл.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:нет Выжил:нет ТМЭ/СВПК Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма СВПК ТМЭ Сумма 3 12 3 10 28 0 4 5 13 22 3 16 8 23 50 Рис.9.3.23 Набл.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:да Выжил:нет ТМЭ/СВПК Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма СВПК ТМЭ Сумма 5 21 10 4 40 1 8 9 9 27 6 29 19 13 67 Рис.9.3.24
  • 13. Если нажать на кнопку Сохранить таблицу, то файл исходных данных состоящий из 412 строк, будет представлен в более наглядной и компактной записи из 32 строк, которая представляет собою альтернативную форму организация файла данных (рис.9.3.25). Полученный файл будет содержать по одной строке на каждую ячейку таблицы. В дополнение к переменной частот в каждой строке также будет содержаться информация об уровне каждого наблюдаемого фактора, записанная в виде целочисленных кодов, обозначающих соответствующие уровни. При желании логлинейный анализ можно проводить, используя эту таблицу. Для этого в окне на рис.9.3.17 в выпадающем меню следует выбрать опцию Частоты и коды. Для построения логлинейной модели следует просмотреть таблицу одновременных критериев для всех k-факторных взаимодействий, а также таблицу критериев для всех моделей с маргинальными и частными взаимодействиями. Эти критерии вычисляются после нажатия кнопки Проверка всех маргинальных и частных связей (рис.9.3.26, 27). Логлинейный анализ 1 Стадии I-IV 2 Лучевое ПрО 3 ТМЭ/СВПК 4 Выжил 5 ЧАСТОТА 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 1,000 нет СВПК да 3 2,000 нет СВПК да 9 3,000 нет СВПК да 4 4,000 нет СВПК да 3 1,000 да СВПК да 12 2,000 да СВПК да 16 3,000 да СВПК да 8 4,000 да СВПК да 1 1,000 нет ТМЭ да 17 2,000 нет ТМЭ да 34 3,000 нет ТМЭ да 18 4,000 нет ТМЭ да 12 1,000 да ТМЭ да 41 2,000 да ТМЭ да 58 3,000 да ТМЭ да 48 4,000 да ТМЭ да 11 1,000 нет СВПК нет 3 2,000 нет СВПК нет 12 3,000 нет СВПК нет 3 4,000 нет СВПК нет 10 1,000 да СВПК нет 5 2,000 да СВПК нет 21 3,000 да СВПК нет 10 4,000 да СВПК нет 4 1,000 нет ТМЭ нет 0 2,000 нет ТМЭ нет 4 3,000 нет ТМЭ нет 5 4,000 нет ТМЭ нет 13 1,000 да ТМЭ нет 1 2,000 да ТМЭ нет 8 3,000 да ТМЭ нет 9 4,000 да ТМЭ нет 9 Рис.9.3.25
  • 14. Результаты подгонки К-факторн. взаимодействий (Логлинейный анализ) Это одновременная проверка того, что все К-факторные взаимодействия равны нулю K-фактор Число ст.своб. МП хи-квад. Вероятн. p Пирсона хи-квад. Вероятн. p 1 2 3 4 6 219,9833 0,000000 304,9963 0,000000 12 122,5669 0,000000 132,0629 0,000000 10 5,8255 0,829706 5,9754 0,817326 3 1,0545 0,788077 1,0401 0,791549 Рис.9.3.26 Таблица на рис.9.3.26 показывает, что улучшение согласия при включении всех двухфакторных взаимодействий {12, 13, 14, 23, 24, 34}(k-фактор = 2) статистически значимо, так как уровень значимости р меньше, чем 0,05. Это означает, что произвольная двухфакторная модель имеет очень слабое согласие с данными. Увеличение согласия при добавлении в модель всех трехфакторных взаимодействий {123, 124, 234, 134}(k-фактор = 3) не значимо, так как р больше, чем 0,05. Это означает, что получившаяся двухфакторная модель является приемлемой. Поэтому можно заключить, что наименее сложная модель, согласующаяся с данными, не нуждается в трехфакторных взаимодействиях, но может содержать одно или более двухфакторное взаимодействие. Но это не значит, что мы не можем, исходя из содержательной постановки задачи, построить модель, согласующуюся с исходными данными, содержащую двухфакторные и трехфакторные взаимодействия. Критерии маргинальных и частных связей позволяют из всех двухфакторных и трехфакторных взаимодействий выявить значимые связи. Критерий определяет значимость влияний, указанных цифрами в столбце Эффект (рис.9.3.27) путем сравнения модели, включающей взаимодействие некоторого порядка, с моделью без него. Из таблицы на рис.9.3.27 видно, что с учетом критериев частных и маргинальных связей Хи-квадрат статистически значимы следующие двумерные взаимодействия: – {12}, взаимодействие между факторами стадия и лучевая терапия; – {14}, взаимодействие между факторами стадия и выжил; – {34}, взаимодействие между факторами метод хирургического лечения и выжил. Критерии маргинальных и частных связей (Логлинейный анализ) Эффект Число ст.своб. Част.св. хи-квад. Част.св. p Марг.св. хи-квад. Марг.св. p 1 2 3 4 12 13 14 23 24 34 123 124 134 234 3 49,528960,000000 49,52896 0,000000 1 29,652390,000000 29,65239 0,000000 1 64,477190,000000 64,47719 0,000000 1 76,325100,000000 76,32510 0,000000 3 16,731840,000802 19,37857 0,000228 3 10,520100,014625 4,24773 0,235927 3 39,135220,000000 35,44788 0,000000 1 0,04309 0,835559 0,24181 0,622905 1 0,17693 0,674025 2,96043 0,085325 1 63,031900,000000 56,89653 0,000000 3 1,20237 0,752435 1,14354 0,766575 3 0,49600 0,919770 0,51442 0,915712 3 4,05798 0,255271 4,07602 0,253371 1 0,06436 0,799739 0,15116 0,697428 Рис.9.3.27 Как уже было выше отмечено, значимость взаимодействия определяется путем сравнения модели, включающей взаимодействие некоторого порядка, с моделью без него.
  • 15. Например, для взаимодействия {14}, значимость определяется так: если мы исключаем это взаимодействие из модели, содержащей все двухфакторные взаимодействия, то разность в значениях статистики частные связи Хи-квадрат равна 39.14 с 3 степенями свободы. Эта величина значима на уровне p = 0,000, меньшем 0,05. Таким образом, это взаимодействие должно быть включено в модель. Так, для модели, содержащей все двухфакторные взаимодействия {12, 13, 14, 23, 24, 34} критерий Хи-квадрат равен 6,87 при числе степеней свободы сс = 13; для модели {12, 13, 23, 24, 34} согласие модели значительно ухудшилось, так критерий Хи-квадрат уже равен 46,01 при сс = 16. Разность критериев составит 46,01 – 6,87 = 39,14 при числе степеней свободы сс = 16 – 13 = 3. Как определяется значимость Хи-квадрат при помощи вероятностного калькулятора, будет показано ниже. Далее с учетов всех значимых двухфакторных взаимодействий следует задать модель логлинейного анализа. При задании переменных в стартовом диалоге (рис.9.3.18), никак не учитывается, какие переменные являются независимыми, а какая – откликом, поэтому необходимо это учесть при задании модели. Так как независимыми переменными – предикторами являются факторы: стадия заболевания, лучевая терапия и метод хирургического лечения, а откликом – выживаемость, то естественно в модели должны быть указаны все значимые двумерные взаимодействия отклика Выжил с независимыми факторами Стадия I-IV, ТМЭ/СВПК. Это взаимодействия {14, 34}. Но так как нас интересуют взаимодействия между всеми объясняющими факторами, то необходимо в модель включить также и взаимодействие {123}. Для задания модели следует в диалоге Задание модели логлинейного анализа на рис.9.3.19 перейти на вкладку Быстрый, или Дополнительно и нажать на кнопку Задать модель для тестирования (рис.9.3.28). В появившемся окне надо указать взаимодействия в соответствии с рис.9.3.29 и щелкнуть по ОК. Откроется окно Результаты: Логлинейный анализ (рис.9.3.30). Рис.9.3.28
  • 16. Рис.9.3.29 В информационной части окна указана тестируемая модель, параметры построения модели (дельта, максимальное число предусмотренный итераций, критерий сходимости итерационного процесса). Как видно из этой части окна, программе потребовалось всего 7 итераций для получения решения, удовлетворяющего критерию сходимости 0,01, значение Хи-квадрат максимума правдоподобия равно 5,91 при числе степеней свободы сс = 11 и уровне значимости р = 0,88; значение Хи-квадрат Пирсона равно 6,16 при числе степеней свободы сс = 11 и уровне значимости р = 0,86. Малые значения критериев Хи- квадрат и близкие к 1 уровни значимости р говорят о том, что, построена достаточно хорошо согласующаяся с исходными данными логлинейная модель взаимодействия объясняющих факторов и отклика. Рис.9.3.30 Естественно одним из показателей качества (согласованности с исходными данными) построенной модели является расхождение между наблюдаемыми и подогнанными частотами. Если нажать на кнопку Наблюдаемые и подогнанные частоты на вкладке Дополнительно, то появится график, иллюстрирующий степень расхождения в таблице
  • 17. между подогнанными и наблюдаемыми частотами. Из графика на рис.9.3.31 видно, что расхождения минимальные, так как точки на плоскости, обозначающие наблюдаемые (по оси OY) и подогнанные (по оси ОХ) частоты расположены практически на прямой линии. Наблюдаемые и подогнанные частоты -10 0 10 20 30 40 50 60 Подогнанные частот -10 0 10 20 30 40 50 60 70 Наблюдаемыечастоты Рис.9.3.31 Для правильной интерпретации результатов анализа следует сначала проверить статистическую значимость взаимодействий {14, 34}, включенных в модель, статистическую значимость взаимодействия {12}, не включенного в модель и статистическую значимость трехфакторного взаимодействия {123}. Для этого, как было отмечено выше, надо сравнить значения статистики Хи-квадрат для модели с включенным взаимодействием и для модели без этого взаимодействия. Проверим статистическую значимость взаимодействия {14}, задав модель, как это показано на рис.9.3.32. Рис.9.3.32 Как показывает информационная часть окна на рис.9.3.33, согласованность модели значительно ухудшилась, так как существенно возросли значения обоих критериев Хи- квадрат: со значения 5,91 до 47,61 для первого критерия, и со значения 6,16 до 50,94 для второго критерия.
  • 18. Рис.9.3.33 Для оценки статистической значимости ухудшения модели найдем разности между значениями критериев Хи-квадрат и числом степеней свободы для обеих моделей. Значение разности статистик Хи-квадрат равно 47,61 – 5,91 = 41,7 с числом степеней свободы 14 – 11 = 3. При помощи вероятностного калькулятора оценим уровень значимости критерия. В меню Анализ выберем процедуру Вероятностный калькулятор, в выпадающем меню – команду Распределения (рис.9.3.34).
  • 19. Рис.9.3.34 Установим опции в окне вероятностного калькулятора так, как это показано на рис.9.3.35 и нажмем на кнопку Вычислить. Рис.9.3.35 В поле р появится вычисленное значения уровня значимости р = 0,000, которое значительно меньше, чем 0,05. Поэтому, справедливым будет вывод, что взаимодействие 14 статистически значимо в построенной логлинейной модели. Это значит, что фактор стадия заболевания статистически значимо влияет на выживаемость больных.
  • 20. Проверим статистическую значимость взаимодействия 34, задав модель, как это показано на рис.9.3.36. Рис.9.3.36 Как показывает информационная часть окна на рис.9.3.37, модель ухудшилась еще в большей степени, чем предыдущая, так как существенно возросли значения обоих критериев Хи-квадрат: со значения 5,91 до 69,07 для первого критерия, и со значения 6,16 до 72,53 для второго критерия. Рис.9.3.37 Для оценки статистической значимости ухудшения модели найдем разность между значениями критериев Хи-квадрат и числом степеней свободы для обеих моделей. Значение разности статистик Хи-квадрат равно 69,07 – 5,91 = 63,16 с числом степеней свободы 12 – 11 = 1. При помощи вероятностного калькулятора оценим уровень значимости критерия (рис.9.3.38).
  • 21. Рис.9.3.38 Установим опции в окне вероятностного калькулятора так, как это показано на рис.9.3.38 и нажмем на кнопку Вычислить. В поле р появится вычисленное значения уровня значимости р = 0,000, которое значительно меньше, чем 0,05. Поэтому, справедливым будет вывод, что взаимодействие 34 также статистически значимо в построенной логлинейной модели. Это значит, что фактор метод хирургического о лечения статистически значимо влияет на выживаемость больных. Но это влияние еще более сильное, чем в предыдущем случае для фактора стадия. Можно аналогично оценить значимость связи {24} между лучевой терапией и выживаемостью, отсутствующей в настоящей модели, так как уровни значимости обоих критериев Хи-квадрат были больше, чем 0,05 (рис.9.3.27). Добавим ее в модель (рис.9.3.39) и оценим значимость улучшения в согласованности модели с данными по результатам логлинейного анализа на рис.9.3.40. Рис.9.3.39
  • 22. Рис.9.3.40 Как видно из информационной части окна связь {24} не увеличивает значимо согласие модели с наблюдаемой таблицей частот. Статистики Хи-квадрат и уровни значимости р изменились незначительно по сравнению с соответствующим значениями для модели {14, 34, 123} (рис.9.3.30), а число степеней свободы уменьшилось с 11 до 10. Таки образом, лучевая терапия не имеет статистически значимого влияния на выживаемость больных. Осталось проверить статистическую значимость взаимодействия {123}. Если исключить его из модели {14, 34, 123}, то значение критерия Хи-квадрат изменится с 5, 91 до 66,75, число степеней свободы (сс) возрастет с 11 до 22. Разности значений критерия Хи-квадрат и чисел степеней свободы составят соответственно 66,75 – 5,91 = 60,81 и 22 – 11 = 11. При помощи вероятностного калькулятора легко определить уровень значимости разности Хи-квадрат = 60,81 для сс =11, который составит 0,00…. Следовательно, трехфакторное взаимодействие {123} статистически значимо в построенной логлинейной модели. Таким образом, проведенный анализ позволил построить хорошо согласующуюся с исходными данными модель и выявил два значимых двухфакторных взаимодействия предикторов и отклика и одно значимое трехфакторное взаимодействие объясняющих факторов (предикторов): – взаимодействие между предиктором Стадия I-IV (фактор 1) и откликом Выжил (фактор 4); – взаимодействие между предиктором ТМЭ/СВП (фактор 3) и откликом Выжил (фактор 4); – взаимодействие между объясняющими факторами Стадия I-IV, ТМЭ/СВП и Лучевое ПрО. Другими словами, статистически обоснованно влияние стадии заболевания и метода хирургического лечения на выживаемость больных и отсутствие влияния лучевой терапии
  • 23. на выживаемость. Причем метод хирургического лечения в большей степени влияет на выживаемость, чем стадия заболевания. Для интерпретации результатов многомерного взаимодействия факторов следует исследовать подогнанные и маргинальные таблицы. Вернемся к модели {11, 34, 123} на рис.9.3.30 и нажмем на кнопку Маргинальные таблицы. По таблице на рис.9.3.41 можно посчитать, что отношение выживших больных к умершим больным на стадии 1 примерно 7 к 1, т.е. на 1 умершего больного приходится примерно 7 выживших! На стадии 2 отношение изменилось, и равно примерно 5 к 2, т.е. на 2 умерших приходится примерно 5 выживших больных. На стадии 3 отношение примерно такое же. На стадии 4 ситуация резко меняется, число умерших преобладает над числом выживших и отношение примерно равно 10 к 8, т.е. на 8 выживших приходится 10 умерших больных. Эти соотношения справедливы с учетом взаимодействия значимых объясняющих факторов! Марг.Табл.(част+дельта): Стадии I-IV по Выжил (Логлинейный анализ) Выжил Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма да нет Сумма 75,00000 119,0000 80,0000 29,00000 303,0000 11,00000 47,0000 29,0000 38,00000 125,0000 86,00000 166,0000 109,0000 67,00000 428,0000 Рис.9.3.41 По таблице на рис.9.3.42 можно посчитать, что отношение выживших больных к умершим больным, если применялась техника хирургического лечения СВПК, примерно 6 к 7, т.е. на 6 выживших больных приходится примерно 7 умерших больных! Отношение выживших больных к умершим больным, если применялась техника ТМЭ примерно 5 к 1, т.е. на 5 выживших больных приходится примерно 1 умерший больной! Обратите внимание, что частоты в маргинальных таблицах несколько отличаются от соответствующих двухвходовых таблиц на рис.9.3.10 и рис.14. Марг.Табл.(част+дельта): ТМЭ/СВПК по Выжил (Логлинейный анализ) Выжил ТМЭ/СВПК СВПК ТМЭ/СВПК ТМЭ Сумма да нет Сумма 60,0000 243,0000 303,0000 72,0000 53,0000 125,0000 132,0000 296,0000 428,0000 Рис.9.3.42 В таблицах на рис.9.3.43 – 9.3.44 приведены маргинальные таблицы частот для анализа характера взаимодействия между объясняющими факторами. В таблице на рис.9.3.43 представлена таблица частот для исследования характера взаимодействий между факторами лучевая терапия и стадия заболевания при предположении, что применен метод хирургического лечения СВПК. Марг.Табл.(част+дельта): Стадии I-IV по Лучевое ПрО в перем.: (Логлинейный ТМЭ/СВПК:СВПК Лучевое ПрО Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма нет да Сумма 7,00000 22,00000 8,00000 14,00000 51,0000 18,00000 38,00000 19,00000 6,00000 81,0000 25,00000 60,00000 27,00000 20,00000 132,0000 Рис.9.3.43
  • 24. В таблице на рис.9.3.44 представлена таблица частот для исследования характера взаимодействий между теми же факторами при предположении, что применен метод хирургического лечения ТМЭ. Марг.Т абл.(част+дельта): Стадии I-IV по Лучевое ПрО в перем.: (Логлинейный ТМЭ/СВПК:ТМЭ Лучевое ПрО Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма нет да Сумма 18,00000 39,0000 24,00000 26,00000107,0000 43,00000 67,0000 58,00000 21,00000189,0000 61,00000 106,0000 82,00000 47,00000296,0000 Рис.9.3.44 Анализ представленных таблиц показывает, что способ хирургического лечения не оказывает влияние на характер взаимосвязи лучевой терапии и стадии заболевания, так как отношения частот применения лучевой терапии при определенных стадиях заболевания для двух уровней переменной ТМЭ/СВПК примерно одинаковы и равны 0,38; 0,58; 0,42; 2,33 для СВПК и 0,41; 0,58; 0,41; 1,23 для ТМЭ. Сделанный вывод согласуется с результатами анализа значимости взаимодействий по критериям маргинальных и частных связей, представленных на рис.9.3.27. Уровни значимости обоих критериев Хи-квадрат примерно равны 0,75 (значительно больше, чем 0,05), а сами значения критериев малы и близки к 1, а это и означает, что взаимодействие объясняющих переменных статистически не значимо. Если в диалоге Результаты анализа на рис.9.3.30 нажать на кнопку Подогнанная таблица, то программа построит различные вариации таблиц частот в соответствии с тем, какие факторы пользователь укажет для обозначения строки и столбца таблицы. В таблицах будут приведены частоты вычисленные программой в соответствии с построенной логлинейной моделью. Если выбрать факторы в соответствии с рис.9.3.45, то будут построены таблицы, приведенные на рис.9.3.46 – 49. Если сравнить частоты в этих таблицах с частотами на рис.9.3.21 – 24, то можно убедиться в минимальном расхождении частот в соответствующих ячейках таблиц. Рис.9.3.45 Подогн.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:нет Выжил:да ТМЭ/СВПК Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма СВПК ТМЭ Сумма 4,90873 10,26685 3,39102 2,11821 20,6848 16,95769 33,47985 20,06532 14,37031 84,8732 21,86642 43,74671 23,45634 16,48853 105,5580 Рис.9.3.46
  • 25. Подогн.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:да Выжил:да ТМЭ/СВПК Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма СВПК ТМЭ Сумма 12,62245 17,73366 8,05368 0,90781 39,3176 40,51003 57,51667 48,49118 11,60679 158,1247 53,13248 75,25032 56,54486 12,51460 197,4423 Рис.9.3.47 Подогн.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:нет Выжил:нет ТМЭ/СВПК Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма СВПК ТМЭ Сумма 2,091271 11,73315 4,608977 11,88179 30,31518 1,042312 5,52015 3,934684 11,62969 22,12683 3,133583 17,25329 8,543661 23,51147 52,44201 Рис.9.3.48 Подогн.част.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:да Выжил:нет ТМЭ/СВПК Стадии I-IV 1 Стадии I-IV 2 Стадии I-IV 3 Стадии I-IV 4 Сумма СВПК ТМЭ Сумма 5,377553 20,26634 10,94632 5,09219 41,68241 2,489967 9,48333 9,50882 9,39321 30,87533 7,867520 29,74967 20,45514 14,48540 72,55774 Рис.9.3.49 Дополнительным показателем согласованности построенной логлинейной модели с исходными данными является графическое изображение взаимосвязи подогнанных частот и остатков между наблюдаемыми и подогнанными частотами. Если нажать на кнопку Подогнанные частоты и остатки, то появится график, изображенный на рис.9.3.50. Подогнанные частоты и остатки Лучевое ПрО:да Выжил:нет -10 0 10 20 30 40 50 60 Подогнанные частот -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Остаточныечастоты Рис.9.3.50
  • 26. Из графика видно, что точки, обозначающие остаточные частоты (по оси OY) и подогнанные частоты (по оси ОХ) рассеяны практически равномерно на плоскости. Прямая, изображающая линию регрессии между остаточными и подогнанными частотами, почти параллельна оси ОХ и проходит вблизи 0. Отмеченные свойства графика характеризуют остаточные частоты как случайные величины со средним значением, равным 0, что свидетельствует о хорошей подгонке модели. Альтернативным способом построения логлинейной модели является автоматический выбор модели. Для этого надо в диалоге Задание модели логлинейного анализа на вкладке Быстрый, или Дополнительно нажать на кнопку Автоматический выбор лучшей модели (рис.9.3.28). В появившемся окне (рис.9.3.51) надо щелкнуть по ОК, откроется окно Автоматический выбор наилучшей модели (рис.9.3.52). Рис.9.3.51 Рис.9.3.52 В информационной части окна указаны начальная модель, состоящая из всех двухфакторных взаимодействий 21, 31, 32, 41, 42, 43 и лучшая модель – 21, 31, 43, 41. Если нажать на кнопку Продолжить поиск лучшей модели, то появится уже знакомое нам окно (рис.53), в котором в соответствии с выбором переменной отклика и объясняющих переменных следует указать компоненты модели.
  • 27. Рис.9.3.53 Как итог проведенных исследований, справедливо заключение, что главными, статистически значимыми факторами, связанными с выживанием пациентов являются метод хирургического лечения и стадия заболевания, а лучевая терапия не является фактором, существенно влияющим на выживаемость. Причем метод хирургического лечения в своем влиянии на выживаемость доминирует над стадией заболевания. Взаимодействие между собою перечисленных факторов в их влиянии на выживаемость также является статистически значимым.