임상연구에 필요한 통계 분석

임상연구에 필요한 통계 분석 (2)
- 범주형 자료에 대한 분석 -
순천향대 중앙의료원 의학통계상담실
이 지 성
totoro96@schmc.ac.kr
 Categorical data: 그 변수가 가질 수 있는 값이 명목형(nomial) 척도
또는 순위형(ordinal) 척도인 경우
 명목형 척도: 혈액형(A, B, AB, O), 성별(남, 여)처럼 그 값들이 서로 다르
다는 것을 표현함.
 순위형 척도: 상, 중, 하 또는 mild, moderate, severe 와 같은 증상이나 상
태의 심한 정도를 상대적으로 나타냄.
 이러한 변수들이 갖는 각 값들을 범주(category)라고 함.
 이들의 분포를 표현할 때에는, 각 범주에 속하는 상대적인 빈도(relative
frequency) 즉, 비율(proportion 혹은 rate)을 사용
 분석방법: Chi-square test, Fisher’s exact test, McNemar’s Test, Kappa
statistic, Linear trend test, Cochran-Mantel-Haenzel Test 등
Introduction
2

 동질성 검정(Homogeneity test)
 표본 수가 한 변수의 각 수준에 대해 미리 정해지는 경우
 이 때 보고자 하는 것은 다른 변수에 대한 위 변수의 각 수준별 반응 분포
가 동일한가?
(예) 각 병원별 외과수술환자들의 사망률은 모두 동일한가?
두 범주형 변수들간 연관성 검정
3
병원
외과수술 결과
Total사망 생존
A 130 1970 2100
B 90 710 800
C 120 1380 1500
 독립성 검정(Independence test)
 전체 표본수가 정해지는 경우
 이때 보고자 하는 것은 두 변수가 서로 관련이 없는가(즉, 서로 독립인가?)
(예) 교육수준과 소득수준은 서로 관련이 없는가, 즉, 서로 독립인가?
동질성 검정이든 독립성 검정이든 상관없이 모두 카이제곱 검정이라는 것을
사용함.
귀무가설: 두 범주형 변수간에 관련성이 없다(즉, 두 변수는 서로 독립이다).
두 범주형 변수들간 연관성 검정
4
교육수준
소득수준
상 중 하
대졸 255 105 81
고졸 110 92 66
중졸 90 113 88

 A 22 Contingency table : a table composed of two rows cross-
classified by two columns
 예:
 예방접종여부와 인플루엔자 감염여부는 서로 독립적인가 아니면 서로 관련이 있는가?
 만일 관련이 있다면, 예방접종을 받지 않으면 인플루엔자에 걸릴 위험이 증가하는가?
 그렇다면 그 위험의 크기는 얼마나 되는가?
 Pearson’s chi-square statistic
 위의 검정통계량은 모든 칸에 대해서 기대빈도(mij)가 모두 5이상이어야 타당함.
 각 칸의 관찰빈도(O)와 이에 해당하는 기대빈도 간의 차이가 크면 클수록 두 집
단의 비율은 다르다는 것을 의미.
1. Chi‐Square Test
5
예방접종
(exposure)
인플루엔자
TotalCase(=걸림) Control(안 걸림)
맞지 않음 n11 n12 n1+
맞음 n21 n22 n2+
Total n+1 n+2 n
   
n
nn
Ewhere
E
En
E
EO
ji
ij
i j ij
ijij
i j

  





  2
1
2
1
2
1
22
1
2
1
2
2
~ 
6
H0: 예방접종 유무와 인플루엔자에 걸리게 될 사건은 독립이다.
H1: 두 사건은 서로 관련이 있다.
(귀무가설이 사실이라는 가정하에서) 기대빈도 계산
카이제곱 검정통계량
기각역: Reject H0 if χ2 > 3.84 (p-value=<.001)
결론: p-value = <.001 <  = 0.05  reject H0 두 사건은 독립이 아니다.
예방접종
(exposure)
인플루엔자
맞지 않음 80 140 220
맞음 20 220 240
Total 100 360 460
예방접종
(exposure)
인플루엔자
맞지 않음 100×220/460=47.83 360×220/460=172.17 220
맞음 100×240/460=52.17 360×240/460=187.83 240
Total 100 360 460
2
1
2222
2
~01.53
83.187
)83.187220(
17.52
)17.5220(
17.172
)17.172140(
83.47
)83.4780(
 









7
SPSS: Chi‐Square Test
8
행에는 ‘예방접종’을, 열에는 ‘인플루엔자’를 선택한다.
통계량 버튼을 눌러서 카이제곱을 선택하고, 셀 버튼을 눌러서 퍼센트들을 선택한다.

9
관찰빈도(observed frequency)=80
‐ 예방접종의 % = 36.4% = 80/220
‐ 인플루엔자의 % = 80.0% = 80/100
‐ 전체 % = 17.4% = 80/460를 각각 의미함
P‐value p‐값(유의확률) <.001은 유의
수준()으로 설정된 0.05보다
작으므로, 따라서 귀무가설
기각. 즉, 예방접종 여부와 인
플루엔자 여부는 관련이 있
다고 볼 수 있다.
† P-value by Chi-square test
인플루엔자 걸림 인플루엔자 안 걸림
예방접종
맞지않음
맞음
n (%) n (%) P‐value†
80
20
(36.4)
(8.3)
140
220
(63.6)
(91.7)
<.001
 카이제곱검정의 타당성
 2×2 분할표의 경우 (n은 Total number of observation)
 n > 40 또는
 20 < n < 40이면서, 각 칸의 기대빈도(expected frequency)가 모두 5 이
상일 때
 r×c 분할표의 경우:
 기대빈도가 5이하인 칸이 전체 칸의 20%이하이고, 1보다 작은 기대빈
도를 가지는 칸이 없을 때
 자료가 위의 타당성 조건을 만족시키지 못할 때:
 해당 행이나 열을 합하여 위의 조건들을 만족시키도록 함.
 다음과 같은 경우에는 Fisher의 정확검정(Fisher’s exact test)을 사용함.
 n < 20 또는
 20 < n < 40이면서, 각 칸의 기대빈도 중 제일 작은 것이 5 이하일 때
카이제곱 검정의 타당성
10

 Data concerning the possible association between high fat diet and the
risk of coronary heart disease
 기대빈도 E11=13(8)/23=4.52, E21=10(8)/23=3.48
 Two of the four cells have expected values less than 5. 즉, Data가 small 또는
zero cell count를 포함하고 있는 경우, 카이제곱 검정은 타당하지 않음.
 Fisher의 정확검정(Fisher’s exact test)을 사용
2. Fisher’s Exact Test
11
Exposure
Heart Disease
TotalYes No
High Cholesterol Diet 11 4 15
Low Cholesterol Diet 2 6 8
Total 13 10 23
SPSS : Fisher’s exact test
12
자료: FatComp.sav

13
Chi-square test
Fisher’s exact test
† P‐value by Fisher’s exact test
CHD=Yes CHD=No
Diet
High
Low
n (%) n (%) P‐value†
11
2
(73.3)
(25.0)
4
6
(26.7)
(75.0)
0.039
 카이제곱검정 결과 유의한 차이가 있는 것으로 나타났으면 그 연관성
의 강도(the strength of an association)을 평가할 필요가 있음.
 Cohort study(prospective)의 경우, RR을 incidence rate(발생율)에 대
한 relative risk measure로 사용
 Case-control study(retrospective)의 경우,
 Interest outcome이 Rare disease인 경우에는 OR을 relative risk measure
로 사용
 Common disease인 경우에는 relative risk measure의 계산이 불가능함.
이 경우 OR은 단지 measure of association으로 사용할 수 있을 뿐임.
 노출여부와 질병여부 간 연관성 측정
3. The strength of an association
14
Exposure
Disease
Total
Yes No
Yes a b a+b
no c d c+d
Total a+c b+d n

15
Ex) 460명 대상, 예방접종 여부(아니오/예), 인플루엔자(걸림/안 걸림)
예방접종
인플루엔자
Total
걸림 안 걸림
맞지 않음 80 140 220
맞음 20 220 240
Total 100 360 460
 예방접종여부와 인플루엔자 감염여부는 서
로 독립적인가 아니면 서로 관련이 있는가?
 만일 관련이 있다면, 예방접종을 받지 않으
면 인플루엔자에 걸릴 위험이 증가하는가?
 그렇다면, 그 위험의 크기는 얼마나 되는가?
 카이제곱검정 결과 p-value<.001  reject H0
 결과적으로 예방접종을 받지 않은 사람이 예방접종을 받은 사람에 비해 더 자주 인플
루엔자에 걸리게 된다고 말할 수 있다 (36.4% vs. 8.3%)
 어느 정도나 더 자주 걸리게 되는가?(즉, 몇 배나 더 위험한가?)
Odds Ratio(OR) vs. Risk Ratio (RR)
16
- Case-control study: OR=(80/140)/(20/220) = 6.286
예방접종을 받지 않은 사람이 인플루엔자에 걸릴 odds는 예방접종을 받은 사람이 인플
루엔자에 걸릴 odds의 6.286배이다.
- Cohort study: RR=(80/220)/(20/240)=4.364
 예방접종을 받지 않은 사람이 인플루엔자에 걸릴 risk는 예방접종을 받은 사람이 인플
루엔자에 걸릴 risk의 4.364배이다.

전향적 연구의 경우
17
 위험요인에 노출된 집단이 질병에 걸릴 Risk, R1=a/(a+b)
 위험요인에 비노출된 집단이 질병에 걸릴 Risk, R2=c/(c+d)
 비노출집단에 대한 노출집단이 질병에 걸릴 risk ratio, RR=R1/R2=a (c+d)/c(a+b)
 노출집단이 질병에 걸릴 risk는 비노출집단이 질병에 걸릴 risk의 ‘RR’배이다.
Exposure
Disease
Total
Yes No
Yes a b a+b
no c d c+d
Total a+c b+d n
질병의 발생률(incidence rate) 파악이
가능한 연구설계
후향적 연구의 경우
18
 질병에 걸린 집단이 위험에 노출될 odds, oddsD=a/c
 정상인 집단이 위험에 노출될 odds, oddsND=b/d
 정상집단에 대한 질병집단의 위험요인 노출 odds ratio, OR=oddsD/oddsND=ad/bc
 질병집단이 위험요인에 노출된 odds는 정상집단이 위험요인에 노출된 odds의 ‘OR’배
이다.
 노출중심으로 해석해보면,
• 위험요인에 노출된 집단이 질병에 걸릴 odds, oddsE=a/b
• 위험요인에 비노출된 집단이 질병에 걸릴 odds, oddsNE=c/d
• 비노출 집단에 대한 노출 집단의 질병에 걸릴 odds ratio, OR=oddsE/oddsNE=ad/bc
 결국 OR은 같게 된다. 따라서 질병여부에 따라 설계된 연구이지만 해석은, odds의 개념을 이
용해서, “노출집단이 질병에 걸릴 odds는 비노출집단이 질병에 걸릴 odds의 ‘OR’배이다”라
고 해석
Exposure
Disease
Total
Yes No
Yes a b a+b
no c d c+d
Total a+c b+d n

단면연구(cross‐sectional study)인 경우
19
 단면연구에서는 노출여부와 질병여부간의 인과관계를 파악할 수 없음.
 따라서 relative risk measure의 측정은 의미가 없다.
 이 경우에는 질병의 발생률(incidence)가 아닌 유병률(prevalence)만이 파악될 수 있다.
즉, 유병률 비(prevalence ratio:PR)를 계산한다.
 위험비(RR)을 계산한 뒤, 이 값을 PR 값으로 해석한다.
 즉, ‘몇 배가 더 위험함’이 아닌 ‘몇 배 더 유병하고 있음’으로 해석한다.
Exposure
Disease
Total
Yes No
Yes a b a+b
no c d c+d
Total a+c b+d n
전체 인원 수 n명을 대상으로 노출여
부 및 질병여부를 파악한 연구설계
SPSS : 위험도분석
20
자료: 인플루엔자-coding1.sav

앞 예제의 분석결과에 대한 해석
21
 ‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가
걸릴 OR 및 해당 CI
걸릴 RR 및 해당 CI
걸리지 않을 RR 및 해당 CI
 Matched case-control study
 134 cases and 134 matched controls, for a total of 268 subjects.
 Concordant pair(=13 pairs, 92 pairs)
 No information about the association between risk factor and disease
 McNemar’ test uses only the number of discordant pairs.
4. 맥니마 검정(McNemar’s Test)
22
Case
Control
Total+ -
+ 13 4 38
- 25 92 96
Total 17 117 134
    2
1
22
2
~79.13
425
14251
 






SR
SR
결론: p-value = <.001 < =0.05  There is an association between risk factor and disease.

SPSS : McNemar’s test
23
24
P-value
H0: Case군의 양성률과 Control군의 양성률은 같다.
H1: Case군의 양성률과 Control군의 양성률은 다르다.
P-value=<.001 < =0.05  reject H0

 일치성 척도 (Agreement measurement)
 두 관찰자 간의 측정 범주값에 대한 일치성 정도를 측정하는 방법
 두 관찰자의 평가가 우연히 일치할 가능성을 보정한 두 관찰자간의 일치도
5. Cohen’s Kappa
25
The Kappa Statistic의 이론적 배경
26
 Cohen(1968)의 kappa 계수
 Kappa, K = po – pe / 1 – pe
 po : “observed” agreement proportion
= (15 + 70)/100 = 0.85
 pe : by chance alone (“expected”
agreement proportion)
= [(n1/n)×(m1/n)]+[(n0/n)×(m0/n)]
= [(25/100)×(20/100)]+[(75/100)×(80/100)]
= 0.05 + 0.6 = 0.65
 Kappa = (po ‐ pe)/(1 ‐ pe)
= (0.85 – 0.65)/(1 – 0.65) = 0.57
 Moderate agreement

 두 산부인과 의사가 140명의 환자를 transvaginal ultrasonography를
시행하여 난소암의 여부와 정도를 진단하였다.
 두 의사의 난소암 판정정도는 일치하는가?
 Kappa 계수(Kappa coefficient)로 평가
Example
27
Doctor A
Doctor B negative + ++ 전이
negative 32 3 2 0
+ 5 10 11 0
++ 0 4 42 0
전이 0 1 15 15
SPSS : Kappa 분석
28
자료: Kappa.sav
분석을 시작하기 전에 count를
“가중설정”을 해 주어야 한다.

29
 Kappa=0.592
 Moderate agreement
SPSS output
30

예) Contingency Table Blood Pressure Data
 In the form of 2×k contingency table, the rows have a distinct order(i.e.,
time points, ages, or doses), this information is not used in the standard
chi-square test.
 The rows are ordered, and you may wish to ask whether there is a
linear trend.
 That is, whether the prevalence of hypertension changes linearly with class.
 Null hypothesis: There is no correlation between row (class) number
and the proportion of subjects who are hypertensive (in left row).
6. Chi‐Square Test for Trend
31
Class
Blood Pressure
High Not High
Ⅰ
Ⅱ
Ⅲ
Ⅳ
5
11
12
14
25
19
19
16
SPSS : Trend Test
32
분석을 시작하기 전에 count를“가중설
정”을 해 주어야 한다.

33
 Chi-Square Test for Trend(선형 대 선형결합): p-value = 0.018  There is a
significant linear trend among the ordered categories defining the rows
and the proportion of subjects in the left column.
 Chi-square test for trend uses more information and tests a narrower set of
alternative hypotheses than does the chi-square test for independence.
 Chi-Square Test : p-value = 0.091  The row and column variables are not
significantly associated.
SPSS output
34

 4개의 병원으로부터 호흡기 곤란 환자들을 기존 치료제와 새로운 치
료제에 랜덤하게 할당한 후 호전의 유무를 조사한 자료임. 치료제에
따라 호전도의 차이가 있는가이며, 병원의 효과를 제어하고 싶다
7. Cochran‐Mantel‐Haenzel Test
35
병원 치료제 호전 호전되지 않음
A
기존치료제
새로운 치료제
9
11
5
6
B
기존치료제
새로운 치료제
7
8
5
3
C
기존치료제
새로운 치료제
4
7
6
5
D
기존치료제
새로운 치료제
18
26
11
4
 독립된 K개의 그룹이 있을 때, 그룹의 효과를 제어한 반응률의 차이가
있는지를 검정하는 방법
 처리와 반응률의 자료가 독립된 여러 병원으로부터 얻어졌을 때, 병원을
하나의 층(strata)로 보고 이를 제어한 처리와 반응사이의 연관성을 알아
보는 경우
 병원을 층(strata)으로 두고 두 처리간 반응률의 차이를 조사하는 것은 병
원에 따라 처리 간 반응률이 달라질 수 있기 때문임.
 병원이라는 층변수(stratification variable)를 제어하면서 전체적인 반응
률의 차이를 조사하는 방법
 따라서 K개의 층이 있고 처리 1에서의 반응율을 p1, 처리 2에서의 반응율
을 p2라고 두 처리 간에 전체적인 반응률의 차이가 있는지를 검정하고 함.
Cochran‐Mantel‐Haenzel (CMH) Test
36

SPSS: Cochran‐Mantel‐Haenzel Test
37
분석을 시작하기 전에 count를
“가중설정”을 해 주어야 한다.
38

39
The significant p-value (=0.041)  병원을 통제한
결과, 치료제에 따라 호전여부는 다르다는 것은 통계
적으로 유의하다.
40
The Breslow-Day test : a method for the testing
for homogeneity of the odds ratio over multiple
strata Adjusted OR(=1.625) can be used.
The common OR(Mantel-Haenszel OR) = 2.147
95% CI: 1.019 – 4.520

41
Thank you for your attention

임상연구에 필요한 통계 분석

More Related Content

What's hot

Similar to 임상연구에 필요한 통계 분석

More from mothersafe

임상연구에 필요한 통계 분석