임상연구에 필요한 통계 분석 (2)- 범주형 자료에 대한 분석 -순천향대 중앙의료원 의학통계상담실이 지 성totoro96@schmc.ac.kr Categorical data: 그 변수가 가질 수 있는 값이 명목형(no...
 동질성 검정(Homogeneity test) 표본 수가 한 변수의 각 수준에 대해 미리 정해지는 경우 이 때 보고자 하는 것은 다른 변수에 대한 위 변수의 각 수준별 반응 분포가 동일한가?(예) 각 병원별 외과수...
 A 22 Contingency table : a table composed of two rows cross-classified by two columns 예: 예방접종여부와 인플루엔자 감염여부는 서로 독립적인가...
7SPSS: Chi‐Square Test8행에는 ‘예방접종’을, 열에는 ‘인플루엔자’를 선택한다.통계량 버튼을 눌러서 카이제곱을 선택하고, 셀 버튼을 눌러서 퍼센트들을 선택한다.
9관찰빈도(observed frequency)=80‐ 예방접종의 % = 36.4% = 80/220‐ 인플루엔자의 % = 80.0% = 80/100‐ 전체 % = 17.4% = 80/460를 각각 의미함P‐value p‐...
 Data concerning the possible association between high fat diet and the risk of coronary heart disease 기대빈도 E11=13(8)/23...
13Chi-square testFisher’s exact test† P‐value by Fisher’s exact testCHD=Yes CHD=NoDietHighLown (%) n (%) P‐value†112(73.3)...
15Ex) 460명 대상, 예방접종 여부(아니오/예), 인플루엔자(걸림/안 걸림)예방접종인플루엔자Total걸림 안 걸림맞지 않음 80 140 220맞음 20 220 240Total 100 360 460 예방접종여부와 ...
전향적 연구의 경우17 위험요인에 노출된 집단이 질병에 걸릴 Risk, R1=a/(a+b) 위험요인에 비노출된 집단이 질병에 걸릴 Risk, R2=c/(c+d) 비노출집단에 대한 노출집단이 질병에 걸릴 risk r...
단면연구(cross‐sectional study)인 경우19 단면연구에서는 노출여부와 질병여부간의 인과관계를 파악할 수 없음. 따라서 relative risk measure의 측정은 의미가 없다. 이 경우에는 질병...
앞 예제의 분석결과에 대한 해석21 ‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가걸릴 OR 및 해당 CI ‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가...
SPSS : McNemar’s test2324P-valueH0: Case군의 양성률과 Control군의 양성률은 같다.H1: Case군의 양성률과 Control군의 양성률은 다르다.P-value=<.001 < =0.0...
 일치성 척도 (Agreement measurement) 두 관찰자 간의 측정 범주값에 대한 일치성 정도를 측정하는 방법 두 관찰자의 평가가 우연히 일치할 가능성을 보정한 두 관찰자간의 일치도5. Cohen’s K...
 두 산부인과 의사가 140명의 환자를 transvaginal ultrasonography를시행하여 난소암의 여부와 정도를 진단하였다. 두 의사의 난소암 판정정도는 일치하는가? Kappa 계수(Kappa coeff...
29 Kappa=0.592 Moderate agreementSPSS output30
예) Contingency Table Blood Pressure Data In the form of 2×k contingency table, the rows have a distinct order(i.e.,time p...
33 Chi-Square Test for Trend(선형 대 선형결합): p-value = 0.018  There is asignificant linear trend among the ordered categorie...
 4개의 병원으로부터 호흡기 곤란 환자들을 기존 치료제와 새로운 치료제에 랜덤하게 할당한 후 호전의 유무를 조사한 자료임. 치료제에따라 호전도의 차이가 있는가이며, 병원의 효과를 제어하고 싶다7. Cochran‐Man...
SPSS: Cochran‐Mantel‐Haenzel Test37분석을 시작하기 전에 count를“가중설정”을 해 주어야 한다.38
39The significant p-value (=0.041)  병원을 통제한결과, 치료제에 따라 호전여부는 다르다는 것은 통계적으로 유의하다.40The Breslow-Day test : a method for the...
41Thank you for your attention
Upcoming SlideShare
Loading in...5
×

임상연구에 필요한 통계 분석

1,401

Published on

순천향대 중앙의료원 의학통계상담실
이 지 성

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,401
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
32
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

임상연구에 필요한 통계 분석

  1. 1. 임상연구에 필요한 통계 분석 (2)- 범주형 자료에 대한 분석 -순천향대 중앙의료원 의학통계상담실이 지 성totoro96@schmc.ac.kr Categorical data: 그 변수가 가질 수 있는 값이 명목형(nomial) 척도또는 순위형(ordinal) 척도인 경우 명목형 척도: 혈액형(A, B, AB, O), 성별(남, 여)처럼 그 값들이 서로 다르다는 것을 표현함. 순위형 척도: 상, 중, 하 또는 mild, moderate, severe 와 같은 증상이나 상태의 심한 정도를 상대적으로 나타냄. 이러한 변수들이 갖는 각 값들을 범주(category)라고 함. 이들의 분포를 표현할 때에는, 각 범주에 속하는 상대적인 빈도(relativefrequency) 즉, 비율(proportion 혹은 rate)을 사용 분석방법: Chi-square test, Fisher’s exact test, McNemar’s Test, Kappastatistic, Linear trend test, Cochran-Mantel-Haenzel Test 등Introduction2
  2. 2.  동질성 검정(Homogeneity test) 표본 수가 한 변수의 각 수준에 대해 미리 정해지는 경우 이 때 보고자 하는 것은 다른 변수에 대한 위 변수의 각 수준별 반응 분포가 동일한가?(예) 각 병원별 외과수술환자들의 사망률은 모두 동일한가?두 범주형 변수들간 연관성 검정3병원외과수술 결과Total사망 생존A 130 1970 2100B 90 710 800C 120 1380 1500 독립성 검정(Independence test) 전체 표본수가 정해지는 경우 이때 보고자 하는 것은 두 변수가 서로 관련이 없는가(즉, 서로 독립인가?)(예) 교육수준과 소득수준은 서로 관련이 없는가, 즉, 서로 독립인가?동질성 검정이든 독립성 검정이든 상관없이 모두 카이제곱 검정이라는 것을사용함.귀무가설: 두 범주형 변수간에 관련성이 없다(즉, 두 변수는 서로 독립이다).두 범주형 변수들간 연관성 검정4교육수준소득수준상 중 하대졸 255 105 81고졸 110 92 66중졸 90 113 88
  3. 3.  A 22 Contingency table : a table composed of two rows cross-classified by two columns 예: 예방접종여부와 인플루엔자 감염여부는 서로 독립적인가 아니면 서로 관련이 있는가? 만일 관련이 있다면, 예방접종을 받지 않으면 인플루엔자에 걸릴 위험이 증가하는가? 그렇다면 그 위험의 크기는 얼마나 되는가? Pearson’s chi-square statistic 위의 검정통계량은 모든 칸에 대해서 기대빈도(mij)가 모두 5이상이어야 타당함. 각 칸의 관찰빈도(O)와 이에 해당하는 기대빈도 간의 차이가 크면 클수록 두 집단의 비율은 다르다는 것을 의미.1. Chi‐Square Test5예방접종(exposure)인플루엔자TotalCase(=걸림) Control(안 걸림)맞지 않음 n11 n12 n1+맞음 n21 n22 n2+Total n+1 n+2 n   nnnEwhereEEnEEOjiiji j ijijiji j    2121212212122~ 6H0: 예방접종 유무와 인플루엔자에 걸리게 될 사건은 독립이다.H1: 두 사건은 서로 관련이 있다.(귀무가설이 사실이라는 가정하에서) 기대빈도 계산카이제곱 검정통계량기각역: Reject H0 if χ2 > 3.84 (p-value=<.001)결론: p-value = <.001 <  = 0.05  reject H0 두 사건은 독립이 아니다.예방접종(exposure)인플루엔자TotalCase(=걸림) Control(안 걸림)맞지 않음 80 140 220맞음 20 220 240Total 100 360 460예방접종(exposure)인플루엔자TotalCase(=걸림) Control(안 걸림)맞지 않음 100×220/460=47.83 360×220/460=172.17 220맞음 100×240/460=52.17 360×240/460=187.83 240Total 100 360 4602122222~01.5383.187)83.187220(17.52)17.5220(17.172)17.172140(83.47)83.4780( 
  4. 4. 7SPSS: Chi‐Square Test8행에는 ‘예방접종’을, 열에는 ‘인플루엔자’를 선택한다.통계량 버튼을 눌러서 카이제곱을 선택하고, 셀 버튼을 눌러서 퍼센트들을 선택한다.
  5. 5. 9관찰빈도(observed frequency)=80‐ 예방접종의 % = 36.4% = 80/220‐ 인플루엔자의 % = 80.0% = 80/100‐ 전체 % = 17.4% = 80/460를 각각 의미함P‐value p‐값(유의확률) <.001은 유의수준()으로 설정된 0.05보다작으므로, 따라서 귀무가설기각. 즉, 예방접종 여부와 인플루엔자 여부는 관련이 있다고 볼 수 있다.† P-value by Chi-square test인플루엔자 걸림 인플루엔자 안 걸림예방접종맞지않음맞음n (%) n (%) P‐value†8020(36.4)(8.3)140220(63.6)(91.7)<.001 카이제곱검정의 타당성 2×2 분할표의 경우 (n은 Total number of observation) n > 40 또는 20 < n < 40이면서, 각 칸의 기대빈도(expected frequency)가 모두 5 이상일 때 r×c 분할표의 경우: 기대빈도가 5이하인 칸이 전체 칸의 20%이하이고, 1보다 작은 기대빈도를 가지는 칸이 없을 때 자료가 위의 타당성 조건을 만족시키지 못할 때: 해당 행이나 열을 합하여 위의 조건들을 만족시키도록 함. 다음과 같은 경우에는 Fisher의 정확검정(Fisher’s exact test)을 사용함. n < 20 또는 20 < n < 40이면서, 각 칸의 기대빈도 중 제일 작은 것이 5 이하일 때카이제곱 검정의 타당성10
  6. 6.  Data concerning the possible association between high fat diet and the risk of coronary heart disease 기대빈도 E11=13(8)/23=4.52,  E21=10(8)/23=3.48 Two of the four cells have expected values less than 5. 즉, Data가 small 또는zero cell count를 포함하고 있는 경우, 카이제곱 검정은 타당하지 않음. Fisher의 정확검정(Fisher’s exact test)을 사용2. Fisher’s Exact Test11ExposureHeart DiseaseTotalYes NoHigh Cholesterol Diet 11 4 15Low Cholesterol Diet 2 6 8Total 13 10 23SPSS : Fisher’s exact test12자료: FatComp.sav
  7. 7. 13Chi-square testFisher’s exact test† P‐value by Fisher’s exact testCHD=Yes CHD=NoDietHighLown (%) n (%) P‐value†112(73.3)(25.0)46(26.7)(75.0)0.039 카이제곱검정 결과 유의한 차이가 있는 것으로 나타났으면 그 연관성의 강도(the strength of an association)을 평가할 필요가 있음. Cohort study(prospective)의 경우, RR을 incidence rate(발생율)에 대한 relative risk measure로 사용 Case-control study(retrospective)의 경우, Interest outcome이 Rare disease인 경우에는 OR을 relative risk measure로 사용 Common disease인 경우에는 relative risk measure의 계산이 불가능함.이 경우 OR은 단지 measure of association으로 사용할 수 있을 뿐임. 노출여부와 질병여부 간 연관성 측정3. The strength of an association14ExposureDiseaseTotalYes NoYes a b a+bno c d c+dTotal a+c b+d n
  8. 8. 15Ex) 460명 대상, 예방접종 여부(아니오/예), 인플루엔자(걸림/안 걸림)예방접종인플루엔자Total걸림 안 걸림맞지 않음 80 140 220맞음 20 220 240Total 100 360 460 예방접종여부와 인플루엔자 감염여부는 서로 독립적인가 아니면 서로 관련이 있는가? 만일 관련이 있다면, 예방접종을 받지 않으면 인플루엔자에 걸릴 위험이 증가하는가? 그렇다면, 그 위험의 크기는 얼마나 되는가? 카이제곱검정 결과 p-value<.001  reject H0 결과적으로 예방접종을 받지 않은 사람이 예방접종을 받은 사람에 비해 더 자주 인플루엔자에 걸리게 된다고 말할 수 있다 (36.4% vs. 8.3%) 어느 정도나 더 자주 걸리게 되는가?(즉, 몇 배나 더 위험한가?)Odds Ratio(OR) vs. Risk Ratio (RR)16- Case-control study: OR=(80/140)/(20/220) = 6.286예방접종을 받지 않은 사람이 인플루엔자에 걸릴 odds는 예방접종을 받은 사람이 인플루엔자에 걸릴 odds의 6.286배이다.- Cohort study: RR=(80/220)/(20/240)=4.364 예방접종을 받지 않은 사람이 인플루엔자에 걸릴 risk는 예방접종을 받은 사람이 인플루엔자에 걸릴 risk의 4.364배이다.
  9. 9. 전향적 연구의 경우17 위험요인에 노출된 집단이 질병에 걸릴 Risk, R1=a/(a+b) 위험요인에 비노출된 집단이 질병에 걸릴 Risk, R2=c/(c+d) 비노출집단에 대한 노출집단이 질병에 걸릴 risk ratio, RR=R1/R2=a (c+d)/c(a+b) 노출집단이 질병에 걸릴 risk는 비노출집단이 질병에 걸릴 risk의 ‘RR’배이다.ExposureDiseaseTotalYes NoYes a b a+bno c d c+dTotal a+c b+d n질병의 발생률(incidence rate) 파악이가능한 연구설계후향적 연구의 경우18 질병에 걸린 집단이 위험에 노출될 odds, oddsD=a/c 정상인 집단이 위험에 노출될 odds, oddsND=b/d 정상집단에 대한 질병집단의 위험요인 노출 odds ratio, OR=oddsD/oddsND=ad/bc 질병집단이 위험요인에 노출된 odds는 정상집단이 위험요인에 노출된 odds의 ‘OR’배이다. 노출중심으로 해석해보면,• 위험요인에 노출된 집단이 질병에 걸릴 odds, oddsE=a/b• 위험요인에 비노출된 집단이 질병에 걸릴 odds, oddsNE=c/d• 비노출 집단에 대한 노출 집단의 질병에 걸릴 odds ratio, OR=oddsE/oddsNE=ad/bc 결국 OR은 같게 된다. 따라서 질병여부에 따라 설계된 연구이지만 해석은, odds의 개념을 이용해서, “노출집단이 질병에 걸릴 odds는 비노출집단이 질병에 걸릴 odds의 ‘OR’배이다”라고 해석ExposureDiseaseTotalYes NoYes a b a+bno c d c+dTotal a+c b+d n
  10. 10. 단면연구(cross‐sectional study)인 경우19 단면연구에서는 노출여부와 질병여부간의 인과관계를 파악할 수 없음. 따라서 relative risk measure의 측정은 의미가 없다. 이 경우에는 질병의 발생률(incidence)가 아닌 유병률(prevalence)만이 파악될 수 있다.즉, 유병률 비(prevalence ratio:PR)를 계산한다. 위험비(RR)을 계산한 뒤, 이 값을 PR 값으로 해석한다. 즉, ‘몇 배가 더 위험함’이 아닌 ‘몇 배 더 유병하고 있음’으로 해석한다.ExposureDiseaseTotalYes NoYes a b a+bno c d c+dTotal a+c b+d n전체 인원 수 n명을 대상으로 노출여부 및 질병여부를 파악한 연구설계SPSS : 위험도분석20자료: 인플루엔자-coding1.sav
  11. 11. 앞 예제의 분석결과에 대한 해석21 ‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가걸릴 OR 및 해당 CI ‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가걸릴 RR 및 해당 CI ‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가걸리지 않을 RR 및 해당 CI Matched case-control study 134 cases and 134 matched controls, for a total of 268 subjects. Concordant pair(=13 pairs, 92 pairs) No information about the association between risk factor and disease McNemar’ test uses only the number of discordant pairs.4. 맥니마 검정(McNemar’s Test)22CaseControlTotal+ -+ 13 4 38- 25 92 96Total 17 117 134    21222~79.1342514251 SRSR결론: p-value = <.001 < =0.05  There is an association between risk factor and disease.
  12. 12. SPSS : McNemar’s test2324P-valueH0: Case군의 양성률과 Control군의 양성률은 같다.H1: Case군의 양성률과 Control군의 양성률은 다르다.P-value=<.001 < =0.05  reject H0
  13. 13.  일치성 척도 (Agreement measurement) 두 관찰자 간의 측정 범주값에 대한 일치성 정도를 측정하는 방법 두 관찰자의 평가가 우연히 일치할 가능성을 보정한 두 관찰자간의 일치도5. Cohen’s Kappa25The Kappa Statistic의 이론적 배경26 Cohen(1968)의 kappa 계수 Kappa, K = po – pe / 1 – pe po : “observed” agreement proportion= (15 + 70)/100 = 0.85 pe : by chance alone (“expected” agreement proportion)= [(n1/n)×(m1/n)]+[(n0/n)×(m0/n)]= [(25/100)×(20/100)]+[(75/100)×(80/100)]= 0.05 + 0.6 = 0.65 Kappa = (po ‐ pe)/(1 ‐ pe) = (0.85 – 0.65)/(1 – 0.65) = 0.57 Moderate agreement
  14. 14.  두 산부인과 의사가 140명의 환자를 transvaginal ultrasonography를시행하여 난소암의 여부와 정도를 진단하였다. 두 의사의 난소암 판정정도는 일치하는가? Kappa 계수(Kappa coefficient)로 평가Example27Doctor ADoctor B negative + ++ 전이negative 32 3 2 0+ 5 10 11 0++ 0 4 42 0전이 0 1 15 15SPSS : Kappa 분석28자료: Kappa.sav분석을 시작하기 전에 count를“가중설정”을 해 주어야 한다.
  15. 15. 29 Kappa=0.592 Moderate agreementSPSS output30
  16. 16. 예) Contingency Table Blood Pressure Data In the form of 2×k contingency table, the rows have a distinct order(i.e.,time points, ages, or doses), this information is not used in the standardchi-square test. The rows are ordered, and you may wish to ask whether there is alinear trend. That is, whether the prevalence of hypertension changes linearly with class. Null hypothesis: There is no correlation between row (class) numberand the proportion of subjects who are hypertensive (in left row).6. Chi‐Square Test for Trend31ClassBlood PressureHigh Not HighⅠⅡⅢⅣ511121425191916SPSS : Trend Test32분석을 시작하기 전에 count를“가중설정”을 해 주어야 한다.
  17. 17. 33 Chi-Square Test for Trend(선형 대 선형결합): p-value = 0.018  There is asignificant linear trend among the ordered categories defining the rowsand the proportion of subjects in the left column. Chi-square test for trend uses more information and tests a narrower set ofalternative hypotheses than does the chi-square test for independence. Chi-Square Test : p-value = 0.091  The row and column variables are notsignificantly associated.SPSS output34
  18. 18.  4개의 병원으로부터 호흡기 곤란 환자들을 기존 치료제와 새로운 치료제에 랜덤하게 할당한 후 호전의 유무를 조사한 자료임. 치료제에따라 호전도의 차이가 있는가이며, 병원의 효과를 제어하고 싶다7. Cochran‐Mantel‐Haenzel Test35병원 치료제 호전 호전되지 않음A기존치료제새로운 치료제91156B기존치료제새로운 치료제7853C기존치료제새로운 치료제4765D기존치료제새로운 치료제1826114 독립된 K개의 그룹이 있을 때, 그룹의 효과를 제어한 반응률의 차이가있는지를 검정하는 방법 처리와 반응률의 자료가 독립된 여러 병원으로부터 얻어졌을 때, 병원을하나의 층(strata)로 보고 이를 제어한 처리와 반응사이의 연관성을 알아보는 경우 병원을 층(strata)으로 두고 두 처리간 반응률의 차이를 조사하는 것은 병원에 따라 처리 간 반응률이 달라질 수 있기 때문임. 병원이라는 층변수(stratification variable)를 제어하면서 전체적인 반응률의 차이를 조사하는 방법 따라서 K개의 층이 있고 처리 1에서의 반응율을 p1, 처리 2에서의 반응율을 p2라고 두 처리 간에 전체적인 반응률의 차이가 있는지를 검정하고 함.Cochran‐Mantel‐Haenzel (CMH) Test36
  19. 19. SPSS: Cochran‐Mantel‐Haenzel Test37분석을 시작하기 전에 count를“가중설정”을 해 주어야 한다.38
  20. 20. 39The significant p-value (=0.041)  병원을 통제한결과, 치료제에 따라 호전여부는 다르다는 것은 통계적으로 유의하다.40The Breslow-Day test : a method for the testingfor homogeneity of the odds ratio over multiplestrata Adjusted OR(=1.625) can be used.The common OR(Mantel-Haenszel OR) = 2.14795% CI: 1.019 – 4.520
  21. 21. 41Thank you for your attention

×