17. 분석 결과 - 의사결정나
무
17
"모름" 처리 안한 데이터 세트
Predictive Positive Predictive Negative
Actual Positive
78 47
Actual Negative
38 87
• 정확도: 0.66
• 민감도: 0.696
• 특이도: 0.624
18. 분석 결과 - 의사결정나
무
18
"모름" 처리 안한 데이터 세트
• AUC: 0.688
19. 분석 결과 - 의사결정나
무
19
"모름" 처리한 데이터 세트
Predictive Positive Predictive Negative
Actual Positive
73 52
Actual Negative
34 91
• 정확도: 0.656
• 민감도: 0.728
• 특이도: 0.584
20. 분석 결과 - 의사결정나
무
20
"모름" 처리한 데이터 세트
• AUC: 0.701
21. 분석 결과 – lasso 로지스틱 회귀
21
"모름" 처리 안 한 데이터 세트 – 전진 선택
변수명 변수 설명 VIF 변수명 변수 설명 VIF
DC1_ag 위암 진단시기 69886.6059 BS12_2
전자담배 현재사용
여부
166.622018
DI6_ag 협심증 진단시기 20954.4866 N_DIET_WHY 식이요법이유 134.239967
DI5_dg
심근경색증 진단시
기
11599.7099 BE3_78
여가_고강도 신체
활동 시간(분)
18.278229
LQ4_27
활동제한사유: 위
장장애
5505.76196 DI4_dg
심근경색증 또는
협싱증 의사진단
여부
12.608024
BS6_4
과거흡연자 금연기
간(월 환산)
5319.0983 LQ4_28
활동제한 사유: 무
릎, 다리통증
443.768858
전진 선택: 총 88개 변수 선택
다중공선성 값(VIF) >10 인 22개 변수 제외
22. 분석 결과 – lasso 로지스틱 회귀
22
"모름" 처리 안 한 데이터 세트 – 교차검증
• 가로축: lambda(벌점 모수)
• 세로축:AUC
23. 분석 결과 – lasso 로지스틱 회귀
23
"모름" 처리 안 한 데이터 세트 – lasso 모형 변수 선택
변수명 변수 설명 VIF 변수명 변수 설명 VIF
DC1_ag 위암 진단시기 69886.6059 BS12_2
전자담배 현재사용
여부
166.622018
DI6_ag 협심증 진단시기 20954.4866 N_DIET_WHY 식이요법이유 134.239967
DI5_dg
심근경색증 진단시
기
11599.7099 BE3_78
여가_고강도 신체
활동 시간(분)
18.278229
LQ4_27
활동제한사유: 위
장장애
5505.76196 DI4_dg
심근경색증 또는
협싱증 의사진단
여부
12.608024
BS6_4
과거흡연자 금연기
간(월 환산)
5319.0983 LQ4_28
활동제한 사유: 무
릎, 다리통증
443.768858
BO3_10
체중조절방법: 기
타
1407.95305 GS_mea_l_3 3차 악력측정_왼손 10.813536
DC3_pr
대장암 현재 유병
여부
904.271643 BO3_12
체중조절방법: 한
약복용
597.05465
BS5_34
금연방법: 병의원
을 통해 니코틴 대
체용품 구입
680.300712 BO3_01
체중조절방법: 운
동
83.160302
24. 분석 결과 – lasso 로지스틱 회귀
24
"모름" 처리 안 한 데이터 세트 – lasso 모형 평가
25. 분석 결과 – lasso 로지스틱 회귀
25
"모름" 처리 한 데이터 세트 – 전진선택
• 전진 선택: 총 79개 변수 선택
• 다중공선성 값(VIF) > 10 없었음
26. 분석 결과 – lasso 로지스틱 회귀
26
"모름" 처리한 데이터 세트 – 교차검증
• 가로축: lambda(벌점 모수)
• 세로축:AUC
27. 분석 결과 – 로지스틱 회귀
27
"모름" 처리한 데이터 세트 – lasso 모형 변수 선택
변수명 변수 설명 계수 변수명 변수 설명 계수
DC3_ag 대장암 진단시기 0.00114264 DM1_dg 관절염 의사진단 여부 -0.772788
N_FAT 지방섭취량 0.00165007 L_LN 식품섭취조사 1일 전 점심 -0.5905899
age 나이 0.0181694 LQ_1EQL 운동능력 -0.4430395
BS12_43
(성인) 현재사용담배
종류 : 시가
0.02185987 BH1 (성인) 건강검진 수진여부 -0.3462387
BE5_1
1주일간 근력운동 일
수
0.04460426 mh_stress 스트레스 인지율 -0.3419553
DI1_2 혈압조절제 복용 0.04714822 L_BR
식품섭취조사 1일전 아침결
식 여부
-0.3038357
DI2_2 이상지질혈증 약복용 0.07909303 DE2_dg 갑상선 질환 의사진단 여부 -0.2814514
T_NQ_PH
시끄러운 장소에서
이어폰 사용경험
0.10056651 DJ8_pr
알레르기 비염 현재 유병 여
부
-0.2664103
47개 변수 선택
28. 분석 결과 – lasso 로지스틱 회귀
28
"모름" 처리한 데이터 세트 – lasso 모형 평가
29.
30. 두 모델 결과 비교 분석
30
집단
로지스틱 회귀 분석 예측 집단 예측 비
율
의사결정나무 분석 예측 집단 예측 비
율정상군 위험군 전체 정상군 위험군 전체
정상군 66 30 96
66.7%
(특이도) 132 69 201
65.35%
(특이도)
위험군 33 63 96
67.7%
(민감도) 70 133 203
65.84%
(민감도)
전체 99 93 192 67.2% 202 202 404 65.59%
•
•