SlideShare a Scribd company logo
1 of 32
Datamining
Intermediate report
목차
과제 수행 배경 및 문제 정의
4
•
•
•
•
•
5
•
•
•
•
•
•
•
과제 수행 배경 및 문제 정의
6
•
•
“체중이 증가하는 표본의 특징들로 사전에 비만 위험군을 분류할 수 있다”
•
•
•

중간보고서의 주요 결과 및 문제점
7
•
•
•
•
•
•
•
•
중간보고서의 주요 결과 및 문제점
8
•
•
•
•
•
•
•
•
중간보고서의 주요 결과 및 문제점
9
•

•

한계 극복 방안
분석 목적
11
•
•
“체중이 증가하는 표본의 특징들로 사전에 비만 위험군을 분류할 수 있다”
•
•
Methods
12
•
•
•
•
•
분석 절차
13
분석 절차 – 전처리
14
•
•

•
•
분석 절차 – 전처리
15
•
•
•
• 
• 
분석 절차 – 전처리
16
•
•
•
분석 결과 - 의사결정나
무
17
"모름" 처리 안한 데이터 세트
Predictive Positive Predictive Negative
Actual Positive
78 47
Actual Negative
38 87
• 정확도: 0.66
• 민감도: 0.696
• 특이도: 0.624
분석 결과 - 의사결정나
무
18
"모름" 처리 안한 데이터 세트
• AUC: 0.688
분석 결과 - 의사결정나
무
19
"모름" 처리한 데이터 세트
Predictive Positive Predictive Negative
Actual Positive
73 52
Actual Negative
34 91
• 정확도: 0.656
• 민감도: 0.728
• 특이도: 0.584
분석 결과 - 의사결정나
무
20
"모름" 처리한 데이터 세트
• AUC: 0.701
분석 결과 – lasso 로지스틱 회귀
21
"모름" 처리 안 한 데이터 세트 – 전진 선택
변수명 변수 설명 VIF 변수명 변수 설명 VIF
DC1_ag 위암 진단시기 69886.6059 BS12_2
전자담배 현재사용
여부
166.622018
DI6_ag 협심증 진단시기 20954.4866 N_DIET_WHY 식이요법이유 134.239967
DI5_dg
심근경색증 진단시
기
11599.7099 BE3_78
여가_고강도 신체
활동 시간(분)
18.278229
LQ4_27
활동제한사유: 위
장장애
5505.76196 DI4_dg
심근경색증 또는
협싱증 의사진단
여부
12.608024
BS6_4
과거흡연자 금연기
간(월 환산)
5319.0983 LQ4_28
활동제한 사유: 무
릎, 다리통증
443.768858
전진 선택: 총 88개 변수 선택
다중공선성 값(VIF) >10 인 22개 변수 제외
분석 결과 – lasso 로지스틱 회귀
22
"모름" 처리 안 한 데이터 세트 – 교차검증
• 가로축: lambda(벌점 모수)
• 세로축:AUC
분석 결과 – lasso 로지스틱 회귀
23
"모름" 처리 안 한 데이터 세트 – lasso 모형 변수 선택
변수명 변수 설명 VIF 변수명 변수 설명 VIF
DC1_ag 위암 진단시기 69886.6059 BS12_2
전자담배 현재사용
여부
166.622018
DI6_ag 협심증 진단시기 20954.4866 N_DIET_WHY 식이요법이유 134.239967
DI5_dg
심근경색증 진단시
기
11599.7099 BE3_78
여가_고강도 신체
활동 시간(분)
18.278229
LQ4_27
활동제한사유: 위
장장애
5505.76196 DI4_dg
심근경색증 또는
협싱증 의사진단
여부
12.608024
BS6_4
과거흡연자 금연기
간(월 환산)
5319.0983 LQ4_28
활동제한 사유: 무
릎, 다리통증
443.768858
BO3_10
체중조절방법: 기
타
1407.95305 GS_mea_l_3 3차 악력측정_왼손 10.813536
DC3_pr
대장암 현재 유병
여부
904.271643 BO3_12
체중조절방법: 한
약복용
597.05465
BS5_34
금연방법: 병의원
을 통해 니코틴 대
체용품 구입
680.300712 BO3_01
체중조절방법: 운
동
83.160302
분석 결과 – lasso 로지스틱 회귀
24
"모름" 처리 안 한 데이터 세트 – lasso 모형 평가
분석 결과 – lasso 로지스틱 회귀
25
"모름" 처리 한 데이터 세트 – 전진선택
• 전진 선택: 총 79개 변수 선택
• 다중공선성 값(VIF) > 10 없었음
분석 결과 – lasso 로지스틱 회귀
26
"모름" 처리한 데이터 세트 – 교차검증
• 가로축: lambda(벌점 모수)
• 세로축:AUC
분석 결과 – 로지스틱 회귀
27
"모름" 처리한 데이터 세트 – lasso 모형 변수 선택
변수명 변수 설명 계수 변수명 변수 설명 계수
DC3_ag 대장암 진단시기 0.00114264 DM1_dg 관절염 의사진단 여부 -0.772788
N_FAT 지방섭취량 0.00165007 L_LN 식품섭취조사 1일 전 점심 -0.5905899
age 나이 0.0181694 LQ_1EQL 운동능력 -0.4430395
BS12_43
(성인) 현재사용담배
종류 : 시가
0.02185987 BH1 (성인) 건강검진 수진여부 -0.3462387
BE5_1
1주일간 근력운동 일
수
0.04460426 mh_stress 스트레스 인지율 -0.3419553
DI1_2 혈압조절제 복용 0.04714822 L_BR
식품섭취조사 1일전 아침결
식 여부
-0.3038357
DI2_2 이상지질혈증 약복용 0.07909303 DE2_dg 갑상선 질환 의사진단 여부 -0.2814514
T_NQ_PH
시끄러운 장소에서
이어폰 사용경험
0.10056651 DJ8_pr
알레르기 비염 현재 유병 여
부
-0.2664103
47개 변수 선택
분석 결과 – lasso 로지스틱 회귀
28
"모름" 처리한 데이터 세트 – lasso 모형 평가
두 모델 결과 비교 분석
30
집단
로지스틱 회귀 분석 예측 집단 예측 비
율
의사결정나무 분석 예측 집단 예측 비
율정상군 위험군 전체 정상군 위험군 전체
정상군 66 30 96
66.7%
(특이도) 132 69 201
65.35%
(특이도)
위험군 33 63 96
67.7%
(민감도) 70 133 203
65.84%
(민감도)
전체 99 93 192 67.2% 202 202 404 65.59%
•

•
분석 총평
31
•
•
•
•
한계
32
•

More Related Content

What's hot

2021 한양대_로컬브랜드_PHOTOMING_DaonMoa_최종제출.pdf
2021 한양대_로컬브랜드_PHOTOMING_DaonMoa_최종제출.pdf2021 한양대_로컬브랜드_PHOTOMING_DaonMoa_최종제출.pdf
2021 한양대_로컬브랜드_PHOTOMING_DaonMoa_최종제출.pdfArtcoon
 
2022 한양대_내셔널브랜드_GOLFLEX_김가네_최종발표.pdf
2022 한양대_내셔널브랜드_GOLFLEX_김가네_최종발표.pdf2022 한양대_내셔널브랜드_GOLFLEX_김가네_최종발표.pdf
2022 한양대_내셔널브랜드_GOLFLEX_김가네_최종발표.pdfArtcoon
 
2022 한양대_내셔널브랜드_Golfar_밤새_최종제출.pdf
2022 한양대_내셔널브랜드_Golfar_밤새_최종제출.pdf2022 한양대_내셔널브랜드_Golfar_밤새_최종제출.pdf
2022 한양대_내셔널브랜드_Golfar_밤새_최종제출.pdfArtcoon
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
 
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdfArtcoon
 
2023_한양대_로컬브랜드_PRUITA_베리달콤_최종제출.pdf
2023_한양대_로컬브랜드_PRUITA_베리달콤_최종제출.pdf2023_한양대_로컬브랜드_PRUITA_베리달콤_최종제출.pdf
2023_한양대_로컬브랜드_PRUITA_베리달콤_최종제출.pdfArtcoon
 
PT_경희사이버대학교_1811_sharing.pdf
PT_경희사이버대학교_1811_sharing.pdfPT_경희사이버대학교_1811_sharing.pdf
PT_경희사이버대학교_1811_sharing.pdfNamhee Choi
 
2022 한양대_내셔널브랜드_ZEXTR_팀1918_최종발표.pdf
2022 한양대_내셔널브랜드_ZEXTR_팀1918_최종발표.pdf2022 한양대_내셔널브랜드_ZEXTR_팀1918_최종발표.pdf
2022 한양대_내셔널브랜드_ZEXTR_팀1918_최종발표.pdfArtcoon
 
2021 한양대_내셔널브랜드_efill_4NFP_최종제출.pdf
2021 한양대_내셔널브랜드_efill_4NFP_최종제출.pdf2021 한양대_내셔널브랜드_efill_4NFP_최종제출.pdf
2021 한양대_내셔널브랜드_efill_4NFP_최종제출.pdfArtcoon
 
UX Discovery 12th Metaverse Commerce & Retail
UX Discovery 12th Metaverse Commerce & RetailUX Discovery 12th Metaverse Commerce & Retail
UX Discovery 12th Metaverse Commerce & RetailRightBrain inc.
 
2023_한양대_로컬브랜드_FLAVE_Team 3S_최종제출.pdf
2023_한양대_로컬브랜드_FLAVE_Team 3S_최종제출.pdf2023_한양대_로컬브랜드_FLAVE_Team 3S_최종제출.pdf
2023_한양대_로컬브랜드_FLAVE_Team 3S_최종제출.pdfArtcoon
 
2022 한양대_내셔널브랜드_Flowork_팀셔츠_최종발표.pdf
2022 한양대_내셔널브랜드_Flowork_팀셔츠_최종발표.pdf2022 한양대_내셔널브랜드_Flowork_팀셔츠_최종발표.pdf
2022 한양대_내셔널브랜드_Flowork_팀셔츠_최종발표.pdfArtcoon
 
[COMPAS] 고양시 공공자전거 분석과제(최우수상)
[COMPAS] 고양시 공공자전거 분석과제(최우수상)[COMPAS] 고양시 공공자전거 분석과제(최우수상)
[COMPAS] 고양시 공공자전거 분석과제(최우수상)Joonho Lee
 
[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석
[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석
[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석BOAZ Bigdata
 
Global health innovation guidebook
Global health innovation guidebookGlobal health innovation guidebook
Global health innovation guidebookCara Barnes
 
전자공학과 캡스톤 디자인 발표 Ppt (수정초안)
전자공학과 캡스톤 디자인 발표 Ppt (수정초안)전자공학과 캡스톤 디자인 발표 Ppt (수정초안)
전자공학과 캡스톤 디자인 발표 Ppt (수정초안)ssuser752eb31
 
2021 한양대_로컬브랜드_idolly_OAOA_최종제출.pdf
2021 한양대_로컬브랜드_idolly_OAOA_최종제출.pdf2021 한양대_로컬브랜드_idolly_OAOA_최종제출.pdf
2021 한양대_로컬브랜드_idolly_OAOA_최종제출.pdfArtcoon
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...BOAZ Bigdata
 
2022 한양대_내셔널브랜드_Cosmos_모아나_최종발표.pdf
2022 한양대_내셔널브랜드_Cosmos_모아나_최종발표.pdf2022 한양대_내셔널브랜드_Cosmos_모아나_최종발표.pdf
2022 한양대_내셔널브랜드_Cosmos_모아나_최종발표.pdfArtcoon
 
2022 한양대_내셔널브랜드_PARAN_NNHOZ_최종발표.pdf
2022 한양대_내셔널브랜드_PARAN_NNHOZ_최종발표.pdf2022 한양대_내셔널브랜드_PARAN_NNHOZ_최종발표.pdf
2022 한양대_내셔널브랜드_PARAN_NNHOZ_최종발표.pdfArtcoon
 

What's hot (20)

2021 한양대_로컬브랜드_PHOTOMING_DaonMoa_최종제출.pdf
2021 한양대_로컬브랜드_PHOTOMING_DaonMoa_최종제출.pdf2021 한양대_로컬브랜드_PHOTOMING_DaonMoa_최종제출.pdf
2021 한양대_로컬브랜드_PHOTOMING_DaonMoa_최종제출.pdf
 
2022 한양대_내셔널브랜드_GOLFLEX_김가네_최종발표.pdf
2022 한양대_내셔널브랜드_GOLFLEX_김가네_최종발표.pdf2022 한양대_내셔널브랜드_GOLFLEX_김가네_최종발표.pdf
2022 한양대_내셔널브랜드_GOLFLEX_김가네_최종발표.pdf
 
2022 한양대_내셔널브랜드_Golfar_밤새_최종제출.pdf
2022 한양대_내셔널브랜드_Golfar_밤새_최종제출.pdf2022 한양대_내셔널브랜드_Golfar_밤새_최종제출.pdf
2022 한양대_내셔널브랜드_Golfar_밤새_최종제출.pdf
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
 
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
2022 한양대_내셔널브랜드_AIREA_에어리어_최종발표.pdf
 
2023_한양대_로컬브랜드_PRUITA_베리달콤_최종제출.pdf
2023_한양대_로컬브랜드_PRUITA_베리달콤_최종제출.pdf2023_한양대_로컬브랜드_PRUITA_베리달콤_최종제출.pdf
2023_한양대_로컬브랜드_PRUITA_베리달콤_최종제출.pdf
 
PT_경희사이버대학교_1811_sharing.pdf
PT_경희사이버대학교_1811_sharing.pdfPT_경희사이버대학교_1811_sharing.pdf
PT_경희사이버대학교_1811_sharing.pdf
 
2022 한양대_내셔널브랜드_ZEXTR_팀1918_최종발표.pdf
2022 한양대_내셔널브랜드_ZEXTR_팀1918_최종발표.pdf2022 한양대_내셔널브랜드_ZEXTR_팀1918_최종발표.pdf
2022 한양대_내셔널브랜드_ZEXTR_팀1918_최종발표.pdf
 
2021 한양대_내셔널브랜드_efill_4NFP_최종제출.pdf
2021 한양대_내셔널브랜드_efill_4NFP_최종제출.pdf2021 한양대_내셔널브랜드_efill_4NFP_최종제출.pdf
2021 한양대_내셔널브랜드_efill_4NFP_최종제출.pdf
 
UX Discovery 12th Metaverse Commerce & Retail
UX Discovery 12th Metaverse Commerce & RetailUX Discovery 12th Metaverse Commerce & Retail
UX Discovery 12th Metaverse Commerce & Retail
 
2023_한양대_로컬브랜드_FLAVE_Team 3S_최종제출.pdf
2023_한양대_로컬브랜드_FLAVE_Team 3S_최종제출.pdf2023_한양대_로컬브랜드_FLAVE_Team 3S_최종제출.pdf
2023_한양대_로컬브랜드_FLAVE_Team 3S_최종제출.pdf
 
2022 한양대_내셔널브랜드_Flowork_팀셔츠_최종발표.pdf
2022 한양대_내셔널브랜드_Flowork_팀셔츠_최종발표.pdf2022 한양대_내셔널브랜드_Flowork_팀셔츠_최종발표.pdf
2022 한양대_내셔널브랜드_Flowork_팀셔츠_최종발표.pdf
 
[COMPAS] 고양시 공공자전거 분석과제(최우수상)
[COMPAS] 고양시 공공자전거 분석과제(최우수상)[COMPAS] 고양시 공공자전거 분석과제(최우수상)
[COMPAS] 고양시 공공자전거 분석과제(최우수상)
 
[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석
[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석
[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석
 
Global health innovation guidebook
Global health innovation guidebookGlobal health innovation guidebook
Global health innovation guidebook
 
전자공학과 캡스톤 디자인 발표 Ppt (수정초안)
전자공학과 캡스톤 디자인 발표 Ppt (수정초안)전자공학과 캡스톤 디자인 발표 Ppt (수정초안)
전자공학과 캡스톤 디자인 발표 Ppt (수정초안)
 
2021 한양대_로컬브랜드_idolly_OAOA_최종제출.pdf
2021 한양대_로컬브랜드_idolly_OAOA_최종제출.pdf2021 한양대_로컬브랜드_idolly_OAOA_최종제출.pdf
2021 한양대_로컬브랜드_idolly_OAOA_최종제출.pdf
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
 
2022 한양대_내셔널브랜드_Cosmos_모아나_최종발표.pdf
2022 한양대_내셔널브랜드_Cosmos_모아나_최종발표.pdf2022 한양대_내셔널브랜드_Cosmos_모아나_최종발표.pdf
2022 한양대_내셔널브랜드_Cosmos_모아나_최종발표.pdf
 
2022 한양대_내셔널브랜드_PARAN_NNHOZ_최종발표.pdf
2022 한양대_내셔널브랜드_PARAN_NNHOZ_최종발표.pdf2022 한양대_내셔널브랜드_PARAN_NNHOZ_최종발표.pdf
2022 한양대_내셔널브랜드_PARAN_NNHOZ_최종발표.pdf
 

2020 경희대학교 데이터마이닝 프로젝트

  • 3.
  • 4. 과제 수행 배경 및 문제 정의 4 • • • • •
  • 6. 6 • • “체중이 증가하는 표본의 특징들로 사전에 비만 위험군을 분류할 수 있다” • • •  중간보고서의 주요 결과 및 문제점
  • 10.
  • 11. 분석 목적 11 • • “체중이 증가하는 표본의 특징들로 사전에 비만 위험군을 분류할 수 있다” • •
  • 14. 분석 절차 – 전처리 14 • •  • •
  • 15. 분석 절차 – 전처리 15 • • • •  • 
  • 16. 분석 절차 – 전처리 16 • • •
  • 17. 분석 결과 - 의사결정나 무 17 "모름" 처리 안한 데이터 세트 Predictive Positive Predictive Negative Actual Positive 78 47 Actual Negative 38 87 • 정확도: 0.66 • 민감도: 0.696 • 특이도: 0.624
  • 18. 분석 결과 - 의사결정나 무 18 "모름" 처리 안한 데이터 세트 • AUC: 0.688
  • 19. 분석 결과 - 의사결정나 무 19 "모름" 처리한 데이터 세트 Predictive Positive Predictive Negative Actual Positive 73 52 Actual Negative 34 91 • 정확도: 0.656 • 민감도: 0.728 • 특이도: 0.584
  • 20. 분석 결과 - 의사결정나 무 20 "모름" 처리한 데이터 세트 • AUC: 0.701
  • 21. 분석 결과 – lasso 로지스틱 회귀 21 "모름" 처리 안 한 데이터 세트 – 전진 선택 변수명 변수 설명 VIF 변수명 변수 설명 VIF DC1_ag 위암 진단시기 69886.6059 BS12_2 전자담배 현재사용 여부 166.622018 DI6_ag 협심증 진단시기 20954.4866 N_DIET_WHY 식이요법이유 134.239967 DI5_dg 심근경색증 진단시 기 11599.7099 BE3_78 여가_고강도 신체 활동 시간(분) 18.278229 LQ4_27 활동제한사유: 위 장장애 5505.76196 DI4_dg 심근경색증 또는 협싱증 의사진단 여부 12.608024 BS6_4 과거흡연자 금연기 간(월 환산) 5319.0983 LQ4_28 활동제한 사유: 무 릎, 다리통증 443.768858 전진 선택: 총 88개 변수 선택 다중공선성 값(VIF) >10 인 22개 변수 제외
  • 22. 분석 결과 – lasso 로지스틱 회귀 22 "모름" 처리 안 한 데이터 세트 – 교차검증 • 가로축: lambda(벌점 모수) • 세로축:AUC
  • 23. 분석 결과 – lasso 로지스틱 회귀 23 "모름" 처리 안 한 데이터 세트 – lasso 모형 변수 선택 변수명 변수 설명 VIF 변수명 변수 설명 VIF DC1_ag 위암 진단시기 69886.6059 BS12_2 전자담배 현재사용 여부 166.622018 DI6_ag 협심증 진단시기 20954.4866 N_DIET_WHY 식이요법이유 134.239967 DI5_dg 심근경색증 진단시 기 11599.7099 BE3_78 여가_고강도 신체 활동 시간(분) 18.278229 LQ4_27 활동제한사유: 위 장장애 5505.76196 DI4_dg 심근경색증 또는 협싱증 의사진단 여부 12.608024 BS6_4 과거흡연자 금연기 간(월 환산) 5319.0983 LQ4_28 활동제한 사유: 무 릎, 다리통증 443.768858 BO3_10 체중조절방법: 기 타 1407.95305 GS_mea_l_3 3차 악력측정_왼손 10.813536 DC3_pr 대장암 현재 유병 여부 904.271643 BO3_12 체중조절방법: 한 약복용 597.05465 BS5_34 금연방법: 병의원 을 통해 니코틴 대 체용품 구입 680.300712 BO3_01 체중조절방법: 운 동 83.160302
  • 24. 분석 결과 – lasso 로지스틱 회귀 24 "모름" 처리 안 한 데이터 세트 – lasso 모형 평가
  • 25. 분석 결과 – lasso 로지스틱 회귀 25 "모름" 처리 한 데이터 세트 – 전진선택 • 전진 선택: 총 79개 변수 선택 • 다중공선성 값(VIF) > 10 없었음
  • 26. 분석 결과 – lasso 로지스틱 회귀 26 "모름" 처리한 데이터 세트 – 교차검증 • 가로축: lambda(벌점 모수) • 세로축:AUC
  • 27. 분석 결과 – 로지스틱 회귀 27 "모름" 처리한 데이터 세트 – lasso 모형 변수 선택 변수명 변수 설명 계수 변수명 변수 설명 계수 DC3_ag 대장암 진단시기 0.00114264 DM1_dg 관절염 의사진단 여부 -0.772788 N_FAT 지방섭취량 0.00165007 L_LN 식품섭취조사 1일 전 점심 -0.5905899 age 나이 0.0181694 LQ_1EQL 운동능력 -0.4430395 BS12_43 (성인) 현재사용담배 종류 : 시가 0.02185987 BH1 (성인) 건강검진 수진여부 -0.3462387 BE5_1 1주일간 근력운동 일 수 0.04460426 mh_stress 스트레스 인지율 -0.3419553 DI1_2 혈압조절제 복용 0.04714822 L_BR 식품섭취조사 1일전 아침결 식 여부 -0.3038357 DI2_2 이상지질혈증 약복용 0.07909303 DE2_dg 갑상선 질환 의사진단 여부 -0.2814514 T_NQ_PH 시끄러운 장소에서 이어폰 사용경험 0.10056651 DJ8_pr 알레르기 비염 현재 유병 여 부 -0.2664103 47개 변수 선택
  • 28. 분석 결과 – lasso 로지스틱 회귀 28 "모름" 처리한 데이터 세트 – lasso 모형 평가
  • 29.
  • 30. 두 모델 결과 비교 분석 30 집단 로지스틱 회귀 분석 예측 집단 예측 비 율 의사결정나무 분석 예측 집단 예측 비 율정상군 위험군 전체 정상군 위험군 전체 정상군 66 30 96 66.7% (특이도) 132 69 201 65.35% (특이도) 위험군 33 63 96 67.7% (민감도) 70 133 203 65.84% (민감도) 전체 99 93 192 67.2% 202 202 404 65.59% •  •