SlideShare a Scribd company logo
1 of 37
공기 질과 호흡기 질환의 관계 규명 모델 개발
및 코웨이 공기 청정기 마케팅 기획
서울과학기술대학교 산업정보시스템전공
정재윤, 여현규, 서한빈
2015.10.14. [2차 평가 발표 자료]
순서
1. 프로젝트 개요
1. 분석 주제 정의 / 제공 데이터 현황
2. 데이터 수집 및 정제
1. 추가 데이터 수집
2. 목표변수 정제
3. 파생변수 생성
4. 목표변수 이상치 제거
3. 모델 적용/평가/보완
1. 데이터 셋 보완
2. 변수선택 : 예측적 방법 / 탐색적 방법
3. 모델링 : Regression / Decision Tree
4. 모델 활용
1. 요구조건 예측
2. 예측모델 활용
6. 마케팅 기획(VA Report)
1. 공기청정기의 공기 질 개선 효과 검정
2. 고객세분화
3. 마케팅 전략방향 제시
7. 별첨
2
분석 주제 정의 / 제공데이터 현황
1. 프로젝트 개요
주제 1) 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발
주제 2) 공기청정기의 공기 질 개선효과를 이용한 마케팅 기획
심평원 제공 데이터
- 환자 명세서 내역
- 처방전 상세 내역
- 요양 기관 현황
서울시 제공 데이터
- 공기 오염도
- 기상 관측 정보
- 용도 지역 현황
- 토지 현황
코웨이 제공 데이터
- 실내 공기 질
- 청정기 보급률
- 코웨이 설문지(고객)
추가 수집 가능 데이터
“서울 열린 데이터 광장” 제공
분석 목표
1. 공기 질과 호흡기 질환과의 관계와
공기청정기의 공기 질 개선효과 규명
2. 특정기간(서울25개 구의 4개월)의 공기 질
에 따른 일별 호흡기 질환으로 내원하
는 환자수 예측 모델
3. 공기청정기의 공기 질 개선효과를 이
용한 마케팅 기획
3
추가 데이터 수집
• 서울 열린 데이터 광장에서 약 4100개의 데이터 중
공기 질 또는 호흡기 질환과 관련된다 판단되는 데이터 셋 23개를 수집
• 다음과 같은 기준으로 추가 수집 데이터셋 선정
• 이미 제공된 데이터
• 기본 데이터와 시간대가 다른 데이터(2012년~2014년)
• 지역 구분을 할 수 없는 데이터(구 단위 데이터 필요)
• 출처 : 서울 열린 데이터 광장(http://data.seoul.go.kr/)
2. 데이터 수집 및 정제
추가 수집 가능 데이터
“서울 열린 데이터 광장” 제공
각 구의 특성을 보여줄 수 있는 데이터로서
“주민등록인구(연령별/구별)” 데이터테이블 사용
(사용 변수 : 단위 별 총 인구수, 65세 이상 고령인구)
Dataset Sources : http://data.seoul.go.kr/openinf/linkview.jsp?infId=OA-12235&tMenu=11
4
목표변수 정제
[호흡기 질환의 조작적 정의]
1. 환자유형 : 외래(입원 제외)
2. 요양기관 규모 : 병원 or 의원
3. 주상병 or 부상병코드 : 호흡기 관련코드(J00~J99)
PROCESS
① [20_table]에서 “RECU_FR_DD(내방일)” 기준으로 date변수 생성
② [SAMPLING_NPS](요양기관 테이블)에서 “서울시”에 위치한 YNO 데이터 추출
이때, YNO 빈도수(YNO_COUNT) 가 2 이상인 데이터 제거(다음 슬라이드 추가설명)
③ [20_table]과 [SAMPLING_NPS]에서 YNO_COUNT = 1 기준으로 조인
④ [호흡기 질환의 조작적 정의]에 의해
호흡기질환환자 추출 → 병원 또는 의원 추출 → 외래환자 추출
⑤ Date(일), Place(구) 기준 환자수 속성 추가(목표변수 생성)
cf ) YNO_COUNT : [SAMPLING_NPS]에서 중복되는 YNO수
①
②
③ ④ ⑤
5
2. 데이터 수집 및 정제
목표변수 정제(추가 설명)
ISSUE
• [SAMPLING_NPS]에서 YNO가 같은 경우
PLC_CD_NM 변수를 제외한 모든 동일.
따라서 JOIN시 YNO와 함께 사용 할 수 있는
KEY값은 PLC_CD_NM밖에 없음.
• 하지만, 심평원 데이터 중 20,30,40,53 어떤 테
이블도 PLC_CD_NM와 관련된 정보를 가지고 있
지 않아 KEY값으로 사용 할 수 없음.
따라서 YNO만 key값으로 사용하며
이러한 경우 좌측 예시와 같은 문제가 발생
①
PROCESS
① [SAMPLING_NPS]에서 YNO_COUNT = 3인
데이터를 뽑아 [20_table]에 조인
② 이 경우, 같은 환자(NO포함 모든 데이터 같음)
가 서로 다른 지역 3곳에 할당 되어 환자가
실제로 외래진료 한 지역(구)을 알 수 없음.
따라서, YNO_COUNT ≥ 2 인 데이터 삭제
②
환자가 어느 지역의 요양기관에서 진료를 했는지 구분되지 않음.
즉, 존재하지 않은 정보가 생기므로 YNO_COUNT ≥ 2 인 데이터 삭제
NO
(수진자
고유번호)
YNO
(요양기관
고유번호)
45863 6529
PLC_CD_NM YNO
성북구 6529
송파구 6529
서초구 6529
6
2. 데이터 수집 및 정제
파생변수 정의
* 파생변수 유형
A. 관측 값 비율 파생변수
B. 질의 파생변수
: 변수에 조건을 정의해 생성(EG이용)
C. 통합대기환경지수 파생변수
: 대기오염도 측정치 환산공식 이용
(서울시 대기환경정보 제공)
D. 관측 값 분류 파생변수
(다음 슬라이드 추가설명)
CATEGORY NAME LABEL TYPE MADE BY
목표변수
T_PATIENTS_RECORD 일별구별환자수 B 일별, 구별 NO(환자 고유 값) count
T_RATIO_POPULATION 인구수와환자수비율 A/B 환자수/인구수
T_RATIO_YNO 요양기관수와 환자 비율 A/B 환자수/요양기관 수
공기질변수
CAI_CO co 대기환경지수 C 대기환경지수식대입
CAI_NO NO통합대기환경지수 C 대기환경지수식대입
CAI_O3 O3대기환경지수 C 대기환경지수식대입
CAI_PM10 PM10 대기환경지수 C 대기환경지수식대입
CAI_PM25 PM25대기환경지수 C 대기환경지수식대입
CAI_SO so 대기환경지수 C 대기환경지수식대입
CAI1 통합대기환경지수_비가산 C 통합대기환경지수식에서 비가산
CAI2 통합대기환경지수(가산) C 통합대기환경지수식에서 가산
지역속성변수
COUNT_YNO 구별요양기관수 B 연도별, 구별 호흡기 환자를 한번 이상 받은 병원 또는 의원
COUNT_YNO_C 구별요양기관수(의원) B 연도별, 구별 호흡기 환자를 한번 이상 받은 의원
COUNT_YNO_H 구별요양기관수(병원) B 연도별, 구별 호흡기 환자를 한번 이상 받은 병원
LAND_RATIO_FACTORY 공장비율 A 공자면적/구면적
LAND_RATIO_FOREST 숲비율 A 숩면적/구면적
LAND_RATIO_PARK 공원비율 A 공원면적/구면적
LAND_RATIO_PARKING 주차장비율 A 주차장면적/구면적
LAND_RATIO_ROAD 도로비율 A 도로면적/구면적
POP_DENSITY 인구밀도 A 구인구/구면적
POP_RATIO_ELDERLY 65세 이상 인구비율 A 65세 이상인구/구인구
USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 A 상업지역면적/용도지역면적 합
USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 A 주거지면적/용도지역면적 합
USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 A 녹지면적면적/용도지역면적 합
USE_RATIO_INDUSTRY 용도지역합계에대한공업지역비율 A 공업지역면적/용도지역면적 합
날짜속성변수
DATE_TYPE 영업여부에 따른 DATE_TYPE D (주말 포함 공휴일), (공휴일 다음날), 나머지
DATE_WEEKDAY 요일변수 B 요일
날씨속성변수 TEMP_RANGE 일교차 B 최고기온-최저기온
7
2. 데이터 수집 및 정제
파생변수 정의(관측 값 분류 파생변수 추가설명)
1. 목표변수 산점도 탐색(강남구 기준) 2. 요일 특성 별 관측 값 분리
- 비선형의 시계열성 분포를 확인
- 0에 가까운 관측 값 다수 분포(이상치가 아닌 데이터 유형이
다를 것이라 판단 → 요양기관 영업여부에 따른 관측여부 가정) 요양기관의 휴무일(d)/휴무일 전날(d-1)/휴무일 다음날(d+1)/이외의 영업일(else) 분리하여 확인
3. 관측 값 분포에 따라 요일변수 그룹화
최종적으로, 목표변수는 요양기관의 휴무여부에 따라 분류할 수 있어
휴무일(일요일, 공휴일)을 기준으로,
휴무일(d)/휴무일 다음날(d+1)/이외의 나머지 영업일(else) 값을 갖는
명목형 변수를 파생변수로 추가함.
8
2. 데이터 수집 및 정제
목표변수 이상치 처리
9
기준치 처리 기준 : 상·하위 1% 데이터(합 2%, n=486)
목표변수 T_PATIENTS_RECORD에서 각 관측 값은 특정 date(일자)에 특정 place(지역,구)에서 관측되는 환자 수를 의미함.
분석 변수 : T_PATIENTS_RECORD 일별구별환자수
평균 표준편차 최솟값 최댓값 N
0.05
백분위수
제1
백분위수
제5
백분위수
제95
백분위수
제99
백분위수
99.5
백분위수
111.37 72.752205 0 580 24275 0 1 6 237 315 347
2. 데이터 수집 및 정제
데이터 셋 보완(RAW_DATA_TABLE_V6_DATE_CHECK1)
3. 모델 적용/평가/보완
T_
PATIENTS
_RECORD
공기 질_관측 값 공기 질_대기환경지수 날씨속성변수
RAW_NO RAW_O3 RAW_SO RAW_CO
RAW_
PM10
RAW_
PM25
CAI_NO CAI_SO CAI_CO CAI_O3 CAI_PM25 CAI_PM10 CAI1 CAI2
TEMP_
MIN
TEMP_
AVG
TEMP_
MAX
TEMP_
RANGE
HUMI_
AVG
HUMI_
MIN
HUMI_
MAX
당일 0.19964 -0.05085 0.16673 0.12777 0.17122 0.13946 0.20129 0.16612 0.12771 -0.04489 0.13975 0.16007 0.15267 0.14377 -0.20042 -0.19074 -0.17002 0.08077 -0.12455 -0.12823 -0.09553
1일 전 0.05401 0.03729 0.11983 0.08092 0.13897 0.10921 0.05374 0.11933 0.08131 0.03704 0.11219 0.13216 0.11451 0.11537 -0.20805 -0.20335 -0.18586 0.05038 -0.12484 -0.13184 -0.06555
2일 전 0.07279 0.0329 0.1315 0.08816 0.14359 0.1141 0.07346 0.13141 0.0881 0.03116 0.11291 0.13683 0.12418 0.11971 -0.20628 -0.20343 -0.18881 0.03392 -0.11323 -0.12638 -0.07963
3일 전 0.07114 0.01813 0.12043 0.08739 0.1353 0.1045 0.07196 0.12003 0.08763 0.02042 0.10681 0.12711 0.11467 0.10851 -0.21044 -0.20593 -0.18682 0.0553 -0.11517 -0.13423 -0.06812
“오늘 방문한 환자는 며칠 전의 공기 질/날씨에 영향으로 내방하게 되었는가?”
* 날짜 조정에 따른 목표변수와 공기 질/날씨변수와의 상관관계
 목표변수는 요양기관에 환자가 방문 했을 때 관측됨.
(목표변수에 영향을 주는 변수가 어느 시점의 공기 질/날씨인지 확인 할 필요 있음)
 날짜 조정 이후, 목표변수와의 상관계수가 가장 높았던 공기 질/날씨 변수를
기존 변수에 대체함(데이터 셋 보완 내용)
 공기 질/날씨 변수 외의 입력변수는 연/월 단위 제공 데이터(조정 불필요)
* 날짜 조정 상관계수 결과를 반영한 데이터셋 보완
[RAW_DATA_TABLE_V5]
↓
[RAW_DATA_TABLE_V6_DATE_CHECK1]
10
변수 선택 : 입력변수 선택과정 개요
Ⅰ. 상관계수를 통한 예측적 변수선택
① 변수간의 상관관계 p-value 고려
• 변수간의 상관계수 고려해 상관계수가 높은 변수들의 관계 추출
② 분산팽창지수(VIF)를 고려해 ‘다중공선성’ 제거
• VIF가 10 이상인 변수 제거
Ⅱ. 단계별 선택을 통한 탐색적 변수 선택
① 데이터분할 노드 변경 반복, 회귀분석 시행
“전진 선택” X 15
“후진 제거” X 15  최고 성능 모델 변수 설정
“단계적 선택“ X 15
② 분산팽창지수(VIF)를 고려해 ‘다중공선성‘ 예상되는 변수 추가 삭제
• VIF가 10 이상인 변수 제거
1. 변수선택법 개요
11
3. 모델 적용/평가/보완
2. 변수선택법 결과 및 최종선택 참조 모델
변수선택 방법 최적모델 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R²
Ⅰ. 예측적 방법
상관계수 0.65 14,421,622 7,386,324 2,268,690 0.7838
상관계수 0.70 14,285,864 7,315,528 2,37,0596 0.7857
Ⅱ. 탐색적 방법
전진 선택 13,646,254 6,568,176 2,219,554 0.7979
후진 제거 13,473,073 6,568,162 2,263,994 0.7979
단계별 선택 15,393,497 7,542,092 2,584,485 0.7684
각 기준에서 최적모델의 Valid. SSE값을
비교했을 때,
Ⅱ. 탐색적 방법(후진제거 법)의 최적모델의
SSE값이 최소이므로,
이 모델에서 선택된 변수를 참고하고자 함.
Ⅰ. 상관계수를 통한 예측적 변수선택
① 변수간의 상관관계 p-value 고려
• 변수간의 상관계수 고려해 상관계수가 높은 변수들의 관계 추출
② 분산팽창지수(VIF)를 고려해 ‘다중공선성’ 제거
• VIF가 10 이상인 변수 제거
변수 선택 : Ⅰ. 상관계수를 통한 예측적 변수선택
* 상관계수 높은 변수 관계 예시(상관계수 절대값 0.7기준)
* 목표변수와의 상관계수(ⓐ 변수 관계 기준, ⓑ이외의 모든 변수 관계에서 동일처리)
PROCESS
① 변수간의 상관관계 p-value 고려
- 모든 변수간의 관계 p-value 0.001이하
(즉, 모든 변수들간 상관관계 있음을 나타냄 – 지표 부적합)
② 변수간의 상관계수 고려 – (현재 슬라이드 설명)
1) 상관계수 절대값 0.5/0.6/0.65/0.7 점진적 증가해
“상관계수 높은 변수 관계” 추출
(공기 질 변수 유의미한 0.65/0.7 기준에서만 시행)
2) 변수 관계 중 목표변수와의 상관계수 가장 큰 변수 선택
(대표 변수 선정, 이외의 관계 갖는 변수 삭제)
③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제
- (다음 슬라이드 설명)
④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서
선택된 변수 선택 - (현재 슬라이드 우측하단 결과)
기준 변수 비교 변수
COUNT_YNO_H COUNT_YNO_C COUNT_YNO POPULATION LAND_TOTAL
각각의 RAW 각각의 CAI
RAW_PM10 RAW_PM25 CAI_PM25 CAI_PM10 CAI1 CAI2
POPULATION POP_ELDERLY
TEMP_MIN TEMP_AVG TEMP_MAX
LAND_RATIO_FOREST LAND_RATIO_ROAD
LAND_RATIO_PARKING USE_RATIO_INDUSTRY
USE_RATIO_DWELL USE_RATIO_GREEN
Cf) 변수관계 中 블록처리 된 변수 최종선택(이외의 변수 제거)
Cf) RAW물질변수-CAI물질변수는 부분적 선택(ⓑ 변수관계 기준)
Cf) 빨간색 글씨(기울임)로 처리된 변수는 기준변수와 음의 상관관계
변수 명 COUNT_YNO_H COUNT_YNO_C COUNT_YNO POPULATION LAND_TOTAL
변수라벨
요양기관 수
(병원)
요양기관 수
(의원)
요양기관 수 인구 수 총 면적
상관계수
(목표변수) 0.42936 0.31895 0.4277 0.44081 0.32396
* 목표변수와의 상관계수(ⓑ 변수 관계 기준, 부분적 선택)
물질 NO O3 CO SO PM10 PM25
RAW 0.26938 -0.1485 0.17859 0.17852 0.15208 0.09795
CAI 0.27111 -0.14336 0.17845 0.17782 0.14251 0.10443
의사결정 CAI RAW RAW RAW RAW 삭제(ⓒ참고)
ⓐ
ⓑ
ⓒ
상관계수 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R²
0.7 14,285,864 7,315,528 2,37,0596 0.7857
0.65 14,421,622 7,386,324 2,364,467 0.7838
▶ 예측적 변수선택 방법 모델 비교 결과
Cf. (Train : Valid. : Test = 60 : 30 : 10) Cf) SSE : Sum of Squared Errors
12
3. 모델 적용/평가/보완
변수 선택 : Ⅰ. 상관계수를 통한 예측적 변수선택(결과)
* 변수선택 결과(상관계수 절대값 0.7기준)
Parameter Estimates
Variable Label DF
Parameter
Estimate
Standard
Error
t Value Pr > |t|
Variance
Inflation
Intercept Intercept 1 -38425 5031.4165 -7.64 <.0001 0
RAW_O3 O3 관측 값 1 -314.21023 70.79516 -4.44 <.0001 2.38962
RAW_CO CO 관측 값 1 -26.16774 4.50901 -5.8 <.0001 3.4774
RAW_SO SO 관측 값 1 628.81398 354.02905 1.78 0.0758 2.38933
RAW_PM10 PM10 관측 값 1 -0.00787 0.03894 -0.2 0.8399 2.77475
CAI_NO NO통합대기환경지수 1 0.21884 0.04668 4.69 <.0001 3.1625
LAND_RATIO_FOREST 숲 비율 1 2.03056 21.55593 0.09 0.925 30.62476
LAND_RATIO_FACTORY 공장 비율 1 -448.96571 103.48184 -4.34 <.0001 31.32779
LAND_RATIO_PARK 공원 비율 1 -104.25734 70.38749 -1.48 0.1386 7.01928
POPULATION 인구 1 8.925E-05 0.0000881 1.01 0.311 227.50961
POP_DENSITY 인구 밀도 1 0.0001406 0.00247 0.06 0.9546 341.94299
POP_RATIO_ELDERLY 65세이상인구비율 1 -2106.4227 438.56405 -4.8 <.0001 57.4135
DATE_YEAR 키(연도 정보) 1 19.17376 2.53159 7.57 <.0001 11.13437
DATE_WEEKDAY 요일변수 1 -4.9012 0.40742 -12.03 <.0001 1.89583
DATE_TYPE 영업여부에 따른 DATE_TYPE 1 49.30375 1.06992 46.08 <.0001 1.9781
USE_RATIO_COMMERCE
용도지역합계에 대한 상업지역비
율
1 34.35468 89.61996 0.38 0.7015 17.69374
USE_RATIO_INDUSTRY 용도지역합계에대한공업지역비율 1 138.3633 27.57059 5.02 <.0001 40.80696
USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 1 139.23672 122.19239 1.14 0.2545 567.67009
TEMP_MIN 최저기온 1 -1.33886 0.08517 -15.72 <.0001 2.55518
TEMP_RANGE 일교차 1 1.59281 0.26438 6.02 <.0001 1.47856
HUMI_MIN 최저습도 1 -0.24314 0.04351 -5.59 <.0001 1.48878
HUMI_AVG 평균습도 1 -0.24555 0.05741 -4.28 <.0001 2.00006
HUMI_MAX 최고습도 1 -0.05581 0.05902 -0.95 0.3444 1.74896
Parameter Estimates
Variable Label DF
Parameter
Estimate
Standard
Error
t Value Pr > |t|
Variance
Inflation
Intercept Intercept 1 -17387 2468.5675 -7.04 <.0001 0
RAW_O3 O3 관측값 1 -251.83592 69.82318 -3.61 0.0003 2.31564
RAW_CO CO 관측값 1 -27.16816 4.50508 -6.03 <.0001 3.45818
RAW_SO SO 관측값 1 623.90902 343.31898 1.82 0.0692 2.23843
RAW_PM10 PM10 관측값 1 0.00183 0.03836 0.05 0.962 2.68248
CAI_NO NO통합대기환경지수 1 0.22939 0.04648 4.94 <.0001 3.12395
LAND_RATIO_FOREST 숲 비율 1 -10.30974 5.95686 -1.73 0.0835 2.32983
LAND_RATIO_PARK 공원비율 1 -227.7683 47.45253 -4.8 <.0001 3.17812
POPULATION 인구 1 0.0003409 1.029E-05 33.14 <.0001 3.09036
POP_RATIO_ELDERLY 65세 이상인구비율 1 -167.79887 126.28669 -1.33 0.184 4.74256
DATE_YEAR 키(연도 정보) 1 8.59845 1.23255 6.98 <.0001 2.62928
DATE_WEEKDAY 요일변수 1 -4.89002 0.40818 -11.98 <.0001 1.89576
DATE_TYPE 영업여부에 따른 DATE_TYPE 1 49.40718 1.07165 46.1 <.0001 1.97698
USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 1 14.62831 33.08934 0.44 0.6584 2.4029
USE_RATIO_INDUSTRY 용도지역합계에 대한 공업지역비율 1 52.69994 7.23038 7.29 <.0001 2.79586
TEMP_MIN 최저기온 1 -1.44134 0.08272 -17.42 <.0001 2.4011
TEMP_RANGE 일교차 1 1.62254 0.26454 6.13 <.0001 1.47472
HUMI_MIN 최저습도 1 -0.25702 0.04337 -5.93 <.0001 1.47364
HUMI_AVG 평균습도 1 -0.26942 0.05707 -4.72 <.0001 1.96877
HUMI_MAX 최고습도 1 -0.06311 0.05907 -1.07 0.2854 1.74538
∴ 예측적 변수선택 방법을 이용해 최종선택 된 변수 목록
13
3. 모델 적용/평가/보완
변수 선택 : 입력변수 선택과정 개요
Ⅰ. 상관계수를 통한 예측적 변수선택
① 변수간의 상관관계 p-value 고려
• 변수간의 상관계수 고려해 상관계수가 높은 변수들의 관계 추출
② 분산팽창지수(VIF)를 고려해 ‘다중공선성’ 제거
• VIF가 10 이상인 변수 제거
Ⅱ. 단계별 선택을 통한 탐색적 변수 선택
① 데이터분할 노드 변경 반복, 회귀분석 시행
“전진 선택” X 15
“후진 제거” X 15  최고 성능 모델 변수 설정
“단계적 선택“ X 15
② 분산팽창지수(VIF)를 고려해 ‘다중공선성‘ 예상되는 변수 추가 삭제
• VIF가 10 이상인 변수 제거
1. 변수선택법 개요
14
3. 모델 적용/평가/보완
2. 변수선택법 결과 및 최종선택 참조 모델
변수선택 방법 최적모델 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R²
Ⅰ. 예측적 방법
상관계수 0.65 14,421,622 7,386,324 2,268,690 0.7838
상관계수 0.70 14,285,864 7,315,528 2,37,0596 0.7857
Ⅱ. 탐색적 방법
전진 선택 13,646,254 6,568,176 2,219,554 0.7979
후진 제거 13,473,073 6,568,162 2,263,994 0.7979
단계별 선택 15,393,497 7,542,092 2,584,485 0.7684
각 기준에서 최적모델의 Valid. SSE값을
비교했을 때,
Ⅱ. 탐색적 방법(후진제거 법)의 최적모델의
SSE값이 최소이므로,
이 모델에서 선택된 변수를 참고하고자 함.
변수 선택 : Ⅱ. 단계별 선택을 통한 탐색적 변수 선택
PROCESS
① 오른쪽 설정과 같이 반복적으로 회귀분석 시행(데이터분할 노드 변경 반복)
난수 값 변경/반복 시행(15회씩), 기타 parameter 고정 – (현재 슬라이드 우측 참고)
② “전진 선택”, “후진 제거”, “단계적 선택“법에 의한 회귀분석모델 중
최적 모델에 적용되는 입력변수를 분석. (이때, 최적모델의 기준은 Valid. SSE 최소)
③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제
- (선택적 변수선택 과정과 동일)
④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 -
(현재 슬라이드 좌측하단 결과)
* 데이터분할 노드 속성패널
cf. 난수 값 변경/반복 시행(50회)
cf. 데이터 셋 할당 고정
(Train : Valid. : Test = 60 : 30 : 10)
* 회귀분석 노드 속성패널
cf. 선형회귀 적용 (∵ 목표변수는 연속 형 변수)
cf. “전진 선택”, “후진 제거”, “단계적 선택”
과정 시행 이후, 최적 모델 참조
* 결측 값 처리 노드 속성패널
cf. 모든 결측 값 처리방법은 “Tree”방법 적용
(∵ 관측 값 의 분포를 보아 평균값/최다 빈도
값을 적용하기에 다소 부적합하다고 판단됨.)
▶ 탐색적 변수선택 방법 모델 비교 결과(변수선택법 기준, ③ 과정 반영 전)
기준 난수값 변수선택법 SSE : Train SSE : Valid. SSE : Test Adj.-R²
15000 전진 선택법 13,646,254 6,882,375 2,219,554 0.7979
12000 후진 제거법 13,473,073 6,593,134 2,278,727 0.7979
12000 단계적 선택법 15,393,497 7,542,092 2,584,485 0.7684
15
3. 모델 적용/평가/보완
변수 선택 : Ⅱ. 단계별 선택을 통한 탐색적 변수 선택
* 변수선택 결과(후진선택법 Valid. SSE 최소(난수 : 12000) 기준)
Parameter Estimates
Variable Label DF
Parameter Standard
t Value Pr > |t|
Variance
Estimate Error Inflation
Intercept Intercept 1 -77.47004 15.06294 -5.14 <.0001 0
DATE_WEEKDAY 요일변수 1 -5.59062 0.2962 -18.87 <.0001 1.90158
DATE_TYPE (주말 포함 공휴일), (공휴일 다음
날), 나머지
1 53.47131 0.77633 68.88 <.0001 1.97728
COUNT_YNO 구별 요양기관 수 1 -0.07975 0.04551 -1.75 0.0797 53.47384
RAW_NO NO2 측정값 1 664.13575 58.44385 11.36 <.0001 3.38591
RAW_O3 1 -117.50327 49.37101 -2.38 0.0173 2.29406
RAW_CO 1 -29.50355 3.48203 -8.47 <.0001 3.67662
RAW_PM10 1 0.46138 0.06392 7.22 <.0001 14.67005
RAW_PM25 1 -0.60791 0.07989 -7.61 <.0001 6.75852
CAI1 통합대기환경지수_비가산 1 -0.06259 0.07638 -0.82 0.4125 35.24707
CAI2 통합대기환경지수(가산) 1 -0.05936 0.0481 -1.23 0.2171 23.24739
TEMP_MIN 최저기온 1 -1.39097 0.14353 -9.69 <.0001 13.59766
TEMP_MAX 최고기온 1 -0.09395 0.13316 -0.71 0.4805 12.29793
TEMP_RANGE 일교차 1 1.1787 0.18173 6.49 <.0001 1.39443
HUMI_MIN 최저습도 1 -0.29375 0.03325 -8.84 <.0001 1.58466
HUMI_AVG 평균습도 1 -0.32329 0.03758 -8.6 <.0001 1.56312
LAND_TOTAL 1 2.99E-06 4.95E-07 6.05 <.0001 93.16447
POP_ELDERLY 65세이상고령자 1 0.0021 0.0001131 18.58 <.0001 4.72055
POP_RATIO_ELDERLY 65세이상인구비율 1 -569.99391 58.62967 -9.72 <.0001 3.46929
LAND_RATIO_FOREST 숲비율 1 48.71207 10.32074 4.72 <.0001 15.13816
LAND_RATIO_PARKING 주차장비율 1 -1872.8642 341.87324 -5.48 <.0001 3.78129
LAND_RATIO_ROAD 도로비율 1 707.9726 130.55675 5.42 <.0001 93.55925
LAND_RATIO_FACTORY 공장비율 1 -190.27737 60.90953 -3.12 0.0018 12.1946
LAND_RATIO_PARK 공원비율 1 276.75742 36.65868 7.55 <.0001 2.91655
USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 1 -71.70884 9.46585 -7.58 <.0001 14.44337
USE_RATIO_COMMERCE 용도지역합계에대한상업지역비율 1 -451.87436 88.63837 -5.1 <.0001 25.37236
USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 1 -65.87677 13.30128 -4.95 <.0001 24.86851
Parameter Estimates
Variable Label DF
Parameter
Estimate
Standard
Error
t Value Pr > |t|
Variance
Inflation
Intercept Intercept 1 -0.22269 7.13703 -0.03 0.9751 0
DATE_WEEKDAY 요일변수 1 -5.07381 0.26394 -19.22 <.0001 1.88358
DATE_TYPE 영업여부에 따른 DATE_TYPE 1 52.35464 0.69301 75.55 <.0001 1.95197
COUNT_YNO 구별 요양기관 수 1 0.09301 0.01087 8.56 <.0001 3.65684
RAW_NO NO2 측정값 1 674.18714 49.17914 13.71 <.0001 3.01466
RAW_O3 O3 측정값 1 -48.46586 42.97257 -1.13 0.2594 2.16027
RAW_CO CO 측정값 1 -23.29523 2.86398 -8.13 <.0001 3.20103
RAW_PM10 PM10 측정값 1 0.37156 0.04673 7.95 <.0001 9.80241
RAW_PM25 PM25 측정값 1 -0.53394 0.06963 -7.67 <.0001 6.40931
CAI2 통합대기환경지수(가산) 1 -0.0919 0.02305 -3.99 <.0001 6.63609
POP_ELDERLY 65세이상고령자 1 0.00211 8.297E-05 25.42 <.0001 4.852
POP_RATIO_ELDERLY 65세이상인구비율 1 -714.84326 47.64911 -15 <.0001 3.45075
TEMP_MIN 최저기온 1 -1.34734 0.05246 -25.68 <.0001 2.28012
TEMP_RANGE 일교차 1 0.92917 0.15968 5.82 <.0001 1.36352
HUMI_MIN 최저습도 1 -0.24765 0.02807 -8.82 <.0001 1.43328
HUMI_AVG 평균습도 1 -0.29902 0.03299 -9.06 <.0001 1.52836
LAND_RATIO_FOREST 숲비율 1 3.82894 3.29297 1.16 0.2449 1.83356
LAND_RATIO_PARKING 주차장비율 1 -1186.0736 224.89129 -5.27 <.0001 1.94156
LAND_RATIO_FACTORY 공장비율 1 50.72694 26.04079 1.95 0.0514 2.67803
LAND_RATIO_PARK 공원비율 1 336.66398 26.79981 12.56 <.0001 1.87254
USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 1 -30.04394 2.84477 -10.56 <.0001 1.58533
USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 1 113.85128 8.90953 12.78 <.0001 3.6333
∴ (탐색적 변수선택 방법을 이용해) 최종선택 된 변수 목록
16
3. 모델 적용/평가/보완
변수 선택 : 입력변수 선택과정 개요
Ⅰ. 상관계수를 통한 예측적 변수선택
① 변수간의 상관관계 p-value 고려
• 변수간의 상관계수 고려해 상관계수가 높은 변수들의 관계 추출
② 분산팽창지수(VIF)를 고려해 ‘다중공선성’ 제거
• VIF가 10 이상인 변수 제거
Ⅱ. 단계별 선택을 통한 탐색적 변수 선택
① 데이터분할 노드 변경 반복, 회귀분석 시행
“전진 선택” X 15
“후진 제거” X 15  최고 성능 모델 변수 설정
“단계적 선택“ X 15
② 분산팽창지수(VIF)를 고려해 ‘다중공선성‘ 예상되는 변수 추가 삭제
• VIF가 10 이상인 변수 제거
1. 변수선택법 개요
2. 변수선택법 결과 및 최종선택 참조 모델
변수선택 방법 최적모델 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R²
Ⅰ. 예측적 방법
상관계수 0.65 14,421,622 7,386,324 2,268,690 0.7838
상관계수 0.70 14,285,864 7,315,528 2,37,0596 0.7857
Ⅱ. 탐색적 방법
전진 선택 13,646,254 6,568,176 2,219,554 0.7979
후진 제거 13,473,073 6,568,162 2,263,994 0.7979
단계별 선택 15,393,497 7,542,092 2,584,485 0.7684
각 기준에서 최적모델의 Valid. SSE값을
비교했을 때,
Ⅱ. 탐색적 방법(후진제거 법)의 최적모델의
SSE값이 최소이므로,
이 모델에서 선택된 변수를 참고하고자 함.
17
3. 모델 적용/평가/보완
모델링 : 예측모델 구축 개요
Ⅰ. Regression
• 낮은 성능으로 인해 모델 선정 과정
에서 제외
최적 모델 SSE : 2,178,971
Ⅱ. Decision Tree
• 탐색적 분석을 통한
최고 성능 모델로 선정
• 공기 질에 관련된 규칙 분석을 통해
연관 관계 파악 가능
최적 모델 SSE : 1,146,403
주제 1) 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발
목표변수 : 조작적 정의에 의한 호흡기 질환 환자수(구/일 단위)
Ⅲ. Neural Network
결과에 대한 해석의 어려움으로 인해
모델 선정 과정에서 제외
18
3. 모델 적용/평가/보완
Ⅲ. Neural Network
결과에 대한 해석의 어려움으로 인해
모델 선정 과정에서 제외
Ⅲ. Neural Network
결과에 대한 해석의 어려움으로 인해
모델 선정 과정에서 제외
모델링 : Regression
모델 노드 Reg Reg2 Reg3 Reg4 Reg5 Reg6
모델 설명 default GLM 2차 식 3차 식 절편생략
절편 생략,
GML
방정식
(Equation)
주효과(Main Effects) Y Y Y Y Y Y
2요인 교호작용
(Two-Factor Interactions)
N N N N N N
다항식 항(Polynomial Terms) N N Y Y N N
다항식 차수
(Polynomial Degree)
2 2 2 3 2 2
사용자 항(User Terms) N N N N N N
Class 타겟
(Class Targets)
회귀 유형(Regression Type) NORMAL NORMAL NORMAL NORMAL NORMAL NORMAL
연결함수(Link Function) LOGIT LOGIT LOGIT LOGIT LOGIT LOGIT
모델 옵션
(Model
Options)
절편 생략(Suppress Intercept) N N N N Y Y
입력 코딩(Input Coding) DEVIATION GLM DEVIATION DEVIATION DEVIATION GLM
Reg Reg2 Reg3 Reg4 Reg5 Reg6
Valid: SSE 6,818,865 6,818,865 5,538,643 5,432,937 6,992,049 6,818,865
Test: SSE 2,178,971 2,178,971 1,847,264 1,768,407 2,255,616 2,178,971
Adj R-Sq 0.7998 0.7998 0.8379 0.8583 0.9421 0.9438
1. 회귀분석 개요
* 설정옵션 1-1 참고
1-1. 회귀분석 설정 옵션
2. 회귀분석 결과
* 탐색적 변수선택 과정에서의 최적성능의 옵션
 회귀분석 과정에서 최적 모델 : Reg6(절편생략+GML 옵션 적용)
 탐색적 모델링과정에서 성능에 초점을 맞춘다면 valid/test SSE 최소인 Reg4를
선정할 수 있음.
 그러나, 변수의 개수가 많아져 주요변수의 해석이 어려운 다항식 모델(3,4)을
제외하고, 최소 SSE(test기준)와 최대 adj-R²인 모델을 선정
* input dataset : DATA_TABLE_V6_CHECK1_1P(변수탐색과정 결과 반영)
옵션 설정근거
 변수선택 과정에서 다중공성선을 고려해 변수를 임의적으로 제거하였으므로,
“2요인 교호작용“ 옵션은 탐색적 모델링 과정에서 제외.
 비선형성을 고려해 2,3차 식을 고려했으나, 변수간의 많은 조합과
조합에서의 반영비율을 해석할 수 없어 설명력이 낮다고 판단함.
결론적으로 “다항식 항, 다항식 차수“ 옵션 제외.
 목표변수는 연속 형 변수이기 때문에
로지스틱 회귀(분류문제, 이항 형/순서 형 변수)가 아닌 일반 회귀 적용
19
3. 모델 적용/평가/보완
모델링 : 예측모델 구축 개요
Ⅰ. Regression
• 낮은 성능으로 인해 모델 선정 과정
에서 제외
최적 모델 SSE : 2,178,971
Ⅱ. Decision Tree
• 탐색적 분석을 통한
최고 성능 모델로 선정
• 공기 질에 관련된 규칙 분석을 통해
연관 관계 파악 가능
최적 모델 SSE : 1,146,403
주제 1) 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발
목표변수 : 조작적 정의에 의한 호흡기 질환 환자수(구/일 단위)
Ⅲ. Neural Network
결과에 대한 해석의 어려움으로 인해
모델 선정 과정에서 제외
20
3. 모델 적용/평가/보완
Ⅲ. Neural Network
결과에 대한 해석의 어려움으로 인해
모델 선정 과정에서 제외
Ⅲ. Neural Network
결과에 대한 해석의 어려움으로 인해
모델 선정 과정에서 제외
모델링 : Decision Tree(개요)
1. 의사결정나무 개요
* 데이터분할/결측값처리
“회귀분석”과정과 동일
* input dataset : DATA_TABLE_V5_CHECK1_1P(변수탐색과정 결과 반영, 회귀모델링과 동일 데이터 셋)
모델 옵션 default 옵션 탐색 여부
옵션 탐색
유의성
비고
분리 규칙
(Splitting Rule)
Interval 타겟 기준(Interval Target Criterion) PROBF 1 1
PROBF /
VARIANCE
Nominal 타겟 기준(Nominal Target Criterion) PROBCHISQ 1 0
Ordinal 타겟 기준(Ordinal Target Criterion) ENTROPY 1 0
유의수준(Significance Level) 0.2 1 0
결측값(Missing Values) USEINSEARCH 0 0
입력변수 한 번만 사용(Use Input Once) N 0 0
최대 가지(Maximum Branch) 2 1 1 2,3
최대 깊이(Maximum Depth) 6 1 1 6~10
최소 범주형 크기(Minimum Categorical Size) 5 0 0
노드(Nodes)
리프 크기(Leaf Size) 5 1 1 5,10,15
규칙 개수(Number of Rules) 5 0 0
대체 규칙 수(Number of Surrogate Rules) 0 0 0
분리 크기(Split Size) . 0 0
옵션 설정근거
 목표변수는 Interval 변수이므로 “Interval 타겟기준” 옵션을 설정함
 Interval 변수 이외 “Nominal/Ordinal 타겟기준” 옵션과
분류기준의 “유의수준” 옵션의 변화를 고려해 보았으나,
결과에 영향을 미치지 않는 것을 확인함.
 데이터 셋에 존재하는 결측 값을 처리한 데이터를 입력하기 때문에
“결측 값“ 옵션은 사용하지 않음.
 더 나은 성능을 얻기 위해 “입력변수 한 번만 사용“ 옵션을 기본값인 N(아니요)으로 고정.
 연속 형 변수의 분류를 다루는 문제이므로, “최대 가지“ 옵션을 3이상으로 설정한다면 유
효한 효과가 있을 것으로 예상 되어 탐색적 모델링 과정에서 “최대 가지“ 옵션 탐색.
 “최대 깊이“ 옵션과 “리프 크기” 옵션을 탐색적으로 적용해
‘과적합’이 되지 않으면서 최고의 성능을 보이는 설정을 탐색.
①
1-2. 의사결정나무 옵션 탐색 개요
1-1. 의사결정나무 옵션 탐색 과정
②
★ 별첨 참고
③
① 주요 옵션(가지, 깊이, 리프 크기) 외 옵션 유의성 탐색(내용 별첨 첨부)
② 주요 옵션 유의성 탐색 및 최적 모델에서의 옵션 조정(다음 슬라이드)
③ 최적 모델 성능 평가 및 트리 구조 해석(그 이후 슬라이드)
21
3. 모델 적용/평가/보완
모델링 : Decision Tree(과정/결론)
2. 의사결정나무 옵션 탐색 과정
2-1. 가지(branch)/깊이(depth) 옵션 성능 비교
선행 노드 최대 가지 최대 깊이 Train:SSE Valid:SSE Test:SSE Train:RASE Valid:RASE Test:RASE
Tree3 2 6
(default)
10,069,364 5,512,404 1,776,050 26.49 27.72 27.25
Tree8 3 6,668,417 3,821,334 1,346,770 21.56 23.08 23.73
Tree4 2
7
8,779,454 4,865,066 1,608,578 24.73 26.04 25.93
Tree9 3 5,989,459 3,468,143 1,202,480 20.43 21.98 22.42
Tree5 2
8
7,678,041 4,361,811 1,443,283 23.13 24.65 24.56
Tree10 3 5,775,656 3,324,572 1,178,184 20.06 21.52 22.19
Tree7 2
9
7,056,343 4,076,758 1,370,660 22.17 23.84 23.94
Tree11 3 5,684,762 3,285,759 1,146,403 19.90 21.40 22.17
Tree6 2
10
6,619,409 3,868,040 1,301,330 21.48 23.22 23.32
Tree12 3 5,684,762 3,285,759 1,175,559 19.90 21.40 22.17
선행 노드 리프크기 Train:SSE Valid:SSE Test:SSE Train:RASE Valid:RASE Test:RASE
Tree15 5(default) 5,684,763 19.90 3,285,759 21.40 1,175,559 22.17
Tree13 10 5,752,074 20.02 3,312,768 21.49 1,174,170 22.16
Tree14 15 5,823,516 20.14 3,408,584 21.79 1,197,622 22.38
2-2. 리프 크기(leaf size) 옵션 성능 비교(가지수 : 3, 깊이 : 9 기준)
 가지(branch)는 기본값인 2보다 3에서 보편적으로 성능이 향상되는 것을 확인함.
지나치게 복잡한 tree는 새로운 자료에 적용될 때 예측오차가 커질 수(과적합 문제) 있어
다지 분리에서 최소 가지 수(3)을 최적 옵션값으로 지정.
 깊이(depth)는 기본값이 6에서 깊이를 늘려갈 때마다 성능이 향상되지만 깊이 9에서 성능
이 정체되는 것을 확인 후 정체구간이 시작되는 깊이(9)를 최적 옵션값으로 지정
 리프 크기(leaf size)는 기본값을 기준으로 커질수록 성능이 떨어져 기본값 이용.
 과적합을 고려해 Train/Valid./Test SSE와 RASE값의 차이를 확인함.
3. 의사결정나무 모델링 결과
3-1. 최적 모델의 옵션(분리규칙, 노드) 3-2. 최적 모델의 성능(SSE, RASE)
* 모델링 과정 결론(각 방법론 최적모델 비교) – “Decision Tree 최적 모델” 사용
3-3. 최적 모델의 트리 해석
3-4. 모델링 트리 해석 결론
(다음 슬라이드 추가 설명)
Vaild. SSE Test SSE Adj. R²
Regression 6,818,865 2,178,917 0.9438
Decision Tree 3,285,759 1,146,403 -
• 주제1에서는 환자수를 ‘예측‘하는 문제이므로, 새로운 입력변수의 데이터를 모델에
적용했을 때, 예측오차(지표는 SSE)를 최소화하는 모델이 가장 효과적인 모델.
• 따라서, 회귀분석에서의 최적모델보다는 의사결정나무에서의 최적모델이 적절한 모델
이라고 판단할 수 있음.
• 이 모델을 이용해 2014년 9월~12월(4개월) 각 구별 호흡기관련 내방 환자 수를 예측
하는데 사용할 수 있음.
Cf) RASE : Root Average Squared Error
22
3. 모델 적용/평가/보완
모델링 : Decision Tree(해석)
3. 최적모델의 규칙(예시, 별첨자료 참고)
선행
분류기준
영업여부에 따른 DATE_TYPE : 나머지
273 <= 구별 요양기관 수
65세 이상 인구비율 < 0.08576
최저기온 < 15.25
공기 질 변수 PM10 측정값
분류기준 < 22.9393 22.9393 <=
분류 값 190 246
선행
분류기준
영업여부에 따른 DATE_TYPE : 나머지
최저기온 < 12.65
0.00023 <= 공장비율 < 0.01531
143.5 <= 구별 요양기관 수 < 184
0.035788 <= 주거지비율 < 0.82639
공기 질 변수 O3 측정값
분류기준 < 0.0125 0.0125 <= < 0.02263 0.02263 <=
분류 값 144 169 151
선행
분류기준 영업여부에 따른 DATE_TYPE : 나머지
143.5<=구별 요양기관 수 < 189.5
공기 질 변수 NO2 측정값
분류기준 < 0.0165 0.0165 < < 0.0375 < 0.0375
분류 값 115 158 192
4. 공기 질과 호흡기 질환과의 관계 해석
공기 질 물질 고찰 및 특이사항
No2(이산화질소) 보편적으로 측정값이 높아질수록, 환자수 관측 값이 증가 하는 것으로 확인할 수 있음.
O3(오존) 데이터 셋의 오존 농도의 분포가 굉장히 낮은 수치로 나왔기 때문에 실제 오존 농도의 상승과 호흡기 질환의 관계를 표현하기
힘들다고 판단.
Co(일산화탄소) 타 공기 질에 비해 관측 값 표본이 적지만, 보편적으로 양의 관계를 갖는 것을 확인할 수 있음.
So(아황산가스) 호흡기질환 예측 과정에서 변수로서 고려하지 않음. 즉, 의미 있는 관계가 존재 하지 않다고 할 수 있음.
Pm10(미세먼지) 선행분류기준에 따라 차이가 존재하지만, 보편적으로 측정값이 기준이상 넘어가면 관측 값이 감소 하는 것을 확인할 수 있음.
이는 타 공기 질에 비해 미세먼지는 보편적으로 사람들이 인식하고 있어 언론 노출 또한 잦으며,
경보예보에 주의하는 것을 통해 납득 할 수 있음(4.1 공기 질 키워드 월간조회수 참고)Pm25(초미세먼지)
물질
월간조회수
(PC+모바일)
이산화질소 1348
오존 9860
일산화탄소 4463
아황산가스 1159
미세먼지 1146101
초미세먼지 13083
4-1. 공기 질 키워드 월간조회수
4.1 Sources : NAVER 광고관리시스템 키워드검색광고(2015.8.27.)
23
3. 모델 적용/평가/보완
요구조건 예측
4. 모델 활용
특정기간(서울 25개 구의 4개월)의 공기 질에 따른 일별 호흡기 질환으로 내원한 환자수 예측
2012.1~4 2012.5~8 2012.9~12
2013
2014.1~4 2014.5~8 2014.9~12
* 제공 데이터셋의 시간흐름
A
B
A – label이 존재하는 모델링용 데이터 셋
B – label이 존재하지 않은 예측용 데이터 셋
스코어 결과 참조
24
예측모델 활용
내방환자 예측 서비스
 공공데이터(대기환경정보, 날씨정보, 지역특성정보) 입력 받아,
일일 호흡기질환 내방 환자수 예측.
 단기적 관점에서 의료소모품 및 진료일정 조율에 반영 가능.
 중장기적 관점에서 장비대여 및 인력계획 의사결정에 반영 가능.
기존 소규모 병원/의원 행정업무 보조
요양기관 맞춤형 ERP 솔루션
의료서비스지원 통합솔루션
* 모델 활용 서비스 제안
25
공기질 경보 DM(direct message) 서비스
 특정 공기 질의 값이 높았을 때 방문했던 환자그룹에게
그 공기 질이 경보 수준에 도달했을 때 DM을 보냄.
 동일한 증상에 의해 병원에 방문하고 자 할 때, 해당 요양기관을 인식 시
킬 수 있음.
 적절한 타이밍의 DM은 효과적으로 재방문을 유도.
4. 모델 활용
공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발 - 결론
26
1. 데이터 분석 결과 최대 가지 3, 최대 깊이 9, 리프 크기 5의 의사결정나무 모델을 최적 모델로 선정(RASE : 21.40)
2. 공기 질과 호흡기 질환의 연관 관계
• 확실한 양의 상관관계를 지님 : 일산화탄소와 이산화질소
• 음의 상관관계 : 오존, 관측 수치가 각종 기준에 현저하게 미달하여 정확한 영향을 측정할 수 없다고 판단
• 증가와 감소 동시 관측 : 미세먼지의 경우 상승하다 줄어드는 경향이 있으며
이는 미세먼지 수치에 대한 정보 전달이 많아 시민들이 대응할 수 있어 줄어든다 판단
3. 예측 모델 활용 방안
• 내방환자 예측 서비스
• 내방 환자 그룹 별 공기 질 경보 DM(Direct Massage) 서비스
4. 모델 활용
코웨이 공기청정기의 공기 질 개선효과를 이용한 마케팅 기획
27
공기 청정기
공기 질
개선효과 검증
각 고객 군별
마케팅
전략 수립
군집 분석을
통한
고객 세분화
청정기 보유 여부에 따른 고객
별 실내 공기 질 검정
(ANOVA, T-TEST )
설문지 데이터에서 공기 질에
대한 인식, 브랜드 제품에 대한
인식, 응답자 및 가족 정보에 대
한 문항을 뽑아 군집 분석
각 군집 분석, 마케팅 전략 수립
* 마케팅 기획 프로세스
5. 마케팅 기획
공기청정기의 공기 질 개선효과 검증 – 미세먼지 기준
28
ANOVA T-TEST
6. 마케팅 기획
분석 결과 코웨이 공기 청정기는 일반먼지, 미세먼지, 초미세먼지에 대해 확실한 공기 질 개선 효과가 있음.
예측 모델 규칙에 따르면 환자수가 보유 고객과 미 보유 고객간의 실내 공기 질 차이는 환자수가 급격히 늘어나는 구간에 포함 되어 있어
호흡기 질환 환자 발생 여부에도 영향을 미칠 수준의 차이가 있을 것이라 판단.
따라서 앞으로의 마케팅 전략 수립은 청정기가 확실한 공기 질 개선 효과가 있다는 가정하에 진행
고객세분화 – 데이터 추출
6. 마케팅 기획
1. 설문지 데이터 추출 : 변수목록 및 데이터탐색
추출 변수 유형
• 실내 외 공기 질에 대한 인식(A 변수)
• 브랜드 및 제품에 대한 인식 및 태도
(B 변수)
• 가족 구성 문항(C 변수)
• 응답자 정보(SQ, TYPE, G, 파생변수)
특이사항
• EG에서 응답 없음(99또는9) 값을 모두
결측 값 처리
• 입력변수의 분포(왜도) 고려해 표준화
옵션 설정
• 변수형식 : O – 순서 형, N – 명목 형, I
– 연속 형(Interval)
변수 명 레이블 응답 없음 형식 결측률 최소 최대 평균
A1 A1. 실내 공기질 우려도 9 O 0 1 7 3.27
A2 A2. 실외 공기질 우려도 9 O 0 0 7 3.40
A5 A5. 더 해로운 공기 타입 실외 공기질 vs. 실내 공기질 9 N 0 0 2 1.46
B1 B1. 코웨이" 브랜드 선호도 O 0 2 7 5.50
B2 B2. 코웨이" 브랜드 추천의향 O 0 1 7 5.42
B3_1 B3. "코웨이" 브랜드 이미지 - (1) 전문적이다 9 O 0 2 7 5.71
B3_2 B3. 코웨이" 브랜드 이미지 - (2) 프리미엄하다 9 O 0 0 7 5.39
B3_3 B3. 코웨이" 브랜드 이미지 - (3) 젊다 9 O 0 0 7 5.03
B3_4 B3. 코웨이" 브랜드 이미지 - (4) 신뢰할 수 있다 9 O 0 1 7 5.59
B3_5 B3. 코웨이" 브랜드 이미지 - (5) 혁신적이다 9 O 0 1 7 5.16
B4_1 B4. 생활 가전 제품 및 렌탈 서비스 제품 필요도 - (1) 정수기 9 O 0 0 7 5.62
B4_2 B4. 생활 가전 제품 및 렌탈 서비스 제품 필요도 - (2) 공기청정기 9 O 0 0 7 5.42
B5_1 B5. 코웨이" 제품 만족도 - (1) 정수기 9 O 39.80263 0 7 6.00
B5_2 B5. 코웨이" 제품 만족도 - (2) 공기 청정기 9 O 38.92544 0 7 5.63
B6 B6. 공기 청정기의 실내 공기질 개선 영향에 대한 인식 9 O 0 0 7 5.28
B7_1 B7. 향후 1년 내 코웨이 제품 이용 의향 - (1) 정수기 9 O 0 0 99 61.3
B7_2 B7. 향후 1년 내 코웨이 제품 이용 의향 - (2) 공기청정기 9 O 0 0 99 62.3
C1 C1. 가족 구성원 수 9 I 0 0 7 3.64
DE3 H3. 월 평균 소득 (세후 기준) 99 I 0 0 18 7.07
G1 G1. [공기질 측정 서비스 컨셉 평가] 호감도 9 O 0 0 7 5.42
G2 G2. [공기질 측정 서비스 컨셉 평가] 필요도 9 O 0 0 7 5.29
G3 G3. [공기질 측정 서비스 컨셉 평가] New/차별도 9 O 0 0 7 5.50
G4 G4. [공기질 측정 서비스 컨셉 평가] 이용 의향도 9 O 0 0 7 5.29
MAX_AGE MAX_AGE. 나이 가장 많은 사람(C1-2) I 0.328947 0 94 44.19
PA_COUNT PA_COUNT. 가족구성원 중 질환자 수 I 0 0 5 0.75
SQ16_1 SQ16-1.자녀가 있습니까?(예, 아니오) N 37.39035 1 2 1.05
SQ16_2_1 SQ16-2. - 1 자녀의 나이는 어떻게 됩니까? (가장어린자녀) I 40.89912 1 5 2.42
SQ4 SQ4. 연령 99 I 0 0 59 38.73
type 공기 청정기 보유 유무 N 0 1 3 1.52
29
고객세분화 – 군집 분석
6. 마케팅 기획
2. 군집 분석 : 고객 세분화
2-1. 군집 분석 노드 설정
* 분석 속성패널
변수 왜도(치우침)가 놓은 자료가 많아
내부표준화를 standardization 옵션 설정
* 결측 값 속성패널
일부 변수에서 ‘응답 없음’ 값을 9 또는 99 등의
dummy값으로 대체하였기 때문에 정보의 왜곡을
방지하기 위해 EG에서 삭제 이후 EM에서
결측 값 속성은 모두 ‘무시’ 설정
* 클러스터 선택기준 속성패널
군집의 수, 특성, CCC도표를 고려해
클러스터링 방법은 Ward 옵션
* 초기클러스터 난수 속성패널
군집간의 근접성을 고려해 적절히 떨어져 있는 초기
시드 값을 배정하기 위해 Full Replacement 옵션
2-2. 군집 분석 결과(CCC그래프, 세그먼트 크기, 입력 평균 그래프)
30
고객세분화 – 군집 해석
6. 마케팅 기획
3. 군집 해석 : 고객 군 세분화 유형
1번 군집 : “싸고 좋은 게 좋아”
가족 구성원에 대한 설문과 공기 질 우려도에 대한
설문 조사 결과를 봤을 때, 공기청정기의 필요도에
대한 마케팅은 중요하지 않을 것이라 판단 된다.
그러나 브랜드 이미지에 대한 설문과 월 평균 소득
에 대한 조사 결과를 볼 때, 경쟁사에서 비슷한 성
능에 비슷한 서비스를 좀 더 싼 가격에 제공한다면
이탈 할 가능성이 높은 군집으로 판단 된다. 따라
서, 경쟁사에 대가 가격 경쟁력을 가질 수 있는 마
케팅 전략을 수립 한다면 고객 유지 및 비슷한 성
향의 신규고객 확보에 도움이 될 것이라 판단된다.
4번 군집 : “공기청정기는 코웨이!”
가족 구성원 항목을 보면, 질환자 수, 자녀의 나이
등 청정기 제품에 대한 필요도가 높이다. 또한 브
랜드에 해한 이미지 점수도 가장 좋고 공기 질, 제
품에 대한 인식이 높아 핵심 고객군집이라 판단한
다. 따라서 현재의 관계를 유지 및 관리 할 수 있는
마케팅 전략이 요구된다.
2번 군집 : “다 필요 없어”
공기 질에 대한 인식, 청정기의 개선 효과, 브랜드
이미지, 브랜드 선호도 등 거의 대부분의 항목에서
가장 낮은 점수를 부여한 군집으로 공기 질, 제품
및 서비스, 브랜드 등에 대한 통합적인 인식 개선
이 필요하다
5번 군집 : “믿을 수 있는 겨?”
응답자 연령이 가장 높은 군집으로 공기 질에 대한
우려도가 낮다. 브랜드에 대한 인식은 평균 보다
높은 편이지만, 제품 및 서비스에 대한 필요도, 민
족도, 구매 의향에 대한 점수가 낮고, 특히 공기청
정기에 대해 더 낮은 점수 준 것으로 볼 때 이에 대
한 인식 개선 전략이 필요한 군집이다.
3번 군집 : “그냥 쓰던 대로 쓸래”
모두 공기 청정기를 ‘보유 및 관리’ 하고 있는 군집
으로, 브랜드에 대한 이미지, 공기 청정기에 대한
인식과 관련된 모든 설문에서 평균보다 높은 점수
를 주었다. 하지만 코웨이의 강점인 IOT관련 서비
스에 대해(공기 질 측정 서비스 컨셉) 낮은 점수를
준 것으로 볼 때, 서비스에 대한 인식 개선이나
IOT 기술을 활용한 서비스 개발이 필요 할 것으로
보인다.
6번 군집 : “역시 믿을 수 있는 거야?”
군집 중 가장 어린 군집 층으로, 공기 질 우려도에
대해 유일하게 실내 공기 질이 더 우려 된다 답한
군집이다. 하지만 청정기에 대한 필요도, 만족도,
구매 의향이 모두 낮기 때문에 공기 청정기의 효과
에 대해서는 의구심을 갖는 군집으로 생각 된다.
따라서 공기 청정기의 효과에 대한 인식을 보여 줄
수 있는 마케팅 전략이 필요 할 것으로 판단된다.
31
마케팅 전략방향 제시
6. 마케팅 기획
1. 군집 특징기준 분류
1-1. 군집 분류별 마케팅전략 구조
a. 5,6번 군집 : 공기 질, 공기청정기 인식개선 전략
b. 3번 군집 : 서비스 차별화 전략
c. 1번 군집 : 원가절감을 이용한 저가격 전략
4번 군집 : “공기청정기는 코웨이!”
(핵심고객, 이상적인 고객유형)
3번 군집 : “그냥 쓰던 대로 쓸래”
1번 군집 : “싸고 좋은 게 좋아”2번 군집 : “다 필요 없어”
브랜드
충성도
공기질/공기청정기
효과인식
5번 군집 : “믿을 수 있는 겨?”
6번 군집 : “역시 믿을 수 있는 거야?”
c
a
32
b
마케팅 전략방향 제시 – 5,6번 군집(a)
6. 마케팅 기획
a-2. 인식개선 컨텐츠 예시
공기질 경보단계 알림 시스템
지하철/버스정류소 내 동영상 및 LED패널 매체를 이용해 해당 지역의
공기 질 정보를 [좋음/ 보통/ 나쁨]으로 구분하여 알리며 나쁜 공기 질
이 어떤 영향을 미치는지에 대한 언급. 3단계 알림 시스템으로 직관적
이며 지속적인 공기 질에 대한 관심 유도 가능.
다큐멘터리(실험)
공기 청정기 공기 질 개선 효과는 통계(과학)적으로 입증시킬 수
있으나, 그 정보를 그대로 대중에게 전할 수 없음. 이러한 측면에서
다큐멘터리는 TV가 가진 대중성과 청정기의 개선효과에 대한
정보 전달이 모두 가능하다는 장점이 있음.
TV프로그램 PPL(요리프로그램)
요리프로그램 협찬을 통해 방송 중 자연스럽게 공기 청정기 가동 모습
을 노출시켜 요리로 인한 공기 질 오염(별첨 참조)을 개선시킬 수 있다는
이미지 연출. 이를 통해 공기 질에 대한 인식 및 제품에 대한 효과를
동시에 어필 가능.
33
a. 공기 질, 공기청정기 인식개선 전략
공기청정기 보급(시장 확대)을 위해 기본적으로 공기 질과 공기 청정기에 대한 인식이 전제되어야 함.
군집 분석 결과 중 2번 5번 6번이 이에 대한 마케팅 전략이 필요한 군집으로,
특히 5번과 6번의 경우 가장 평균 연령이 높고(50세), 가장 평균 연령이 낮은(34세) 특징이 있기
때문에 연령 대별로 어떠한 커뮤니케이션 채널로 마케팅을 진행할 것 인가에 대한 고민이 필요.
• 공기 질에 대한 위험성을 알려 소비자의 경각심을 일깨우도록 유도
• 공기청정기의 공기 질 개선효과(별첨 참조)를 알릴 수 있는 컨텐츠 통해
공기청정기의 필요성을 각인시키고자 함.
a-1. 공기 질, 공기청정기 인식개선 전략 개요
공기질
건강상의
위험성
인지
공기
청정기
필요성
인식
34
b. 서비스 차별화 전략
3번 군집은 공기 질의 중요성이나 공기청정기의 필요성에 대한 인식은 긍정적이고,
‘코웨이’ 브랜드 이미지에 대해 상대적으로 긍정적인 성향을 가졌으나,
새로 나온 “공기 질 측정 서비스“에 대해 부정적으로 성향을 가짐.
따라서, 브랜드 충성도 확보를 바탕으로 차별화 전략이 필요로 함.
코웨이의 강점역량 중 하나인 방문판매원(코디)를 이용한 케어 서비스와
IOT기반 기술을 활용한 서비스가 필요로 할 것으로 예상.
IoCare제품과 함께 제공되는 실내공기 관리서비스 플랫폼을 활용하여
실내 공기 질에 영향을 미칠 오염원(카펫, 커튼, 매트릭스 등)에 관리시점을 알려주
고, 이에 대한 연계서비스를 제공해 지속적인 공기 질 관리를 돕는 제품-서비스 시
스템
1. IoCare 제품을 이용하는 고객에 대해 기상정보, 계절정보, 실내 공기 질 정보와 함께
주요 오염원의 관리 시점에 대해 고객에게 안내(어플리케이션 팝업방식)
2. 고객은 알림을 받은 후, 세탁물 수거가능 시간대를 예약함.
3. 이때, 클린토피아와 같은 세탁업체와의 협약을 통해 세탁물은 세탁업체에 위탁.
b-1. 서비스 프로세스
마케팅 전략방향 제시 – 3번 군집(b)
6. 마케팅 기획
35
마케팅 전략방향 제시 – 1번 군집(c)
6. 마케팅 기획
c. 원가절감을 통한 저가격 전략
1번 군집은 공기청정기의 필요성은 충분히 존재하고, 현재의 코웨이에 대
해 만족스러운 브랜드 인식을 갖고 있음. 보편적으로 서비스에 대해 만족
하나, 월 소득이 보편적으로 낮은 경향을 보여 현재의 서비스 비용에 대
해 부담을 느끼는 것으로 예상됨.
IoCare제품의 실시간 공기질 측정 서비스를 이용하여, 방문서비스의 빈도를
최소화 할 수 있음. 이를 통해 방문 인건비 등의 원가 절감 효과를 얻을 수
있을 것으로 예상되며, 서비스의 최소 질을 유지하면서 낮은 가격을 제공하
는 전략 제시.
코웨이 공기청정기의 공기 질 개선효과를 이용한 마케팅 기획 - 결론
36
1. T-test 와 ANOVA를 이용하여 공기청정기의 실내 공기 질 개선효과를 검증
• 일반먼지, 미세먼지, 초미세먼지에 대해 확실한 공기 질 개선 효과가 있음
2. 코웨이 설문지 데이터를 이용하여 고객 군집 분석을 실시
• 총 6개의 군집으로 고객 분류
• 각 군집에 대한 정성적 분석을 통해 5, 6번 군집의 유사성을 확인 후 두 군집을 하나의 고객 군으로 정의
3. 각 군집에 맞는 맞춤 마케팅 전략 제시
• 공기질 위험에 대한 인식 개선 → 공기청정기의 개선효과 인식 개선
• 서비스 강화 전략
• 서비스 다양화 전략
37

More Related Content

Similar to 미세먼지와 호흡기 질환의 연관관계 규명(제13회 SAS 분석챔피언십, 입상작)

Toyota price project team data macho
Toyota price project team data machoToyota price project team data macho
Toyota price project team data macho재완 최
 
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...Wookjin Choi
 
에너지진단제도
에너지진단제도에너지진단제도
에너지진단제도활 김
 
Sijongseol coejong jeongweoncogwa
Sijongseol coejong jeongweoncogwaSijongseol coejong jeongweoncogwa
Sijongseol coejong jeongweoncogwassuser8c4fff
 
디지털 사이니지 시청 효과 분석 연구 _ Dooh audience measurement system 2015
디지털 사이니지 시청 효과 분석 연구 _ Dooh audience measurement system 2015디지털 사이니지 시청 효과 분석 연구 _ Dooh audience measurement system 2015
디지털 사이니지 시청 효과 분석 연구 _ Dooh audience measurement system 2015M&M Networks
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템ABRC_DATA
 
8월 24일 인공지능사업화 세미나: 미세먼지 모니터링 솔루션 - 과학기술분석센타
8월 24일 인공지능사업화 세미나: 미세먼지 모니터링 솔루션 - 과학기술분석센타8월 24일 인공지능사업화 세미나: 미세먼지 모니터링 솔루션 - 과학기술분석센타
8월 24일 인공지능사업화 세미나: 미세먼지 모니터링 솔루션 - 과학기술분석센타HELENA LEE
 
프로젝트비용원과관리.pptx
프로젝트비용원과관리.pptx프로젝트비용원과관리.pptx
프로젝트비용원과관리.pptxssuser7bdf21
 
DMA 아이디어 제출용.pptx
DMA 아이디어 제출용.pptxDMA 아이디어 제출용.pptx
DMA 아이디어 제출용.pptxssuser0e717a
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현BOAZ Bigdata
 

Similar to 미세먼지와 호흡기 질환의 연관관계 규명(제13회 SAS 분석챔피언십, 입상작) (14)

Toyota price project team data macho
Toyota price project team data machoToyota price project team data macho
Toyota price project team data macho
 
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
 
에너지진단제도
에너지진단제도에너지진단제도
에너지진단제도
 
Sijongseol coejong jeongweoncogwa
Sijongseol coejong jeongweoncogwaSijongseol coejong jeongweoncogwa
Sijongseol coejong jeongweoncogwa
 
디지털 사이니지 시청 효과 분석 연구 _ Dooh audience measurement system 2015
디지털 사이니지 시청 효과 분석 연구 _ Dooh audience measurement system 2015디지털 사이니지 시청 효과 분석 연구 _ Dooh audience measurement system 2015
디지털 사이니지 시청 효과 분석 연구 _ Dooh audience measurement system 2015
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
 
업무처리절차
업무처리절차업무처리절차
업무처리절차
 
8월 24일 인공지능사업화 세미나: 미세먼지 모니터링 솔루션 - 과학기술분석센타
8월 24일 인공지능사업화 세미나: 미세먼지 모니터링 솔루션 - 과학기술분석센타8월 24일 인공지능사업화 세미나: 미세먼지 모니터링 솔루션 - 과학기술분석센타
8월 24일 인공지능사업화 세미나: 미세먼지 모니터링 솔루션 - 과학기술분석센타
 
Konjac jelly
Konjac jellyKonjac jelly
Konjac jelly
 
Konjac jelly
Konjac jellyKonjac jelly
Konjac jelly
 
프로젝트비용원과관리.pptx
프로젝트비용원과관리.pptx프로젝트비용원과관리.pptx
프로젝트비용원과관리.pptx
 
DMA 아이디어 제출용.pptx
DMA 아이디어 제출용.pptxDMA 아이디어 제출용.pptx
DMA 아이디어 제출용.pptx
 
180725
180725180725
180725
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
 

미세먼지와 호흡기 질환의 연관관계 규명(제13회 SAS 분석챔피언십, 입상작)

  • 1. 공기 질과 호흡기 질환의 관계 규명 모델 개발 및 코웨이 공기 청정기 마케팅 기획 서울과학기술대학교 산업정보시스템전공 정재윤, 여현규, 서한빈 2015.10.14. [2차 평가 발표 자료]
  • 2. 순서 1. 프로젝트 개요 1. 분석 주제 정의 / 제공 데이터 현황 2. 데이터 수집 및 정제 1. 추가 데이터 수집 2. 목표변수 정제 3. 파생변수 생성 4. 목표변수 이상치 제거 3. 모델 적용/평가/보완 1. 데이터 셋 보완 2. 변수선택 : 예측적 방법 / 탐색적 방법 3. 모델링 : Regression / Decision Tree 4. 모델 활용 1. 요구조건 예측 2. 예측모델 활용 6. 마케팅 기획(VA Report) 1. 공기청정기의 공기 질 개선 효과 검정 2. 고객세분화 3. 마케팅 전략방향 제시 7. 별첨 2
  • 3. 분석 주제 정의 / 제공데이터 현황 1. 프로젝트 개요 주제 1) 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발 주제 2) 공기청정기의 공기 질 개선효과를 이용한 마케팅 기획 심평원 제공 데이터 - 환자 명세서 내역 - 처방전 상세 내역 - 요양 기관 현황 서울시 제공 데이터 - 공기 오염도 - 기상 관측 정보 - 용도 지역 현황 - 토지 현황 코웨이 제공 데이터 - 실내 공기 질 - 청정기 보급률 - 코웨이 설문지(고객) 추가 수집 가능 데이터 “서울 열린 데이터 광장” 제공 분석 목표 1. 공기 질과 호흡기 질환과의 관계와 공기청정기의 공기 질 개선효과 규명 2. 특정기간(서울25개 구의 4개월)의 공기 질 에 따른 일별 호흡기 질환으로 내원하 는 환자수 예측 모델 3. 공기청정기의 공기 질 개선효과를 이 용한 마케팅 기획 3
  • 4. 추가 데이터 수집 • 서울 열린 데이터 광장에서 약 4100개의 데이터 중 공기 질 또는 호흡기 질환과 관련된다 판단되는 데이터 셋 23개를 수집 • 다음과 같은 기준으로 추가 수집 데이터셋 선정 • 이미 제공된 데이터 • 기본 데이터와 시간대가 다른 데이터(2012년~2014년) • 지역 구분을 할 수 없는 데이터(구 단위 데이터 필요) • 출처 : 서울 열린 데이터 광장(http://data.seoul.go.kr/) 2. 데이터 수집 및 정제 추가 수집 가능 데이터 “서울 열린 데이터 광장” 제공 각 구의 특성을 보여줄 수 있는 데이터로서 “주민등록인구(연령별/구별)” 데이터테이블 사용 (사용 변수 : 단위 별 총 인구수, 65세 이상 고령인구) Dataset Sources : http://data.seoul.go.kr/openinf/linkview.jsp?infId=OA-12235&tMenu=11 4
  • 5. 목표변수 정제 [호흡기 질환의 조작적 정의] 1. 환자유형 : 외래(입원 제외) 2. 요양기관 규모 : 병원 or 의원 3. 주상병 or 부상병코드 : 호흡기 관련코드(J00~J99) PROCESS ① [20_table]에서 “RECU_FR_DD(내방일)” 기준으로 date변수 생성 ② [SAMPLING_NPS](요양기관 테이블)에서 “서울시”에 위치한 YNO 데이터 추출 이때, YNO 빈도수(YNO_COUNT) 가 2 이상인 데이터 제거(다음 슬라이드 추가설명) ③ [20_table]과 [SAMPLING_NPS]에서 YNO_COUNT = 1 기준으로 조인 ④ [호흡기 질환의 조작적 정의]에 의해 호흡기질환환자 추출 → 병원 또는 의원 추출 → 외래환자 추출 ⑤ Date(일), Place(구) 기준 환자수 속성 추가(목표변수 생성) cf ) YNO_COUNT : [SAMPLING_NPS]에서 중복되는 YNO수 ① ② ③ ④ ⑤ 5 2. 데이터 수집 및 정제
  • 6. 목표변수 정제(추가 설명) ISSUE • [SAMPLING_NPS]에서 YNO가 같은 경우 PLC_CD_NM 변수를 제외한 모든 동일. 따라서 JOIN시 YNO와 함께 사용 할 수 있는 KEY값은 PLC_CD_NM밖에 없음. • 하지만, 심평원 데이터 중 20,30,40,53 어떤 테 이블도 PLC_CD_NM와 관련된 정보를 가지고 있 지 않아 KEY값으로 사용 할 수 없음. 따라서 YNO만 key값으로 사용하며 이러한 경우 좌측 예시와 같은 문제가 발생 ① PROCESS ① [SAMPLING_NPS]에서 YNO_COUNT = 3인 데이터를 뽑아 [20_table]에 조인 ② 이 경우, 같은 환자(NO포함 모든 데이터 같음) 가 서로 다른 지역 3곳에 할당 되어 환자가 실제로 외래진료 한 지역(구)을 알 수 없음. 따라서, YNO_COUNT ≥ 2 인 데이터 삭제 ② 환자가 어느 지역의 요양기관에서 진료를 했는지 구분되지 않음. 즉, 존재하지 않은 정보가 생기므로 YNO_COUNT ≥ 2 인 데이터 삭제 NO (수진자 고유번호) YNO (요양기관 고유번호) 45863 6529 PLC_CD_NM YNO 성북구 6529 송파구 6529 서초구 6529 6 2. 데이터 수집 및 정제
  • 7. 파생변수 정의 * 파생변수 유형 A. 관측 값 비율 파생변수 B. 질의 파생변수 : 변수에 조건을 정의해 생성(EG이용) C. 통합대기환경지수 파생변수 : 대기오염도 측정치 환산공식 이용 (서울시 대기환경정보 제공) D. 관측 값 분류 파생변수 (다음 슬라이드 추가설명) CATEGORY NAME LABEL TYPE MADE BY 목표변수 T_PATIENTS_RECORD 일별구별환자수 B 일별, 구별 NO(환자 고유 값) count T_RATIO_POPULATION 인구수와환자수비율 A/B 환자수/인구수 T_RATIO_YNO 요양기관수와 환자 비율 A/B 환자수/요양기관 수 공기질변수 CAI_CO co 대기환경지수 C 대기환경지수식대입 CAI_NO NO통합대기환경지수 C 대기환경지수식대입 CAI_O3 O3대기환경지수 C 대기환경지수식대입 CAI_PM10 PM10 대기환경지수 C 대기환경지수식대입 CAI_PM25 PM25대기환경지수 C 대기환경지수식대입 CAI_SO so 대기환경지수 C 대기환경지수식대입 CAI1 통합대기환경지수_비가산 C 통합대기환경지수식에서 비가산 CAI2 통합대기환경지수(가산) C 통합대기환경지수식에서 가산 지역속성변수 COUNT_YNO 구별요양기관수 B 연도별, 구별 호흡기 환자를 한번 이상 받은 병원 또는 의원 COUNT_YNO_C 구별요양기관수(의원) B 연도별, 구별 호흡기 환자를 한번 이상 받은 의원 COUNT_YNO_H 구별요양기관수(병원) B 연도별, 구별 호흡기 환자를 한번 이상 받은 병원 LAND_RATIO_FACTORY 공장비율 A 공자면적/구면적 LAND_RATIO_FOREST 숲비율 A 숩면적/구면적 LAND_RATIO_PARK 공원비율 A 공원면적/구면적 LAND_RATIO_PARKING 주차장비율 A 주차장면적/구면적 LAND_RATIO_ROAD 도로비율 A 도로면적/구면적 POP_DENSITY 인구밀도 A 구인구/구면적 POP_RATIO_ELDERLY 65세 이상 인구비율 A 65세 이상인구/구인구 USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 A 상업지역면적/용도지역면적 합 USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 A 주거지면적/용도지역면적 합 USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 A 녹지면적면적/용도지역면적 합 USE_RATIO_INDUSTRY 용도지역합계에대한공업지역비율 A 공업지역면적/용도지역면적 합 날짜속성변수 DATE_TYPE 영업여부에 따른 DATE_TYPE D (주말 포함 공휴일), (공휴일 다음날), 나머지 DATE_WEEKDAY 요일변수 B 요일 날씨속성변수 TEMP_RANGE 일교차 B 최고기온-최저기온 7 2. 데이터 수집 및 정제
  • 8. 파생변수 정의(관측 값 분류 파생변수 추가설명) 1. 목표변수 산점도 탐색(강남구 기준) 2. 요일 특성 별 관측 값 분리 - 비선형의 시계열성 분포를 확인 - 0에 가까운 관측 값 다수 분포(이상치가 아닌 데이터 유형이 다를 것이라 판단 → 요양기관 영업여부에 따른 관측여부 가정) 요양기관의 휴무일(d)/휴무일 전날(d-1)/휴무일 다음날(d+1)/이외의 영업일(else) 분리하여 확인 3. 관측 값 분포에 따라 요일변수 그룹화 최종적으로, 목표변수는 요양기관의 휴무여부에 따라 분류할 수 있어 휴무일(일요일, 공휴일)을 기준으로, 휴무일(d)/휴무일 다음날(d+1)/이외의 나머지 영업일(else) 값을 갖는 명목형 변수를 파생변수로 추가함. 8 2. 데이터 수집 및 정제
  • 9. 목표변수 이상치 처리 9 기준치 처리 기준 : 상·하위 1% 데이터(합 2%, n=486) 목표변수 T_PATIENTS_RECORD에서 각 관측 값은 특정 date(일자)에 특정 place(지역,구)에서 관측되는 환자 수를 의미함. 분석 변수 : T_PATIENTS_RECORD 일별구별환자수 평균 표준편차 최솟값 최댓값 N 0.05 백분위수 제1 백분위수 제5 백분위수 제95 백분위수 제99 백분위수 99.5 백분위수 111.37 72.752205 0 580 24275 0 1 6 237 315 347 2. 데이터 수집 및 정제
  • 10. 데이터 셋 보완(RAW_DATA_TABLE_V6_DATE_CHECK1) 3. 모델 적용/평가/보완 T_ PATIENTS _RECORD 공기 질_관측 값 공기 질_대기환경지수 날씨속성변수 RAW_NO RAW_O3 RAW_SO RAW_CO RAW_ PM10 RAW_ PM25 CAI_NO CAI_SO CAI_CO CAI_O3 CAI_PM25 CAI_PM10 CAI1 CAI2 TEMP_ MIN TEMP_ AVG TEMP_ MAX TEMP_ RANGE HUMI_ AVG HUMI_ MIN HUMI_ MAX 당일 0.19964 -0.05085 0.16673 0.12777 0.17122 0.13946 0.20129 0.16612 0.12771 -0.04489 0.13975 0.16007 0.15267 0.14377 -0.20042 -0.19074 -0.17002 0.08077 -0.12455 -0.12823 -0.09553 1일 전 0.05401 0.03729 0.11983 0.08092 0.13897 0.10921 0.05374 0.11933 0.08131 0.03704 0.11219 0.13216 0.11451 0.11537 -0.20805 -0.20335 -0.18586 0.05038 -0.12484 -0.13184 -0.06555 2일 전 0.07279 0.0329 0.1315 0.08816 0.14359 0.1141 0.07346 0.13141 0.0881 0.03116 0.11291 0.13683 0.12418 0.11971 -0.20628 -0.20343 -0.18881 0.03392 -0.11323 -0.12638 -0.07963 3일 전 0.07114 0.01813 0.12043 0.08739 0.1353 0.1045 0.07196 0.12003 0.08763 0.02042 0.10681 0.12711 0.11467 0.10851 -0.21044 -0.20593 -0.18682 0.0553 -0.11517 -0.13423 -0.06812 “오늘 방문한 환자는 며칠 전의 공기 질/날씨에 영향으로 내방하게 되었는가?” * 날짜 조정에 따른 목표변수와 공기 질/날씨변수와의 상관관계  목표변수는 요양기관에 환자가 방문 했을 때 관측됨. (목표변수에 영향을 주는 변수가 어느 시점의 공기 질/날씨인지 확인 할 필요 있음)  날짜 조정 이후, 목표변수와의 상관계수가 가장 높았던 공기 질/날씨 변수를 기존 변수에 대체함(데이터 셋 보완 내용)  공기 질/날씨 변수 외의 입력변수는 연/월 단위 제공 데이터(조정 불필요) * 날짜 조정 상관계수 결과를 반영한 데이터셋 보완 [RAW_DATA_TABLE_V5] ↓ [RAW_DATA_TABLE_V6_DATE_CHECK1] 10
  • 11. 변수 선택 : 입력변수 선택과정 개요 Ⅰ. 상관계수를 통한 예측적 변수선택 ① 변수간의 상관관계 p-value 고려 • 변수간의 상관계수 고려해 상관계수가 높은 변수들의 관계 추출 ② 분산팽창지수(VIF)를 고려해 ‘다중공선성’ 제거 • VIF가 10 이상인 변수 제거 Ⅱ. 단계별 선택을 통한 탐색적 변수 선택 ① 데이터분할 노드 변경 반복, 회귀분석 시행 “전진 선택” X 15 “후진 제거” X 15  최고 성능 모델 변수 설정 “단계적 선택“ X 15 ② 분산팽창지수(VIF)를 고려해 ‘다중공선성‘ 예상되는 변수 추가 삭제 • VIF가 10 이상인 변수 제거 1. 변수선택법 개요 11 3. 모델 적용/평가/보완 2. 변수선택법 결과 및 최종선택 참조 모델 변수선택 방법 최적모델 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R² Ⅰ. 예측적 방법 상관계수 0.65 14,421,622 7,386,324 2,268,690 0.7838 상관계수 0.70 14,285,864 7,315,528 2,37,0596 0.7857 Ⅱ. 탐색적 방법 전진 선택 13,646,254 6,568,176 2,219,554 0.7979 후진 제거 13,473,073 6,568,162 2,263,994 0.7979 단계별 선택 15,393,497 7,542,092 2,584,485 0.7684 각 기준에서 최적모델의 Valid. SSE값을 비교했을 때, Ⅱ. 탐색적 방법(후진제거 법)의 최적모델의 SSE값이 최소이므로, 이 모델에서 선택된 변수를 참고하고자 함. Ⅰ. 상관계수를 통한 예측적 변수선택 ① 변수간의 상관관계 p-value 고려 • 변수간의 상관계수 고려해 상관계수가 높은 변수들의 관계 추출 ② 분산팽창지수(VIF)를 고려해 ‘다중공선성’ 제거 • VIF가 10 이상인 변수 제거
  • 12. 변수 선택 : Ⅰ. 상관계수를 통한 예측적 변수선택 * 상관계수 높은 변수 관계 예시(상관계수 절대값 0.7기준) * 목표변수와의 상관계수(ⓐ 변수 관계 기준, ⓑ이외의 모든 변수 관계에서 동일처리) PROCESS ① 변수간의 상관관계 p-value 고려 - 모든 변수간의 관계 p-value 0.001이하 (즉, 모든 변수들간 상관관계 있음을 나타냄 – 지표 부적합) ② 변수간의 상관계수 고려 – (현재 슬라이드 설명) 1) 상관계수 절대값 0.5/0.6/0.65/0.7 점진적 증가해 “상관계수 높은 변수 관계” 추출 (공기 질 변수 유의미한 0.65/0.7 기준에서만 시행) 2) 변수 관계 중 목표변수와의 상관계수 가장 큰 변수 선택 (대표 변수 선정, 이외의 관계 갖는 변수 삭제) ③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제 - (다음 슬라이드 설명) ④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 - (현재 슬라이드 우측하단 결과) 기준 변수 비교 변수 COUNT_YNO_H COUNT_YNO_C COUNT_YNO POPULATION LAND_TOTAL 각각의 RAW 각각의 CAI RAW_PM10 RAW_PM25 CAI_PM25 CAI_PM10 CAI1 CAI2 POPULATION POP_ELDERLY TEMP_MIN TEMP_AVG TEMP_MAX LAND_RATIO_FOREST LAND_RATIO_ROAD LAND_RATIO_PARKING USE_RATIO_INDUSTRY USE_RATIO_DWELL USE_RATIO_GREEN Cf) 변수관계 中 블록처리 된 변수 최종선택(이외의 변수 제거) Cf) RAW물질변수-CAI물질변수는 부분적 선택(ⓑ 변수관계 기준) Cf) 빨간색 글씨(기울임)로 처리된 변수는 기준변수와 음의 상관관계 변수 명 COUNT_YNO_H COUNT_YNO_C COUNT_YNO POPULATION LAND_TOTAL 변수라벨 요양기관 수 (병원) 요양기관 수 (의원) 요양기관 수 인구 수 총 면적 상관계수 (목표변수) 0.42936 0.31895 0.4277 0.44081 0.32396 * 목표변수와의 상관계수(ⓑ 변수 관계 기준, 부분적 선택) 물질 NO O3 CO SO PM10 PM25 RAW 0.26938 -0.1485 0.17859 0.17852 0.15208 0.09795 CAI 0.27111 -0.14336 0.17845 0.17782 0.14251 0.10443 의사결정 CAI RAW RAW RAW RAW 삭제(ⓒ참고) ⓐ ⓑ ⓒ 상관계수 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R² 0.7 14,285,864 7,315,528 2,37,0596 0.7857 0.65 14,421,622 7,386,324 2,364,467 0.7838 ▶ 예측적 변수선택 방법 모델 비교 결과 Cf. (Train : Valid. : Test = 60 : 30 : 10) Cf) SSE : Sum of Squared Errors 12 3. 모델 적용/평가/보완
  • 13. 변수 선택 : Ⅰ. 상관계수를 통한 예측적 변수선택(결과) * 변수선택 결과(상관계수 절대값 0.7기준) Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Variance Inflation Intercept Intercept 1 -38425 5031.4165 -7.64 <.0001 0 RAW_O3 O3 관측 값 1 -314.21023 70.79516 -4.44 <.0001 2.38962 RAW_CO CO 관측 값 1 -26.16774 4.50901 -5.8 <.0001 3.4774 RAW_SO SO 관측 값 1 628.81398 354.02905 1.78 0.0758 2.38933 RAW_PM10 PM10 관측 값 1 -0.00787 0.03894 -0.2 0.8399 2.77475 CAI_NO NO통합대기환경지수 1 0.21884 0.04668 4.69 <.0001 3.1625 LAND_RATIO_FOREST 숲 비율 1 2.03056 21.55593 0.09 0.925 30.62476 LAND_RATIO_FACTORY 공장 비율 1 -448.96571 103.48184 -4.34 <.0001 31.32779 LAND_RATIO_PARK 공원 비율 1 -104.25734 70.38749 -1.48 0.1386 7.01928 POPULATION 인구 1 8.925E-05 0.0000881 1.01 0.311 227.50961 POP_DENSITY 인구 밀도 1 0.0001406 0.00247 0.06 0.9546 341.94299 POP_RATIO_ELDERLY 65세이상인구비율 1 -2106.4227 438.56405 -4.8 <.0001 57.4135 DATE_YEAR 키(연도 정보) 1 19.17376 2.53159 7.57 <.0001 11.13437 DATE_WEEKDAY 요일변수 1 -4.9012 0.40742 -12.03 <.0001 1.89583 DATE_TYPE 영업여부에 따른 DATE_TYPE 1 49.30375 1.06992 46.08 <.0001 1.9781 USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비 율 1 34.35468 89.61996 0.38 0.7015 17.69374 USE_RATIO_INDUSTRY 용도지역합계에대한공업지역비율 1 138.3633 27.57059 5.02 <.0001 40.80696 USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 1 139.23672 122.19239 1.14 0.2545 567.67009 TEMP_MIN 최저기온 1 -1.33886 0.08517 -15.72 <.0001 2.55518 TEMP_RANGE 일교차 1 1.59281 0.26438 6.02 <.0001 1.47856 HUMI_MIN 최저습도 1 -0.24314 0.04351 -5.59 <.0001 1.48878 HUMI_AVG 평균습도 1 -0.24555 0.05741 -4.28 <.0001 2.00006 HUMI_MAX 최고습도 1 -0.05581 0.05902 -0.95 0.3444 1.74896 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Variance Inflation Intercept Intercept 1 -17387 2468.5675 -7.04 <.0001 0 RAW_O3 O3 관측값 1 -251.83592 69.82318 -3.61 0.0003 2.31564 RAW_CO CO 관측값 1 -27.16816 4.50508 -6.03 <.0001 3.45818 RAW_SO SO 관측값 1 623.90902 343.31898 1.82 0.0692 2.23843 RAW_PM10 PM10 관측값 1 0.00183 0.03836 0.05 0.962 2.68248 CAI_NO NO통합대기환경지수 1 0.22939 0.04648 4.94 <.0001 3.12395 LAND_RATIO_FOREST 숲 비율 1 -10.30974 5.95686 -1.73 0.0835 2.32983 LAND_RATIO_PARK 공원비율 1 -227.7683 47.45253 -4.8 <.0001 3.17812 POPULATION 인구 1 0.0003409 1.029E-05 33.14 <.0001 3.09036 POP_RATIO_ELDERLY 65세 이상인구비율 1 -167.79887 126.28669 -1.33 0.184 4.74256 DATE_YEAR 키(연도 정보) 1 8.59845 1.23255 6.98 <.0001 2.62928 DATE_WEEKDAY 요일변수 1 -4.89002 0.40818 -11.98 <.0001 1.89576 DATE_TYPE 영업여부에 따른 DATE_TYPE 1 49.40718 1.07165 46.1 <.0001 1.97698 USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 1 14.62831 33.08934 0.44 0.6584 2.4029 USE_RATIO_INDUSTRY 용도지역합계에 대한 공업지역비율 1 52.69994 7.23038 7.29 <.0001 2.79586 TEMP_MIN 최저기온 1 -1.44134 0.08272 -17.42 <.0001 2.4011 TEMP_RANGE 일교차 1 1.62254 0.26454 6.13 <.0001 1.47472 HUMI_MIN 최저습도 1 -0.25702 0.04337 -5.93 <.0001 1.47364 HUMI_AVG 평균습도 1 -0.26942 0.05707 -4.72 <.0001 1.96877 HUMI_MAX 최고습도 1 -0.06311 0.05907 -1.07 0.2854 1.74538 ∴ 예측적 변수선택 방법을 이용해 최종선택 된 변수 목록 13 3. 모델 적용/평가/보완
  • 14. 변수 선택 : 입력변수 선택과정 개요 Ⅰ. 상관계수를 통한 예측적 변수선택 ① 변수간의 상관관계 p-value 고려 • 변수간의 상관계수 고려해 상관계수가 높은 변수들의 관계 추출 ② 분산팽창지수(VIF)를 고려해 ‘다중공선성’ 제거 • VIF가 10 이상인 변수 제거 Ⅱ. 단계별 선택을 통한 탐색적 변수 선택 ① 데이터분할 노드 변경 반복, 회귀분석 시행 “전진 선택” X 15 “후진 제거” X 15  최고 성능 모델 변수 설정 “단계적 선택“ X 15 ② 분산팽창지수(VIF)를 고려해 ‘다중공선성‘ 예상되는 변수 추가 삭제 • VIF가 10 이상인 변수 제거 1. 변수선택법 개요 14 3. 모델 적용/평가/보완 2. 변수선택법 결과 및 최종선택 참조 모델 변수선택 방법 최적모델 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R² Ⅰ. 예측적 방법 상관계수 0.65 14,421,622 7,386,324 2,268,690 0.7838 상관계수 0.70 14,285,864 7,315,528 2,37,0596 0.7857 Ⅱ. 탐색적 방법 전진 선택 13,646,254 6,568,176 2,219,554 0.7979 후진 제거 13,473,073 6,568,162 2,263,994 0.7979 단계별 선택 15,393,497 7,542,092 2,584,485 0.7684 각 기준에서 최적모델의 Valid. SSE값을 비교했을 때, Ⅱ. 탐색적 방법(후진제거 법)의 최적모델의 SSE값이 최소이므로, 이 모델에서 선택된 변수를 참고하고자 함.
  • 15. 변수 선택 : Ⅱ. 단계별 선택을 통한 탐색적 변수 선택 PROCESS ① 오른쪽 설정과 같이 반복적으로 회귀분석 시행(데이터분할 노드 변경 반복) 난수 값 변경/반복 시행(15회씩), 기타 parameter 고정 – (현재 슬라이드 우측 참고) ② “전진 선택”, “후진 제거”, “단계적 선택“법에 의한 회귀분석모델 중 최적 모델에 적용되는 입력변수를 분석. (이때, 최적모델의 기준은 Valid. SSE 최소) ③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제 - (선택적 변수선택 과정과 동일) ④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 - (현재 슬라이드 좌측하단 결과) * 데이터분할 노드 속성패널 cf. 난수 값 변경/반복 시행(50회) cf. 데이터 셋 할당 고정 (Train : Valid. : Test = 60 : 30 : 10) * 회귀분석 노드 속성패널 cf. 선형회귀 적용 (∵ 목표변수는 연속 형 변수) cf. “전진 선택”, “후진 제거”, “단계적 선택” 과정 시행 이후, 최적 모델 참조 * 결측 값 처리 노드 속성패널 cf. 모든 결측 값 처리방법은 “Tree”방법 적용 (∵ 관측 값 의 분포를 보아 평균값/최다 빈도 값을 적용하기에 다소 부적합하다고 판단됨.) ▶ 탐색적 변수선택 방법 모델 비교 결과(변수선택법 기준, ③ 과정 반영 전) 기준 난수값 변수선택법 SSE : Train SSE : Valid. SSE : Test Adj.-R² 15000 전진 선택법 13,646,254 6,882,375 2,219,554 0.7979 12000 후진 제거법 13,473,073 6,593,134 2,278,727 0.7979 12000 단계적 선택법 15,393,497 7,542,092 2,584,485 0.7684 15 3. 모델 적용/평가/보완
  • 16. 변수 선택 : Ⅱ. 단계별 선택을 통한 탐색적 변수 선택 * 변수선택 결과(후진선택법 Valid. SSE 최소(난수 : 12000) 기준) Parameter Estimates Variable Label DF Parameter Standard t Value Pr > |t| Variance Estimate Error Inflation Intercept Intercept 1 -77.47004 15.06294 -5.14 <.0001 0 DATE_WEEKDAY 요일변수 1 -5.59062 0.2962 -18.87 <.0001 1.90158 DATE_TYPE (주말 포함 공휴일), (공휴일 다음 날), 나머지 1 53.47131 0.77633 68.88 <.0001 1.97728 COUNT_YNO 구별 요양기관 수 1 -0.07975 0.04551 -1.75 0.0797 53.47384 RAW_NO NO2 측정값 1 664.13575 58.44385 11.36 <.0001 3.38591 RAW_O3 1 -117.50327 49.37101 -2.38 0.0173 2.29406 RAW_CO 1 -29.50355 3.48203 -8.47 <.0001 3.67662 RAW_PM10 1 0.46138 0.06392 7.22 <.0001 14.67005 RAW_PM25 1 -0.60791 0.07989 -7.61 <.0001 6.75852 CAI1 통합대기환경지수_비가산 1 -0.06259 0.07638 -0.82 0.4125 35.24707 CAI2 통합대기환경지수(가산) 1 -0.05936 0.0481 -1.23 0.2171 23.24739 TEMP_MIN 최저기온 1 -1.39097 0.14353 -9.69 <.0001 13.59766 TEMP_MAX 최고기온 1 -0.09395 0.13316 -0.71 0.4805 12.29793 TEMP_RANGE 일교차 1 1.1787 0.18173 6.49 <.0001 1.39443 HUMI_MIN 최저습도 1 -0.29375 0.03325 -8.84 <.0001 1.58466 HUMI_AVG 평균습도 1 -0.32329 0.03758 -8.6 <.0001 1.56312 LAND_TOTAL 1 2.99E-06 4.95E-07 6.05 <.0001 93.16447 POP_ELDERLY 65세이상고령자 1 0.0021 0.0001131 18.58 <.0001 4.72055 POP_RATIO_ELDERLY 65세이상인구비율 1 -569.99391 58.62967 -9.72 <.0001 3.46929 LAND_RATIO_FOREST 숲비율 1 48.71207 10.32074 4.72 <.0001 15.13816 LAND_RATIO_PARKING 주차장비율 1 -1872.8642 341.87324 -5.48 <.0001 3.78129 LAND_RATIO_ROAD 도로비율 1 707.9726 130.55675 5.42 <.0001 93.55925 LAND_RATIO_FACTORY 공장비율 1 -190.27737 60.90953 -3.12 0.0018 12.1946 LAND_RATIO_PARK 공원비율 1 276.75742 36.65868 7.55 <.0001 2.91655 USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 1 -71.70884 9.46585 -7.58 <.0001 14.44337 USE_RATIO_COMMERCE 용도지역합계에대한상업지역비율 1 -451.87436 88.63837 -5.1 <.0001 25.37236 USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 1 -65.87677 13.30128 -4.95 <.0001 24.86851 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Variance Inflation Intercept Intercept 1 -0.22269 7.13703 -0.03 0.9751 0 DATE_WEEKDAY 요일변수 1 -5.07381 0.26394 -19.22 <.0001 1.88358 DATE_TYPE 영업여부에 따른 DATE_TYPE 1 52.35464 0.69301 75.55 <.0001 1.95197 COUNT_YNO 구별 요양기관 수 1 0.09301 0.01087 8.56 <.0001 3.65684 RAW_NO NO2 측정값 1 674.18714 49.17914 13.71 <.0001 3.01466 RAW_O3 O3 측정값 1 -48.46586 42.97257 -1.13 0.2594 2.16027 RAW_CO CO 측정값 1 -23.29523 2.86398 -8.13 <.0001 3.20103 RAW_PM10 PM10 측정값 1 0.37156 0.04673 7.95 <.0001 9.80241 RAW_PM25 PM25 측정값 1 -0.53394 0.06963 -7.67 <.0001 6.40931 CAI2 통합대기환경지수(가산) 1 -0.0919 0.02305 -3.99 <.0001 6.63609 POP_ELDERLY 65세이상고령자 1 0.00211 8.297E-05 25.42 <.0001 4.852 POP_RATIO_ELDERLY 65세이상인구비율 1 -714.84326 47.64911 -15 <.0001 3.45075 TEMP_MIN 최저기온 1 -1.34734 0.05246 -25.68 <.0001 2.28012 TEMP_RANGE 일교차 1 0.92917 0.15968 5.82 <.0001 1.36352 HUMI_MIN 최저습도 1 -0.24765 0.02807 -8.82 <.0001 1.43328 HUMI_AVG 평균습도 1 -0.29902 0.03299 -9.06 <.0001 1.52836 LAND_RATIO_FOREST 숲비율 1 3.82894 3.29297 1.16 0.2449 1.83356 LAND_RATIO_PARKING 주차장비율 1 -1186.0736 224.89129 -5.27 <.0001 1.94156 LAND_RATIO_FACTORY 공장비율 1 50.72694 26.04079 1.95 0.0514 2.67803 LAND_RATIO_PARK 공원비율 1 336.66398 26.79981 12.56 <.0001 1.87254 USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 1 -30.04394 2.84477 -10.56 <.0001 1.58533 USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 1 113.85128 8.90953 12.78 <.0001 3.6333 ∴ (탐색적 변수선택 방법을 이용해) 최종선택 된 변수 목록 16 3. 모델 적용/평가/보완
  • 17. 변수 선택 : 입력변수 선택과정 개요 Ⅰ. 상관계수를 통한 예측적 변수선택 ① 변수간의 상관관계 p-value 고려 • 변수간의 상관계수 고려해 상관계수가 높은 변수들의 관계 추출 ② 분산팽창지수(VIF)를 고려해 ‘다중공선성’ 제거 • VIF가 10 이상인 변수 제거 Ⅱ. 단계별 선택을 통한 탐색적 변수 선택 ① 데이터분할 노드 변경 반복, 회귀분석 시행 “전진 선택” X 15 “후진 제거” X 15  최고 성능 모델 변수 설정 “단계적 선택“ X 15 ② 분산팽창지수(VIF)를 고려해 ‘다중공선성‘ 예상되는 변수 추가 삭제 • VIF가 10 이상인 변수 제거 1. 변수선택법 개요 2. 변수선택법 결과 및 최종선택 참조 모델 변수선택 방법 최적모델 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R² Ⅰ. 예측적 방법 상관계수 0.65 14,421,622 7,386,324 2,268,690 0.7838 상관계수 0.70 14,285,864 7,315,528 2,37,0596 0.7857 Ⅱ. 탐색적 방법 전진 선택 13,646,254 6,568,176 2,219,554 0.7979 후진 제거 13,473,073 6,568,162 2,263,994 0.7979 단계별 선택 15,393,497 7,542,092 2,584,485 0.7684 각 기준에서 최적모델의 Valid. SSE값을 비교했을 때, Ⅱ. 탐색적 방법(후진제거 법)의 최적모델의 SSE값이 최소이므로, 이 모델에서 선택된 변수를 참고하고자 함. 17 3. 모델 적용/평가/보완
  • 18. 모델링 : 예측모델 구축 개요 Ⅰ. Regression • 낮은 성능으로 인해 모델 선정 과정 에서 제외 최적 모델 SSE : 2,178,971 Ⅱ. Decision Tree • 탐색적 분석을 통한 최고 성능 모델로 선정 • 공기 질에 관련된 규칙 분석을 통해 연관 관계 파악 가능 최적 모델 SSE : 1,146,403 주제 1) 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발 목표변수 : 조작적 정의에 의한 호흡기 질환 환자수(구/일 단위) Ⅲ. Neural Network 결과에 대한 해석의 어려움으로 인해 모델 선정 과정에서 제외 18 3. 모델 적용/평가/보완 Ⅲ. Neural Network 결과에 대한 해석의 어려움으로 인해 모델 선정 과정에서 제외 Ⅲ. Neural Network 결과에 대한 해석의 어려움으로 인해 모델 선정 과정에서 제외
  • 19. 모델링 : Regression 모델 노드 Reg Reg2 Reg3 Reg4 Reg5 Reg6 모델 설명 default GLM 2차 식 3차 식 절편생략 절편 생략, GML 방정식 (Equation) 주효과(Main Effects) Y Y Y Y Y Y 2요인 교호작용 (Two-Factor Interactions) N N N N N N 다항식 항(Polynomial Terms) N N Y Y N N 다항식 차수 (Polynomial Degree) 2 2 2 3 2 2 사용자 항(User Terms) N N N N N N Class 타겟 (Class Targets) 회귀 유형(Regression Type) NORMAL NORMAL NORMAL NORMAL NORMAL NORMAL 연결함수(Link Function) LOGIT LOGIT LOGIT LOGIT LOGIT LOGIT 모델 옵션 (Model Options) 절편 생략(Suppress Intercept) N N N N Y Y 입력 코딩(Input Coding) DEVIATION GLM DEVIATION DEVIATION DEVIATION GLM Reg Reg2 Reg3 Reg4 Reg5 Reg6 Valid: SSE 6,818,865 6,818,865 5,538,643 5,432,937 6,992,049 6,818,865 Test: SSE 2,178,971 2,178,971 1,847,264 1,768,407 2,255,616 2,178,971 Adj R-Sq 0.7998 0.7998 0.8379 0.8583 0.9421 0.9438 1. 회귀분석 개요 * 설정옵션 1-1 참고 1-1. 회귀분석 설정 옵션 2. 회귀분석 결과 * 탐색적 변수선택 과정에서의 최적성능의 옵션  회귀분석 과정에서 최적 모델 : Reg6(절편생략+GML 옵션 적용)  탐색적 모델링과정에서 성능에 초점을 맞춘다면 valid/test SSE 최소인 Reg4를 선정할 수 있음.  그러나, 변수의 개수가 많아져 주요변수의 해석이 어려운 다항식 모델(3,4)을 제외하고, 최소 SSE(test기준)와 최대 adj-R²인 모델을 선정 * input dataset : DATA_TABLE_V6_CHECK1_1P(변수탐색과정 결과 반영) 옵션 설정근거  변수선택 과정에서 다중공성선을 고려해 변수를 임의적으로 제거하였으므로, “2요인 교호작용“ 옵션은 탐색적 모델링 과정에서 제외.  비선형성을 고려해 2,3차 식을 고려했으나, 변수간의 많은 조합과 조합에서의 반영비율을 해석할 수 없어 설명력이 낮다고 판단함. 결론적으로 “다항식 항, 다항식 차수“ 옵션 제외.  목표변수는 연속 형 변수이기 때문에 로지스틱 회귀(분류문제, 이항 형/순서 형 변수)가 아닌 일반 회귀 적용 19 3. 모델 적용/평가/보완
  • 20. 모델링 : 예측모델 구축 개요 Ⅰ. Regression • 낮은 성능으로 인해 모델 선정 과정 에서 제외 최적 모델 SSE : 2,178,971 Ⅱ. Decision Tree • 탐색적 분석을 통한 최고 성능 모델로 선정 • 공기 질에 관련된 규칙 분석을 통해 연관 관계 파악 가능 최적 모델 SSE : 1,146,403 주제 1) 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발 목표변수 : 조작적 정의에 의한 호흡기 질환 환자수(구/일 단위) Ⅲ. Neural Network 결과에 대한 해석의 어려움으로 인해 모델 선정 과정에서 제외 20 3. 모델 적용/평가/보완 Ⅲ. Neural Network 결과에 대한 해석의 어려움으로 인해 모델 선정 과정에서 제외 Ⅲ. Neural Network 결과에 대한 해석의 어려움으로 인해 모델 선정 과정에서 제외
  • 21. 모델링 : Decision Tree(개요) 1. 의사결정나무 개요 * 데이터분할/결측값처리 “회귀분석”과정과 동일 * input dataset : DATA_TABLE_V5_CHECK1_1P(변수탐색과정 결과 반영, 회귀모델링과 동일 데이터 셋) 모델 옵션 default 옵션 탐색 여부 옵션 탐색 유의성 비고 분리 규칙 (Splitting Rule) Interval 타겟 기준(Interval Target Criterion) PROBF 1 1 PROBF / VARIANCE Nominal 타겟 기준(Nominal Target Criterion) PROBCHISQ 1 0 Ordinal 타겟 기준(Ordinal Target Criterion) ENTROPY 1 0 유의수준(Significance Level) 0.2 1 0 결측값(Missing Values) USEINSEARCH 0 0 입력변수 한 번만 사용(Use Input Once) N 0 0 최대 가지(Maximum Branch) 2 1 1 2,3 최대 깊이(Maximum Depth) 6 1 1 6~10 최소 범주형 크기(Minimum Categorical Size) 5 0 0 노드(Nodes) 리프 크기(Leaf Size) 5 1 1 5,10,15 규칙 개수(Number of Rules) 5 0 0 대체 규칙 수(Number of Surrogate Rules) 0 0 0 분리 크기(Split Size) . 0 0 옵션 설정근거  목표변수는 Interval 변수이므로 “Interval 타겟기준” 옵션을 설정함  Interval 변수 이외 “Nominal/Ordinal 타겟기준” 옵션과 분류기준의 “유의수준” 옵션의 변화를 고려해 보았으나, 결과에 영향을 미치지 않는 것을 확인함.  데이터 셋에 존재하는 결측 값을 처리한 데이터를 입력하기 때문에 “결측 값“ 옵션은 사용하지 않음.  더 나은 성능을 얻기 위해 “입력변수 한 번만 사용“ 옵션을 기본값인 N(아니요)으로 고정.  연속 형 변수의 분류를 다루는 문제이므로, “최대 가지“ 옵션을 3이상으로 설정한다면 유 효한 효과가 있을 것으로 예상 되어 탐색적 모델링 과정에서 “최대 가지“ 옵션 탐색.  “최대 깊이“ 옵션과 “리프 크기” 옵션을 탐색적으로 적용해 ‘과적합’이 되지 않으면서 최고의 성능을 보이는 설정을 탐색. ① 1-2. 의사결정나무 옵션 탐색 개요 1-1. 의사결정나무 옵션 탐색 과정 ② ★ 별첨 참고 ③ ① 주요 옵션(가지, 깊이, 리프 크기) 외 옵션 유의성 탐색(내용 별첨 첨부) ② 주요 옵션 유의성 탐색 및 최적 모델에서의 옵션 조정(다음 슬라이드) ③ 최적 모델 성능 평가 및 트리 구조 해석(그 이후 슬라이드) 21 3. 모델 적용/평가/보완
  • 22. 모델링 : Decision Tree(과정/결론) 2. 의사결정나무 옵션 탐색 과정 2-1. 가지(branch)/깊이(depth) 옵션 성능 비교 선행 노드 최대 가지 최대 깊이 Train:SSE Valid:SSE Test:SSE Train:RASE Valid:RASE Test:RASE Tree3 2 6 (default) 10,069,364 5,512,404 1,776,050 26.49 27.72 27.25 Tree8 3 6,668,417 3,821,334 1,346,770 21.56 23.08 23.73 Tree4 2 7 8,779,454 4,865,066 1,608,578 24.73 26.04 25.93 Tree9 3 5,989,459 3,468,143 1,202,480 20.43 21.98 22.42 Tree5 2 8 7,678,041 4,361,811 1,443,283 23.13 24.65 24.56 Tree10 3 5,775,656 3,324,572 1,178,184 20.06 21.52 22.19 Tree7 2 9 7,056,343 4,076,758 1,370,660 22.17 23.84 23.94 Tree11 3 5,684,762 3,285,759 1,146,403 19.90 21.40 22.17 Tree6 2 10 6,619,409 3,868,040 1,301,330 21.48 23.22 23.32 Tree12 3 5,684,762 3,285,759 1,175,559 19.90 21.40 22.17 선행 노드 리프크기 Train:SSE Valid:SSE Test:SSE Train:RASE Valid:RASE Test:RASE Tree15 5(default) 5,684,763 19.90 3,285,759 21.40 1,175,559 22.17 Tree13 10 5,752,074 20.02 3,312,768 21.49 1,174,170 22.16 Tree14 15 5,823,516 20.14 3,408,584 21.79 1,197,622 22.38 2-2. 리프 크기(leaf size) 옵션 성능 비교(가지수 : 3, 깊이 : 9 기준)  가지(branch)는 기본값인 2보다 3에서 보편적으로 성능이 향상되는 것을 확인함. 지나치게 복잡한 tree는 새로운 자료에 적용될 때 예측오차가 커질 수(과적합 문제) 있어 다지 분리에서 최소 가지 수(3)을 최적 옵션값으로 지정.  깊이(depth)는 기본값이 6에서 깊이를 늘려갈 때마다 성능이 향상되지만 깊이 9에서 성능 이 정체되는 것을 확인 후 정체구간이 시작되는 깊이(9)를 최적 옵션값으로 지정  리프 크기(leaf size)는 기본값을 기준으로 커질수록 성능이 떨어져 기본값 이용.  과적합을 고려해 Train/Valid./Test SSE와 RASE값의 차이를 확인함. 3. 의사결정나무 모델링 결과 3-1. 최적 모델의 옵션(분리규칙, 노드) 3-2. 최적 모델의 성능(SSE, RASE) * 모델링 과정 결론(각 방법론 최적모델 비교) – “Decision Tree 최적 모델” 사용 3-3. 최적 모델의 트리 해석 3-4. 모델링 트리 해석 결론 (다음 슬라이드 추가 설명) Vaild. SSE Test SSE Adj. R² Regression 6,818,865 2,178,917 0.9438 Decision Tree 3,285,759 1,146,403 - • 주제1에서는 환자수를 ‘예측‘하는 문제이므로, 새로운 입력변수의 데이터를 모델에 적용했을 때, 예측오차(지표는 SSE)를 최소화하는 모델이 가장 효과적인 모델. • 따라서, 회귀분석에서의 최적모델보다는 의사결정나무에서의 최적모델이 적절한 모델 이라고 판단할 수 있음. • 이 모델을 이용해 2014년 9월~12월(4개월) 각 구별 호흡기관련 내방 환자 수를 예측 하는데 사용할 수 있음. Cf) RASE : Root Average Squared Error 22 3. 모델 적용/평가/보완
  • 23. 모델링 : Decision Tree(해석) 3. 최적모델의 규칙(예시, 별첨자료 참고) 선행 분류기준 영업여부에 따른 DATE_TYPE : 나머지 273 <= 구별 요양기관 수 65세 이상 인구비율 < 0.08576 최저기온 < 15.25 공기 질 변수 PM10 측정값 분류기준 < 22.9393 22.9393 <= 분류 값 190 246 선행 분류기준 영업여부에 따른 DATE_TYPE : 나머지 최저기온 < 12.65 0.00023 <= 공장비율 < 0.01531 143.5 <= 구별 요양기관 수 < 184 0.035788 <= 주거지비율 < 0.82639 공기 질 변수 O3 측정값 분류기준 < 0.0125 0.0125 <= < 0.02263 0.02263 <= 분류 값 144 169 151 선행 분류기준 영업여부에 따른 DATE_TYPE : 나머지 143.5<=구별 요양기관 수 < 189.5 공기 질 변수 NO2 측정값 분류기준 < 0.0165 0.0165 < < 0.0375 < 0.0375 분류 값 115 158 192 4. 공기 질과 호흡기 질환과의 관계 해석 공기 질 물질 고찰 및 특이사항 No2(이산화질소) 보편적으로 측정값이 높아질수록, 환자수 관측 값이 증가 하는 것으로 확인할 수 있음. O3(오존) 데이터 셋의 오존 농도의 분포가 굉장히 낮은 수치로 나왔기 때문에 실제 오존 농도의 상승과 호흡기 질환의 관계를 표현하기 힘들다고 판단. Co(일산화탄소) 타 공기 질에 비해 관측 값 표본이 적지만, 보편적으로 양의 관계를 갖는 것을 확인할 수 있음. So(아황산가스) 호흡기질환 예측 과정에서 변수로서 고려하지 않음. 즉, 의미 있는 관계가 존재 하지 않다고 할 수 있음. Pm10(미세먼지) 선행분류기준에 따라 차이가 존재하지만, 보편적으로 측정값이 기준이상 넘어가면 관측 값이 감소 하는 것을 확인할 수 있음. 이는 타 공기 질에 비해 미세먼지는 보편적으로 사람들이 인식하고 있어 언론 노출 또한 잦으며, 경보예보에 주의하는 것을 통해 납득 할 수 있음(4.1 공기 질 키워드 월간조회수 참고)Pm25(초미세먼지) 물질 월간조회수 (PC+모바일) 이산화질소 1348 오존 9860 일산화탄소 4463 아황산가스 1159 미세먼지 1146101 초미세먼지 13083 4-1. 공기 질 키워드 월간조회수 4.1 Sources : NAVER 광고관리시스템 키워드검색광고(2015.8.27.) 23 3. 모델 적용/평가/보완
  • 24. 요구조건 예측 4. 모델 활용 특정기간(서울 25개 구의 4개월)의 공기 질에 따른 일별 호흡기 질환으로 내원한 환자수 예측 2012.1~4 2012.5~8 2012.9~12 2013 2014.1~4 2014.5~8 2014.9~12 * 제공 데이터셋의 시간흐름 A B A – label이 존재하는 모델링용 데이터 셋 B – label이 존재하지 않은 예측용 데이터 셋 스코어 결과 참조 24
  • 25. 예측모델 활용 내방환자 예측 서비스  공공데이터(대기환경정보, 날씨정보, 지역특성정보) 입력 받아, 일일 호흡기질환 내방 환자수 예측.  단기적 관점에서 의료소모품 및 진료일정 조율에 반영 가능.  중장기적 관점에서 장비대여 및 인력계획 의사결정에 반영 가능. 기존 소규모 병원/의원 행정업무 보조 요양기관 맞춤형 ERP 솔루션 의료서비스지원 통합솔루션 * 모델 활용 서비스 제안 25 공기질 경보 DM(direct message) 서비스  특정 공기 질의 값이 높았을 때 방문했던 환자그룹에게 그 공기 질이 경보 수준에 도달했을 때 DM을 보냄.  동일한 증상에 의해 병원에 방문하고 자 할 때, 해당 요양기관을 인식 시 킬 수 있음.  적절한 타이밍의 DM은 효과적으로 재방문을 유도. 4. 모델 활용
  • 26. 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발 - 결론 26 1. 데이터 분석 결과 최대 가지 3, 최대 깊이 9, 리프 크기 5의 의사결정나무 모델을 최적 모델로 선정(RASE : 21.40) 2. 공기 질과 호흡기 질환의 연관 관계 • 확실한 양의 상관관계를 지님 : 일산화탄소와 이산화질소 • 음의 상관관계 : 오존, 관측 수치가 각종 기준에 현저하게 미달하여 정확한 영향을 측정할 수 없다고 판단 • 증가와 감소 동시 관측 : 미세먼지의 경우 상승하다 줄어드는 경향이 있으며 이는 미세먼지 수치에 대한 정보 전달이 많아 시민들이 대응할 수 있어 줄어든다 판단 3. 예측 모델 활용 방안 • 내방환자 예측 서비스 • 내방 환자 그룹 별 공기 질 경보 DM(Direct Massage) 서비스 4. 모델 활용
  • 27. 코웨이 공기청정기의 공기 질 개선효과를 이용한 마케팅 기획 27 공기 청정기 공기 질 개선효과 검증 각 고객 군별 마케팅 전략 수립 군집 분석을 통한 고객 세분화 청정기 보유 여부에 따른 고객 별 실내 공기 질 검정 (ANOVA, T-TEST ) 설문지 데이터에서 공기 질에 대한 인식, 브랜드 제품에 대한 인식, 응답자 및 가족 정보에 대 한 문항을 뽑아 군집 분석 각 군집 분석, 마케팅 전략 수립 * 마케팅 기획 프로세스 5. 마케팅 기획
  • 28. 공기청정기의 공기 질 개선효과 검증 – 미세먼지 기준 28 ANOVA T-TEST 6. 마케팅 기획 분석 결과 코웨이 공기 청정기는 일반먼지, 미세먼지, 초미세먼지에 대해 확실한 공기 질 개선 효과가 있음. 예측 모델 규칙에 따르면 환자수가 보유 고객과 미 보유 고객간의 실내 공기 질 차이는 환자수가 급격히 늘어나는 구간에 포함 되어 있어 호흡기 질환 환자 발생 여부에도 영향을 미칠 수준의 차이가 있을 것이라 판단. 따라서 앞으로의 마케팅 전략 수립은 청정기가 확실한 공기 질 개선 효과가 있다는 가정하에 진행
  • 29. 고객세분화 – 데이터 추출 6. 마케팅 기획 1. 설문지 데이터 추출 : 변수목록 및 데이터탐색 추출 변수 유형 • 실내 외 공기 질에 대한 인식(A 변수) • 브랜드 및 제품에 대한 인식 및 태도 (B 변수) • 가족 구성 문항(C 변수) • 응답자 정보(SQ, TYPE, G, 파생변수) 특이사항 • EG에서 응답 없음(99또는9) 값을 모두 결측 값 처리 • 입력변수의 분포(왜도) 고려해 표준화 옵션 설정 • 변수형식 : O – 순서 형, N – 명목 형, I – 연속 형(Interval) 변수 명 레이블 응답 없음 형식 결측률 최소 최대 평균 A1 A1. 실내 공기질 우려도 9 O 0 1 7 3.27 A2 A2. 실외 공기질 우려도 9 O 0 0 7 3.40 A5 A5. 더 해로운 공기 타입 실외 공기질 vs. 실내 공기질 9 N 0 0 2 1.46 B1 B1. 코웨이" 브랜드 선호도 O 0 2 7 5.50 B2 B2. 코웨이" 브랜드 추천의향 O 0 1 7 5.42 B3_1 B3. "코웨이" 브랜드 이미지 - (1) 전문적이다 9 O 0 2 7 5.71 B3_2 B3. 코웨이" 브랜드 이미지 - (2) 프리미엄하다 9 O 0 0 7 5.39 B3_3 B3. 코웨이" 브랜드 이미지 - (3) 젊다 9 O 0 0 7 5.03 B3_4 B3. 코웨이" 브랜드 이미지 - (4) 신뢰할 수 있다 9 O 0 1 7 5.59 B3_5 B3. 코웨이" 브랜드 이미지 - (5) 혁신적이다 9 O 0 1 7 5.16 B4_1 B4. 생활 가전 제품 및 렌탈 서비스 제품 필요도 - (1) 정수기 9 O 0 0 7 5.62 B4_2 B4. 생활 가전 제품 및 렌탈 서비스 제품 필요도 - (2) 공기청정기 9 O 0 0 7 5.42 B5_1 B5. 코웨이" 제품 만족도 - (1) 정수기 9 O 39.80263 0 7 6.00 B5_2 B5. 코웨이" 제품 만족도 - (2) 공기 청정기 9 O 38.92544 0 7 5.63 B6 B6. 공기 청정기의 실내 공기질 개선 영향에 대한 인식 9 O 0 0 7 5.28 B7_1 B7. 향후 1년 내 코웨이 제품 이용 의향 - (1) 정수기 9 O 0 0 99 61.3 B7_2 B7. 향후 1년 내 코웨이 제품 이용 의향 - (2) 공기청정기 9 O 0 0 99 62.3 C1 C1. 가족 구성원 수 9 I 0 0 7 3.64 DE3 H3. 월 평균 소득 (세후 기준) 99 I 0 0 18 7.07 G1 G1. [공기질 측정 서비스 컨셉 평가] 호감도 9 O 0 0 7 5.42 G2 G2. [공기질 측정 서비스 컨셉 평가] 필요도 9 O 0 0 7 5.29 G3 G3. [공기질 측정 서비스 컨셉 평가] New/차별도 9 O 0 0 7 5.50 G4 G4. [공기질 측정 서비스 컨셉 평가] 이용 의향도 9 O 0 0 7 5.29 MAX_AGE MAX_AGE. 나이 가장 많은 사람(C1-2) I 0.328947 0 94 44.19 PA_COUNT PA_COUNT. 가족구성원 중 질환자 수 I 0 0 5 0.75 SQ16_1 SQ16-1.자녀가 있습니까?(예, 아니오) N 37.39035 1 2 1.05 SQ16_2_1 SQ16-2. - 1 자녀의 나이는 어떻게 됩니까? (가장어린자녀) I 40.89912 1 5 2.42 SQ4 SQ4. 연령 99 I 0 0 59 38.73 type 공기 청정기 보유 유무 N 0 1 3 1.52 29
  • 30. 고객세분화 – 군집 분석 6. 마케팅 기획 2. 군집 분석 : 고객 세분화 2-1. 군집 분석 노드 설정 * 분석 속성패널 변수 왜도(치우침)가 놓은 자료가 많아 내부표준화를 standardization 옵션 설정 * 결측 값 속성패널 일부 변수에서 ‘응답 없음’ 값을 9 또는 99 등의 dummy값으로 대체하였기 때문에 정보의 왜곡을 방지하기 위해 EG에서 삭제 이후 EM에서 결측 값 속성은 모두 ‘무시’ 설정 * 클러스터 선택기준 속성패널 군집의 수, 특성, CCC도표를 고려해 클러스터링 방법은 Ward 옵션 * 초기클러스터 난수 속성패널 군집간의 근접성을 고려해 적절히 떨어져 있는 초기 시드 값을 배정하기 위해 Full Replacement 옵션 2-2. 군집 분석 결과(CCC그래프, 세그먼트 크기, 입력 평균 그래프) 30
  • 31. 고객세분화 – 군집 해석 6. 마케팅 기획 3. 군집 해석 : 고객 군 세분화 유형 1번 군집 : “싸고 좋은 게 좋아” 가족 구성원에 대한 설문과 공기 질 우려도에 대한 설문 조사 결과를 봤을 때, 공기청정기의 필요도에 대한 마케팅은 중요하지 않을 것이라 판단 된다. 그러나 브랜드 이미지에 대한 설문과 월 평균 소득 에 대한 조사 결과를 볼 때, 경쟁사에서 비슷한 성 능에 비슷한 서비스를 좀 더 싼 가격에 제공한다면 이탈 할 가능성이 높은 군집으로 판단 된다. 따라 서, 경쟁사에 대가 가격 경쟁력을 가질 수 있는 마 케팅 전략을 수립 한다면 고객 유지 및 비슷한 성 향의 신규고객 확보에 도움이 될 것이라 판단된다. 4번 군집 : “공기청정기는 코웨이!” 가족 구성원 항목을 보면, 질환자 수, 자녀의 나이 등 청정기 제품에 대한 필요도가 높이다. 또한 브 랜드에 해한 이미지 점수도 가장 좋고 공기 질, 제 품에 대한 인식이 높아 핵심 고객군집이라 판단한 다. 따라서 현재의 관계를 유지 및 관리 할 수 있는 마케팅 전략이 요구된다. 2번 군집 : “다 필요 없어” 공기 질에 대한 인식, 청정기의 개선 효과, 브랜드 이미지, 브랜드 선호도 등 거의 대부분의 항목에서 가장 낮은 점수를 부여한 군집으로 공기 질, 제품 및 서비스, 브랜드 등에 대한 통합적인 인식 개선 이 필요하다 5번 군집 : “믿을 수 있는 겨?” 응답자 연령이 가장 높은 군집으로 공기 질에 대한 우려도가 낮다. 브랜드에 대한 인식은 평균 보다 높은 편이지만, 제품 및 서비스에 대한 필요도, 민 족도, 구매 의향에 대한 점수가 낮고, 특히 공기청 정기에 대해 더 낮은 점수 준 것으로 볼 때 이에 대 한 인식 개선 전략이 필요한 군집이다. 3번 군집 : “그냥 쓰던 대로 쓸래” 모두 공기 청정기를 ‘보유 및 관리’ 하고 있는 군집 으로, 브랜드에 대한 이미지, 공기 청정기에 대한 인식과 관련된 모든 설문에서 평균보다 높은 점수 를 주었다. 하지만 코웨이의 강점인 IOT관련 서비 스에 대해(공기 질 측정 서비스 컨셉) 낮은 점수를 준 것으로 볼 때, 서비스에 대한 인식 개선이나 IOT 기술을 활용한 서비스 개발이 필요 할 것으로 보인다. 6번 군집 : “역시 믿을 수 있는 거야?” 군집 중 가장 어린 군집 층으로, 공기 질 우려도에 대해 유일하게 실내 공기 질이 더 우려 된다 답한 군집이다. 하지만 청정기에 대한 필요도, 만족도, 구매 의향이 모두 낮기 때문에 공기 청정기의 효과 에 대해서는 의구심을 갖는 군집으로 생각 된다. 따라서 공기 청정기의 효과에 대한 인식을 보여 줄 수 있는 마케팅 전략이 필요 할 것으로 판단된다. 31
  • 32. 마케팅 전략방향 제시 6. 마케팅 기획 1. 군집 특징기준 분류 1-1. 군집 분류별 마케팅전략 구조 a. 5,6번 군집 : 공기 질, 공기청정기 인식개선 전략 b. 3번 군집 : 서비스 차별화 전략 c. 1번 군집 : 원가절감을 이용한 저가격 전략 4번 군집 : “공기청정기는 코웨이!” (핵심고객, 이상적인 고객유형) 3번 군집 : “그냥 쓰던 대로 쓸래” 1번 군집 : “싸고 좋은 게 좋아”2번 군집 : “다 필요 없어” 브랜드 충성도 공기질/공기청정기 효과인식 5번 군집 : “믿을 수 있는 겨?” 6번 군집 : “역시 믿을 수 있는 거야?” c a 32 b
  • 33. 마케팅 전략방향 제시 – 5,6번 군집(a) 6. 마케팅 기획 a-2. 인식개선 컨텐츠 예시 공기질 경보단계 알림 시스템 지하철/버스정류소 내 동영상 및 LED패널 매체를 이용해 해당 지역의 공기 질 정보를 [좋음/ 보통/ 나쁨]으로 구분하여 알리며 나쁜 공기 질 이 어떤 영향을 미치는지에 대한 언급. 3단계 알림 시스템으로 직관적 이며 지속적인 공기 질에 대한 관심 유도 가능. 다큐멘터리(실험) 공기 청정기 공기 질 개선 효과는 통계(과학)적으로 입증시킬 수 있으나, 그 정보를 그대로 대중에게 전할 수 없음. 이러한 측면에서 다큐멘터리는 TV가 가진 대중성과 청정기의 개선효과에 대한 정보 전달이 모두 가능하다는 장점이 있음. TV프로그램 PPL(요리프로그램) 요리프로그램 협찬을 통해 방송 중 자연스럽게 공기 청정기 가동 모습 을 노출시켜 요리로 인한 공기 질 오염(별첨 참조)을 개선시킬 수 있다는 이미지 연출. 이를 통해 공기 질에 대한 인식 및 제품에 대한 효과를 동시에 어필 가능. 33 a. 공기 질, 공기청정기 인식개선 전략 공기청정기 보급(시장 확대)을 위해 기본적으로 공기 질과 공기 청정기에 대한 인식이 전제되어야 함. 군집 분석 결과 중 2번 5번 6번이 이에 대한 마케팅 전략이 필요한 군집으로, 특히 5번과 6번의 경우 가장 평균 연령이 높고(50세), 가장 평균 연령이 낮은(34세) 특징이 있기 때문에 연령 대별로 어떠한 커뮤니케이션 채널로 마케팅을 진행할 것 인가에 대한 고민이 필요. • 공기 질에 대한 위험성을 알려 소비자의 경각심을 일깨우도록 유도 • 공기청정기의 공기 질 개선효과(별첨 참조)를 알릴 수 있는 컨텐츠 통해 공기청정기의 필요성을 각인시키고자 함. a-1. 공기 질, 공기청정기 인식개선 전략 개요 공기질 건강상의 위험성 인지 공기 청정기 필요성 인식
  • 34. 34 b. 서비스 차별화 전략 3번 군집은 공기 질의 중요성이나 공기청정기의 필요성에 대한 인식은 긍정적이고, ‘코웨이’ 브랜드 이미지에 대해 상대적으로 긍정적인 성향을 가졌으나, 새로 나온 “공기 질 측정 서비스“에 대해 부정적으로 성향을 가짐. 따라서, 브랜드 충성도 확보를 바탕으로 차별화 전략이 필요로 함. 코웨이의 강점역량 중 하나인 방문판매원(코디)를 이용한 케어 서비스와 IOT기반 기술을 활용한 서비스가 필요로 할 것으로 예상. IoCare제품과 함께 제공되는 실내공기 관리서비스 플랫폼을 활용하여 실내 공기 질에 영향을 미칠 오염원(카펫, 커튼, 매트릭스 등)에 관리시점을 알려주 고, 이에 대한 연계서비스를 제공해 지속적인 공기 질 관리를 돕는 제품-서비스 시 스템 1. IoCare 제품을 이용하는 고객에 대해 기상정보, 계절정보, 실내 공기 질 정보와 함께 주요 오염원의 관리 시점에 대해 고객에게 안내(어플리케이션 팝업방식) 2. 고객은 알림을 받은 후, 세탁물 수거가능 시간대를 예약함. 3. 이때, 클린토피아와 같은 세탁업체와의 협약을 통해 세탁물은 세탁업체에 위탁. b-1. 서비스 프로세스 마케팅 전략방향 제시 – 3번 군집(b) 6. 마케팅 기획
  • 35. 35 마케팅 전략방향 제시 – 1번 군집(c) 6. 마케팅 기획 c. 원가절감을 통한 저가격 전략 1번 군집은 공기청정기의 필요성은 충분히 존재하고, 현재의 코웨이에 대 해 만족스러운 브랜드 인식을 갖고 있음. 보편적으로 서비스에 대해 만족 하나, 월 소득이 보편적으로 낮은 경향을 보여 현재의 서비스 비용에 대 해 부담을 느끼는 것으로 예상됨. IoCare제품의 실시간 공기질 측정 서비스를 이용하여, 방문서비스의 빈도를 최소화 할 수 있음. 이를 통해 방문 인건비 등의 원가 절감 효과를 얻을 수 있을 것으로 예상되며, 서비스의 최소 질을 유지하면서 낮은 가격을 제공하 는 전략 제시.
  • 36. 코웨이 공기청정기의 공기 질 개선효과를 이용한 마케팅 기획 - 결론 36 1. T-test 와 ANOVA를 이용하여 공기청정기의 실내 공기 질 개선효과를 검증 • 일반먼지, 미세먼지, 초미세먼지에 대해 확실한 공기 질 개선 효과가 있음 2. 코웨이 설문지 데이터를 이용하여 고객 군집 분석을 실시 • 총 6개의 군집으로 고객 분류 • 각 군집에 대한 정성적 분석을 통해 5, 6번 군집의 유사성을 확인 후 두 군집을 하나의 고객 군으로 정의 3. 각 군집에 맞는 맞춤 마케팅 전략 제시 • 공기질 위험에 대한 인식 개선 → 공기청정기의 개선효과 인식 개선 • 서비스 강화 전략 • 서비스 다양화 전략
  • 37. 37