SlideShare a Scribd company logo
1 of 18
Download to read offline
https://dacon.io
퇴근시간 버스 승차인원 예측
경진대회
제주감귤팀
남윤주 류예나 이채연 최승희 황태용
목차
데이터 전처리 & EDA
모델 구축 & 검증
결과 및 결언3
1.1~1.7 EDA를 통한 변수 생성 과정
2.1 전체적인 Process
2.2
2.3
Adapted model - RF
Ensemble
1
2문제 정의0
12:00 18:0006:00
오전 시간 (6:00 ~ 12:00)
데이터를 활용
퇴근시간 (18:00 ~ 20:00)
버스 승차인원 예측
0. 문제 정의
제주도 버스의 효율적인 운행을 위한 퇴근시간 승차 인원 예측 모델 구축
2019.9.31 2019.10.1
5
2019.9.1
9월 1일 ~ 30일
데이터 활용
10월 1일 ~ 15일의 퇴근시간
버스 승차인원 예측
0. 문제 정의
제주도 버스의 효율적인 운행을 위한 퇴근시간 승차 인원 예측 모델 구축
날짜 (date)
버스 노선 (bus_route_id)
승하차 정류소(station_name)
퇴근시간 (18:00 ~ 20:00)
버스 승차인원
0. 문제 정의
제주도 버스의 효율적인 운행을 위한 퇴근시간 승차 인원 예측 모델 구축
날짜, 버스 노선, 승 하차 정류소의
퇴근 시간 버스 승차 인원에 영향을 미치는 변수
0. 문제 정의
제주도 버스의 효율적인 운행을 위한 퇴근시간 승차 인원 예측 모델 구축
오전 데이터 → 오후 예측
공휴일이 많이 포함 된 9월 기간 동안의 학습 데이터로
일반화된 모델 구축
https://dacon.io 7
1. 데이터 전처리 & EDA
•분석 결과 : 요일에 따라 탑승객 수가 확연히 차이가 나고, 특히 주중과 주말이 큰 차이가 남.
월요일에서 금요일로 갈수록 탑승객 수가 줄어들다가, 다시 주말에 탑승객 수가 점점 올라감.
•피쳐 생성 : weekday – date변수를 datetime으로 type변경 후, 요일을 dummy 변수 생성
weekend – weekday변수에서 주중 0, 주말 1
1820_w_mean – 요일별 18~20시의 탑승인원의 평균
1820_w_sum – 요일별 18~20시의 탑승인원의 합
1-1. 요일에 따른 18~20시 탑승객 수
https://dacon.io 8
1. 데이터 전처리 & EDA
•분석 결과 : 출근시간의 승차인원 합과 평균 / 퇴근시간 승차인원의 합과 평균이 비슷한 양상을 띠고 있음.
즉, 버스를 타고 출근한 인원은 퇴근 후에도 버스를 타고 귀가함.
•피쳐 생성 : 68a, 810a, 1012a– t, t+2 기준 출근시간 승차인원의 정보를 담고 있음.
69a, 912a – t, t+3 기준 출근시간 승차인원의 정보를 담고 있음.
1-2. 출근시간 승차인원과 퇴근시간 승차인원
18시 ~ 20시의 승차인원 평균
6시 ~ 8시의 승차인원 평균
18시 ~ 20시의 승차인원 합
6시 ~ 8시의 승차인원 합
https://dacon.io 9
1. 데이터 전처리 & EDA
•분석 결과 : 출근시간 하차인원의 합과 평균 / 퇴근시간 승차인원의 합과 평균이 비슷한 양상을 띠고 있음.
출근시간 하차인원이 많은 곳에서는 퇴근시간 승차인원이 많을 것으로 예상됨.
•피쳐 생성 : 68b, 810b, 1012b– t, t+2 기준 출근시간 하차인원의 정보를 담고 있음.
69b, 912b – t, t+3 기준 출근시간 하차인원의 정보를 담고 있음.
1-3. 출근시간 하차인원과 퇴근시간 승차인원
18시 ~ 20시의 승차인원 평균
8시 ~ 10시의 하차인원 평균
18시 ~ 20시의 승차인원 합
8시 ~ 10시의 하차인원 합
https://dacon.io 10
1. 데이터 전처리 & EDA
•분석 결과 : 오전시간에 승/하차인원이 많다는 것은 그날의 유동인구가 많다는 것을 뜻함.
주말이나 연휴에는 유동인구 자체가 적고, 주중에는 상대적으로 유동인구가 많음.
•피쳐 생성 : ride_sum – 오전시간 승차인원 합
takeoff_sum – 오전시간 하차인원 합
1-4. 오전시간대 승/하차인원과 퇴근시간 승차인원
18시 ~ 20시의 하차인원 평균
6시 ~ 12시의 하차인원 평균
18시 ~ 20시의 승차인원 평균
6시 ~ 12시의 승차인원 평균
https://dacon.io 11
1. 데이터 전처리 & EDA
1-5. 배차 간격에 따른 퇴근시간 탑승객 수
•분석 결과 : 배차 간격에 따른 퇴근시간 탑승객 수 사이의 패턴을 확인한 결과, 퇴근시간의 총 탑
승객 수가 적은 ID는 배차 간격이 매우 김
•피쳐 생성 : bus_interval – bus_route_id별 배차간격의 평균값.
https://dacon.io 12
1. 데이터 전처리 & EDA
1-6. 평균 소비액에 따른 18~20시 탑승객 수
•분석 결과 : 평균 소비액이 높다는 것은 그만큼 소비자, 즉 유동인구가 많다는 것을 의미하기도 함.
위의 그래프는 평균 소비액이 높을수록 대체로 탑승객 수가 많음을 보여줌.
•피쳐 생성 : mean_avg_spend – 동별 소비액의 평균
sum_avg_spend – 동별 소비액의 합
rate_avg_spend – 동별 소비액의 비율
https://dacon.io 13
1. 데이터 전처리 & EDA
1-7. 제주특별자치도의 시별 탑승객 수
•분석 결과 : 제주시의 평균 탑승객 수와 서귀포시의 평균 탑승객 수는 거의 두 배 차이임.
따라서 제주시에 가까운 버스정류장일수록 탑승객이 많을 것이며,
서귀포시에 가까운 버스정류장일수록 탑승객이 적을 것으로 예상됨.
•피쳐 생성 : dis_jejusi – 위도 경도 정보를 통해 제주시의 중심으로부터의 거리 정보가 담겨 있음.
si – 외부 프로그램을 사용하여 주소를 추출한 후 제주시와 서귀포시를 더미 변수 생성
Feature set 1
Feature set 2
Feature set 3
Feature set 4 RandomForest
RandomForest
RandomForest
Light GBM
Feature set 5 RandomForest
Ensemble
(Power mean)
Ensemble
(Power mean)
Ensemble
(Weighted Arithmetic mean)
Final Submission File
2. 모델 구축 & 검증
2-1. 전체적인 Process
https://dacon.io 10
https://dacon.io 15
✓ 일반적으로 Boosting 모델이 RandomForest 보다 성능이 높음. 하지만, Overfitting의 위험성이 더 큼.
✓ 우리의 문제는 9월의 한달 간의 데이터로 10월 중순까지의 데이터를 예측하는 문제임. 9월의 데이터 만으로 Boosting 모델을
학습하는 것은 Overfitting의 위험이 있으며, 실제로도 CV rmse와 public rmse score 사이의 큰 차이가 있는 것을 확인함.
이에 우리 팀은 Randomforest를 주 모델로 채택
✓ 앞선 EDA 과정에서 데이터가 요일에 따른 시계열성을 띠는 것을 확인해볼 수 있음,
시계열 모델을 사용하지 않은 이유는 9월과 10월에 공휴일이 많고 짧은 학습 데이터 만으로 일반화된 모델을 만들기 어렵기 때문임.
2. 모델 구축 & 검증
2-2. Adapted model – Random Forest
https://dacon.io 16
✓ <표 1> Feature Set 1 ~ 5로 만든 최종 예측 파일의 상관계수 행렬
✓ <그림 1> 최종 예측 파일들의 성능과 파일들 간의 평균적인 상관관계를 나타낸 그림
✓ 상관 관계가 높은 모델 끼리는 멱 평균(Power mean)을 수행 함 (멱 평균 – 2 & 4, 3 & 5)
✓ 멱평균을 통해 나온 결과는 Feature Set – 1 과 가중 산술 평균(Weighted Arithmetic mean)을 수행 함.
< 표 1 >
< 그림 1 >
Ensemble
(Power mean)
Ensemble
(Power mean)
Ensemble
(Weighted Arithmetic mean)
2. 모델 구축 & 검증
2-3. Ensemble
https://dacon.io 17
✓ 모델 구축의 목적에 맞게 오전에 발생할 수 있는 데이터만 활용 함 (data leakage 차단)
✓ 여러 단일 모델을 앙상블 → 안정성 있는 모델 구축
✓ Overfitting 가능성이 상대적으로 높은 Boosting 모델 지양 → 안정성 있는 모델 구축
✓ Id당 데이터 발생 건수가 적어 Overfitting의 가능성이 큼.
모든 의사결정을 Cross validation rmse를 기준으로 함 → Shake, Overfitting 방지
✓ 위의 과정을 통해 Variance가 적은 일반화된 모델 구축
(CV rmse, Public rmse, Private rmse 사이의 분산이 적음)
3. 결과 및 결언
THANK YOU
https://dacon.io 18

More Related Content

Similar to Prediction of bus riders at the time of departure

권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오Kihoon4
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작DACON AI 데이콘
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스BOAZ Bigdata
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)Seung-Woo Kang
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
 
[COMPAS] 고양시 공공자전거 분석과제(장려상)
[COMPAS] 고양시 공공자전거 분석과제(장려상)[COMPAS] 고양시 공공자전거 분석과제(장려상)
[COMPAS] 고양시 공공자전거 분석과제(장려상)Joonho Lee
 
프로젝트비용원과관리.pptx
프로젝트비용원과관리.pptx프로젝트비용원과관리.pptx
프로젝트비용원과관리.pptxssuser7bdf21
 
Chapter 17 monte carlo methods
Chapter 17 monte carlo methodsChapter 17 monte carlo methods
Chapter 17 monte carlo methodsKyeongUkJang
 
최종 3조 황색봉투_수거차량_최적화
최종 3조 황색봉투_수거차량_최적화 최종 3조 황색봉투_수거차량_최적화
최종 3조 황색봉투_수거차량_최적화 seunghwankim52
 
H/W 규모산정기준
H/W 규모산정기준H/W 규모산정기준
H/W 규모산정기준sam Cyberspace
 
생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작DACON AI 데이콘
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeossuser3b2776
 
천안시 수요대응형 대중교통분석 및 신규노선 제안
천안시 수요대응형 대중교통분석 및 신규노선 제안천안시 수요대응형 대중교통분석 및 신규노선 제안
천안시 수요대응형 대중교통분석 및 신규노선 제안YunSeul Lee
 
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)bigdatacampus
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작DACON AI 데이콘
 
‘서울 어린이 대공원’의 기간별 주차장 이용 현황 분석
‘서울 어린이 대공원’의 기간별 주차장 이용 현황 분석‘서울 어린이 대공원’의 기간별 주차장 이용 현황 분석
‘서울 어린이 대공원’의 기간별 주차장 이용 현황 분석Hyejeong Song
 
임베디드 시스템 찾기3
임베디드 시스템 찾기3임베디드 시스템 찾기3
임베디드 시스템 찾기3Jisu Kang
 

Similar to Prediction of bus riders at the time of departure (20)

권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
 
[COMPAS] 고양시 공공자전거 분석과제(장려상)
[COMPAS] 고양시 공공자전거 분석과제(장려상)[COMPAS] 고양시 공공자전거 분석과제(장려상)
[COMPAS] 고양시 공공자전거 분석과제(장려상)
 
프로젝트비용원과관리.pptx
프로젝트비용원과관리.pptx프로젝트비용원과관리.pptx
프로젝트비용원과관리.pptx
 
Chapter 17 monte carlo methods
Chapter 17 monte carlo methodsChapter 17 monte carlo methods
Chapter 17 monte carlo methods
 
Embedded system
Embedded systemEmbedded system
Embedded system
 
최종 3조 황색봉투_수거차량_최적화
최종 3조 황색봉투_수거차량_최적화 최종 3조 황색봉투_수거차량_최적화
최종 3조 황색봉투_수거차량_최적화
 
H/W 규모산정기준
H/W 규모산정기준H/W 규모산정기준
H/W 규모산정기준
 
생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeo
 
천안시 수요대응형 대중교통분석 및 신규노선 제안
천안시 수요대응형 대중교통분석 및 신규노선 제안천안시 수요대응형 대중교통분석 및 신규노선 제안
천안시 수요대응형 대중교통분석 및 신규노선 제안
 
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
빅데이터 캠퍼스 컨퍼런스 자료집(2016.7.14)
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
 
‘서울 어린이 대공원’의 기간별 주차장 이용 현황 분석
‘서울 어린이 대공원’의 기간별 주차장 이용 현황 분석‘서울 어린이 대공원’의 기간별 주차장 이용 현황 분석
‘서울 어린이 대공원’의 기간별 주차장 이용 현황 분석
 
임베디드 시스템 찾기3
임베디드 시스템 찾기3임베디드 시스템 찾기3
임베디드 시스템 찾기3
 

More from HWANGTAEYONG

DNN-Based Prediction Model for Spatial-Temporal Data
DNN-Based Prediction Model for Spatial-Temporal DataDNN-Based Prediction Model for Spatial-Temporal Data
DNN-Based Prediction Model for Spatial-Temporal DataHWANGTAEYONG
 
Strategies to cluster customers using machine learning and send differentiate...
Strategies to cluster customers using machine learning and send differentiate...Strategies to cluster customers using machine learning and send differentiate...
Strategies to cluster customers using machine learning and send differentiate...HWANGTAEYONG
 
PBL : How to live long and healthy in Health Promotion House
PBL : How to live long and healthy in Health Promotion HousePBL : How to live long and healthy in Health Promotion House
PBL : How to live long and healthy in Health Promotion HouseHWANGTAEYONG
 
Ai&ML Seminar in N3N cloud
Ai&ML Seminar in N3N cloudAi&ML Seminar in N3N cloud
Ai&ML Seminar in N3N cloudHWANGTAEYONG
 
Development of a forecasting model for expected profit for lineage users
Development of a forecasting model for expected profit for lineage usersDevelopment of a forecasting model for expected profit for lineage users
Development of a forecasting model for expected profit for lineage usersHWANGTAEYONG
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링HWANGTAEYONG
 

More from HWANGTAEYONG (6)

DNN-Based Prediction Model for Spatial-Temporal Data
DNN-Based Prediction Model for Spatial-Temporal DataDNN-Based Prediction Model for Spatial-Temporal Data
DNN-Based Prediction Model for Spatial-Temporal Data
 
Strategies to cluster customers using machine learning and send differentiate...
Strategies to cluster customers using machine learning and send differentiate...Strategies to cluster customers using machine learning and send differentiate...
Strategies to cluster customers using machine learning and send differentiate...
 
PBL : How to live long and healthy in Health Promotion House
PBL : How to live long and healthy in Health Promotion HousePBL : How to live long and healthy in Health Promotion House
PBL : How to live long and healthy in Health Promotion House
 
Ai&ML Seminar in N3N cloud
Ai&ML Seminar in N3N cloudAi&ML Seminar in N3N cloud
Ai&ML Seminar in N3N cloud
 
Development of a forecasting model for expected profit for lineage users
Development of a forecasting model for expected profit for lineage usersDevelopment of a forecasting model for expected profit for lineage users
Development of a forecasting model for expected profit for lineage users
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링
 

Prediction of bus riders at the time of departure

  • 1. https://dacon.io 퇴근시간 버스 승차인원 예측 경진대회 제주감귤팀 남윤주 류예나 이채연 최승희 황태용
  • 2. 목차 데이터 전처리 & EDA 모델 구축 & 검증 결과 및 결언3 1.1~1.7 EDA를 통한 변수 생성 과정 2.1 전체적인 Process 2.2 2.3 Adapted model - RF Ensemble 1 2문제 정의0
  • 3. 12:00 18:0006:00 오전 시간 (6:00 ~ 12:00) 데이터를 활용 퇴근시간 (18:00 ~ 20:00) 버스 승차인원 예측 0. 문제 정의 제주도 버스의 효율적인 운행을 위한 퇴근시간 승차 인원 예측 모델 구축
  • 4. 2019.9.31 2019.10.1 5 2019.9.1 9월 1일 ~ 30일 데이터 활용 10월 1일 ~ 15일의 퇴근시간 버스 승차인원 예측 0. 문제 정의 제주도 버스의 효율적인 운행을 위한 퇴근시간 승차 인원 예측 모델 구축
  • 5. 날짜 (date) 버스 노선 (bus_route_id) 승하차 정류소(station_name) 퇴근시간 (18:00 ~ 20:00) 버스 승차인원 0. 문제 정의 제주도 버스의 효율적인 운행을 위한 퇴근시간 승차 인원 예측 모델 구축
  • 6. 날짜, 버스 노선, 승 하차 정류소의 퇴근 시간 버스 승차 인원에 영향을 미치는 변수 0. 문제 정의 제주도 버스의 효율적인 운행을 위한 퇴근시간 승차 인원 예측 모델 구축 오전 데이터 → 오후 예측 공휴일이 많이 포함 된 9월 기간 동안의 학습 데이터로 일반화된 모델 구축
  • 7. https://dacon.io 7 1. 데이터 전처리 & EDA •분석 결과 : 요일에 따라 탑승객 수가 확연히 차이가 나고, 특히 주중과 주말이 큰 차이가 남. 월요일에서 금요일로 갈수록 탑승객 수가 줄어들다가, 다시 주말에 탑승객 수가 점점 올라감. •피쳐 생성 : weekday – date변수를 datetime으로 type변경 후, 요일을 dummy 변수 생성 weekend – weekday변수에서 주중 0, 주말 1 1820_w_mean – 요일별 18~20시의 탑승인원의 평균 1820_w_sum – 요일별 18~20시의 탑승인원의 합 1-1. 요일에 따른 18~20시 탑승객 수
  • 8. https://dacon.io 8 1. 데이터 전처리 & EDA •분석 결과 : 출근시간의 승차인원 합과 평균 / 퇴근시간 승차인원의 합과 평균이 비슷한 양상을 띠고 있음. 즉, 버스를 타고 출근한 인원은 퇴근 후에도 버스를 타고 귀가함. •피쳐 생성 : 68a, 810a, 1012a– t, t+2 기준 출근시간 승차인원의 정보를 담고 있음. 69a, 912a – t, t+3 기준 출근시간 승차인원의 정보를 담고 있음. 1-2. 출근시간 승차인원과 퇴근시간 승차인원 18시 ~ 20시의 승차인원 평균 6시 ~ 8시의 승차인원 평균 18시 ~ 20시의 승차인원 합 6시 ~ 8시의 승차인원 합
  • 9. https://dacon.io 9 1. 데이터 전처리 & EDA •분석 결과 : 출근시간 하차인원의 합과 평균 / 퇴근시간 승차인원의 합과 평균이 비슷한 양상을 띠고 있음. 출근시간 하차인원이 많은 곳에서는 퇴근시간 승차인원이 많을 것으로 예상됨. •피쳐 생성 : 68b, 810b, 1012b– t, t+2 기준 출근시간 하차인원의 정보를 담고 있음. 69b, 912b – t, t+3 기준 출근시간 하차인원의 정보를 담고 있음. 1-3. 출근시간 하차인원과 퇴근시간 승차인원 18시 ~ 20시의 승차인원 평균 8시 ~ 10시의 하차인원 평균 18시 ~ 20시의 승차인원 합 8시 ~ 10시의 하차인원 합
  • 10. https://dacon.io 10 1. 데이터 전처리 & EDA •분석 결과 : 오전시간에 승/하차인원이 많다는 것은 그날의 유동인구가 많다는 것을 뜻함. 주말이나 연휴에는 유동인구 자체가 적고, 주중에는 상대적으로 유동인구가 많음. •피쳐 생성 : ride_sum – 오전시간 승차인원 합 takeoff_sum – 오전시간 하차인원 합 1-4. 오전시간대 승/하차인원과 퇴근시간 승차인원 18시 ~ 20시의 하차인원 평균 6시 ~ 12시의 하차인원 평균 18시 ~ 20시의 승차인원 평균 6시 ~ 12시의 승차인원 평균
  • 11. https://dacon.io 11 1. 데이터 전처리 & EDA 1-5. 배차 간격에 따른 퇴근시간 탑승객 수 •분석 결과 : 배차 간격에 따른 퇴근시간 탑승객 수 사이의 패턴을 확인한 결과, 퇴근시간의 총 탑 승객 수가 적은 ID는 배차 간격이 매우 김 •피쳐 생성 : bus_interval – bus_route_id별 배차간격의 평균값.
  • 12. https://dacon.io 12 1. 데이터 전처리 & EDA 1-6. 평균 소비액에 따른 18~20시 탑승객 수 •분석 결과 : 평균 소비액이 높다는 것은 그만큼 소비자, 즉 유동인구가 많다는 것을 의미하기도 함. 위의 그래프는 평균 소비액이 높을수록 대체로 탑승객 수가 많음을 보여줌. •피쳐 생성 : mean_avg_spend – 동별 소비액의 평균 sum_avg_spend – 동별 소비액의 합 rate_avg_spend – 동별 소비액의 비율
  • 13. https://dacon.io 13 1. 데이터 전처리 & EDA 1-7. 제주특별자치도의 시별 탑승객 수 •분석 결과 : 제주시의 평균 탑승객 수와 서귀포시의 평균 탑승객 수는 거의 두 배 차이임. 따라서 제주시에 가까운 버스정류장일수록 탑승객이 많을 것이며, 서귀포시에 가까운 버스정류장일수록 탑승객이 적을 것으로 예상됨. •피쳐 생성 : dis_jejusi – 위도 경도 정보를 통해 제주시의 중심으로부터의 거리 정보가 담겨 있음. si – 외부 프로그램을 사용하여 주소를 추출한 후 제주시와 서귀포시를 더미 변수 생성
  • 14. Feature set 1 Feature set 2 Feature set 3 Feature set 4 RandomForest RandomForest RandomForest Light GBM Feature set 5 RandomForest Ensemble (Power mean) Ensemble (Power mean) Ensemble (Weighted Arithmetic mean) Final Submission File 2. 모델 구축 & 검증 2-1. 전체적인 Process https://dacon.io 10
  • 15. https://dacon.io 15 ✓ 일반적으로 Boosting 모델이 RandomForest 보다 성능이 높음. 하지만, Overfitting의 위험성이 더 큼. ✓ 우리의 문제는 9월의 한달 간의 데이터로 10월 중순까지의 데이터를 예측하는 문제임. 9월의 데이터 만으로 Boosting 모델을 학습하는 것은 Overfitting의 위험이 있으며, 실제로도 CV rmse와 public rmse score 사이의 큰 차이가 있는 것을 확인함. 이에 우리 팀은 Randomforest를 주 모델로 채택 ✓ 앞선 EDA 과정에서 데이터가 요일에 따른 시계열성을 띠는 것을 확인해볼 수 있음, 시계열 모델을 사용하지 않은 이유는 9월과 10월에 공휴일이 많고 짧은 학습 데이터 만으로 일반화된 모델을 만들기 어렵기 때문임. 2. 모델 구축 & 검증 2-2. Adapted model – Random Forest
  • 16. https://dacon.io 16 ✓ <표 1> Feature Set 1 ~ 5로 만든 최종 예측 파일의 상관계수 행렬 ✓ <그림 1> 최종 예측 파일들의 성능과 파일들 간의 평균적인 상관관계를 나타낸 그림 ✓ 상관 관계가 높은 모델 끼리는 멱 평균(Power mean)을 수행 함 (멱 평균 – 2 & 4, 3 & 5) ✓ 멱평균을 통해 나온 결과는 Feature Set – 1 과 가중 산술 평균(Weighted Arithmetic mean)을 수행 함. < 표 1 > < 그림 1 > Ensemble (Power mean) Ensemble (Power mean) Ensemble (Weighted Arithmetic mean) 2. 모델 구축 & 검증 2-3. Ensemble
  • 17. https://dacon.io 17 ✓ 모델 구축의 목적에 맞게 오전에 발생할 수 있는 데이터만 활용 함 (data leakage 차단) ✓ 여러 단일 모델을 앙상블 → 안정성 있는 모델 구축 ✓ Overfitting 가능성이 상대적으로 높은 Boosting 모델 지양 → 안정성 있는 모델 구축 ✓ Id당 데이터 발생 건수가 적어 Overfitting의 가능성이 큼. 모든 의사결정을 Cross validation rmse를 기준으로 함 → Shake, Overfitting 방지 ✓ 위의 과정을 통해 Variance가 적은 일반화된 모델 구축 (CV rmse, Public rmse, Private rmse 사이의 분산이 적음) 3. 결과 및 결언