SlideShare a Scribd company logo
1 of 22
Download to read offline
https://dacon.io/competitions/official/235584/overview/
AI프렌즈 시즌1
공공데이터를 활용한
온도추정 경진대회
팀장문성민
팀원이유준,성민석,정재엽
목차
STEP 1
STEP 2
STEP 3
2
1 데이터 전처리
데이터 전처리
• Y 값 설정
• 시간 관련 특징 추가
- 시간 범주
- 시간에 따른 기온 차
- 시간에 따른 습도 차
- 시간에 따른 일사량 차
2 모델링
3 결과 및 결언
모델링
• LightGBM
• Ensemble
결과 및 결언
팀 문성민
데이터 전처리
팀 문성민
4
Y값 설정
- 𝑌18과 상관관계가 낮았던 𝑌3과 𝑌4를 제외
- 𝑌0부터 𝑌17 를 조합하여 𝑌18이 없는 30일의 데이터로
- 𝑌18이 존재했던 마지막 3일을 기준으로 𝑌값 추정
- 3개의 𝑌값 조합(𝑌𝑎, 𝑌𝑏, 𝑌𝑐)으로 학습하여 𝑌18 값과 𝑅𝑀𝑆𝐸 값 비교
𝑌18 =
1
3
𝑌6 + 𝑌10 + 𝑌12 +
1
3
𝑌0 + 𝑌10 + 𝑌12
2
𝑦18
𝑌0 ~ 𝑌17
𝑌𝑎
𝑇31~𝑇33𝑇1~𝑇30
𝑋0 ~ 𝑋 𝑌18
Train Dataset
𝑌𝑏 𝑌𝑐
𝑦 𝑝𝑟𝑒𝑑
𝑅𝑀𝑆𝐸팀 문성민
38
5
Y값 설정 (실제 코드)
쉬운 식별화를 위한 데이터 전처리 작업
𝑌18 설정
용이한 학습을 위한 스케일링
팀 문성민
6
시간 관련 특징 추가 – 시간 범주
- 시간을 범주화 후 해당 시간의 𝑌18 통계치를 넣음
팀 문성민
범주화를 위한 함수 정의
시간 범주에 해당하는 통계치
7
시간 관련 특징 추가 – 강수량
- 시간과 강수 유무를 동시에 고려한 특징 추가
- 합, 평균 그리고 편차와 같은 기초 통계량 사용
팀 문성민
8
시간 관련 특징 추가 – 시간에 따른 기온 차
- 기온과 관련된 5개의 변수에 대하여 각각 6시간, 12시간, 24시간 그리고 36시
간 전 기온의 차이에 대한 변수 생성
팀 문성민
24시간
12시간
6시간
36시간
주의:
해당 순서로 하지 않을
시 추후 LightGBM의
성능이 달라질 수 있음
9
시간 관련 특징 추가 – 시간에 따른 습도 차
- 습도과 관련된 5개의 변수에 대하여 각각 6시간, 12시간, 24시간 그리고 36시
간 전 기온의 차이에 대한 변수 생성
팀 문성민
24시간
12시간
36시간
6시간 주의:
해당 순서로 하지 않을
시 추후 LightGBM의
성능이 달라질 수 있음
10
시간 관련 특징 추가 – 시간에 따른 습도와 일사량 차
- 습도와 관련된 5개 변수에 대해 10분과 1시간 이전과의 차이에 대한 변수 생성
- 또한, 누적 일사량과 관련된 5개의 변수 중 실제로 측정된 변수 2개(X11, X34)
를 통해, 10분과 1시간 단위의 일사량이라는 변수 생성
팀 문성민
11
시간 관련 특징 추가 – 시간에 따른 습도와 일사량 차
- 습도의 10분 차에 대한 변수 5개의 평균을 도출하고 변수 생성
- 10분 단위 일사량에 대한 변수 2개의 평균을 도출하고 변수 생성
- 습도와 일사량에 대한 평균변수 2개를 곱한 변수 생성
- Why? 습도와 일사량의 관계를 모델에 적용하기 위해
팀 문성민
diff_습도_1_n : 습도의 10분 차에 대한 변수
diff_일사량_1_n : 일사량의 10분 차에 대한 변수
모델링
팀 문성민
특징 분할
- 특징을 5개로 분할하여 앙상블 준비
Feature Set
COL1공통 특징
COL2공통 특징
COL3공통 특징
COL4
CO5 (기압 관련 특징 제외)
특징 분할 (실제코드)
특징 분할 (실제코드)
16
LightGBM
- LightGBM 2.2.3 버전 사용
- 하이퍼파라미터
- boosting: dart
- learning_rate: 0.05
- max_depth: 10
- bagging_fraction: 0.8
- num_leaves: 128
- feature_fraction: 0.8
팀 문성민
17
LightGBM – Feature Importance
팀 문성민
18
앙상블(Ensemble)
- COL1 ~ COL3까지의 멱평균(Power mean)을 진행
- 이 때, 𝑝값은 88.4
팀 문성민
𝑀 𝑝 𝑥1, … , 𝑥 𝑛 = ෍
𝑖=1
𝑛
𝑥𝑖
𝑝
1
𝑝
제출 파일 생성
- 최종 결과로는 3가지 결과값으로 아래 식과 같은 가중평균 생성
- 𝑎 : COL1 ~ COL3로 만든 멱평균
- 𝑏 : COL4
- 𝑐 : COL5
팀 문성민
𝑆𝑢𝑏𝑚𝑖𝑠𝑠𝑠𝑖𝑜𝑛 = 0.5 × 𝑎 + 0.1 × 𝑏 + 0.4 × 𝑐
결과 및 결언
팀 문성민
21
결과 및 결언
- Y값 설정이 모델의 성능을 크게 좌우함.
- Y18과 상관관계가 컸던 Y15와 Y16으로 회귀식을 만들어 Y18값을 만들었으나
Public Score가 좋지 못함.
- 시간의 흐름을 반영하여 생성한 Feature인 온도/습도 변화량이 Public Score를
향상시키는데 크게 기여함. 그 중 특히 기온을 활용한 Feature(X00,X07…. 등)
의 기여도가 높았음.
- XGBoost이나 LSTM 모델보단 LightGBM 모델의 성능이 더 좋았으며, GBDT
보다 DART에서 좋은 성능을 보였음.
- 기압 관련 특징 제외한 모델의 성능이 그렇지 않은 모델의 성능보다 우수했음.
- 모델의 예측 값에 편향을 추가 시, Public Score에서 더욱 좋은 성능을 보임
팀 문성민
감사합니다
22팀 문성민

More Related Content

Similar to 공공데이터를 활용한 특정지역 온도추정 경진대회 2위 수상작

데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhleeDongheon Lee
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작ssuserfa4e58
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작DACON AI 데이콘
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesSunghoon Joo
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리SANG WON PARK
 
I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)Susang Kim
 
Performance consulting
Performance consultingPerformance consulting
Performance consultingIMQA
 
공공자전거의 단기 이용자 수 변화 요인 분석 및 수요 예측
공공자전거의 단기 이용자 수 변화 요인 분석 및 수요 예측공공자전거의 단기 이용자 수 변화 요인 분석 및 수요 예측
공공자전거의 단기 이용자 수 변화 요인 분석 및 수요 예측vanillahub12
 
학습곡선과 라인밸런싱
학습곡선과 라인밸런싱학습곡선과 라인밸런싱
학습곡선과 라인밸런싱준호 김
 
Function approximation as supervised learning
Function approximation as supervised learningFunction approximation as supervised learning
Function approximation as supervised learningSunggon Song
 
Sw개발 hw제작설계서 임베부스러기
Sw개발 hw제작설계서 임베부스러기Sw개발 hw제작설계서 임베부스러기
Sw개발 hw제작설계서 임베부스러기21HG020
 

Similar to 공공데이터를 활용한 특정지역 온도추정 경진대회 2위 수상작 (13)

분석6기 4조
분석6기 4조분석6기 4조
분석6기 4조
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of Samples
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리
 
I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)
 
Performance consulting
Performance consultingPerformance consulting
Performance consulting
 
공공자전거의 단기 이용자 수 변화 요인 분석 및 수요 예측
공공자전거의 단기 이용자 수 변화 요인 분석 및 수요 예측공공자전거의 단기 이용자 수 변화 요인 분석 및 수요 예측
공공자전거의 단기 이용자 수 변화 요인 분석 및 수요 예측
 
학습곡선과 라인밸런싱
학습곡선과 라인밸런싱학습곡선과 라인밸런싱
학습곡선과 라인밸런싱
 
Function approximation as supervised learning
Function approximation as supervised learningFunction approximation as supervised learning
Function approximation as supervised learning
 
Sw개발 hw제작설계서 임베부스러기
Sw개발 hw제작설계서 임베부스러기Sw개발 hw제작설계서 임베부스러기
Sw개발 hw제작설계서 임베부스러기
 

More from DACON AI 데이콘

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engDACON AI 데이콘
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korDACON AI 데이콘
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의DACON AI 데이콘
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상DACON AI 데이콘
 

More from DACON AI 데이콘 (20)

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
 
Superbai
SuperbaiSuperbai
Superbai
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
 
20200923
2020092320200923
20200923
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
 

공공데이터를 활용한 특정지역 온도추정 경진대회 2위 수상작

  • 2. 목차 STEP 1 STEP 2 STEP 3 2 1 데이터 전처리 데이터 전처리 • Y 값 설정 • 시간 관련 특징 추가 - 시간 범주 - 시간에 따른 기온 차 - 시간에 따른 습도 차 - 시간에 따른 일사량 차 2 모델링 3 결과 및 결언 모델링 • LightGBM • Ensemble 결과 및 결언 팀 문성민
  • 4. 4 Y값 설정 - 𝑌18과 상관관계가 낮았던 𝑌3과 𝑌4를 제외 - 𝑌0부터 𝑌17 를 조합하여 𝑌18이 없는 30일의 데이터로 - 𝑌18이 존재했던 마지막 3일을 기준으로 𝑌값 추정 - 3개의 𝑌값 조합(𝑌𝑎, 𝑌𝑏, 𝑌𝑐)으로 학습하여 𝑌18 값과 𝑅𝑀𝑆𝐸 값 비교 𝑌18 = 1 3 𝑌6 + 𝑌10 + 𝑌12 + 1 3 𝑌0 + 𝑌10 + 𝑌12 2 𝑦18 𝑌0 ~ 𝑌17 𝑌𝑎 𝑇31~𝑇33𝑇1~𝑇30 𝑋0 ~ 𝑋 𝑌18 Train Dataset 𝑌𝑏 𝑌𝑐 𝑦 𝑝𝑟𝑒𝑑 𝑅𝑀𝑆𝐸팀 문성민 38
  • 5. 5 Y값 설정 (실제 코드) 쉬운 식별화를 위한 데이터 전처리 작업 𝑌18 설정 용이한 학습을 위한 스케일링 팀 문성민
  • 6. 6 시간 관련 특징 추가 – 시간 범주 - 시간을 범주화 후 해당 시간의 𝑌18 통계치를 넣음 팀 문성민 범주화를 위한 함수 정의 시간 범주에 해당하는 통계치
  • 7. 7 시간 관련 특징 추가 – 강수량 - 시간과 강수 유무를 동시에 고려한 특징 추가 - 합, 평균 그리고 편차와 같은 기초 통계량 사용 팀 문성민
  • 8. 8 시간 관련 특징 추가 – 시간에 따른 기온 차 - 기온과 관련된 5개의 변수에 대하여 각각 6시간, 12시간, 24시간 그리고 36시 간 전 기온의 차이에 대한 변수 생성 팀 문성민 24시간 12시간 6시간 36시간 주의: 해당 순서로 하지 않을 시 추후 LightGBM의 성능이 달라질 수 있음
  • 9. 9 시간 관련 특징 추가 – 시간에 따른 습도 차 - 습도과 관련된 5개의 변수에 대하여 각각 6시간, 12시간, 24시간 그리고 36시 간 전 기온의 차이에 대한 변수 생성 팀 문성민 24시간 12시간 36시간 6시간 주의: 해당 순서로 하지 않을 시 추후 LightGBM의 성능이 달라질 수 있음
  • 10. 10 시간 관련 특징 추가 – 시간에 따른 습도와 일사량 차 - 습도와 관련된 5개 변수에 대해 10분과 1시간 이전과의 차이에 대한 변수 생성 - 또한, 누적 일사량과 관련된 5개의 변수 중 실제로 측정된 변수 2개(X11, X34) 를 통해, 10분과 1시간 단위의 일사량이라는 변수 생성 팀 문성민
  • 11. 11 시간 관련 특징 추가 – 시간에 따른 습도와 일사량 차 - 습도의 10분 차에 대한 변수 5개의 평균을 도출하고 변수 생성 - 10분 단위 일사량에 대한 변수 2개의 평균을 도출하고 변수 생성 - 습도와 일사량에 대한 평균변수 2개를 곱한 변수 생성 - Why? 습도와 일사량의 관계를 모델에 적용하기 위해 팀 문성민 diff_습도_1_n : 습도의 10분 차에 대한 변수 diff_일사량_1_n : 일사량의 10분 차에 대한 변수
  • 13. 특징 분할 - 특징을 5개로 분할하여 앙상블 준비 Feature Set COL1공통 특징 COL2공통 특징 COL3공통 특징 COL4 CO5 (기압 관련 특징 제외)
  • 16. 16 LightGBM - LightGBM 2.2.3 버전 사용 - 하이퍼파라미터 - boosting: dart - learning_rate: 0.05 - max_depth: 10 - bagging_fraction: 0.8 - num_leaves: 128 - feature_fraction: 0.8 팀 문성민
  • 17. 17 LightGBM – Feature Importance 팀 문성민
  • 18. 18 앙상블(Ensemble) - COL1 ~ COL3까지의 멱평균(Power mean)을 진행 - 이 때, 𝑝값은 88.4 팀 문성민 𝑀 𝑝 𝑥1, … , 𝑥 𝑛 = ෍ 𝑖=1 𝑛 𝑥𝑖 𝑝 1 𝑝
  • 19. 제출 파일 생성 - 최종 결과로는 3가지 결과값으로 아래 식과 같은 가중평균 생성 - 𝑎 : COL1 ~ COL3로 만든 멱평균 - 𝑏 : COL4 - 𝑐 : COL5 팀 문성민 𝑆𝑢𝑏𝑚𝑖𝑠𝑠𝑠𝑖𝑜𝑛 = 0.5 × 𝑎 + 0.1 × 𝑏 + 0.4 × 𝑐
  • 21. 21 결과 및 결언 - Y값 설정이 모델의 성능을 크게 좌우함. - Y18과 상관관계가 컸던 Y15와 Y16으로 회귀식을 만들어 Y18값을 만들었으나 Public Score가 좋지 못함. - 시간의 흐름을 반영하여 생성한 Feature인 온도/습도 변화량이 Public Score를 향상시키는데 크게 기여함. 그 중 특히 기온을 활용한 Feature(X00,X07…. 등) 의 기여도가 높았음. - XGBoost이나 LSTM 모델보단 LightGBM 모델의 성능이 더 좋았으며, GBDT 보다 DART에서 좋은 성능을 보였음. - 기압 관련 특징 제외한 모델의 성능이 그렇지 않은 모델의 성능보다 우수했음. - 모델의 예측 값에 편향을 추가 시, Public Score에서 더욱 좋은 성능을 보임 팀 문성민