2. BOAZ_MKS
목차
STEP 1
STEP 2
STEP 3
2
1 특성 공학
특성 공학
• Null 처리
• Fourier Transform
• Lambert’s law
• Ratio Combination
• Scaling
2 모델링
3 결과 및 결언
모델링
• LightGBM
• Feature Selection
• Ensemble
결과 및 결언
5. BOAZ_MKS
- Fourier Transformation을 통하여
- Jamm의 글 참고
https://dacon.io/competitions/official/235608/codeshare/1130?page=
1&dtype=recent&ptype=pub
특성 공학 Fourier Transformation
6. BOAZ_MKS
특성 공학 Lambert’s Law
- 람베르트 법칙은 빛이 어떤 물체를 투과할 때, 빛의 반사, 회절, 굴절하면 빛의
세기가 변하는 사실을 바탕으로 유도된 법칙이다. 투과 전과 투과 후의 비에
자연로그를 취하면, 이는 물체의 두께에 비례한다.
- 광흡수에서 입사광의 강도 𝑰 𝟎와 투과광의 강도 𝑰의 비를 로그로 표시한 것이
흡수물질의 두께 d에 비례함을 표현한 법칙
log
𝑰 𝟎
𝑰
= 𝑎𝑑
7. BOAZ_MKS
- 앞서 Lambert 공식을 활용하여 생성한 흡수 계수에 대하여 Window를
Sliding시켜서 Feature 생성
- 650nm ~ 990nm 까지 모든 순서쌍에 대하여 적용함
특성 공학 Ratio Combination
8. BOAZ_MKS
- 주어진 데이터의 모든 행에 대하여 Min-Max Scaling과 Standard Scaling를
이용하여 데이터를 scaling함
특성 공학 - Scaling
10. BOAZ_MKS
모델링 - LightGBM
- LightGBM 2.2.3 버전 사용
- 각 target에 해당하는 4개의 모델을 생성
- 공통된 하이퍼파라미터
- boosting: dart
- learning_rate: 0.05
- max_depth: 10
- bagging_fraction: 0.8
- num_leaves: 128
- feature_fraction: 0.8
11. BOAZ_MKS
모델링 Feature Selection
- 모델의 Validation Score를 저하시키는 feature 확인
- 해당되는 feature를 A/B 테스트를 통하여 직접 제거함
ca 모델을 위한 feature selection hbo2 모델을 위한 feature selection
12. BOAZ_MKS
모델링 Define our models
E FA B C D
model 1 model 2
Scaling을 활용
Feature Selection 하지 않음
Scaling을 활용하지 않고
Feature Selection 활용
서로 다른 4가지
Random_state로 학습한 모델들
서로 다른 scaling 처리
15. BOAZ_MKS
- 전처리에 대하여
- 보간법으로는 맨 처음 값을 못 채우는 현상이 발생
- 이를 채우기 위해 맨 처음에 first라는 이름으로 0 을 넣어 보간
- Features에 대하여
- src / dst 와 log10(src/dst) / rho
- Lambert 공식을 응용한 피처를 추가했을 때 성능이 가장 좋았음
- 전체 dst 와 src 의 합을 활용
- 스펙트럼에서 src의 비율, dst의 비율을 활용
- Rho를 활용한 피처를 많이 생성한 것도 성능 향상에 많은 도움이 됨
- Domain knowledge를 활용한 피처들이 성능이 좋았음
- 모델에 대하여
- XGBoost보단 LightGBM 모델의 성능이 더 좋았으며, GBDT 보다 DART에서 좋은 성능을 보였음
- 최대한 많은 경우를 앙상블 했으며 output이 0 미만으로 나온다면 0으로 반환
- Learning rate를 조절하여 학습한 것은 성능 향상에 도움이 안됨
- Max depth나 num_leave를 조절하여 학습한 것은 성능 향상에 도움이 안됨
- Random_state를 여러 개 활용하여 앙상블한 결과가 성능이 좋았음
15
결과 및 결언