생체 광학 데이터 분석 AI 경진대회 7위 수상작

https://dacon.io/competitions/official/235608/overview/
월간 데이콘 5
생체 광학 데이터 분석
AI 경진대회
팀BOAZ_MKS
팀장문성민
팀원김태현,성민석

BOAZ_MKS
목차
STEP 1
STEP 2
STEP 3
2
1 특성 공학
특성 공학
• Null 처리
• Fourier Transform
• Lambert’s law
• Ratio Combination
• Scaling
2 모델링
3 결과 및 결언
모델링
• LightGBM
• Feature Selection
• Ensemble
결과 및 결언

BOAZ_MKS
특성 공학
(Feature Engineering)

BOAZ_MKS
- 보간법(interpolate)을 이용
- 보간법으로 채울 수 없는 데이터는 ffill로 채움
특성 공학 Null 값 처리

BOAZ_MKS
- Fourier Transformation을 통하여
- Jamm의 글 참고
https://dacon.io/competitions/official/235608/codeshare/1130?page=
1&dtype=recent&ptype=pub
특성 공학 Fourier Transformation

BOAZ_MKS
특성 공학 Lambert’s Law
- 람베르트 법칙은 빛이 어떤 물체를 투과할 때, 빛의 반사, 회절, 굴절하면 빛의
세기가 변하는 사실을 바탕으로 유도된 법칙이다. 투과 전과 투과 후의 비에
자연로그를 취하면, 이는 물체의 두께에 비례한다.
- 광흡수에서 입사광의 강도 𝑰 𝟎와 투과광의 강도 𝑰의 비를 로그로 표시한 것이
흡수물질의 두께 d에 비례함을 표현한 법칙
log
𝑰 𝟎
𝑰
= 𝑎𝑑

BOAZ_MKS
- 앞서 Lambert 공식을 활용하여 생성한 흡수 계수에 대하여 Window를
Sliding시켜서 Feature 생성
- 650nm ~ 990nm 까지 모든 순서쌍에 대하여 적용함
특성 공학 Ratio Combination

BOAZ_MKS
- 주어진 데이터의 모든 행에 대하여 Min-Max Scaling과 Standard Scaling를
이용하여 데이터를 scaling함
특성 공학 - Scaling

BOAZ_MKS
모델링 - LightGBM
- LightGBM 2.2.3 버전 사용
- 각 target에 해당하는 4개의 모델을 생성
- 공통된 하이퍼파라미터
- boosting: dart
- learning_rate: 0.05
- max_depth: 10
- bagging_fraction: 0.8
- num_leaves: 128
- feature_fraction: 0.8

BOAZ_MKS
모델링 Feature Selection
- 모델의 Validation Score를 저하시키는 feature 확인
- 해당되는 feature를 A/B 테스트를 통하여 직접 제거함
ca 모델을 위한 feature selection hbo2 모델을 위한 feature selection

BOAZ_MKS
모델링 Define our models
E FA B C D
model 1 model 2
Scaling을 활용
Feature Selection 하지 않음
Scaling을 활용하지 않고
Feature Selection 활용
서로 다른 4가지
Random_state로 학습한 모델들
서로 다른 scaling 처리

BOAZ_MKS
모델링 Ensemble
E FA B C D
model 1 model 2
𝑟𝑒𝑠𝑢𝑙𝑡" 𝑟𝑒𝑠𝑢𝑙𝑡#
𝐹𝑖𝑛𝑎𝑙 𝑟𝑒𝑠𝑢𝑙𝑡
0.7 0.3

BOAZ_MKS
결과 및 결언
(Result & Conclusion)

BOAZ_MKS
- 전처리에 대하여
- 보간법으로는 맨 처음 값을 못 채우는 현상이 발생
- 이를 채우기 위해 맨 처음에 first라는 이름으로 0 을 넣어 보간
- Features에 대하여
- src / dst 와 log10(src/dst) / rho
- Lambert 공식을 응용한 피처를 추가했을 때 성능이 가장 좋았음
- 전체 dst 와 src 의 합을 활용
- 스펙트럼에서 src의 비율, dst의 비율을 활용
- Rho를 활용한 피처를 많이 생성한 것도 성능 향상에 많은 도움이 됨
- Domain knowledge를 활용한 피처들이 성능이 좋았음
- 모델에 대하여
- XGBoost보단 LightGBM 모델의 성능이 더 좋았으며, GBDT 보다 DART에서 좋은 성능을 보였음
- 최대한 많은 경우를 앙상블 했으며 output이 0 미만으로 나온다면 0으로 반환
- Learning rate를 조절하여 학습한 것은 성능 향상에 도움이 안됨
- Max depth나 num_leave를 조절하여 학습한 것은 성능 향상에 도움이 안됨
- Random_state를 여러 개 활용하여 앙상블한 결과가 성능이 좋았음
15
결과 및 결언

생체 광학 데이터 분석 AI 경진대회 7위 수상작

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

Similar to 생체 광학 데이터 분석 AI 경진대회 7위 수상작

Similar to 생체 광학 데이터 분석 AI 경진대회 7위 수상작 (20)

More from DACON AI 데이콘

More from DACON AI 데이콘 (19)

생체 광학 데이터 분석 AI 경진대회 7위 수상작