SlideShare a Scribd company logo
1 of 10
Download to read offline
https://dacon.io
월간 Dacon 2 천체
유형 분류 모델링
경진대회
팀명: JY!
목차
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리 & EDA
모델 구축 & 전략
결과 및 아쉬운 점
전처리 & EDA
(변수 생성 포함)
모델 구축 및 전략
결과 및 아쉬운 점
• 전략 및 프로세스
• 결과
• 아쉬운 점
• 이상치 제거
• 타겟 분포
• 타겟 vs features
• fiberID 빈도
• Sequence 관점
• 변수 생성
https://dacon.io 3
1. EDA 및 전처리
• fiberID를 제외한 모든 변수에 좌측 그래프와 같이 극단적인 이상치 존재
( 굉장히 멀리 떨어져 있는 천체로 추정 )
• 본격적인 분석에 앞서 학습에 방해가 되는 이상치를 제거하기로 결정
• Test 데이터의 최대, 최소값을 기준으로 이상치를 판단하여 423개 행 제거
1) 이상치 제거
• 클래스 불균형이 심한 상태
• Data augmentation, class weight 등의 방법이 필요할 것으로 예상
2) 타겟 분포
• fiberID는 범주형 변수이지만 Cardinality가 높아서 범주형으로 사용하기엔 부담이 있음
• 타입별 분포를 확인해본 결과, ID가 600 이상일 때 QSO가 분류되는 것을 확인하여
연속형 변수로의 가능성 확인
( LGBM 문서에도 Cardinality가 높을 경우 연속형 변수로 취급할 것을 권하고 있음)
• 기타 연속형 변수들은 타입에 따라 분포가 다른 것을 확인할 수 있었음.
1. EDA 및 전처리
3) 각 변수와 타겟 변수 간의 분포 확인
https://dacon.io 5
1. EDA 및 전처리
4) fiberID별 빈도 확인
• ‘특정 천체 유형에 특정 fiber를 자주 썼는지’에 대해 확인하기 위해 fiber 범주별로 빈도를 계산하
여 분포 확인
• 그래프 상으로는 Count에 따라 천체 유형이 추가로 분류되지 않았으나 모델 상에서는 약간의 개
선이 있어 사용
• 측정 방법 별로 다섯 가지의 파장을 연속으로 측정한 데이터이므로, 시계열로 해석할 수 있다고
판단
• 특성 간의 관계를 고려한 정보가 타겟 분류에 도움이 되리라는 가설을 세움
• 타입별로 유사한 그래프 형태를 띄고 있음
• 이러한 시계열적인 변수 관계를 고려한 변수를 생성하기로 결정
5) Sequence 데이터 관점으로 EDA
1. EDA 및 전처리
추세 관련 정보
① 앞뒤 5포인트 간의 차까지 계산
② 같은 파장끼리의 차
③ 20개 포인트의 랭킹
Peak 관련 정보
① Peak 개수
② Peak prominence의 평균
③ Peak width의 평균 ( 0.3, 0.5, 0.6)
FiberID 범주별 빈도
① ID별 빈도 계산
• EDA를 바탕으로 다음과 같이 세 개 유형의 변수를 생성
• 결론적으로는 추세 관련 1번 변수가 약 0.05의 개선 효과를 주었고
• 나머지 변수들은 0.00x 규모의 미미한 개선 효과를 가져다 주었음
1. EDA 및 전처리
6) 변수 생성
https://dacon.io
2. 모델 구축 및 전략
① fiberID는 연속형 범주로 사용
② L1 정규화 파라미터로 조절
③ Xgboost, Light gbm만 사용
④ 4개의 변수 조합에서 나온 결과
를 스태킹 및 앙상블
① fiberID : 연속형 변수로 학습했을 때 log loss 0.05 감소
② 상관관계 높은 변수: 제거했을 때 log loss 증가.
③ 사용할 모델: Xgboost, Light gbm이 기타 모델들보다 log loss 0.01 이상 낮음
④ 변수 조합: Peak width를 ‘0.5만 사용한 경우’와 , ‘0.3과 0.6을 사용한 경우’,
diff 변수가 앞뒤 간의 차만 계산된 경우, 5포인트 전의 값의 차까지 변수로 한
경우가 CV 평균은 비슷하지만 fold별 점수 순위는 달라지는 현상 발견
Data ver1
0.3, 0.6
Data ver2
0.3, 0.6
lgb pred2
xgb pred1
xgb pred2
(5 fold + 2 seed 평균 + Data 버전별 평균)
Stacking
lgb pred2
xgb pred1
xgb pred2
Final
prediction
<전체 프로세스>
diff (Xt+1 –Xt)
Peak width 0.5 or 0.3, 0.6
diff(~ X5t+1 –Xt )
Peak width 0.5 or 0.3, 0.6
Ensemble :
scipy minimize 사용
Stacking:
xgb 사용
Data ver1 0.5
Data ver2 0.5
< EDA 및 실험을 통해 알게 된 정보 > < 도출 전략>
* Lgbm은 시간 등의 문제로 lgb pred2만 사용
https://dacon.io 9
3. 결과 및 결언
결과
1. 변수 생성을 통해 logloss 약 0.05 감소
2. 2 seed, 변수 조합 등을 통해 약 0.003 감소
3. Stacking & ensemble을 통해 약 0.0025 감소
4. 최종 private score 약 0.559로 2등 기록
결언
1. 변수를 섬세하게 선택할 시간이 없었으므로 변수 선택을 거치면 더 나은 성적을
기대할 수 있음
2. 점수는 순위권을 기록했지만 모델 훈련 시간이 오래 걸려 비효율적
3. 클래스 불균형 문제를 해결하는 방법을 모색할 필요가 있음
4. 딥러닝 모델 성적이 좋지 않았는데 더 섬세한 모델 구축을 시도할 가치가 있음
THANK YOU
THANK YOU
https://dacon.io 10
대회 바로가기

More Related Content

Similar to 천체 유형 분류 대회 2위 수상자 코드 설명

천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명DACON AI 데이콘
 
천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작DACON AI 데이콘
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현BOAZ Bigdata
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning성재 최
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스Lee Seungeun
 
생체 광학 데이터 분석 AI 경진대회 2위 수상작
생체 광학 데이터 분석 AI 경진대회 2위 수상작생체 광학 데이터 분석 AI 경진대회 2위 수상작
생체 광학 데이터 분석 AI 경진대회 2위 수상작DACON AI 데이콘
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)SANG WON PARK
 
(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)MYEONGGYU LEE
 
2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트Sanghyun Kim
 
생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작DACON AI 데이콘
 
Learning how to explain neural networks: PatternNet and PatternAttribution
Learning how to explain neural networks: PatternNet and PatternAttributionLearning how to explain neural networks: PatternNet and PatternAttribution
Learning how to explain neural networks: PatternNet and PatternAttributionGyubin Son
 
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스정재 전
 
발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장Juhui Park
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...LEE HOSEONG
 
Titanic kaggle competition
Titanic kaggle competitionTitanic kaggle competition
Titanic kaggle competitionjdo
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리SANG WON PARK
 

Similar to 천체 유형 분류 대회 2위 수상자 코드 설명 (20)

천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명
 
천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
생체 광학 데이터 분석 AI 경진대회 2위 수상작
생체 광학 데이터 분석 AI 경진대회 2위 수상작생체 광학 데이터 분석 AI 경진대회 2위 수상작
생체 광학 데이터 분석 AI 경진대회 2위 수상작
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)
 
2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트
 
분석6기 4조
분석6기 4조분석6기 4조
분석6기 4조
 
생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작
 
생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작
 
생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작
 
Learning how to explain neural networks: PatternNet and PatternAttribution
Learning how to explain neural networks: PatternNet and PatternAttributionLearning how to explain neural networks: PatternNet and PatternAttribution
Learning how to explain neural networks: PatternNet and PatternAttribution
 
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
 
발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...
 
Titanic kaggle competition
Titanic kaggle competitionTitanic kaggle competition
Titanic kaggle competition
 
Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리
 

More from DACON AI 데이콘

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engDACON AI 데이콘
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korDACON AI 데이콘
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의DACON AI 데이콘
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상DACON AI 데이콘
 

More from DACON AI 데이콘 (20)

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
 
Superbai
SuperbaiSuperbai
Superbai
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
 
20200923
2020092320200923
20200923
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
 

천체 유형 분류 대회 2위 수상자 코드 설명

  • 1. https://dacon.io 월간 Dacon 2 천체 유형 분류 모델링 경진대회 팀명: JY!
  • 2. 목차 1 2 3 STEP 1 STEP 2 STEP 3 https://dacon.io 2 데이터 전처리 & EDA 모델 구축 & 전략 결과 및 아쉬운 점 전처리 & EDA (변수 생성 포함) 모델 구축 및 전략 결과 및 아쉬운 점 • 전략 및 프로세스 • 결과 • 아쉬운 점 • 이상치 제거 • 타겟 분포 • 타겟 vs features • fiberID 빈도 • Sequence 관점 • 변수 생성
  • 3. https://dacon.io 3 1. EDA 및 전처리 • fiberID를 제외한 모든 변수에 좌측 그래프와 같이 극단적인 이상치 존재 ( 굉장히 멀리 떨어져 있는 천체로 추정 ) • 본격적인 분석에 앞서 학습에 방해가 되는 이상치를 제거하기로 결정 • Test 데이터의 최대, 최소값을 기준으로 이상치를 판단하여 423개 행 제거 1) 이상치 제거 • 클래스 불균형이 심한 상태 • Data augmentation, class weight 등의 방법이 필요할 것으로 예상 2) 타겟 분포
  • 4. • fiberID는 범주형 변수이지만 Cardinality가 높아서 범주형으로 사용하기엔 부담이 있음 • 타입별 분포를 확인해본 결과, ID가 600 이상일 때 QSO가 분류되는 것을 확인하여 연속형 변수로의 가능성 확인 ( LGBM 문서에도 Cardinality가 높을 경우 연속형 변수로 취급할 것을 권하고 있음) • 기타 연속형 변수들은 타입에 따라 분포가 다른 것을 확인할 수 있었음. 1. EDA 및 전처리 3) 각 변수와 타겟 변수 간의 분포 확인
  • 5. https://dacon.io 5 1. EDA 및 전처리 4) fiberID별 빈도 확인 • ‘특정 천체 유형에 특정 fiber를 자주 썼는지’에 대해 확인하기 위해 fiber 범주별로 빈도를 계산하 여 분포 확인 • 그래프 상으로는 Count에 따라 천체 유형이 추가로 분류되지 않았으나 모델 상에서는 약간의 개 선이 있어 사용
  • 6. • 측정 방법 별로 다섯 가지의 파장을 연속으로 측정한 데이터이므로, 시계열로 해석할 수 있다고 판단 • 특성 간의 관계를 고려한 정보가 타겟 분류에 도움이 되리라는 가설을 세움 • 타입별로 유사한 그래프 형태를 띄고 있음 • 이러한 시계열적인 변수 관계를 고려한 변수를 생성하기로 결정 5) Sequence 데이터 관점으로 EDA 1. EDA 및 전처리
  • 7. 추세 관련 정보 ① 앞뒤 5포인트 간의 차까지 계산 ② 같은 파장끼리의 차 ③ 20개 포인트의 랭킹 Peak 관련 정보 ① Peak 개수 ② Peak prominence의 평균 ③ Peak width의 평균 ( 0.3, 0.5, 0.6) FiberID 범주별 빈도 ① ID별 빈도 계산 • EDA를 바탕으로 다음과 같이 세 개 유형의 변수를 생성 • 결론적으로는 추세 관련 1번 변수가 약 0.05의 개선 효과를 주었고 • 나머지 변수들은 0.00x 규모의 미미한 개선 효과를 가져다 주었음 1. EDA 및 전처리 6) 변수 생성
  • 8. https://dacon.io 2. 모델 구축 및 전략 ① fiberID는 연속형 범주로 사용 ② L1 정규화 파라미터로 조절 ③ Xgboost, Light gbm만 사용 ④ 4개의 변수 조합에서 나온 결과 를 스태킹 및 앙상블 ① fiberID : 연속형 변수로 학습했을 때 log loss 0.05 감소 ② 상관관계 높은 변수: 제거했을 때 log loss 증가. ③ 사용할 모델: Xgboost, Light gbm이 기타 모델들보다 log loss 0.01 이상 낮음 ④ 변수 조합: Peak width를 ‘0.5만 사용한 경우’와 , ‘0.3과 0.6을 사용한 경우’, diff 변수가 앞뒤 간의 차만 계산된 경우, 5포인트 전의 값의 차까지 변수로 한 경우가 CV 평균은 비슷하지만 fold별 점수 순위는 달라지는 현상 발견 Data ver1 0.3, 0.6 Data ver2 0.3, 0.6 lgb pred2 xgb pred1 xgb pred2 (5 fold + 2 seed 평균 + Data 버전별 평균) Stacking lgb pred2 xgb pred1 xgb pred2 Final prediction <전체 프로세스> diff (Xt+1 –Xt) Peak width 0.5 or 0.3, 0.6 diff(~ X5t+1 –Xt ) Peak width 0.5 or 0.3, 0.6 Ensemble : scipy minimize 사용 Stacking: xgb 사용 Data ver1 0.5 Data ver2 0.5 < EDA 및 실험을 통해 알게 된 정보 > < 도출 전략> * Lgbm은 시간 등의 문제로 lgb pred2만 사용
  • 9. https://dacon.io 9 3. 결과 및 결언 결과 1. 변수 생성을 통해 logloss 약 0.05 감소 2. 2 seed, 변수 조합 등을 통해 약 0.003 감소 3. Stacking & ensemble을 통해 약 0.0025 감소 4. 최종 private score 약 0.559로 2등 기록 결언 1. 변수를 섬세하게 선택할 시간이 없었으므로 변수 선택을 거치면 더 나은 성적을 기대할 수 있음 2. 점수는 순위권을 기록했지만 모델 훈련 시간이 오래 걸려 비효율적 3. 클래스 불균형 문제를 해결하는 방법을 모색할 필요가 있음 4. 딥러닝 모델 성적이 좋지 않았는데 더 섬세한 모델 구축을 시도할 가치가 있음
  • 10. THANK YOU THANK YOU https://dacon.io 10 대회 바로가기