SlideShare a Scribd company logo
https://dacon.io
월간 Dacon 2 천체
유형 분류 모델링
경진대회
팀명: JY!
목차
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리 & EDA
모델 구축 & 전략
결과 및 아쉬운 점
전처리 & EDA
(변수 생성 포함)
모델 구축 및 전략
결과 및 아쉬운 점
• 전략 및 프로세스
• 결과
• 아쉬운 점
• 이상치 제거
• 타겟 분포
• 타겟 vs features
• fiberID 빈도
• Sequence 관점
• 변수 생성
https://dacon.io 3
1. EDA 및 전처리
• fiberID를 제외한 모든 변수에 좌측 그래프와 같이 극단적인 이상치 존재
( 굉장히 멀리 떨어져 있는 천체로 추정 )
• 본격적인 분석에 앞서 학습에 방해가 되는 이상치를 제거하기로 결정
• Test 데이터의 최대, 최소값을 기준으로 이상치를 판단하여 423개 행 제거
1) 이상치 제거
• 클래스 불균형이 심한 상태
• Data augmentation, class weight 등의 방법이 필요할 것으로 예상
2) 타겟 분포
• fiberID는 범주형 변수이지만 Cardinality가 높아서 범주형으로 사용하기엔 부담이 있음
• 타입별 분포를 확인해본 결과, ID가 600 이상일 때 QSO가 분류되는 것을 확인하여
연속형 변수로의 가능성 확인
( LGBM 문서에도 Cardinality가 높을 경우 연속형 변수로 취급할 것을 권하고 있음)
• 기타 연속형 변수들은 타입에 따라 분포가 다른 것을 확인할 수 있었음.
1. EDA 및 전처리
3) 각 변수와 타겟 변수 간의 분포 확인
https://dacon.io 5
1. EDA 및 전처리
4) fiberID별 빈도 확인
• ‘특정 천체 유형에 특정 fiber를 자주 썼는지’에 대해 확인하기 위해 fiber 범주별로 빈도를 계산하
여 분포 확인
• 그래프 상으로는 Count에 따라 천체 유형이 추가로 분류되지 않았으나 모델 상에서는 약간의 개
선이 있어 사용
• 측정 방법 별로 다섯 가지의 파장을 연속으로 측정한 데이터이므로, 시계열로 해석할 수 있다고
판단
• 특성 간의 관계를 고려한 정보가 타겟 분류에 도움이 되리라는 가설을 세움
• 타입별로 유사한 그래프 형태를 띄고 있음
• 이러한 시계열적인 변수 관계를 고려한 변수를 생성하기로 결정
5) Sequence 데이터 관점으로 EDA
1. EDA 및 전처리
추세 관련 정보
① 앞뒤 5포인트 간의 차까지 계산
② 같은 파장끼리의 차
③ 20개 포인트의 랭킹
Peak 관련 정보
① Peak 개수
② Peak prominence의 평균
③ Peak width의 평균 ( 0.3, 0.5, 0.6)
FiberID 범주별 빈도
① ID별 빈도 계산
• EDA를 바탕으로 다음과 같이 세 개 유형의 변수를 생성
• 결론적으로는 추세 관련 1번 변수가 약 0.05의 개선 효과를 주었고
• 나머지 변수들은 0.00x 규모의 미미한 개선 효과를 가져다 주었음
1. EDA 및 전처리
6) 변수 생성
https://dacon.io
2. 모델 구축 및 전략
① fiberID는 연속형 범주로 사용
② L1 정규화 파라미터로 조절
③ Xgboost, Light gbm만 사용
④ 4개의 변수 조합에서 나온 결과
를 스태킹 및 앙상블
① fiberID : 연속형 변수로 학습했을 때 log loss 0.05 감소
② 상관관계 높은 변수: 제거했을 때 log loss 증가.
③ 사용할 모델: Xgboost, Light gbm이 기타 모델들보다 log loss 0.01 이상 낮음
④ 변수 조합: Peak width를 ‘0.5만 사용한 경우’와 , ‘0.3과 0.6을 사용한 경우’,
diff 변수가 앞뒤 간의 차만 계산된 경우, 5포인트 전의 값의 차까지 변수로 한
경우가 CV 평균은 비슷하지만 fold별 점수 순위는 달라지는 현상 발견
Data ver1
0.3, 0.6
Data ver2
0.3, 0.6
lgb pred2
xgb pred1
xgb pred2
(5 fold + 2 seed 평균 + Data 버전별 평균)
Stacking
lgb pred2
xgb pred1
xgb pred2
Final
prediction
<전체 프로세스>
diff (Xt+1 –Xt)
Peak width 0.5 or 0.3, 0.6
diff(~ X5t+1 –Xt )
Peak width 0.5 or 0.3, 0.6
Ensemble :
scipy minimize 사용
Stacking:
xgb 사용
Data ver1 0.5
Data ver2 0.5
< EDA 및 실험을 통해 알게 된 정보 > < 도출 전략>
* Lgbm은 시간 등의 문제로 lgb pred2만 사용
https://dacon.io 9
3. 결과 및 결언
결과
1. 변수 생성을 통해 logloss 약 0.05 감소
2. 2 seed, 변수 조합 등을 통해 약 0.003 감소
3. Stacking & ensemble을 통해 약 0.0025 감소
4. 최종 private score 약 0.559로 2등 기록
결언
1. 변수를 섬세하게 선택할 시간이 없었으므로 변수 선택을 거치면 더 나은 성적을
기대할 수 있음
2. 점수는 순위권을 기록했지만 모델 훈련 시간이 오래 걸려 비효율적
3. 클래스 불균형 문제를 해결하는 방법을 모색할 필요가 있음
4. 딥러닝 모델 성적이 좋지 않았는데 더 섬세한 모델 구축을 시도할 가치가 있음
THANK YOU
THANK YOU
https://dacon.io 10
대회 바로가기

More Related Content

What's hot

Building Random Forest at Scale
Building Random Forest at ScaleBuilding Random Forest at Scale
Building Random Forest at Scale
Sri Ambati
 
blackboard architecture
blackboard architectureblackboard architecture
blackboard architectureNguyễn Ngân
 
Giải đề thi.pdf
Giải đề thi.pdfGiải đề thi.pdf
Giải đề thi.pdf
Nguynngo
 
Feature selection concepts and methods
Feature selection concepts and methodsFeature selection concepts and methods
Feature selection concepts and methodsReza Ramezani
 
Fractal Tree Indexes : From Theory to Practice
Fractal Tree Indexes : From Theory to PracticeFractal Tree Indexes : From Theory to Practice
Fractal Tree Indexes : From Theory to Practice
Tim Callaghan
 
Analytics machine learning in weka
Analytics machine learning in wekaAnalytics machine learning in weka
Analytics machine learning in weka
Sudhakar Chavan
 
Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...
Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...
Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...
RavindraSinghKushwah1
 
นักวิชาการเงินและบัญชี(ปฏิบัติการ เชี่ยวชาญ)
 นักวิชาการเงินและบัญชี(ปฏิบัติการ เชี่ยวชาญ) นักวิชาการเงินและบัญชี(ปฏิบัติการ เชี่ยวชาญ)
นักวิชาการเงินและบัญชี(ปฏิบัติการ เชี่ยวชาญ)
ประพันธ์ เวารัมย์
 
Memory fragmentation by ofor williams daniel
Memory fragmentation by ofor williams danielMemory fragmentation by ofor williams daniel
Memory fragmentation by ofor williams daniel
Ofor Williams
 
MATLAB INTRODUCTION
MATLAB INTRODUCTIONMATLAB INTRODUCTION
MATLAB INTRODUCTION
Dr. Krishna Mohbey
 
08 virtual memory
08 virtual memory08 virtual memory
08 virtual memoryKamal Singh
 
Lista Ledacom 28 Diciembre 2022.pdf
Lista Ledacom 28 Diciembre 2022.pdfLista Ledacom 28 Diciembre 2022.pdf
Lista Ledacom 28 Diciembre 2022.pdf
MIGUELESCAMILLA16
 
Producer consumer
Producer consumerProducer consumer
Producer consumer
Mohd Tousif
 
DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...
DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...
DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...
Joonhyung Lee
 
Decision trees & random forests
Decision trees & random forestsDecision trees & random forests
Decision trees & random forests
SC5.io
 
Ensemble Learning.pptx
Ensemble Learning.pptxEnsemble Learning.pptx
Ensemble Learning.pptx
piyushkumar222909
 
Decision Tree Learning
Decision Tree LearningDecision Tree Learning
Decision Tree Learning
Md. Ariful Hoque
 
process and thread.pptx
process and thread.pptxprocess and thread.pptx
process and thread.pptx
HamzaxTv
 
Birch Algorithm With Solved Example
Birch Algorithm With Solved ExampleBirch Algorithm With Solved Example
Birch Algorithm With Solved Example
kailash shaw
 

What's hot (20)

Building Random Forest at Scale
Building Random Forest at ScaleBuilding Random Forest at Scale
Building Random Forest at Scale
 
blackboard architecture
blackboard architectureblackboard architecture
blackboard architecture
 
Giải đề thi.pdf
Giải đề thi.pdfGiải đề thi.pdf
Giải đề thi.pdf
 
Feature selection concepts and methods
Feature selection concepts and methodsFeature selection concepts and methods
Feature selection concepts and methods
 
Fractal Tree Indexes : From Theory to Practice
Fractal Tree Indexes : From Theory to PracticeFractal Tree Indexes : From Theory to Practice
Fractal Tree Indexes : From Theory to Practice
 
Analytics machine learning in weka
Analytics machine learning in wekaAnalytics machine learning in weka
Analytics machine learning in weka
 
Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...
Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...
Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...
 
นักวิชาการเงินและบัญชี(ปฏิบัติการ เชี่ยวชาญ)
 นักวิชาการเงินและบัญชี(ปฏิบัติการ เชี่ยวชาญ) นักวิชาการเงินและบัญชี(ปฏิบัติการ เชี่ยวชาญ)
นักวิชาการเงินและบัญชี(ปฏิบัติการ เชี่ยวชาญ)
 
Memory fragmentation by ofor williams daniel
Memory fragmentation by ofor williams danielMemory fragmentation by ofor williams daniel
Memory fragmentation by ofor williams daniel
 
MATLAB INTRODUCTION
MATLAB INTRODUCTIONMATLAB INTRODUCTION
MATLAB INTRODUCTION
 
08 virtual memory
08 virtual memory08 virtual memory
08 virtual memory
 
Lista Ledacom 28 Diciembre 2022.pdf
Lista Ledacom 28 Diciembre 2022.pdfLista Ledacom 28 Diciembre 2022.pdf
Lista Ledacom 28 Diciembre 2022.pdf
 
Page replacement
Page replacementPage replacement
Page replacement
 
Producer consumer
Producer consumerProducer consumer
Producer consumer
 
DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...
DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...
DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...
 
Decision trees & random forests
Decision trees & random forestsDecision trees & random forests
Decision trees & random forests
 
Ensemble Learning.pptx
Ensemble Learning.pptxEnsemble Learning.pptx
Ensemble Learning.pptx
 
Decision Tree Learning
Decision Tree LearningDecision Tree Learning
Decision Tree Learning
 
process and thread.pptx
process and thread.pptxprocess and thread.pptx
process and thread.pptx
 
Birch Algorithm With Solved Example
Birch Algorithm With Solved ExampleBirch Algorithm With Solved Example
Birch Algorithm With Solved Example
 

Similar to 천체 유형 분류 대회 2위 수상자 코드 설명

천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명
DACON AI 데이콘
 
천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명
DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작
DACON AI 데이콘
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
BOAZ Bigdata
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning
성재 최
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
Lee Seungeun
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
Kim Daeun
 
생체 광학 데이터 분석 AI 경진대회 2위 수상작
생체 광학 데이터 분석 AI 경진대회 2위 수상작생체 광학 데이터 분석 AI 경진대회 2위 수상작
생체 광학 데이터 분석 AI 경진대회 2위 수상작
DACON AI 데이콘
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
SANG WON PARK
 
(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)
MYEONGGYU LEE
 
2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트
Sanghyun Kim
 
생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작
DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작
DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작
DACON AI 데이콘
 
Learning how to explain neural networks: PatternNet and PatternAttribution
Learning how to explain neural networks: PatternNet and PatternAttributionLearning how to explain neural networks: PatternNet and PatternAttribution
Learning how to explain neural networks: PatternNet and PatternAttribution
Gyubin Son
 
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
정재 전
 
발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장
Juhui Park
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...
LEE HOSEONG
 
Titanic kaggle competition
Titanic kaggle competitionTitanic kaggle competition
Titanic kaggle competition
jdo
 

Similar to 천체 유형 분류 대회 2위 수상자 코드 설명 (20)

천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명
 
천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
생체 광학 데이터 분석 AI 경진대회 2위 수상작
생체 광학 데이터 분석 AI 경진대회 2위 수상작생체 광학 데이터 분석 AI 경진대회 2위 수상작
생체 광학 데이터 분석 AI 경진대회 2위 수상작
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)
 
2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트
 
분석6기 4조
분석6기 4조분석6기 4조
분석6기 4조
 
생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작
 
생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작생체 광학 데이터 분석 AI 경진대회 6위 수상작
생체 광학 데이터 분석 AI 경진대회 6위 수상작
 
생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작
 
Learning how to explain neural networks: PatternNet and PatternAttribution
Learning how to explain neural networks: PatternNet and PatternAttributionLearning how to explain neural networks: PatternNet and PatternAttribution
Learning how to explain neural networks: PatternNet and PatternAttribution
 
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
 
발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장
 
"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...
 
Titanic kaggle competition
Titanic kaggle competitionTitanic kaggle competition
Titanic kaggle competition
 

More from DACON AI 데이콘

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
DACON AI 데이콘
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
DACON AI 데이콘
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
DACON AI 데이콘
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
DACON AI 데이콘
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
DACON AI 데이콘
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
DACON AI 데이콘
 
Superbai
SuperbaiSuperbai
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션
DACON AI 데이콘
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
DACON AI 데이콘
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
DACON AI 데이콘
 
20200923
2020092320200923
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
DACON AI 데이콘
 

More from DACON AI 데이콘 (20)

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
 
Superbai
SuperbaiSuperbai
Superbai
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
 
20200923
2020092320200923
20200923
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
 

천체 유형 분류 대회 2위 수상자 코드 설명

  • 1. https://dacon.io 월간 Dacon 2 천체 유형 분류 모델링 경진대회 팀명: JY!
  • 2. 목차 1 2 3 STEP 1 STEP 2 STEP 3 https://dacon.io 2 데이터 전처리 & EDA 모델 구축 & 전략 결과 및 아쉬운 점 전처리 & EDA (변수 생성 포함) 모델 구축 및 전략 결과 및 아쉬운 점 • 전략 및 프로세스 • 결과 • 아쉬운 점 • 이상치 제거 • 타겟 분포 • 타겟 vs features • fiberID 빈도 • Sequence 관점 • 변수 생성
  • 3. https://dacon.io 3 1. EDA 및 전처리 • fiberID를 제외한 모든 변수에 좌측 그래프와 같이 극단적인 이상치 존재 ( 굉장히 멀리 떨어져 있는 천체로 추정 ) • 본격적인 분석에 앞서 학습에 방해가 되는 이상치를 제거하기로 결정 • Test 데이터의 최대, 최소값을 기준으로 이상치를 판단하여 423개 행 제거 1) 이상치 제거 • 클래스 불균형이 심한 상태 • Data augmentation, class weight 등의 방법이 필요할 것으로 예상 2) 타겟 분포
  • 4. • fiberID는 범주형 변수이지만 Cardinality가 높아서 범주형으로 사용하기엔 부담이 있음 • 타입별 분포를 확인해본 결과, ID가 600 이상일 때 QSO가 분류되는 것을 확인하여 연속형 변수로의 가능성 확인 ( LGBM 문서에도 Cardinality가 높을 경우 연속형 변수로 취급할 것을 권하고 있음) • 기타 연속형 변수들은 타입에 따라 분포가 다른 것을 확인할 수 있었음. 1. EDA 및 전처리 3) 각 변수와 타겟 변수 간의 분포 확인
  • 5. https://dacon.io 5 1. EDA 및 전처리 4) fiberID별 빈도 확인 • ‘특정 천체 유형에 특정 fiber를 자주 썼는지’에 대해 확인하기 위해 fiber 범주별로 빈도를 계산하 여 분포 확인 • 그래프 상으로는 Count에 따라 천체 유형이 추가로 분류되지 않았으나 모델 상에서는 약간의 개 선이 있어 사용
  • 6. • 측정 방법 별로 다섯 가지의 파장을 연속으로 측정한 데이터이므로, 시계열로 해석할 수 있다고 판단 • 특성 간의 관계를 고려한 정보가 타겟 분류에 도움이 되리라는 가설을 세움 • 타입별로 유사한 그래프 형태를 띄고 있음 • 이러한 시계열적인 변수 관계를 고려한 변수를 생성하기로 결정 5) Sequence 데이터 관점으로 EDA 1. EDA 및 전처리
  • 7. 추세 관련 정보 ① 앞뒤 5포인트 간의 차까지 계산 ② 같은 파장끼리의 차 ③ 20개 포인트의 랭킹 Peak 관련 정보 ① Peak 개수 ② Peak prominence의 평균 ③ Peak width의 평균 ( 0.3, 0.5, 0.6) FiberID 범주별 빈도 ① ID별 빈도 계산 • EDA를 바탕으로 다음과 같이 세 개 유형의 변수를 생성 • 결론적으로는 추세 관련 1번 변수가 약 0.05의 개선 효과를 주었고 • 나머지 변수들은 0.00x 규모의 미미한 개선 효과를 가져다 주었음 1. EDA 및 전처리 6) 변수 생성
  • 8. https://dacon.io 2. 모델 구축 및 전략 ① fiberID는 연속형 범주로 사용 ② L1 정규화 파라미터로 조절 ③ Xgboost, Light gbm만 사용 ④ 4개의 변수 조합에서 나온 결과 를 스태킹 및 앙상블 ① fiberID : 연속형 변수로 학습했을 때 log loss 0.05 감소 ② 상관관계 높은 변수: 제거했을 때 log loss 증가. ③ 사용할 모델: Xgboost, Light gbm이 기타 모델들보다 log loss 0.01 이상 낮음 ④ 변수 조합: Peak width를 ‘0.5만 사용한 경우’와 , ‘0.3과 0.6을 사용한 경우’, diff 변수가 앞뒤 간의 차만 계산된 경우, 5포인트 전의 값의 차까지 변수로 한 경우가 CV 평균은 비슷하지만 fold별 점수 순위는 달라지는 현상 발견 Data ver1 0.3, 0.6 Data ver2 0.3, 0.6 lgb pred2 xgb pred1 xgb pred2 (5 fold + 2 seed 평균 + Data 버전별 평균) Stacking lgb pred2 xgb pred1 xgb pred2 Final prediction <전체 프로세스> diff (Xt+1 –Xt) Peak width 0.5 or 0.3, 0.6 diff(~ X5t+1 –Xt ) Peak width 0.5 or 0.3, 0.6 Ensemble : scipy minimize 사용 Stacking: xgb 사용 Data ver1 0.5 Data ver2 0.5 < EDA 및 실험을 통해 알게 된 정보 > < 도출 전략> * Lgbm은 시간 등의 문제로 lgb pred2만 사용
  • 9. https://dacon.io 9 3. 결과 및 결언 결과 1. 변수 생성을 통해 logloss 약 0.05 감소 2. 2 seed, 변수 조합 등을 통해 약 0.003 감소 3. Stacking & ensemble을 통해 약 0.0025 감소 4. 최종 private score 약 0.559로 2등 기록 결언 1. 변수를 섬세하게 선택할 시간이 없었으므로 변수 선택을 거치면 더 나은 성적을 기대할 수 있음 2. 점수는 순위권을 기록했지만 모델 훈련 시간이 오래 걸려 비효율적 3. 클래스 불균형 문제를 해결하는 방법을 모색할 필요가 있음 4. 딥러닝 모델 성적이 좋지 않았는데 더 섬세한 모델 구축을 시도할 가치가 있음
  • 10. THANK YOU THANK YOU https://dacon.io 10 대회 바로가기