SlideShare a Scribd company logo
1 of 8
Download to read offline
https://dacon.io
Dacon 15회
원자력발전소 상태
판단 경진대회
밍둥이
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리 & EDA
모델 구축 & 검증
결과 및 결언
데이터 전처리
• LightGBM
• K fold & Random Seed
• 예측 방법
• 데이터 전처리 결과
• 모델 구축 결과
• NAN, Object 데이터 처리
• PCA
• 표준화-Min-Max scaling
모델구축&검증
결과 및 결언
목차 데이터 다운로드
https://dacon.io 3
1. 데이터 전처리
▪ NAN, Object data 처리
- Dataset에 문자열과 NA 값이 포함되어 있음
- Dacon에서 제공한 data_loader_v2 를 사용하여 NA와 문자열 값을 0으로 대체
▪ Principal Component Analysis(PCA)
▪ 표준화 Min-Max Scaling
- Feature 간에 correlation 결과, high correlation feature 들이 많이 존재하였음
- Feature간 correlation 이 높은 것들을 선별하여 feature 삭제
- 데이터가 가진 feature의 스케일이 차이가 나는 경우 Feature 를 정규화 함
(데이터의 중요도를 동일하게 반영되도록 하기 위함)
데이터 다운로드
https://dacon.io 4
2. 모델 구축 및 검증
▪ 모델 선택
- 모델에 대해 각각 실험하여 성능 비교
- light GBM이 가장 좋은 성능을 보여 lightGBM을 모델로 선택
Random Forest XGBoost lightGBM
데이터 다운로드
https://dacon.io 5
2. 모델 구축 및 검증
- 하이퍼 파라미터 튜닝을 위해 K-fold 를 사용해 cross validation(CV) 함
- CV를 가장 좋게 만드는 하이퍼 파라미터를 선택
: n_estimator(Early stopping) 값을 작게 하여 overfitting 을 방지
: min_child_weight 의 값이 낮으면 over-fitting이 되어 CV 를 통해 값을 튜닝하여
over-fitting을 방지
: colsample_bytree 훈련 데이터에서 feature를 샘플링해주는 비율로, feature 선택
- Data split을 robust 하게 해주기위해 3개의 random seed를 사용
- 총 12개의 모델 생성
▪ 모델 최적화
데이터 다운로드
https://dacon.io 6
2. 모델 구축 및 검증
- 12개의 모델을 통해 test를 예측
- Hard voting 방식과 Soft voting인 Probability를 평균내는 방법을 사용하여 모델 예측
Hard voting Soft voting
▪ 모델 예측
데이터 다운로드
https://dacon.io 7
3. 결과 및 결언
▪ 데이터 전처리
- PCA, Feature 정규화, Min-Max Scaling은 성능 향상에 도움이 되지 않음
- Object와 NAN 값을 0으로 바꾸어 주는 전처리만 진행
▪ 모델 구축 및 검증
- Lgbm 모델 선택
: Random Forest, Xgboost, LightGBM 모델 비교 결과 lgbm의 성능이 가장 좋았음
- K-fold & Random seed를 사용한 모델 하이퍼 파라미터 튜닝
: Robust 한 모델을 만들기 위해 4Kfold * 3seed 총 12개의 모델을 만듬
: Early stopping 값을 작게 설정하여 over-fitting 방지
: min_child_weight 값을 CV를 통해 최적화 하여 over-fitting 방지
- Soft-voting 예측 방법 선택
: 예측 시 Hard-voting 방식과 Probability를 평균내는 Soft-voting 방식을 실험
: evaluation metric이 log-loss였기 때문에 probability를 평균내는 방식의 성능이 좋았음
- 12개의 모델의 예측을 평균 하는 방식으로 최종 결과물 제출
데이터 다운로드
THANK YOU
THANK YOU
https://dacon.io 8
대회 참여해보기

More Related Content

Similar to 원자력발전소 상태 판단 대회 1위 수상자 코드 설명

위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작DACON AI 데이콘
 
천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명DACON AI 데이콘
 
3-2: Smart Proactive Analysis Material (SK Hynix 정예린TL)
3-2: Smart Proactive Analysis Material (SK Hynix 정예린TL)3-2: Smart Proactive Analysis Material (SK Hynix 정예린TL)
3-2: Smart Proactive Analysis Material (SK Hynix 정예린TL)JMP Statistical Discovery
 
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스정재 전
 
02.실행환경 교육교재(데이터처리)
02.실행환경 교육교재(데이터처리)02.실행환경 교육교재(데이터처리)
02.실행환경 교육교재(데이터처리)Hankyo
 
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...Amazon Web Services Korea
 
AnoGAN을 이용한 철강 소재 결함 검출 AI
AnoGAN을 이용한 철강 소재 결함 검출 AIAnoGAN을 이용한 철강 소재 결함 검출 AI
AnoGAN을 이용한 철강 소재 결함 검출 AIHYEJINLIM10
 
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...SuseongPark
 
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작DACON AI 데이콘
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스Lee Seungeun
 
MariaDB 마이그레이션 - 네오클로바
MariaDB 마이그레이션 - 네오클로바MariaDB 마이그레이션 - 네오클로바
MariaDB 마이그레이션 - 네오클로바NeoClova
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작DACON AI 데이콘
 
MySQL_MariaDB-성능개선-202201.pptx
MySQL_MariaDB-성능개선-202201.pptxMySQL_MariaDB-성능개선-202201.pptx
MySQL_MariaDB-성능개선-202201.pptxNeoClova
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오Kihoon4
 
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
 
생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작DACON AI 데이콘
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작ssuserfa4e58
 

Similar to 원자력발전소 상태 판단 대회 1위 수상자 코드 설명 (20)

위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
 
천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명
 
3-2: Smart Proactive Analysis Material
3-2: Smart Proactive Analysis Material3-2: Smart Proactive Analysis Material
3-2: Smart Proactive Analysis Material
 
3-2: Smart Proactive Analysis Material (SK Hynix 정예린TL)
3-2: Smart Proactive Analysis Material (SK Hynix 정예린TL)3-2: Smart Proactive Analysis Material (SK Hynix 정예린TL)
3-2: Smart Proactive Analysis Material (SK Hynix 정예린TL)
 
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
 
02.실행환경 교육교재(데이터처리)
02.실행환경 교육교재(데이터처리)02.실행환경 교육교재(데이터처리)
02.실행환경 교육교재(데이터처리)
 
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
 
AnoGAN을 이용한 철강 소재 결함 검출 AI
AnoGAN을 이용한 철강 소재 결함 검출 AIAnoGAN을 이용한 철강 소재 결함 검출 AI
AnoGAN을 이용한 철강 소재 결함 검출 AI
 
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
 
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
MariaDB 마이그레이션 - 네오클로바
MariaDB 마이그레이션 - 네오클로바MariaDB 마이그레이션 - 네오클로바
MariaDB 마이그레이션 - 네오클로바
 
3. stream api
3. stream api3. stream api
3. stream api
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작
 
MySQL_MariaDB-성능개선-202201.pptx
MySQL_MariaDB-성능개선-202201.pptxMySQL_MariaDB-성능개선-202201.pptx
MySQL_MariaDB-성능개선-202201.pptx
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오
 
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
 
생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작생체 광학 데이터 분석 AI 경진대회 4위 수상작
생체 광학 데이터 분석 AI 경진대회 4위 수상작
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 2위 수상작
 

More from DACON AI 데이콘

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engDACON AI 데이콘
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korDACON AI 데이콘
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의DACON AI 데이콘
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 10위 수상작
생체 광학 데이터 분석 AI 경진대회 10위 수상작생체 광학 데이터 분석 AI 경진대회 10위 수상작
생체 광학 데이터 분석 AI 경진대회 10위 수상작DACON AI 데이콘
 

More from DACON AI 데이콘 (20)

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
 
Superbai
SuperbaiSuperbai
Superbai
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
 
20200923
2020092320200923
20200923
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
 
생체 광학 데이터 분석 AI 경진대회 10위 수상작
생체 광학 데이터 분석 AI 경진대회 10위 수상작생체 광학 데이터 분석 AI 경진대회 10위 수상작
생체 광학 데이터 분석 AI 경진대회 10위 수상작
 

원자력발전소 상태 판단 대회 1위 수상자 코드 설명

  • 2. 1 2 3 STEP 1 STEP 2 STEP 3 https://dacon.io 2 데이터 전처리 & EDA 모델 구축 & 검증 결과 및 결언 데이터 전처리 • LightGBM • K fold & Random Seed • 예측 방법 • 데이터 전처리 결과 • 모델 구축 결과 • NAN, Object 데이터 처리 • PCA • 표준화-Min-Max scaling 모델구축&검증 결과 및 결언 목차 데이터 다운로드
  • 3. https://dacon.io 3 1. 데이터 전처리 ▪ NAN, Object data 처리 - Dataset에 문자열과 NA 값이 포함되어 있음 - Dacon에서 제공한 data_loader_v2 를 사용하여 NA와 문자열 값을 0으로 대체 ▪ Principal Component Analysis(PCA) ▪ 표준화 Min-Max Scaling - Feature 간에 correlation 결과, high correlation feature 들이 많이 존재하였음 - Feature간 correlation 이 높은 것들을 선별하여 feature 삭제 - 데이터가 가진 feature의 스케일이 차이가 나는 경우 Feature 를 정규화 함 (데이터의 중요도를 동일하게 반영되도록 하기 위함) 데이터 다운로드
  • 4. https://dacon.io 4 2. 모델 구축 및 검증 ▪ 모델 선택 - 모델에 대해 각각 실험하여 성능 비교 - light GBM이 가장 좋은 성능을 보여 lightGBM을 모델로 선택 Random Forest XGBoost lightGBM 데이터 다운로드
  • 5. https://dacon.io 5 2. 모델 구축 및 검증 - 하이퍼 파라미터 튜닝을 위해 K-fold 를 사용해 cross validation(CV) 함 - CV를 가장 좋게 만드는 하이퍼 파라미터를 선택 : n_estimator(Early stopping) 값을 작게 하여 overfitting 을 방지 : min_child_weight 의 값이 낮으면 over-fitting이 되어 CV 를 통해 값을 튜닝하여 over-fitting을 방지 : colsample_bytree 훈련 데이터에서 feature를 샘플링해주는 비율로, feature 선택 - Data split을 robust 하게 해주기위해 3개의 random seed를 사용 - 총 12개의 모델 생성 ▪ 모델 최적화 데이터 다운로드
  • 6. https://dacon.io 6 2. 모델 구축 및 검증 - 12개의 모델을 통해 test를 예측 - Hard voting 방식과 Soft voting인 Probability를 평균내는 방법을 사용하여 모델 예측 Hard voting Soft voting ▪ 모델 예측 데이터 다운로드
  • 7. https://dacon.io 7 3. 결과 및 결언 ▪ 데이터 전처리 - PCA, Feature 정규화, Min-Max Scaling은 성능 향상에 도움이 되지 않음 - Object와 NAN 값을 0으로 바꾸어 주는 전처리만 진행 ▪ 모델 구축 및 검증 - Lgbm 모델 선택 : Random Forest, Xgboost, LightGBM 모델 비교 결과 lgbm의 성능이 가장 좋았음 - K-fold & Random seed를 사용한 모델 하이퍼 파라미터 튜닝 : Robust 한 모델을 만들기 위해 4Kfold * 3seed 총 12개의 모델을 만듬 : Early stopping 값을 작게 설정하여 over-fitting 방지 : min_child_weight 값을 CV를 통해 최적화 하여 over-fitting 방지 - Soft-voting 예측 방법 선택 : 예측 시 Hard-voting 방식과 Probability를 평균내는 Soft-voting 방식을 실험 : evaluation metric이 log-loss였기 때문에 probability를 평균내는 방식의 성능이 좋았음 - 12개의 모델의 예측을 평균 하는 방식으로 최종 결과물 제출 데이터 다운로드
  • 8. THANK YOU THANK YOU https://dacon.io 8 대회 참여해보기