데이콘 뽀개기

데이콘 뽀개기
08/ Cross-Validation, Stacking

순서
1/ 공지
2/ Cross-Validation
3/ Stacking
2

1/ 지난 과제 + 공지
1. 대회 데이터로 Random Forest와 LightGBM 모델 학습및 예측
2. 노트북/코드 파일을 개인/팀 단국대 대회 GitHub 리포에 커밋
3. 예측 값을 대회에 제출한 후 리더보드 스크린 샷을 구글드라이브에 제출
4. Zoom 강의 때 프로필 사진 + 배경 사진
5. 이메일은 강사 + 담당 조교에게 함께
6. 강의 내용 질문은 GitHub 과목 리포 Issues에
7. 그 밖의 질문은 GitHub 팀 게시판에
3

1/ 지난 과제 + 공지
중간고사 팀 코드 10%
중간고사 팀 발표 10%
기말고사 팀 코드 20%
기말고사 팀 발표 20%
대회 성적 30%
출석 10%
4
https://www.dacon.io/competitions/official/235638

2/ Cross-Validation (CV)
6
Hold-out Validation: 학습데이터의 일부를 검증 (validation)셋으로 분류하고 나머지만
학습에 사용하고 검증셋은 모델 성능 검증에 사용
N-Fold CV: 학습데이터를 N개의 폴드로 나눈 후, 각각의 폴드에 대해 한 폴드를 검증셋으로
나머지를 학습셋으로 사용하여 총 N번 학습하고 N개의 검증셋을 모아 모델 성능 검증에 사용
Stratified N-Fold CV: N-Fold CV에서 각각의 폴드에서 종속변수의 분포가 동일하도록 폴드를
나누는 방식. 분류학습에서 종속변수의 범주의 분포가 균일하지 않을 때 사용
Leave-One-Out (LOO) CV: 샘플의 개수를 N으로 사용한 N-Fold CV. 샘플의 개수가 아주
적을 때 (< 50) 사용

2/ Cross-Validation - Scikit-Learn
7
Hold-out Validation
N-fold Cross-Validation
Stacking에 사용

2/ Cross-Validation - LightGBM (노트북)
8
Hold-out Validation
Stratified N-fold Cross-Validation

2/ Cross-Validation - LightGBM (노트북)
9
Stratified N-fold Cross-Validation
Stacking에 사용

3/ Stacking
11
캐글에서 가장 널리 사용되는 모델 앙상블 기법 중 하나
● 1992년 Los Alamos National Laboratory의 David H. Wolpert가 “Stacked
Generalization” 논문으로 발표
● (여러) 모델의 예측값을 입력으로 다른 모델을 학습
● 주로 N-Fold CV와 함께 사용
● Hold-out Validation과 사용할 때는 Blending이라고도 함 (Netflix Grand Prize)

* for other types of ensemble, see Kaggle Ensembling Guide
3/ Stacking

4/ 참고자료
17
1. Scikit-learn Cross-Validation 튜토리얼
2. Kaggle Ensembling Guide
3. 머신러닝 마스터 클래스
○ 12장. 앙상블과 스태킹

5/ 과제
1. 대회 데이터로 Logistic Regression, RF, GBM 모델 CV/Stacking
2. 노트북/코드 파일을 개인/팀 단국대 대회 GitHub 리포에 커밋
3. 예측 값을 대회에 제출한 후 리더보드 스크린 샷을 구글드라이브에 제출
19

데이콘 뽀개기

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to 데이콘 뽀개기

Similar to 데이콘 뽀개기 (20)

More from DACON AI 데이콘

More from DACON AI 데이콘 (20)

데이콘 뽀개기