3. 1/ 지난 과제 + 공지
1. 대회 데이터로 Random Forest와 LightGBM 모델 학습및 예측
2. 노트북/코드 파일을 개인/팀 단국대 대회 GitHub 리포에 커밋
3. 예측 값을 대회에 제출한 후 리더보드 스크린 샷을 구글드라이브에 제출
4. Zoom 강의 때 프로필 사진 + 배경 사진
5. 이메일은 강사 + 담당 조교에게 함께
6. 강의 내용 질문은 GitHub 과목 리포 Issues에
7. 그 밖의 질문은 GitHub 팀 게시판에
3
4. 1/ 지난 과제 + 공지
중간고사 팀 코드 10%
중간고사 팀 발표 10%
기말고사 팀 코드 20%
기말고사 팀 발표 20%
대회 성적 30%
출석 10%
4
https://www.dacon.io/competitions/official/235638
6. 2/ Cross-Validation (CV)
6
Hold-out Validation: 학습데이터의 일부를 검증 (validation)셋으로 분류하고 나머지만
학습에 사용하고 검증셋은 모델 성능 검증에 사용
N-Fold CV: 학습데이터를 N개의 폴드로 나눈 후, 각각의 폴드에 대해 한 폴드를 검증셋으로
나머지를 학습셋으로 사용하여 총 N번 학습하고 N개의 검증셋을 모아 모델 성능 검증에 사용
Stratified N-Fold CV: N-Fold CV에서 각각의 폴드에서 종속변수의 분포가 동일하도록 폴드를
나누는 방식. 분류학습에서 종속변수의 범주의 분포가 균일하지 않을 때 사용
Leave-One-Out (LOO) CV: 샘플의 개수를 N으로 사용한 N-Fold CV. 샘플의 개수가 아주
적을 때 (< 50) 사용
11. 3/ Stacking
11
캐글에서 가장 널리 사용되는 모델 앙상블 기법 중 하나
● 1992년 Los Alamos National Laboratory의 David H. Wolpert가 “Stacked
Generalization” 논문으로 발표
● (여러) 모델의 예측값을 입력으로 다른 모델을 학습
● 주로 N-Fold CV와 함께 사용
● Hold-out Validation과 사용할 때는 Blending이라고도 함 (Netflix Grand Prize)
12. * for other types of ensemble, see Kaggle Ensembling Guide
3/ Stacking