Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Credit default risk
1. Home Credit Default Risk
Can you predict how capable
each applicant is of repaying
a loan?
2. THE AGENDA FOR TODAY
Project
프로젝트 소개
Data analysis
데이터 전처리, 분석 모델링
evaluation
분석 모델 평가
1
Data
데이터 특징 파악
Logistic regression
SMOTE
Confusion Matrix
ROC curve
Imbalanced Class
EDA
14. 나머지 NA값을
가지는 데이터 제거
변수내 50%이상이
NA값이면 변수에서
제외 데이터 값의 분산이
0 이거나
0 에 근접하는
변수들을 제외
15. 클래스 불균형을
해결하기위해
resampling 기법인
SMOTE를 사용
SMOTE
사전 지정된 샘플링 비율에 따라 k 표본 중에서 랜덤 하게 샘플 수를
선택한 다음 무작위로 선택된 각 샘플과 참조 샘플(클러스터 센터)의
무작위 샘플을 선택하여 새로운 샘플을 생성하는 resampling기법.
장점:
소수 범주의 클래스를 분류하기 위한 의사결정 경계를 더 정교하게 만든다.
0 1
46981 3763
0 1
31609 26341
SMOTE
16. Logistic regression
입력되는 데이터가 특정 클래스에 포함될 예측 확률을 구하여 분류하는
일종의 머신러닝 알고리즘으로써 클래스 분류에 사용된다.
장점:
소수 범주의 클래스를 분류하기 위한 의사결정 경계를 더 정교하게 만든다.
잔차그래프
.
.