SlideShare a Scribd company logo
1 of 19
Download to read offline
손해비용 최소화를 위한 신용평가 분류방법
Data Science School 2기
김 성 진 (sanjaykim)
Cost-Sensitive classification for P2P
< 질문 >
기존 신용평가 모델의 개선점은 무엇일까?
P2P 회사 경쟁력 → “신용평가 모델”
김 성 진
< 질문 >
기존 신용평가 모델의 개선점은 무엇일까?
P2P 회사 경쟁력 → “신용평가 모델”
“손해 비용”을 고려한 분류 방법
김 성 진
< 질문 >
기존 신용평가 모델의 개선점은 무엇일까?
P2P 회사 경쟁력 → “신용평가 모델”
“손해 비용”을 고려한 분류 방법
실제 P2P 회사에 적용을 해보자 !
김 성 진
“신용평가 모델” = 구분하는 것
대출
승인
상환 못할
고객
상환 할
고객
대출
거절
신용평가
모델
김 성 진
“신용평가 모델” = 구분하는 것
대출
승인
상환 못할
고객
상환 할
고객
대출
거절
예측 & 분류
신용평가
모델
새 고객
김 성 진
▶ 예시 : 기존 vs “비용”관점
고객ID 대출금 등급 소득 …
1 500만 D 100만 …
2 400만 A 200만 …
3 1,000만 C 300만 …
4 200만 E 80만 …
5 800만 A 130만 …
6 3,000만 B 400만 …
7 300만 C 70만 …
김 성 진
▶ 예시 : 기존 vs “비용”관점
고객ID 대출금 등급 소득 …
1 500만 D 100만 …
2 400만 A 200만 …
3 1,000만 C 300만 …
4 200만 E 80만 …
5 800만 A 130만 …
6 3,000만 B 400만 …
7 300만 C 70만 …
대출
거절
승인
승인
거절
승인
거절
거절
최종 판단
김 성 진
▶ 예시 : 기존 vs “비용”관점
고객ID 대출금 등급 소득 …
1 500만 D 100만 …
2 400만 A 200만 …
3 1,000만 C 300만 …
4 200만 E 80만 …
5 800만 A 130만 …
6 3,000만 B 400만 …
7 300만 C 70만 …
대출
거절
승인
승인
거절
승인
거절
거절
최종 판단
실제
미상환
상환
미상환
상환
미상환
상환
상환
GOOD
BAD
김 성 진
▶ 예시 : 기존 vs “비용”관점
고객ID 대출금 등급 소득 …
1 500만 D 100만 …
2 400만 A 200만 …
3 1,000만 C 300만 …
4 200만 E 80만 …
5 800만 A 130만 …
6 3,000만 B 400만 …
7 300만 C 70만 …
손실금
못받은
수수료
총합
0 0 0
0 0 0
500만 0 500만
- 13만 13만
300만 0 300만
- 120만 120만
- 17만 17만
대출
거절
승인
승인
거절
승인
거절
거절
최종 판단
실제
미상환
상환
미상환
상환
미상환
상환
상환
GOOD
BAD
손해 비용
김 성 진
미상환 상환
거절 1건 3건
승인 2건 1건
▶ 모델 평가 방법
건수가 낮을 수록
미상환 상환
거절 0원 150만원
승인 800만원 0원
Accuracy
Precision
Recall
F1 score
비용이 낮을 수록
Accuracy
Precision
Recall
F1 score
* Cost Matrix* Confusion Matrix
고객 손실금
못받은
수수료
3 500만 0
4 - 13만
5 300만 0
6 - 120만
7 - 17만
① : 똑같은 가중치 적용
② : 모든 고객을 동등하게 고려함(“건수“)
① : 금액이 다름
② : 비용 고객별로 다 다름
좋은 모델이란?
모델이 틀렸을 때
① 손실금, 수수료
② 각 고객 별
모델 평가 지표
기존 방법 비용 관점
김 성 진
미상환 상환
거절 1건 3건
승인 2건 1건
▶ 모델 평가 방법
건수가 낮을 수록
미상환 상환
거절 0원 150만원
승인 800만원 0원
Accuracy
Precision
Recall
F1 score
비용이 낮을 수록
+
비용이 얼마나 절감되는가?
Accuracy
Precision
Recall
F1 score
* Cost Matrix* Confusion Matrix
고객 손실금
못받은
수수료
3 500만 0
4 - 13만
5 300만 0
6 - 120만
7 - 17만
① 다르다
② 다르다
① : 똑같은 가중치 적용
② : 모든 고객을 동등하게 고려함(“건수“)
① : 금액이 다름
② : 비용 고객별로 다 다름
좋은 모델이란?
모델이 틀렸을 때
① 손실금, 수수료
② 각 고객 별
모델 평가 지표
기존 방법 비용 관점
김 성 진
<분석 절차>
1. Data 입수 (kaggle.com 렌딩클럽)
2. Data Preprocessing
3. Data로 cost matrix 산출
4. 알고리즘 적용 (LR, DT, RF, BMR, CSDT, CSRP)
5. Fit & Predict (cost matrix 사용)
6. Savings 산출 (cost matrix 사용)
7. 모델 별 비교 평가
▶ "비용" 고려한 분류 방법
비용 관점 분류를 위한 파이썬 오픈소스 라이브러리
(Scikit-learn, pandas, numpy 기반)
여러가지 알고리즘, Dataset 보유함
김 성 진
▶ Data : Lending Club Loan Data
<Preprocessing>
• 총 Feature : 72개
• Row : 887,379개
Target = loan_status
확실한 Data만 사용(진행 중 제외)
0, 1로 환산
na값 제거
기타 불필요한 feature 제거
<최종 사용 Data>
• Feature : 12개
• Row : 256,699개
총 연체율 : 약 18%
• Train : 75%
• Test : 25%
이
자
율
대
출
금
액
기
간
월
수
입
수
수
료
이
자
율
부
채
율
집
보
유
여
부
기타 주요 Features
김 성 진
▶ Data : Lending Club Loan Data
<Preprocessing>
• 총 Feature : 72개
• Row : 887,379개
Target = loan_status
확실한 Data만 사용(진행 중 제외)
0, 1로 환산
na값 제거
기타 불필요한 feature 제거
<최종 사용 Data>
• Feature : 12개
• Row : 256,699개
총 연체율 : 약 18%
• Train : 75%
• Test : 25%
이
자
율
대
출
금
액
기
간
월
수
입
수
수
료
이
자
율
부
채
율
집
보
유
여
부
기타 주요 Features
김 성 진
▶ 알고리즘
1. Bayes Minimum Risk
2. 비용 관점 Decision Tree
3. 비용 관점 Random Patches
기존 모델 활용 → Cost Matrix 사용 → 모든 고객 Risk 계산
(대출 승인)
(대출 거절)
기존 모델에서 예측한 부실률
Cost
Matrix
Random Patch
앙상블 방법
2번 X 10개
분류
작은 Class 선택
Misclassification
Entropy
Gini
Direct Cost
Entropy Cost
Gini Cost
비용 관점
Weighted Voting
Gain
계산비용 환산
김 성 진
▶ 결과
<비용>
기존 모델 비용 고려 모델
<Savings>
모델 사용 안한 경우 : 모든 대출 승인 or 대출 거절
$ 30,842,131
기존 모델 비용 고려 모델
김 성 진
▶ 참고자료 : Savings 란?
0
全대출승인 全대출거절
모델
비용절감
손해
비용
적은 값 기준
모델 사용 안함
모델 사용 함
Savings =
全대출거절
비용절감
(≤ 1)
김 성 진
<참고 자료>
1. Costcla Documentation : http://albahnsen.com/CostSensitiveClassification/
2. Costcla Sourcecode : https://github.com/albahnsen/CostSensitiveClassification
3. Data : https://www.kaggle.com/wendykan/lending-club-loan-data
4. Lendingclub fees : https://www.lendingclub.com/public/borrower-rates-and-fees.action
5. Papers :
[1] Elkan, C. (2001, August). The foundations of cost-sensitive learning. In International Joint
Conference on Artificial Intelligence (Vol. 17, No. 1, pp. 973-978). LAWRENCE ERLBAUM
ASSOCIATES LTD.
[2] Margineantu, D. (2002). Class probability estimation and cost-sensitive classification
decisions. Machine Learning: ECML 2002, 167-185.
<본 프로젝트 Git-hub 주소>
: https://github.com/sanjaykim/intro_to_costcla_for_p2p
김 성 진

More Related Content

Viewers also liked

Viewers also liked (10)

[패스트캠퍼스] 업무자동화 알파고
[패스트캠퍼스] 업무자동화 알파고[패스트캠퍼스] 업무자동화 알파고
[패스트캠퍼스] 업무자동화 알파고
 
Word2vec을 활용한 깃헙 유저 추천 시스템
Word2vec을 활용한 깃헙 유저 추천 시스템Word2vec을 활용한 깃헙 유저 추천 시스템
Word2vec을 활용한 깃헙 유저 추천 시스템
 
UI/UX 디자인 기본부터 알아봅시다.
UI/UX 디자인 기본부터 알아봅시다.UI/UX 디자인 기본부터 알아봅시다.
UI/UX 디자인 기본부터 알아봅시다.
 
[ 유니티게임제작캠프 ] 취업준비는피씨방에서
[ 유니티게임제작캠프 ] 취업준비는피씨방에서[ 유니티게임제작캠프 ] 취업준비는피씨방에서
[ 유니티게임제작캠프 ] 취업준비는피씨방에서
 
나도 코딩 공부 시작하고 싶다! (웹/파이썬)
나도 코딩 공부 시작하고 싶다! (웹/파이썬)나도 코딩 공부 시작하고 싶다! (웹/파이썬)
나도 코딩 공부 시작하고 싶다! (웹/파이썬)
 
Boosted decision tree를 활용한 lending club의 채무자 원리금 상환 여부 예측
Boosted decision tree를 활용한 lending club의 채무자 원리금 상환 여부 예측Boosted decision tree를 활용한 lending club의 채무자 원리금 상환 여부 예측
Boosted decision tree를 활용한 lending club의 채무자 원리금 상환 여부 예측
 
[패스트캠퍼스] 애자일,누굴 위한 것인가
[패스트캠퍼스] 애자일,누굴 위한 것인가[패스트캠퍼스] 애자일,누굴 위한 것인가
[패스트캠퍼스] 애자일,누굴 위한 것인가
 
강의소개 - 왕초보의 프로그래밍 첫걸음 캠프
강의소개 - 왕초보의 프로그래밍 첫걸음 캠프강의소개 - 왕초보의 프로그래밍 첫걸음 캠프
강의소개 - 왕초보의 프로그래밍 첫걸음 캠프
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
 
Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)
 

Similar to 손해비용 최소화를 위한 신용평가 분류 모형(Cost sensitive classification)

Session output 예시
Session output 예시Session output 예시
Session output 예시
nceonceo
 
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
Eunhwa Yang
 
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
Eunhwa Yang
 
23기 110409 dteam_삼성카드케이스_ver1.0
23기 110409 dteam_삼성카드케이스_ver1.023기 110409 dteam_삼성카드케이스_ver1.0
23기 110409 dteam_삼성카드케이스_ver1.0
Eunhwa Yang
 
23기 110409 dteam_삼성카드케이스_ver1.0
23기 110409 dteam_삼성카드케이스_ver1.023기 110409 dteam_삼성카드케이스_ver1.0
23기 110409 dteam_삼성카드케이스_ver1.0
Eunhwa Yang
 
Mod 6시그마 특강자료(6시그마_활동이란_무엇인가)
Mod 6시그마 특강자료(6시그마_활동이란_무엇인가)Mod 6시그마 특강자료(6시그마_활동이란_무엇인가)
Mod 6시그마 특강자료(6시그마_활동이란_무엇인가)
korhskim
 
23기 110406 a team_kdk_수합_ver1.1
23기 110406 a team_kdk_수합_ver1.123기 110406 a team_kdk_수합_ver1.1
23기 110406 a team_kdk_수합_ver1.1
Eunhwa Yang
 
23기 110409 a_team_kdk_수합_ver1.1 (1)
23기 110409 a_team_kdk_수합_ver1.1 (1)23기 110409 a_team_kdk_수합_ver1.1 (1)
23기 110409 a_team_kdk_수합_ver1.1 (1)
Eunhwa Yang
 
23기 110409 a_team_kdk_수합_ver1.1 (1)
23기 110409 a_team_kdk_수합_ver1.1 (1)23기 110409 a_team_kdk_수합_ver1.1 (1)
23기 110409 a_team_kdk_수합_ver1.1 (1)
Eunhwa Yang
 
Business Model for Path
Business Model for PathBusiness Model for Path
Business Model for Path
nceo
 
6 sigma 교육자료
6 sigma 교육자료6 sigma 교육자료
6 sigma 교육자료
korhskim
 

Similar to 손해비용 최소화를 위한 신용평가 분류 모형(Cost sensitive classification) (20)

Project rac v.3
Project rac v.3Project rac v.3
Project rac v.3
 
파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석
 
Session output 예시
Session output 예시Session output 예시
Session output 예시
 
알고리즘 마케팅 CH3.4~
알고리즘 마케팅 CH3.4~알고리즘 마케팅 CH3.4~
알고리즘 마케팅 CH3.4~
 
SAS와 R을 사용한 데이터 분석
SAS와 R을 사용한 데이터 분석SAS와 R을 사용한 데이터 분석
SAS와 R을 사용한 데이터 분석
 
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
 
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
23기 110406 b팀_김영도_삼성카드전략도출_ver1.2 (1)
 
(주)엔이엑스티(N.e.x.t.)
(주)엔이엑스티(N.e.x.t.)(주)엔이엑스티(N.e.x.t.)
(주)엔이엑스티(N.e.x.t.)
 
Direct paysystem
Direct paysystemDirect paysystem
Direct paysystem
 
23기 110409 dteam_삼성카드케이스_ver1.0
23기 110409 dteam_삼성카드케이스_ver1.023기 110409 dteam_삼성카드케이스_ver1.0
23기 110409 dteam_삼성카드케이스_ver1.0
 
23기 110409 dteam_삼성카드케이스_ver1.0
23기 110409 dteam_삼성카드케이스_ver1.023기 110409 dteam_삼성카드케이스_ver1.0
23기 110409 dteam_삼성카드케이스_ver1.0
 
기업연계 팀프로젝트 포트폴리오_김영균
기업연계 팀프로젝트 포트폴리오_김영균기업연계 팀프로젝트 포트폴리오_김영균
기업연계 팀프로젝트 포트폴리오_김영균
 
Mod 6시그마 특강자료(6시그마_활동이란_무엇인가)
Mod 6시그마 특강자료(6시그마_활동이란_무엇인가)Mod 6시그마 특강자료(6시그마_활동이란_무엇인가)
Mod 6시그마 특강자료(6시그마_활동이란_무엇인가)
 
23기 110406 a team_kdk_수합_ver1.1
23기 110406 a team_kdk_수합_ver1.123기 110406 a team_kdk_수합_ver1.1
23기 110406 a team_kdk_수합_ver1.1
 
23기 110409 a_team_kdk_수합_ver1.1 (1)
23기 110409 a_team_kdk_수합_ver1.1 (1)23기 110409 a_team_kdk_수합_ver1.1 (1)
23기 110409 a_team_kdk_수합_ver1.1 (1)
 
23기 110409 a_team_kdk_수합_ver1.1 (1)
23기 110409 a_team_kdk_수합_ver1.1 (1)23기 110409 a_team_kdk_수합_ver1.1 (1)
23기 110409 a_team_kdk_수합_ver1.1 (1)
 
Business Model for Path
Business Model for PathBusiness Model for Path
Business Model for Path
 
Lt net20151215 businessplan
Lt net20151215 businessplanLt net20151215 businessplan
Lt net20151215 businessplan
 
6 sigma 교육자료
6 sigma 교육자료6 sigma 교육자료
6 sigma 교육자료
 
kaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptxkaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptx
 

More from FAST CAMPUS

More from FAST CAMPUS (16)

카라멜 최종 제안 Font rev
카라멜 최종 제안 Font rev카라멜 최종 제안 Font rev
카라멜 최종 제안 Font rev
 
카라멜 최종 제안
카라멜 최종 제안카라멜 최종 제안
카라멜 최종 제안
 
[Bms]생활도감 최종보고
[Bms]생활도감 최종보고[Bms]생활도감 최종보고
[Bms]생활도감 최종보고
 
디지털 마케팅 스쿨 수료생 포트폴리오3
디지털 마케팅 스쿨 수료생 포트폴리오3디지털 마케팅 스쿨 수료생 포트폴리오3
디지털 마케팅 스쿨 수료생 포트폴리오3
 
패스트캠퍼스 디지털 마케팅 스쿨 수료생 포트폴리오2
패스트캠퍼스 디지털 마케팅 스쿨 수료생 포트폴리오2패스트캠퍼스 디지털 마케팅 스쿨 수료생 포트폴리오2
패스트캠퍼스 디지털 마케팅 스쿨 수료생 포트폴리오2
 
패스트캠퍼스 디지털 마케팅 스쿨 수료생 포트폴리오
패스트캠퍼스 디지털 마케팅 스쿨 수료생 포트폴리오패스트캠퍼스 디지털 마케팅 스쿨 수료생 포트폴리오
패스트캠퍼스 디지털 마케팅 스쿨 수료생 포트폴리오
 
데이터 사이언스 익스텐션 스쿨 강의자료 3
데이터 사이언스 익스텐션 스쿨 강의자료 3데이터 사이언스 익스텐션 스쿨 강의자료 3
데이터 사이언스 익스텐션 스쿨 강의자료 3
 
데이터 사이언스 익스텐션 스쿨 강의자료 2
데이터 사이언스 익스텐션 스쿨 강의자료 2데이터 사이언스 익스텐션 스쿨 강의자료 2
데이터 사이언스 익스텐션 스쿨 강의자료 2
 
데이터 사이언스 익스텐션 스쿨 강의자료 1
데이터 사이언스 익스텐션 스쿨 강의자료 1데이터 사이언스 익스텐션 스쿨 강의자료 1
데이터 사이언스 익스텐션 스쿨 강의자료 1
 
패스트캠퍼스 디지털 마케팅 스쿨 최성연 수강생 포트폴리오
패스트캠퍼스 디지털 마케팅 스쿨 최성연 수강생 포트폴리오패스트캠퍼스 디지털 마케팅 스쿨 최성연 수강생 포트폴리오
패스트캠퍼스 디지털 마케팅 스쿨 최성연 수강생 포트폴리오
 
패스트캠퍼스 디지털 마케팅 스쿨 김규리 수강생 포트폴리오
패스트캠퍼스 디지털 마케팅 스쿨 김규리 수강생 포트폴리오패스트캠퍼스 디지털 마케팅 스쿨 김규리 수강생 포트폴리오
패스트캠퍼스 디지털 마케팅 스쿨 김규리 수강생 포트폴리오
 
패스트캠퍼스 UX/UI 디자인 스쿨 1기 수료생 최의정님 포트폴리오
패스트캠퍼스 UX/UI 디자인 스쿨 1기 수료생 최의정님 포트폴리오패스트캠퍼스 UX/UI 디자인 스쿨 1기 수료생 최의정님 포트폴리오
패스트캠퍼스 UX/UI 디자인 스쿨 1기 수료생 최의정님 포트폴리오
 
[강의소개] 프로그래밍 입문자가 안드로이드와 잘 사귀려면?
[강의소개] 프로그래밍 입문자가 안드로이드와 잘 사귀려면?[강의소개] 프로그래밍 입문자가 안드로이드와 잘 사귀려면?
[강의소개] 프로그래밍 입문자가 안드로이드와 잘 사귀려면?
 
회귀분석을 통한 노트북 거래 가격 회귀모형 및 예측
회귀분석을 통한 노트북 거래 가격 회귀모형 및 예측회귀분석을 통한 노트북 거래 가격 회귀모형 및 예측
회귀분석을 통한 노트북 거래 가격 회귀모형 및 예측
 
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
 
살아있는 감성으로 소비자에게 다가가는 콘텐츠, 영화의 감을 찾아주는 여자 최유빈
살아있는 감성으로 소비자에게 다가가는 콘텐츠, 영화의 감을 찾아주는 여자 최유빈살아있는 감성으로 소비자에게 다가가는 콘텐츠, 영화의 감을 찾아주는 여자 최유빈
살아있는 감성으로 소비자에게 다가가는 콘텐츠, 영화의 감을 찾아주는 여자 최유빈
 

손해비용 최소화를 위한 신용평가 분류 모형(Cost sensitive classification)

  • 1. 손해비용 최소화를 위한 신용평가 분류방법 Data Science School 2기 김 성 진 (sanjaykim) Cost-Sensitive classification for P2P
  • 2. < 질문 > 기존 신용평가 모델의 개선점은 무엇일까? P2P 회사 경쟁력 → “신용평가 모델” 김 성 진
  • 3. < 질문 > 기존 신용평가 모델의 개선점은 무엇일까? P2P 회사 경쟁력 → “신용평가 모델” “손해 비용”을 고려한 분류 방법 김 성 진
  • 4. < 질문 > 기존 신용평가 모델의 개선점은 무엇일까? P2P 회사 경쟁력 → “신용평가 모델” “손해 비용”을 고려한 분류 방법 실제 P2P 회사에 적용을 해보자 ! 김 성 진
  • 5. “신용평가 모델” = 구분하는 것 대출 승인 상환 못할 고객 상환 할 고객 대출 거절 신용평가 모델 김 성 진
  • 6. “신용평가 모델” = 구분하는 것 대출 승인 상환 못할 고객 상환 할 고객 대출 거절 예측 & 분류 신용평가 모델 새 고객 김 성 진
  • 7. ▶ 예시 : 기존 vs “비용”관점 고객ID 대출금 등급 소득 … 1 500만 D 100만 … 2 400만 A 200만 … 3 1,000만 C 300만 … 4 200만 E 80만 … 5 800만 A 130만 … 6 3,000만 B 400만 … 7 300만 C 70만 … 김 성 진
  • 8. ▶ 예시 : 기존 vs “비용”관점 고객ID 대출금 등급 소득 … 1 500만 D 100만 … 2 400만 A 200만 … 3 1,000만 C 300만 … 4 200만 E 80만 … 5 800만 A 130만 … 6 3,000만 B 400만 … 7 300만 C 70만 … 대출 거절 승인 승인 거절 승인 거절 거절 최종 판단 김 성 진
  • 9. ▶ 예시 : 기존 vs “비용”관점 고객ID 대출금 등급 소득 … 1 500만 D 100만 … 2 400만 A 200만 … 3 1,000만 C 300만 … 4 200만 E 80만 … 5 800만 A 130만 … 6 3,000만 B 400만 … 7 300만 C 70만 … 대출 거절 승인 승인 거절 승인 거절 거절 최종 판단 실제 미상환 상환 미상환 상환 미상환 상환 상환 GOOD BAD 김 성 진
  • 10. ▶ 예시 : 기존 vs “비용”관점 고객ID 대출금 등급 소득 … 1 500만 D 100만 … 2 400만 A 200만 … 3 1,000만 C 300만 … 4 200만 E 80만 … 5 800만 A 130만 … 6 3,000만 B 400만 … 7 300만 C 70만 … 손실금 못받은 수수료 총합 0 0 0 0 0 0 500만 0 500만 - 13만 13만 300만 0 300만 - 120만 120만 - 17만 17만 대출 거절 승인 승인 거절 승인 거절 거절 최종 판단 실제 미상환 상환 미상환 상환 미상환 상환 상환 GOOD BAD 손해 비용 김 성 진
  • 11. 미상환 상환 거절 1건 3건 승인 2건 1건 ▶ 모델 평가 방법 건수가 낮을 수록 미상환 상환 거절 0원 150만원 승인 800만원 0원 Accuracy Precision Recall F1 score 비용이 낮을 수록 Accuracy Precision Recall F1 score * Cost Matrix* Confusion Matrix 고객 손실금 못받은 수수료 3 500만 0 4 - 13만 5 300만 0 6 - 120만 7 - 17만 ① : 똑같은 가중치 적용 ② : 모든 고객을 동등하게 고려함(“건수“) ① : 금액이 다름 ② : 비용 고객별로 다 다름 좋은 모델이란? 모델이 틀렸을 때 ① 손실금, 수수료 ② 각 고객 별 모델 평가 지표 기존 방법 비용 관점 김 성 진
  • 12. 미상환 상환 거절 1건 3건 승인 2건 1건 ▶ 모델 평가 방법 건수가 낮을 수록 미상환 상환 거절 0원 150만원 승인 800만원 0원 Accuracy Precision Recall F1 score 비용이 낮을 수록 + 비용이 얼마나 절감되는가? Accuracy Precision Recall F1 score * Cost Matrix* Confusion Matrix 고객 손실금 못받은 수수료 3 500만 0 4 - 13만 5 300만 0 6 - 120만 7 - 17만 ① 다르다 ② 다르다 ① : 똑같은 가중치 적용 ② : 모든 고객을 동등하게 고려함(“건수“) ① : 금액이 다름 ② : 비용 고객별로 다 다름 좋은 모델이란? 모델이 틀렸을 때 ① 손실금, 수수료 ② 각 고객 별 모델 평가 지표 기존 방법 비용 관점 김 성 진
  • 13. <분석 절차> 1. Data 입수 (kaggle.com 렌딩클럽) 2. Data Preprocessing 3. Data로 cost matrix 산출 4. 알고리즘 적용 (LR, DT, RF, BMR, CSDT, CSRP) 5. Fit & Predict (cost matrix 사용) 6. Savings 산출 (cost matrix 사용) 7. 모델 별 비교 평가 ▶ "비용" 고려한 분류 방법 비용 관점 분류를 위한 파이썬 오픈소스 라이브러리 (Scikit-learn, pandas, numpy 기반) 여러가지 알고리즘, Dataset 보유함 김 성 진
  • 14. ▶ Data : Lending Club Loan Data <Preprocessing> • 총 Feature : 72개 • Row : 887,379개 Target = loan_status 확실한 Data만 사용(진행 중 제외) 0, 1로 환산 na값 제거 기타 불필요한 feature 제거 <최종 사용 Data> • Feature : 12개 • Row : 256,699개 총 연체율 : 약 18% • Train : 75% • Test : 25% 이 자 율 대 출 금 액 기 간 월 수 입 수 수 료 이 자 율 부 채 율 집 보 유 여 부 기타 주요 Features 김 성 진
  • 15. ▶ Data : Lending Club Loan Data <Preprocessing> • 총 Feature : 72개 • Row : 887,379개 Target = loan_status 확실한 Data만 사용(진행 중 제외) 0, 1로 환산 na값 제거 기타 불필요한 feature 제거 <최종 사용 Data> • Feature : 12개 • Row : 256,699개 총 연체율 : 약 18% • Train : 75% • Test : 25% 이 자 율 대 출 금 액 기 간 월 수 입 수 수 료 이 자 율 부 채 율 집 보 유 여 부 기타 주요 Features 김 성 진
  • 16. ▶ 알고리즘 1. Bayes Minimum Risk 2. 비용 관점 Decision Tree 3. 비용 관점 Random Patches 기존 모델 활용 → Cost Matrix 사용 → 모든 고객 Risk 계산 (대출 승인) (대출 거절) 기존 모델에서 예측한 부실률 Cost Matrix Random Patch 앙상블 방법 2번 X 10개 분류 작은 Class 선택 Misclassification Entropy Gini Direct Cost Entropy Cost Gini Cost 비용 관점 Weighted Voting Gain 계산비용 환산 김 성 진
  • 17. ▶ 결과 <비용> 기존 모델 비용 고려 모델 <Savings> 모델 사용 안한 경우 : 모든 대출 승인 or 대출 거절 $ 30,842,131 기존 모델 비용 고려 모델 김 성 진
  • 18. ▶ 참고자료 : Savings 란? 0 全대출승인 全대출거절 모델 비용절감 손해 비용 적은 값 기준 모델 사용 안함 모델 사용 함 Savings = 全대출거절 비용절감 (≤ 1) 김 성 진
  • 19. <참고 자료> 1. Costcla Documentation : http://albahnsen.com/CostSensitiveClassification/ 2. Costcla Sourcecode : https://github.com/albahnsen/CostSensitiveClassification 3. Data : https://www.kaggle.com/wendykan/lending-club-loan-data 4. Lendingclub fees : https://www.lendingclub.com/public/borrower-rates-and-fees.action 5. Papers : [1] Elkan, C. (2001, August). The foundations of cost-sensitive learning. In International Joint Conference on Artificial Intelligence (Vol. 17, No. 1, pp. 973-978). LAWRENCE ERLBAUM ASSOCIATES LTD. [2] Margineantu, D. (2002). Class probability estimation and cost-sensitive classification decisions. Machine Learning: ECML 2002, 167-185. <본 프로젝트 Git-hub 주소> : https://github.com/sanjaykim/intro_to_costcla_for_p2p 김 성 진