3. 2
도입 배경
프로젝트 목적
부당청구 탐지 서비스의 차별적 경쟁 우위를 확보하기 위함임
보험사기는 해마다 다양한 방법으로 10%씩
증가하는 추세이다.
·
2016년 한해동안 적발된 보험사기 금액은
전년 대비 9.7%가 증가 했다.
·
단순히 보험사기가 증가하는 것 뿐만 아니
라 그 수법이 다양해 지고 있어 기존 적발규
칙을 보완할 필요성이 있다.
·
또한 기존의 시스템보다 정확도를 높이는
고도화가 필요하다.
·
효과적 조사대상 선정
• 보험부당청구 세그먼트별 탐지모형 차별화
• 머신러닝 기반 탐지 정확도 향상
신규 규칙에 대한 설명적 탐지와 근거 자료 제공
• 고객, 지급내역 레벨의 탐지 병행
• 설명적 모형 적용 (의사결정 트리)
최신기술 기반 민첩한 탐지
• 머신러닝을 이용한 데이터 기반 모형
• 학습과 탐지 모형의 구조화
조사결과의 피드백 및 활용
• 현지조사 결과의 탐지모형 피드백
• OLAP, 시각화에 의한 결과 활용
기대 효과
4. 3
실제 보험가입자 정보를 기반으로 보험 설계사들
의 경쟁입찰과 보험분석 알고리즘을 통해 최
적의 보험 플랜을 제공
“
”
마이리얼플랜은
6개월만에 누적 플랜 요청
1,200건을 달성
약 50%의 낙찰률
5. 4
언더라이터의 계약심사과정을 지원하기 위해 건강
및 생명보험 사업부문에 인공지능 기술 도입
“
”
Swiss Re(스위스재보험)
업무 효율 증대
심사결과
Risk 감소
6. 5
병원기록, 환자 진료 이력, 상해 정보 등을 이용해
보험금 지급 업무를 AI가 담당
“
”
생산성 30% 향상
비용
14억 절감
일본 후코쿠생명은
8. 7
최종목표 시스템
목표
Model
Target
▪ 지급 심사의 업무 생산성을 높이는 지원
시스템을 인공지능을 통해 구현
▪ 동시에 부당 청구 업무 판단 지원
Process
개선사항
▪ 지급 심사 분류 작업 지원
✓ 심사 난이도에 따라 3단계로 분류
(자동심사/일반심사/세부심사)
✓ 세부 심사는 전문 심사자를 통해 판단하고,
적정심사와 부당청구로 구분
▪ 지급 심사 오류, 누락 방지 지원
✓ 보험 이상 지급 유무 판단(특약 사항)
✓ 보험 지급 분쟁 조정 판례 등 외부 비정형데이터
활용 (분쟁조정결정서 등)
▪ 기존 수작업을 통한 지급보험 심사를
KM기반으로 기계학습을 통하여 업무효율화
수준을 높여 지급 심사 품질 개선
1 정형 Data 패턴 분석을 통한 신규 Rule 생성
3 청구 심사 및 지급 프로세스 개선
2 Rule 고도화 및 비정형 Data 활용
• 1단계 : 비지도 학습을 통한 신규 패턴 분석
• 2단계 : 신규 패턴 적용 및 기존 Rule과의 결합
(월 1회 신규 Rule 적용)
※ 기존 Rule에 대한 변경, 삭제 등 업데이트 병행
• 모델 고도화 작업을 위한 비정형 Data활용
- 사건 뉴스, 분쟁 판례, 신규 법규 적용
• Deep Learning 기술을 적용
※ Rule에 대한 SME 검토 및 판단은 유지
• 청구 Data 全영역으로 확대하여 지급/비지급 자동심사
• 지급 오류, 누락, 현장 실사 업무효율화 달성
정형 Data와 비정형 Data의 결합으로 심사 효율화와 부당 지급 누수 방지 등 지급심사 프로세스 개선
9. 8
Machine Learning, Deep Learning기술을 통해 보험사기 신규패턴을 발굴하고 정확도가 향상된
보험사기탐지모델을 제공하는 시스템을 구현함
지급 &
비지급
보험사기심사
SIU 심사팀
접수
고객 창구
현장확인
여부심사
고객 창구
현장확인
손해사정사
지급
여부심사
지급심사팀
청구 데이터
계약 데이터
지급 데이터
설계사 데이터
전처리 변수선정
보험사기
신규 패턴 분류
부당
정상
프로파일링
정상
부당여부 탐지
부당
심사결과
데이터
신규룰
기존룰
보험사기
신규패턴 판별
룰 생성
기존 룰
시스템 적용
10. 9
프로젝트의 유형 목록 및 모델링 적용 범위
수행 범위는 전체 업무 영역 중 보험 부당청구 탐지로 제한함
유형 파일럿 모형 적용 범위 목표
신규
보험 부당청구
패턴 개발
보험 부당청구
패턴 분류 모형
요양급여 청구 데이터를 학습하여 숨겨진 패턴을 분류하고, 분
류된 패턴 중에서 알려지지 않은 새로운 보험 부당청구 유형을
정의
머신러닝 알고리즘을 이용하여 신규 보험 부
당청구 패턴의 효율적 개발 가능성을 평가
보험 부당청구
패턴 판별 모형
새롭게 분류된 패턴 유형을 학습하고, 학습된 판별모형을 통해
신규 청구건에 대해 해당되는 패턴 유형을 판별
새롭게 발견된 보험 부당청구 패턴을 판별•
모형화하여 패턴의 검증 및 시범운영을 위한
방법 제공
보험 부당청구
탐지모형 개발
보험 부당청구
탐지 모형
보험 부당청구 현지조사결과 데이터에서 보험 부당청구 패턴
을 학습하고, 학습된 탐지모형을 통해 신규 청구건의 부당여부
를 탐지
기존 룰 기반 탐지 시스템 대비 모형의 탐지
정확도를 비교하여 인공지능 모형기반 보험
부당청구 탐지의 타당성을 평가
보험 부당청구
탐지모형 고도화
보험 부당청구
고도화 탐지모형
비정형데이터 분석을 통해 보험 부당청구 탐지모형의 신규 변
수로써 활용하여 보험 부당청구 탐지를 고도화 함
SNS, 기사, 동향보고서 등을 기반으로 보험
부당청구와 관련된 비정형 데이터 분석
12. 11
부당패턴
분류 DB
[ 분류 모형 ]
(군집알고리즘)
[ 패턴분류 결과 ]
[ 판별 모형 ]
(분류알고리즘)
[일치여부검증]
정상
패턴
부당
패턴
판별결과
DB
[ 패턴판별 결과 ]
학습
분류
판별
모형 알고리즘 설명
군집
알고리즘
K-means Clustering 전통적인 분류기법으로 대상집단을 거리의 평균값을 기준으로 K개의 군집으로 반복 세분화 하는 기법
SOM(Self-Organizing Maps) 인공신경망을 기반으로 훈련집합의 입력패턴을 가중치로 학습하여 군집화하는 기법
EM & Canopy 주어진 초기값으로 가능성이 최대인 것부터 반복 과정을 통해 파라미터 값을 갱신해 군집화하는 기법
분류
알고리즘
Decision Tree 분류 Class와 변수들의 관계를 규칙으로 도출하고 트리의 형태로 분기하는 가장 기본적인 분류 알고리즘
Random Forest 수많은 Decision Tree들이 Forest를 구성하여 각각의 예측결과를 하나의 결과변수로 평균화하는 알고리즘
Support Vector Machine 데이터의 분포공간에서 가장 큰 폭의 경계를 구분하여 데이터가 속하는 분류를 판단하는 비확률적 알고리즘
프로파일링
결과적용
청구 데이터
계약 데이터
지급 데이터
보험설계사
데이터
고객 데이터
전처리 변수선정
비지도 학습을 통한 보험 부당청구 신규 패턴 분류 모형과 지도학습을 통한 부당청구 패턴 판별 모형
13. 12
비지도학습을 통한 보험 부당청구 신규 패턴 분류 모형
○ 청구 데이터에 대해 클러스터링 기법을 적용하여 거리를 기반으로 동질 청구패턴유형을 분류하고 새로운 부당청구 패턴을 발견
Clustering청구 데이터
계약 데이터
지급 데이터
보험설계사
데이터
고객 데이터
빈도수 군집간 분리도
부당의심 패턴
정상 패턴
모형 알고리즘 설명
군집
알고리즘
K-means Clustering 전통적인 분류기법으로 대상집단을 거리의 평균값을 기준으로 K개의 군집으로 반복 세분화 하는 기법
SOM(Self-Organizing Maps) 인공신경망을 기반으로 훈련집합의 입력패턴을 가중치로 학습하여 군집화하는 기법
EM & Canopy 주어진 초기값으로 가능성이 최대인 것부터 반복 과정을 통해 파라미터 값을 갱신해 군집화하는 기법
14. 13
[ 판별 모형 ]
(Decision Tree)
:...SEX_TP_CD = 1:
:...s1_f3 in
{B00,B02,B35,C69,D21,D23,D31,E10,E11,E13,E14,E50,E66,E78,F51,
2,R52,S01,S02,T85, Z01,Z94,Z97}: cluster3 (0)
: s1_f3 in
{H00,H01,H02,H04,H10,H11,H15,H16,H19,H20,H21,T26,T90,Z96}:
: :...s_cnt > 1: cluster3 (1051/15)
: : s_cnt <= 1:
: : :...PLC_TY_CD <= 2: cluster3 (118/1)
: : PLC_TY_CD > 2:
: : :...OPRSCD_CNT <= 0:
: : :...rvd_damt_tamt_scaled <= 0.096629: cluster3
Decision 그래프
Rule
학습
설명
보험 부당청구 데이터
“생성된 룰을 기존 시스템에 반영 가능”
지도학습을 통한 보험 부당청구 신규 패턴 판별 모형
○ 머신러닝은 어떤 변수에 영향을 받아 분류되었는지 알 수 없음. 따라서 설명력이 높은 Decision Tree 알고리즘을 사용
하여 Decision Tree 그래프와 If {} Then.. Rule의 형태로 분류기준을 설명 가능
변수 중요도
15. 14
[성능평가]
부당
정상
탐지결과
DB
[ 부당탐지 결과 ]
학습
탐지
검증
[ 탐지 모형 ]
(분류/예측알고리즘)
환류
알고리즘 설명
Random Forest 수많은 Decision Tree들이 Forest를 구성하여 각각의 예측결과를 하나의 결과변수로 평균화 하는 알고리즘
Support Vector Machine 데이터의 분포공간에서 가장 큰 폭의 경계를 구분하여 데이터가 속하는 분류를 판단하는 비확률적 알고리즘
Extra Tree Random forest와 비슷하나 속도가 Random forest에 비해 빠른 알고리즘
XGBoost Randomforest의 Tree는 독립적이라면 XGBoost의 Tree의 결과를 다음 트리에 적용하는 boost방식의 알고리즘
Deep Learning 다층구조의 Neural Network을 기반으로 변수의 패턴이 결과에 미치는 영향을 가중치로 조절하며 학습하는 알고리즘
지도학습을 통한 보험 부당청구 탐지 모형
청구 데이터
계약 데이터
지급 데이터
보험설계사
데이터
고객 데이터
전처리 변수선정
16. 15
○ 부당청구 탐지모형의 후보 알고리즘간 성능 평가
- 평가지표는 Accuracy, Precison, Recall를 사용하며, 현지조사 업무에서는 Y Recall의 향상에 중점을 둠
실제결과(Actual)
부당 정상
탐지결과
(Predict)
부당 True Positive(TP) False Positive(FP)
정상 False Negative(FN) True Negative(TN)
○ Accuracy(정확도) = 모형이 탐지한 결과와 실제 결과와 일치하는 정탐지의 비율
(TP + TN) / (Total), 100에 가까울수록 좋은 지표
○ Precision(정밀도) = 모형이 부당이라고 탐지한 결과 중에서 실제결과도 부당인 정탐 비율
(TP) / (TP + FP), 1-정밀도 = 오탐율
○ Recall(재현율) = 전체 부당 중에서 모형이 부당이라고 정확하게 탐지한 정탐 비율
(TP) / (TP + FN), 1-재현율 = 미탐율
-> 현지조사 업무의 특성상 부당을 놓치지 않고 정확하게 탐지하는 Y Recall의 지표가 중요함
정밀도
재현율
지도학습을 통한 보험 부당청구 탐지 모형
17. 16
지도학습을 통한 보험 부당청구 탐지 모형
Accuracy 고위험군_Recall 고위험군_Precision
Randomforest 0.961 0.945 0.928
SVM 0.983 0.705 0.947
Extra Tree 0.963 0.97 0.962
XGBoost 0.962 0.854 0.959
○ 부당청구 탐지모형의 후보 알고리즘간 성능 평가
높은 정확도도 중요하지만
부당을 부당으로 탐지하는 Y Recall값
도 고려한다면
Randomforest와 Extra Tree
알고리즘이 우수함
18. 17
○ 부당청구 탐지 적용 알고리즘
알고리즘 설명 장단점
Rule 기반 탐지
“a*청구금액+b*의사수+c*수진수”를 기준으로 판정하거나,
청구금액>a, 의사수>b , 수진수>c이면 ‘이상‘으로 분류하는 방식
- 선형관계를 가지는 변수를 알려진 규칙에 적용하기 적합
- 연관변수가 많아지면 오히려 정확성이 떨어질 수 있음
딥러닝 기반 탐지
- 이상상태에 해당하는 (청구금액, 의사수, 수진수) 조합을 찾아냄
- Convolutional Neural Network(CNN)은 이미지 처리에 적합
- Recurrent Neural Network(RNN)은 시계열 처리에 적합
- 변수의 조합을 패턴으로 학습하여 새로운 패턴을 스스로 발견
- 어떤 패턴에 대해서도 이상가능성을 산출 가능
- 많은 변수를 대상으로 정확도 높은 예측을 수행
딥러닝을 이용한 보험 부당청구 탐지 모형 고도화
Deep LearningRandom Forest
Deep Learning을 사용하면
Random Forest보다
안정성과 유연성이 향상
19. 18
○ 부당청구 탐지모형의 학습 데이터 구성
- 분류된 패턴군에서 고위험군이 총 177건으로 다른 패턴의 건수보다 현저하게 수가 적어 성능을 저하시킴
- 딥러닝은 학습의 개수가 적으면 성능이 저하되어 upsampling을 하여 성능을 높임
→ Under Sampling을 통해 부당의 비율을 높여가며 비교해보면
전체적인 정확도인 Accuracy는 다소(1%) 낮아지나 부당을 정확하게 예측하는 Y Racall은 급격히(11%) 높아짐
Accuracy Y_Recall Y_Precision
Tensorflow 0.964 0.872 0.905
Tensorflow_upsampling 0.955 0.988 0.922
머신러닝을 이용한 부당청구 탐지 모형
20. 19
○ 딥러닝을 이용한 부당청구 탐지 모형의 구성과 탐지결과
:
:
: :
정상
부당
“딥러닝 알고리즘은 데이터의 량과
Hidden Layer의 구조에 따라 성능의 차
이가 크게 달라지기 때문에
본사업 수행시 다양한 Layer 구조로
성능 최적화가 필요함”성능향상
구분 항목 1회차 2회차 3회차 4회차
Hidden Layer 1 1 1 1
learning rate 0.006 0.004 0.006 0.005
bath size 1000 1200 1300 1500
dropout prob 0.6 0.6 0.8 0.9
Accuracy 0.935 0.937 0.946 0.955
Recall 0.895 0.896 0.953 0.988
Precision 0.912 0.915 0.919 0.922
파라미터
성능
머신러닝을 이용한 부당청구 탐지 모형