1. 데이터 사이언스 SCHOOL
5
Abstract
Goal(프로젝트의 목표)
- 보험사 고객의 개인, 보험데이터를 기반으로 고객의 보험사기 여부를 예측
프로젝트 개요
데이터수집 및 분석 방법론
-데이터수집
00생명 빅데이터 공모전 데이터 활용
( feature = 10년간의 고객데이터 target = 보험사기여부 데이터 )
-방법론
Naïve Bayes Classification ( 다항분포 나이브 베이즈, 가우시안 나이브 베이즈)
- feature들 중 카테고리 데이터, 뉴메릭 데이터가 함께 있음
- 카데고리 데이터 -> 다항분포 나이브 베이즈, 뉴메릭 데이터 -> 가우시안 나이브 베이즈
- 두 모형을 합하여 하나의 예측 모형 생성
-변수선택
- 팀원들간의 토론을 통하여 보험사기에 영향을 미칠 것이라 생각되는 변수 선정
- 카테고리 데이터 : 보험사기 그룹과 정상 그룹을 분류 - 그래프를 통해 분포가 다른 변수들을 선정
(나이브 베이지안 가정)
- 뉴메릭 데이터 : 히트맵을 그려 상관이 높은 변수들 제거
- 의사결정 나무를 이용하여 중요도가 높은 변수 선택
-평가 & 개선작업
- ROC커브를 사용하여 모델 평가
- 조건을 만족하는 변수들을 추가, 제거하여 최적의 모델을 선택
-최종 성능평가
- 중요도가 높은 변수들을 선택하였을 때보다 중요도는 낮지만 많은 변수들이 들어 갔을 때 가장
예측률이 높음
- 카테고리 데이터가 나이브 베이즈 가정을 만족하지 못한 한계 -> 더 많은 데이터 확보 필요
보험사기 예측 분석
팀 project / 2017.02 ~ 2016.04