Kaggle 상의 신용카드 부정사용 데이터를 사용하여, MS Azure 환경의 ML(Machine Learning) Studio로 기계학습을 진행하였습니다. 학습모델은 Random Forest 모델을 사용하였고, 훈련데이터와 테스트 데이터를 8:2로 분할하였습니다. Azure의 ML Studio의 기본 사용법을 확인하실 수 있습니다.
4. 신용카드 사용 데이터 – 2010설립, 2017년 Google 인수
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
• 유럽 카드사 2013년 9월 2일치 데이터
• 전체 284,807 건 중 부정사용 492건
• (Time, Amount, Class)를 제외한 필드를 PCA를
사용해 V1~V28 로 변형
• Label field 는 Class
5. 신용카드 부정사용 데이터 – 유럽 카드사 2013년 2일치 데이터
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
부정사용 여부
• 1 : 부정사용
• 0: 정상사용
7. Azure Machine Learning – 애저 머신러닝 지원 도구
발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/
데이터 탐색, 모델 개발,
배포를 손쉽게 관리할 수
있는 서비스 (Cloud/On-
Premise 지원)
Azure Machine Learning
웹서비스 개발 도구
DS(Data Science)용
가상머신 배포 서비스
8. Azure Machine Learning Stuido – GUI 기반 머신러닝 모델 개발툴
발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/studio/studio-overview-diagram
11. Machine Learning 모델 개발 절차
1. 데이터 Upload (Dataset 생성)
2. Experiment 생성
3. Machine Learning 모델 작성
① 데이터셋 블록 추가
② 데이터 전처리(정규화, 합산 필드 생성 등) 블록 추가
③ 데이터 분할(split – 훈련용, 테스트용) 블록 추가
④ Train 블록과 ML(Machine Learning) 모델 블록 추가
⑤ 채점 블록과 평가 블록 추가
4. 훈련된 모델 테스트 및 배포
12. 부정사용 검출 웹서비스 제작 – 데이터 업로드
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
생성하기
13. 부정사용 검출 웹서비스 제작 – 데이터 업로드
데이터 셋 생성
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
데이터 셋 파일 찾기
14. 부정사용 검출 웹서비스 제작 – 데이터 업로드
데이터 파일 선택
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
OK 버튼
15. 부정사용 검출 웹서비스 제작 – 생성된 데이터셋
업로드된 데이터 셋
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
28. 머신러닝 정확도 측정 관련 용어
• Sensitivity(Recall) = TP/(TP+FN)
• Specificity = TN/(TN+FP)
• Precision = TP/(TP+ FP)
• Sensitivity 와 Specificity (반비례 관계)
참/거짓 비율이 다를 경우
• Sensitivity와 Precision (반비례 관계)
참/거짓 비율이 비슷할 경우
( 참, 거짓 비율이 차이가 크면, 예측의 집합의 비율은
해석에 문제가 생길 가능성)
• ROC(Receiver Operating Characteristic)
오적중 확률에 따른 적중확률 변화
• Accuracy = (TP+TN)/(TP+TN+FP+FN)
• F1-score =
2*(Precision*Recall)/(Precision+Recall)
실제 True
(부정사용)
실제 False
(정상 사용)
예측 True
(예측 부정 사용)
TP
(True Positive)
FP
(False Positive)
예측 False
(예측 정상 사용)
FN
(False Negative)
TN
(True Negative)