SlideShare a Scribd company logo
1 of 38
Download to read offline
2018년 04월
MS Azure ML Studio
신용카드 부정사용 검출 테스트
타임게이트 연구소
Agenda
• 신용카드 부정사용 테스트 데이터 (Kaggle)
• Azure Machine Learning Studio
• 신용카드 부정사용 검출 웹서비스 제작
• 결과 비교
• 웹서비스 배포 및 테스트
신용카드 부정사용 테스트 데이터
신용카드 사용 데이터 – 2010설립, 2017년 Google 인수
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
• 유럽 카드사 2013년 9월 2일치 데이터
• 전체 284,807 건 중 부정사용 492건
• (Time, Amount, Class)를 제외한 필드를 PCA를
사용해 V1~V28 로 변형
• Label field 는 Class
신용카드 부정사용 데이터 – 유럽 카드사 2013년 2일치 데이터
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
부정사용 여부
• 1 : 부정사용
• 0: 정상사용
Azure ML Studio
Azure Machine Learning – 애저 머신러닝 지원 도구
발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/
데이터 탐색, 모델 개발,
배포를 손쉽게 관리할 수
있는 서비스 (Cloud/On-
Premise 지원)
Azure Machine Learning
웹서비스 개발 도구
DS(Data Science)용
가상머신 배포 서비스
Azure Machine Learning Stuido – GUI 기반 머신러닝 모델 개발툴
발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/studio/studio-overview-diagram
Azure Machine Learning Studio– https://studio.azureml.net
발췌 : https://studio.azureml.net/
Azure
계정으로
로그인
부정사용 검출 웹서비스 제작
Machine Learning 모델 개발 절차
1. 데이터 Upload (Dataset 생성)
2. Experiment 생성
3. Machine Learning 모델 작성
① 데이터셋 블록 추가
② 데이터 전처리(정규화, 합산 필드 생성 등) 블록 추가
③ 데이터 분할(split – 훈련용, 테스트용) 블록 추가
④ Train 블록과 ML(Machine Learning) 모델 블록 추가
⑤ 채점 블록과 평가 블록 추가
4. 훈련된 모델 테스트 및 배포
부정사용 검출 웹서비스 제작 – 데이터 업로드
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
생성하기
부정사용 검출 웹서비스 제작 – 데이터 업로드
데이터 셋 생성
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
데이터 셋 파일 찾기
부정사용 검출 웹서비스 제작 – 데이터 업로드
데이터 파일 선택
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
OK 버튼
부정사용 검출 웹서비스 제작 – 생성된 데이터셋
업로드된 데이터 셋
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
부정사용 검출 웹서비스 제작 – experiment 생성
생성 버튼
부정사용 검출 웹서비스 제작 – Blank Experiment 생성
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
부정사용 검출 웹서비스 제작 – Experiment 생성
Experiment 이름 입력
부정사용 검출 웹서비스 제작 – 데이터셋 선택
데이터셋 선택
Drag & Drop
부정사용 검출 웹서비스 제작 – 데이터 정규화 블록 추가
데이터 정규화 블록
블록 연결
정규화 방법 선택
정규화 대상 컬럼 선택
부정사용 검출 웹서비스 제작 – 데이터 분할 블록 추가
데이터 분할 블록
블록 연결
분할 비율 선택
(일반적으로 8:2 혹은 7:3)
부정사용 검출 웹서비스 제작 – Train Model 블록 추가
모델 훈련 블록
블록 연결
(연결점 확인 필요)
Label 컬럼 선택
부정사용 검출 웹서비스 제작 – ML 모델 블록 추가
ML(Machine Learning) 모델 블록
블록 연결
(연결점 위치 주목)
훈련 모델 매개변수 선택
부정사용 검출 웹서비스 제작 – 모델 채점 블록 추가
모델 채점 블록
블록 연결
(연결점 주목)
부정사용 검출 웹서비스 제작 – 비교 평가 블록 추가
비교평가 블록
블록 연결
부정사용 검출 웹서비스 제작 – 모델 훈련 수행
훈련 수행
결과 비교
머신러닝 정확도 측정 관련 용어
• Sensitivity(Recall) = TP/(TP+FN)
• Specificity = TN/(TN+FP)
• Precision = TP/(TP+ FP)
• Sensitivity 와 Specificity (반비례 관계)
 참/거짓 비율이 다를 경우
• Sensitivity와 Precision (반비례 관계)
 참/거짓 비율이 비슷할 경우
( 참, 거짓 비율이 차이가 크면, 예측의 집합의 비율은
해석에 문제가 생길 가능성)
• ROC(Receiver Operating Characteristic)
 오적중 확률에 따른 적중확률 변화
• Accuracy = (TP+TN)/(TP+TN+FP+FN)
• F1-score =
2*(Precision*Recall)/(Precision+Recall)
실제 True
(부정사용)
실제 False
(정상 사용)
예측 True
(예측 부정 사용)
TP
(True Positive)
FP
(False Positive)
예측 False
(예측 정상 사용)
FN
(False Negative)
TN
(True Negative)
블록 연결
결과 비교 – 평가 점수 확인
평가 스코어
• Sensitivity(Recall) = 0.771
• Accuracy = 0.999
• Precision = 0.955
• F1 = 0.853
• AUC = 0.940
결과 비교 – 평가 점수 확인
웹 서비스 배포 및 테스트
Predictive 웹서비스 생성
웹 서비스 배포 – 웹서비스 생성
생성된 웹서비스 모델
웹 서비스 배포 – 웹서비스 생성
웹서비스 테스트 수행
웹 서비스 배포 – 웹서비스 모델 검증을 위한 테스트 수행
웹서비스 테스트 수행 후 deploy
웹서비스 호출을 위한 API Key
웹 서비스 배포 – 생성된 웹서비스 테스트
웹서비스 테스트용 웹페이지
• 웹서비스 Request/Response 정보
• 샘플 클라이언트 코드
웹 서비스 배포 – 웹서비스 테스트 화면
웹 서비스 배포 – 웹서비스 Request/Response 확인
Address
서울특별시 성동구 아차산로 17
11층 (성수동 1가, 서울숲엘타워)
우편번호 04789
Telephone
Tel : (02)575-0409
Fax: (02)6003-1987

More Related Content

Similar to Azure ml studio_fraud_detection

[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance TuningJi-Woong Choi
 
딥러닝(Deep Learing) using DeepDetect
딥러닝(Deep Learing) using DeepDetect딥러닝(Deep Learing) using DeepDetect
딥러닝(Deep Learing) using DeepDetectJunyi Song
 
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
 
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...Amazon Web Services Korea
 
머신러닝과 사이킷런의 이해
머신러닝과 사이킷런의 이해머신러닝과 사이킷런의 이해
머신러닝과 사이킷런의 이해철민 권
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWSKRUG - AWS한국사용자모임
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020Jinwoong Kim
 
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)SangIn Choung
 
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차chan693050
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPikdata Inc.
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)Seung-Woo Kang
 
Deview RecoPick팀 AWS에서 추쳔 구현하기
Deview RecoPick팀 AWS에서 추쳔 구현하기Deview RecoPick팀 AWS에서 추쳔 구현하기
Deview RecoPick팀 AWS에서 추쳔 구현하기Chaehyun Lee
 
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례BESPIN GLOBAL
 
[AWS Dev Day] 인공지능 / 기계 학습 | 기계 학습 싸고 빠르게 하는 방법 - Amazon SageMaker 편 - 김필호 AW...
[AWS Dev Day] 인공지능 / 기계 학습 | 기계 학습 싸고 빠르게 하는 방법 - Amazon SageMaker 편 - 김필호 AW...[AWS Dev Day] 인공지능 / 기계 학습 | 기계 학습 싸고 빠르게 하는 방법 - Amazon SageMaker 편 - 김필호 AW...
[AWS Dev Day] 인공지능 / 기계 학습 | 기계 학습 싸고 빠르게 하는 방법 - Amazon SageMaker 편 - 김필호 AW...Amazon Web Services Korea
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오Kihoon4
 

Similar to Azure ml studio_fraud_detection (20)

[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning
 
딥러닝(Deep Learing) using DeepDetect
딥러닝(Deep Learing) using DeepDetect딥러닝(Deep Learing) using DeepDetect
딥러닝(Deep Learing) using DeepDetect
 
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
 
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...
 
머신러닝과 사이킷런의 이해
머신러닝과 사이킷런의 이해머신러닝과 사이킷런의 이해
머신러닝과 사이킷런의 이해
 
Openface
OpenfaceOpenface
Openface
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
 
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)
사용자 스토리 대상 테스트 설계 사례(테스트기본교육 3장 3절)
 
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryx
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)
 
Deview RecoPick팀 AWS에서 추쳔 구현하기
Deview RecoPick팀 AWS에서 추쳔 구현하기Deview RecoPick팀 AWS에서 추쳔 구현하기
Deview RecoPick팀 AWS에서 추쳔 구현하기
 
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
 
[AWS Dev Day] 인공지능 / 기계 학습 | 기계 학습 싸고 빠르게 하는 방법 - Amazon SageMaker 편 - 김필호 AW...
[AWS Dev Day] 인공지능 / 기계 학습 | 기계 학습 싸고 빠르게 하는 방법 - Amazon SageMaker 편 - 김필호 AW...[AWS Dev Day] 인공지능 / 기계 학습 | 기계 학습 싸고 빠르게 하는 방법 - Amazon SageMaker 편 - 김필호 AW...
[AWS Dev Day] 인공지능 / 기계 학습 | 기계 학습 싸고 빠르게 하는 방법 - Amazon SageMaker 편 - 김필호 AW...
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오
 

More from Seung-Woo Kang

[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)Seung-Woo Kang
 
[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차Seung-Woo Kang
 
[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?Seung-Woo Kang
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang
 
[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가Seung-Woo Kang
 
[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영Seung-Woo Kang
 
차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약Seung-Woo Kang
 
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)Seung-Woo Kang
 
소음과 투자 (도서 요약)
소음과 투자 (도서 요약)소음과 투자 (도서 요약)
소음과 투자 (도서 요약)Seung-Woo Kang
 
피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)Seung-Woo Kang
 
현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)Seung-Woo Kang
 
세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)Seung-Woo Kang
 
확률을 높이는 확률
확률을 높이는 확률확률을 높이는 확률
확률을 높이는 확률Seung-Woo Kang
 
캐리커처 생성기 테스트
캐리커처 생성기 테스트캐리커처 생성기 테스트
캐리커처 생성기 테스트Seung-Woo Kang
 
시계열 분석의 이해와 활용
시계열 분석의 이해와 활용시계열 분석의 이해와 활용
시계열 분석의 이해와 활용Seung-Woo Kang
 
스플렁크 머신러닝 연동
스플렁크 머신러닝 연동스플렁크 머신러닝 연동
스플렁크 머신러닝 연동Seung-Woo Kang
 
하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요Seung-Woo Kang
 
MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기Seung-Woo Kang
 
통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)Seung-Woo Kang
 
블록체인 이해와 활용
블록체인 이해와 활용블록체인 이해와 활용
블록체인 이해와 활용Seung-Woo Kang
 

More from Seung-Woo Kang (20)

[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)
 
[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차
 
[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가
 
[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영
 
차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약
 
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
 
소음과 투자 (도서 요약)
소음과 투자 (도서 요약)소음과 투자 (도서 요약)
소음과 투자 (도서 요약)
 
피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)
 
현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)
 
세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)
 
확률을 높이는 확률
확률을 높이는 확률확률을 높이는 확률
확률을 높이는 확률
 
캐리커처 생성기 테스트
캐리커처 생성기 테스트캐리커처 생성기 테스트
캐리커처 생성기 테스트
 
시계열 분석의 이해와 활용
시계열 분석의 이해와 활용시계열 분석의 이해와 활용
시계열 분석의 이해와 활용
 
스플렁크 머신러닝 연동
스플렁크 머신러닝 연동스플렁크 머신러닝 연동
스플렁크 머신러닝 연동
 
하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요
 
MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기
 
통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)
 
블록체인 이해와 활용
블록체인 이해와 활용블록체인 이해와 활용
블록체인 이해와 활용
 

Azure ml studio_fraud_detection

  • 1. 2018년 04월 MS Azure ML Studio 신용카드 부정사용 검출 테스트 타임게이트 연구소
  • 2. Agenda • 신용카드 부정사용 테스트 데이터 (Kaggle) • Azure Machine Learning Studio • 신용카드 부정사용 검출 웹서비스 제작 • 결과 비교 • 웹서비스 배포 및 테스트
  • 4. 신용카드 사용 데이터 – 2010설립, 2017년 Google 인수 발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data • 유럽 카드사 2013년 9월 2일치 데이터 • 전체 284,807 건 중 부정사용 492건 • (Time, Amount, Class)를 제외한 필드를 PCA를 사용해 V1~V28 로 변형 • Label field 는 Class
  • 5. 신용카드 부정사용 데이터 – 유럽 카드사 2013년 2일치 데이터 발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data 부정사용 여부 • 1 : 부정사용 • 0: 정상사용
  • 7. Azure Machine Learning – 애저 머신러닝 지원 도구 발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/ 데이터 탐색, 모델 개발, 배포를 손쉽게 관리할 수 있는 서비스 (Cloud/On- Premise 지원) Azure Machine Learning 웹서비스 개발 도구 DS(Data Science)용 가상머신 배포 서비스
  • 8. Azure Machine Learning Stuido – GUI 기반 머신러닝 모델 개발툴 발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/studio/studio-overview-diagram
  • 9. Azure Machine Learning Studio– https://studio.azureml.net 발췌 : https://studio.azureml.net/ Azure 계정으로 로그인
  • 11. Machine Learning 모델 개발 절차 1. 데이터 Upload (Dataset 생성) 2. Experiment 생성 3. Machine Learning 모델 작성 ① 데이터셋 블록 추가 ② 데이터 전처리(정규화, 합산 필드 생성 등) 블록 추가 ③ 데이터 분할(split – 훈련용, 테스트용) 블록 추가 ④ Train 블록과 ML(Machine Learning) 모델 블록 추가 ⑤ 채점 블록과 평가 블록 추가 4. 훈련된 모델 테스트 및 배포
  • 12. 부정사용 검출 웹서비스 제작 – 데이터 업로드 발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets 생성하기
  • 13. 부정사용 검출 웹서비스 제작 – 데이터 업로드 데이터 셋 생성 발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets 데이터 셋 파일 찾기
  • 14. 부정사용 검출 웹서비스 제작 – 데이터 업로드 데이터 파일 선택 발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets OK 버튼
  • 15. 부정사용 검출 웹서비스 제작 – 생성된 데이터셋 업로드된 데이터 셋 발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
  • 16. 부정사용 검출 웹서비스 제작 – experiment 생성 생성 버튼
  • 17. 부정사용 검출 웹서비스 제작 – Blank Experiment 생성 발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
  • 18. 부정사용 검출 웹서비스 제작 – Experiment 생성 Experiment 이름 입력
  • 19. 부정사용 검출 웹서비스 제작 – 데이터셋 선택 데이터셋 선택 Drag & Drop
  • 20. 부정사용 검출 웹서비스 제작 – 데이터 정규화 블록 추가 데이터 정규화 블록 블록 연결 정규화 방법 선택 정규화 대상 컬럼 선택
  • 21. 부정사용 검출 웹서비스 제작 – 데이터 분할 블록 추가 데이터 분할 블록 블록 연결 분할 비율 선택 (일반적으로 8:2 혹은 7:3)
  • 22. 부정사용 검출 웹서비스 제작 – Train Model 블록 추가 모델 훈련 블록 블록 연결 (연결점 확인 필요) Label 컬럼 선택
  • 23. 부정사용 검출 웹서비스 제작 – ML 모델 블록 추가 ML(Machine Learning) 모델 블록 블록 연결 (연결점 위치 주목) 훈련 모델 매개변수 선택
  • 24. 부정사용 검출 웹서비스 제작 – 모델 채점 블록 추가 모델 채점 블록 블록 연결 (연결점 주목)
  • 25. 부정사용 검출 웹서비스 제작 – 비교 평가 블록 추가 비교평가 블록 블록 연결
  • 26. 부정사용 검출 웹서비스 제작 – 모델 훈련 수행 훈련 수행
  • 28. 머신러닝 정확도 측정 관련 용어 • Sensitivity(Recall) = TP/(TP+FN) • Specificity = TN/(TN+FP) • Precision = TP/(TP+ FP) • Sensitivity 와 Specificity (반비례 관계)  참/거짓 비율이 다를 경우 • Sensitivity와 Precision (반비례 관계)  참/거짓 비율이 비슷할 경우 ( 참, 거짓 비율이 차이가 크면, 예측의 집합의 비율은 해석에 문제가 생길 가능성) • ROC(Receiver Operating Characteristic)  오적중 확률에 따른 적중확률 변화 • Accuracy = (TP+TN)/(TP+TN+FP+FN) • F1-score = 2*(Precision*Recall)/(Precision+Recall) 실제 True (부정사용) 실제 False (정상 사용) 예측 True (예측 부정 사용) TP (True Positive) FP (False Positive) 예측 False (예측 정상 사용) FN (False Negative) TN (True Negative)
  • 29. 블록 연결 결과 비교 – 평가 점수 확인
  • 30. 평가 스코어 • Sensitivity(Recall) = 0.771 • Accuracy = 0.999 • Precision = 0.955 • F1 = 0.853 • AUC = 0.940 결과 비교 – 평가 점수 확인
  • 31. 웹 서비스 배포 및 테스트
  • 32. Predictive 웹서비스 생성 웹 서비스 배포 – 웹서비스 생성
  • 33. 생성된 웹서비스 모델 웹 서비스 배포 – 웹서비스 생성
  • 34. 웹서비스 테스트 수행 웹 서비스 배포 – 웹서비스 모델 검증을 위한 테스트 수행 웹서비스 테스트 수행 후 deploy
  • 35. 웹서비스 호출을 위한 API Key 웹 서비스 배포 – 생성된 웹서비스 테스트 웹서비스 테스트용 웹페이지 • 웹서비스 Request/Response 정보 • 샘플 클라이언트 코드
  • 36. 웹 서비스 배포 – 웹서비스 테스트 화면
  • 37. 웹 서비스 배포 – 웹서비스 Request/Response 확인
  • 38. Address 서울특별시 성동구 아차산로 17 11층 (성수동 1가, 서울숲엘타워) 우편번호 04789 Telephone Tel : (02)575-0409 Fax: (02)6003-1987