Kaggle 상의 신용카드 승인 데이터로, MS Azure ML(Machine Learning) Studio 환경에서 기계학습을 진행하였습니다. 학습모델은 Random Forest 모델을 사용하였고, 훈련데이터와 테스트 데이터를 8:2로 분할하였습니다. 애저 ML Studio을 살펴볼 수 있습니다.
Kaggle 상의 신용카드 부정사용 데이터를 사용하여, MS Azure 환경의 ML(Machine Learning) Studio로 기계학습을 진행하였습니다. 학습모델은 Random Forest 모델을 사용하였고, 훈련데이터와 테스트 데이터를 8:2로 분할하였습니다. Azure의 ML Studio의 기본 사용법을 확인하실 수 있습니다.
Kaggle 상의 신용카드 부정사용 데이터를 사용하여, MS Azure 환경의 ML(Machine Learning) Studio로 기계학습을 진행하였습니다. 학습모델은 Random Forest 모델을 사용하였고, 훈련데이터와 테스트 데이터를 8:2로 분할하였습니다. Azure의 ML Studio의 기본 사용법을 확인하실 수 있습니다.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...Amazon Web Services Korea
발표자료 다시보기: https://youtu.be/E8DsJPlLN6A
데이터사이언티스트는 다양한 실험 과 반복을 통해서 최적의 기계 학습 모델을 만들 수 있지만 이에 따른 시간과 노력, 자원이 필요합니다. 본 세션에서는 인프라 걱정없이 다양한 모델을 만들어 보고 관찰 해 볼수 있는 Amazon SageMaker 신규 기능인 Sagemaker Experiment와 Debugging 에 대해 알아 봅니다. 통합 기계 학습 개발 환경(IDE)인 Jupyter Notebook Interface인 SageMaker Studio에 어떻게 해당 기능들이 통합 되었는지 데모를 통해 알아봅니다.
예측 분석 (predictive analytics)를 위해 데이터 세트를 블렌딩하는 7단계를 설명합니다. 다양한 데이터 소스에 직접 액세스하고 드래그앤드롭의 쉬운 방식으로 코딩 없이 예측 분석을 누구나 수행할 수 있게 됩니다. R프로그래밍 언어를 기반으로 하여 고급사용자도 자신의 코드 또는 스크립트를 쉽게 통합하여 사용이 가능합니다. Tableau와 Quilk를 지원하여 예측분석과 시각화의 완벽한 협업을 이루어 낼수 있습니다. - by 픽데이타(www.pikdata.com)
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
[AWS Innovate 온라인 컨퍼런스] Amazon SageMaker 신규 기능을 활용한 다양한 ML 모델 실험해 보기 - 서지혜, A...Amazon Web Services Korea
발표자료 다시보기: https://youtu.be/E8DsJPlLN6A
데이터사이언티스트는 다양한 실험 과 반복을 통해서 최적의 기계 학습 모델을 만들 수 있지만 이에 따른 시간과 노력, 자원이 필요합니다. 본 세션에서는 인프라 걱정없이 다양한 모델을 만들어 보고 관찰 해 볼수 있는 Amazon SageMaker 신규 기능인 Sagemaker Experiment와 Debugging 에 대해 알아 봅니다. 통합 기계 학습 개발 환경(IDE)인 Jupyter Notebook Interface인 SageMaker Studio에 어떻게 해당 기능들이 통합 되었는지 데모를 통해 알아봅니다.
예측 분석 (predictive analytics)를 위해 데이터 세트를 블렌딩하는 7단계를 설명합니다. 다양한 데이터 소스에 직접 액세스하고 드래그앤드롭의 쉬운 방식으로 코딩 없이 예측 분석을 누구나 수행할 수 있게 됩니다. R프로그래밍 언어를 기반으로 하여 고급사용자도 자신의 코드 또는 스크립트를 쉽게 통합하여 사용이 가능합니다. Tableau와 Quilk를 지원하여 예측분석과 시각화의 완벽한 협업을 이루어 낼수 있습니다. - by 픽데이타(www.pikdata.com)
4. 신용카드 사용 데이터 – 2010설립, 2017년 Google 인수
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
• 유럽 카드사 2013년 9월 2일치 데이터
• 전체 284,807 건 중 부정사용 492건
• (Time, Amount, Class)를 제외한 필드를 PCA를
사용해 V1~V28 로 변형
• Label field 는 Class
5. 신용카드 부정사용 데이터 – 유럽 카드사 2013년 2일치 데이터
발췌 : https://www.kaggle.com/agpickersgill/credit-card-fraud-detection/data
부정사용 여부
• 1 : 부정사용
• 0: 정상사용
7. Azure Machine Learning – 애저 머신러닝 지원 도구
발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/
데이터 탐색, 모델 개발,
배포를 손쉽게 관리할 수
있는 서비스 (Cloud/On-
Premise 지원)
Azure Machine Learning
웹서비스 개발 도구
DS(Data Science)용
가상머신 배포 서비스
8. Azure Machine Learning Stuido – GUI 기반 머신러닝 모델 개발툴
발췌 : https://docs.microsoft.com/ko-kr/azure/machine-learning/studio/studio-overview-diagram
11. Machine Learning 모델 개발 절차
1. 데이터 Upload (Dataset 생성)
2. Experiment 생성
3. Machine Learning 모델 작성
① 데이터셋 블록 추가
② 데이터 전처리(정규화, 합산 필드 생성 등) 블록 추가
③ 데이터 분할(split – 훈련용, 테스트용) 블록 추가
④ Train 블록과 ML(Machine Learning) 모델 블록 추가
⑤ 채점 블록과 평가 블록 추가
4. 훈련된 모델 테스트 및 배포
12. 부정사용 검출 웹서비스 제작 – 데이터 업로드
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
생성하기
13. 부정사용 검출 웹서비스 제작 – 데이터 업로드
데이터 셋 생성
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
데이터 셋 파일 찾기
14. 부정사용 검출 웹서비스 제작 – 데이터 업로드
데이터 파일 선택
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
OK 버튼
15. 부정사용 검출 웹서비스 제작 – 생성된 데이터셋
업로드된 데이터 셋
발췌 : https://studio.azureml.net/Home/ViewWorkspaceCached/4a4d4ddb45754e9ab86d77250ca0d12b#Workspace/Datasets/ListDatasets
28. 머신러닝 정확도 측정 관련 용어
• Sensitivity(Recall) = TP/(TP+FN)
• Specificity = TN/(TN+FP)
• Precision = TP/(TP+ FP)
• Sensitivity 와 Specificity (반비례 관계)
참/거짓 비율이 다를 경우
• Sensitivity와 Precision (반비례 관계)
참/거짓 비율이 비슷할 경우
( 참, 거짓 비율이 차이가 크면, 예측의 집합의 비율은
해석에 문제가 생길 가능성)
• ROC(Receiver Operating Characteristic)
오적중 확률에 따른 적중확률 변화
• Accuracy = (TP+TN)/(TP+TN+FP+FN)
• F1-score =
2*(Precision*Recall)/(Precision+Recall)
실제 True
(부정사용)
실제 False
(정상 사용)
예측 True
(예측 부정 사용)
TP
(True Positive)
FP
(False Positive)
예측 False
(예측 정상 사용)
FN
(False Negative)
TN
(True Negative)