분석가를 위한 Aws 기반의 digital 플랫폼 구축

분석가를 위한 AWS 기반의
Digital 플랫폼 구축
SK C&C
권낙주

I. AWS기반의 Digital 플랫폼 전략
II. AWS기반의 Digital 플랫폼 Architecture
1. 분석 플랫폼단순화
2. TCO를 고려한 플랫폼
3. 분석가들을 위한 편리한 Elastic Sandbox 제공
4. Multicloud서비스에 종속되지 않는
III. AccuInsight+ Use Case
목차

I. AWS기반의 Digital 플랫폼 전략
분석 플랫폼
단순화
분석가들을 위한
편리한
Elastic Sandbox
제공
TCO를 고려한
플랫폼
Multicloud서비스에
종속되지 않는
Digital플랫폼
1 2 3 4

Batch-Processing
Engine
Real-Time
Processing Engine
데이터생성 Visualization
Data Cataloging (AWS Glue)
Data Security and Governance
Echo
IoT
rule
Amazon
Redshift*
AmazonKinesis
Firehose AmazonKinesis
Analytics
AWS DMS
Amazon
DynamoDB
Amazon
RDSS3 Data Lake
Raw Data
Store
Amazon
Pinpoint*
Analytical Sandboxes
Data
Discovery
Predictive
Modeling
Internet
Amazon API
Gateway
Data Lambda Architecture
Serving
Data Store
SNS
AmazonKinesis
Streams
Amazon ES
Amazon SageMaker

AWS Lake Formation
Amazon QuickSight
AWS Data Pipeline
Amazon Managed
Streaming for Kafka
Amazon Athena Amazon Elasticsearch
Service
AWS Glue Amazon Redshift
Amazon Kinesis
Video Streams
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
Amazon CloudSearch Amazon EMR Amazon Kinesis
AccuInsight+
Data InsightDL ModelerDHP
Batch
Pipeline
ML Modeler Real-Time
Pipeline
MCM Data Catalog
R,Python
Modeler

2.TCO를 고려한 플랫폼

총소유비용 TCO(Total Cost of Ownership)란
정의 : 인프라 환경을 온프레미스 (on-premises)와 AWS에서 운영하는 경우를 비교하는 총 소유 비용 분석 (취득 및
운영 비용)
비용최적화를 위한 5가지 방법

1) Compute and Storage 분리한다
IDC PERSPECTIVE
Five Benefits of Decoupling Compute and Storage for Big Data
Deployments
by Ritu Jyoti , 2017
1. CPU 와 Storage 용량의 독립적인 확장
2. 단일화된 중앙 집중 형 데이터 보관
3. Agile 어플리케이션 개발 지원
4. Hybrid cloud 구현 가능(on-premise storage 활용)
5. 단순하고 유연한 소프트웨어 관리
Decoupling Compute and Storage 디자인의 장점은 여러 위치의 다양한 소스로부터
발생한 데이터를 유연하게 저장 가능한 저장 플랫폼을, 논리적 혹은 가상의
최적화된 환경으로 쉽고 효과적인 분석 플랫폼을 생성 가능
“Best Practices for Designing Your Data Lake”
Published: 19 October 2016, Gartner, Analyst(s): Nick Heudecker
확장성이 뛰어난 플랫폼을 구축 하기 위해서는 ”Decoupling Compute and Storage” 아키텍처가 반드시
필요합니다.

2) Elastic spot instance 고려

13
Ø Compute Node 와 Data Node 를 구분해서 운영가능하다.
Ø Cluster를 종료 후에 다시 Cluster를 구성해도 기존데이터를 읽을 수 있다.
Ø HDFS의 확장에 대해서 신경을 쓰지 않아도 된다.
Ø Amazon guarantees ... 11 x 9's" durability
Ø Build elastic clusters
• Add nodes to read from Amazon S3
• Remove nodes with data safe on Amazon S3
3) HDFS로 S3(Object Storage)를 사용했을 때의 장점

AccuInsight+
2.TCO를 고려한 플랫폼-(On-premise)
AccuInsight+
Data InsightDL ModelerDHP Batch
Pipeline
Pipeline
MCM Data Catalog
R,Python
Modeler

Data APIs
수집
Client
머신
러닝
Workflow
관리
Hadoop
Batch
RDBMS
Batch
Global
W/F
운영
관리
Container 배
포
Infra Layer
Docker Container 관리, Multi-Tenancy, MSA, 인증/권한관리, 작업관리(배치/실시간/ML/DL)
클러스터스케일관리 로그관리(Spark/MapReduce/Tensorflow), 이력관리, 데이터관리/모델관리/모델배포관리(DL)
Object
Storage
Data Lake
Amazon EMR
S3
2.TCO를 고려한 플랫폼-(Public Cloud)
Storage Compute
AccuInsight+
Pipeline
Pipeline
Multi-Cloud Data Catalog
R,Python
Modeler

INSTANCE SPEC 1달($) 1일 8시간($)
CDH
(EC2)
Edge Node
Name Node
Data Node
r5.2xlarge
r5.4xlarge
r5.2xlarge
1
2
4
4,674 X 24시간 운영
MCM
(EMR)
Master Node
Core Node
Task Node
r5.2xlarge
r5.4xlarge
r5.2xlarge
1
2
4
1,168 292 운영이 필요 없음
TCO를 고려한 플랫폼 고객사 사례
CDH : Cloudera Hadoop

https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf
ML
Code

Analytical Sandbox는 데이터 과학자들이 새로운 가설을 개발하고 테스트하고, Mash-Up하고, 새로운 Use-Case를
형성하기 위해 데이터를 탐색하며, Use-Case를 검증하기위한 빠른 Prototype을 만들고 현실화 할 수 있는 영역
“Demystifying Data Lake Architecture”
Published: 6 July 2017, Medium, Director : Pradeep Menon
분석가들을 위한 Sandbox 제공
분석가들에게 안전한 분석 데이터와 실험적 환경을 제공하는 것이 핵심입니다.
Data Discovery
Exploratory Data Analysis
Predictive Modeling
Analytics Sandbox 역할 Elastic Analytics Sandbox
구현 개념
Data
DW SQL
분석
다양한 분석 툴
활용
Data
카탈로그
ML

Data APIs
수집
Client
머신
러닝
Workflow
관리
Hadoop
Batch
RDBMS
Batch
Global
W/F
운영
관리
Container
배포
Infra Layer
Docker Container 관리, Multi-Tenancy, MSA, 인증/권한관리, 작업관리(배치/실시간/ML/DL)
클러스터스케일관리 로그관리(Spark/MapReduce), 이력관리, 데이터관리/모델관리/모델배포관리(DL)
Object
Storage
Data Lake
Amazon EMR
S3
Storage Compute
AccuInsight+
Pipeline
Pipeline
Multi-Cloud Data Catalog
R,Python
Modeler

AWS EMR 란?
AWS에서 Apache 하둡 및 Apache Spark와 같은 빅 데이터 프레임워크 실행을 간소화하는 관리형 클러스터 플랫폼입
니다
Master Node :
클러스터를 관리
노드간에 데이터 및 작업의 분배를 조정
작업 상태를 추적하고 클러스터의 상태를 모니터링
Core Node :
Data Node , 클러스터의 HDFS에 데이터를 저장하는
노드
하나이상의 Core Node가 있어야함.
Task Node :
No HDFS , Provides compute resources
Task Node 는 Optional 이다.
Core Task
Worker

22
여러개의 Cluster 서비스에서 데이터를 읽을 수 있다.
: 다수의 분석가들이 각자 Elastic Sandbox 를 이용해서 분석을 수행한다.
S3 butket
다수의분석가를 위한 Elastic Sandbox 제공
SandBox
SandBox
Data Lake 분석가
분석가
3. 분석가들을 위한 편리한 Elastic Sandbox 제공 II. AWS기반의 Digital 플랫폼 Architecture

어제 분석가가 24시간 걸린 학습이
있다고 해서 worker node 10개로 늘려서
다시 돌려 보라했어요. 그랬더니
2시간대로 끝났다고 하네요
3. 분석가들을 위한 편리한 Elastic Sandbox 제공 II. AWS기반의 Digital 플랫폼 Architecture

4.Multicloud서비스에 종속되지 않는

1) Infrastructure As Code(IAC)
: 유연성이 떨어지는 스크립팅이나 수동 프로세스 대신 코드를 이용
해 시스템을 자동으로 구축, 관리, 프로비저닝 하는 IT 인프라 프로비
저닝 프로세스의 일종이다. 이에 따라 IAC를 때론 '프로그래밍이 가
능한 인프라'라고 부르기도 한다
ØAWS CloudFormation/CDK(Cloud
Development Kit)
ØAzure Resource Manager(ARM Templates)
ØTerraform — open-source IaC tool
ØGoogle Cloud Deployment Manager
ØChef — popular IaC tool
ØAnsible — popular configuration management
tool
4.Multicloud서비스에 종속되지 않는 Digital플랫폼

분석가 업무담당자
Data InsightDL ModelerMCM Batch
Pipeline
ML ModelerReal-Time
Pipeline
Cloud SearchBigQL Data Catalog
R,Python
Modeler
AccuInsight+
II. AWS기반의 Digital 플랫폼 Architecture4.Multicloud서비스에 종속되지 않는 Digital플랫폼
GCP AWS Azure

III. AccuInsight+ Use Case
1. 분석단계 Demo
2. 운영단계 방안
3. Next AccuInsight+

AccuInsight+ Demo
1. 분석단계

2. 운영단계 방안
전처리
Predict TrainPredict Train
Train Predict Train Predict 후처리
종 료
cluster
생 성
cluster
Serverless Bigdata Workload

분석가를 위한 Aws 기반의 digital 플랫폼 구축

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 분석가를 위한 Aws 기반의 digital 플랫폼 구축

Similar to 분석가를 위한 Aws 기반의 digital 플랫폼 구축 (20)

분석가를 위한 Aws 기반의 digital 플랫폼 구축