2. 과거 데이터
분석 및 리포팅
실시간 데이터
프로세싱 및 대시보드
데이터 예측
학습을 통한 스마트 전망
Amazon Kinesis
Amazon EC2
AWS Lambda
Amazon Redshi6,
Amazon RDS
Amazon S3
Amazon EMR
Data-driven development
Amazon Machine
Learning
3. Networking
VPC
Direct
Connect ELB Route53
Storage
S3 EBS Glacier
Storage
GatewayEC2
Compute
WorkSpaces
Elastic
MapReduce
Data Pipeline
Hosted Hadoop
framework
Move data among
AWS services and
on-premises data
sources
Redshift
Petabyte-scale
data warehouse
service
Kinesis
Real-time
processing of
streaming data at
massive scale
Zero admin NoSQL DB
with fast, predictable
performance
DynamoDB
AWS 빅데이터 서비스 빌딩 블록
5. 데이터 분석
데이터 저장
Import/Export
Direct Connect
데이터 수집
Amazon Kinesis
Amazon
Glacier
S3
DynamoDB
Amazon Aurora
AWS 빅데이터 빌딩 블럭
Data Pipeline
CloudSearch
EMR
EC2
Amazon
RedshiC
Machine
Learning
6. 관계형 데이터 웨어하우스
대용량 병렬 처리 – 페타 바이트급
매니지드 서비스
$1,000/TB/Year; starts at $0.25/hour
Amazon
Redshi6
더 빠르고
더 간단하고
더 싸게
8. 변화에 대한 불일치 사항
작은 기업도 대용량 데이터를 가진다
(모바일, 소셜, 광고기술, IoT)
분석에 대한 고비용, 관리 복잡성이
혁신 저해
0
200
400
600
800
1000
1200
Enterprise Data Data in Warehouse
9. Amazon Redshift의 서비스 관점
• 10배 저렴
• 손쉬운 배포
• 높은 DBA 생산성
• 10배 빠름
• 프로그래밍이 없음
• 손쉽게 Hadoop, 머신러
닝,스트림을 도구와 연동
• 워크 플로우 상에 분석
• 필요할 때만 사용 가능
• 고가용성 및 재해 복구
Enterprise
Big Data
SaaS
11. Amazon Redshift 아키텍처
• 리더(Leader) Node
SQL end point/메타 데이터 저장
쿼리 플랜 최적화/쿼리 실행 관장
• 컴퓨팅(Compute) Nodes
로컬 열 기반 스토리지
모든 데이터 로드/쿼리/백업 등에 대한
병렬 분산 처리
• $0.25/hour에서 시작 , 2 PB (압축)까지
DC1: SSD; scale from 160 GB to 326 TB
DS2: HDD; scale from 2 TB to 2 PB
SQL Clients/BI Tools
128GB RAM
16TB disk
16 cores
Inges'on/Backup
Backup
Restore
Amazon S3/Amazon DynamoDB/SSH
JDBC/ODBC
10 GigE
(HPC)
128GB RAM
16TB disk
16 cores Compute
Node
128GB RAM
16TB disk
16 cores Compute
Node
128GB RAM
16TB disk
16 cores Compute
Node
Leader
Node
14. 장점 #1: 빠르다
• 병렬 및 분산 처리
Query
Load
Export
Backup
Restore
Resize
Amazon S3/EMR/DynamoDB/SSH
128GB RAM
16TB disk
16 coresCompute
Node
128GB RAM
16TB disk
16 coresCompute
Node
128GB RAM
16TB disk
16 coresCompute
Node
SQL Clients/BI Tools
128GB RAM
48TB disk
16 cores
CN
128GB RAM
48TB disk
16 cores
CN
128GB RAM
48TB disk
16 cores
CN
128GB RAM
48TB disk
16 cores
Leader
Node
128GB RAM
48TB disk
16 cores
CN
128GB RAM
48TB disk
16 cores
CN
128GB RAM
48TB disk
16 cores
CN
128GB RAM
48TB disk
16 cores
CN
128GB RAM
48TB disk
16 cores
Leader
Node
15. 128GB RAM
16TB disk
16 cores
Compute
Node
128GB RAM
16TB disk
16 cores
Compute
Node
128GB RAM
16TB disk
16 cores
Compute
Node
128GB RAM
16TB disk
16 cores
Leader
NodeID Name
1 John Smith
2 Jane Jones
3 Peter Black
4 Pat Partridge
5 Sarah Cyan
6 Brian Snail
1 John Smith
4 Pat Partridge
2 Jane Jones
5 Sarah Cyan
3 Peter Black
6 Brian Snail
장점 #1: 빠르다
DistribuAon Keys
16. 장점 #1: 빠르다
• 높은 I/O 워크로드를 처리를 위한 하드웨어 최적화
(4GB/sec/node)
• 향상된 네트워크 대역폭 (1M packets/sec/node)
• 인스턴스 크기 및 스토리지 선택 가능
• 주기적인 자동 패치 기능 제공
• 사례 : 신규 Dense Storage (HDD) 인스턴스 타입
ü 메모리 2x, 컴퓨팅 2x, disk 처리량 1.5x
ü 비용: 이전 타입과 같음!
17. 장점 #2: 싸다
DS2 (HDD)
Price Per Hour for
DW1.XL Single Node
EffecAve Annual
Price per TB compressed
On-Demand $ 0.850 $ 3,725
1 Year Reserva'on $ 0.500 $ 2,190
3 Year Reserva'on $ 0.228 $ 999
DC1 (SSD)
Price Per Hour for
DW2.L Single Node
EffecAve Annual
Price per TB compressed
On-Demand $ 0.250 $ 13,690
1 Year Reserva'on $ 0.161 $ 8,795
3 Year Reserva'on $ 0.100 $ 5,500
• 간단한 가격 모델
• 노드 수 x 시간당 과금
• Leader node 과금 없음
• 초기 비용 없음
• 사용한 만큼만
18. 장점 #3: 관리는 AWS몫
• 손쉬운 백업
• 클러스터내 중복 복제본
• S3로 지속적인 증분 백업
• 리전 간 백업
• 스트리밍 복원
Amazon S3
Amazon S3
Region 1
Region 2
Compute
Node
Compute
Node
Compute
Node
• 빠른 장애 복구
• 디스크 장애
• 노드 장애
• 네트워크 장애
• 리전/AZ 장애
19. 장점 #4: 우수한 보안 기능
• 데이터 연결시 SSL 사용 가능
• Amazon VPC 적용 가능 (네트워크 분리)
• 데이터 암호화 지원
ü S3로 부터 암호화 된 데이터 로딩 가능
ü Block key, Cluster key, Master key (AES-256)
ü 온프레미스 HSM & AWS CloudHSM 지원
• AWS CloudTrail 통합을 통한 감사기능
• SOC 1/2/3, PCI-DSS, FedRAMP, BAA 인증
10 GigE
(HPC)
Inges'on
Backup
Restore
SQL Clients/BI Tools
128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
128GB RAM
16TB disk
16 cores
Amazon S3 / EMR/DynamoDB/SSH
Customer VPC
Internal
VPC
JDBC/ODBC
Leader
Node
Compute
Node
Compute
Node
Compute
Node
20. 장점 #5: 빠른 혁신
• 서비스 개시 후 100여번의 신규 기능 추가
• 격주 새로운 기능 출시
• 자동 패치 제공
Service Launch (2/14)
PDX (4/2)
Temp Credentials (4/11)
DUB (4/25)
SOC1/2/3 (5/8)
Unload Encrypted Files
NRT (6/5)
JDBC Fetch Size (6/27)
Unload logs (7/5)
SHA1 Builtin (7/15)
4 byte UTF-8 (7/18)
Sharing snapshots (7/18)
Statement Timeout (7/22)
Timezone, Epoch, Autoformat (7/25)
WLM Timeout/Wildcards (8/1)
CRC32 Builtin, CSV, Restore Progress (8/9)
Resource Level IAM (8/9)
PCI (8/22)
UTF-8 Substitution (8/29)
JSON, Regex, Cursors (9/10)
Split_part, Audit tables (10/3)
SIN/SYD (10/8)
HSM Support (11/11)
Kinesis EMR/HDFS/SSH copy, Distributed Tables, Audit
Logging/CloudTrail, Concurrency, Resize Perf.,
Approximate Count Distinct, SNS Alerts, Cross Region
Backup (11/13)
Distributed Tables, Single Node Cursor Support,
Maximum Connections to 500 (12/13)
EIP Support for VPC Clusters (12/28)
New query monitoring system tables and diststyle all
(1/13)
Redshift on DW2 (SSD) Nodes (1/23)
Compression for COPY from SSH, Fetch size support for
single node clusters, new system tables with commit
stats, row_number(), strotol() and query termination
(2/13)
Resize progress indicator & Cluster Version (3/21)
Regex_Substr, COPY from JSON (3/25)
50 slots, COPY from EMR, ECDHE ciphers (4/22)
3 new regex features, Unload to single file,
FedRAMP(5/6)
Rename Cluster (6/2)
Copy from multiple regions, percentile_cont,
percentile_disc (6/30)
Free Trial (7/1)
pg_last_unload_count (9/15)
AES-128 S3 encryption (9/29)
UTF-16 support (9/29)
21. 장점 #6: 강력한 지원 기능
• 맞춤형 함수 지원
• 머신 러닝
• 데이터 사이언스
• Data Science
Amazon Machine
Learning
22. 장점 #7: 다양한 연관 생태계
Data Integration Systems IntegratorsBusiness Intelligence
23. 장점 #8: 서비스 지향 아키텍쳐
DynamoDB
EMR
S3
EC2/SSH
RDS/Aurora
Amazon
Redshij
Amazon Kinesis
Machine
Learning
Data Pipeline
CloudSearch
Mobile
AnalyAcs
29. • 500MM tweets/day = ~ 5,800 tweets/sec
• 2k/tweet is ~12MB/sec (~1TB/day)
• $0.015/hour per shard, $0.028/million PUTS
• Amazon Kinesis cost is $0.765/hour
• Amazon Redshift cost is $0.850/hour (for a 2TB node)
• S3 cost is $1.28/hour (no compression)
Total: $2.895/hour
서비스
비용 구조
30. Amazon.com – 웹로그 분석
• Amazon.com 로그 분석
ü 1PB+ workload, 2TB/day, growing 67%
YoY
ü Largest table: 400 TB
• 1차적 해결 방법
ü Legacy DW—query across 1 week/hr.
ü Hadoop—query across 1 month/hr.
• ?
31. • 데이터 처리 용량
ü Query 15 months of data (1PB) in 14 minutes
ü Load 5B rows in 10 minutes
ü 21B rows joined with 10B rows – 3 days (Hive) to 2 hours
ü Load pipeline: 90 hours (Oracle) to 8 hours
• 인스턴스 사양
ü 64 clusters/800 total nodes
ü 13PB provisioned storage
• 인력: 2 DBAs
데이터
처리 구조
33. Amazon Redshift – 무료 사용(Free tier)
• DC1.Large 노드 평가판을 2개월간 무료로 사용 가능
ü 매월 750시간을 무료로 사용할 수 있음
ü 160GB의 압축된 SSD 스토리지로 필요에 따라 사용 가능
• 시간을 기준으로 계산되므로 탄력적 사용 가능
ü DC1 Large 노드 10대를 75시간
ü DC1 Large 노드 100대를 7.5시간
34. 참고 자료
• Amazon Redshift
• http://aws.amazon.com/ko/redshift
• Amazon Redshift FAQ
• http://aws.amazon.com/ko/redshift/faqs
• Amazon Redshift 관련 자료
• http://aws.amazon.com/articles/Amazon-Redshift
• 블로그
• http://aws.amazon.com/ko/blogs/korea/category/amazon-
redshift
36. 여러분의 피드백을 기다립니다!
• 이전 웨비나 발표 자료 및 동영상
• https://aws.amazon.com/ko/blogs/korea/category/webinar/
• 한국어 공식 소셜 미디어
@AWSKorea
AmazonWebServices.ko
AWSKorea
AWSKorea