© 2018 Amazon Web Services, Inc. or its Affiliates. All rights reserved.
이종화
Solutions Architect
AWS에서 빅데이터 프로젝트
시작하기
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
전통적인 분석은 다음과 같이 진행됨
OLTP ERP CRM LOB
Data Warehouse
Business Intelligence
• 관계형 데이터
• 수TB 부터 수PB 까지의 규모
• 데이터 로드 하기 전에 미리
정의된 스키마
• 운영 보고 및 Ad-Hoc 리포트 작성
• 높은 초기 CAPEX / OPEX 비용
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
전통적인 접근법을 확장하는 Data Lakes
Data Warehouse
Business Intelligence
OLTP ERP CRM LOB
• 관계형 및 비관계형 데이터
• 수TB에서 수EB의 크기
• 다양한 분석 엔진
• 저렴한 스토리지 및 분석 비용
Devices Web Sensors Social
Big Data processing,
real-time, Machine Learning
Data Lake
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS의 Data Lakes
비용 효율적
확장성 및 내구성
보안
개방적이고 포괄적 지원AnalyticsMachine Learning
Real-time Data
Movement
On-premises
Data Movement
Data Lake
on AWS
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3
Amazon Glacier
AWS Glue
원하는 형태로 데이터 저장
개방적이며 포괄적 지원
• 원하는 형태로 데이터 저장:
• Text files like CSV
• Columnar like Apache Parquet, and Apache ORC
• Logstash like Grok
• JSON (simple, nested), AVRO
• And more…
CSV
ORC
Grok
Avro
Parquet
JSON
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS의 데이터레이크
Data Lake
on AWS
비용 효율적
확장성 및 내구성
보안
개방적이고 포괄적 지원AnalyticsMachine Learning
Real-time Data
Movement
On-premises
Data Movement
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS는 가장 높은 수준의 보안 제공
보안
Compliance
AWS Artifact
Amazon Inspector
Amazon Cloud HSM
Amazon Cognito
AWS CloudTrail
Security
Amazon GuardDuty
AWS Shield
AWS WAF
Amazon Macie
VPC
Encryption
AWS Certification Manager
AWS Key Management
Service
Encryption at rest
Encryption in transit
Bring your own keys, HSM
support
Identity
AWS IAM
AWS SSO
Amazon Cloud Directory
AWS Directory Service
AWS Organizations
고객은 데이터 레이크 보호를 위해 여러 계층의 보안, 계정 인식/관리, 암호화, 규정 준수가
필요합니다.
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
보안 : 기계 학습을 통한 보안
보안
• 데이터 검색, 분류, 보호를 위한 기계 학습
• 비정상적 데이터 접근 활동을 지속적으로
모니터링
• 무단 접속 탐지 시 경고 생성
• 개인 식별 정보 (PII) 와 지적 재산 데이터 인식
Amazon Macie
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
암호화: 저장 및 이동 중인 데이터
Secure
• 세 가지 암호화 방식을 제공하는 유일한 클라우드 스토리지
• S3가 관리하는 키 암호화
• AWS Key Managed Services (KMS) 가 관리하는 키 암호화
• 고객이 관리하는 키 암호화
• 리전 간 복제 시 전송 중인 데이터 암호화를 제공하는 유일한
클라우드
• 데이터 이동 시 같은 KMS 사용 가능
• SSL endpoints
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
규정 준수 : 사실상 모든 규제 기관
CSA
Cloud Security
Alliance Controls
ISO 9001
Global Quality
Standard
ISO 27001
Security Management
Controls
ISO 27017
Cloud Specific
Controls
ISO 27018
Personal Data
Protection
PCI DSS Level 1
Payment Card
Standards
SOC 1
Audit Controls
Report
SOC 2
Security, Availability, &
Confidentiality Report
SOC 3
General Controls
Report
Global United States
CJIS
Criminal Justice
Information Services
DoD SRG
DoD Data
Processing
FedRAMP
Government Data
Standards
FERPA
Educational
Privacy Act
FIPS
Government Security
Standards
FISMA
Federal Information
Security Management
GxP
Quality Guidelines
and Regulations
ISO FFIEC
Financial Institutions
Regulation
HIPPA
Protected Health
Information
ITAR
International Arms
Regulations
MPAA
Protected Media
Content
NIST
National Institute of
Standards and Technology
SEC Rule 17a-4(f)
Financial Data
Standards
VPAT/Section 508
Accountability
Standards
Asia Pacific
FISC [Japan]
Financial Industry
Information Systems
IRAP [Australia]
Australian Security
Standards
K-ISMS [Korea]
Korean Information
Security
MTCS Tier 3 [Singapore]
Multi-Tier Cloud
Security Standard
My Number Act [Japan]
Personal Information
Protection
Europe
C5 [Germany]
Operational Security
Attestation
Cyber Essentials
Plus [UK]
Cyber Threat
Protection
G-Cloud [UK]
UK Government
Standards
IT-Grundschutz
[Germany]
Baseline Protection
Methodology
X P
G
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS의 데이터레이크
Data Lake
on AWS
비용 효율적
확장성 및 내구성
보안
개방적이고 포괄적 지원AnalyticsMachine Learning
Real-time Data
Movement
On-premises
Data Movement
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
어떠한 규모도 가능
확장성 및 내구성
• S3에 수 조개의 객체와 엑사바이트 급의 데이터
저장 가능
• 어떠한 크기의 데이터 볼륨도 저장 가능
• 어떠한 크기의 컴퓨팅 자원도 수 분만에 스핀업
하여 대규모의 분석 엔진 실행
• 전 세계에서 가장 큰 클라우드 인프라에서 실행
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
탁월한 내구성과 가용성
확장성 및 내구성
• 99.999999999%의 내구성을 제공
• 지리적 이중화 & 자동 복제
• 단일 리전 내 3개의 가용 영역에 걸쳐 독립적인
데이터 센터에 데이터 저장
• 리전 간 데이터 복제
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS의 데이터레이크
Data Lake
on AWS
비용 효율적
확장성 및 내구성
보안
개방적이고 포괄적인 지원AnalyticsMachine Learning
Real-time Data
Movement
On-premises
Data Movement
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
가격/성능 최적화를 위한 Tiered storage
비용 효율적
• 가격/성능 최적화를 위해 Tiered storage 사용
• S3 Standard
• S3 Standard—Infrequent Access
• S3 One Zone—Infrequent Access
• Amazon Glacier
• 생명주기 정책 기반으로 티어 간 마이그레이션
• S3에 데이터 저장 시 $0.023/GB/month
• Glacier에 데이터 저장 시 $0.004/GB/month
S3
Standard
S3 Standard
Infrequent Access
S3 One Zone-IA
Glacier
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS의 데이터 레이크, 분석, 기계학습 포트폴리오
다양하고 수준 높은 분석 서비스
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
데이터 소스들
FilesLogsStreamsDatabases
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
데이터 소스들 - Databases
Amazon S3Databases
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Change Data Capture – Database Logs
LOG_FILE_HDR_SIZE
OS_FILE_LOG_BLOCK
_SIZE
FORMAT
CHECKSUM
LOG_CHECKPOINT_1
LOG_CHECKPOINT_2
Checkpoint_lsn
Checkpoing_no
Log.buf_size
LOG BLOCK
LOG_BLOCK_HDR_SIZ
E
Hdr_no
Flush_bit
Data_len
[…]
???
Tx001.log
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Database Migration Service (DMS) 는 쉽고
보안적으로 안전하게 여러분의 데이터베이스들과 Data-
Warehouse 들을 AWS로 마이그레이션하거나
복제(replicate)할 수 있습니다.
Database Migration Service
(데이터 수집용으로도 매우 좋습니다.)
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
DMS – Deployment
Amazon S3
Availability Zone Availability Zone
VPC subnet VPC subnet
Replication
Master
Replication
Slave
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
데이터 소스들 - Files
Amazon S3Files
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3 에 업로드
• Amazon S3 는 single-part upload 와multi-part
upload API를 모두 지원.
• Single-part upload 는 5GB까지 오브젝트
업로드를 지원.
• Multi-part upload 5TB 까지 오브젝트 업로드를
지원.
• Multi-part upload 는 병렬 쓰레드를 사용해서
전송량을 최대화.
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
PUT 요청은 가장 가까운 AWS Edge Location 를
통과.
데이터 전송을 Internet 이 아닌 AWS private
network 을 통해 전송.
AWS private network 은 AWS Region에 대한
전송량과 지연 시간에 최적화
Edge cache 에는 데이터가 저장되지 않음.
S3 Transfer Acceleration
S3 bucket
AWS edge
location
Uploader
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
데이터소스 - Streams
Amazon S3Streams
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Kinesis - AWS에서 Stream 을 처리하기
Kinesis
Streams
• Downstream processing 을
위한 스트리밍 데이터 캡쳐
• 적합한 속도로 스트림을 읽기
위한 다중 프로세스들
Kinesis Firehose
• 좀 더 효율적인 데이터 저장을
위해서 스트림을 단일
출력으로 버퍼링 함
• S3, ElasticSearch, Redshift
및 Splunk 로 보내는 버퍼를
자동 플러쉬
Kinesis Analytics
• SQL을 사용해서 시간 기반
윈도우 쿼리를 스트림 위에서
실행하고 집계 작업을 할 수
있음
• 복수개의 스트림과 Join 하고
새로운 스트림으로 출력할 수
있음
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Kinesis – 작동예시
시간당 100TB의
소스를 생성하는
수백만개의 소스
Front
End
AZ AZ AZAuthenticate
Authorize
내구성과 높은 일관성을 가지는
3개의 AWS 가용영역에 복제된 스토리지
S3에 집계
및 보관
실시간
대쉬보드 및
알람
ML 알고리즘 또는
슬라이딩 윈도우 분석
Hadoop 또는
DW의 집계분석
이벤트들의 정렬된 스트림은
여러 곳에서 읽을 수 있음
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
데이터 소스 - Logs
Amazon S3Logs
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Logs
수집 및 분석
• CloudWatch
• Amazon Kinesis
• 다른 옵션들
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Logs – CloudWatch Agent
EC2 Instances
CloudWatch Log Stream AWS Lambda Amazon S3
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Summary - Ingestion
s3://datalake/
/vendorfeeds
/vendorA
/vendorB
/clickstream
/orders
/vendors
/customers
/app_logs
/instance1
/instance2
/syslogs
/instance1
/instance2
/databases
/customers
/orders
/vendors
File Gateway
API Gateway
Kinesis Agent
DMS
Kinesis Firehose
Amazon S3
Files
Streams
Logs
Databases
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS의 데이터레이크, 분석, 그리고 ML 포트폴리오
넓고 깊은 분석 서비스들
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3 — 데이터레이크
보안과
컴플라이언스
3가지의 다른 형태의
암호화기능을 제공; 리전
간 전송시에도 데이터
암호화 전송; CloudTrail로
로그 및 모니터링하며, ML
기반 Macie 로 민감
데이터를 찾아내고 보호할
수 있음
유연한 관리
데이터 사용 트랜드를
분류,보고 및 시각화;
오브젝트에 태그를 붙여
스토리지 사용과 비용 및
보안을 확인가능; 보관기간
및 Tiering 을 자동화하는
수명주기관리 정책 작성
내구성, 가용성과
확장성
99.999999999%의
내구성 설계; 데이터는
AWS Region 내부에 3곳의
물리적 공간에 분산
저장됨; 자동으로 다른
AWS Region 에 복제 구성
가능
즉각적인 쿼리수행
데이터 이전 없이
DataLake 에서 분석 및
ML을 실행할 수 있음; S3
Select 를 사용해서
데이터의 하위 집합을
검색하고 분석 퍼포먼스를
400% 증가할 수 있음
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Glacier — 백업과 아카이브
내구성, 가용성과
확장성
99.999999999%의 내구성
설계; 데이터는 AWS
Region 내부에 3곳의
물리적 공간에 분산
저장됨; 자동으로 다른
AWS Region 에 복제 구성
가능
보안
CloudTrail로 로그 및
모니터링, Vault Lock은
WORM 스토리지 기능을
지원하여 컴플라이언스
요구조건을 만족할 수 있음
수분내로 데이터 검색
사용 케이스 별 적합한
3가지 검색 서비스 제공;
expedited retrievals with
Glacier Select 로 신속하게
몇분내로 데이터 검색가능
저렴함
Storage class 중 가장
저렴하며, 매우 낮은
비용으로 큰 용량의
데이터를 아카이빙 할 수
있음
$
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
저장만 하는 것은 충분하지 않습니다.
데이터를 발견할 수 있어야 합니다.
Dark data are the information
assets organizations collect,
process, and store during
regular business activities,
but generally fail to use for
other purposes (for example,
analytics, business relationships
and direct monetizing).
CRM ERP Data warehouse Mainframe
data
Web Social Log
files
Machine
data
Semi-
structured
Unstructured
“
”Gartner IT Glossary, 2018
https://www.gartner.com/it-glossary/dark-data
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue—Data Catalog
데이터를 찾을 수 있게 만듦
• 자동으로 데이터를 검색하고 스키마를 저장함
• 카탈로그는 데이터를 찾을 수 있게 만들고 ETL을 가능케
함
• 카탈로그는 Table 과 Job Definition을 가지고 있음
• 쿼리를 최적화해서 실행할 수 있도록 함
Glue
Data Catalog
Discover data and
extract schema
Compliance
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Glue Data
Catalog
Glue: Data Catalog – 쿼리가 가능한 많은 서비스
Glue ETL
Amazon Athena
Redshift Spectrum
EMR
(Hadoop/Spark)
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue—ETL Service
ETL 스크립팅 및 배포를 쉽게 할 수 있음
• 자동으로 ETL 코드 생성
• Python 과 Spark 으로 코드 커스터마이징
• 코드를 EDIT, DEBUG, TEST 할 수 있는
엔드포인트 제공
• Job은 스케쥴이거나 이벤트 기반
• Serverless
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
 VPC 와 역할 기반 억세스가 자동 구성됨
 고객은 각 작업에 할당되는 용량을 지정
가능
 리소스 자동 확장 (on post-GA roadmap)
 사용된 리소스에 대해서만 비용을 지불
서버를 프로비저닝, 구성 및 관리를 할
필요가 없음
Customer VPC Customer VPC
Compute instances
AWS Glue: Job Execution - Serverless
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue: Overall Flow
1. Raw데이터를
크롤링
2. 원하는 Target 에 작성함
3. ETL 생성 및 준비
4. 작업을 실행함
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS의 데이터레이크, 분석, 그리고 ML 포트폴리오
넓고 깊은 분석 서비스들
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Athena — 대화식 분석
표준SQL을 사용해서 Amazon S3의 데이터를 분석하는 대화식 쿼리 서비스
설정 및 관리해야 할 인프라도 없으며, 로드 해야할 데이터도 없음
Amazon Glacier 에 보관된 데이터에 대해 SQL 쿼리를 실행할 수 있음 (coming soon)
즉각적인 Query
셋업 비용이 들지 않음;
S3를 바로 지정하고
쿼리를 수행하면 됨
SQL
개방
ANSI SQL 인터페이스,
JDBC/ODBC 드라이버,
다양한 포멧, 압축 유형,
복잡한 조인 및 데이터
타입
손쉬운 사용
서버리스: 인프라 없음,
관리 불필요
QuickSight 와 통합
Query 당 비용
쿼리 실행에 대해서만
지불; 압축을 통해서
쿼리당 30–90% 비용
절감 가능
$
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift—Data Warehousing
빠른 속도
대규모 쿼리 성능과 I/O
효율성을 향상시키기 위한
Columnar storage
technology
보안
모든 감사; 종단간 데이터
암호화; 광범위한 인증 및
컴플라이언스
오픈파일 포멧
최신의 SSD에 최적화 된
데이터 포멧, S3안의 모든
오픈파일포멧을 분석
저비용
1TB 당 연간 1,000 달러로
기존 DW 솔루션 대비
1/10 비용 ; 시간당 $0.25
부터 시작
$
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift Spectrum
S3 데이터레이크에 데이터웨어 하우스를 엑사바이트 규모의 데이터로 확장
S3 data lakeRedshift data
Redshift Spectrum
query engine
• S3에 직접 Exabyte 급 Redshift SQL 쿼리
• Redshift 와 S3 에서 데이터 조인
• Compute 와 Storage 를 별도로 확장 가능
• 안정적인 쿼리 성능 및 무제한 적인 동시성
• CSV, ORC, Grok, Avro 및 Parquet 데이터 포멧
• 스캔 된 데이터 양 만큼 과금
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon EMR—Big Data Processing
Low cost
초당 청구, EC2 Spot,
Reserved 인스턴스 및
축소를 위한 Auto-Scaling
을 통한 유연한 요금 으로
비용을 50~80% 절감 가능
$
Easy
몇 분 안에 완전관리형
Hadoop 과 Spark 를
시작할 수 있음, 클러스터
튜닝, 클러스터 설정, 노드
프로비저닝이 불필요함
Latest versions
출시 후 30일 이내의 최신
오픈소스 프레임 워크로
업데이트
Use S3 storage
EMRFS 커넥터를 사용해서
S3 DataLake 에서
데이터를 고성능으로
안전하게 처리함
Data Lake
10011000010010101
11001010101110010
10100000111100101
10010101000110000
1
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Elasticsearch Service
Easy to Use
완전 관리형 : 몇 분안에
클러스터에 배포가능
Secure
VPC 를 사용해서 AWS
Network 으로 들어오는
모든 트래픽에 대해서
Secure Access
Open
Elasticsearch 오픈소스
API에 직접 억세스 가능함 ;
Logstach 와 Kibana 지원
Available
2개의 가용 영역 사이에서
데이터 복제하고 Failed 된
노드는 모니터링되어
자동으로 대체됨
$
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon QuickSight
Empower
everyone
Seamless
connectivity
Fast analysis Serverless
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS의 데이터레이크, 분석, 그리고 ML 포트폴리오
넓고 깊은 분석 서비스들
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS Storage Gateway
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS는 AI/ML 를 보다 쉽게 이용할 수 있도록 다양한 도구를 제공
PollyLex Rekognition
Deep Learning FrameworksAmazon AI/ML Services
사용성 /단순성:
AWS AI/ML 전문기술 활용
높은 수준의 컨트롤 :
고객별 모델
이러한 솔루션들은 검증되고 확장 가능한 AWS 제품 및 서비스를 기반으로 함
AWS
Greengrass
AWS
IoT
AWS
Lambda
Amazon EC2
(P2 and G2 GPUs)
Amazon
S3
Amazon
DynamoDB
Amazon
Redshift
Amazon EC2
(CPUs)
Amazon EC2
(ENA)
Rekognition
Video
Machine Learning Platforms
Amazon ML
Spark & EMR
Kinesis
Batch
ECS
Connect Transcribe Translate Comprehend
SageMaker
DeepLens
Apache MXNet
TensorFlow
Caffe/Caffe2
Theano
Keras
Torch
Cognitive Toolkit
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon SageMaker
ML모델을 아이디어에서 제작까지 할 수 있는 가장 빠르고 쉬운 방법
NEW!
Zero
setup
유연한 Model
Training
End-to-End Machine
Learning Platform
초당 과금
$
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Processing & Analytics
Transactional &
RDBMS
DynamoDB
NoSQL DB Relational Database
Aurora
BI & Data Visualization
Kinesis Streams
& Firehose
Batch
EMR
Hadoop, Spark,
Presto
Redshift
Data Warehouse
Athena
Query Service
AWS Batch
Predictive
Real-time
AWS Lambda
Apache Storm
on EMR
Apache Flink
on EMR
Spark Streaming
on EMR
Elasticsearch
Service
Kinesis Analytics,
Kinesis Streams
ElastiCache DAX
종합적으로 보면…
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 트레이닝
데이터 중심의 의사 결정을 하기위해서 AWS의 BigData 에서 경력을
만들 수 있습니다. Big Data Specialty learning path 를 따라서 Bigdata
의 전문가가 되십시요
• Best practices 에 따라 코어 AWS 빅데이터 서비스 구현
• 빅데이터 설계 및 유지
• 도구를 사용해서 데이터 분석 자동화
Certified Cloud
Practitioner
Associate-level Certification
AWS Certified Big Data - Specialty
• 엔터프라이즈 솔루션즈
아키텍트
• Data scientists
• 빅데이터 솔루션즈
아키텍트
• Data analysts
Who should attend
Free AWS digital training: Foundational
knowledge
Big Data on AWS – 3-day Classroom Training
Free AWS digital training:
Big Data Technology Fundamentals
Visit www.aws.training to find out more.
© 2018 Amazon Web Services, Inc. or its Affiliates. All rights reserved.
더 나은 세미나를 위해 여러분의 의견을 남겨주세요!
웨비나 종료 후 설문이 시작됩니다.
 질문에 대한 답변 드립니다.
 발표자료 / 녹화 영상을 제공합니다.
http://bit.ly/awskr-webinar
AWS 데이터 기반 의사결정 웹세미나에
참석해주셔서 대단히 감사합니다.

AWS에서 빅데이터 프로젝트 시작하기 - 이종화 솔루션즈 아키텍트, AWS

  • 1.
    © 2018 AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 이종화 Solutions Architect AWS에서 빅데이터 프로젝트 시작하기
  • 2.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 전통적인 분석은 다음과 같이 진행됨 OLTP ERP CRM LOB Data Warehouse Business Intelligence • 관계형 데이터 • 수TB 부터 수PB 까지의 규모 • 데이터 로드 하기 전에 미리 정의된 스키마 • 운영 보고 및 Ad-Hoc 리포트 작성 • 높은 초기 CAPEX / OPEX 비용
  • 3.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 전통적인 접근법을 확장하는 Data Lakes Data Warehouse Business Intelligence OLTP ERP CRM LOB • 관계형 및 비관계형 데이터 • 수TB에서 수EB의 크기 • 다양한 분석 엔진 • 저렴한 스토리지 및 분석 비용 Devices Web Sensors Social Big Data processing, real-time, Machine Learning Data Lake
  • 4.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS의 Data Lakes 비용 효율적 확장성 및 내구성 보안 개방적이고 포괄적 지원AnalyticsMachine Learning Real-time Data Movement On-premises Data Movement Data Lake on AWS
  • 5.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon S3 Amazon Glacier AWS Glue 원하는 형태로 데이터 저장 개방적이며 포괄적 지원 • 원하는 형태로 데이터 저장: • Text files like CSV • Columnar like Apache Parquet, and Apache ORC • Logstash like Grok • JSON (simple, nested), AVRO • And more… CSV ORC Grok Avro Parquet JSON
  • 6.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS의 데이터레이크 Data Lake on AWS 비용 효율적 확장성 및 내구성 보안 개방적이고 포괄적 지원AnalyticsMachine Learning Real-time Data Movement On-premises Data Movement
  • 7.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS는 가장 높은 수준의 보안 제공 보안 Compliance AWS Artifact Amazon Inspector Amazon Cloud HSM Amazon Cognito AWS CloudTrail Security Amazon GuardDuty AWS Shield AWS WAF Amazon Macie VPC Encryption AWS Certification Manager AWS Key Management Service Encryption at rest Encryption in transit Bring your own keys, HSM support Identity AWS IAM AWS SSO Amazon Cloud Directory AWS Directory Service AWS Organizations 고객은 데이터 레이크 보호를 위해 여러 계층의 보안, 계정 인식/관리, 암호화, 규정 준수가 필요합니다.
  • 8.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 보안 : 기계 학습을 통한 보안 보안 • 데이터 검색, 분류, 보호를 위한 기계 학습 • 비정상적 데이터 접근 활동을 지속적으로 모니터링 • 무단 접속 탐지 시 경고 생성 • 개인 식별 정보 (PII) 와 지적 재산 데이터 인식 Amazon Macie
  • 9.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 암호화: 저장 및 이동 중인 데이터 Secure • 세 가지 암호화 방식을 제공하는 유일한 클라우드 스토리지 • S3가 관리하는 키 암호화 • AWS Key Managed Services (KMS) 가 관리하는 키 암호화 • 고객이 관리하는 키 암호화 • 리전 간 복제 시 전송 중인 데이터 암호화를 제공하는 유일한 클라우드 • 데이터 이동 시 같은 KMS 사용 가능 • SSL endpoints
  • 10.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 규정 준수 : 사실상 모든 규제 기관 CSA Cloud Security Alliance Controls ISO 9001 Global Quality Standard ISO 27001 Security Management Controls ISO 27017 Cloud Specific Controls ISO 27018 Personal Data Protection PCI DSS Level 1 Payment Card Standards SOC 1 Audit Controls Report SOC 2 Security, Availability, & Confidentiality Report SOC 3 General Controls Report Global United States CJIS Criminal Justice Information Services DoD SRG DoD Data Processing FedRAMP Government Data Standards FERPA Educational Privacy Act FIPS Government Security Standards FISMA Federal Information Security Management GxP Quality Guidelines and Regulations ISO FFIEC Financial Institutions Regulation HIPPA Protected Health Information ITAR International Arms Regulations MPAA Protected Media Content NIST National Institute of Standards and Technology SEC Rule 17a-4(f) Financial Data Standards VPAT/Section 508 Accountability Standards Asia Pacific FISC [Japan] Financial Industry Information Systems IRAP [Australia] Australian Security Standards K-ISMS [Korea] Korean Information Security MTCS Tier 3 [Singapore] Multi-Tier Cloud Security Standard My Number Act [Japan] Personal Information Protection Europe C5 [Germany] Operational Security Attestation Cyber Essentials Plus [UK] Cyber Threat Protection G-Cloud [UK] UK Government Standards IT-Grundschutz [Germany] Baseline Protection Methodology X P G
  • 11.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS의 데이터레이크 Data Lake on AWS 비용 효율적 확장성 및 내구성 보안 개방적이고 포괄적 지원AnalyticsMachine Learning Real-time Data Movement On-premises Data Movement
  • 12.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 어떠한 규모도 가능 확장성 및 내구성 • S3에 수 조개의 객체와 엑사바이트 급의 데이터 저장 가능 • 어떠한 크기의 데이터 볼륨도 저장 가능 • 어떠한 크기의 컴퓨팅 자원도 수 분만에 스핀업 하여 대규모의 분석 엔진 실행 • 전 세계에서 가장 큰 클라우드 인프라에서 실행
  • 13.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 탁월한 내구성과 가용성 확장성 및 내구성 • 99.999999999%의 내구성을 제공 • 지리적 이중화 & 자동 복제 • 단일 리전 내 3개의 가용 영역에 걸쳐 독립적인 데이터 센터에 데이터 저장 • 리전 간 데이터 복제
  • 14.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS의 데이터레이크 Data Lake on AWS 비용 효율적 확장성 및 내구성 보안 개방적이고 포괄적인 지원AnalyticsMachine Learning Real-time Data Movement On-premises Data Movement
  • 15.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 가격/성능 최적화를 위한 Tiered storage 비용 효율적 • 가격/성능 최적화를 위해 Tiered storage 사용 • S3 Standard • S3 Standard—Infrequent Access • S3 One Zone—Infrequent Access • Amazon Glacier • 생명주기 정책 기반으로 티어 간 마이그레이션 • S3에 데이터 저장 시 $0.023/GB/month • Glacier에 데이터 저장 시 $0.004/GB/month S3 Standard S3 Standard Infrequent Access S3 One Zone-IA Glacier
  • 16.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS의 데이터 레이크, 분석, 기계학습 포트폴리오 다양하고 수준 높은 분석 서비스 Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 17.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 데이터 소스들 FilesLogsStreamsDatabases
  • 18.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 데이터 소스들 - Databases Amazon S3Databases
  • 19.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Change Data Capture – Database Logs LOG_FILE_HDR_SIZE OS_FILE_LOG_BLOCK _SIZE FORMAT CHECKSUM LOG_CHECKPOINT_1 LOG_CHECKPOINT_2 Checkpoint_lsn Checkpoing_no Log.buf_size LOG BLOCK LOG_BLOCK_HDR_SIZ E Hdr_no Flush_bit Data_len […] ??? Tx001.log
  • 20.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS Database Migration Service (DMS) 는 쉽고 보안적으로 안전하게 여러분의 데이터베이스들과 Data- Warehouse 들을 AWS로 마이그레이션하거나 복제(replicate)할 수 있습니다. Database Migration Service (데이터 수집용으로도 매우 좋습니다.)
  • 21.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. DMS – Deployment Amazon S3 Availability Zone Availability Zone VPC subnet VPC subnet Replication Master Replication Slave
  • 22.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 데이터 소스들 - Files Amazon S3Files
  • 23.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon S3 에 업로드 • Amazon S3 는 single-part upload 와multi-part upload API를 모두 지원. • Single-part upload 는 5GB까지 오브젝트 업로드를 지원. • Multi-part upload 5TB 까지 오브젝트 업로드를 지원. • Multi-part upload 는 병렬 쓰레드를 사용해서 전송량을 최대화.
  • 24.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. PUT 요청은 가장 가까운 AWS Edge Location 를 통과. 데이터 전송을 Internet 이 아닌 AWS private network 을 통해 전송. AWS private network 은 AWS Region에 대한 전송량과 지연 시간에 최적화 Edge cache 에는 데이터가 저장되지 않음. S3 Transfer Acceleration S3 bucket AWS edge location Uploader
  • 25.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 데이터소스 - Streams Amazon S3Streams
  • 26.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Kinesis - AWS에서 Stream 을 처리하기 Kinesis Streams • Downstream processing 을 위한 스트리밍 데이터 캡쳐 • 적합한 속도로 스트림을 읽기 위한 다중 프로세스들 Kinesis Firehose • 좀 더 효율적인 데이터 저장을 위해서 스트림을 단일 출력으로 버퍼링 함 • S3, ElasticSearch, Redshift 및 Splunk 로 보내는 버퍼를 자동 플러쉬 Kinesis Analytics • SQL을 사용해서 시간 기반 윈도우 쿼리를 스트림 위에서 실행하고 집계 작업을 할 수 있음 • 복수개의 스트림과 Join 하고 새로운 스트림으로 출력할 수 있음
  • 27.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Kinesis – 작동예시 시간당 100TB의 소스를 생성하는 수백만개의 소스 Front End AZ AZ AZAuthenticate Authorize 내구성과 높은 일관성을 가지는 3개의 AWS 가용영역에 복제된 스토리지 S3에 집계 및 보관 실시간 대쉬보드 및 알람 ML 알고리즘 또는 슬라이딩 윈도우 분석 Hadoop 또는 DW의 집계분석 이벤트들의 정렬된 스트림은 여러 곳에서 읽을 수 있음
  • 28.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 데이터 소스 - Logs Amazon S3Logs
  • 29.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Logs 수집 및 분석 • CloudWatch • Amazon Kinesis • 다른 옵션들
  • 30.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Logs – CloudWatch Agent EC2 Instances CloudWatch Log Stream AWS Lambda Amazon S3
  • 31.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Summary - Ingestion s3://datalake/ /vendorfeeds /vendorA /vendorB /clickstream /orders /vendors /customers /app_logs /instance1 /instance2 /syslogs /instance1 /instance2 /databases /customers /orders /vendors File Gateway API Gateway Kinesis Agent DMS Kinesis Firehose Amazon S3 Files Streams Logs Databases
  • 32.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS의 데이터레이크, 분석, 그리고 ML 포트폴리오 넓고 깊은 분석 서비스들 Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Storage Gateway AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 33.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon S3 — 데이터레이크 보안과 컴플라이언스 3가지의 다른 형태의 암호화기능을 제공; 리전 간 전송시에도 데이터 암호화 전송; CloudTrail로 로그 및 모니터링하며, ML 기반 Macie 로 민감 데이터를 찾아내고 보호할 수 있음 유연한 관리 데이터 사용 트랜드를 분류,보고 및 시각화; 오브젝트에 태그를 붙여 스토리지 사용과 비용 및 보안을 확인가능; 보관기간 및 Tiering 을 자동화하는 수명주기관리 정책 작성 내구성, 가용성과 확장성 99.999999999%의 내구성 설계; 데이터는 AWS Region 내부에 3곳의 물리적 공간에 분산 저장됨; 자동으로 다른 AWS Region 에 복제 구성 가능 즉각적인 쿼리수행 데이터 이전 없이 DataLake 에서 분석 및 ML을 실행할 수 있음; S3 Select 를 사용해서 데이터의 하위 집합을 검색하고 분석 퍼포먼스를 400% 증가할 수 있음
  • 34.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Glacier — 백업과 아카이브 내구성, 가용성과 확장성 99.999999999%의 내구성 설계; 데이터는 AWS Region 내부에 3곳의 물리적 공간에 분산 저장됨; 자동으로 다른 AWS Region 에 복제 구성 가능 보안 CloudTrail로 로그 및 모니터링, Vault Lock은 WORM 스토리지 기능을 지원하여 컴플라이언스 요구조건을 만족할 수 있음 수분내로 데이터 검색 사용 케이스 별 적합한 3가지 검색 서비스 제공; expedited retrievals with Glacier Select 로 신속하게 몇분내로 데이터 검색가능 저렴함 Storage class 중 가장 저렴하며, 매우 낮은 비용으로 큰 용량의 데이터를 아카이빙 할 수 있음 $
  • 35.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 저장만 하는 것은 충분하지 않습니다. 데이터를 발견할 수 있어야 합니다. Dark data are the information assets organizations collect, process, and store during regular business activities, but generally fail to use for other purposes (for example, analytics, business relationships and direct monetizing). CRM ERP Data warehouse Mainframe data Web Social Log files Machine data Semi- structured Unstructured “ ”Gartner IT Glossary, 2018 https://www.gartner.com/it-glossary/dark-data
  • 36.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS Glue—Data Catalog 데이터를 찾을 수 있게 만듦 • 자동으로 데이터를 검색하고 스키마를 저장함 • 카탈로그는 데이터를 찾을 수 있게 만들고 ETL을 가능케 함 • 카탈로그는 Table 과 Job Definition을 가지고 있음 • 쿼리를 최적화해서 실행할 수 있도록 함 Glue Data Catalog Discover data and extract schema Compliance
  • 37.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Glue Data Catalog Glue: Data Catalog – 쿼리가 가능한 많은 서비스 Glue ETL Amazon Athena Redshift Spectrum EMR (Hadoop/Spark)
  • 38.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS Glue—ETL Service ETL 스크립팅 및 배포를 쉽게 할 수 있음 • 자동으로 ETL 코드 생성 • Python 과 Spark 으로 코드 커스터마이징 • 코드를 EDIT, DEBUG, TEST 할 수 있는 엔드포인트 제공 • Job은 스케쥴이거나 이벤트 기반 • Serverless
  • 39.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved.  VPC 와 역할 기반 억세스가 자동 구성됨  고객은 각 작업에 할당되는 용량을 지정 가능  리소스 자동 확장 (on post-GA roadmap)  사용된 리소스에 대해서만 비용을 지불 서버를 프로비저닝, 구성 및 관리를 할 필요가 없음 Customer VPC Customer VPC Compute instances AWS Glue: Job Execution - Serverless
  • 40.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS Glue: Overall Flow 1. Raw데이터를 크롤링 2. 원하는 Target 에 작성함 3. ETL 생성 및 준비 4. 작업을 실행함
  • 41.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS의 데이터레이크, 분석, 그리고 ML 포트폴리오 넓고 깊은 분석 서비스들 Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Storage Gateway AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 42.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Athena — 대화식 분석 표준SQL을 사용해서 Amazon S3의 데이터를 분석하는 대화식 쿼리 서비스 설정 및 관리해야 할 인프라도 없으며, 로드 해야할 데이터도 없음 Amazon Glacier 에 보관된 데이터에 대해 SQL 쿼리를 실행할 수 있음 (coming soon) 즉각적인 Query 셋업 비용이 들지 않음; S3를 바로 지정하고 쿼리를 수행하면 됨 SQL 개방 ANSI SQL 인터페이스, JDBC/ODBC 드라이버, 다양한 포멧, 압축 유형, 복잡한 조인 및 데이터 타입 손쉬운 사용 서버리스: 인프라 없음, 관리 불필요 QuickSight 와 통합 Query 당 비용 쿼리 실행에 대해서만 지불; 압축을 통해서 쿼리당 30–90% 비용 절감 가능 $
  • 43.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift—Data Warehousing 빠른 속도 대규모 쿼리 성능과 I/O 효율성을 향상시키기 위한 Columnar storage technology 보안 모든 감사; 종단간 데이터 암호화; 광범위한 인증 및 컴플라이언스 오픈파일 포멧 최신의 SSD에 최적화 된 데이터 포멧, S3안의 모든 오픈파일포멧을 분석 저비용 1TB 당 연간 1,000 달러로 기존 DW 솔루션 대비 1/10 비용 ; 시간당 $0.25 부터 시작 $
  • 44.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift Spectrum S3 데이터레이크에 데이터웨어 하우스를 엑사바이트 규모의 데이터로 확장 S3 data lakeRedshift data Redshift Spectrum query engine • S3에 직접 Exabyte 급 Redshift SQL 쿼리 • Redshift 와 S3 에서 데이터 조인 • Compute 와 Storage 를 별도로 확장 가능 • 안정적인 쿼리 성능 및 무제한 적인 동시성 • CSV, ORC, Grok, Avro 및 Parquet 데이터 포멧 • 스캔 된 데이터 양 만큼 과금
  • 45.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon EMR—Big Data Processing Low cost 초당 청구, EC2 Spot, Reserved 인스턴스 및 축소를 위한 Auto-Scaling 을 통한 유연한 요금 으로 비용을 50~80% 절감 가능 $ Easy 몇 분 안에 완전관리형 Hadoop 과 Spark 를 시작할 수 있음, 클러스터 튜닝, 클러스터 설정, 노드 프로비저닝이 불필요함 Latest versions 출시 후 30일 이내의 최신 오픈소스 프레임 워크로 업데이트 Use S3 storage EMRFS 커넥터를 사용해서 S3 DataLake 에서 데이터를 고성능으로 안전하게 처리함 Data Lake 10011000010010101 11001010101110010 10100000111100101 10010101000110000 1
  • 46.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Elasticsearch Service Easy to Use 완전 관리형 : 몇 분안에 클러스터에 배포가능 Secure VPC 를 사용해서 AWS Network 으로 들어오는 모든 트래픽에 대해서 Secure Access Open Elasticsearch 오픈소스 API에 직접 억세스 가능함 ; Logstach 와 Kibana 지원 Available 2개의 가용 영역 사이에서 데이터 복제하고 Failed 된 노드는 모니터링되어 자동으로 대체됨 $
  • 47.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon QuickSight Empower everyone Seamless connectivity Fast analysis Serverless
  • 48.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS의 데이터레이크, 분석, 그리고 ML 포트폴리오 넓고 깊은 분석 서비스들 Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Storage Gateway AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog
  • 49.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS는 AI/ML 를 보다 쉽게 이용할 수 있도록 다양한 도구를 제공 PollyLex Rekognition Deep Learning FrameworksAmazon AI/ML Services 사용성 /단순성: AWS AI/ML 전문기술 활용 높은 수준의 컨트롤 : 고객별 모델 이러한 솔루션들은 검증되고 확장 가능한 AWS 제품 및 서비스를 기반으로 함 AWS Greengrass AWS IoT AWS Lambda Amazon EC2 (P2 and G2 GPUs) Amazon S3 Amazon DynamoDB Amazon Redshift Amazon EC2 (CPUs) Amazon EC2 (ENA) Rekognition Video Machine Learning Platforms Amazon ML Spark & EMR Kinesis Batch ECS Connect Transcribe Translate Comprehend SageMaker DeepLens Apache MXNet TensorFlow Caffe/Caffe2 Theano Keras Torch Cognitive Toolkit
  • 50.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon SageMaker ML모델을 아이디어에서 제작까지 할 수 있는 가장 빠르고 쉬운 방법 NEW! Zero setup 유연한 Model Training End-to-End Machine Learning Platform 초당 과금 $
  • 51.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Processing & Analytics Transactional & RDBMS DynamoDB NoSQL DB Relational Database Aurora BI & Data Visualization Kinesis Streams & Firehose Batch EMR Hadoop, Spark, Presto Redshift Data Warehouse Athena Query Service AWS Batch Predictive Real-time AWS Lambda Apache Storm on EMR Apache Flink on EMR Spark Streaming on EMR Elasticsearch Service Kinesis Analytics, Kinesis Streams ElastiCache DAX 종합적으로 보면…
  • 52.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS 트레이닝 데이터 중심의 의사 결정을 하기위해서 AWS의 BigData 에서 경력을 만들 수 있습니다. Big Data Specialty learning path 를 따라서 Bigdata 의 전문가가 되십시요 • Best practices 에 따라 코어 AWS 빅데이터 서비스 구현 • 빅데이터 설계 및 유지 • 도구를 사용해서 데이터 분석 자동화 Certified Cloud Practitioner Associate-level Certification AWS Certified Big Data - Specialty • 엔터프라이즈 솔루션즈 아키텍트 • Data scientists • 빅데이터 솔루션즈 아키텍트 • Data analysts Who should attend Free AWS digital training: Foundational knowledge Big Data on AWS – 3-day Classroom Training Free AWS digital training: Big Data Technology Fundamentals Visit www.aws.training to find out more.
  • 53.
    © 2018 AmazonWeb Services, Inc. or its Affiliates. All rights reserved. 더 나은 세미나를 위해 여러분의 의견을 남겨주세요! 웨비나 종료 후 설문이 시작됩니다.  질문에 대한 답변 드립니다.  발표자료 / 녹화 영상을 제공합니다. http://bit.ly/awskr-webinar AWS 데이터 기반 의사결정 웹세미나에 참석해주셔서 대단히 감사합니다.