민감한 개인정보/금융정보가 포함된 데이터를 클라우드에서 분석하기에 부담되시나요? 인터넷 통신이 차단된 환경에서의 프라이빗 데이터 레이크 아키텍쳐를 소개합니다. 인터넷 통신을 배제한 Private subnet에서 VPC endpoint와 VPN을 활용한 폐쇄형 분석 환경 구축, 접근제어 Policy가 적용된 S3, 레이크 포메이션을 통한 스키마 권한 관리 방안에 대해서 알아봅니다. 또 이 환경에서 어떻게 데이터 파이프라인을 구축해서 사용할 수 있는지에 대한 데모 시연도 포함되어 있습니다.
4. 금융 산업에서의 Data Lake
디지털 기술
빅데이터
클라우드
모바일
금융 산업 생태계
전통적인 금융기업
핀테크
빅테크
금융 규제
데이터 3법
금융규제 샌드박스
네거티브 규제
데이터 거버넌스를 위한 핵심 기반 기술은 데이터 레이크
데이터 경제의 확산
5. Data Lake 구축을 위한 부장님의 고민
• 기존 온프렘의 DW 아키텍처를 확장, 개선할 수 있을까?
• 저장소에 대한 내구성, 가용성을 확보할 수 있을까?
• 데이터 포멧에 의존하지 않고 저장할 수 있을까?
• 대규모 데이터에 대한 보안, 내부통제, 감사가 가능할까?
• 모든 유형의 분석 요구사항(데이터, 도구)을 만족할 수 있을까?
데이터 레이크 컨셉은 좋지만…
6. 왜 Private Data Lake 를 부장님도 좋아하실까
• Hybrid cloud 구축으로 비즈니스 확장성 및 보안성을
동시에 확보
• 높은 내구성과 가용성으로 웹 스케일의 금융 서비스 제공
• 다양한 유형의 금융 데이터를 저장
• 아키텍처 모든 레이어에 보안 적용
• 데이터 탐색, 분석을 위한 AWS의 혁신적인 서비스
Private Data Lake on AWS
7. Private Data Lake on AWS 의 개념
개념
모든 규모, 다양한 유형의 데이터를 저장할 수 있는
중앙 집중식 저장소 (A centralized repository)
데이터 거버넌스
보안 거버넌스
AWS Data Lake의 아키텍처 레이어
데이터 저장소
메타데이터/카탈로그
컴퓨팅
보안
8. Private Data Lake on AWS 의 특징
데이터 거버넌스
데이터 저장소
객체 / 블럭 / 파일 저장소 (Amazon S3 / EBS / EFS)
데이터 수명주기 관리 (Amazon S3 storage classes)
메타 데이터 및 카탈로그 관리
컴퓨팅
AWS Data Lake의 아키텍처 레이어
데이터 저장소
메타데이터/카탈로그
컴퓨팅
보안
9. Private Data Lake on AWS 의 특징
보안 거버넌스
AWS Data Lake의 아키텍처 레이어
데이터 저장소
메타데이터/카탈로그
컴퓨팅
보안
여러 계층의 보안
네트워크부터 응용프로그램 계층의 보안 서비스
(Amazon VPC, AWS Shield, AWS WAF, GuardDuty)
인증 및 접근제어
암호화
내부 통제
11. Private Data Lake 구축 시 고려 사항
• 금융 규정을 준수하는 서비스 선택
• 안전한 네트워크 연결
• 데이터 저장소 선정
• 데이터 카탈로그 관리
• 데이터 탐색 및 분석
• 데이터 보안
• 보안 거버넌스 Dive Deep
• Private Data Lake 참조 아키텍처
12. 금융 규정을 준수하는 서비스 선택
AWS 서비스 명 서비스 목적 SOC 1, 2, 3 PCI
Amazon S3 Data lake Yes Yes
Amazon RDS MySQL Hive metastore Yes Yes
Amazon Redshift Data Warehouse Yes Yes
AWS Glue Catalog, Spark ETL Yes Yes
Amazon EMR Managed big data frameworks Yes Yes
Lake Formation Blueprints, governance Yes Yes
AWS KMS Encryption Yes Yes
AWS CloudTrail Audit Yes Yes
Amazon CloudWatch Logs Audit, logging Yes Yes
Kinesis Data Streams and Firehose Streaming ingest Yes Yes
Amazon QuickSight Business intelligence, reporting Yes Yes
Amazon Athena Serverless query engine Yes Yes
Amazon Macie Security and data privacy Yes Yes
AWS의 규정 준수 프로그램 https://aws.amazon.com/compliance/services-in-scope/
13. 안전한 네트워크 연결 1/2
AWS Cloud
• 온라인
• 오프라인
Corporate
data center
AWS Direct Connect
AWS Site-to-Site VPN
AWS Snowball
14. Private subnet
안전한 네트워크 연결 2/2
AWS Cloud
VPC
VPC Endpoint
Security group
Instance
Private Subnet route table
Destination Target
10.0.0.0/16 local
AWS Managed Services
(e.g. Amazon S3)
VPC endpoint id
• VPC 내부 서비스 보안
• VPC 외부 서비스 보안
• 네트워크 통합 관리
AWS Managed Services
Network
access control list
15. Private subnet
데이터 저장소 선정
Amazon RDS
Amazon Redshift
AWS Cloud
VPC
VPC Endpoint
Security group
Amazon Simple Storage
Service
Spectrum
• 데이터 레이크
• 관계형 데이터베이스
• 데이터 웨어하우스
16. Private subnet
데이터 카탈로그 관리
AWS Glue
Amazon RDS
Amazon Redshift
AWS Cloud
VPC
VPC Endpoint
Security group
Spectrum
• 중앙 집중적인 데이터 카탈로그
관리
• 카탈로그 기반 데이터 활용
Amazon Simple Storage
Service
17. Private subnet
데이터 탐색 및 분석
AWS Cloud
VPC
VPC Endpoint
Security group
Amazon EMR
• 분산된 데이터 오너쉽
• 데이터 카탈로그 기반의 Job
스케줄링
• 관리형 서비스 활용
AWS Glue
Amazon Simple Storage
Service
18. 데이터 보안
AWS Key Management
Service
Corporate
data center
AWS Direct Connect
AWS Site-to-Site VPN
VPC
Amazon EMR
Amazon Simple Storage
Service
AWS Identity and Access
Management
AWS CloudTrail
AWS Certificate Manager
AWS CloudHSM
• 자격증명 및 접근 제어
• 데이터 보호
• 탐지
AWS Config
AWS Cloud
19. 보안 거버넌스 Dive Deep
AWS Lake Formation
안전한 데이터 레이크를 며칠 만에 손쉽게 설정할 수
있도록 지원하는 서비스
Amazon Macie
민감한 데이터를 검색, 분류 및 보호하는 기계 학습
기반 보안 서비스
21. Summary
데이터 경제의 확산
혁신적인 디지털 기술 수용
개방형 금융 생태계 조성
금융 규제 완화
디지털 금융 혁신
기존 금융 서비스 확장성과 보안성 확보
데이터 활용에 집중하는 기술 구조
고객 중심의 금융 서비스
안전한 데이터 레이크 구축
하이브리드 클라우드
데이터 거버넌스
보안 거버넌스
23. Demo
It’s show time
US mortgage data
1) RDBMS에 저장된 데이터를 AWS Glue를 이용하여 ETL 처리
모든 work flow는 endpoint를 사용한 Internal 통신으로!
2) AWS Lake Formation으로 데이터 권한 설정
3) Amazon Redshift Spectrum을 이용하여 데이터 마트를 만들고
이를 Amazon Quicksight로 시각화
24. Data process work flow
Raw
Glue ETL Dictionary, parquet
Redshift Spectrum, Data Mart
QuickSight Visualization
25. Demo Architecture
AWS CloudCustomer
data center
VPN
Connection
RDBMS
Region
VPC
Availability Zone A Availability Zone C
Public subnet
Private subnet
NAT gateway
Amazon
Redshift
AWS Glue
AWS Lake Formation
Amazon
QuickSight
Amazon S3
Endpoints
26. Demo Architecture
AWS Cloud
Region
VPC
Availability Zone A Availability Zone C
Public subnet
Private subnet
NAT gateway
Amazon
Redshift
AWS Glue
AWS Lake Formation
Amazon
QuickSight
Amazon S3
Endpoints
AWS Cloud
Region
VPC
Private
subnet
Public
subnet
NAT gateway
Peering
connection
Amazon
Aurora
27. Demo 1단계
Amazon Aurora
AWS Glue
Amazon S3
1) S3로 Data Loading (Crawl)
2) Dictionary 형태로 가공
Glue를 이용한 ETL
28.
29. Demo 2단계
AWS Glue
Amazon S3
Glue Catalog
AWS Lake
Formation
Schema 권한 설정
Lake Formation을 이용한 데이터 권한 설정
RedShift Spectrum role이
접근 가능한 컬럼 설정
30.
31. Demo 3단계
Amazon S3
Redshift를 이용한 마트 작업
Amazon Redshift
Amazon
QuickSight
Spectrum으로 데이터 읽기
시각화
1) Redshift Spectrum으로 S3에 저장된
데이터를 읽어서 마트 테이블 생성
2) QuickSight로 데이터 시각화