발표영상 다시보기: https://youtu.be/eQjkwhyOOmI
대규모 데이터 레이크 구성 및 관리는 복잡하고 시간이 많이 걸리는 작업입니다. AWS Lake Formation은 수일만에 안전한 데이터 레이크를 구성할 수 있는 완전 관리 서비스입니다. 본 세션에서는 데이터 수집, 분류, 정리, 변환 및 보안을 위해 AWS Lake Formation을 통해 Amazon S3, EMR, Redshift 및 Athena와 같은 분석 도구를 쉽게 구성하는 방법을 알아봅니다. (2019년 11월 서울 리전 출시)
2. Go to Webinar “Questions” 창에 자신이 질문한
내역이 표시됩니다. 기본적으로 모든 질문은 공개로
답변 됩니다만 본인만 답변을 받고 싶으면
(비공개)라고 하고 질문해 주시면 됩니다.
본 컨텐츠는 고객의 편의를 위해 AWS 서비스 설명을 위해 온라인 세미나용으로 별도로 제작, 제공된 것입니다. 만약 AWS 사이트와
컨텐츠 상에서 차이나 불일치가 있을 경우, AWS 사이트(aws.amazon.com)가 우선합니다. 또한 AWS 사이트 상에서 한글 번역문과
영어 원문에 차이나 불일치가 있을 경우(번역의 지체로 인한 경우 등 포함), 영어 원문이 우선합니다.
AWS는 본 컨텐츠에 포함되거나 컨텐츠를 통하여 고객에게 제공된 일체의 정보, 콘텐츠, 자료, 제품(소프트웨어 포함) 또는 서비스를 이용함으로 인하여 발생하는 여하한 종류의 손해에 대하여 어떠한
책임도 지지 아니하며, 이는 직접 손해, 간접 손해, 부수적 손해, 징벌적 손해 및 결과적 손해를 포함하되 이에 한정되지 아니합니다.
고지 사항(Disclaimer)
강연 중 질문하는 방법
3. 목차
• 데이터레이크(Data Lake)란?
• AWS기반 데이터레이크 구축 방식
• AWS Lake Formation 소개
• AWS Lake Formation 데모 및 활용 방법
• Q&A
4. 데이터레이크(Data Lake)란?
A data lake is a centralized repository that
allows you to store all your structured and
unstructured data at any scale
데이터레이크는 정형 혹은 비정형 데이터에 상관 없이 어떤
규모에서도 저장 및 분석이 가능한 단일 저장소
5. 데이터레이크를 위한 필수 사항
• 데이터 저장소 - 한 곳에서 모든 데이터를 다룰 수 있는 단일 지점
• 데이터 형식 - 정형 / 반 정형 / 비정형 / 원시 데이터
• 데이터 포맷 - 읽기 쉬운 스키마 및 저비용 스토리지 위한 형식
(Parquet 선호)
• 데이터 처리 아키텍처 - 빠른 수집 및 소비를 지원할 수 있는
아키텍처로서 스토리지와 컴퓨팅을 분리
• 데이터 암호화 및 보안 규칙 지원 필수
6. 데이터 사일로(Silos)에서 데이터레이크로…
Data silos
ERP CRM LOB
DW Silo 1
Business Intelligence
Devices Web Sensors Social
DW Silo 2
Business Intelligence
Data
Warehouse
Data Lake10011000010010101
11001010101110010
10100001011111011
010
00111100101100101
10
0100011000010
Catalog
Machine Learning
DW
Queries
Big data
processing
Interactive Real-time
ERP CRM LOB Devices Web Sensors Social
Business Intelligence
7. AWS 기반 데이터레이크의 장점
데이터 분석을
위한 높은 보안성
제공
확장성 대비
비용 효율적
구축 가능
가장 손쉽게
데이터레이크
생성 및 활용 가능
다양한 데이터를
분석할 수 있는
솔루션 제공
1 2 3 4
8. Amazon
DynamoDB
Amazon
ElastiCache
for Redis &
Memcached
키-값 인-메모리
Amazon
Neptune
그래프관계형 DB 시계열
Amazon
RDS
Amazon
Aurora
Amazon
DocumentDB
문서
with MongoDB
compatibility
Amazon
Timestream
원장
Amazon
QLDB
for MySQL &
PostgreSQL
for MySQL,
PostgreSQL, MariaDB,
Oracle, SQL Server
Key lookup
빠은 응답시간,
빠른 처리량
쉽고 빠르게
데이터 관계
생성 및 탐색
참조 무결성, ACID
트랜잭션, Schema-
on-Write
각종 문서 저장
인덱싱
시간에 따른
순차 데이터
수집, 저장 및
처리
1/1000 초
미만의
응답시간.
메모리 스토어
모든 변경에
대한
완전, 불변, 검증
가능한 기록
고객 요구에 따른 다양한 DB 및 분석 선택 옵션
검색 실시간데이터레이크 빅데이터
S3 데이터에
대한 즉각 질의
수 초만에 결과
실시간 데이터
및 동영상 등을
분석 및 저장
시각화를
통한 데이터
지능화
하둡 기반 완전
관리형
빅데이터 분석
플랫폼
클라우드 기반의
가장 빠른 대용량
데이터웨어
하우스
완전 관리형
ELK 스택 기반
분석 서비스
Amazon
Redshift
Amazon
EMR
Amazon
Athena
Amazon
Elasticsearch
Service
Amazon
Kinesis
Amazon
QuickSight
DW 비지니스 인사이트서버리스
Amazon Simple
Storage Service (S3)
데이터 저장 및
분석을 위한 무제한
저장소
9. Data Sources Ingest
Process
&
Analyze
Consume
Amazon S3
Catalog
Store
Amazon S3
Store
Data sources
Amazon
DynamoDB
Web logs /
cookies
ERP
Connected
devices
Ingest
Amazon Kinesis
Database
Migration
Service
AWS Snowball
Amazon MSK
Catalog
AWS Glue
Store
Amazon S3
Store
Amazon S3
Amazon
Athena
Amazon
EMR
Amazon
Redshift
Amazon
Elasticsearch
Process & Analyze Consume
BI Tools
Jupyter
Notebooks
Amazon
API Gateway
Amazon
QuickSight
AWS 기반 데이터레이크 아키텍처
11. 데이터 레이크 운영 시 고객의 애로점은?
모델 훈련 데이터 제작
데이터 클린징 및 변환
데이터 세트 수집
패턴을 위한 데이터 마이닝
알고리즘 작업
기타
데이터 준비 작업에 80% 노력
12. 기존 데이터 레이크 작업 방법
① 추출할 관계형 데이터베이스 선택② 저장할 S3 버킷 선택③ S3 버킷 정책 설정 (접근 및 보안④ AWS Glue를 통해 테이블-스키마 맵핑 ⑤ ETL 작업 생성 및 데이터 클린징/변환⑥ 처리 데이터 접근 제어 ⑦ 개별 분석 서비스로부터 접근 제어
1. 데이터 소스 선택 및 저장소 연결, 보안/접근 제어
2. 스키마 연결 및 ETL 작업 스크립트 구성
3. ETL 작업 및 최종 사용자 및 서비스를 위한
접근 제어 구성 및 모니터링
4. 새 데이터/새 사용자/새 서비스 - 작업 반복
그 외 사용자 및 권한 변경을 수동으로 처리하는 스크립트를 유지 관리
13. 여러 서비스에
걸쳐 보안 정책
적용
데이터 인사이트
수집 및 관리
신속하게 데이터
이동, 저장,
카탈로그 정리
AWS Lake Formation
데이터 레이크 구축을 위한 완전 관리형 서비스
https://aws.amazon.com/ko/lake-formation/
14.
15.
16. Lake Formation 주요 기능
S3 data lake
storage
AWS Lake Formation
AWS
Glue
Blueprints ML
Transforms
Data
catalog
Access
control
• AWS Glue 자동화 Glue를 손쉽게 연결하여 ETL 작업 수행 가능
• 블루 프린트 / 데이터 임포터 ETL, 메타 데이터 (스키마) 및 파티션 관리를 위한 템플릿 제공
• 기계 학습(ML) 기반 변환 고유 한 데이터 변환에 사용할 수 있는 ML 알고리즘 (예 : 레코드 중복 제거)
• 데이터 카탈로그 - 메타 데이터를 기록하고 데이터 카탈로그 객체 (예 : 데이터베이스, 테이블, 열) 설정 가능
• 접근 제어 세분화 된 권한의 중앙 집중식 관리로 보안 담당자의 권한 강화
Varirous Data
sources
19. 3. 데이터 카달로그 및 메타 데이터 관리
• 모든 메타 데이터에서
텍스트 기반 검색
• 데이터 소유자, 관리자
와 같은 정보를 테이블
속성으로 추가
• 데이터 민감도 수준, 열
정의 및 기타를 열
속성으로 추가
텍스트 기반
검색 및
필터링
Amazon Athena
질의 제공
20. 4. 접근 제어 세부적인 사용자 권한 설정
• 한 곳에서 사용자, 역할 또는 그룹에 부여 된 권한 검색 및 보기
• 사용자에게 부여 된 권한 확인 및 정책 구성