[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익철 위원

AWS Online Series:
Data, Analytics, and ML Edition
분산 데이터 통합(Data Lake) 기반의 데이터
분석 환경 구축 사례
베스핀글로벌
장 익 철 위원

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agenda
• 분석 환경의 변화
• 분석 환경 구축 준비
• Data Lake 기반의 분석 환경 구축 사례(A사)
• Data Lake 기반의 분석 환경 구축 사례(B사)
• 결론

분석 환경의 변화
기업의 비즈니스 경쟁 변화에 대응

성장 기반이 된 빅데이터 분석
데이터 및 분석은 비즈니스가 경쟁력을 유지하기 위한 필수조건이다
지난해 3월 편의점 CU를 운영하는 BGF리테일 서울 삼성동 본사의 회의실에선 작은 소동이 벌어졌다. CU
측에서 대용량 요구르트를 제안하자 제조사들이 반대했다. 제조업체들은 대용량 가공유는
소비자들에게 생소해 상품성이 떨어진다는 논리를 폈다. 이들을 설득하기 위해 나선 것은 CU의
마케팅팀이나 제품개발팀이 아니라 트렌드분석팀이었다.
트렌드분석팀은 지난 3년간의 음료 매출 데이터를 내밀었다. 데이터를 분석한 결과, 요구르트의
주구매층은 어린이나 10대 청소년이 아니라 20·30대 여성인 것으로 나왔다. 또 이들은 한번에 여러 개를
사서 한꺼번에 마시는 것으로 나타났다. CU는 지난해 8월 일반 요구르트(60mL) 4.5개 분량인 270mL짜리
‘빅요구르트’를 출시했다. 이 상품은 한 달도 안 돼 CU의 유제품 부문 1위에 오른 뒤 줄곧 그 자리를
지키고 있다.
트렌드분석팀은 CU가 빅데이터 활용을 위해 2012년 만든 조직이다. 편의점 상권은 반경 50~100m의 소형
상권별로 특화된 점포를 구성할 수 있는 장점이 있지만, 동시에 꼭 맞는 제품과 서비스를 내놓지 못하면
경쟁에서 뒤처지는 리스크도 있다. 박준용 BGF리테일 트렌드분석팀장은 “편의점은 대형마트나
슈퍼마켓보다 고객층이 더 세분화돼 있고 트렌드 변화에도 더 민감하다”고 분석했다.
~~~~~~~~~~~~~~~~~~하 략~~~~~~~~~~~~~~~~~~~~~~
‘빅요구르트’ 대박 비결은 빅데이터 (한국경제 2015.07.27)
“요일〮시간〮고객 분석으로 점포 매출 10% 이상 늘려”
2012.8.1 : 훼미리마트 ➔ CU(씨유)

모든 유형의 데이를 저장할 수 있고, 처리할 수 있는 공간이 필요 ➔ Data Lake(Amazon S3)
모든 유형의 데이터 저장소 필요
정형 데이터 뿐만 아니라 비정형을 포함한 모든 유형의 대용량 데이터 분석 환경이 필요하다
어제 매출 부진 점포와
매출이 부진한 이유는?
최근 3년간 매출 부진 점포와
매출이 부진한 이유는?
오늘 점포들의 고객 이익 등급별
매출 현황은?
고객들은 온라인몰의
행동패턴과 SNS상의 동향은?
임원정보시스템(EIS)
의사결정지원시스템(DSS)
Data Warehouse
Data Warehouse
Data〮Text〮Image Mining
Big Data 분석
AI/ML
정형 데이터
• 점포별 상품/매출 집계 데이터
• 점포별 고객수 등
정형〮반정형 데이터
• D-1일 기준 최근 3년간 점포별
상품/매출 상세 데이터
• 고객의 페이지클릭수, 웹로그등
정형〮반정형〮비정형 데이터
• D일(실시간) 기준 최근 3년간
점포별 상품/매출 상세 데이터
• 고객〮상품〮점포 스코어 정보 등
빅데이터(모든 유형의 데이터)
• D일(실시간) 기준 최근 3년간
점포별 상품/매출 상세 데이터
• 고객〮상품〮점포 스코어 정보
• 웹로그, 블고그, 소셜미디어등을
포함한 고객행동패턴 정보 등
• EIS: Executive Information System, 임원정보시스템
• DSS: Decision Support System, 의사결정 지원 시스템

Amazon S3 기반 Data Lake 구축
S3는 모든 유형의 데이터를 어디서나 원하는 양만큼 저장 및 검색이 가능한 객체 스토리지
Database
Migration
ServiceAWS SDK (API) or Library 이용하여 개발 필요
개발 필요없이 AWS Console 또는 CLI 등 사용
[표기]
Kinesis
Data Firehose
Apache
Fluentd
Management, Data (S3, Lambda)
Event 을 S3 에 저장
Producer & Consumer
AWS
CloudTrail
AWS Storage
Gateway
AWS Snowball
Edge
Producer
Amazon
QuickSight
Manifest file (JSON) 필요
Amazon
Athena
• S3 데이터를 Redshift 에 로딩없이 S3 데이터 조회
• S3 데이터를 Redshift 데이터와 같이 조회
• Glue 을 이용한 Data Catalog 생성
(또는 Manual 작업) 필요
• Interactive Query Service
• S3 데이터를 표준 ANSI SQL 로 조회
• Glue 을 이용한 Data Catalog 생성(또는 Manual 작업) 필요
Redshift
Spectrum
Amazon
CloudWatch
Amazon Lambda Amazon
Elasticsearch
Consumer
Amazon Lambda Amazon Simple
Queue Service
Amazon Simple
Notification Service
객체의 변경 사항에 대한 이벤트
감지 후 호출
AWS CLI AWS Tools and
SDKs
S3 API 사용
- Management, Data Operation 제공
- ls, cp, mv, sync, Upload/Download 기능 제공
Amazon Redshift
AWS Glue
Amazon
EMR
Amazon EBS
Unload/Copy
S3
Transfer
Acceleration
대용량 S3 객체에 대한 빠른 전송 처리
Amazon S3

분석 환경 구축 준비
Data Lake 기반의 분석 환경 구축 시 고려 사항

분석 환경 구축 기획 시 고려 요소
기업내 문제에 집중하고 데이터 특성을 이해하여 확장 가능한 Data Architecture가 설계되어야 함
분석 환경 구축 기획 시
⚫ 기업내의 문제에 집중해야 함
▪ 기업 내의 어떤 문제점을 풀 것인지에 대한 명확한 기획 필요
▪ 해당 문제 해결에 필요한 데이터 수집과 방법을 고려
▪ Small Prototype 프로젝트 우선 수행
⚫ Big Data와 Business Data의 특성을 이해해야 함
▪ Big Data: 개별 데이터는 중요하지 않지만, 대량일 경우는 새로운
정보 발견 가능성이 있음
▪ Business Data: 개별 데이터 모두가 중요하고, 논리적 정합성 및
물리적 안정성 보장이 필요
⚫ 확장 가능한 데이터 아키텍처 필요
▪ 대용량 데이터의 효율적인 처리를 위한 아키텍처 필요
▪ DB 기반의 데이터와 Big Data를 Hybrid 처리할 수 있어야 함
▪ 데이터 이동을 최소화 할 수 있는 설계 필요
*Source:Big Data 활용사례와 거버넌스, 2014.6, 조완섭 충북대교수

Big Data Platform 정의
새로운 Big Data와 기존 Business Data를 모두 저장 및 처리할 수 있는 Platform을 정의해야 함
⚫ Big Data와 Business Data 활용을 위한 IT Rebalancing 필요
저비용/ 대량 데이터 고속처리
대량 데이터 분산 저장
병렬 처리
FILE기반 처리 DB 기반 처리
Hadoop/Spark/NoSQL/ DB
기반 처리
• 저비용으로 저장
• 동시 사용자 처리
불가
• 정합성 보장 어려움
• HDFS, MapReduce 등
• 대량의 데이터를
다수의 사용자가
동시 처리
• 정합성 보장
• SQL쿼리
1. Big Data를 DB(DW)에 저장해야 하는 경우
▪ 다양한 데이터의 복잡한 연계 분석이 필요한 경우
▪ 다수의 분석가가 동시에 접속하여 작업할 필요가 있는 경우
2. Big Data를 NoSQL에 저장해야 하는 경우
▪ 비정형의 데이터이지만 향후 특정 Key Value에 기반하여
검색한 후 작업할 필요가 있는 경우
3. Big Data를 HDFS에 저장해야 하는 경우
▪ DB에 저장할 필요는 없지만 대용량이어서 Map/Reduce 처리가
필요한 경우

Big Data 활용을 위한 준비
기업의 부서 특성을 고려하여 Big Data 활용을 위한 준비를 해야 함
• 영업, 마케팅, A/S등과 같이 고객과 직접
대면하면서 일하는 부서
• 업무와 이벤트 중심의 비구조화된 부서
• SNS와 연계된 업무 프로세스 재설계
• 다양한 SNS 연계 활동으로 발생된 데이터를 분석하여
고객만족, 매출증대, 신상품 개발에 활용 필요
• 연구, 생산, 물류등고 같이 회사 자체를
운영하는데 초점을 두는 부서.
• 프로세스 중심적 well-defined and structured
Back Office
• 다양한 M2M 데이터를 활용하여 업무 프로세스 효율성
분석
• New 6 Sigma with Big Data
• 기업 내의 정보 처리 프로세스를 지원하는
인프라 환경 구축 및 지원
Data Center
• 통합되어진 정보 분석 서비스 센터 구성 필요
• 분석 정보의 적시 전달 인프라 필요
• Analytic Private/Public Cloud
부서 특성 Big Data 활용 방안
Front Office

분석 환경 구축을 위한 기업의 준비
새로운 분석 환경 구축으로 데이터 활용을 극대화하기 위해서는 내〮외부 데이터 통합 수집, 분석 역량,
인프라 환경, 조직 분야에서 조직의 체계적 준비가 필요함
데이터 접근성
⚫ 외부의 제3자 데이터 활용 가능성
⚫ 내/외부데이터의 체계적 결합 및 전사적
이용 가능성
⚫ 프라이버시, 보안, 지적재산권, 법적 관련 사전 준비
⚫ 외부 DB의 내부 활용 방안
*Source: Big Data, 미래를 여는 비밀 열쇠, KT경제경영연구소
분석 플랫폼
⚫ Cloud 기반 통합 분석 시스템
⚫ 전사적 데이터 통합 활용 체계
⚫ 분산된 데이터의 Cloud 기반 통합 및 데이터 공유 프로세스 정립
⚫ Cloud 이관을 위한 핵심 검토 사항 준비
▪ 무엇을 Cloud로 이관을 하는가?
▪ 어느 Cloud 플랫폼을 선택하는가?
▪ 어떻게 안정적인 이관을 진행하는가?
▪ 아키텍처는 어떻게 구성을 하고 이후 운영방안은?
분석 역량
⚫ 대용량 데이터 분석 기술(하둡 등)
⚫ 실시간 기반 분석, 시각화 S/W등
⚫ 내부 DB와의 결합 분석을 통한 Warning System 구축
⚫ 실시간 의사결정 지원 방안
데이터 중심 조직
⚫ 전문적 분석 조직 및 전문 인력 양성
⚫ 데이터 기반 의사결정 조직 구조
⚫ 데이터 분석 전문 조직 검토
⚫ Insight를 끌어낼 수 있는 전문가 채용
핵심 이슈 기업 준비 사항

Data Lake 기반의 분석 환경 구축
사례(A사)
분석 데이터 통합을 위한 분석 환경 구축 사례

구축 배경 및 목적
가장 적합한 분석 플랫폼 및 BI분석 솔루션을 선정하기 위해 PoC(Proof of Concept)를 1개월 수행
다수 인원의 단순 작업 단순 반복 업무 개선으로 업무 효율성 향상
단일 시스템이 아닌 연관 시스템을 활용
수작업을 생성하는 보고서 작업을 시스템화
분석 시스템 이슈
경영 변화에 대응 가능한 분석시스템 필요
업무 변화를 적시에 반영할 수 있는 시스템 필요
경영 변화를 다양하게 분석할 수 있는 시스템 필요
Silo한 GMP시스템 데이터 유지보수 어려움
데이터 통합 관리체계 및 표준화가 필요
분산 데이터의 통합 및 관리 자동화 필요
사용자가 직접 활용 가능한 BI 검증
• BI 툴을 이용한 개인별 보고서 생성
• 공용 보고서 활용으로 수작업 최소
시스템 통합을 위한 분석플랫폼 검증
• ETL을 통해 다양한 시스템으로부터
대용량 데이터 획득 및 적재 용이
분산 데이터 통합을 위한 기반 검증
• 4개의 다른 시스템의 일부 코드 및
마스터성 데이터 통합 모델링
분석 시스템 이슈 추진 배경 평가 기준 및 목적
단일 시스템에서 필요한 데이터를 추출하여
조회하거나 수작업으로 보고서 생성
비즈니스 변화에 따른 적시 지원 부재
향후 CDO 및 CDMO등 신규 시장 진출 시
데이터 분석 어려움 발생 가능성
데이터 관리 복잡도 증가로 휴먼에러 발생
다양한 외산 GMP 솔루션 간 연계 운영으로
인한 유지보수 어려움

분석 환경 구축 내역
A사 분석 환경 구축에 적합한 데이터 분석 플랫폼과 BI 분석 보고서를 구현하여 검증 수행함
1. 데이터 분석 플랫폼 구축 2. BI 분석 보고서 구현
테스트 기준 항목
⚫ H/W, S/W 환경 구성 내용 확인
⚫ 데이터 적재 및 DB 관리
⚫ 시스템 및 자원 모니터링
검증 방법
⚫ 시스템 아키텍처 기반의 구성 내용 확인
⚫ 매핑정의서 기반의 적재 결과 확인
⚫ 콘솔 등을 이용한 모니터링 기능 확인
테스트 기준 항목
⚫ 2가지 솔루션(MSTR, QuickSight) 구현
⚫ OKTA 로그인 인증 연동 여부 확인
⚫ 권한 관리 기능 확인
⚫ 사용자 행동 로깅 레벨 확인
⚫ 개인 보고서 생성 기능 확인
검증 방법
⚫ 솔루션별 분석 보고서 구현 기능 확인
⚫ 로그인 연동 기능 확인
⚫ 분석 보고서별 사용자별 권한 관리 기능
⚫ 솔루션별 사용자 행동 로깅 기능 확인
⚫ 공용 보고서/개인 보고서 생성 기능 확인

분석을 위한 데이터 흐름도
실험을 위한 센서 데이터 및 Excel로 작성된 결과 자료를 이용하여 분석하기 위한 흐름도
수집
공통
Data Lake(저장) 분석 시각화
On-Premise
자료
출력
* Single Availability Zone (AZ) 기반
계정
장비통제
(온도, 습도등 센서)
Excel
수기
입력
Excel
수기
입력
Excel
다운
로드
SAP DB
파일형태
변환
ERP
(투입자재정보)
MS-SQL
실험정보관리
(실험결과정보)
마스터수기배치
(엑셀로 수기입력)
배치
배치

AWS 서비스 선정
데이터 흐름을 기반으로 적합한 AWS 필요 서비스를 선정
수집 Data Lake(저장) 분석 시각화수집 Data Lake(저장) 분석 시각화 및 활용
Kinesis
Data Streams
Kinesis
Data Firehose
IoT
AWS Glue
Database
Migration
Service
S3
Glacier
Redshift
DynamoDB
RDS
Elasticsearch
Kinesis Data
Analytics
EMR
Amazon
Forecast(ML)
QuickSight
Redshift
Kinesis Video
Streams
Managed
Streaming
for Kafka
AWS Glue
AWS VPN AWS Direct
Connect
Elastic Block
Store (EBS)
Elastic File
System(EFS)
Aurora
ElastiCache
CloudSearch
Athena
Lambda
AWS Glue
EC2

아키텍처 논리 구성도
장비 센서 정보 및 실험을 위한 마스터 정보, 실험 결과 정보를 S3에 저장하고, 분석하기 위해 Amazon
Redshift에 통합한 후 BI 솔루션으로 분석할 수 있도록 아키텍처를 구성
VPC
수집 Data Lake(저장) 시각화
배치 수집
데이터 저장3
분석4
ETL Server
(EC2, InnoQuartz) MSTR(EC2)
MS-SQL
(EC2)
BI포탈(EC2)
* Single Availability Zone (AZ-A) 기반
공통 계정
AWS IAM
On-Premise
자료
출력
장비통제
(온도, 습도등 센서)
Excel
수기
입력
Excel
수기
입력
Excel
다운
로드
SAP DB
파일형태
변환
ERP
(투입자재정보)
MS-SQL
실험정보관리
(실험결과정보)
마스터수기배치
(엑셀로 수기입력)
MS-
SQL
QuickSight
AWS VPN
분석
Amazon Redshift
(dc2.8xlarge * 2)
O
D
S
D
W
D
M
1
Amazon S3
bucket
….
bucket
변환2 시각화(MSTR)5
시각화(QuickSight)6

분석 환경 구축 결과
분석 플랫폼 구축을 통해 데이터 통합 필요성 및 가능성을 확인했으나, 분석 솔루션은 기능 상세 검토 후
선정이 필요할 것으로 판단
1. 데이터 분석 플랫폼 구축 2. BI 분석 보고서 구현
구분 PoC 항목 PoC 결과
환경 구성
H/W, S/W 환경 ○ • 아키텍처 정의서 기반 설정 완료
콘솔 접속 확인 ○ • 콘솔을 통한 환경 내역 조회
데이터
적재 및
DB관리
소스➔타겟
적재
○
• InnoQuartz를 이용하여 소스➔ ODS
➔ MART 적재 기능 확인
업로드,
다운로드
○
• 엑셀 파일 업로드 및 Redshift
다운로드 기능 확인
장애 시 알람 ○
• 일배치 장애 발생 시 담당자에게
알람 메일을 전송하는 기능 확인
Redshift 관리 ○
• 테이블 생성, SQL로그 확인, 상태
모니터링 기능 확인
시스템
관리
시스템 자원
모니터링
○
• AWS 콘솔을 통한 DB현황, Storage,
CPU등 자원 할당 및 사용 현황
모니터링 기능 확인
수행 SQL 관리 ○
• 분석 솔루션 및 DB에서 수행한 SQL
이력 조회 기능 확인
구분 PoC 항목 PoC 결과
보고서
구현
OKTA 로그인
연동
○
• 2개 솔루션 모두 OKTA 연동 가능
• 구현 대신 관련 문서 제출로 대체
권한 관리 ○
• 2개 솔루션 모두 사용자별 분석
보고서별 권한 관리 가능
정형분석
보고서 구현
△
• MSTR
- 일부 가능, 일부 불가
• QuickSight
- 일부 가능, 일부 불가
• 특징
- 그리드보다는 챠트 형태 중심의
분석이 필요
- MSTR과 QuickSight 솔루션은
A사가 요청하는 다양한 챠트의
기능을 모두 제공하지 못함
개인 보고서
생성
○
• 공용폴더 보고서를 개인폴더로
이동하여 개인사용자별 생성 가능
로깅 레벨 체크 ○ • 접속이력, 분석 이력등 로깅 분석

분석 보고서 구현 결과 예시 (1/2) MSTR 구현 결과
①
②
③
QuickSight 구현 결과
① X
② X
③
A사 요구 사항
①
① • 요구사항은 해당선 옆에 표현이었으나, 실제 구축은 맨
하단에 각 control값 표시(Ex. Acceptable Range) 가능
②
② • 임계치를 벗어난 값 표현(예를들어 색상으로 구분)
③
③ • 챠트의 해당값에 대한 표현 시 챠트 구간이 짧아질수록
표현에 어려움이 있어 가시 효과가 떨어짐

분석 보고서 구현 결과 예시 (2/2)
A사 요구 사항
①
• 하나의 막대 그래프에 다른 Vendor Batch 표현은 모두 가능
• 하나의 막대 그래프에 다른 Vendor Batch별 비중을 표현
➔ MSTR에서는 비중을 표현하지 못하고 값을 그대로 표현하되,
별도의 Popup으로 비중을 볼 수 있도록 구현
➔ QuickSight 에서는 막대그래프 내에 값을 표현하지 못하고 별도의
Popup으로 값을 표현, 단 비율은 표현하지 못함
①
①
MSTR 구현 결과
QuickSight 구현 결과
①
48
52
1.503
0.616

Lesson Learned
본 프로젝트 사례를 평가해보면, Amazon S3를 기반으로 한 Data Lake 구축과 Amazon Redshift 기반의 분석
환경 구축의 필요성과 가능성을 확인하게 되었음
사용자가 직접 활용 가능한 BI 검증
• BI 툴을 이용한 개인별 보고서 생성
• 공용 보고서 활용으로 수작업 최소
시스템 통합을 위한 분석 플랫폼 검증
• ETL을 통해 다양한 시스템으로부터
대용량 데이터 획득 및 적재 용이
분산 데이터 통합을 위한 기반 검증
• 4개의 다른 시스템의 일부 코드 및
마스터성 데이터 통합 모델링
평가 기준 및 목적
⚫ 그리드가 아닌 챠트 또는 그래프 분석이 중심인 경우에는
BI 솔루션 선정 시 Small Prototype 수행을 권고
⚫ BI 솔루션은 사용 편의성도 중요하지만, 산업의 특성에
맞는 기능 확인도 중요
Lesson Learned
⚫ 소스 시스템으로부터 데이터를 추출, 수집, 변환 후 S3에
저장하는 일련의 과정을 검증
⚫ S3 기반의 Data Lake 구축과 S3로부터 Redshift로의 저장 후
분석하는 분석 플랫폼 구축 과정을 검증
⚫ DB 데이터, 엑셀 파일, ERP 데이터 등 상이한 여러 소스
시스템으로부터 추출한 데이터들의 통합 모델링 및
아키텍처 필요성을 확인

Data Lake 기반의 분석 환경 구축
사례(B사)
분석 환경 구축 후 마케팅 활용 사례

구축 목적 및 범위
통합멤버십 회원 중심의 마케팅 플랫폼을 구축하기 위해 Amazon S3 및 Redshift 기반의 분석 환경 구축 및
마케팅 지원시스템을 구축하고자 함
• 통합회원 기반의 분석 환경 구축을 통한 마케팅
플랫폼 고도화
• 분석 기반이 없는 통합멤버십 참여사에
통합멤버십 데이터를 활용한 분석 인프라 제공
• 분석 역량 강화를 통해 새로운 비즈니스 발굴을
위한 기반 마련
• 다양한 마케팅 기능을 통한 통합회원 만족도 제고
및 마케팅 반응 향상
분석 DW 구축 및 클라우드 서비스 구축
• 통합멤버십 전사 데이터 적재 및 분석 마트 구축
• 데이터 적재 및 스케쥴링 관리 가능한 ETL 서비스
• OLAP 분석 환경(정형, 비정형분석) 구현
• 통계분석 기반의 마케팅 지수 개발
• 클라우드 기반의 DW 환경 구축
구축 목적 구축 범위
마케팅 지원 시스템 구축 및 관련 솔루션 적용
• 모바일 위치정보기반 마케팅 서비스 및 위치정보
수집(가상비콘)
• 회원의 App&Web 로그 수집 (데이터스토리)
• 주소정보, 분석용도로 표준화(주소정제 솔루션 개발)
• 기존 캠페인 기능 확장 개발(룰베이스로 개발)

AWS Cloud 기반의 분석 환경 구축 아키텍처 논리 구성도
DB정보, 웹/앱 로그 정보, 가상비콘 정보등 다양한 소스 정보를 ETL 솔루션을 이용하여 S3 기반의 Data
Lake를 구축한 후 Redshift로 분석하는 분석 환경을 구축하여 캠페인 등 실시간 마케팅에 활용
VPC
수집 및 변환
공통
Data Lake(저장) 분석 시각화 및 활용
배치 수집2
DW분석6
보안 계정 모니터링 개발 채널 커뮤니케이션
On-Premise
VPN접속1
일배치
5분 단위 배치
ETL Server (EC2)
Amazon S3
bucket
….
bucket
Amazon
RDS(Metadata, MySQL)
Amazon Redshift
AWS Lambda Amazon SNSNACL AWS IAM CloudWatch
BI포탈(EC2)
* Multi Availability Zone (AZ) 기반
O
D
S
D
W
D
M
Security Group
MSTR(EC2)
EFS
RDS
DB2
통합멤버십
주소정제
Web/APP Log
일배치
가상비콘
캠페인
일배치
일배치
데이터변환3
4 데이터
저장
BI분석포털7
8 캠페인
연동

데이터 저장 및 분석 성능 시 고려 사항
데이터 추출/변환/적재(ETL)가 진행되는 과정에서 발생할 수 있는 Amazon S3 및 Redshift 관련 이슈와
해결방안을 고려해야하며, 적용이 지연되면 일정 및 공수 제약으로 인해 해결에 제약사항이 존재함
예상 이슈 내용 이슈 해결 방안
1. Table Compression 미수행
• Disk의 효율적인 사용에 방해
• Query Performance에 영향
2. WLM의 구축 정책 부재
• 1개의 큐에 15 Concurrency 설정 (과다설정)
• Query 실행 시 대기 발생에 대한 대비 어려움
3. USER 생성 정책 부재
• 1개의 DB계정을 통해 Connection
• 큐 분리 시 계정별 & 권한별 매핑의 어려움
4. S3 Bucket 아키텍처 부재
• 단일 Bucket에 모든 데이터 적재로 Bucket별 정책 불가
• 실시간 백업, 복구에 대한 절차 무시
5. 테이블의 Distkey, Sortkey 의 부재
• 분산 방식 설정의 모호함
• 정렬키의 부재
6. Vacuum, Analyze 정책 부재
• 삭제되는 Row에 대한 Vacuum 미작업으로 성능 영향
• Analyze 미실행으로 성능에 영향
⚫ STAGE영역을 제외한 Table Row건수가 (10만 * 슬라이스) 수를
초과하는 대상Table에 대하여 압축 진행
➔ 전체의 기존 대비 약40% 의 Disk 효율 발생
⚫ Session 모니터링 시 실행 User에 대한 분석이 어려움으로 사번별 DB
User 생성 (현재 180 User)
⚫ 추후 인사DB와 연계 고려
⚫ 추후 Spectrum을 사용할 수 있도록 DB형상과 같이 S3 Bucket 생성
⚫ 복구 및 백업은 Snap Shot만을 사용하기로 합의
⚫ 정형, 비정형에서 사용되는 SQL을 수집하여 적절한 분산 및 정렬키
생성
⚫ Vacuum : 매일 ETL 작업이 끝난 후 대상을 선별하여 실행
⚫ Analyze : Vacuum 이후 최종적으로 실행

이슈 해결 사례 (1/4)
사번별 DB User 계정 생성 – 단일 S3 Bucket이 아닌 현재 DB 형상과 동일하게 S3 Bucket & Folder 생성을
권고함
[ 현황 ]
• Spectrum의 사용 필요성에
대한 논의 진행
해결 前 해결 後
[ 이슈 ]
• S3로 Unload하여 External로
생성할 대상이 선정되지
않았음
• Spectrum 활용 방안이 부재인
상태이고, S3의 Bucket 구조에
대한 아키텍처가 미반영
[ 수행 내역 ]
• 현재 데이터베이스 형상과 동일한
S3 Bucket & Folder 생성
[ 효과 ]
• 데이터베이스 형상과 동일한 구조로
되어 있어 관리가 용이
• 데이터의 Unload 및 Copy 시 장애 및
오류 발생 확률을 줄일 수 있음 (중복
로딩 오류)
한 개의 Bucket으로 관리
현재 DB와 동일한 폴더로 구분 관리

S3 활용 확대를 위한 S3 Bucket 구조 변경 – User별 실행 Query 모니터링을 통해 DB 영향도를 최소화하기
위해 사번별 계정으로 분리하여 DB User 생성 작업 수행
[ 현황 ]
• MSTR 및 ETL에서 사용하는
대표 계정으로 DB Connection
사번별
계정정보
[ 이슈 ]
• Long Query 발생 시 어떤
사용자에 의해 실행된
Query인지 Kill Session이
가능한지 판단하기 어려움
[ 수행 내역 ]
• MSTR에서 사용되는 사번 체계로 DB
User를 생성
• 1:1로 매핑하여 DB Connection이 될
수 있도록 변경
[ 효과 ]
• Long Query 발생 시 모니터링 인력이
Query 실행 사용자를 빠르게
구분하여 조회 성능 등 DW 서비스의
영향도를 최소화할 수 있음

Redshift Distkey & Sortkey 최적화 – 각 테이블간 Join 및 Filter 조건을 고려하여 SQL문 분석 후 Table별
적절한 Distkey 및 Sortkey를 설정하여 재생성함으로써 성능 향상
[ 현황 ]
• Sortkey 미생성
• 부적절한 Distkey 생성
[ 이슈 ]
• 정확한 분석이 아닌
감각적으로 Key가 생성되어
Skew가 대량 발생
• Join 시 Sortkey 부재로 인한
속도 저하
[ 수행 내역 ]
• 기 사용 SQL문을 분석하여 Join 관계
및 Filter 컬럼 분석
• Key 튜닝 적용 후 Skew 및 SQL Plan
확인
[ 효과 ]
• 처리 성능 향상
• 브로드캐스팅 발생이 현저하게
줄어듦
생성 전후의 Query Plan 비교

Redshift Vacuum & Analyze 실행 정책 수립 후 적용 – ETL Job 수행 완료 후 수행해야 하는 Vacuum 및
Analyze 실행 정책을 수립하여 적용함으로써 DB 처리 성능 향상 효과를 가져옴
[ 현황 ]
• SQL 실행 시 불필용한 I/O 발생
• SQL Plan 정보에 Table Size 및
Row Count 의 오차가 큼
[ 이슈 ]
• 개발 후 Vacuum & Analyze를
활용하지 못해 성능 저하 발생
• Vacuum & Analyze 실행 전략
부재로 DB 상태를 최적화하여
사용하지 못함으로 성능 저하
[ 수행 내역 ]
• Vacuum 실행 정책 가이드
• ETL Job 생성에 따른 Vacuum 및
Analyze 대상 선별 View 제공
[ 효과 ]
• 일별 최신 통계 정보 갱신을 통해
정확한 Table 별 정보를 DBMS
Optimize에게 제공함으로써 처리
성능 향상을 가져옴
ETL 개발자에게 제공한 Vacuum & Analzye 대상 목록
Vacuum & Analyze 대상 선정 기준
• unsort row 수가 많은 Table
• stats_off의 수치가 높은 테이블 (stats_off가 높다는 의미는 unsort도
많고, 통계정보 갱신도 오래되었다는 의미)

결론
기업은 변화의 흐름을 반영해야 한다

시장 변화(모바일, 인터넷)에 적응하지 못하는 기업
’07년부터 스마트폰의 출시로 전환된 모바일 주도 시장 변화에 적응하지 못한 기업들은 모두 사라져 감
• 1996년노키아9000을시작으로첫제품라
인발표
• 2007년이후애플중심의모바일생태계에
적응하지못하고MS에인수
• 1889년화투제조상점창업
• 2010년부터스마트폰으로의변화에적응
하지못하고추락
• 2014년“스마트폰으로게임을 출시할일
은없지만,스마트폰 이용한서비스는 런
칭예정”
*Source: 구글 주식 제공, 2019.8.19일 기준
• 1928년폴갈빈설립
• 1930년최초의차량용무전기개발
• 2011년구글인수,2014년레노버인수

aws-korea-marketing@amazon.com
twitter.com/AWSKorea
facebook.com/amazonwebservices.ko
youtube.com/user/AWSKorea
slideshare.net/awskorea
twitch.tv/aws
캠페인 온라인 세미나: Data, Analytics, and ML Edition
참석해주셔서 대단히 감사합니다.
저희가 준비한 내용, 어떻게 보셨나요?
더 나은 세미나를 위하여 설문을 꼭 작성해 주시기 바랍니다.

[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익철 위원

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익철 위원

Similar to [Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익철 위원 (20)

More from Amazon Web Services Korea

More from Amazon Web Services Korea (20)

[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익철 위원