© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터의 힘,
스타트업 생존을 넘어 성장으로
김용대, 사업개발 담당, AWS 박재영, CTO, 크몽
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
 데이터
 데이터의 힘
 강력한 분석 플랫폼을 만들려면
 좋은 데이터 파이프라인 구축 사례들
 AWS 데이터 레이크 컴포넌트
 크몽(Kmong) 데이터 분석 파이프라인 구축 및 성과
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터는 모든 기업들의
핵심 전략 자원
*Copyright: The Economist, 2017, David Parkins
세계에서 가장 돈이 되는 자원은
*Copyright: The Economist, 2017, David Parkins
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
의
테크놀로지
기업의 성장
시가 총액 상위 5개 회사*
2001
2006
2011
2016
2018
$1.091T
$406B
$446B
$406B
$582B
$976B
$365B
$383B
$556B
$383B
$877B
$272B
$327B
$277B
$452B
$839B
$261B
$293B
$237B
$364B
$523B
$260B
$273B
$228B
$228B
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
아직도 데이터는 비용이라고? No 기업 핵심 자산
시간이 지나면
그냥 버리는 것은
이제 그만
다양한 유저가
사용할 수 있도록
만들어야
다양한 데이터
프로세싱 기술
적용이 가능해야
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터를 활용한 지속적 발전
훌륭한 의사
결정
좋은 서비스더 많은 고객
더 많은 데이터
AWS 기반의
데이터레이크
Data
WH
Machine
learning
Real-time
analytics
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
우리가 데이터로
할 수 있는 것
들이 무엇인지
다시 한번
생각해 봅시다
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
This is data
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
This is data
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
고객과의 접점에서
데이터는 더욱
효율적으로 활용
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Rethinking data:
Example #1
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Rethinking data:
Example #2
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터에 대한
새로운 접근도
필요하지만
직관적인 리포팅
기존 분석 방식도
개선/발전
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터를 가장 잘 분석하기
위한 어플리케이션은 ?
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
다양하고 진화하는 분석 요구사항들
데이터의
다양성과
데이터의 용량이
급속하게 증가하고
있음
분산되고
이질적인
데이터의 통합
안전한 방식으로
모든 유저가
데이터에 접근
가능
분석에 대한 니즈가
배치 리포트에서
점차
실시간, 예측으로
확대
어플리케이션에서
음성, 이미지 인식,
IoT
활용이 통합되고 있음
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data
every 5 years
분석해야 하는
years
live for
Data platforms need to
scalegrows
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
그 어느 때보다
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
그 어느 때보다
빠르게 발전하는
Hadoop Elasticsearch
Years ago
11 8 5 4
Presto Spark
Didn’t exist
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Single of Truth - AWS 데이터 레이크
데이터를 모으는 모든 기술 지원
용량에 제한이 없음 Exabyte scale
강력한 보안
컴플라이언스 감사 모니터링
모든 방식의 애널리틱 가능
데이터의 이동이 필요없이 다양한 방식 적용
최적화된 자원 활용
저장소와 컴퓨팅 리소스를 독립적으로 확장 가능
최소의 비용으로 운영
최적의 저장소 S3와 서버리스 기술
Redshift
EMR Athena
AI Services
ElasticsearchKinesis
Snowball
Kinesis
Video Streams
Kinesis
Data
Streams
Kinesis
Data Firehose
Snowmobile
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS
데이터레이크
멀티테넌트
Security
S3
Analyze & infer
Redshift
EMR
Athena
AI Services
Elasticsearch
Service
Kinesis
Discover
AWS Glue
Snowball
Snowmobile
Kinesis Data Firehose
Direct Connect
Kinesis Data Streams
Database Migration Service
Ingest
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
같은 데이터를 다양한
관점으로 분석
요구사항에 적합한 최적의 툴
사용
Data Lake
on AWS
Redshift EMR Athena Kinesis
Sage
Maker
범용 데이터 포맷과
모든 레벨로 접근
가능한 API 제공
중복 제거, 통합
단일 저장소와 데이터 변환 툴 제공
통합된 접근 제어
데이터 거버넌스
한번 만든 플랫폼은 오랫동안 지속되지만,
분석 관련 기술은 엄청난 속도로 혁신
빠르게 실험하고
쉽게 적용
가능한 다양한
Managed 서비스
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
당면 과제
지속적인 게이머 참여 및 유지를
위해 게임 개발자에게 지속적인
플레이어 피드백을 제공하는 루프를
만들어야 합니다.
세계에서 가장 인기있는 게임을
만들기 위해 게이머의 만족도를
실시간으로 파악하여 게이머의
참여를 보장해야 합니다.
Fortnite | 1억2천5백만+ 게이머
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Epic Games – 유연한 데이터 레이크 분석 플랫폼
모든 분석 플랫폼이 AWS에서 운영
S3를 통한 데이터 레이크 구축
다양한 유형의 데이터를 Kinesis를
통해 수집
Spark를 활용한 실시간 분석
대규모 데이터처리에 EMR 활용
게임디자이너의 의사결정에 데이터
활용
Game clients
Game servers
Launcher
Game services
N E A R R E A L T I M E P I P E L I N E
N E A R R E A L T I M E P I P E L I N E
Grafana
Scoreboards API
Limited Raw Data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR DynamoDB
NEAR REALTIME PIPELINES
BATCH PIPELINES
ETL using
EMR
Tableau/BI
Ad-hoc SQL
S3
(Data Lake)
Kinesis
APIs
Databases
S3
Other sources
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Equinox 는 운동, 영양 및 재생을 중심으로 다양한 라이프 스타일
및 건강 관리를 제공하기 위해 요가, 필라테스, 스파, 헬스 클럽,
호텔 및 레스토랑을 운영하는 기업입니다. Equinox 는 Apple
Health와 연결하고 운동 장비에 데이터 수집 기능을 갖춘
어플리케이션을 사용하여 연결된 경험을 제공합니다.
미국, 런던 및 캐나다의 모두 주요 도시 내 200개 이상의
로케이션 운영
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
직관적이고 생산성 높은 데이터 파이프라인 구축
Amazon
EMR
(Glue
ETL)
S3
Glue Data
Catalog
Redshift
(Spectru
m)
S3
Athena(ad-hoc
query)
Reporting
Sagemak
er
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Business intelligence & machine learning
Data movement
AWS DMS | Snowball | Snowmobile | Kinesis Data Firehose | Kinesis Data Streams
Amazon QuickSight (BI)
Relational databases
Amazon RDS
Aurora
Data lake
Amazon S3/
Amazon Glacier
(Storage)
AWS Glue
(ETL & Data Catalog)
Amazon SageMaker (ML)
Macie
(Data Protection)
Non-relational databases Analytics
DynamoDB
(Key value/Document)
ElastiCache
(Redis, Memcached)
DW | Big data processing | Ad hoc
Amazon
Redshift
Amazon
EMR
Athena
Kinesis Data
Analytics
Amazon ES
Real-time
AWS 데이터레이크 서비스
다양한 목적에 맞는 폭넓은 전문적인 서비스 제공
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
가장 실용적인 솔루션 - 서버리스 애널리틱
빠르게 가성비 높은 분석 솔루션 구축
S3
Data lake
AWS Glue
(ETL & Data
Catalog)
Athena
Amazon
QuickSight
서버리스
인프라 구축 X
인프라 운영 X
작업이 돌지
않는 동안에는
비용이 제로
$
시스템 장애에
대한 걱정이
없는
사용 워크로드에
맞춰 자동적으로
리소스 확장
Kinesis
Devices Web Sensors Social
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon S3 — 데이터 저장소
보안과
컴플라이언스
3가지의 다른 형태의
암호화기능을 제공; 리전
간 전송시에도 데이터
암호화 전송; CloudTrail로
로그 및 모니터링하며, ML
기반 Macie 로 민감
데이터를 찾아내고 보호할
수 있음
유연한 관리
데이터 사용 트랜드를
분류,보고 및 시각화;
오브젝트에 태그를 붙여
스토리지 사용과 비용 및
보안을 확인가능; 보관기간
및 Tiering 을 자동화하는
수명주기관리 정책 작성
내구성, 가용성과
확장성
99.999999999%의
내구성 설계; 데이터는
AWS Region 내부에 3곳의
물리적 공간에 분산
저장됨; 자동으로 다른
AWS Region 에 복제 구성
가능
즉각적인 쿼리수행
데이터 이전 없이
DataLake 에서 분석 및
ML을 실행할 수 있음; S3
Select 를 사용해서
데이터의 하위 집합을
검색하고 분석 퍼포먼스를
400% 증가할 수 있음
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue – 데이터 카탈로그
데이터를 쉽게 찾고 관리할 수 있게 함
Data Source : S3, JDBC 호환 Database
크롤러는 자동적으로 데이터 스키마를 찾아서 저장
데이터의 검색과 ETL 작업을 가능
테이블 스키마 정보와 컬럼 레벨 통계 정보를 포함
데이터 분포와 통계정보를 활용하여 쿼리 성능 향상
Glue
데이터 카탈로그
데이터를 탐색하여
스키마 정보 추출
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue - ETL 서비스
Job 스크립트 작성과 실행을 쉽게 도와줌
서버리스 데이터 변환작업
Apache Spark 기반
클릭 몇번으로 생성되는 ETL code
수정 / 추가가 가능한 PySpark과 Scala 코드
반복 일정과 이벤트에 따른 Job 스케줄링
Zeppelin, PyCharm 등 익숙한 환경에서 수정,
디버그, 테스트가 가능하도록 Dev Endpoint 제공
Sample ETL Codes : https://github.com/awslabs/aws-glue-samples
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Athena — Ad Hoc 및 인터랙티브 분석
표준SQL을 사용해서 Amazon S3의 데이터를 분석하는 대화식 쿼리 서비스
설정 및 관리해야 할 인프라도 없으며, 로드 해야할 데이터도 없음
Amazon Glacier 에 보관된 데이터에 대해 SQL 쿼리를 실행할 수 있음
즉각적인 Query
셋업 비용이 들지 않음;
S3를 바로 지정하고
쿼리를 수행하면 됨
SQL
개방
ANSI SQL 인터페이스,
JDBC/ODBC 드라이버,
다양한 포멧, 압축
유형, 복잡한 조인 및
데이터 타입
손쉬운 사용
서버리스: 인프라 없음,
관리 불필요
QuickSight 와 통합
Query 당 비용
쿼리 실행에 대해서만
지불; 압축을 통해서
쿼리당 30–90% 비용
절감 가능
$
QuickSight를 통해 사용자는 대시보드를 통해 쉽게 데이터와 분석 결과를 공유할 수 있으며,
다양한 디바이스에서 스토리 보드에 접근 가능
분석
분석에서 데이터를 시각적으로
탐색하는 것은 매우 중요합니다.
사용자가 쉽게 다양한 방식으로
시각화 할 수 있고, 협업 할 수 있도록
도와줍니다.
스토리보드
디바이스에 상관없이 스토리 보드를
통해 분석 결과를 공유하세요
대시보드
여러분의 분석 결과물을 대시보드
형태로 공유 할 수 있습니다. 뷰어
모드로 사용하는 고객에게는 세션별
과금 정책으로 매우 저렴하게 사용
가능합니다.
분석, 협업, 대시보드 - Amazon QuickSight
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation (preview 버젼으로 사용가능)
단, 며칠 이내에 데이터 레이크 구축이 가능한
수개월이 아닌 단, 며칠만에
데이터 레이크 구축
몇가지 클릭과 설정으로
만들어지는 데이터 레이크
솔루션
다양한 서비스와 레벨로
보안 정책을 수립 관리
한 곳에서 데이터에 대한 보안,
관리 및 감사 정책을 모두
정의하고 관리 가능
다양한 분석 방법으로 통합된
데이터 카탈로그에 접근
모든 카탈로그를 관리, 분석가와
데이터 과학자가 쉽게 검색 가능,
모든 데이터에 대한 안전한
접근을 보장
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터의 힘
스타트업 생존을 넘어 성장으로
박재영 크몽 CTO
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Freelancer Market,
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Kmong’s Growth
GMV
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Kmong’s Growth
x4
Member 99
Team 10
Member25
Team 4
2018년 1월 Present
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Intro to Kmong Data Team
2018.1 최초 팀 빌딩
• 1 Data Analyst
현재 팀원 구성
• 1 Data Analyst
• 1 Server Engineer
• 1 Deep Learning / Modeler
Present
1. Team Building
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Kmong Data Team is Doing
2. 주요 업무
Data Infra
• 파이프라인 구축 및
자동화
• 서버엔지니어링
• 관련 솔루션 도입
• 자동화 등
Analysis
• KPI 정의 및 관리
• 지표정의
• BI Tool 도입
• Ad-Hoc Analysis
•
• 고객 세그멘테이션
• 고객행동/퍼널 분석
• 마케팅효율 분석 등
Big Data / AI
• ML / DL
• 개인맞춤추천 등
Personalized Service
Contents 개발
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Startup & Data 스타트업에게 데이터란?
2016
1.59 PB 1.45 PB
11.31 PB
9.70 PB
2018
약 7배
글로벌
한국
기업별 평균 데이터 보유량 급증
약 20배
크몽 데이터 보유량의 변화
1TB
20TB
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Startup & Data 스타트업에게 데이터란?
Business
• 경영 지표
• 사업운영 지표
• 서비스 개발
• 상품 개발
Development
• 이용자 행동 관련 지표
• 퍼널 분석
• 전환/이탈
Marketing
• 유입 채널 분석
• 광고 효율
“성장”
Management MarketerUX Architect
Product Manager
Data Analytist
Growth Manager CX Manager
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Demands on Data
데이터 수요자
조직 내부 고객
회사의 성장에 따른 팀 및 인원 증가
 다양한 관점에 따른 데이터 요청 증가
고객의 의사결정을 돕는 컨텐츠 기능개발
ex. 개인 맞춤 추천 서비스
크몽데이터팀이슈
1. 적은 규모의 데이터팀 (1~3인)
2. 반복적이고 비슷한 유형의 데이터 요청
3. 데이터 요구량과 비례하는 커뮤니케이션 비용 증가
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Demands on Data
데이터 수요자
조직 내부 고객
회사의 성장에 따른 팀 및 인원 증가
 다양한 관점에 따른 데이터 요청 증가
고객의 의사결정을 돕는 컨텐츠 기능개발
ex. 개인 맞춤 추천 서비스
Data pipeline 구축
빠르고 효율적인 데이터기반 의사결정
환경 도구 문화
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Demands on Data
Data pipeline 구축
빠르고 효율적인 데이터기반 의사결정
환경 도구 문화
데이터 팀 역량 집중
고객 대응 및 데이터 엔지니어링 역량 강화
빅데이터 처리 및 분석 ML/DL
데이터 수요자
조직 내부 고객
회사의 성장에 따른 팀 및 인원 증가
 다양한 관점에 따른 데이터 요청 증가
고객의 의사결정을 돕는 컨텐츠 기능개발
ex. 개인 맞춤 추천 서비스
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Pipeline Architecture
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Collection
유형별 분류
1. 로그 데이터
User Action Event Log, 고객센터 CTI‧Call Log, 서버
로그 …
2. 운영 / 상품 데이터
상품 주문, 적립금 관리, 카테고리 관리 …
3. 통계 데이터
Google Analytics, App Report,
Marketing Report
주기별 분류
1. 기간별 (Iteration)
Daily, Weekly, Monthly..
2. 실시간성 (Realtime)
사용자 클릭/ 주문 정보 등
수집 데이터 분류
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Collection
Data Lake Needs Definition
1. 수집 데이터는 한 곳에 저장해야한다.
2. 저장 & 처리 공간이 유연(Scalable) 해야 한다.
3. 데이터 생애 주기(Data LifeCycle) 정의가 가능해야한다.
4. 안정적으로 서비스가 운영되어야 한다.
(운영용, 통계용 DB Computing Resource 분리)
5. 데이터 관련 다양한 솔루션들과 호환이 쉬워야 한다.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Collection
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Collection
RDS(Aurora) Replication Server & Custom Endpoint
Contents DB Replication DB
=>동시다발적인 데이터 요청에도 운영 서비스에 영향을 미치지 않고 동작
Database 워크로드 분산 및 로드밸런싱
Aurora-Cluster
Replication Server
Custom Endpoint
Replication Server
Replication Server
Write
Read
Read
Read
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Infrastructure
Before - Jupyter Server on Single Instance
• 처리하고자 하는 데이터의 사이즈가 제한적임
• 컴퓨팅 리소스의 한계로 인한 처리 시간 문제
• 팀원이 늘어나면서 한계 상황이 가속화 됨
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Infrastructure
Before - Jupyter Server on Single Instance
• 처리하고자 하는 데이터의 사이즈가 제한적임
• 컴퓨팅 리소스의 한계로 인한 처리 시간 문제
• 팀원이 늘어나면서 한계 상황이 가속화 됨
After - EMR(Elastic MapReduce)
• Amazon EMR은 관리형 하둡 프레임워크
• 유연한 메모리, 저장공간, 컴퓨팅 리소스
• 가상화 플랫폼 docker를 이용한 팀원별
개발환경 제공
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Infrastructure
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Infrastructure
EMR – Jupyter Hub
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Infrastructure
EMR - Zeppelin EMR - Ganglia
Schedule Job Cluster Monitor System
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Deploy Architecture
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Deploy Data Warehouse & BI
End-User - 사내수요자
• EMR 배치작업을 통해 처리된 데이터를 시각화
• 전체 프로세스 및 업데이트 자동화 영역
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Deploy Data Warehouse & BI
AWS QuickSight Power BI
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Deploy service(AI)
End-User - 고객
• 빅데이터 처리 및 AI영역 강화를 통해 개인화 맞춤추천 등 고객의사결정을 도울 수 있는 컨텐츠 제공
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
조직 내 데이터 활용 활성화
1. 데이터 공급 자동화
• 다양한 형태의 대시보드 제공
Ex) BI, 스프레드시트, Excel …
2. 데이터 추출 템플릿화
• 재사용 가능하고 다양한 관점에서 분석 할 수 있는 컬럼구성
• 분석자가 직접 추출할 수 있는 템플릿제공
3. 추출/분석도구 활용 교육
• SQL 교육 (최소한 데이터 조건, 쉬운 것 부터..)
• BI Tool 활용법 교육 (BI Tool 접근성 & 난이도 낮추기)
• MSExcel교육
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Pipeline Architecture
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Lessons Learned
정석 vs. 속도1
• 저희가 ‘정석’은 아닙니다.
• 스타트업에게 중요한 것은 속도 & 효율 & 커뮤니케이션.
• 정석을 추구해야하지만, 조직 규모에 맞는 환경을 빠르게 구현하는 것이 중요
스타트업은 데이터 파이프라인 구축도 ‘린’하게2
• 개발 조직(데이터팀) 성장 단계에 기능을 순차적으로 구현하는 것도 중요
• 4개월 간 수 많은 시도와 시행 착오, 현재도 ‘린’ 하게 데이터파이프라인 구축 진행
데이터를 가지고 이야기하는 문화3
• 분석자가 누구에게 요청하지 않고 스스로 추출하고, 분석하는 분위기 만들기
• 데이터에 기반한 의사 결정 구조와 조직문화를 만드는 것이 무엇보다 중요
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Achievements
유저 데이터 분석 & 퍼널 개선 개인 맞춤 추천 서비스
1차
2차1차
2차
추천 컨텐츠 클릭 전환율 80% 상승구매 전환율 30% 상승 / 서비스 이탈율 40% 감소
(2018)
감사합니다!
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.

데이터의 힘, 스타트업의 생존을 넘어 성장으로 - 김용대 사업개발 담당, AWS / 박재영 CTO, 크몽 :: AWS Summit Seoul 2019

  • 1.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 데이터의 힘, 스타트업 생존을 넘어 성장으로 김용대, 사업개발 담당, AWS 박재영, CTO, 크몽
  • 2.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.  데이터  데이터의 힘  강력한 분석 플랫폼을 만들려면  좋은 데이터 파이프라인 구축 사례들  AWS 데이터 레이크 컴포넌트  크몽(Kmong) 데이터 분석 파이프라인 구축 및 성과
  • 3.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.
  • 4.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 데이터는 모든 기업들의 핵심 전략 자원 *Copyright: The Economist, 2017, David Parkins 세계에서 가장 돈이 되는 자원은 *Copyright: The Economist, 2017, David Parkins
  • 5.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 의 테크놀로지 기업의 성장 시가 총액 상위 5개 회사* 2001 2006 2011 2016 2018 $1.091T $406B $446B $406B $582B $976B $365B $383B $556B $383B $877B $272B $327B $277B $452B $839B $261B $293B $237B $364B $523B $260B $273B $228B $228B
  • 6.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 아직도 데이터는 비용이라고? No 기업 핵심 자산 시간이 지나면 그냥 버리는 것은 이제 그만 다양한 유저가 사용할 수 있도록 만들어야 다양한 데이터 프로세싱 기술 적용이 가능해야 © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 7.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 데이터를 활용한 지속적 발전 훌륭한 의사 결정 좋은 서비스더 많은 고객 더 많은 데이터 AWS 기반의 데이터레이크 Data WH Machine learning Real-time analytics
  • 8.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 9.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 우리가 데이터로 할 수 있는 것 들이 무엇인지 다시 한번 생각해 봅시다
  • 10.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. This is data © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 11.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. This is data
  • 12.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. 고객과의 접점에서 데이터는 더욱 효율적으로 활용 © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 13.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Rethinking data: Example #1
  • 14.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Rethinking data: Example #2 © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 15.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 데이터에 대한 새로운 접근도 필요하지만 직관적인 리포팅 기존 분석 방식도 개선/발전
  • 16.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 17.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터를 가장 잘 분석하기 위한 어플리케이션은 ? © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 18.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 다양하고 진화하는 분석 요구사항들 데이터의 다양성과 데이터의 용량이 급속하게 증가하고 있음 분산되고 이질적인 데이터의 통합 안전한 방식으로 모든 유저가 데이터에 접근 가능 분석에 대한 니즈가 배치 리포트에서 점차 실시간, 예측으로 확대 어플리케이션에서 음성, 이미지 인식, IoT 활용이 통합되고 있음
  • 19.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data every 5 years 분석해야 하는 years live for Data platforms need to scalegrows
  • 20.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 그 어느 때보다
  • 21.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 그 어느 때보다 빠르게 발전하는 Hadoop Elasticsearch Years ago 11 8 5 4 Presto Spark Didn’t exist
  • 22.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.S U M M I T Single of Truth - AWS 데이터 레이크 데이터를 모으는 모든 기술 지원 용량에 제한이 없음 Exabyte scale 강력한 보안 컴플라이언스 감사 모니터링 모든 방식의 애널리틱 가능 데이터의 이동이 필요없이 다양한 방식 적용 최적화된 자원 활용 저장소와 컴퓨팅 리소스를 독립적으로 확장 가능 최소의 비용으로 운영 최적의 저장소 S3와 서버리스 기술 Redshift EMR Athena AI Services ElasticsearchKinesis Snowball Kinesis Video Streams Kinesis Data Streams Kinesis Data Firehose Snowmobile
  • 23.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. AWS 데이터레이크 멀티테넌트 Security S3 Analyze & infer Redshift EMR Athena AI Services Elasticsearch Service Kinesis Discover AWS Glue Snowball Snowmobile Kinesis Data Firehose Direct Connect Kinesis Data Streams Database Migration Service Ingest
  • 24.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 같은 데이터를 다양한 관점으로 분석 요구사항에 적합한 최적의 툴 사용 Data Lake on AWS Redshift EMR Athena Kinesis Sage Maker 범용 데이터 포맷과 모든 레벨로 접근 가능한 API 제공 중복 제거, 통합 단일 저장소와 데이터 변환 툴 제공 통합된 접근 제어 데이터 거버넌스 한번 만든 플랫폼은 오랫동안 지속되지만, 분석 관련 기술은 엄청난 속도로 혁신 빠르게 실험하고 쉽게 적용 가능한 다양한 Managed 서비스
  • 25.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 26.
    당면 과제 지속적인 게이머참여 및 유지를 위해 게임 개발자에게 지속적인 플레이어 피드백을 제공하는 루프를 만들어야 합니다. 세계에서 가장 인기있는 게임을 만들기 위해 게이머의 만족도를 실시간으로 파악하여 게이머의 참여를 보장해야 합니다. Fortnite | 1억2천5백만+ 게이머
  • 27.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Epic Games – 유연한 데이터 레이크 분석 플랫폼 모든 분석 플랫폼이 AWS에서 운영 S3를 통한 데이터 레이크 구축 다양한 유형의 데이터를 Kinesis를 통해 수집 Spark를 활용한 실시간 분석 대규모 데이터처리에 EMR 활용 게임디자이너의 의사결정에 데이터 활용 Game clients Game servers Launcher Game services N E A R R E A L T I M E P I P E L I N E N E A R R E A L T I M E P I P E L I N E Grafana Scoreboards API Limited Raw Data (real time ad-hoc SQL)User ETL (metric definition) Spark on EMR DynamoDB NEAR REALTIME PIPELINES BATCH PIPELINES ETL using EMR Tableau/BI Ad-hoc SQL S3 (Data Lake) Kinesis APIs Databases S3 Other sources
  • 28.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Equinox 는 운동, 영양 및 재생을 중심으로 다양한 라이프 스타일 및 건강 관리를 제공하기 위해 요가, 필라테스, 스파, 헬스 클럽, 호텔 및 레스토랑을 운영하는 기업입니다. Equinox 는 Apple Health와 연결하고 운동 장비에 데이터 수집 기능을 갖춘 어플리케이션을 사용하여 연결된 경험을 제공합니다. 미국, 런던 및 캐나다의 모두 주요 도시 내 200개 이상의 로케이션 운영
  • 29.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 직관적이고 생산성 높은 데이터 파이프라인 구축 Amazon EMR (Glue ETL) S3 Glue Data Catalog Redshift (Spectru m) S3 Athena(ad-hoc query) Reporting Sagemak er
  • 30.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 31.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Business intelligence & machine learning Data movement AWS DMS | Snowball | Snowmobile | Kinesis Data Firehose | Kinesis Data Streams Amazon QuickSight (BI) Relational databases Amazon RDS Aurora Data lake Amazon S3/ Amazon Glacier (Storage) AWS Glue (ETL & Data Catalog) Amazon SageMaker (ML) Macie (Data Protection) Non-relational databases Analytics DynamoDB (Key value/Document) ElastiCache (Redis, Memcached) DW | Big data processing | Ad hoc Amazon Redshift Amazon EMR Athena Kinesis Data Analytics Amazon ES Real-time AWS 데이터레이크 서비스 다양한 목적에 맞는 폭넓은 전문적인 서비스 제공
  • 32.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 가장 실용적인 솔루션 - 서버리스 애널리틱 빠르게 가성비 높은 분석 솔루션 구축 S3 Data lake AWS Glue (ETL & Data Catalog) Athena Amazon QuickSight 서버리스 인프라 구축 X 인프라 운영 X 작업이 돌지 않는 동안에는 비용이 제로 $ 시스템 장애에 대한 걱정이 없는 사용 워크로드에 맞춰 자동적으로 리소스 확장 Kinesis Devices Web Sensors Social
  • 33.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon S3 — 데이터 저장소 보안과 컴플라이언스 3가지의 다른 형태의 암호화기능을 제공; 리전 간 전송시에도 데이터 암호화 전송; CloudTrail로 로그 및 모니터링하며, ML 기반 Macie 로 민감 데이터를 찾아내고 보호할 수 있음 유연한 관리 데이터 사용 트랜드를 분류,보고 및 시각화; 오브젝트에 태그를 붙여 스토리지 사용과 비용 및 보안을 확인가능; 보관기간 및 Tiering 을 자동화하는 수명주기관리 정책 작성 내구성, 가용성과 확장성 99.999999999%의 내구성 설계; 데이터는 AWS Region 내부에 3곳의 물리적 공간에 분산 저장됨; 자동으로 다른 AWS Region 에 복제 구성 가능 즉각적인 쿼리수행 데이터 이전 없이 DataLake 에서 분석 및 ML을 실행할 수 있음; S3 Select 를 사용해서 데이터의 하위 집합을 검색하고 분석 퍼포먼스를 400% 증가할 수 있음
  • 34.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS Glue – 데이터 카탈로그 데이터를 쉽게 찾고 관리할 수 있게 함 Data Source : S3, JDBC 호환 Database 크롤러는 자동적으로 데이터 스키마를 찾아서 저장 데이터의 검색과 ETL 작업을 가능 테이블 스키마 정보와 컬럼 레벨 통계 정보를 포함 데이터 분포와 통계정보를 활용하여 쿼리 성능 향상 Glue 데이터 카탈로그 데이터를 탐색하여 스키마 정보 추출
  • 35.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. AWS Glue - ETL 서비스 Job 스크립트 작성과 실행을 쉽게 도와줌 서버리스 데이터 변환작업 Apache Spark 기반 클릭 몇번으로 생성되는 ETL code 수정 / 추가가 가능한 PySpark과 Scala 코드 반복 일정과 이벤트에 따른 Job 스케줄링 Zeppelin, PyCharm 등 익숙한 환경에서 수정, 디버그, 테스트가 가능하도록 Dev Endpoint 제공 Sample ETL Codes : https://github.com/awslabs/aws-glue-samples
  • 36.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Athena — Ad Hoc 및 인터랙티브 분석 표준SQL을 사용해서 Amazon S3의 데이터를 분석하는 대화식 쿼리 서비스 설정 및 관리해야 할 인프라도 없으며, 로드 해야할 데이터도 없음 Amazon Glacier 에 보관된 데이터에 대해 SQL 쿼리를 실행할 수 있음 즉각적인 Query 셋업 비용이 들지 않음; S3를 바로 지정하고 쿼리를 수행하면 됨 SQL 개방 ANSI SQL 인터페이스, JDBC/ODBC 드라이버, 다양한 포멧, 압축 유형, 복잡한 조인 및 데이터 타입 손쉬운 사용 서버리스: 인프라 없음, 관리 불필요 QuickSight 와 통합 Query 당 비용 쿼리 실행에 대해서만 지불; 압축을 통해서 쿼리당 30–90% 비용 절감 가능 $
  • 37.
    QuickSight를 통해 사용자는대시보드를 통해 쉽게 데이터와 분석 결과를 공유할 수 있으며, 다양한 디바이스에서 스토리 보드에 접근 가능 분석 분석에서 데이터를 시각적으로 탐색하는 것은 매우 중요합니다. 사용자가 쉽게 다양한 방식으로 시각화 할 수 있고, 협업 할 수 있도록 도와줍니다. 스토리보드 디바이스에 상관없이 스토리 보드를 통해 분석 결과를 공유하세요 대시보드 여러분의 분석 결과물을 대시보드 형태로 공유 할 수 있습니다. 뷰어 모드로 사용하는 고객에게는 세션별 과금 정책으로 매우 저렴하게 사용 가능합니다. 분석, 협업, 대시보드 - Amazon QuickSight
  • 38.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. AWS Lake Formation (preview 버젼으로 사용가능) 단, 며칠 이내에 데이터 레이크 구축이 가능한 수개월이 아닌 단, 며칠만에 데이터 레이크 구축 몇가지 클릭과 설정으로 만들어지는 데이터 레이크 솔루션 다양한 서비스와 레벨로 보안 정책을 수립 관리 한 곳에서 데이터에 대한 보안, 관리 및 감사 정책을 모두 정의하고 관리 가능 다양한 분석 방법으로 통합된 데이터 카탈로그에 접근 모든 카탈로그를 관리, 분석가와 데이터 과학자가 쉽게 검색 가능, 모든 데이터에 대한 안전한 접근을 보장
  • 39.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 데이터의 힘 스타트업 생존을 넘어 성장으로 박재영 크몽 CTO
  • 40.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Freelancer Market,
  • 41.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Kmong’s Growth GMV
  • 42.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Kmong’s Growth x4 Member 99 Team 10 Member25 Team 4 2018년 1월 Present
  • 43.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 44.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Intro to Kmong Data Team 2018.1 최초 팀 빌딩 • 1 Data Analyst 현재 팀원 구성 • 1 Data Analyst • 1 Server Engineer • 1 Deep Learning / Modeler Present 1. Team Building
  • 45.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Kmong Data Team is Doing 2. 주요 업무 Data Infra • 파이프라인 구축 및 자동화 • 서버엔지니어링 • 관련 솔루션 도입 • 자동화 등 Analysis • KPI 정의 및 관리 • 지표정의 • BI Tool 도입 • Ad-Hoc Analysis • • 고객 세그멘테이션 • 고객행동/퍼널 분석 • 마케팅효율 분석 등 Big Data / AI • ML / DL • 개인맞춤추천 등 Personalized Service Contents 개발
  • 46.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 47.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Startup & Data 스타트업에게 데이터란? 2016 1.59 PB 1.45 PB 11.31 PB 9.70 PB 2018 약 7배 글로벌 한국 기업별 평균 데이터 보유량 급증 약 20배 크몽 데이터 보유량의 변화 1TB 20TB
  • 48.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Startup & Data 스타트업에게 데이터란? Business • 경영 지표 • 사업운영 지표 • 서비스 개발 • 상품 개발 Development • 이용자 행동 관련 지표 • 퍼널 분석 • 전환/이탈 Marketing • 유입 채널 분석 • 광고 효율 “성장” Management MarketerUX Architect Product Manager Data Analytist Growth Manager CX Manager
  • 49.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Demands on Data 데이터 수요자 조직 내부 고객 회사의 성장에 따른 팀 및 인원 증가  다양한 관점에 따른 데이터 요청 증가 고객의 의사결정을 돕는 컨텐츠 기능개발 ex. 개인 맞춤 추천 서비스 크몽데이터팀이슈 1. 적은 규모의 데이터팀 (1~3인) 2. 반복적이고 비슷한 유형의 데이터 요청 3. 데이터 요구량과 비례하는 커뮤니케이션 비용 증가
  • 50.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Demands on Data 데이터 수요자 조직 내부 고객 회사의 성장에 따른 팀 및 인원 증가  다양한 관점에 따른 데이터 요청 증가 고객의 의사결정을 돕는 컨텐츠 기능개발 ex. 개인 맞춤 추천 서비스 Data pipeline 구축 빠르고 효율적인 데이터기반 의사결정 환경 도구 문화
  • 51.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Demands on Data Data pipeline 구축 빠르고 효율적인 데이터기반 의사결정 환경 도구 문화 데이터 팀 역량 집중 고객 대응 및 데이터 엔지니어링 역량 강화 빅데이터 처리 및 분석 ML/DL 데이터 수요자 조직 내부 고객 회사의 성장에 따른 팀 및 인원 증가  다양한 관점에 따른 데이터 요청 증가 고객의 의사결정을 돕는 컨텐츠 기능개발 ex. 개인 맞춤 추천 서비스
  • 52.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 53.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Pipeline Architecture
  • 54.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Collection 유형별 분류 1. 로그 데이터 User Action Event Log, 고객센터 CTI‧Call Log, 서버 로그 … 2. 운영 / 상품 데이터 상품 주문, 적립금 관리, 카테고리 관리 … 3. 통계 데이터 Google Analytics, App Report, Marketing Report 주기별 분류 1. 기간별 (Iteration) Daily, Weekly, Monthly.. 2. 실시간성 (Realtime) 사용자 클릭/ 주문 정보 등 수집 데이터 분류
  • 55.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Collection Data Lake Needs Definition 1. 수집 데이터는 한 곳에 저장해야한다. 2. 저장 & 처리 공간이 유연(Scalable) 해야 한다. 3. 데이터 생애 주기(Data LifeCycle) 정의가 가능해야한다. 4. 안정적으로 서비스가 운영되어야 한다. (운영용, 통계용 DB Computing Resource 분리) 5. 데이터 관련 다양한 솔루션들과 호환이 쉬워야 한다.
  • 56.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Collection
  • 57.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Collection RDS(Aurora) Replication Server & Custom Endpoint Contents DB Replication DB =>동시다발적인 데이터 요청에도 운영 서비스에 영향을 미치지 않고 동작 Database 워크로드 분산 및 로드밸런싱 Aurora-Cluster Replication Server Custom Endpoint Replication Server Replication Server Write Read Read Read
  • 58.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Infrastructure Before - Jupyter Server on Single Instance • 처리하고자 하는 데이터의 사이즈가 제한적임 • 컴퓨팅 리소스의 한계로 인한 처리 시간 문제 • 팀원이 늘어나면서 한계 상황이 가속화 됨
  • 59.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Infrastructure Before - Jupyter Server on Single Instance • 처리하고자 하는 데이터의 사이즈가 제한적임 • 컴퓨팅 리소스의 한계로 인한 처리 시간 문제 • 팀원이 늘어나면서 한계 상황이 가속화 됨 After - EMR(Elastic MapReduce) • Amazon EMR은 관리형 하둡 프레임워크 • 유연한 메모리, 저장공간, 컴퓨팅 리소스 • 가상화 플랫폼 docker를 이용한 팀원별 개발환경 제공
  • 60.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Infrastructure
  • 61.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Infrastructure EMR – Jupyter Hub
  • 62.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Infrastructure EMR - Zeppelin EMR - Ganglia Schedule Job Cluster Monitor System
  • 63.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Deploy Architecture
  • 64.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Deploy Data Warehouse & BI End-User - 사내수요자 • EMR 배치작업을 통해 처리된 데이터를 시각화 • 전체 프로세스 및 업데이트 자동화 영역
  • 65.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Deploy Data Warehouse & BI AWS QuickSight Power BI
  • 66.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Deploy service(AI) End-User - 고객 • 빅데이터 처리 및 AI영역 강화를 통해 개인화 맞춤추천 등 고객의사결정을 도울 수 있는 컨텐츠 제공
  • 67.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. 조직 내 데이터 활용 활성화 1. 데이터 공급 자동화 • 다양한 형태의 대시보드 제공 Ex) BI, 스프레드시트, Excel … 2. 데이터 추출 템플릿화 • 재사용 가능하고 다양한 관점에서 분석 할 수 있는 컬럼구성 • 분석자가 직접 추출할 수 있는 템플릿제공 3. 추출/분석도구 활용 교육 • SQL 교육 (최소한 데이터 조건, 쉬운 것 부터..) • BI Tool 활용법 교육 (BI Tool 접근성 & 난이도 낮추기) • MSExcel교육
  • 68.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Data Pipeline Architecture
  • 69.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 70.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Lessons Learned 정석 vs. 속도1 • 저희가 ‘정석’은 아닙니다. • 스타트업에게 중요한 것은 속도 & 효율 & 커뮤니케이션. • 정석을 추구해야하지만, 조직 규모에 맞는 환경을 빠르게 구현하는 것이 중요 스타트업은 데이터 파이프라인 구축도 ‘린’하게2 • 개발 조직(데이터팀) 성장 단계에 기능을 순차적으로 구현하는 것도 중요 • 4개월 간 수 많은 시도와 시행 착오, 현재도 ‘린’ 하게 데이터파이프라인 구축 진행 데이터를 가지고 이야기하는 문화3 • 분석자가 누구에게 요청하지 않고 스스로 추출하고, 분석하는 분위기 만들기 • 데이터에 기반한 의사 결정 구조와 조직문화를 만드는 것이 무엇보다 중요
  • 71.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Achievements 유저 데이터 분석 & 퍼널 개선 개인 맞춤 추천 서비스 1차 2차1차 2차 추천 컨텐츠 클릭 전환율 80% 상승구매 전환율 30% 상승 / 서비스 이탈율 40% 감소 (2018)
  • 72.
    감사합니다! © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.