SlideShare a Scribd company logo
1 of 20
Download to read offline
MS 빅데이터 서비스 및
게임사 PoC 사례 소개
This content was developed prior to the product’s release to manufacturing, and as such, we cannot guarantee that all details included herein
will be exactly as what is found in the shipping product. Because Microsoft must respond to changing market conditions, it should not be
interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the
date of publication. The information represents the product at the time this document was printed and should be used for planning purposes
only. Information subject to change at any time without prior notice.
 빅데이터란 무엇인가?
 Why?  Azure Managed 서비스 소개
 PoC 목표
 PoC 결과
 To-Be 개선 방안 제언
• 가트너의 정의 (2012년)
 “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및
통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.”
• 빅데이터의 특징 -3 Vs of extreme scale
 Volume : The data exceeds the physical limits of vertical scalability, implying a scale out solution
 수직적 확장에 한계가 있는 대규모 데이터
 Velocity : The decision window is small compared with the data change rate
 데이터 빠른 변화로 의사 결정 시간이 매우 짧음
 Variety : Many different formats make integration difficult and expensive
 다양한 데이터 포맷으로 통합의 난이도 및 비용이 높음
빅데이터란 무엇인가?
빅데이터 유형
Big data
Log files
Data market feeds
Text/image
Click stream
Wikis/blogs
Sensors/RFID/
devices
Social sentiment
Web 2.0
빅데이타 정의와 아파치 하둡
Machine Learning
and Analytics
(예시) Big Data as part of Cortana Intelligence
Action
People
Automated
Systems
Apps
Web
Mobile
Bots
Intelligence
Dashboards &
Visualizations
Cortana
Bot
Framework
Cognitive
Services
Power BI
Information
Management
Event Hubs
Data Catalog
Data Factory
Intelligence
Stream Analytics
HDInsight
(Hadoop & Spark)
Big Data Stores
Data Lake Store
SQL Data
Warehouse
Data
Sources
Apps
Sensors
and
devices
Data
Data Lake Analytics
Machine Learning
< Apache Hadoop Ecosystem >
아파치 하둡 에코 시스템과 Azure HDInsight
Microsoft’s managed Hadoop as a Service
100% open source Apache Hadoop
Built on the latest releases across Hadoop (2.6)
 향후에도 빠르게 개선되고 있는 하둡 에코 시스템의 최신 버전 활용
 검증된 배포판
Up and running in minutes with no hardware to deploy
 필요한 시점에 바로 배포하여 사용 / Opex vs. Capex / 비용 절감
Hadoop Meets the Cloud
Why HDInsight?
HDInsight 지원 클러스터 유형 및 용도
HDInsight는 4가지 대표적인 아파치 빅데이터 플랫폼을 Managed
형태로 제공하는 MS의 빅데이터 서비스 (호튼웍스 배포판 기반)
1. Hadoop : 배치
2. HBase : NoSQL
3. Storm : 실시간 스트리밍
4. Spark : 배치 & 스트리밍 & 머신러닝
HDInsight – Spark 클러스터 구성 (예시)
< HDInsight Spark 클러스터 구성 화면 >
< HDInsight Spark 클러스터 포탈 >
• 고객사 현황
On-Prem과 클라우드를 혼용하여 게임 로그 데이터 분석을 수행 중
Hadoop 환경에서 맵리듀스 어플리케이션 / 머신러닝 사용
고객사 로그 데이터 분석 현황
PoC 목표 (1/2)
(1) 로그 데이터 분석 인프라 운영 환경 개선
Apache Drill 및 Spark 적용으로 분석 성능 개선
 하둡 외 추가적인 분석 플랫폼 옵션 및 분석 시간 감소
분석 요건 및 데이터량에 따른 유연한 분석 인프라 환경 구축
 분석 요건에 따른 유연한 인프라 구성(scale-out/in)으로
분석 목표 시간 개선 및 비용 절감 (분당 사용량 기반 과금)
PoC 목표 (2/2)
(2) 쿼리 기반 로그 데이터 분석 환경 구축
사내 데이터 전문가들을 위한 쿼리 기반 로그 데이터 분석 환경 제공
DB 쿼리 환경에 익숙한 사내 데이터 전문가에게 로그 데이터 분석 환
경 제공하여 접근성 개선 및 이에 따른 분석 리드 타임 감소
Power BI / 엑셀 등을 활용한 현업 사용자 통계 분석 환경 제공
보고서 및 대시보드 지원 (시각화)
PoC 결과
1. 클러스터 내 데이터 노드 수 증가(스케일 아웃)에 따른 성능 개선
 저용량 데이터의 경우, 스케일 아웃에 따른 성능 효과는 없음 (HDFS small data issue)
 대용량 데이터의 경우(5번 쿼리), CPU 성능이 높아질 수록 처리 시간이 크게 개선됨
(D 시리즈 기준으로 8 Core 당 약 15% 처리 시간이 선형적으로 개선)
2. 스케일업과 스케일아웃에 따른 성능 비교
 총 Core 수가 동일한 경우, 스케일업과 스케일아웃 간의 성능 차이는 없음
(D12 v2 vs. D13 v2 vs. D14 v2 간 비교)
3. VM Type 중 A시리즈와 D시리즈와의 성능 비교
 A 시리즈와 D v2 시리즈 간의 가격 차이와 테스트 성능 결과 차이를 고려하면 D 시리즈가 비용 대비
효과적임
4. Parquet 파일 성능
 대용량 파일에 대한 쿼리 기준으로 최소 40배 (Spark) / 70배 (Drill) 이상의 성능 개선
 추가적인 ETL을 고려 필요 (PoC용 데이터 기준 31분)
성능 테스트 결과 요약
로그
DBA 및 현업 사용자 로그 분석 시나리오
현업 사용자
DBA SQL Client
Power BI
분석
엑셀 Power
Pivot 분석
SQL
Query
화면 개발
분석용
Query
1
2
3
* 향후 요건에 따라 RDBMS 적용 고려
• PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다.
To-Be 개선 방안 제언 (1/2)
1. Managed 서비스 기반의 SQL on Hadoop 및 Parquet 파일 적용
 현행 로그 분석 시스템 개발 시, 간편한 SQL과 업무 로직 코드 조합을 통해 개발 생산성 향상
 분석 시간 감소 및 분단위 과금으로 비용 절감
 SQL on Hadoop 및 Partquet 파일을 활용한 데이터 분석 시간 감소
 분단위 과금 / 유연한 클러스터 운영 (Pay as you go, 스케일인/아웃, 클러스터 배포/삭제 스케쥴링)
 Managed 서비스 기반의 클러스터 운영으로 효율적인 관리 가능
 향후 업데이트된 클러스터 버전에 대한 간편한 적용
• PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다.
To-Be 개선 방안 제언 (2/2)
2. 쿼리 기반 분석 환경 제공으로 로그 데이터 접근성 확대
 사내 전문가(DBA / 현업 전문가)의 로그 데이터 접근성 개선 및 이에 따른 분석 리드 타임 감소
 로그 데이터의 기본 분석 지원 부담은 감소시키고 고급 분석에 업무 집중 가능
3. 분석 결과에 대한 시각화(Visualization) 기능 강화
 보고서 및 대시보드를 활용하여 분석 결과를 편리하게 사내 공유
 외부 분석 서비스 제공 시, 효과적인 도구로 활용 가능
MS 빅데이터 서비스 및 게임사 PoC 사례 소개

More Related Content

What's hot

DXの加速化に力を与えるSQL Serverのモダナイズのオプションを一挙にご紹介
DXの加速化に力を与えるSQL Serverのモダナイズのオプションを一挙にご紹介DXの加速化に力を与えるSQL Serverのモダナイズのオプションを一挙にご紹介
DXの加速化に力を与えるSQL Serverのモダナイズのオプションを一挙にご紹介
Microsoft
 
Mongodb 특징 분석
Mongodb 특징 분석Mongodb 특징 분석
Mongodb 특징 분석
Daeyong Shin
 
45分で理解する SQL Serverでできることできないこと
45分で理解する SQL Serverでできることできないこと45分で理解する SQL Serverでできることできないこと
45分で理解する SQL Serverでできることできないこと
Insight Technology, Inc.
 

What's hot (20)

글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
 
엘라스틱서치 클러스터로 수십억 건의 데이터 운영하기
엘라스틱서치 클러스터로 수십억 건의 데이터 운영하기엘라스틱서치 클러스터로 수십억 건의 데이터 운영하기
엘라스틱서치 클러스터로 수십억 건의 데이터 운영하기
 
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
 
Azure Cosmos DB のキホンと使いドコロ
Azure Cosmos DB のキホンと使いドコロAzure Cosmos DB のキホンと使いドコロ
Azure Cosmos DB のキホンと使いドコロ
 
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
PCI DSSにおける認証認可 インフラ編
PCI DSSにおける認証認可 インフラ編PCI DSSにおける認証認可 インフラ編
PCI DSSにおける認証認可 インフラ編
 
대용량 분산 아키텍쳐 설계 #1 아키텍쳐 설계 방법론
대용량 분산 아키텍쳐 설계 #1 아키텍쳐 설계 방법론대용량 분산 아키텍쳐 설계 #1 아키텍쳐 설계 방법론
대용량 분산 아키텍쳐 설계 #1 아키텍쳐 설계 방법론
 
AWSで作る分析基盤
AWSで作る分析基盤AWSで作る分析基盤
AWSで作る分析基盤
 
V sphere 7 update 3 へのアップグレードについて
V sphere 7 update 3 へのアップグレードについてV sphere 7 update 3 へのアップグレードについて
V sphere 7 update 3 へのアップグレードについて
 
いまさら聞けないPostgreSQL運用管理
いまさら聞けないPostgreSQL運用管理いまさら聞けないPostgreSQL運用管理
いまさら聞けないPostgreSQL運用管理
 
DXの加速化に力を与えるSQL Serverのモダナイズのオプションを一挙にご紹介
DXの加速化に力を与えるSQL Serverのモダナイズのオプションを一挙にご紹介DXの加速化に力を与えるSQL Serverのモダナイズのオプションを一挙にご紹介
DXの加速化に力を与えるSQL Serverのモダナイズのオプションを一挙にご紹介
 
[pgday.Seoul 2022] PostgreSQL with Google Cloud
[pgday.Seoul 2022] PostgreSQL with Google Cloud[pgday.Seoul 2022] PostgreSQL with Google Cloud
[pgday.Seoul 2022] PostgreSQL with Google Cloud
 
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
 
커머스 스타트업의 효율적인 데이터 분석 플랫폼 구축기 - 하지양 데이터 엔지니어, 발란 / 강웅석 데이터 엔지니어, 크로키닷컴 :: AWS...
커머스 스타트업의 효율적인 데이터 분석 플랫폼 구축기 - 하지양 데이터 엔지니어, 발란 / 강웅석 데이터 엔지니어, 크로키닷컴 :: AWS...커머스 스타트업의 효율적인 데이터 분석 플랫폼 구축기 - 하지양 데이터 엔지니어, 발란 / 강웅석 데이터 엔지니어, 크로키닷컴 :: AWS...
커머스 스타트업의 효율적인 데이터 분석 플랫폼 구축기 - 하지양 데이터 엔지니어, 발란 / 강웅석 데이터 엔지니어, 크로키닷컴 :: AWS...
 
Mongodb 특징 분석
Mongodb 특징 분석Mongodb 특징 분석
Mongodb 특징 분석
 
45分で理解する SQL Serverでできることできないこと
45分で理解する SQL Serverでできることできないこと45分で理解する SQL Serverでできることできないこと
45分で理解する SQL Serverでできることできないこと
 
Part 5: "製品の変革" を支える基盤サービス (製造リファレンス・アーキテクチャ勉強会)
Part 5: "製品の変革" を支える基盤サービス (製造リファレンス・アーキテクチャ勉強会)Part 5: "製品の変革" を支える基盤サービス (製造リファレンス・アーキテクチャ勉強会)
Part 5: "製品の変革" を支える基盤サービス (製造リファレンス・アーキテクチャ勉強会)
 

Similar to MS 빅데이터 서비스 및 게임사 PoC 사례 소개

OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oce
uEngine Solutions
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
문기 박
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
Wooseung Kim
 
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
영욱 김
 

Similar to MS 빅데이터 서비스 및 게임사 PoC 사례 소개 (20)

DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oce
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
MSA(Service Mesh), MDA(Data Mesh), MIA(Inference Mesh) 기술동향 소개-박문기@메ᄀ...
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
Azure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBAzure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDB
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
 
SiSense 사이센스 True Agile BI 솔루션
SiSense 사이센스 True Agile BI 솔루션SiSense 사이센스 True Agile BI 솔루션
SiSense 사이센스 True Agile BI 솔루션
 
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
[오픈소스컨설팅]유닉스의 리눅스 마이그레이션 전략_v3
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개
 
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
 
2011 메타마이닝 회사소개서(최신)
2011 메타마이닝 회사소개서(최신)2011 메타마이닝 회사소개서(최신)
2011 메타마이닝 회사소개서(최신)
 
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
20160511 azure를 기반으로한 인공지능 io t 생태계 구축 전략
 

More from I Goo Lee

More from I Goo Lee (20)

MySQL_Fabric_운영시유의사항
MySQL_Fabric_운영시유의사항MySQL_Fabric_운영시유의사항
MySQL_Fabric_운영시유의사항
 
MySQL Deep dive with FusionIO
MySQL Deep dive with FusionIOMySQL Deep dive with FusionIO
MySQL Deep dive with FusionIO
 
From MSSQL to MySQL
From MSSQL to MySQLFrom MSSQL to MySQL
From MSSQL to MySQL
 
From MSSQL to MariaDB
From MSSQL to MariaDBFrom MSSQL to MariaDB
From MSSQL to MariaDB
 
AWS Aurora 100% 활용하기
AWS Aurora 100% 활용하기AWS Aurora 100% 활용하기
AWS Aurora 100% 활용하기
 
Backup automation in KAKAO
Backup automation in KAKAO Backup automation in KAKAO
Backup automation in KAKAO
 
텔레그램을 이용한 양방향 모니터링 시스템 구축
텔레그램을 이용한 양방향 모니터링 시스템 구축텔레그램을 이용한 양방향 모니터링 시스템 구축
텔레그램을 이용한 양방향 모니터링 시스템 구축
 
Federated Engine 실무적용사례
Federated Engine 실무적용사례Federated Engine 실무적용사례
Federated Engine 실무적용사례
 
MySQL 상태 메시지 분석 및 활용
MySQL 상태 메시지 분석 및 활용MySQL 상태 메시지 분석 및 활용
MySQL 상태 메시지 분석 및 활용
 
MySQL 5.7 NF – Optimizer Improvement
 MySQL 5.7 NF – Optimizer Improvement MySQL 5.7 NF – Optimizer Improvement
MySQL 5.7 NF – Optimizer Improvement
 
MySQL 5.7 NF – JSON Datatype 활용
MySQL 5.7 NF – JSON Datatype 활용MySQL 5.7 NF – JSON Datatype 활용
MySQL 5.7 NF – JSON Datatype 활용
 
Intro KaKao MRTE (MySQL Realtime Traffic Emulator)
Intro KaKao MRTE (MySQL Realtime Traffic Emulator)Intro KaKao MRTE (MySQL Realtime Traffic Emulator)
Intro KaKao MRTE (MySQL Realtime Traffic Emulator)
 
AWS 환경에서 MySQL Infra 설계하기-2본론
AWS 환경에서 MySQL Infra 설계하기-2본론AWS 환경에서 MySQL Infra 설계하기-2본론
AWS 환경에서 MySQL Infra 설계하기-2본론
 
AWS 환경에서 MySQL Infra 설계하기-1도입부분
AWS 환경에서 MySQL Infra 설계하기-1도입부분AWS 환경에서 MySQL Infra 설계하기-1도입부분
AWS 환경에서 MySQL Infra 설계하기-1도입부분
 
AWS 환경에서 MySQL BMT
AWS 환경에서 MySQL BMTAWS 환경에서 MySQL BMT
AWS 환경에서 MySQL BMT
 
MySQL Slow Query log Monitoring using Beats & ELK
MySQL Slow Query log Monitoring using Beats & ELKMySQL Slow Query log Monitoring using Beats & ELK
MySQL Slow Query log Monitoring using Beats & ELK
 
MySQL Audit using Percona audit plugin and ELK
MySQL Audit using Percona audit plugin and ELKMySQL Audit using Percona audit plugin and ELK
MySQL Audit using Percona audit plugin and ELK
 
PostgreSQL 이야기
PostgreSQL 이야기PostgreSQL 이야기
PostgreSQL 이야기
 
Intro KaKao ADT (Almighty Data Transmitter)
Intro KaKao ADT (Almighty Data Transmitter)Intro KaKao ADT (Almighty Data Transmitter)
Intro KaKao ADT (Almighty Data Transmitter)
 
Binlog Servers 구축사례
Binlog Servers 구축사례Binlog Servers 구축사례
Binlog Servers 구축사례
 

MS 빅데이터 서비스 및 게임사 PoC 사례 소개

  • 1. MS 빅데이터 서비스 및 게임사 PoC 사례 소개 This content was developed prior to the product’s release to manufacturing, and as such, we cannot guarantee that all details included herein will be exactly as what is found in the shipping product. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the date of publication. The information represents the product at the time this document was printed and should be used for planning purposes only. Information subject to change at any time without prior notice.
  • 2.  빅데이터란 무엇인가?  Why?  Azure Managed 서비스 소개  PoC 목표  PoC 결과  To-Be 개선 방안 제언
  • 3. • 가트너의 정의 (2012년)  “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.” • 빅데이터의 특징 -3 Vs of extreme scale  Volume : The data exceeds the physical limits of vertical scalability, implying a scale out solution  수직적 확장에 한계가 있는 대규모 데이터  Velocity : The decision window is small compared with the data change rate  데이터 빠른 변화로 의사 결정 시간이 매우 짧음  Variety : Many different formats make integration difficult and expensive  다양한 데이터 포맷으로 통합의 난이도 및 비용이 높음 빅데이터란 무엇인가?
  • 4. 빅데이터 유형 Big data Log files Data market feeds Text/image Click stream Wikis/blogs Sensors/RFID/ devices Social sentiment Web 2.0
  • 6. Machine Learning and Analytics (예시) Big Data as part of Cortana Intelligence Action People Automated Systems Apps Web Mobile Bots Intelligence Dashboards & Visualizations Cortana Bot Framework Cognitive Services Power BI Information Management Event Hubs Data Catalog Data Factory Intelligence Stream Analytics HDInsight (Hadoop & Spark) Big Data Stores Data Lake Store SQL Data Warehouse Data Sources Apps Sensors and devices Data Data Lake Analytics Machine Learning
  • 7. < Apache Hadoop Ecosystem > 아파치 하둡 에코 시스템과 Azure HDInsight Microsoft’s managed Hadoop as a Service 100% open source Apache Hadoop Built on the latest releases across Hadoop (2.6)  향후에도 빠르게 개선되고 있는 하둡 에코 시스템의 최신 버전 활용  검증된 배포판 Up and running in minutes with no hardware to deploy  필요한 시점에 바로 배포하여 사용 / Opex vs. Capex / 비용 절감 Hadoop Meets the Cloud
  • 9. HDInsight 지원 클러스터 유형 및 용도 HDInsight는 4가지 대표적인 아파치 빅데이터 플랫폼을 Managed 형태로 제공하는 MS의 빅데이터 서비스 (호튼웍스 배포판 기반) 1. Hadoop : 배치 2. HBase : NoSQL 3. Storm : 실시간 스트리밍 4. Spark : 배치 & 스트리밍 & 머신러닝
  • 10. HDInsight – Spark 클러스터 구성 (예시) < HDInsight Spark 클러스터 구성 화면 > < HDInsight Spark 클러스터 포탈 >
  • 11.
  • 12. • 고객사 현황 On-Prem과 클라우드를 혼용하여 게임 로그 데이터 분석을 수행 중 Hadoop 환경에서 맵리듀스 어플리케이션 / 머신러닝 사용 고객사 로그 데이터 분석 현황
  • 13. PoC 목표 (1/2) (1) 로그 데이터 분석 인프라 운영 환경 개선 Apache Drill 및 Spark 적용으로 분석 성능 개선  하둡 외 추가적인 분석 플랫폼 옵션 및 분석 시간 감소 분석 요건 및 데이터량에 따른 유연한 분석 인프라 환경 구축  분석 요건에 따른 유연한 인프라 구성(scale-out/in)으로 분석 목표 시간 개선 및 비용 절감 (분당 사용량 기반 과금)
  • 14. PoC 목표 (2/2) (2) 쿼리 기반 로그 데이터 분석 환경 구축 사내 데이터 전문가들을 위한 쿼리 기반 로그 데이터 분석 환경 제공 DB 쿼리 환경에 익숙한 사내 데이터 전문가에게 로그 데이터 분석 환 경 제공하여 접근성 개선 및 이에 따른 분석 리드 타임 감소 Power BI / 엑셀 등을 활용한 현업 사용자 통계 분석 환경 제공 보고서 및 대시보드 지원 (시각화)
  • 16. 1. 클러스터 내 데이터 노드 수 증가(스케일 아웃)에 따른 성능 개선  저용량 데이터의 경우, 스케일 아웃에 따른 성능 효과는 없음 (HDFS small data issue)  대용량 데이터의 경우(5번 쿼리), CPU 성능이 높아질 수록 처리 시간이 크게 개선됨 (D 시리즈 기준으로 8 Core 당 약 15% 처리 시간이 선형적으로 개선) 2. 스케일업과 스케일아웃에 따른 성능 비교  총 Core 수가 동일한 경우, 스케일업과 스케일아웃 간의 성능 차이는 없음 (D12 v2 vs. D13 v2 vs. D14 v2 간 비교) 3. VM Type 중 A시리즈와 D시리즈와의 성능 비교  A 시리즈와 D v2 시리즈 간의 가격 차이와 테스트 성능 결과 차이를 고려하면 D 시리즈가 비용 대비 효과적임 4. Parquet 파일 성능  대용량 파일에 대한 쿼리 기준으로 최소 40배 (Spark) / 70배 (Drill) 이상의 성능 개선  추가적인 ETL을 고려 필요 (PoC용 데이터 기준 31분) 성능 테스트 결과 요약
  • 17. 로그 DBA 및 현업 사용자 로그 분석 시나리오 현업 사용자 DBA SQL Client Power BI 분석 엑셀 Power Pivot 분석 SQL Query 화면 개발 분석용 Query 1 2 3 * 향후 요건에 따라 RDBMS 적용 고려
  • 18. • PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다. To-Be 개선 방안 제언 (1/2) 1. Managed 서비스 기반의 SQL on Hadoop 및 Parquet 파일 적용  현행 로그 분석 시스템 개발 시, 간편한 SQL과 업무 로직 코드 조합을 통해 개발 생산성 향상  분석 시간 감소 및 분단위 과금으로 비용 절감  SQL on Hadoop 및 Partquet 파일을 활용한 데이터 분석 시간 감소  분단위 과금 / 유연한 클러스터 운영 (Pay as you go, 스케일인/아웃, 클러스터 배포/삭제 스케쥴링)  Managed 서비스 기반의 클러스터 운영으로 효율적인 관리 가능  향후 업데이트된 클러스터 버전에 대한 간편한 적용
  • 19. • PoC 결과를 기초로 다음과 같은 To-Be 개선 방안을 제언 드립니다. To-Be 개선 방안 제언 (2/2) 2. 쿼리 기반 분석 환경 제공으로 로그 데이터 접근성 확대  사내 전문가(DBA / 현업 전문가)의 로그 데이터 접근성 개선 및 이에 따른 분석 리드 타임 감소  로그 데이터의 기본 분석 지원 부담은 감소시키고 고급 분석에 업무 집중 가능 3. 분석 결과에 대한 시각화(Visualization) 기능 강화  보고서 및 대시보드를 활용하여 분석 결과를 편리하게 사내 공유  외부 분석 서비스 제공 시, 효과적인 도구로 활용 가능