SlideShare a Scribd company logo
Data Orchestration
SK C&C 정진욱 선임
on Multi-Cloud
목차
• Alluxio 란?
• 기능 소개
• 핵심 기능
• 추가 기능
• 성능 테스트
• Spark 테스트
• BP 테스트
• Multi-Cloud 테스트
• Use Case
2
What is Alluxio ?
3
What is Alluxio ?
4
데이터를 통합 관리하고,
메모리를 저장소로 쓰자!
Background
5
• UC Berkeley AMPLab
2012년 시작
• 2013년 open sourced
• Apache License 2.0
• 가장 빠르게 성장하는
프로젝트 커뮤니티 중 하나
• 현재 2.2.0 버전까지
릴리즈
Bigdata 환경의 진화
6
MapReduce
HDFS
Compute Layer
Storage Layer
Compute Layer
Storage Layer
Storage Layer
Compute Layer
Bigdata 환경의 진화
7
Spark
HDFS
HivePresto TensorFlow
GCPS3
Bigdata 환경의 진화
8
Storage Layer
Compute Layer
Spark
HDFS
HivePresto TensorFlow
GCPS3
1. Data Locality
2. Data Accessibility
3. Data Elasticity
Bigdata 환경의 진화
9
Spark
HDFS
HivePresto TensorFlow
CloudZS3
핵심 기능
10
• Multi-Tiering
• API Translation
• Unified Namespace
Data Locality
Data Accessibility
Data Elasticity
Computation
Storage
핵심 기능: Multi-Tiering for Data Locality
11
자주사용 잘 안사용hot warm cold
RAM SSD HDD
<사용 빈도에 따라 분류>
12
Java API
hdfs
interface
Rest API
S3
interface
FUSE
interface
hdfs driver S3 driver Swift driver NFS driver
Compute Layer
Storage Layer
핵심 기능: API Translation for Data Accessibility
13
핵심 기능: Unified NameSpace for Data Elasticity
hdfs
S3
추가 기능
14
• Multi-version의 hadoop cluster 지원
• File System간 데이터 이동 지원
• Replication으로 data locality 향상
• Alluxio Catalog 지원
• Data transformation 서비스
Spark 테스트: 환경 구성
15
Alluxio
Spark
HDFS
Alluxio
Co-located
De-located
8 Core 64G Mem 8 Core 64G Mem8 Core 64G Mem
테스트 데이터: measurements.csv (9.62 GB)
목표:
● De/Co-located가 성능에 미치는 영향
● Executor관련 설정이 성능에 미치는 영향
Spark 테스트: workflow
16
Spark
Alluxio
HDFS
csv json parquet
csvjson
json
parquet
parquet
csv
csv
csv
Spark
HDFS
csv json parquet
csvjson
json
parquet
parquet csv
csv
w/o Alluxio
with Alluxio
json parquet csv
Pre-load
ASYNC_THROUGH
Spark 테스트: 결과
17
(numExecutor, numCore) W Alluxio(초) WO Alluxio(초) 성능향상(%)
default
de-located 1172 1230 4.7
co-located 1061 1230 13.7
Core수
변경
(4,2) 754 1020 26.1
(4,4) 711 991 28.3
(4,6) 691 982 29.6
Executor수
변경
(2,2) 1161 1177 1.4
(4,2) 754 1020 26.1
(6,2) 708 985 28.1
(8,2) 676 979 30.9
Spark 테스트: 결과
18
Sec
Executor수 변경
(Executor수, Core수)
Core수 변경default
[Alluxio 처리 성능 최적화를 위한 고려사항]
● de-located환경도 성능향상을 가져오며, co-located환경은 더 나은 성능향상을 가져온다.
● 어떻게 Spark튜닝에 어떻게 가져가느냐에 따라 Alluxio를 통해 더 큰 처리 성능 향상을 가져옴
BP 테스트: 환경 구성
19
Batch Pipeline
(64 core, 512G Mem)
DHP for Spark
(5 core, 38G Mem)
Alluxio
(8 core, 64G Mem)
HDFS
(8 core, 64G Mem)
테스트 데이터: measurements.csv (9.62 GB)
목표:
● BP에서 데이터 I/O
● 비등록 Cloud Storage 접근 및 작업 가능 여부
BP I/O 테스트: 결과
Test Case 설명 처리 시간(분:초)
HDFS -> HDFS
DHP가 HDFS에 저장된 데이터를 읽고,
HDFS에 데이터를 저장
3:24
HDFS -> Alluxio -> Alluxio
DHP가 HDFS의 데이터를 Alluxio를 통해 읽고,
Alluxio 에 데이터 저장
3:35
Alluxio -> Alluxio
DHP가 Alluxio에 저장된 데이터를 읽고,
Alluxio에 저장
3:00
약 12%
성능 향상
DHP의 Spark Executor 설정:
--num-executors=6 --executor-cores=4 --executor-memory=7g
BP I/O 테스트: 결과
[Alluxio 처리 성능 최적화를 위한 고려사항]
● BP 코드 수정을 통한 partition 수 조정
● Spec에 맞는 executor관련/partition 튜닝
● 입력 데이터의 크기 및 Block Size에 따라 동적 조정 필요
HDFS 대비
약 12%
성능 향상
BP multi-storage 테스트: 구성 및 결과
Test Case 설명 처리 시간(분:초)
Join(hdfs + GCS) -> S3
hdfs에 저장된 user 데이터와
GCS에 저장된 review 데이터 alluxio를 통해 읽고,
•user_id를 키로 join하여, 일부 칼럼만 추출하고
•S3에 저장
05:18
Join(Alluxio + Alluxio) -> S3
•Alluxio에 저장된 user 데이터와 review 데이터를 읽고,
•user_id를 키로 join하여, 일부 칼럼만 추출하여,
•S3에 저장
03:08
테스트 데이터:
Input: user.csv (1.4GB)
review.csv (3.5GB),
목표:
BP에서 지원 불가능한 저장소 접근 여부
GCS
(BP 미지원)
HDFS
S3
Multi-Cloud 테스트: 환경 구성
Master
(r3.xlarge)
Core
(r3.xlarge)
Task
(r3.xlarge)
Alluxio
Master
Alluxio
Worker
Alluxio
Worker
Zeppelin for Spark
GCS
Connector
GCS
Connector
GCS
Connector
테스트 데이터:
measurements.csv (9.62 GB)
목표:
● GCS Connector를 사용
Vs.
Alluxio를 Connector로 사용
● Multi-Cloud 환경에서
data-locality 성능 향상
Multi-Cloud 테스트: 결과
Test Case 설명 처리 시간
GCS connector를 사용
S3에서 EMR로 데이터를 가져오고,
Spark job 처리하고,
GCS Connector를 통해 GCS에 저장하기
237.50
Alluxio를 connector로 사용
Alluxio를 connector로만 사용하여,
S3에서 EMR로 데이터를 가져오고,
Spark job 처리하고,
Alluxio를 통해 GCS에 저장하기
239.49
Alluxio를 connector로 사용
(with Alluxio Storage)
Alluxio를 저장소로 사용하여,
S3에서 Alluxio로 미리 적재된 데이터를,
Spark job 처리하고,
Alluxio를 통해 GCS에 저장하기
211.62
// GCS connector
val s = sc.textFile("s3://path/to/dir/measurements.csv")
val new_s = s.map(line => line + line )
new_s.coalesce(20).saveAsTextFile("gs://path/to/dir/output_measurements")
// alluxio connector
val s = sc.textFile("alluxio://<MASTER>19998/measurements.csv")
val new_s = s.map(line => line + line )
new_s.coalesce(20).saveAsTextFile("alluxio://<MASTER>:19998/sto_gcs/output_measurements")
약 12%
성능
향상
Use Case: Two Sigma Investments (지역성)
• 세계 Top5 Hedge Funds 회사
• 더 많은 iteration 돌리고, 비용줄이기
• 데이터의 크기와 물리적 전송 때문에 model iteration
하는데 3시간, 하루에 평균 두번
• Spot instance로 1,000개의 compute node 사용
• Machine Learning run time이 75% 감소, 하루
iteration 수를 2번에서 8번으로 늘릴 수 있게 됨
• Spot instance와 alluxio의 사용으로 computig 비용을
약 95% 줄임
25
https://d39kqat1wpn1o5.cloudfront.net/app/uploads/2019/05/Case-Study_TwoSigma.pdf
Use Case: TalkingData (접근성)
• 중국에서 가장 큰 데이터 브로커 회사
• 하루에 20 테라바이트 이상의 데이터를 프로세싱
• 많은 양의 데이터가 소비자와 앱으로 부터 수집되며,
여러 저장소로 저장됨 (hdfs, S3, ceph)
• 데이터관리의 어려움
• 데이터 가져옴에 있어 복잡성이 사라짐
• 데이터 관리의 편의성
26
https://d39kqat1wpn1o5.cloudfront.net/app/uploads/2019/05/talkingdata-case-study-leading-data-broker-in-china-leverages-alluxio-to-unify-terabyt
es-of-data-across-disparate-data-sources.pdf
Use Case: Lenovo (유연성)
• Petabyte mobile phone data 분석
• 이중데이터에 따른 비용 상승
• 데이터 관리의 어려움
• 데이터 ETL작업 간 높은 에러발생률과 비용
• ETL 작업으로 인한 에러 없앰
• 비싼 ETL작업과 data duplication 소비 줄임
• 메모리속도I/O를 통한 worldwide data 분석 속도 향상
27
https://d39kqat1wpn1o5.cloudfront.net/app/uploads/2019/05/lenovo-analyzes-petabytes-of-smartphone-data-from-multiple-locations-and-eliminate
s-etl-with-alluxio.pdf
Use Case: 그밖의...
• Samsung SDS: Brightics Studio
https://image.samsungsds.com/global/ko/solutions/off/brigc/dev_res/__icsFiles/afieldfile/2018/03/30/UserManual_
Brightics_Cloud_1.5_0320_1.pdf
• JD.com: JD BDP for Presto
https://www.slideshare.net/Alluxio/using-alluxio-as-a-faulttolerant-pluggable-optimization-component-of-jdcoms-co
mputation-frameworks
• Oracle: Big Data Cloud using BDFS based on Alluxio
https://docs.oracle.com/en/cloud/paas/big-data-compute-cloud/csspc/big-data-file-system-bdfs.html
• Enhancing the Value of Alluxio With Samsung NVMe SSDs
https://www.samsung.com/semiconductor/global.semi.static/Alluxio-plus-NVMe-WP-v6-0.pdf
• Enterprise distributed query service powered by presto alluxio across clouds
at Walmart Labs
https://www.alluxio.io/resources/videos/enterprise-distributed-query-service-powered-by-presto-alluxio-across-clou
ds-at-walmartlabs/
28
끝
What is Alluxio ?
30
”Alluxio:
A Virtual Distributed File System”
- dissertation, Haoyuan Li, May 2018 -
Bigdata 환경의 진화
31
느껴지는 고민사항
● 비싼 eco-system 통합
● 비효율적 data의 Duplication
● Data 관리의 어려움
● Data Silo문제
장점
32
• 메모리를 저장소로 사용, 메모리 속도의 I/O 가능
• 코딩 없이 간단하게 다양한 앱과 스토리지 연결하기
• 손쉬운 데이터 관리
Alluxio 2.0
Data Management
• Multi-version의 hadoop cluster 지원
• UFS간 데이터 이동 가능
• Embedded Journal
ML/DL workloads
• POSIX compatible API
Scaling
• Replication으로 data locality 향상
• 10억개이상 파일 저장 가능
33
Architecture with AccuInsight+: BP
34
Alluxio
HDFS
ETC
• Starburst와 전략적 OEM 파트서쉽 체결 (June, 20, 2019)
35
추후 과제
• Multi-Cloud 상에서의 데이터 처리 성능 테스트
• Alluxio 1.x vs. Alluxio 2.0 비교 테스트
• Alluxio활용 EMR환경에서 단기 분석을 위한 분석 환경 패키지
36
Multi-Cloud: Architecture
37
Spark
Alluxio
HDFS
4 nodes
8 cores
64 RAM
250 GB
4 nodes
8 cores
32 RAM
500 GB
hdfs
sto_s3
sto_gcs
user.csv
output.csv
temp2.csv
review.csv
temp4.csv
Storage 구조
Multi-Cloud: Architecture
38
Spark
Alluxio
HDFS
4 nodes
8 cores
64 RAM
250 GB
4 nodes
8 cores
32 RAM
500 GB
hdfs
sto_s3
sto_gcs
user.csv
output.csv
temp2.csv
review.csv
temp4.csv
Storage 구조
Alluxio 2.0
39
1.X
2.0

More Related Content

What's hot

Presto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon AthenaPresto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon Athena
Amazon Web Services Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
Cloudera Japan
 
대용량 분산 아키텍쳐 설계 #3 대용량 분산 시스템 아키텍쳐
대용량 분산 아키텍쳐 설계 #3 대용량 분산 시스템 아키텍쳐대용량 분산 아키텍쳐 설계 #3 대용량 분산 시스템 아키텍쳐
대용량 분산 아키텍쳐 설계 #3 대용량 분산 시스템 아키텍쳐
Terry Cho
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
NTT DATA Technology & Innovation
 
쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기
Brian Hong
 
SteelEye 표준 제안서
SteelEye 표준 제안서SteelEye 표준 제안서
SteelEye 표준 제안서Yong-uk Choe
 
Kubernetes Forum Seoul 2019: Re-architecting Data Platform with Kubernetes
Kubernetes Forum Seoul 2019: Re-architecting Data Platform with KubernetesKubernetes Forum Seoul 2019: Re-architecting Data Platform with Kubernetes
Kubernetes Forum Seoul 2019: Re-architecting Data Platform with Kubernetes
SeungYong Oh
 
Azure Data Explorer
Azure Data ExplorerAzure Data Explorer
Azure Data Explorer
Daisuke Masubuchi
 
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05都元ダイスケ Miyamoto
 
Amazon Aurora - Auroraの止まらない進化とその中身
Amazon Aurora - Auroraの止まらない進化とその中身Amazon Aurora - Auroraの止まらない進化とその中身
Amazon Aurora - Auroraの止まらない進化とその中身
Amazon Web Services Japan
 
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例Amazon Web Services Japan
 
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Web Services Korea
 
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
Brian Hong
 
PostgreSQL 9.5 CPU Read Scalability
PostgreSQL 9.5 CPU Read ScalabilityPostgreSQL 9.5 CPU Read Scalability
PostgreSQL 9.5 CPU Read Scalability
Ohyama Masanori
 
GKE multi-cluster Ingress
GKE multi-cluster IngressGKE multi-cluster Ingress
GKE multi-cluster Ingress
Kiyoshi Fukuda
 
Apache Ignite vs Alluxio: Memory Speed Big Data Analytics
Apache Ignite vs Alluxio: Memory Speed Big Data AnalyticsApache Ignite vs Alluxio: Memory Speed Big Data Analytics
Apache Ignite vs Alluxio: Memory Speed Big Data Analytics
DataWorks Summit
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
NTT DATA Technology & Innovation
 
(SPOT301) AWS Innovation at Scale | AWS re:Invent 2014
(SPOT301) AWS Innovation at Scale | AWS re:Invent 2014(SPOT301) AWS Innovation at Scale | AWS re:Invent 2014
(SPOT301) AWS Innovation at Scale | AWS re:Invent 2014
Amazon Web Services
 
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
NTT DATA Technology & Innovation
 
エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩
Takuya Tezuka
 

What's hot (20)

Presto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon AthenaPresto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon Athena
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
대용량 분산 아키텍쳐 설계 #3 대용량 분산 시스템 아키텍쳐
대용량 분산 아키텍쳐 설계 #3 대용량 분산 시스템 아키텍쳐대용량 분산 아키텍쳐 설계 #3 대용량 분산 시스템 아키텍쳐
대용량 분산 아키텍쳐 설계 #3 대용량 분산 시스템 아키텍쳐
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
 
쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기
 
SteelEye 표준 제안서
SteelEye 표준 제안서SteelEye 표준 제안서
SteelEye 표준 제안서
 
Kubernetes Forum Seoul 2019: Re-architecting Data Platform with Kubernetes
Kubernetes Forum Seoul 2019: Re-architecting Data Platform with KubernetesKubernetes Forum Seoul 2019: Re-architecting Data Platform with Kubernetes
Kubernetes Forum Seoul 2019: Re-architecting Data Platform with Kubernetes
 
Azure Data Explorer
Azure Data ExplorerAzure Data Explorer
Azure Data Explorer
 
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
 
Amazon Aurora - Auroraの止まらない進化とその中身
Amazon Aurora - Auroraの止まらない進化とその中身Amazon Aurora - Auroraの止まらない進化とその中身
Amazon Aurora - Auroraの止まらない進化とその中身
 
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
 
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
 
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
 
PostgreSQL 9.5 CPU Read Scalability
PostgreSQL 9.5 CPU Read ScalabilityPostgreSQL 9.5 CPU Read Scalability
PostgreSQL 9.5 CPU Read Scalability
 
GKE multi-cluster Ingress
GKE multi-cluster IngressGKE multi-cluster Ingress
GKE multi-cluster Ingress
 
Apache Ignite vs Alluxio: Memory Speed Big Data Analytics
Apache Ignite vs Alluxio: Memory Speed Big Data AnalyticsApache Ignite vs Alluxio: Memory Speed Big Data Analytics
Apache Ignite vs Alluxio: Memory Speed Big Data Analytics
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
 
(SPOT301) AWS Innovation at Scale | AWS re:Invent 2014
(SPOT301) AWS Innovation at Scale | AWS re:Invent 2014(SPOT301) AWS Innovation at Scale | AWS re:Invent 2014
(SPOT301) AWS Innovation at Scale | AWS re:Invent 2014
 
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
 
エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩エンジニア必見!Sreへの第一歩
エンジニア必見!Sreへの第一歩
 

Similar to Alluxio: Data Orchestration on Multi-Cloud

[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션
해은 최
 
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobileHadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile
상연 최
 
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
OpenStack Korea Community
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316기한 김
 
Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트
SANG WON PARK
 
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
OpenStack Korea Community
 
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Yooseok Choi
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
Gruter
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
Matthew (정재화)
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWSKRUG - AWS한국사용자모임
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
Jinwoong Kim
 
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4Seok-joon Yun
 
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
(Joe), Sanghun Kim
 
Bigdata with Google Cloud
Bigdata with Google CloudBigdata with Google Cloud
Bigdata with Google Cloud
정출 김
 
Spark performance tuning
Spark performance tuningSpark performance tuning
Spark performance tuning
haiteam
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
Gruter
 
Azure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBAzure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDB
rockplace
 
[231]운영체제 수준에서의 데이터베이스 성능 분석과 최적화
[231]운영체제 수준에서의 데이터베이스 성능 분석과 최적화[231]운영체제 수준에서의 데이터베이스 성능 분석과 최적화
[231]운영체제 수준에서의 데이터베이스 성능 분석과 최적화
NAVER D2
 
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
BESPIN GLOBAL
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기
Yeonhee Kim
 

Similar to Alluxio: Data Orchestration on Multi-Cloud (20)

[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션
 
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobileHadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile
 
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
[OpenInfra Days Korea 2018] (Track 4) - Grafana를 이용한 OpenStack 클라우드 성능 모니터링
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316
 
Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트
 
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
 
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
 
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
 
Bigdata with Google Cloud
Bigdata with Google CloudBigdata with Google Cloud
Bigdata with Google Cloud
 
Spark performance tuning
Spark performance tuningSpark performance tuning
Spark performance tuning
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
 
Azure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBAzure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDB
 
[231]운영체제 수준에서의 데이터베이스 성능 분석과 최적화
[231]운영체제 수준에서의 데이터베이스 성능 분석과 최적화[231]운영체제 수준에서의 데이터베이스 성능 분석과 최적화
[231]운영체제 수준에서의 데이터베이스 성능 분석과 최적화
 
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
머신러닝 도우미, Amazon SageMaker 따라하기: SageMaker 국내 적용 사례
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기
 

Alluxio: Data Orchestration on Multi-Cloud

  • 1. Data Orchestration SK C&C 정진욱 선임 on Multi-Cloud
  • 2. 목차 • Alluxio 란? • 기능 소개 • 핵심 기능 • 추가 기능 • 성능 테스트 • Spark 테스트 • BP 테스트 • Multi-Cloud 테스트 • Use Case 2
  • 4. What is Alluxio ? 4 데이터를 통합 관리하고, 메모리를 저장소로 쓰자!
  • 5. Background 5 • UC Berkeley AMPLab 2012년 시작 • 2013년 open sourced • Apache License 2.0 • 가장 빠르게 성장하는 프로젝트 커뮤니티 중 하나 • 현재 2.2.0 버전까지 릴리즈
  • 6. Bigdata 환경의 진화 6 MapReduce HDFS Compute Layer Storage Layer Compute Layer Storage Layer
  • 7. Storage Layer Compute Layer Bigdata 환경의 진화 7 Spark HDFS HivePresto TensorFlow GCPS3
  • 8. Bigdata 환경의 진화 8 Storage Layer Compute Layer Spark HDFS HivePresto TensorFlow GCPS3 1. Data Locality 2. Data Accessibility 3. Data Elasticity
  • 10. 핵심 기능 10 • Multi-Tiering • API Translation • Unified Namespace Data Locality Data Accessibility Data Elasticity Computation Storage
  • 11. 핵심 기능: Multi-Tiering for Data Locality 11 자주사용 잘 안사용hot warm cold RAM SSD HDD <사용 빈도에 따라 분류>
  • 12. 12 Java API hdfs interface Rest API S3 interface FUSE interface hdfs driver S3 driver Swift driver NFS driver Compute Layer Storage Layer 핵심 기능: API Translation for Data Accessibility
  • 13. 13 핵심 기능: Unified NameSpace for Data Elasticity hdfs S3
  • 14. 추가 기능 14 • Multi-version의 hadoop cluster 지원 • File System간 데이터 이동 지원 • Replication으로 data locality 향상 • Alluxio Catalog 지원 • Data transformation 서비스
  • 15. Spark 테스트: 환경 구성 15 Alluxio Spark HDFS Alluxio Co-located De-located 8 Core 64G Mem 8 Core 64G Mem8 Core 64G Mem 테스트 데이터: measurements.csv (9.62 GB) 목표: ● De/Co-located가 성능에 미치는 영향 ● Executor관련 설정이 성능에 미치는 영향
  • 16. Spark 테스트: workflow 16 Spark Alluxio HDFS csv json parquet csvjson json parquet parquet csv csv csv Spark HDFS csv json parquet csvjson json parquet parquet csv csv w/o Alluxio with Alluxio json parquet csv Pre-load ASYNC_THROUGH
  • 17. Spark 테스트: 결과 17 (numExecutor, numCore) W Alluxio(초) WO Alluxio(초) 성능향상(%) default de-located 1172 1230 4.7 co-located 1061 1230 13.7 Core수 변경 (4,2) 754 1020 26.1 (4,4) 711 991 28.3 (4,6) 691 982 29.6 Executor수 변경 (2,2) 1161 1177 1.4 (4,2) 754 1020 26.1 (6,2) 708 985 28.1 (8,2) 676 979 30.9
  • 18. Spark 테스트: 결과 18 Sec Executor수 변경 (Executor수, Core수) Core수 변경default [Alluxio 처리 성능 최적화를 위한 고려사항] ● de-located환경도 성능향상을 가져오며, co-located환경은 더 나은 성능향상을 가져온다. ● 어떻게 Spark튜닝에 어떻게 가져가느냐에 따라 Alluxio를 통해 더 큰 처리 성능 향상을 가져옴
  • 19. BP 테스트: 환경 구성 19 Batch Pipeline (64 core, 512G Mem) DHP for Spark (5 core, 38G Mem) Alluxio (8 core, 64G Mem) HDFS (8 core, 64G Mem) 테스트 데이터: measurements.csv (9.62 GB) 목표: ● BP에서 데이터 I/O ● 비등록 Cloud Storage 접근 및 작업 가능 여부
  • 20. BP I/O 테스트: 결과 Test Case 설명 처리 시간(분:초) HDFS -> HDFS DHP가 HDFS에 저장된 데이터를 읽고, HDFS에 데이터를 저장 3:24 HDFS -> Alluxio -> Alluxio DHP가 HDFS의 데이터를 Alluxio를 통해 읽고, Alluxio 에 데이터 저장 3:35 Alluxio -> Alluxio DHP가 Alluxio에 저장된 데이터를 읽고, Alluxio에 저장 3:00 약 12% 성능 향상 DHP의 Spark Executor 설정: --num-executors=6 --executor-cores=4 --executor-memory=7g
  • 21. BP I/O 테스트: 결과 [Alluxio 처리 성능 최적화를 위한 고려사항] ● BP 코드 수정을 통한 partition 수 조정 ● Spec에 맞는 executor관련/partition 튜닝 ● 입력 데이터의 크기 및 Block Size에 따라 동적 조정 필요 HDFS 대비 약 12% 성능 향상
  • 22. BP multi-storage 테스트: 구성 및 결과 Test Case 설명 처리 시간(분:초) Join(hdfs + GCS) -> S3 hdfs에 저장된 user 데이터와 GCS에 저장된 review 데이터 alluxio를 통해 읽고, •user_id를 키로 join하여, 일부 칼럼만 추출하고 •S3에 저장 05:18 Join(Alluxio + Alluxio) -> S3 •Alluxio에 저장된 user 데이터와 review 데이터를 읽고, •user_id를 키로 join하여, 일부 칼럼만 추출하여, •S3에 저장 03:08 테스트 데이터: Input: user.csv (1.4GB) review.csv (3.5GB), 목표: BP에서 지원 불가능한 저장소 접근 여부 GCS (BP 미지원) HDFS S3
  • 23. Multi-Cloud 테스트: 환경 구성 Master (r3.xlarge) Core (r3.xlarge) Task (r3.xlarge) Alluxio Master Alluxio Worker Alluxio Worker Zeppelin for Spark GCS Connector GCS Connector GCS Connector 테스트 데이터: measurements.csv (9.62 GB) 목표: ● GCS Connector를 사용 Vs. Alluxio를 Connector로 사용 ● Multi-Cloud 환경에서 data-locality 성능 향상
  • 24. Multi-Cloud 테스트: 결과 Test Case 설명 처리 시간 GCS connector를 사용 S3에서 EMR로 데이터를 가져오고, Spark job 처리하고, GCS Connector를 통해 GCS에 저장하기 237.50 Alluxio를 connector로 사용 Alluxio를 connector로만 사용하여, S3에서 EMR로 데이터를 가져오고, Spark job 처리하고, Alluxio를 통해 GCS에 저장하기 239.49 Alluxio를 connector로 사용 (with Alluxio Storage) Alluxio를 저장소로 사용하여, S3에서 Alluxio로 미리 적재된 데이터를, Spark job 처리하고, Alluxio를 통해 GCS에 저장하기 211.62 // GCS connector val s = sc.textFile("s3://path/to/dir/measurements.csv") val new_s = s.map(line => line + line ) new_s.coalesce(20).saveAsTextFile("gs://path/to/dir/output_measurements") // alluxio connector val s = sc.textFile("alluxio://<MASTER>19998/measurements.csv") val new_s = s.map(line => line + line ) new_s.coalesce(20).saveAsTextFile("alluxio://<MASTER>:19998/sto_gcs/output_measurements") 약 12% 성능 향상
  • 25. Use Case: Two Sigma Investments (지역성) • 세계 Top5 Hedge Funds 회사 • 더 많은 iteration 돌리고, 비용줄이기 • 데이터의 크기와 물리적 전송 때문에 model iteration 하는데 3시간, 하루에 평균 두번 • Spot instance로 1,000개의 compute node 사용 • Machine Learning run time이 75% 감소, 하루 iteration 수를 2번에서 8번으로 늘릴 수 있게 됨 • Spot instance와 alluxio의 사용으로 computig 비용을 약 95% 줄임 25 https://d39kqat1wpn1o5.cloudfront.net/app/uploads/2019/05/Case-Study_TwoSigma.pdf
  • 26. Use Case: TalkingData (접근성) • 중국에서 가장 큰 데이터 브로커 회사 • 하루에 20 테라바이트 이상의 데이터를 프로세싱 • 많은 양의 데이터가 소비자와 앱으로 부터 수집되며, 여러 저장소로 저장됨 (hdfs, S3, ceph) • 데이터관리의 어려움 • 데이터 가져옴에 있어 복잡성이 사라짐 • 데이터 관리의 편의성 26 https://d39kqat1wpn1o5.cloudfront.net/app/uploads/2019/05/talkingdata-case-study-leading-data-broker-in-china-leverages-alluxio-to-unify-terabyt es-of-data-across-disparate-data-sources.pdf
  • 27. Use Case: Lenovo (유연성) • Petabyte mobile phone data 분석 • 이중데이터에 따른 비용 상승 • 데이터 관리의 어려움 • 데이터 ETL작업 간 높은 에러발생률과 비용 • ETL 작업으로 인한 에러 없앰 • 비싼 ETL작업과 data duplication 소비 줄임 • 메모리속도I/O를 통한 worldwide data 분석 속도 향상 27 https://d39kqat1wpn1o5.cloudfront.net/app/uploads/2019/05/lenovo-analyzes-petabytes-of-smartphone-data-from-multiple-locations-and-eliminate s-etl-with-alluxio.pdf
  • 28. Use Case: 그밖의... • Samsung SDS: Brightics Studio https://image.samsungsds.com/global/ko/solutions/off/brigc/dev_res/__icsFiles/afieldfile/2018/03/30/UserManual_ Brightics_Cloud_1.5_0320_1.pdf • JD.com: JD BDP for Presto https://www.slideshare.net/Alluxio/using-alluxio-as-a-faulttolerant-pluggable-optimization-component-of-jdcoms-co mputation-frameworks • Oracle: Big Data Cloud using BDFS based on Alluxio https://docs.oracle.com/en/cloud/paas/big-data-compute-cloud/csspc/big-data-file-system-bdfs.html • Enhancing the Value of Alluxio With Samsung NVMe SSDs https://www.samsung.com/semiconductor/global.semi.static/Alluxio-plus-NVMe-WP-v6-0.pdf • Enterprise distributed query service powered by presto alluxio across clouds at Walmart Labs https://www.alluxio.io/resources/videos/enterprise-distributed-query-service-powered-by-presto-alluxio-across-clou ds-at-walmartlabs/ 28
  • 29.
  • 30. What is Alluxio ? 30 ”Alluxio: A Virtual Distributed File System” - dissertation, Haoyuan Li, May 2018 -
  • 31. Bigdata 환경의 진화 31 느껴지는 고민사항 ● 비싼 eco-system 통합 ● 비효율적 data의 Duplication ● Data 관리의 어려움 ● Data Silo문제
  • 32. 장점 32 • 메모리를 저장소로 사용, 메모리 속도의 I/O 가능 • 코딩 없이 간단하게 다양한 앱과 스토리지 연결하기 • 손쉬운 데이터 관리
  • 33. Alluxio 2.0 Data Management • Multi-version의 hadoop cluster 지원 • UFS간 데이터 이동 가능 • Embedded Journal ML/DL workloads • POSIX compatible API Scaling • Replication으로 data locality 향상 • 10억개이상 파일 저장 가능 33
  • 34. Architecture with AccuInsight+: BP 34 Alluxio HDFS
  • 35. ETC • Starburst와 전략적 OEM 파트서쉽 체결 (June, 20, 2019) 35
  • 36. 추후 과제 • Multi-Cloud 상에서의 데이터 처리 성능 테스트 • Alluxio 1.x vs. Alluxio 2.0 비교 테스트 • Alluxio활용 EMR환경에서 단기 분석을 위한 분석 환경 패키지 36
  • 37. Multi-Cloud: Architecture 37 Spark Alluxio HDFS 4 nodes 8 cores 64 RAM 250 GB 4 nodes 8 cores 32 RAM 500 GB hdfs sto_s3 sto_gcs user.csv output.csv temp2.csv review.csv temp4.csv Storage 구조
  • 38. Multi-Cloud: Architecture 38 Spark Alluxio HDFS 4 nodes 8 cores 64 RAM 250 GB 4 nodes 8 cores 32 RAM 500 GB hdfs sto_s3 sto_gcs user.csv output.csv temp2.csv review.csv temp4.csv Storage 구조