18. /34!18
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
Nod Nod Nod Nod Nod Nod
HDFS - Hadoop Distributed File
YARN
Nod Nod Nod Nod Nod Nod
HDFS - Hadoop Distributed File
YARN
Nod Nod Nod Nod Nod Nod
HDFS - Hadoop Distributed File
YARN
DISK로부터 쓰기
DISK로부터 읽기
Iteration 2
DISK로부터 읽기
Iteration 1
Input
DISK로부터 쓰기
빈번한 File i/o는 데이터가 커질 수록 더 큰 latency(지연) 발생
19. /34!19
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
DISK로부터 쓰기
DISK로부터 읽기
Iteration 2
DISK로부터 읽기
Iteration 1
Input
DISK로부터 쓰기
Input
Iteration 1 Iteration 2
In-memory Computation. no need to read/write to file
Latency 지연 평가
=
20. /34!20
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System
YARN
Resource
Manager
Processing …
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
얼마나 차이가 나는걸까?
21. /34!21
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
Spark
SQL
Spark
Streaming
MLlib
(Machine
learning)
Apache Spark
GraphX
(graph)
29. /34!29
D. 그래서 Spark의 핵심은?
work
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortBykeyStage 3
태스크
Latency 지연 평가 장애 내구성
30. /34!30
D. 그래서 Spark의 핵심은?
work
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortBykeyStage 3
태스크
Broken
장애 내구성
31. /34!31
D. 그래서 Spark의 핵심은?
work
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortByke
y
Stage 3
태스크
Broken
lineage
A
B
C
Lineage을 보고 판단하여 부분 Recovery
장애 내구성
32. /34!32
D. 그래서 Spark의 핵심은?
work
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortByke
y
Stage 3
태스크
lineage
A
B
C
장애 내구성
Lineage을 보고 판단하여 부분 Recovery