Spark Summit EU talk by William Benton

William Benton
Red Hat, Inc.
@willb • willb@redhat.com
CONTAINERIZED SPARK  
ON KUBERNETES

WHAT OUR SPARK CLUSTER LOOKED LIKE IN 2014

Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor

Networked
POSIX FS
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor

Mesos
Networked
POSIX FS
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor

Mesos
Networked
POSIX FS
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
1
2
3
4

Mesos
Networked
POSIX FS
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
1
2
3
4
1
1
2
3
3
4

Analytics is no longer a
separate workload.

Analytics is an essential
component of modern data-
driven applications.

FORECAST
Motivating containerized microservices
Architectures for analytics and applications
Spark clusters in containers: practicalities and pitfalls
Play along at home
Future work

A microservice architecture
employs lightweight, modular,
and typically stateless
components with well-deﬁned
interfaces and contracts.

BENEFITS OF MICROSERVICE ARCHITECTURES

2 + 2

2 + 2 5

?

MICROSERVICES AND SPARK
executor
1 2 3
executor
4 5 6
executor
7 8 9
executor
10 11 12
master

executor
1 2 3
executor
4 5 6
executor
7 8 9
executor
10 11 12
master
λ x: x * 2

executor
1 2 3
executor
4 5 6
executor
7 8 9
executor
10 11 12
master
λ x: x * 22 4 6 8 10 12 14 16 18 20 22 24
λ x: x * 2 λ x: x * 2 λ x: x * 2 λ x: x * 2

ARCHITECTURES FOR  
ANALYTICS AND APPLICATIONS

APPLICATION RESPONSIBILITIES
transform
transform
transform
events
databases
ﬁle, object
storage

transform
transform
transform
aggregate
events
databases
ﬁle, object
storage

trainmodels
transform
transform
transform
aggregate
events
databases
ﬁle, object
storage

archive
trainmodels
transform
transform
transform
aggregate
events
databases
ﬁle, object
storage

archive
trainmodels
transform
transform
transform
aggregate
events
databases
ﬁle, object
storage
web and mobile
reporting
developer UI

archive
trainmodels
transform
transform
transform
aggregate
events
databases
ﬁle, object
storage
management
web and mobile
reporting
developer UI

CONVENTIONAL DATA WAREHOUSE
events

transformevents

transformevents
UI

transformevents
UI
business
logic

transformevents
UI
business
logic
RDBMS

transaction 
processing
transformevents
UI
business
logic
RDBMS

transaction 
processing
transformevents
UI
business
logic
RDBMS RDBMS

transaction 
processing
transformevents
UI
business
logic
RDBMS RDBMS
analysis

transaction 
processing
transformevents
UI
business
logic
RDBMS RDBMS
analysis
reporting

transaction 
processing
transformevents
UI
business
logic
RDBMS RDBMS
analysis
interactive 
query
reporting

transaction 
processing
transformevents
UI
business
logic
RDBMS analytic 
processing
RDBMS
analysis
interactive 
query
reporting

HADOOP-STYLE “DATA LAKE”
HDFS HDFS HDFS

HDFS HDFS HDFS HDFS HDFS

HDFS
events
HDFS HDFS HDFS HDFS

HDFS
compute
events
HDFS
compute
HDFS
compute compute compute
HDFS HDFS

THE LAMBDA ARCHITECTURE
events
(imprecise) 
analysistransform

events
(imprecise) 
analysistransform
DFS

speed layer
events
(imprecise) 
analysistransform
DFS

speed layer
events
(precise) 
analysistransform
(imprecise) 
analysistransform
DFS

speed layer
events
batch layer
(precise) 
analysistransform
(imprecise) 
analysistransform
DFS

speed layer
events
batch layer
federate
(precise) 
analysistransform
(imprecise) 
analysistransform
DFS

speed layer
events
batch layer
UIfederate
(precise) 
analysistransform
(imprecise) 
analysistransform
DFS

serving layerspeed layer
events
batch layer
UIfederate
(precise) 
analysistransform
(imprecise) 
analysistransform
DFS

queue for “raw data” topic
THE KAPPA ARCHITECTURE
events

events
transform
queue for “preprocessed data” topic

events
transform analysis
queue for “analysis results” topic

events
transform analysis
queue for “analysis results” topic
reporting end-user UI

DATA FEDERATION IN THE COMPUTE LAYER
aggregate
trainmodels
archive
events
databases
ﬁle, object
storage
management
web and mobile
reporting
developer UItransform
transform
transform

Cluster scheduler
SIDEBAR: THE MONOLITHIC SPARK ANTIPATTERN
Shared FS
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
Spark executor
Resource manager
app 1 app 2
app 4app 3

Resource manager
ONE CLUSTER PER APPLICATION
Object stores
app 1 app 2
app 5app 4
app 3
app 6
Databases

Resource manager
ONE CLUSTER PER APPLICATION
Object stores
app 1 app 2
app 5app 4
app 3
app 6
app 2
app 4
Databases

PRACTICALITIES AND
POTENTIAL PITFALLS

SCHEDULING
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
Object stores
Databases

SCHEDULING
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1

SECURITY
$SPARK_HOME/bin/spark-class
org.apache.spark.deploy.worker.Worker
master:7077
pid
root
net

SECURITY
$SPARK_HOME/bin/spark-class
org.apache.spark.deploy.worker.Worker
master:7077
pid
root
net
/tmp/foo

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
POSIX
ﬁlesystem

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
POSIX
ﬁlesystem
✓ familiar interface
✓ interoperability with
other programs

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
POSIX
ﬁlesystem
✓ familiar interface
✓ interoperability with
other programs
✗ unnecessary
semantic guarantees
✗ difﬁcult to manage

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
HDFS HDFS
HDFS HDFS
HDFS
HDFS

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
HDFS HDFS
HDFS HDFS
HDFS
HDFS
✓ support for legacy
Hadoop installations

✗ inelastic
✗ stateful
✗ can’t collocate
compute and data
STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
HDFS HDFS
HDFS HDFS
HDFS
HDFS
✓ support for legacy
Hadoop installations

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
object store

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
object store
✓ interoperability
✓ ﬁne-grained AC
✓ many implementations

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
object store
✗ consistency model
✗ performance (?)

STORAGE
Kubernetes
app 1 app 2
app 5app 4
app 3
app 6
app 1 app 2
app 5app 4
app 3
app 6
object store
✗ consistency model
✗ performance

“…in a cloud native architecture, the beneﬁt of
HDFS is actually very small and that is why
many cloud-ﬁrst organizations no longer run
HDFS, or only run it as a caching layer for S3.”
—Reynold Xin on Quora (http://qr.ae/TAF4cN)

NETWORKING
http://app1:8080
✗ can’t access worker web UI
(but wait for Spark 2.1!)

NETWORKING
http://app1:8080
✗ can’t access worker web UI
(but wait for Spark 2.1!)
http://app1:80

NEXT STEPS: FUTURE WORK &
PLAYING ALONG AT HOME

NEXT STEPS
Further performance evaluation
Better developer experience
Improved scheduling of Spark tasks on Kubernetes

TRY IT OUT YOURSELF
Kubernetes standalone Spark example: 
https://github.com/kubernetes/kubernetes/tree/master/examples/spark
Enabling Spark on OpenShift: https://github.com/radanalyticsio
Native Spark on Kubernetes proposal: 
https://github.com/kubernetes/kubernetes/issues/34377

@willb • willb@redhat.com 
https://chapeau.freevariable.com
THANKS!

Spark Summit EU talk by William Benton

More Related Content

What's hot

Viewers also liked

Similar to Spark Summit EU talk by William Benton

More from Spark Summit

Recently uploaded

Spark Summit EU talk by William Benton