Apache Zeppelin and Spark for Enterprise Data Science

1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Enabling Apache Zeppelin* and Spark*
for Data Science in the Enterprise
Bikas Saha
@bikassaha
*Apache Hadoop, Falcon, Atlas, Tez, Sqoop, Flume, Kafka, Pig, Hive,
HBase, Accumulo, Storm, Solr, Spark, Ranger, Knox, Ambari, ZooKeeper,
Oozie, Zeppelin and the Hadoop elephant logo are trademarks of the
Apache Software Foundation.

2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Agenda
Making Big Data Science easy to approach
What are the current issues for the enterprise
Making Apache Zeppelin enterprise ready
Future Roadmap

Apache Zeppelin

Zeppelin makes Big Data Science Easy to Approach
 Zero install – Just connect via a web browser and ready to run
 Support for multiple execution platforms (Apache Spark, JDBC, Hive…)
 Support for multiple languages (Scala, SQL, Python…)
 Support for built-in visualizations
 Support for reporting
 Support for sharing and collaborative work
 Does NOT have machine learning built-in – that’s where Apache Spark comes in (or your
favorite SQL engine Apache Flink/Drill/Hive… and 30+ others)

Zeppelin for Sharing

Agenda
Future Roadmap

Current Apache Zeppelin and Spark integration
Zeppelin
Server
Spark
Driver
U
s
e
r Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor

Architectural Issue with Secure Data Access
Zeppelin
Server
Spark
Driver
U
s
e
r
1
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Zeppelin
Server
User
H
D
F
S

Architectural Issues with Multi-Tenancy – Fault Tolerance
Zeppelin
Server
Spark
Driver
U
s
e
r
1
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
U
s
e
r
2
User 1 failure
affects User 2
Heavy-weight
Spark drivers

Architectural Issues with Multi-Tenancy – Privacy
Zeppelin
Server
Spark
Driver
U
s
e
r
1
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor
U
s
e
r
2
User 1
can
access
User 2
Data

Agenda
Enterprise Ready Big Data Science
Future Roadmap

Livy Server as a Session Management Service
Livy
Server
Remote
Spark
Driver
Session
Remote
Context
Interactive
REST API
Batch
REST API
Standard Spark
Batch Job
Spark
Executor
Spark
Executor
Spark
Executor
Spark
Executor

Secure Data Access - Solved
Zeppelin
Server
Livy
Interpreter
U
s
e
r
Spark
Executor
Spark
Executor
Livy
Server
Remote
Spark
Driver
Session
Remote
Context
User
HDFS

Multi Tenancy - Solved
Zeppelin
Server
Livy
Interpreter
Livy
Server
Session 1
U
s
e
r
1
U
s
e
r
2
Livy
Interpreter
Session 2
Remote
Spark
Driver
Remote
Context
Spark
Executor
Remote
Spark
Driver
Remote
Context
Spark
Executor

Agenda
Future Roadmap

Near Term Improvements
 Session Management
 Debuggability
 Unified session for all languages
 Better visualizations for Machine Learning
 Support for Spark 2.0

Long Term Improvements
 Controlled sharing of sessions for collaboration
 Data exploration and browsing with metadata
 Taking the model from training to production

Thank You

Apache Zeppelin and Spark for Enterprise Data Science

More Related Content

What's hot

Viewers also liked

Similar to Apache Zeppelin and Spark for Enterprise Data Science

Recently uploaded

Apache Zeppelin and Spark for Enterprise Data Science