Apache Spark Data intensive processing in practice

Marcin Szymaniuk 
Apache Spark
Data intensive processing in practice

www.tantusdata.com
About me
• Data Engineer @TantusData
• Have worked for: Spotify, Apple, telcos, startups
• Cluster installations, application architecture and
development, training, data team support
marcin@tantusdata.com
marcin.szymaniuk@gmail.com
@mszymani

www.tantusdata.com
Agenda
• What is Spark?
• Use case overview
• Architecture
• Big picture

www.tantusdata.com
What is Spark?
• Engine for distributed data processing
• Java, Scala, R, Python, SQL API
• Streaming, Machine Learning

www.tantusdata.com
Mobile app company
APP

www.tantusdata.com
Mobile app company
APP
EVENTS

www.tantusdata.com
Spark API - DataFrame
eventsDf
.groupBy("userId")
.agg(
max("value").alias("maxVal"),
avg("value").alias("avgValue")
)
.join(usersDf, usersDf("id") === eventsDf("userId"))
.select("userId", "maxVal", "avgValue","name")

www.tantusdata.com
General use cases
ETL
HDFS

www.tantusdata.com
General use cases
KPI
ACQUISITION ACTIVATION
RETENTION REFERRAL
REVENUE

www.tantusdata.com
General use cases
• A/B tests
• Anonymization
• Fraud
• Churn
• ML
• …

www.tantusdata.com
Network improvement

www.tantusdata.com
Network improvement
• Score historical customer network quality
• Deﬁne a model predicting churn based on historical
score
• Simulate base station upgrade and calculate expected
score after the upgrade
• Use the simulated score with churn prediction model

www.tantusdata.com
Bring analysis to data
DATA
R / PYTHON
/ SAS
Sample
• Sample only (region, latest month…)
• Coarse aggregate eg. month vs hour (1:720)

www.tantusdata.com
Photo credit: productcoalition.com

www.tantusdata.com
DATA
• Analyze all data
• Faster analysis
• No extra data copies (GDPR!)
• Many solutions are already implemented (MLib,
GraphX…)

www.tantusdata.com
Geospatial data
• General map service
• Self driving cars

www.tantusdata.com
Geospatial data
Map V1Car + AI
Map V2
Map OSMap OS
Editors
Map V2
Vendors

www.tantusdata.com
Geospatial data

www.tantusdata.com
Geospatial data
JVM
JVM
JVM

www.tantusdata.com
Spark use cases - recap
• Massive datasets processing - distribute it!
• Computation intensive processing - distribute it!
• SQL-like interface - analyst friendly
• Functional programming for complex logic

www.tantusdata.com
Deep dive
• Spark execution model
• Partitioning
• Caching

www.tantusdata.com
Deep dive
Photo credit: amazon.ca

www.tantusdata.com
RDD / DataFrame
RDD
Partition 1
Partition 2
Partition 3

www.tantusdata.com
Narrow transformation
f:x toUpperCase(x)
rdd.map(f)
foo
Partition 1
Partition 2
Partition 3
RDD
Bar baz
blah blah
LOREm ipsum dolor
sit amet
FOO
Partition 1
Partition 2
Partition 3
New RDD
BAR BAZ
BLAH BLAH
LOREM IPSUM DOLOR
SIT AMET

www.tantusdata.com
Narrow transformation
RDD
Partition 1
NEW RDD
New Partition 1
NEW RDD2
Partition 1
Partition 2 New Partition 2 Partition 2
Partition 3 New Partition 3 Partition 3

www.tantusdata.com
Partitions, tasks
RDD
Partition 1
NEW RDD
Partition 1
NEW RDD2
Partition 1
Partition 3 Partition 3 Partition 3
TASK 1TASK 1

www.tantusdata.com
Partitions, tasks
RDD
Partition 1
NEW RDD
Partition 1
NEW RDD2
Partition 1
Partition 2 Partition 2 Partition 2TASK 2

www.tantusdata.com
Spark application
RDD

www.tantusdata.com
Spark application

www.tantusdata.com
Spark application
STAGE 1
SHUFFLE

www.tantusdata.com
Spark application
STAGE 2
STAGE 1
SHUFFLE
STAGE N

www.tantusdata.com
Simplest scenario ever
val df = spark.read.parquet(“…”)
HDFS
TASK

www.tantusdata.com
HDFS
TASK
ADDCOL ADDCOL
df
.withColumn("year", year(col(“timestamp")))
.withColumn("month", month(col(“timestamp”)))
.withColumn("day", dayofmonth(col(“timestamp”)))

www.tantusdata.com
HDFS
TASK
ADDCOL ADDCOL
HDFS
df
.withColumn("year", year(col(“timestamp”)))
.withColumn("month", month(col("timestamp")))
.withColumn("day", dayofmonth(col("timestamp")))
.write.save(output)

www.tantusdata.com
1TB of data raw events

www.tantusdata.com
1000 x 1GB
1GB ﬁle =
8 blocks
128MB per block

www.tantusdata.com
1000 x 1GB
1GB ﬁle =
8 blocks
128MB per block
8000
blocks
8000
Tasks

HDFS
TASK
ADDCOL ADDCOL
HDFS
HDFS
TASK
ADDCOL ADDCOL
HDFS
HDFS
TASK
ADDCOL ADDCOL
HDFS
HDFS
TASK
ADDCOL ADDCOL
HDFS
…
8000

www.tantusdata.com
EXECUTOR
—executor-cores 3 —executor-memory 10g
Executors
—executor-cores 3 —executor-memory 10g
EXECUTOR
PENDING TASKS
COMPLETE TASKS
DRIVER
EXECUTOR

www.tantusdata.com
Join
10TB of
events
uniform
distribution
1GB of users

HDFS
TASK
Bucket 1
LOCAL
…
HDFS
HDFS

HDFS
TASK
Bucket 1
Bucket 2
LOCAL
…
HDFS
HDFS

HDFS
TASK
Bucket 1
Bucket 2
LOCAL
HDFS
TASK 2
Bucket 1
Bucket 2
LOCAL
HDFS
TASK X
Bucket 1
Bucket 2
LOCAL
…
…
…
HDFS
HDFS

HDFS
TASK
Bucket 1
Bucket 2
LOCAL
TASK
HDFS
TASK 2
Bucket 1
Bucket 2
LOCAL
HDFS
TASK X
Bucket 1
Bucket 2
LOCAL
…
…
…
HDFS
HDFS

HDFS
TASK
Bucket 1
Bucket 2
LOCAL
TASK
HDFS
TASK 2
Bucket 1
Bucket 2
LOCAL
HDFS
TASK X
Bucket 1
Bucket 2
LOCAL
TASK
…
…
…
HDFS
HDFS

.config("spark.sql.shuffle.partitions", "200")
HDFS
TASK
Bucket 1
Bucket 2
LOCAL
TASK
HDFS
TASK 2
Bucket 1
Bucket 2
LOCAL
HDFS
TASK X
Bucket 1
Bucket 2
LOCAL
TASK
…
…
…
HDFS
HDFS

HDFS
TASK
Bucket 1
Bucket 2
LOCAL
TASK
HDFS
TASK 2
Bucket 1
Bucket 2
LOCAL
HDFS
TASK X
Bucket 1
Bucket 2
LOCAL
TASK
…
…
…
HDFS
HDFS
10TB/200 = 50GB/TASK.config("spark.sql.shuffle.partitions", "200")

10TB/200 = 50GB/TASK
HDFS
TASK
Bucket 1
Bucket 2
LOCAL
TASK
HDFS
TASK 2
Bucket 1
Bucket 2
LOCAL
HDFS
TASK X
Bucket 1
Bucket 2
LOCAL
TASK
…
…
…
HDFS
HDFS
50GB
50GB
.config("spark.sql.shuffle.partitions", "200")

www.tantusdata.com
Problems with join
• Spill to disk
• Timeouts
• GC overhead limit exceeded
• OOM
• ExecutorLostFailure

www.tantusdata.com
What to do?
• Understand your data!
• Control the level of parallelism
.config("spark.sql.shuffle.partitions", “2000")
rdd.join(anotherRDD, 2000)
.repartition(2000)

www.tantusdata.com
Skewed join
10TB of
events
One user with
1 TB of events
others are
uniformly
distributed

HDFS
TASK
Bucket 1
Bucket 2
LOCAL
TASK
HDFS
TASK 2
Bucket 1
Bucket 2
LOCAL
HDFS
TASK X
Bucket 1
Bucket 2
LOCAL
TASK
…
…
…
HDFS
HDFS
1TB

www.tantusdata.com
Skewed join
• Bad data?
• Wrong logic?
• Just ok?
Photo credit: hiveminer.com

www.tantusdata.com
Skewed Join
userId …
1
2
3
… …
eventId userId …
af8 1
bf9 1
ff1 1
881 1
91f 2
cc6 1
b22 1
ee4 1

www.tantusdata.com
userId …
1
2
3
… …
eventId userId …
af8 1
bf9 1
ff1 1
881 1
91f 2
cc6 1
b22 1
ee4 1
Skewed Join

www.tantusdata.com
userId …
1
2
3
… …
eventId userId … salt
af8 1 1
bf9 1 2
ff1 1 1
881 1 3
91f 2 2
cc6 1 3
b22 1 3
ee4 1 1
Skewed Join

www.tantusdata.com
userId … salt
1 1
1 2
1 3
2 1
2 2
2 3
3 1
3 2
3 3
… …
Skewed Join
af8 1 1
bf9 1 2
ff1 1 1
881 1 3
91f 2 2
cc6 1 3
b22 1 3
ee4 1 1

www.tantusdata.com
userId … salt
1 1
1 2
1 3
2 1
2 2
2 3
3 1
3 2
3 3
… …
af8 1 1
bf9 1 2
ff1 1 1
881 1 3
91f 2 2
cc6 1 3
b22 1 3
ee4 1 1
Skewed Join

www.tantusdata.com
af8 1 1
bf9 1 2
ff1 1 1
881 1 3
91f 2 2
cc6 1 3
b22 1 3
ee4 1 1
Skewed Join
userId … salt
1 1
1 2
1 3
2 1
2 2
2 3
3 1
3 2
3 3
… …

www.tantusdata.com
• Know your data!
• Fix the data?
• Improve the logic?
• Add salt?
Skewed Join - recap
Photo credit: shamakern.com

www.tantusdata.com
Cache
val rdd1=calculate1()
rdd1.
…
saveAsTextFile(…)
rdd1.
…
saveAsTextFile(…)
Executed twice!

www.tantusdata.com
Cache + PageRank
RANKS
LINKS

www.tantusdata.com
Cache
• Transformations are lazy!
• Re-using RDD/DF means re-calculation!
• Branch in execution plan is a candidate for caching
• You cannot control priority - it's LRU
• Know the size of your RDDs/DF - check Spark UI.

www.tantusdata.com
Other gotchas
• Broadcasting
• Sizing executors
• Locality
• Off heap memory
• …

www.tantusdata.com
Challenges ahead
• File formats
• Data evolution
• Jobs orchestration
• Monitoring
• Anomaly detection
• ML models
• …

www.tantusdata.com
Challenges ahead
OPS
DEVELOPERS
BUSINESS ANALYTICS
Common tools and knowledge

www.tantusdata.com
Challenges ahead
Photo credit: theﬁnancialbrand.com

www.tantusdata.com
Conclusions
• Spark can help you with data processing at scale
• You should know how it works
• Think about big picture from day one

www.tantusdata.com
• marcin@tantusdata.com
• marcin.szymaniuk@gmail.com
• @mszymani
Q&A

Apache Spark Data intensive processing in practice

Recommended

Recommended

More Related Content

Similar to Apache Spark Data intensive processing in practice

Similar to Apache Spark Data intensive processing in practice (20)

Recently uploaded

Recently uploaded (20)

Apache Spark Data intensive processing in practice