Life of PySpark - A tale of two environments

10.03.19, 17)15Life of PySpark
Page 1 of 68http://localhost:8000/?print-pdf#/
A TALE OF TWO ENVIRONMENTS
LIFE OF PYSPARK
Mohanababu Sathyakumari Shankar

CONTENTS
Who I am!
A Brief History of Spark
Grapes of Spark
The Metamorphosis
Brave New PySpark
To Kill a Mocking Bear
Pride and Production
Sense and Scalability
A Song of Scala and Python
The Finkler Questions
The Sense of an Ending

WHO I AM
by day
by night
, all day long
Natural habitat:
MSc Computer Science,
So!ware Engineer,
, Bangalore
Data Engineer
Data Scientist
Data Geek
KI labs
TU München
Oracle Financial Services
So!ware

A BRIEF HISTORY OF SPARK

- Disk based access
- More lines of code
- Default
- Nothing more
- Not available
- Java, Python (verbose)
MAPREDUCE AND RECYCLE
Slow
Cumbersome programming
Abstractions-less
Batch processing
Built-in Interactive mode
Support

, UC Berkeley
, Spark v0.6.0
, Apache Incubator
Unified analytics engine
Matei Zaharia
AMPLab
October 2012
June 2013

- Processing in-memory
- Lesser lines of code
- RDDs ++
Java, Scala, Python & R
Fast
Concise
Special Abstractions
Stream and batch processing

GRAPES OF SPARK

GRAPES OF SPARK
processing
- Non-linear flow
- Query optimiser
FASTER PROCESSING
Stream and batch processing
In-memory
DAG
Lazy Evaluation
Calcite

GRAPES OF SPARK
- Less lines of code
- Java, Scala, Python & R
high-level operators
atop Spark
EASE OF USE
Concise
Support
80
Numerous projects

GRAPES OF SPARK
multiple libraries
- SQL-styled processing
- streaming data
- Machine Learning
- Graphs
- SQL Analytics
DIVERSITY
Leverages
Spark SQL
Spark Streaming
MLlib
GraphX and GraphFrames
BlinkDB/Tachyon

GRAPES OF SPARK
abstraction in Spark
- File
- RDDs
- Read-only
- Across nodes
- Parallel
- Lineage
- Java/Scala
RDD
Primary
Created
Created
Immutable
Partitioned
Distributed
Fault-tolerant
Object collection

GRAPES OF SPARK
by DFs in R/Python
- Table structure
- Columns
- Defined by a schema
- API, build query plans
- Query optimiser
DATAFRAMES
Inspired
Relational
Named
Schema
SQL
Catalyst

GRAPES OF SPARK
of RDDs and DFs
- Columns
- No schema
- No table
- Compile-time type safety
DATASETS
Best features
Unnamed
Schema-less
Non-relational
Type safe

THE METAMORPHOSIS

THE METAMORPHOSIS
on RDDs and DFs
- new RDDs
- a DAG
map, filter, groupBy, sortBy
union, intersection, distinct
TRANSFORMATIONS
Operates
Creates
RDD Lineage
Lazy Evaluation

THE METAMORPHOSIS
on RDDs and DFs
- applied on RDDs
- No new RDDs
- Initiator
unt, reduce, collect
aggregate, first, take, sum
ACTIONS
Operates
Functions
Triggered
Lazy Evaluation

BRAVE NEW PYSPARK

BRAVE NEW PYSPARK
PYTHON + SPARK

BRAVE NEW PYSPARK
TIME AND COMPLEXITY

BRAVE NEW PYSPARK
NOTEBOOK INTEGRATION

OPTION 1: DOWNLOAD TAR RELEASE
BRAVE NEW PYSPARK
SETUP
wget https://www.apache.org/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
tar -xzf spark-2.4.0-bin-hadoop2.7.tgz
PATH="$PATH:$(pwd)/spark-2.4.0-bin-hadoop2.7/bin

OPTION 2: USING BREW ON MACOS
BRAVE NEW PYSPARK
SETUP
brew install apache-spark

OPTION 3: USING PYPI
BRAVE NEW PYSPARK
SETUP
pip install pyspark

OPTION 4: USING CONDA
BRAVE NEW PYSPARK
SETUP
conda install -c conda-forge pyspark=2.3.1

CONFIGURE AND START
BRAVE NEW PYSPARK
SETUP
## Running PySpark in cluster mode inside Jupyter
## Include additional python modules
IPYTHON_OPTS="notebook" pyspark
--master spark://localhost:7077
--executor-memory 7g
--py-files tensorflow-py2.7.egg

BRAVE NEW PYSPARK
EASY TO PROTOTYPE

TO KILL A MOCKING BEAR

Pandas Dataframe
PySpark Dataframe
LOADING CSV
df = pd.read_csv("world_rankings.csv")
df = sql.context.read.format('com.databricks.spark.csv')
.options(header='true', inferschema='true')
.load("world_rankings.csv")

Pandas Dataframe
PySpark Dataframe
VIEW DATAFRAME
df
df.head(10)
df
df.show(10)

Pandas Dataframe
PySpark Dataframe
COLUMNS AND DATATYPES
df.columns
df.dtypes
df.columns
df.dtypes

Pandas Dataframe
PySpark Dataframe
DROP COLUMN
df.drop('column1', axis=1)
df.drop('column1')

Pandas Dataframe
PySpark Dataframe
FILL NULLS
df.fillna(0)
df.fillna(0)

Pandas Dataframe
PySpark Dataframe
AGGREGATION
df.groupby(['column1', 'column2'])
.agg({"column3": "mean", "column4": "min"})
df.groupby(['column1', 'column2'])
.agg({"column3": "mean", "column4": "min"})

Pandas Dataframe
PySpark Dataframe
MERGE/JOIN DATAFRAMES
left.merge(right, on='key')
left.merge(right, left_on='column1', right_on='column2')
left.join(right, on='key')
left.join(right, left.column1 == right.column2

Pandas Dataframe
PySpark Dataframe
SUMMARY STATISTICS
df.describe()
df.describe().show()

Pandas Dataframe
PySpark Dataframe
RENAME COLUMNS
df.columns = ['C1', 'C2', 'C3']
df.rename(columns = {"C1": "c1", "C2": "c2", "C3": "c3"})
df.toDF('C1', 'C2', 'C3')
df.withColumnRenamed('C1', 'c1')

Pandas Dataframe
PySpark Dataframe
FILTER COLUMNS
df[(df.column1 < 10) && (df.column2 == 100)]
df.filter((df.column1 < 10) && (df.column2 == 100))

Pandas Dataframe
PySpark Dataframe
ADD COLUMN
df[df.column] = 1 / df.column
df.withColumn('df.column', 1 / df.column)

Pandas Dataframe
PySpark Dataframe
STANDARD TRANSFORMATIONS
import numpy as np
df['log_values'] = np.log(df.values)
import pyspark.sql.functions as F
df.withColumn('log_values', F.log(df.values))

Pandas Dataframe
PySpark Dataframe
ROW CONDITIONAL STATEMENTS
df['conditional'] = df.apply(lambda x: 1 if x.column1 > 20
else 10 if x.column2 == 100 else 42, axis=1)
import pyspark.sql.functions as F
df.withColumn('conditional',
F.when(df.column1 > 20, 1)
.when(df.column2 == 100, 10)
.otherwise(42))

Pandas Dataframe
PySpark Dataframe
PIVOT TABLE
pd.pivot_table(df, values='column4',
index=['column1', 'column2'], columns=['column3],
aggfunc=np.sum)
df.groupBy("column1", "column2").pivot("column3").sum("column4")

Pandas Dataframe
PySpark Dataframe
HISTOGRAM
df.hist()
df.sample(False, 0.1).toPandas().hist()

Pandas Dataframe
PySpark Dataframe
SQL QUERIES
Not Applicable
df.createOrReplaceTempView('TempTable')
df_query = spark.sql('select * from TempTable')

PRIDE AND PRODUCTION

through complete data
access too slow
chunks of data
environment
No functions
PYTHON FUNCTIONS IN SPARK
Iterate
Row-by-row
Distributed
Production
Conventional

Python functions
and
is specified
operations only
access too slow
ser/deser
PYSPARK UDFS
(ROW-AT-A-TIME UDFS)
Primitive
map() apply()
Output data type
Series/Scalar
Row-by-row
Non-vectorized

Python functions
Pandas & Scikit-learn
based
ser/deser
required
required
required
and
PANDAS UDFS
(VECTORIZED UDFS)
Optimised
Supports
Apache Arrow
Vectorized
Output data type
PandasUDFType
DataFrame Schema
Scalar Grouped Map

DIFFERENCES
SCALAR AND GROUPEDBY UDFS

PERFORMANCE
SCALAR AND GROUPEDBY UDFS

detection
data from trucks
- No
Complexity
exist
and with bugs
required
- -
DBSCAN ON SPARK
Density-Based Spatial Clustering
Stay Points
Telematics
Spark MLlib DBSCAN
O(n^2)
Implementations
Non-performant
Scikit-learn
ELKI O(nlogn) JAVA

DBSCAN USING PANDAS UDF

SENSE AND SCALABILITY

in native Python
objects
required
best approach
only scope
avoided
SCALA UDFS
Driver
Non-native JVM
2x Ser/Deser
Scala UDFs
Spark v2.1
JVM
Unnecessary Ser/Deser

as Scala project
using SBT
to PySpark session
the Scala UDF
only scope
SCALA UDFS
Create Scala UDF
Build JAR
Submit JAR
Register
JVM

Benchmark Python UDF vs Pandas UDF vs Scala UDF

A SONG OF SCALA AND PYTHON

expertise is high
not mature enough
required
of UDFs
usage
avoided
PATCH-22
Python
Spark MLlib
Pandas and Scikit-learn
Blackbox behaviour
High-level column based
Objects conversion

THE PY4J REDEMPTION

NO PYTHON FOR SPARK MAIN()

THE FINKLER QUESTIONS

THE SENSE OF AN ENDING

Life of PySpark - A tale of two environments

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Life of PySpark - A tale of two environments

Similar to Life of PySpark - A tale of two environments (20)

Recently uploaded

Recently uploaded (20)

Life of PySpark - A tale of two environments