Spark - au dela du dataframe avec Tungsten et Catalyst

www.cetic.be
Spark: Au-delà des APIs
Spark: au-delà du dataframe

www.cetic.be
Projet Tungsten
Améliorer l’efficacité CPU et RAM de Spark

www.cetic.be
Le problème
• Solutions pour améliorer l’IO
• SSD ou HDD strippé, agrégation de bande passante
• Pruning des données sur disque, format de fichier performant en
termes d’IO (cf Parquet)
• Dans de nombreux cas, la performance est limitée par la charge de calcul.
• Gestion de la mémoire gourmande en CPU
• Sérialisation/Désérialisation
• Garbage Collector
3

www.cetic.be
Apport de Tungsten: Gestion de la mémoire
• Système de pagination en RAM
• Suppression du système d’objets de la JVM
• Compactage des données
• Transformation des traitements pour travailler sur les données brutes
4

www.cetic.be
• Système de pagination en RAM
• Suppression du système d’objets de la JVM
• Compactage des données
• Transformation des traitements pour travailler sur les données brutes
4
5 objets Java
Indirections
en-tête d’objet: 12 octets
char[]: 20 octets d’en-tête + 10 octets de texte
hashcode: 8 octets
total: 50 octets pour 5 caractères

www.cetic.be
• L’évaluation d’expressions arbitraires est très coûteuse pour la JVM
• Dispatching de fonctions polymorphes
• Comportement variable en fonction du type des objets manipulés
• Boxing/Unboxing: overhead en temps et en mémoire
• Écriture inutile en mémoire des résultats intermédiaires
5

www.cetic.be
• L’évaluation d’expressions arbitraires est très coûteuse pour la JVM
• Dispatching de fonctions polymorphes
• Comportement variable en fonction du type des objets manipulés
• Boxing/Unboxing: overhead en temps et en mémoire
• Écriture inutile en mémoire des résultats intermédiaires
5
• Réponse : Évaluation des
expressions, génération de
(byte)code ad hoc qui
supprime ces étapes
intermédiaires. ie, compilation
des expressions.
• Backends: JVM, LLVM, GPU, …
Temps
(sec)
0
10
20
30
40
Interprété Code généré Manuel
9,33
9,36
36,65

www.cetic.be
Pour aller plus loin
• https://spoddutur.github.io/spark-notes/
second_generation_tungsten_engine.html
• https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-
tungsten.html
• https://www.slideshare.net/SparkSummit/deep-dive-into-project-
tungsten-josh-rosen
6

www.cetic.be
Projet Catalyst
Optimiser les requêtes sur données structurées

www.cetic.be
Le problème
• Spark introduit des APIs de plus en plus abstraites: Dataframe/
Dataset, SQL, … : Structured APIs
• Objectif: expression plus aisée des traitements, même API pour
le batch et le streaming
8

www.cetic.be
Le problème
8
data .map { case (dpt, age) => dpt -> (age, 1) }
.reduceByKey { case ((a1, c1), (a2, c2)) => (a1 + a2, c1 + c2) }
.map { case (dpt, (age, c)) => dpt -> age / c }
RDD

www.cetic.be
Le problème
8
data .map { case (dpt, age) => dpt -> (age, 1) }
.reduceByKey { case ((a1, c1), (a2, c2)) => (a1 + a2, c1 + c2) }
.map { case (dpt, (age, c)) => dpt -> age / c }
RDD
data.groupBy(‘’dept’’).avg(‘’age’’)
select dept, avg(age) from data group by dept
DataFrame
SQL

www.cetic.be
Le problème
• Il faut convertir une transformation exprimée en Structured API en
un plan d’actions exécutable.
• Le plan doit être exécuté par les workers sous la supervision du
driver.
• Plusieurs plans peuvent concrétiser une transformation. Il faut
donc choisir le meilleur plan.
• Réponse: Catalyst optimise la manière de transformer un
traitement abstrait en plan d’actions exécutable.
9

www.cetic.be
Étape 1 : résolution & planification logique
SQL
DataFrame
DataSet
AST

www.cetic.be
Plan logique
non résolu
SQL
DataFrame
DataSet
AST

www.cetic.be
Plan logique
non résolu
SQL
DataFrame
DataSet
AST
Plan logique
résolu
Analyse
Typage,
suppression
d’alias, etc.

www.cetic.be
Plan logique
non résolu
SQL
DataFrame
DataSet
AST
Plan logique
résolu
Analyse
Typage,
suppression
d’alias, etc.
Plan logique
optimisé
Optimisation logique
Règles de
transformation

www.cetic.be
Étape 1 : Exemple de règle de transformation
1 + 2 + t1.value

www.cetic.be
1 + 2 + t1.value
Add
Add
Literal(1) Literal(2)
Attribute(t1.value)

www.cetic.be
1 + 2 + t1.value
Add
Add
Attribute(t1.value)
Évalué à chaque ligne

www.cetic.be
1 + 2 + t1.value
Add
Add
Attribute(t1.value)
Add(Literal(x), Literal(y)) ! Literal(x+y)

www.cetic.be
1 + 2 + t1.value
Add
Add
Attribute(t1.value)
Add
Literal(3) Attribute(t1.value)

www.cetic.be
1 + 2 + t1.value
Add
Add
Attribute(t1.value)
Add
Literal(3) Attribute(t1.value)
Évalué une seule fois

www.cetic.be
Étape 2 : planification physique & génération de code
12
Plan logique
optimisé

www.cetic.be
12
Plan logique
optimisé
Plan physique 1
Plan physique 2
…
Génération de plans: lecture des
sources, predicate pushdown,
utilisation de cache, pipelining de
projection et de filtres, …

www.cetic.be
12
Plan logique
optimisé
Plan physique 1
Plan physique 2
…
Plan physique
sélectionné
Stratégies + Règles + Modèle de
coûts exploitant les statistiques
des sources

www.cetic.be
12
Plan logique
optimisé
Plan physique 1
Plan physique 2
…
Plan physique
sélectionné
Stratégies + Règles + Modèle de
coûts exploitant les statistiques
des sources
DAG de RDDs

www.cetic.be
Étape 2 : Exemple de planification physique
13
val joined = users.join(events, users.id == events.uid)

www.cetic.be
13
Join
users events
Plan logique

www.cetic.be
13
Sort-Merge join
[users.id = events.uid]
users events
[users trié par id] [events trié par uid]
Join
users events
Plan logique

www.cetic.be
13
Sort-Merge join
users events

www.cetic.be
14
Sort-Merge join
users events

www.cetic.be
14
Sort-Merge join
users events
Sort-Merge join
Sort
[users.id]
Sort
[events.uid]
users events

www.cetic.be
14
Sort-Merge join
Sort
[users.id]
Sort
[events.uid]
users events

www.cetic.be
15
Sort-Merge join
Sort
[users.id]
Sort
[events.uid]
users events

www.cetic.be
15
Sort-Merge join
Sort
[users.id]
Sort
[events.uid]
users events
Sort-Merge join
Sort
[users.id]
Sort
[events.uid]
ScanParquet
(trié par id)
ScanTable

www.cetic.be
15
Sort-Merge join
Sort
[users.id]
Sort
[events.uid]
ScanParquet
(trié par id)
ScanTable

www.cetic.be
16
Sort-Merge join
Sort
[users.id]
Sort
[events.uid]
ScanParquet
(trié par id)
ScanTable

www.cetic.be
16
Sort-Merge join
Sort
[users.id]
Sort
[events.uid]
ScanParquet
(trié par id)
ScanTable
Sort-Merge join
Sort
[events.uid]
ScanParquet
(trié par id)
ScanTable

www.cetic.be
Pour aller plus loin
• https://databricks.com/glossary/catalyst-optimizer
• https://www.youtube.com/watch?v=RmUn5vHlevc
• https://databricks.com/blog/2015/04/13/deep-dive-into-spark-
sqls-catalyst-optimizer.html
• https://data-flair.training/blogs/spark-sql-optimization/
• https://developer.ibm.com/code/2017/11/30/learn-extension-
points-apache-spark-extend-spark-catalyst-optimizer/
17

www.cetic.be
La suite du programme: Spark Hands-On
Où vous
• Réaliserez vos premiers pas avec Spark
• Traquerez sans pitié des orphelins
• Développerez un modèle prédictif avec Dwayne Johnson
18

Spark - au dela du dataframe avec Tungsten et Catalyst

Recommended

Recommended

More Related Content

Similar to Spark - au dela du dataframe avec Tungsten et Catalyst

Similar to Spark - au dela du dataframe avec Tungsten et Catalyst (20)

More from Mathieu Goeminne

More from Mathieu Goeminne (9)

Spark - au dela du dataframe avec Tungsten et Catalyst