SQL Saturday 2019 - Event Processing with Spark

#sqlsat
Event processing with Spark
Alessio Biasiutti

Alessio Biasiutti
Azure Solution Architect
Microsoft P-TSP
alessiobiasiutti
abiasiutti@altitudo.com

Agenda
▪ EventHub
▪ Concetti Base
▪ Kafka
▪ Spark
▪ Concetti base
▪ Databricks
▪ Spark SQL
▪ Demo
▪ Spark Structured Streaming
▪ Connettore Spark per Event Hub
▪ Connettore Spark Per Cosmos DB
▪ Demo
▪ Q&A

Architecture
EventHub (Kafka
mode)

Concetti base
▪ Dimensione messaggio 256K-1M
(dedicated)
▪ Protocolli
▪ HTTPS: overhead ogni invio dati (TLS)
migliore per invio dati non frequente.
▪ AMQP: inizializzazione sessione pesante ma
performance migliori per invio dati frequenti
▪ Capture file su Storage Account o su Data
Lake Store
▪ Streaming Unit
▪ Ingress Fino a 1MB/sec o 1000 eventi/sec
▪ Egress Fino a 2MB/sec o 4096 eventi/sec
▪ Retention: 1-7 giorni

Concetti base
• Partitions:
• Permettano di scalare orizzontalmente.
• Un event receiver per ogni partizione
• Numero fisso alla creazione tra 2 e 32
• Impostazione solo in fase di creazione
• Partition key:
• Assegnato dal publisher viene utilizzato per
inviare i dati sempre alla stessa partizione
• Nessun valore Round Robin
• Consumer Group:
• Uno per applicazione receiver
• Checkpoint
• Responsabilità del receiver eseguire commit
dell’ultima posizione letta

Kafka mode
• Supporto per versione Kafka 1.0 o maggiori
• Funzioni non supportate
• Idempotent producer
• Transaction
• Compression
• Size-based retention
• Log compaction
• Adding partitions to an existing topic
• HTTP Kafka API support
• Kafka Streams
Kafka Concept Event Hubs Concept
Cluster Namespace
Topic Event Hub
Partition Partition
Consumer Group Consumer Group
Offset Offset

Introduzione
Spark core engine
Spark SQL
Interactive
queries
Spark Structured
Streaming
Stream processing
Spark MLlib
Machine
learning
GraphX
Graph
computation

Pipeline
In pipeline complesse lo scambio dati tra engine diversi
potrebbe essere molto costo
Spark Streaming
Machine
learning
Spark SQL

Performance
102,5 100
72
23
2100
206
50400
6592
2013 Record
(Hadoop)
Spark 100 TB
Data Size (TB) Time (Min) Nodes Cores
tinyurl.com/spark-sort
Logistic regression
140
120
100
80
40
20
0
60
Hadoop
Spark 0.9
Logistic regression on a 100-node cluster with 100
GB of data.
Spark is the 2014 Sort Benchmark
winner.
3x faster than 2013 winner
(Hadoop).

Read Read
Concetti base
• Il driver esegue le funzioni utente
dividendelo in operazioni parallele
nei vari worker node
• Il driver recupera i risultati delle
varie operazioni
• I worker nodes leggono e scrivono
dati da e verso il filesystem
Hadoop (HDFS or DBFS on Azure
Storage Account)
• I worker node mettono in cache
parte dei dati letti
Read
Cluster manager
HDFS
Worker nodeWorker node Worker node Worker node
Driver program
SparkSession (SparkContext)

Cluster
Cluster
Head node
Spark master
App 0 App 1 App 2
Browser Gateway
Spark
submit
Zeppelin Jupyter
Worker node 2
Worker 2
Worker node 1
Worker 1
Job
Task
Task
Spark driver
Spark
context
Dataset
Dataset
Job
Task
Task
Worker node 3
Worker 3
Job
Task
Task
Worker node 4
Worker 4
Job
Task
Task

Databricks
1) Creare un workspace
2) Creare un cluster
3) Creare un notebook

SparkSession
• Punto di accesso
all’applicazione e a tutte le
funzionalità del cluster
• Prima della versione 2
esistevano tanti
SparkContext per ogni
funzionalità

Spark SQL
Spark SQL è un motore fortemente ottimizzato per poter eseguire query SQL sui
dati.
Quando si esegue una query il risultato viene ritornato come Dataset/DataFrame
• Un Dataset è un collezione di dati distribuita. Questa interfaccia è stata
introdotta dopo la versione 1.6
• Un DataFrame è un dataset organizzato in colonne. Concettualmente è
equivalente ad un tabella di un database relazionale o di un data frame in
R/Python

Spark SQL
1) Leggere dati da fonti esterne e
formati diversi
2) Eseguire query
• SQL
• Functions
3) Salvare i dati all’interno del cluster
4) Salvare i dati su destinazioni
esterne
• Connecting to SQL
Databases using JDBC
• Amazon Redshift
• Amazon S3
• Amazon S3 Select
• Azure Blob Storage
• Azure Data Lake
Storage Gen1
• Azure Data Lake
Storage Gen2
• Azure Cosmos DB
• Azure SQL Data
Warehouse
• Cassandra
• Couchbase
• ElasticSearch
• Import Hive Tables
• MongoDB
• Neo4j
• Oracle
• Avro Files
• CSV Files
• JSON Files
• LZO Compressed
Files
• Parquet Files
• Redis
• Riak Time Series
• Snowflake
• Zip Files

Demo
Workspace
Cluster
Notebook
Spark SQL

Structured Streaming
Structured Streaming è il modulo di Stream Processing
costruito sul motore Spark SQL
Permette di eseguire analisi sui dati stream allo stesso
modo con cui si analizzano i dati batch
• Aggregations
• event-time windows
• stream-to-batch joins

Concetti Base
L’idea è di trattare un data
stream come se fosse una
tabella in cui vengono
inserite continuamente
delle righe alla fine
In questo modo si possono
eseguire dei comandi SQL
come se fosse una tabella

Concetti base
• Ad ogni trigger le nuove righe vengono
aggiunte alla «Input Table»
• Una query sull’imput può generare un dei
nuovi dati nella tabella Result
• Ogni volta che la tabella «Result» viene
aggiornata vengono scritti in output i dati:
• Complete Mode: tutta la tabella (compito
del connettore decidere come gestire la
scrittura)
• Append Mode: solo le nuove righe (si
suppone che non ci siano updates)
• Update Mode: vengono inviate tutte le righe
aggiorate
• Non mantiene in memoria tutta la tabella di
input ma solo i dati che servono a calcolare la
query

Input
• File
• Azure Blob Storage
• Socket
• Rate Source (test data)
• Apache Kafka
• Amazon Kinesis
• Optimized S3 File Source with SQS
• Azure Event Hubs / IoT Hub

Input - File
File Source: permette di leggere dati da file comse se fossero uno stream:
• path: il path di dove si trovano i file
• maxFilesPerTrigger: massimo numero di file per trigger (default no max)
• lastestFirst: se processare l’ultimo file per primo
• format: il formato dei dati (parquet,…)
In caso di input non strutturato o semi strutturato, per garantire uno schema consistente durante
l’esecuzione delle query, bisogna definire il formato dell’input.
val userSchema = new StructType().add("name", "string“, true).add("age",
"integer“,true)
StructField params:
• name
• datatype
• nullable

Input – Event Hub
Connection Options:
• consumerGroup – nome del consumer
group
• startingPosition – la posizione da cui
partire
• EventPosition.fromOffset("246812")
• EventPosition.fromEnqueuedTime(Inst
ant.now)
• EventPosition.fromStartOfStream
• EventPosition.fromEndOfStream
• maxEventsPerTrigger – il numero
massimo di eventi per trigger
Column Type
body binary
partition string
offset string
sequenceNumber long
enqueuedTime timestamp
publisher string
partitionKey string
properties map[string, json]
systemProperties map[string, json]

Window operations
Nome campo per
riferimento del
tempo
Ampiezza
Finestra
Frequenza
aggiornamento

Watermarking
Limiti:
• L’aggregazione deve avere almeno una finestra o deve essere aggregata per un
campo temporale
• Nome del campo «tempo» deve essere lo stesso di quello specificato in
window
• Output mode deve essere Append o Update

Join
Stream – Static Joins
(inner e alcuni tipi di outer join)
Join params:
• dataset
• join condition
• tipo (inner/outer)

Trigger
• Il trigger specifica quando frequentemente vengono
letti i dati dall’input per essere accumulati.
• Ad ogni trigger vengono inviati dei dati alla result table
• Default 0ms (appena finisce l’esecuzione parte la
successiva)
• 2 tipi
• RunOnce (esecuzione della query una volta es
schedulata)
• Schedulati

Output
Tipi di output
• Memory (Solo per test)
• Kafka
• EventHub
• File
• Azure Blob
• Sink Custom

Checkpoint
In caso di failures o shutdown è possibile recuperare
lo stato della query e continuare da dove si era
fermata.

Connettore Spark – Cosmos DB

Grazie!
Siete interessati alla nostra consulenza?
https://www.altitudo.com/
Vi piacerebbe far parte del nostro staff?
jobs@altitudo.com

SQL Saturday 2019 - Event Processing with Spark

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Similar to SQL Saturday 2019 - Event Processing with Spark

Similar to SQL Saturday 2019 - Event Processing with Spark (20)

More from Alessio Biasiutti

More from Alessio Biasiutti (7)

SQL Saturday 2019 - Event Processing with Spark