Journeys from Kafka to Parquet

Journeys from Kafka to
Parquet
DataWorks Summit, Barcelona 2019
21/03/2019

Largest e-commerce
platform in NL and BE

Gábor Hermann
• data engineer @ bol.com
• Previously at research institute
• MTA SZTAKI, Budapest
• Now measuring, recommendations

This talk
• The problem: sinking data from stream to files
• Solution 1. windowing
• Solution 2. bucketing sink
• Solution 3. closing files at checkpoints
• Solution 4. daily/hourly batch job
• Conclusion

Problem
click data stream
(Kafka)

Problem
click data stream
(Kafka)
10,000 event/sec

Problem
HDFS
click data stream
(Kafka)
10,000 event/sec
(immutable)
files

Problem
HDFS
click data stream
(Kafka)
10,000 event/sec
(immutable)
files
?

Batch vs streaming
batch streaming

Requirements
• Scalable solution
• 10,000 message/sec

Requirements
• Exactly-once
• Data consumers should not deduplicate
!"DISTINCT

Requirements
• Exactly-once
• Files in event-time
• Consumers should not worry about late events
!"late events

Requirements
• Exactly-once
• Columnar format (Parquet)
• Optimize for reading, not for writing
!"
slow loading

Columnar format (Parquet)
CUSTOMER ID VISITED
PRODUCT
PRODUCT
CATEGORY
45182584 370000004333 Books
45182584 300000053536 Games
11538222 857334358658 Electronics
79245368 370000004333 Books
11538222 370000004333 Books
11538222 942000033234 Electronics
78438133 370000004333 Books

CUSTOMER ID VISITED
PRODUCT
PRODUCT
CATEGORY
45182584 370000004333 Books
45182584 300000053536 Games
11538222 857334358658 Electronics
79245368 370000004333 Books
11538222 370000004333 Books
11538222 942000033234 Electronics
78438133 370000004333 Books
Row-oriented

CUSTOMER ID VISITED
PRODUCT
PRODUCT
CATEGORY
45182584 370000004333 Books
45182584 300000053536 Games
11538222 857334358658 Electronics
79245368 370000004333 Books
11538222 370000004333 Books
11538222 942000033234 Electronics
78438133 370000004333 Books
Row-oriented Column-oriented
CUSTOMER ID VISITED
PRODUCT
PRODUCT
CATEGORY
45182584 370000004333 Books
45182584 300000053536 Games
11538222 857334358658 Electronics
79245368 370000004333 Books
11538222 370000004333 Books
11538222 942000033234 Electronics
78438133 370000004333 Books

CUSTOMER ID VISITED
PRODUCT
PRODUCT
CATEGORY
45182584 370000004333 Books
45182584 300000053536 Games
11538222 857334358658 Electronics
79245368 370000004333 Books
11538222 370000004333 Books
11538222 942000033234 Electronics
78438133 370000004333 Books
CUSTOMER ID VISITED
PRODUCT
PRODUCT
CATEGORY
45182584 370000004333 Books
45182584 300000053536 Games
11538222 857334358658 Electronics
79245368 370000004333 Books
11538222 370000004333 Books
11538222 942000033234 Electronics
78438133 370000004333 Books
Row-oriented Column-oriented

CUSTOMER ID VISITED
PRODUCT
PRODUCT
CATEGORY
45182584 370000004333 Books
45182584 300000053536 Games
11538222 857334358658 Electronics
79245368 370000004333 Books
11538222 370000004333 Books
11538222 942000033234 Electronics
78438133 370000004333 Books
Row-oriented
!"slow loading

CUSTOMER ID VISITED
PRODUCT
PRODUCT
CATEGORY
45182584 370000004333 Books
45182584 300000053536 Games
11538222 857334358658 Electronics
79245368 370000004333 Books
11538222 370000004333 Books
11538222 942000033234 Electronics
78438133 370000004333 Books
Column-oriented
!"❤
fast loading

Requirements
• 10 000 message/sec
• Exactly-once

Requirements
• Exactly-once
Apache Flink?

Requirements
• Scalable solution ✅
• Exactly-once ✅
• Files in event-time ✅
• Columnar format (Parquet) ✅
Apache Flink?

Windowing
Kafka Flink HDFS
■ 17-00.parquet18:00-18:59
19:00-19:59

■ 17-00.parquet18:00-18:59
19:00-19:59
Windowing
Kafka Flink HDFS

■ 17-00.parquet
■ 18-00.parquet
19:00-19:59
18:00-18:59
Windowing
Kafka Flink HDFS

Handling failures?
• Out-of-the-box!

Handling failures?
• Out-of-the-box!
• But…

Handling failures?
• Out-of-the-box!
• But…
• Too much memory

Handling failures?
• Out-of-the-box!
• But…
• Too much memory
Kafka Flink HDFS
■ 16-00.parquet18:00-19:59

Handling failures?
• Out-of-the-box!
• But…
• Too much memory
Kafka Flink HDFS
■ 16-00.parquet18:00-19:59
OUT OF MEMORY

Bucketing sink
• Writes data to file “buckets” based on time

Bucketing sink
• Writes data to file “buckets” based on time
Kafka Flink HDFS
■ 17-00.parquet
■ 18-00.parquet
■ 19-00.parquet
18:00-18:59
19:00-19:59

Handling failures?
Kafka Flink HDFS
■ 17-00.parquet
■ 18-00.parquet
■ 19-00.parquet
18:00-18:59
19:00-19:59
Step 1

Handling failures?
Kafka Flink HDFS
■ 17-00.parquet
■ 18-00.parquet
■ 19-00.parquet
18:00-18:59
19:00-19:59
Step 2 (checkpoint)

■ 17-00.parquet
■ 18-00.parquet
■ 19-00.parquet
18:00-18:59
19:00-19:59
Step 3 (failure)
Handling failures?
Kafka Flink HDFS

■ 17-00.parquet
■ 18-00.parquet
■ 19-00.parquet
18:00-18:59
19:00-19:59
Step 4 (recovery)
Handling failures?
Kafka Flink HDFS

But…
• Truncating is not supported on HDFS
• Already fixed (Flink 1.6.0): copy instead of truncate
• Cannot flush Parquet files

Solution 3.
closing files at checkpoint

■ 17-00
■ 18-00/
■ part-0.parquet
■ 19-00/
■ part-0.parquet
18:00-18:59
19:00-19:59
Step 1
Closing files at checkpoints
Kafka Flink HDFS

Kafka Flink HDFS
18:00-18:59
19:00-19:59
■ 17-00
■ 18-00/
■ part-0.parquet
■ part-1.parquet
■ 19-00/
■ part-0.parquet
■ part-1.parquet
Step 2 (checkpoint)

18:00-18:59
19:00-19:59
■ 17-00
■ 18-00/
■ part-0.parquet
■ part-1.parquet
■ 19-00/
■ part-0.parquet
■ part-1.parquet
Step 3 (failure)
Kafka Flink HDFS

18:00-18:59
19:00-19:59
■ 17-00
■ 18-00/
■ part-0.parquet
■ part-1.parquet
■ 19-00/
■ part-0.parquet
■ part-1.parquet
Step 4 (recovery)
Kafka Flink HDFS

But…
• We need to change Flink bucketing sink code

But…
• Was also fixed in 1.6.0: StreamingFileSink can close files on checkpoints
• Kudos to Flink community!

But…
• Was also fixed in 1.6.0: StreamingFileSink can close files on checkpoints
• Kudos to Flink community!
• A lot of files
• Small files on HDFS is bad

Streaming fault-tolerance
WHY YOU SO COMPLICATED?

Solution 4.
daily/hourly batch job

■ 17-00.parquet
■ 18-00.parquet
18:00-18:59
Hourly batch job
Kafka Flink HDFS

Hourly batch job
Kafka Flink HDFS
■ 17-00.parquet
■ 18-00.parquet
18:00-18:59

■ 17-00.parquet
■ 18-00.parquet
■ 19-00.parquet
19:00-19:59
Hourly batch job
Kafka Flink HDFS

19:00-19:59 ■ 17-00.parquet
■ 18-00.parquet
■ 19-00.parquet
Hourly batch job
Kafka Flink HDFS

Sticking to batch processing…

It’s not perfect
• Reprocessing data

It’s not perfect
• Does not support “semi-real-time”

It’s not perfect
• Does not support “semi-real-time”
• Optimization
• Kafka time-based indexing

Proper solution?
• Use a database instead of files, or
• Use a different tool (e.g. Kafka Streams), or
• Write small files and merge them in the end, or
• Skip late events
• e.g. accept 5 minutes late, but not 12 hours

Support real-time?
• Kappa-architecture
• Streaming-only
• Lambda-architecture
• Batch system + streaming system
• Late events in daily batches + 5-minute files dropping late events

Streaming is not trivial (yet)

Streaming is not trivial (yet)
• Keep it simple!
• Understand the system!

?Gábor Hermann
ghermann@bol.com
@GbrHrmnn
Blogpost
https://tinyurl.com/kafka-to-parquet

Journeys from Kafka to Parquet

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Journeys from Kafka to Parquet

Similar to Journeys from Kafka to Parquet (20)

More from DataWorks Summit

More from DataWorks Summit (20)

Recently uploaded

Recently uploaded (20)

Journeys from Kafka to Parquet