Apples and Oranges - Comparing Kafka Streams and Flink with Bill Bejeck

Comparing Kafka Streams and Flink
Bill Bejeck, Staff DevX Engineer
Apache Kafka committer and PMC member
bill@confluent.io | @bbejeck

Agenda
2
@bbejeck
• Architecture Overview
• Deployment
• Task / Work Assignment
• API
• Time Semantics
• State / Fault Tolerance

Architecture Overview – Kafka Streams
5
@bbejeck

6
@bbejeck

7
@bbejeck

Architecture Overview - Flink
8
@bbejeck

9
@bbejeck

11
@bbejeck
Deployment – Flink

12
@bbejeck

13
@bbejeck

Deployment – Kafka Streams
14
@bbejeck

Deployment – Kafka Streams
15
@bbejeck

17
@bbejeck
Shuffling/Repartitioning – Kafka Streams
//Details omitted for clarity
KStream<String, StockTrade> stream = builder.stream("stock-trade”)
stream.filter((key, trade) -> trade.numShares > 1000)
.groupBy((k, v) -> v.tickerSymbol)
.windowedBy(TimeWindows.ofSizeWithNoGrace(Duration.ofMinutes(5)))
.aggregate(TradeAgg::new,
(symbol, trade, agg) -> agg.update(trade))
.toStream().map((wKey, value) -> KeyValue.pair(wKey.key(), value))
.to("trade-aggregates”);

18
@bbejeck
Shuffling/Repartitioning – Kafka Streams
stream.filter((key, trade) -> trade.numShares > 1000)
.groupBy((k, v) -> v.tickerSymbol)

19
@bbejeck
Task Distribution - Repartitioning – Kafka Streams

Task / Work Assignment – Kafka Streams
20
@bbejeck

21
@bbejeck

22
@bbejeck

Task Distribution & Assignment – Kafka Streams
23
@bbejeck

24
@bbejeck

25
@bbejeck

26
@bbejeck
Task / Work Assignment - Kafka Streams
stream.filter((tickerSymbol, trade) -> trade.numShares > 1000)
.groupByKey()

27
@bbejeck
Task / Work Assignment - Kafka Streams

28
@bbejeck
Task Distribution & Assignment – Flink
// default parallelism set to 2 in configuration
KafkaSource<StockTrade> kafkaSource=KafkaSource.<StockTrade>builder()...build()
KafkaSink<StockTrade> kafkaSink=KafkaSink.<StockTrade>builder()...build()
DataStream<StockTrade> stream = env.fromSource(kafkaSource);
stream.filter(trade -> trade.numShares > 1000)
.keyBy(StockTrade::ticker)
.window(TumblingEventTimeWindows.of(Time.minutes(1)))
.aggregate(new TradeAgg())
.map(...)
.sinkTo(kafkaSink);

29
@bbejeck
.map(...)
.sinkTo(kafkaSink);

30
@bbejeck

31
@bbejeck

32
@bbejeck

33
@bbejeck

34
@bbejeck

35
@bbejeck
• Flink doesn’t work in key-value pairs
• Keys are Virtual – defined by functions
• Individual keys are allocated into KeyGroups for distribution

36
@bbejeck
Key Groups

37
@bbejeck
Max Parallelism
• Determines the number of Key Groups per operator
• Limits the number of parallel tasks keyed state can scale to
• Default level for cluster, jobs can set individually

38
@bbejeck
Max Parallelism

39
@bbejeck
Task Distribution & Assignment - Kafka Streams
stream.filter((tickerSymbol, trade) -> trade.numShares > 1000)
.repartition(Repartitioned.numberOfPartitions(10))
.groupByKey()
.windowedBy(...)

40
@bbejeck
.setParallelism(4)
.map(...)
.sinkTo(kafkaSink);

42
@bbejeck
API - Comparison
Kafka Streams
KStream<K, V> filter(final Predicate<? super K, ? super V> predicate)
Flink
SingleOutputStreamOperator<T> filter(FilterFunction<T> filter)

43
@bbejeck
API - Comparison
SingleOutputStreamOperator<T> filter(FilterFunction<T> filter)
T = SomeObject {
String id, // Key still present encapsulated in T
Long value
OR
StockTrade trade
}

44
@bbejeck
API – Flink
KafkaSource<StockTrade> kafkaStockTradeSource =
KafkaSource.<StockTrade>builder()
.setTopics("stock-trades")
.setBootstrapServers("bootstrap-servers")
.setProperties(properties)
.setStartingOffsets(OffsetsInitializer.earliest())
.setGroupId("flink-stock-trade")
.setDeserializer(new StockTradeDeserializationSchema())
.build();

45
@bbejeck
API - Flink
StockTradeDeserializationSchema implements KafkaRecordDeserializationSchema<StockTrade> {
@Override
public void deserialize(ConsumerRecord<byte[], byte[]> record,
Collector<StockTrade> out) throws IOException {
// deserialize key and value
// create object with key and value
out.collect(trade);
}
}

46
@bbejeck
API - Flink
KafkaSink<TradeAgg> kafkaSink =
KafkaSink.<StockTrade>builder()
.setKafkaProducerConfig(properties)
.setBootstrapServers("boostrap-servers")
.setDeliveryGuarantee(DeliveryGuarantee.AT_LEAST_ONCE)
.setRecordSerializer(new StockTradeSerializationSchema())
.build();

47
@bbejeck
API - Flink
StockTradeSerializationSchema implements KafkaRecordSerializationSchema<TradeAgg> {
final String topic; // constructor param
public ProducerRecord<byte[], byte[]> serialize(TradeAgg aggregate,
KafkaSinkContext context,
Long timestamp) {
// serialize key and value from aggregate obj
return new ProducerRecord(...);
}
}

49
@bbejeck
Time Semantics – Stream Processing

50
@bbejeck
Time Semantics – Kafka Streams

51
@bbejeck

52
@bbejeck

53
@bbejeck

54
@bbejeck
Time Semantics – Flink

55
@bbejeck
Time Semantics – Flink

57
@bbejeck
State / Fault Tolerance - Flink

58
@bbejeck
State / Fault Tolerance - Flink

59
@bbejeck
State / Fault Tolerance – Kafka Streams

60
@bbejeck

61
@bbejeck

62
@bbejeck

63
@bbejeck

64
@bbejeck
Summary
• Kafka Streams offers flexible deployment
• High Availability for processing
• Standby Tasks mitigate time to restore stateful processing
• Flink highly optimized
• Good for large stateful operations
• Snapshots offer quick recovery for moderate state

@bbejeck
Resources
• Kafka Streams 101 - https://developer.confluent.io/learn-kafka/kafka-
streams/get-started/
• Apache Flink 101 - https://developer.confluent.io/courses/apache-flink/intro/
• Building Flink apps in Java - https://developer.confluent.io/courses/flink-
java/overview/
• Kafka Streams in Action - 2nd edition Summer/Fall!
• https://www.manning.com/books/kafka-streams-in-action-second-edition
65

Thank you!
@bbejeck
bill@confluent.io
cnfl.io/meetups cnfl.io/slack
cnfl.io/blog

Apples and Oranges - Comparing Kafka Streams and Flink with Bill Bejeck

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Apples and Oranges - Comparing Kafka Streams and Flink with Bill Bejeck

Similar to Apples and Oranges - Comparing Kafka Streams and Flink with Bill Bejeck (20)

More from HostedbyConfluent

More from HostedbyConfluent (20)

Recently uploaded

Recently uploaded (20)

Apples and Oranges - Comparing Kafka Streams and Flink with Bill Bejeck