Apache Incubator Samza: Stream Processing at LinkedIn

1. Apache Samza* Stream Processing at LinkedIn Chris Riccomini 9/27/2013 * Incubating

3. Stream Processing?

4. 0 ms Response latency

5. 0 ms Response latency Synchronous

6. 0 ms Response latency Synchronous Later. Possibly much later.

7. 0 ms Response latency Milliseconds to minutes Synchronous Later. Possibly much later.

8. Newsfeed

9. News

10. Ad Relevance

11. Email

12. Search Indexing Pipeline

13. Metrics and Monitoring

14. Motivation

15. Real-time Feeds • • • • User activity Metrics Monitoring Database Changes

16. Real-time Feeds • 10+ billion writes per day • 172,000 messages per second (average) • 55+ billion messages per day to real-time consumers

17. Stream Processing is Hard • • • • • • Partitioning State Re-processing Failure semantics Joins to services or database Non-determinism

18. Samza Concepts & Architecture

19. Streams Partition 0 Partition 1 Partition 2

20. Streams Partition 0 1 2 3 4 5 6 Partition 1 1 2 3 4 5 Partition 2 1 2 3 4 5 6 7

25. Streams Partition 0 1 2 3 4 5 6 Partition 1 1 2 3 4 5 Partition 2 1 2 3 4 5 6 7 next append

26. Tasks Partition 0

27. Tasks Partition 0 Task 1

28. Tasks Partition 0 class PageKeyViewsCounterTask implements StreamTask { public void process(IncomingMessageEnvelope envelope, MessageCollector collector, TaskCoordinator coordinator) { GenericRecord record = ((GenericRecord) envelope.getMsg()); String pageKey = record.get("page-key").toString(); int newCount = pageKeyViews.get(pageKey).incrementAndGet(); collector.send(countStream, pageKey, newCount); } }

38. Tasks Partition 0 Task 1

39. Tasks Page Views - Partition 0 1 2 3 4 PageKeyViews CounterTask Partition 0 Partition 1 Output Count Stream

42. Tasks Page Views - Partition 0 1 2 3 4 PageKeyViews CounterTask Output Count Stream Partition 0 Partition 1

47. Tasks Page Views - Partition 0 1 2 3 4 PageKeyViews CounterTask Checkpoint Stream 2 Output Count Stream Partition 1 Partition 0 Partition 1

56. Jobs Stream A Task 1 Task 2 Stream B Task 3

57. Jobs Stream A Task 1 Stream B Task 2 Stream C Task 3

58. Jobs AdViews Task 1 AdClicks Task 2 AdClickThroughRate Task 3

59. Jobs AdViews Task 1 AdClicks Task 2 AdClickThroughRate Task 3

60. Jobs Stream A Task 1 Stream B Task 2 Stream C Task 3

61. Dataflow Stream A Stream B Job 1 Stream D Job 2 Stream E Job 3 Stream B Stream C

62. Dataflow Stream A Stream B Job 1 Stream D Job 2 Stream E Job 3 Stream B Stream C

63. YARN

64. Jobs Stream A Task 1 Task 2 Stream B Task 3

65. Containers Stream A Task 1 Task 2 Stream B Task 3

66. Containers Stream A Samza Container 1 Stream B Samza Container 2

67. Containers Samza Container 1 Samza Container 2

68. YARN Host 1 Samza Container 1 Host 2 Samza Container 2

69. YARN Host 1 Host 2 NodeManager NodeManager Samza Container 1 Samza Container 2

70. YARN Host 1 Host 2 NodeManager NodeManager Samza Container 1 Samza Container 2 Samza YARN AM

71. YARN Host 1 Host 2 NodeManager NodeManager Samza Container 1 Kafka Broker Samza Container 2 Samza YARN AM Kafka Broker

72. YARN Host 1 Host 2 NodeManager NodeManager MapReduce Container HDFS MapReduce YARN AM MapReduce Container HDFS

73. YARN Host 1 Stream A NodeManager Samza Container 1 Samza Container 1 Kafka Broker Stream C Samza Container 2

77. YARN Host 1 Host 2 NodeManager NodeManager Samza Container 1 Kafka Broker Samza Container 2 Samza YARN AM Kafka Broker

78. CGroups Host 1 Host 2 NodeManager NodeManager Samza Container 1 Kafka Broker Samza Container 2 Samza YARN AM Kafka Broker

79. (Not Running) Multi-Framework Host 1 Host 2 NodeManager NodeManager Samza Container 1 Kafka MapReduce Container Samza YARN AM HDFS

80. Stateful Processing

81. SELECT col1, count(*) FROM stream1 INNER JOIN stream2 ON stream1.col3 = stream2.col3 WHERE col2 > 20 GROUP BY col1 ORDER BY count(*) DESC LIMIT 50;

85. How do people do this?

86. Remote Stores Stream A Task 1 Task 2 Task 3 Key-Value Store Stream B

87. Remote RPC is slow • Stream: ~500k records/sec/container • DB: << less

88. Online vs. Async

89. No undo • Database state is non-deterministic • Can’t roll back mutations if task crashes

90. Tables & Streams put(a, w) put(b, x) Database put(a, y) put(b, z) Time

91. Stateful Tasks Stream A Task 1 Task 2 Stream B Task 3

92. Stateful Tasks Stream A Task 1 Task 2 Stream B Task 3

93. Stateful Tasks Stream A Task 1 Task 2 Stream B Task 3 Changelog Stream

105. Key-Value Store • • • • put(table_name, key, value) get(table_name, key) delete(table_name, key) range(table_name, key1, key2)

106. Whew!

107. Let’s be Friends! • We are incubating, and you can help! • Get up and running in 5 minutes http://bit.ly/hello-samza • Grab some newbie JIRAs http://bit.ly/samza_newbie_issues

Apache Incubator Samza: Stream Processing at LinkedIn

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to Apache Incubator Samza: Stream Processing at LinkedIn

Similar to Apache Incubator Samza: Stream Processing at LinkedIn (20)

Recently uploaded

Recently uploaded (20)

Apache Incubator Samza: Stream Processing at LinkedIn

Editor's Notes