Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
いろいろなストリーム処理理プロダクトを
ベンチマークしてみた
http://www.yahoo.co.jp/
ヤフー株式会社
データ&サイエンスソリューション統括本部
データインフラ本部 開発2部 アナリティクス基盤
三⽊木 健司
2016年年...
⾃自⼰己紹介
名前
三⽊木 健司(みつぎ けんじ)
エコシステム歴
MR,  Hive, storm,  Kafka...
仕事
アクセス解析 -‐‑‒>  ETL処理理 -‐‑‒>  インフラ構築
Copyright  (C)  2016  ...
動機
どのストリーム処理理が良良いか知りたい
YARNで動かしたい
Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 3
ストリーム処理理プロダクト紹介
Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 4
Storm紹介
初期リリース: 2011
主開発: Yahoo!(⽶米),  Hortonworks
特徴
⽅方式:  stream,  micro-‐‑‒batch
保証: at  least  once,  exactly  once
YA...
Spark  Streaming紹介
初期リリース: 2013 (Spark  0.7.0より)
主開発: Databricks
特徴
⽅方式: micro-‐‑‒batch
保証: at  least  once,  exactly  onc...
Samza紹介
初期リリース: 2013
主開発: LinkedIn
特徴
⽅方式: stream
保証:  at  least  once
YARN対応:  ◯
Copyright  (C)  2016  Yahoo  Japan  Corp...
Flink streaming紹介
初期リリース: 2014(Flink 0.7.0より)
主開発: Data  Artisans
特徴
⽅方式:  stream
保証:  at  least  once,  exactly  once
YAR...
ベンチマーク
Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 9
ベンチマークする前に
チューニングほぼなしで試してみた
→  今回はこちら
チューニング⾏行行い実環境に近い
→  次回あれば
Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rig...
ベンチマーク⽅方法
項⽬目 内容
CPU Xeon  E5-‐‑‒2630L  v2  2.40GHz  12Core
メモリ 64GB
HDD 500GB
ネットワーク 1G
台数 32台(実質動作は3台、他は管理理やKafka)
構築 Am...
ベンチマーク⽅方法
Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 12
4台
20台
3台
HDFSへ投⼊入
データ投...
ベンチマーク結果
0
5
10
15
Storm Spark Samza Flink
CPU使⽤用割合 平均
Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Rese...
Upcoming SlideShare
Loading in …5
×

いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016

1,195 views

Published on

Hadoop/Spark Conference Japan 2016のLT(ランチタイム: A会場)で話した資料になります。
http://hadoop.apache.jp/hcj2016-program/

Published in: Technology
  • Be the first to comment

いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016

  1. 1. いろいろなストリーム処理理プロダクトを ベンチマークしてみた http://www.yahoo.co.jp/ ヤフー株式会社 データ&サイエンスソリューション統括本部 データインフラ本部 開発2部 アナリティクス基盤 三⽊木 健司 2016年年2⽉月8⽇日
  2. 2. ⾃自⼰己紹介 名前 三⽊木 健司(みつぎ けんじ) エコシステム歴 MR,  Hive, storm,  Kafka... 仕事 アクセス解析 -‐‑‒>  ETL処理理 -‐‑‒>  インフラ構築 Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 2
  3. 3. 動機 どのストリーム処理理が良良いか知りたい YARNで動かしたい Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 3
  4. 4. ストリーム処理理プロダクト紹介 Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 4
  5. 5. Storm紹介 初期リリース: 2011 主開発: Yahoo!(⽶米),  Hortonworks 特徴 ⽅方式:  stream,  micro-‐‑‒batch 保証: at  least  once,  exactly  once YARN対応:  ◯(Sliderを使えば) Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 5
  6. 6. Spark  Streaming紹介 初期リリース: 2013 (Spark  0.7.0より) 主開発: Databricks 特徴 ⽅方式: micro-‐‑‒batch 保証: at  least  once,  exactly  once YARN対応:  ◯ Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 6
  7. 7. Samza紹介 初期リリース: 2013 主開発: LinkedIn 特徴 ⽅方式: stream 保証:  at  least  once YARN対応:  ◯ Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 7
  8. 8. Flink streaming紹介 初期リリース: 2014(Flink 0.7.0より) 主開発: Data  Artisans 特徴 ⽅方式:  stream 保証:  at  least  once,  exactly  once YARN対応:  ◯ Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 8
  9. 9. ベンチマーク Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 9
  10. 10. ベンチマークする前に チューニングほぼなしで試してみた →  今回はこちら チューニング⾏行行い実環境に近い →  次回あれば Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 10
  11. 11. ベンチマーク⽅方法 項⽬目 内容 CPU Xeon  E5-‐‑‒2630L  v2  2.40GHz  12Core メモリ 64GB HDD 500GB ネットワーク 1G 台数 32台(実質動作は3台、他は管理理やKafka) 構築 Ambari 2.2  (HDP  2.3.4) データ Apache  License  v2を永遠ループ(平均67byte) 処理理 word  count Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 11
  12. 12. ベンチマーク⽅方法 Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 12 4台 20台 3台 HDFSへ投⼊入 データ投⼊入 Hadoop(YARN)
  13. 13. ベンチマーク結果 0 5 10 15 Storm Spark Samza Flink CPU使⽤用割合 平均 Copyright  (C)  2016  Yahoo  Japan  Corporation.  All  Rights  Reserved.  無断引⽤用・転載禁⽌止 13

×