What makes Apache Spark?
猿田 浩輔 / Kousuke Saruta
日本Hadoopユーザー会 / Apache Sparkコミッタ
飛躍的に進化するSpark
n 前回のSpark Conference Japan 2016の時点では
2.0のリリース直前だったが、現在は2.4がリリースさ
れている
• この間10倍の性能向上達成や、新たなストリーム処理エンジ
ンの追加など、劇的に進化した
n 今年は3.0がリリースされる見込み
• AIに関連したワークロードのサポートを強化する「Project
Hyrdogen」が目玉の一つ
Sparkに進化をもたらすものと、これからのSpark
n Sparkを取り巻くさまざまなトレンドがSparkに進化を
もたらす
n これまでの進化を振り返りながら、実際の活用のさ
れ方や、今後注目したいポイントをいくつかご紹介
データ活用のトレンドがSparkに進化をもたらす
n Unified Data Processing Engineとして着実に進化
n IoT/アナリティクスなど世の中のトレンドとなっているデー
タ活用は、Sparkでも人気のある用途
n 2.0以降データ活用のトレンドに即した機能強化も行わ
れた
• Structured Streaming => 本番利用もすでに11人
• Pythonからの活用の利便性向上
• Pandas UDFやビルトイン関数の拡充
n 昨今はAI/DL関連のデータ活用もトレンドの一つ
• 今後はProject Hydrogenの取り組みを中心に、この領域での
活用も狙う
n 事前のアンケートに基づくSparkの使われ方
0
50
100
150
200
250
バッチ処理 ETL データ分析 / 意思決
定支援
IoT / ストリーム処理 AI関連 レコメンデーション グラフ処理 その他
Sparkのユースケースのアンケート結果
バッチ / ETL / アナリティクスの用途で人気
アナリティクスの用途
も人気(168名)
ストリーム処理は
そこそこ(93名)
バッチ処理 / ETLはやはり多い(それぞれ217名 / 197名)
AIはこれから?
(58名)
ストリーム処理やAIでの活用は今後に期待
n ストリーム処理の領域でさらに活用されるために、
Structured Streamingの完成度の向上に期待
n AI/DL関連ワークロードは、Project Hydrogenの推進
により少しずつシェアを伸ばしていく?
分散コンピューティングのトレンドがSparkに進化をもたらす
n Hadoopは分散コンピューティングプラットフォームのス
タンダード
n Hadoopと連携しながら、Sparkもまたスタンダードと
しての地位を築いてきた
n Kubernetes
• 分散コンピューティングの新たなスタンダード
• Spark 2.3からサポートが始まった
• Kubernetesと連携する大規模データ処理基盤のスタンダード
としての地位を目指し、2.4以降も継続的にブラッシュアップが
行われている
n アンケート結果では、現時点ではYARNと組み合わせた
利用が圧倒的に多い
n おそらく世界的にも似た傾向
0
50
100
150
200
250
300
350
YARN Standalone Kubernetes ローカルモード その他
利用中のクラスタマネージャ
現時点ではYARNの利用が圧倒的
YARNと組み合わせている
ユーザーは303名
Kubernetesと組み合わせ
ているユーザーは23名
今後は適材適所のプラットフォームを選ぶ必要あり?
n Sparkのプラットフォームとしては、今はまだYARN一強
n Kubernetesサポート、そしてKubernetesそのものとエコ
システムの成熟に伴って、適切なプラットフォームの使い
分けは必要になってくる
• 大量の計算資源を必要とする定型バッチを実行する場合
• 組織内の計算資源をシェアしてアドホックにアナリティクスジョ
ブやサービスが実行される場合
などで、適切なプラットフォームは変わってくるはず
ハードウェアトレンドがSparkに進化をもたらす
n Project Tungsten(Spark 1.5〜)
• モダンなハードウェアを「使い切る」改善が行われた
­ Codegen
­ ベクタライズ
­ キャッシュアウェアなアルゴリズム
­ etc
n Accelerator Aware Scheduling(Spark 3.0?)
• Spark 3.0ではProject Hydrogenの取り組みの中でアクセラ
レータの活用を支援する仕組みが検討されている
ハードウェアトレンドがSparkに進化をもたらす
n ハードウェアトレンドが変われば活用の常識も変わる
n Sparkコミュニティとして現状動きがあるわけではない
が、Persistent Memoryなど新しいタイプのHWの普
及と共に、Spark今後どう進化するのかは注目ポイ
ント
引用元: https://software.intel.com/en-us/blogs/2018/10/30/intel-optane-dc-persistent-memory-a-major-advance-in-memory-and-storage-architecture
ユーザーがSparkに進化をもたらす
n Sparkはオープンソースソフトウェア
n 開かれ、維持されているコミュニティ
n 誰でも要望を伝える権利がある
• JIRA
• メーリングリスト
• オフラインディスカッション
• 開発に直接参加しなくても、Sparkを「つくる」ことが出来る
n 「使いやすさ」はユーザにしかわからない
n ユーザーの声もまた、Sparkに進化をもたらす
0
20
40
60
80
100
120
140
今後のSparkへの期待
ユーザーがSparkに進化をもたらす
パフォーマンス向上への期待が最も大きい
(119名)が、運用性 / トラブルシュートのし
やすさも無視できない数字(86名)
Spark 3.0

What makes Apache Spark?