Successfully reported this slideshow.
Your SlideShare is downloading. ×

What makes Apache Spark?

More Related Content

Slideshows for you

More from Hadoop / Spark Conference Japan

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

What makes Apache Spark?

  1. 1. What makes Apache Spark? 猿田 浩輔 / Kousuke Saruta 日本Hadoopユーザー会 / Apache Sparkコミッタ
  2. 2. 飛躍的に進化するSpark n 前回のSpark Conference Japan 2016の時点では 2.0のリリース直前だったが、現在は2.4がリリースさ れている • この間10倍の性能向上達成や、新たなストリーム処理エンジ ンの追加など、劇的に進化した n 今年は3.0がリリースされる見込み • AIに関連したワークロードのサポートを強化する「Project Hyrdogen」が目玉の一つ
  3. 3. Sparkに進化をもたらすものと、これからのSpark n Sparkを取り巻くさまざまなトレンドがSparkに進化を もたらす n これまでの進化を振り返りながら、実際の活用のさ れ方や、今後注目したいポイントをいくつかご紹介
  4. 4. データ活用のトレンドがSparkに進化をもたらす n Unified Data Processing Engineとして着実に進化 n IoT/アナリティクスなど世の中のトレンドとなっているデー タ活用は、Sparkでも人気のある用途 n 2.0以降データ活用のトレンドに即した機能強化も行わ れた • Structured Streaming => 本番利用もすでに11人 • Pythonからの活用の利便性向上 • Pandas UDFやビルトイン関数の拡充 n 昨今はAI/DL関連のデータ活用もトレンドの一つ • 今後はProject Hydrogenの取り組みを中心に、この領域での 活用も狙う
  5. 5. n 事前のアンケートに基づくSparkの使われ方 0 50 100 150 200 250 バッチ処理 ETL データ分析 / 意思決 定支援 IoT / ストリーム処理 AI関連 レコメンデーション グラフ処理 その他 Sparkのユースケースのアンケート結果 バッチ / ETL / アナリティクスの用途で人気 アナリティクスの用途 も人気(168名) ストリーム処理は そこそこ(93名) バッチ処理 / ETLはやはり多い(それぞれ217名 / 197名) AIはこれから? (58名)
  6. 6. ストリーム処理やAIでの活用は今後に期待 n ストリーム処理の領域でさらに活用されるために、 Structured Streamingの完成度の向上に期待 n AI/DL関連ワークロードは、Project Hydrogenの推進 により少しずつシェアを伸ばしていく?
  7. 7. 分散コンピューティングのトレンドがSparkに進化をもたらす n Hadoopは分散コンピューティングプラットフォームのス タンダード n Hadoopと連携しながら、Sparkもまたスタンダードと しての地位を築いてきた n Kubernetes • 分散コンピューティングの新たなスタンダード • Spark 2.3からサポートが始まった • Kubernetesと連携する大規模データ処理基盤のスタンダード としての地位を目指し、2.4以降も継続的にブラッシュアップが 行われている
  8. 8. n アンケート結果では、現時点ではYARNと組み合わせた 利用が圧倒的に多い n おそらく世界的にも似た傾向 0 50 100 150 200 250 300 350 YARN Standalone Kubernetes ローカルモード その他 利用中のクラスタマネージャ 現時点ではYARNの利用が圧倒的 YARNと組み合わせている ユーザーは303名 Kubernetesと組み合わせ ているユーザーは23名
  9. 9. 今後は適材適所のプラットフォームを選ぶ必要あり? n Sparkのプラットフォームとしては、今はまだYARN一強 n Kubernetesサポート、そしてKubernetesそのものとエコ システムの成熟に伴って、適切なプラットフォームの使い 分けは必要になってくる • 大量の計算資源を必要とする定型バッチを実行する場合 • 組織内の計算資源をシェアしてアドホックにアナリティクスジョ ブやサービスが実行される場合 などで、適切なプラットフォームは変わってくるはず
  10. 10. ハードウェアトレンドがSparkに進化をもたらす n Project Tungsten(Spark 1.5〜) • モダンなハードウェアを「使い切る」改善が行われた ­ Codegen ­ ベクタライズ ­ キャッシュアウェアなアルゴリズム ­ etc n Accelerator Aware Scheduling(Spark 3.0?) • Spark 3.0ではProject Hydrogenの取り組みの中でアクセラ レータの活用を支援する仕組みが検討されている
  11. 11. ハードウェアトレンドがSparkに進化をもたらす n ハードウェアトレンドが変われば活用の常識も変わる n Sparkコミュニティとして現状動きがあるわけではない が、Persistent Memoryなど新しいタイプのHWの普 及と共に、Spark今後どう進化するのかは注目ポイ ント 引用元: https://software.intel.com/en-us/blogs/2018/10/30/intel-optane-dc-persistent-memory-a-major-advance-in-memory-and-storage-architecture
  12. 12. ユーザーがSparkに進化をもたらす n Sparkはオープンソースソフトウェア n 開かれ、維持されているコミュニティ n 誰でも要望を伝える権利がある • JIRA • メーリングリスト • オフラインディスカッション • 開発に直接参加しなくても、Sparkを「つくる」ことが出来る
  13. 13. n 「使いやすさ」はユーザにしかわからない n ユーザーの声もまた、Sparkに進化をもたらす 0 20 40 60 80 100 120 140 今後のSparkへの期待 ユーザーがSparkに進化をもたらす パフォーマンス向上への期待が最も大きい (119名)が、運用性 / トラブルシュートのし やすさも無視できない数字(86名)
  14. 14. Spark 3.0

×