Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

What makes Apache Spark?

563 views

Published on

Hadoop / Spark Conference Japan 2019
『What makes Apache Spark?』
日本Hadoopユーザー会
猿田 浩輔(Apache Sparkコミッタ、NTTデータ)

Published in: Technology
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

What makes Apache Spark?

  1. 1. What makes Apache Spark? 猿田 浩輔 / Kousuke Saruta 日本Hadoopユーザー会 / Apache Sparkコミッタ
  2. 2. 飛躍的に進化するSpark n 前回のSpark Conference Japan 2016の時点では 2.0のリリース直前だったが、現在は2.4がリリースさ れている • この間10倍の性能向上達成や、新たなストリーム処理エンジ ンの追加など、劇的に進化した n 今年は3.0がリリースされる見込み • AIに関連したワークロードのサポートを強化する「Project Hyrdogen」が目玉の一つ
  3. 3. Sparkに進化をもたらすものと、これからのSpark n Sparkを取り巻くさまざまなトレンドがSparkに進化を もたらす n これまでの進化を振り返りながら、実際の活用のさ れ方や、今後注目したいポイントをいくつかご紹介
  4. 4. データ活用のトレンドがSparkに進化をもたらす n Unified Data Processing Engineとして着実に進化 n IoT/アナリティクスなど世の中のトレンドとなっているデー タ活用は、Sparkでも人気のある用途 n 2.0以降データ活用のトレンドに即した機能強化も行わ れた • Structured Streaming => 本番利用もすでに11人 • Pythonからの活用の利便性向上 • Pandas UDFやビルトイン関数の拡充 n 昨今はAI/DL関連のデータ活用もトレンドの一つ • 今後はProject Hydrogenの取り組みを中心に、この領域での 活用も狙う
  5. 5. n 事前のアンケートに基づくSparkの使われ方 0 50 100 150 200 250 バッチ処理 ETL データ分析 / 意思決 定支援 IoT / ストリーム処理 AI関連 レコメンデーション グラフ処理 その他 Sparkのユースケースのアンケート結果 バッチ / ETL / アナリティクスの用途で人気 アナリティクスの用途 も人気(168名) ストリーム処理は そこそこ(93名) バッチ処理 / ETLはやはり多い(それぞれ217名 / 197名) AIはこれから? (58名)
  6. 6. ストリーム処理やAIでの活用は今後に期待 n ストリーム処理の領域でさらに活用されるために、 Structured Streamingの完成度の向上に期待 n AI/DL関連ワークロードは、Project Hydrogenの推進 により少しずつシェアを伸ばしていく?
  7. 7. 分散コンピューティングのトレンドがSparkに進化をもたらす n Hadoopは分散コンピューティングプラットフォームのス タンダード n Hadoopと連携しながら、Sparkもまたスタンダードと しての地位を築いてきた n Kubernetes • 分散コンピューティングの新たなスタンダード • Spark 2.3からサポートが始まった • Kubernetesと連携する大規模データ処理基盤のスタンダード としての地位を目指し、2.4以降も継続的にブラッシュアップが 行われている
  8. 8. n アンケート結果では、現時点ではYARNと組み合わせた 利用が圧倒的に多い n おそらく世界的にも似た傾向 0 50 100 150 200 250 300 350 YARN Standalone Kubernetes ローカルモード その他 利用中のクラスタマネージャ 現時点ではYARNの利用が圧倒的 YARNと組み合わせている ユーザーは303名 Kubernetesと組み合わせ ているユーザーは23名
  9. 9. 今後は適材適所のプラットフォームを選ぶ必要あり? n Sparkのプラットフォームとしては、今はまだYARN一強 n Kubernetesサポート、そしてKubernetesそのものとエコ システムの成熟に伴って、適切なプラットフォームの使い 分けは必要になってくる • 大量の計算資源を必要とする定型バッチを実行する場合 • 組織内の計算資源をシェアしてアドホックにアナリティクスジョ ブやサービスが実行される場合 などで、適切なプラットフォームは変わってくるはず
  10. 10. ハードウェアトレンドがSparkに進化をもたらす n Project Tungsten(Spark 1.5〜) • モダンなハードウェアを「使い切る」改善が行われた ­ Codegen ­ ベクタライズ ­ キャッシュアウェアなアルゴリズム ­ etc n Accelerator Aware Scheduling(Spark 3.0?) • Spark 3.0ではProject Hydrogenの取り組みの中でアクセラ レータの活用を支援する仕組みが検討されている
  11. 11. ハードウェアトレンドがSparkに進化をもたらす n ハードウェアトレンドが変われば活用の常識も変わる n Sparkコミュニティとして現状動きがあるわけではない が、Persistent Memoryなど新しいタイプのHWの普 及と共に、Spark今後どう進化するのかは注目ポイ ント 引用元: https://software.intel.com/en-us/blogs/2018/10/30/intel-optane-dc-persistent-memory-a-major-advance-in-memory-and-storage-architecture
  12. 12. ユーザーがSparkに進化をもたらす n Sparkはオープンソースソフトウェア n 開かれ、維持されているコミュニティ n 誰でも要望を伝える権利がある • JIRA • メーリングリスト • オフラインディスカッション • 開発に直接参加しなくても、Sparkを「つくる」ことが出来る
  13. 13. n 「使いやすさ」はユーザにしかわからない n ユーザーの声もまた、Sparkに進化をもたらす 0 20 40 60 80 100 120 140 今後のSparkへの期待 ユーザーがSparkに進化をもたらす パフォーマンス向上への期待が最も大きい (119名)が、運用性 / トラブルシュートのし やすさも無視できない数字(86名)
  14. 14. Spark 3.0

×