Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築

2,131 views

Published on

KafkaとSparkを組み合わせたリアルタイム分析基盤をアーキテクチャの視点で見ていきます。

Published in: Technology

Devsumi 2016 b_4 KafkaとSparkを組み合わせたリアルタイム分析基盤の構築

  1. 1. © 2016 IBM Corporation 「乗り遅れるな!KafkaとSparkを組み合わせた リアルタイム分析基盤の構築」 IBM アナリティクス事業本部 テクニカルリード 田中 裕一 2016.2.18 #devsumiB 18-B-4
  2. 2. © 2016 IBM Corporation2 自己紹介 田中裕一(yuichi tanaka) 主にアーキテクチャとサーバーサイドプログラムを担当 することが多い。Hadoop/Spark周りをよく触ります。 Node.js、Python、最近はSpark周りの仕事でScalaを書く ことが多い気がします。 休日はOSS周りで遊んだり。
  3. 3. © 2016 IBM Corporation3 今日の講演の持ち帰りポイント ターゲット ▪ これからビッグデータを創めたい方 ▪ Sparkを始めたい・ビッグデータ始めたいエンジニアの取っ掛かり ▪ ビッグデータをやることになったけど何から始めたらよいか?という方 持ち帰りポイント ▪ Spark+Kafkaを使った解析基盤の概要の把握、オリジナルの基盤構築を 行うことが出来る ▪ ビジネス担当の方には「こんなことが出来るんじゃないか?」という発 想の種
  4. 4. © 2016 IBM Corporation4 今日のアジェンダ  Hadoop/Sparkの広がりについて  従来のHadoop基盤のおさらいと問題提起  Spark/Kafkaの概要のおさらい  リアルタイム解析基盤について  リアルタイム解析基盤の活用
  5. 5. © 2016 IBM Corporation5 Apache Hadoop/SparkとBigData Apache Hadoop Apache Spark Apache Kafka のそれぞれのトレンド
  6. 6. © 2016 IBM Corporation6 Sparkの広がり Sparkはイノベータ、アーリアドプタを超えて広がりつつある
  7. 7. © 2016 IBM Corporation7 業界に横串で展開されるBig Data
  8. 8. © 2016 IBM Corporation8 BigDataとはどんなものか
  9. 9. © 2016 IBM Corporation9 BigData基盤 従来のHadoop基盤
  10. 10. © 2016 IBM Corporation10 Inputの問題 データを格納するタイミングの問題
  11. 11. © 2016 IBM Corporation11 処理時間の問題 どうやってレイテンシを下げるかの問題
  12. 12. © 2016 IBM Corporation12 データの反映の問題 アウトプットの問題
  13. 13. © 2016 IBM Corporation13 Apache Spark/Apache Kafkaのおさらい ここでやること ▪Apache Sparkの概要 ▪Apache Kafkaの概要
  14. 14. © 2016 IBM Corporation14 Apache Sparkの概要 SQLのインタフェース を提供 グラフ操作を提供 ストリーミング処理を 提供 機械学習アルゴリズム を提供
  15. 15. © 2016 IBM Corporation15 Apache Sparkの概要 HadoopでのMapReduceの処理例
  16. 16. © 2016 IBM Corporation16 Apache Sparkの概要 SparkでのRDD&DAGの処理例
  17. 17. © 2016 IBM Corporation17 Apache Kafkaの概要 Kafkaの俯瞰図
  18. 18. © 2016 IBM Corporation18 KafkaとSparkを使ったリアルタイム解析基盤
  19. 19. © 2016 IBM Corporation19 リアルタイム解析基盤ではキューが重要
  20. 20. © 2016 IBM Corporation20 キューによる処理系の分離
  21. 21. © 2016 IBM Corporation21 キューを使ったストリーミングフロー制御
  22. 22. © 2016 IBM Corporation22 キューを使った処理やアルゴリズムの検証
  23. 23. © 2016 IBM Corporation23 リアルタイム基盤の活用
  24. 24. © 2016 IBM Corporation24 リアルタイム基盤の活用
  25. 25. © 2016 IBM Corporation25 リアルタイム基盤の活用
  26. 26. © 2016 IBM Corporation26 リアルタイム基盤の活用
  27. 27. © 2016 IBM Corporation27 まとめ  Sparkは利用事例や活用事例がこれからなサービス  多様な業種で必要とされるビッグデータ処理を包括的に、イ ンタラクティブに扱うことが出来る  設計に当たってキューを使っておくとアーキテクチャ全体の 耐障害性・可用性が担保しやすい
  28. 28. © 2016 IBM Corporation28 Appendix DataPaloozaを日本でもやります!
  29. 29. © 2016 IBM Corporation29 Appendix IBMはHadoopのディストリビューションを持っています。 OpenDataPlatform http://www.ibm.com/analytics/us/en/technology/hadoop/ BigInsights http://www-03.ibm.com/software/products/ja/ibm-biginsights-for-apache-hadoop/ Bluemix https://console.ng.bluemix.net/
  30. 30. © 2016 IBM Corporation30 Appendix IBMはSpark/Hadoopにつよい会社です http://jp.techcrunch.com/2015/06/16/20150615ibm-pours-researchers-and-resources-into- apache-spark-project/
  31. 31. © 2016 IBM Corporation31 ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。 それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、 またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが 「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によ って、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含まれている内 容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェ アの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。 本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であ ることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づい てIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約するこ とを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、または その他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマン スは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループッ トやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理さ れるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと 同様の結果を得られると確約するものではありません。 記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例と して示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。 IBM、IBM ロゴ、ibm.comは、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。 他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。 現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。 Apache Hadoop、Hadoop、Apache Spark、Spark、Apache Kafka、Kafka、 Apache、は、Apache Software Foundationの米国およびその他の国 における登録商標、または商標です。

×