Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Copyright © BrainPad Inc. All Rights Reserved.
Sparkパフォーマンス検証
2015年5月15日
Copyright © BrainPad Inc. All Rights Reserved.
1. Spark検証環境
2
Copyright © BrainPad Inc. All Rights Reserved.
Spark 1.2.0
YARN 2.5.0
3
• クラスタマネージャ
– YARN
– Sparkはyarn-clusterモードで起動
• デー...
Copyright © BrainPad Inc. All Rights Reserved.
 1 Resource Manager
– 16コア
– 16GB
 12 Node Manager
– 8コア
– 8GB
– HDFSのDat...
Copyright © BrainPad Inc. All Rights Reserved.
 1 Name Node
– 16コア
– 16GB
 12 Data Node
– 8コア
– 8GB
– YARNのNode Managerと...
Copyright © BrainPad Inc. All Rights Reserved.
2. Spark検証
6
Copyright © BrainPad Inc. All Rights Reserved.
アクセスログからPVを日別に集計する時間を計測する。
PV集計は、アクセスログに含まれる日時データから日付を特定し、日付ごとのログ
件数を累計する処理...
Copyright © BrainPad Inc. All Rights Reserved.
 データフォーマット
– csv
– カラム数
• 14
 データサイズ
– 1行あたりログサイズ
• 約370B
– 1日あたりログサイズ
• ...
Copyright © BrainPad Inc. All Rights Reserved.
 以下のパラメータを変動させ、それぞれの結果を取る。
1. executor-memory (512m, 1g, 2g)
• 1executorに割...
Copyright © BrainPad Inc. All Rights Reserved.
3. Spark検証結果
10
Copyright © BrainPad Inc. All Rights Reserved. 11
以下パラメータは固定。
• num-executors = 13
• executor-cores = 1
• データサイズ = 90g
exe...
Copyright © BrainPad Inc. All Rights Reserved. 12
以下パラメータは固定。
• executor-memory = 1g
• executor-cores = 1
• データサイズ = 90g
n...
Copyright © BrainPad Inc. All Rights Reserved. 13
以下パラメータは固定。
• executor-memory = 1g
• num-executors = 13
• データサイズ = 90g
e...
Copyright © BrainPad Inc. All Rights Reserved. 14
以下パラメータは固定。
• executor-memory = 1g
• num-executors = 13
• executor-cores...
Copyright © BrainPad Inc. All Rights Reserved.
 並列数は、executorの数を増やすよりもexecutorが複数のコアを使えるように
増やしたほうが改善の幅が大きい。
– 1 taskあたりの...
Copyright © BrainPad Inc. All Rights Reserved.
4. Spark Streaming検証
16
Copyright © BrainPad Inc. All Rights Reserved.
アクセスログをKafkaからSpark Streamingに流して、日時別のPVを計算する。10
分程度Kafkaからログデータをストリーミングして、...
Copyright © BrainPad Inc. All Rights Reserved.
 Spark検証と同じログデータを使う。
– ログデータを10分間、一定のQPSでKafkaから流す。
18
検証データ(アクセスログ)
Copyright © BrainPad Inc. All Rights Reserved.
 以下のパラメータを変動させ、それぞれの結果を取る。
1. executor-memory (512m, 1g, 2g)
2. num-execut...
Copyright © BrainPad Inc. All Rights Reserved.
 クラスタ構成
– 5 Broker
• 4コア
• 16GB
– 3 Zookeeper node
• 4コア
• 16GB
 アクセスログを流...
Copyright © BrainPad Inc. All Rights Reserved.
5. Spark Streaming検証結果
21
Copyright © BrainPad Inc. All Rights Reserved. 22
以下パラメータは固定。
• num-executors = 13
• executor-cores = 1
• インターバル = 5秒
• QP...
Copyright © BrainPad Inc. All Rights Reserved. 23
num-executors
200
250
300
350
400
450
500
550
600
650
700
13 26 39 52
実行...
Copyright © BrainPad Inc. All Rights Reserved. 24
executor-cores
200
250
300
350
400
450
500
550
600
650
700
1 2 3 4
実行時間 ...
Copyright © BrainPad Inc. All Rights Reserved. 25
インターバル
0
10
20
30
40
50
60
0
200
400
600
800
1000
1200
1400
5 15 30 60
1...
Copyright © BrainPad Inc. All Rights Reserved. 26
QPS
200
250
300
350
400
450
500
550
600
650
700
1500 2000 2500 7000
実行時間...
Copyright © BrainPad Inc. All Rights Reserved.
 並列数の増加は結果に悪影響を与えている。
– タスクごとの実行時間は、並列数を増やすと増加していた。
• Shuffle Readのサイズも増えて...
Copyright © BrainPad Inc. All Rights Reserved.
6. Spark Streamingデモアプリ検証
28
Copyright © BrainPad Inc. All Rights Reserved.
Spark, MLlib, Spark streamingを使ってコンバージョン予測デモアプリを作成し、
そのパフォーマンスを測定する。
デモアプリは...
Copyright © BrainPad Inc. All Rights Reserved. 30
デモアプリイメージ図
Kafka Spark Streaming
HDFS
Spark
特徴量
特徴量 モデル
モデル 予測結果
アクセスログ
...
Copyright © BrainPad Inc. All Rights Reserved.
1. Spark Streamingでの特徴量作成〜モデル取得〜予測
– 処理内容
• データは先の検証と同じくアクセスログを使用
• 特徴量はCSV...
Copyright © BrainPad Inc. All Rights Reserved.
 Kafka
– Broker数 5
– パーティション数 5
 Spark
– num-executors 13
– executor-core...
Copyright © BrainPad Inc. All Rights Reserved.
7. Spark Streamingデモアプリ検証結果
33
Copyright © BrainPad Inc. All Rights Reserved. 34
ストリーミングでの特徴量作成 – モデル取得 – 予測
0
200
400
600
800
1000
1200
1400
0 1000 2000...
Copyright © BrainPad Inc. All Rights Reserved. 35
バッチでのモデル構築 (入力データ行数を変動)
0
10
20
30
40
50
60
0 2 4 6 8 10 12 14
特徴量行数(100...
Copyright © BrainPad Inc. All Rights Reserved. 36
バッチでのモデル構築 (特徴量の数を変動)
0
20
40
60
80
100
120
140
160
180
200
0 100 200 30...
Copyright © BrainPad Inc. All Rights Reserved.
 ストリーミング
– HDFSへの書き込みやモデルを使った予測など、ある程度複雑な処理をしても
QPS4000程度なら1秒以内にさばける。
 バッ...
Copyright © BrainPad Inc. All Rights Reserved.
 検証内容
– デモアプリの特徴量や予測結果書き込み先をHDFSからHBaseに変えてみる。
– 細かいパフォーマンスというよりは、SparkからH...
Copyright © BrainPad Inc. All Rights Reserved. 39
ストリーミングでの特徴量作成 – モデル取得 – 予測
0
200
400
600
800
1000
1200
1400
1500 3000 6...
Copyright © BrainPad Inc. All Rights Reserved. 40
バッチでのモデル構築 (入力データ行数を変動)
0
10
20
30
40
50
60
0 2 4 6 8 10 12 14
特徴量行数(100...
Copyright © BrainPad Inc. All Rights Reserved.
 データ量が少ないうちは差が出ないが、データ量が増えるにしたがってHBaseを
使ったほうが書き込みケース(ストリーミング)、読み込みケース(バッチ...
Copyright © BrainPad Inc. All Rights Reserved.
8. まとめ
42
Copyright © BrainPad Inc. All Rights Reserved.
 並列数のチューニングがパフォーマンスを決定している。
– 1 executorに複数コアを割り当てたほうが高速化する。
– 一方、ストリーミングの...
Copyright © BrainPad Inc. All Rights Reserved.
株式会社ブレインパッド
〒108-0071 東京都港区白金台3-2-10 白金台ビル3F
TEL:03-6721-7001
FAX:03-6721-7...
You’ve finished this document.
Download and read it offline.
Upcoming SlideShare
Apache Spark チュートリアル
Next
Upcoming SlideShare
Apache Spark チュートリアル
Next
Download to read offline and view in fullscreen.

Share

Sparkパフォーマンス検証

Download to read offline

株式会社ブレインパッドが行ったApache Sparkのパフォーマンス検証作業に関する資料です。詳細は、ブレインパッド公式ブログ「Platinum Data Blog」をご覧ください。URL:http://blog.brainpad.co.jp/

Sparkパフォーマンス検証

  1. 1. Copyright © BrainPad Inc. All Rights Reserved. Sparkパフォーマンス検証 2015年5月15日
  2. 2. Copyright © BrainPad Inc. All Rights Reserved. 1. Spark検証環境 2
  3. 3. Copyright © BrainPad Inc. All Rights Reserved. Spark 1.2.0 YARN 2.5.0 3 • クラスタマネージャ – YARN – Sparkはyarn-clusterモードで起動 • データストレージ – HDFS • OS – Centos.6.6 Spark検証環境 HDFS 2.5.0 Centos6.6 * 13台 ※回線は、検証に使ったインフラの都合上1Gbps。
  4. 4. Copyright © BrainPad Inc. All Rights Reserved.  1 Resource Manager – 16コア – 16GB  12 Node Manager – 8コア – 8GB – HDFSのData Nodeと同居 4 YARNクラスタ
  5. 5. Copyright © BrainPad Inc. All Rights Reserved.  1 Name Node – 16コア – 16GB  12 Data Node – 8コア – 8GB – YARNのNode Managerと同居 5 HDFSクラスタ
  6. 6. Copyright © BrainPad Inc. All Rights Reserved. 2. Spark検証 6
  7. 7. Copyright © BrainPad Inc. All Rights Reserved. アクセスログからPVを日別に集計する時間を計測する。 PV集計は、アクセスログに含まれる日時データから日付を特定し、日付ごとのログ 件数を累計する処理。 SparkアプリケーションはScalaで実装。 7 検証内容 HDFS Spark 1. HDFSからログデータをロード 3. 標準出力へ結果を書き込み 2. Sparkで日別にPV集計処理 stdout
  8. 8. Copyright © BrainPad Inc. All Rights Reserved.  データフォーマット – csv – カラム数 • 14  データサイズ – 1行あたりログサイズ • 約370B – 1日あたりログサイズ • 約1GB – 日数 • 90日 – 全体のログサイズ • 約90GB 8 検証データ(アクセスログ)
  9. 9. Copyright © BrainPad Inc. All Rights Reserved.  以下のパラメータを変動させ、それぞれの結果を取る。 1. executor-memory (512m, 1g, 2g) • 1executorに割り当てるメモリ 2. num-executors (13, 26, 39, 52) • Spark全体で起動するexecutorの数 3. executor-cores (1,2,3,4) • 1executorに割り当てるコア数 4. 入力ログデータサイズ (1g, 30g, 60g, 90g) • 入力するデータの合計サイズ 9 検証項目
  10. 10. Copyright © BrainPad Inc. All Rights Reserved. 3. Spark検証結果 10
  11. 11. Copyright © BrainPad Inc. All Rights Reserved. 11 以下パラメータは固定。 • num-executors = 13 • executor-cores = 1 • データサイズ = 90g executor-memory 20000 30000 40000 50000 60000 70000 80000 90000 100000 512m 1g 2g 4g 実行時間 (ms)
  12. 12. Copyright © BrainPad Inc. All Rights Reserved. 12 以下パラメータは固定。 • executor-memory = 1g • executor-cores = 1 • データサイズ = 90g num-executors 20000 30000 40000 50000 60000 70000 80000 90000 100000 13 26 39 52 実行時間 (ms)
  13. 13. Copyright © BrainPad Inc. All Rights Reserved. 13 以下パラメータは固定。 • executor-memory = 1g • num-executors = 13 • データサイズ = 90g executor-cores 20000 30000 40000 50000 60000 70000 80000 90000 100000 1 2 3 4 実行時間 (ms)
  14. 14. Copyright © BrainPad Inc. All Rights Reserved. 14 以下パラメータは固定。 • executor-memory = 1g • num-executors = 13 • executor-cores = 1 入力ログデータサイズ 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 1g 30g 60g 90g 実行時間 (ms)
  15. 15. Copyright © BrainPad Inc. All Rights Reserved.  並列数は、executorの数を増やすよりもexecutorが複数のコアを使えるように 増やしたほうが改善の幅が大きい。 – 1 taskあたりのShuffle Write Timeが、コア数増加したときのほうが3倍以上速かっ た。Executorの数が増えるとそれだけプロセス/ノードをまたぐshuffleが増えるか ら? • executor数を52、コア数を1にした場合のShuffle Write Time -> 142,596ms • executor数を13、コア数を13にした場合のShuffle Write Time -> 47,517ms  executor-memoryの増加は結果に悪影響を与えている。 – 今回のケースでは各executorが扱うデータサイズが512mに収まっており、ディスク へのスワップも発生していないため、メモリ増加は効果がなかった。  3ヶ月分のデータを30秒程度でさばけるのは、体感的にかなり速く感じる。 15 考察
  16. 16. Copyright © BrainPad Inc. All Rights Reserved. 4. Spark Streaming検証 16
  17. 17. Copyright © BrainPad Inc. All Rights Reserved. アクセスログをKafkaからSpark Streamingに流して、日時別のPVを計算する。10 分程度Kafkaからログデータをストリーミングして、各ジョブの平均実行時間を見 る。 PV集計はバッチ処理と同様、アクセスログに含まれる日時データからそのログの日 時を特定し、日時別のログ件数を累計する処理。 17 検証内容 Kafka Spark Streaming 1. Kafkaからアクセスログを流す 3. 標準出力へ結果を随時書き込み 2. Spark Streamingでn秒ごとに、時間別PV集計処理 (updateStateByKeyを使用) stdout
  18. 18. Copyright © BrainPad Inc. All Rights Reserved.  Spark検証と同じログデータを使う。 – ログデータを10分間、一定のQPSでKafkaから流す。 18 検証データ(アクセスログ)
  19. 19. Copyright © BrainPad Inc. All Rights Reserved.  以下のパラメータを変動させ、それぞれの結果を取る。 1. executor-memory (512m, 1g, 2g) 2. num-executors (13, 26, 39, 52) 3. executor-cores (1,2,3,4) 4. インターバル (5秒,15秒,30秒,60秒) • Spark Streamingの、マイクロバッチインターバル 5. QPS (1500, 2000, 2500, 7000) • Kafkaが1秒間に流すデータの件数 19 検証項目
  20. 20. Copyright © BrainPad Inc. All Rights Reserved.  クラスタ構成 – 5 Broker • 4コア • 16GB – 3 Zookeeper node • 4コア • 16GB  アクセスログを流すトピック – パーティション数1 – レプリケーション数1  Spark Streaming側のレシーバ数 – 1で固定 20 Kafka
  21. 21. Copyright © BrainPad Inc. All Rights Reserved. 5. Spark Streaming検証結果 21
  22. 22. Copyright © BrainPad Inc. All Rights Reserved. 22 以下パラメータは固定。 • num-executors = 13 • executor-cores = 1 • インターバル = 5秒 • QPS = 1500 executor-memory 200 250 300 350 400 450 500 550 600 650 700 512m 1g 2g 4g 実行時間 (ms)
  23. 23. Copyright © BrainPad Inc. All Rights Reserved. 23 num-executors 200 250 300 350 400 450 500 550 600 650 700 13 26 39 52 実行時間 (ms) 以下パラメータは固定。 • executor-memory = 1g • executor-cores = 1 • インターバル = 5秒 • QPS = 1500
  24. 24. Copyright © BrainPad Inc. All Rights Reserved. 24 executor-cores 200 250 300 350 400 450 500 550 600 650 700 1 2 3 4 実行時間 (ms) 以下パラメータは固定。 • executor-memory = 1g • num-executors = 13 • インターバル = 5秒 • QPS = 1500
  25. 25. Copyright © BrainPad Inc. All Rights Reserved. 25 インターバル 0 10 20 30 40 50 60 0 200 400 600 800 1000 1200 1400 5 15 30 60 1秒あたりの実行時間(ms) 実行時間(ms) 実行時間 (ms) 1秒あたりの実行時間 (ms) 以下パラメータは固定。 • executor-memory = 1g • num-executors = 13 • executor-cores = 1 • QPS = 1500
  26. 26. Copyright © BrainPad Inc. All Rights Reserved. 26 QPS 200 250 300 350 400 450 500 550 600 650 700 1500 2000 2500 7000 実行時間 (ms) 以下パラメータは固定。 • executor-memory = 1g • num-executors = 13 • executore-cores = 1 • インターバル = 5秒
  27. 27. Copyright © BrainPad Inc. All Rights Reserved.  並列数の増加は結果に悪影響を与えている。 – タスクごとの実行時間は、並列数を増やすと増加していた。 • Shuffle Readのサイズも増えており、並列数が増えることにより無駄なShuffleが発生してい たのかもしれない。 – タスクが複雑になったり、マイクロバッチの処理するデータサイズが増えれば並列数の 効果が効いてくるんでは?(未検証)  メモリの増加は結果に影響を与えていない。 – Sparkの検証と同じく、512mに収まっているため。  インターバルが長いほうが、より効率的に処理出来ている。 – バッチ実行回数が減るため。アプリケーションの要求とメモリの制約の中で、できるだ け長いインターバルを設定するのがベターか。  今回の実装だと、7000QPS(2500kb / sec)程度ならさばける。 – 5秒インターバルなら単純計算で、22MB / secまでさばける。 • (7000qps * 370b) * (5000ms / 550ms) / 1024 / 1024 ≒ 22MB 27 考察
  28. 28. Copyright © BrainPad Inc. All Rights Reserved. 6. Spark Streamingデモアプリ検証 28
  29. 29. Copyright © BrainPad Inc. All Rights Reserved. Spark, MLlib, Spark streamingを使ってコンバージョン予測デモアプリを作成し、 そのパフォーマンスを測定する。 デモアプリは、以下2つのコンポーネントから成る。 1. Spark Streamingでの特徴量作成〜モデル取得〜予測 2. Spark & MLlibでのモデル構築 29 デモアプリ
  30. 30. Copyright © BrainPad Inc. All Rights Reserved. 30 デモアプリイメージ図 Kafka Spark Streaming HDFS Spark 特徴量 特徴量 モデル モデル 予測結果 アクセスログ 1. アクセスログから特徴量を抽出 2. モデルをロードして、アクセスしたユーザーの コンバージョン予測 1. 特徴量からモデルを作成 2. モデルをHDFSに保存
  31. 31. Copyright © BrainPad Inc. All Rights Reserved. 1. Spark Streamingでの特徴量作成〜モデル取得〜予測 – 処理内容 • データは先の検証と同じくアクセスログを使用 • 特徴量はCSVテキスト形式でユーザーID・累計訪問回数・累計ページビュー数・コンバージョ ンフラグを出力(10秒ごと) • HDFSからモデルを取得し、ユーザーIDごとに特徴量を作成して予測を実施 – すなわち、ユーザーごとのコンバージョン予測を行っている。 – 今回の検証ではレイテンシに焦点を当てているため、予測精度については特に突き詰めていない。 – 検証項目 • QPS (1000, 2000, 3000) 2. バッチでの学習 – 処理内容 • ストリーミング処理で出力されたCSVデータを取得 • CSVデータから特徴ベクトルを作成し、RandomForestで学習 • 作成されたモデルをHDFSに保存 – 検証項目 • 特徴量の行数 (250万, 500万, 1000万) • 特徴量の列数 (100, 200, 300) 31 検証内容
  32. 32. Copyright © BrainPad Inc. All Rights Reserved.  Kafka – Broker数 5 – パーティション数 5  Spark – num-executors 13 – executor-cores 4 – executor-memory 6GB – driver-memory 6GB  Spark Streaming – num-executors 5 – executor-cores 4 – Executor-memory 512m – Driver-memory 512m – Kafkaレシーバ数 5 – インターバル 10秒 32 動作環境
  33. 33. Copyright © BrainPad Inc. All Rights Reserved. 7. Spark Streamingデモアプリ検証結果 33
  34. 34. Copyright © BrainPad Inc. All Rights Reserved. 34 ストリーミングでの特徴量作成 – モデル取得 – 予測 0 200 400 600 800 1000 1200 1400 0 1000 2000 3000 4000 5000 6000 7000 QPS 実行時間 (ms) 各ジョブの平均実行時間を計測。
  35. 35. Copyright © BrainPad Inc. All Rights Reserved. 35 バッチでのモデル構築 (入力データ行数を変動) 0 10 20 30 40 50 60 0 2 4 6 8 10 12 14 特徴量行数(100万行) 実行時間 (秒)
  36. 36. Copyright © BrainPad Inc. All Rights Reserved. 36 バッチでのモデル構築 (特徴量の数を変動) 0 20 40 60 80 100 120 140 160 180 200 0 100 200 300 400 500 600 特徴量の数 実行時間 (秒)
  37. 37. Copyright © BrainPad Inc. All Rights Reserved.  ストリーミング – HDFSへの書き込みやモデルを使った予測など、ある程度複雑な処理をしても QPS4000程度なら1秒以内にさばける。  バッチ(データサイズの増加) – ストリーミング側が細かいファイルを多く吐き出すので、どこかでマージするか HBaseを使うなどしたほうがよさそう。 – 今回のように1行あたりのデータが小さいと、データ容量よりはファイル数のほうが影 響あり?  バッチ(特徴量数の増加) – 計測できた範囲では、特徴量数の増加に比例して処理時間が伸びる。 – 特徴量数が大きくなるとOOMが発生する。 • メモリに依存しているのでしょうがないというのはある。 – 今回はExperimentalな実装であるRandomForestを使っていたため、アルゴリズムに よって結果は変わりそう。 37 考察
  38. 38. Copyright © BrainPad Inc. All Rights Reserved.  検証内容 – デモアプリの特徴量や予測結果書き込み先をHDFSからHBaseに変えてみる。 – 細かいパフォーマンスというよりは、SparkからHBaseを使う例が欲しかった。 • 実際はHDFSではなくHBaseなどのヘビーライトに耐えられるストレージを使うことになると 思われるので。  HBase (0.98.6) – クラスタ • Master1台(Name Nodeと同居) • Regsion Server12台(Data Nodeと同居) – ヒープサイズ 2GB – テーブル • 特徴量テーブル – ストリーミングから特徴量データを書き込むテーブル。 – 1 Column Familyに、各特徴量ごとにカラムを分けて書き込み – RowKeyは、{バケットID}-{リバースタイムスタンプ}-{ユーザーID} – Regsion数13に事前分割 • コンバージョン予測結果テーブル – ストリーミングからユーザーごとのコンバージョン予測結果を書き込むテーブル。 – RowkeyはユーザーID – カラムはコンバージョンフラグの1つのみ。 – Region数は13に事前分割 38 HBaseを使った追加検証
  39. 39. Copyright © BrainPad Inc. All Rights Reserved. 39 ストリーミングでの特徴量作成 – モデル取得 – 予測 0 200 400 600 800 1000 1200 1400 1500 3000 6000 QPS HBase HDFS 各ジョブの平均実行時間を計測。
  40. 40. Copyright © BrainPad Inc. All Rights Reserved. 40 バッチでのモデル構築 (入力データ行数を変動) 0 10 20 30 40 50 60 0 2 4 6 8 10 12 14 特徴量行数(100万行) HBase HDFS
  41. 41. Copyright © BrainPad Inc. All Rights Reserved.  データ量が少ないうちは差が出ないが、データ量が増えるにしたがってHBaseを 使ったほうが書き込みケース(ストリーミング)、読み込みケース(バッチ)と もに、処理時間の伸びが鈍い。 – HBaseは実際にデータをHDFSに書き込むまでラグがある(MemStoreに貯める)の で、直にHDFSに書き込むのに比べて速いのだろう。 – 読み込みは、HDFS経由の場合は大量の小さなファイルを読み込むことになるが(スト リーミング側が数秒ごとに出力するため)、HBaseはそうはならないのでHDFSに比べ て良い結果がでているのだろう。  MLlibは内部で(RDDの)collectをコールするなど、メモリを圧迫する処理を 複数回行うため、以下の対応が必要だった。 – trainする前にpersistする。 – driverのメモリサイズを大きくする。 41 考察
  42. 42. Copyright © BrainPad Inc. All Rights Reserved. 8. まとめ 42
  43. 43. Copyright © BrainPad Inc. All Rights Reserved.  並列数のチューニングがパフォーマンスを決定している。 – 1 executorに複数コアを割り当てたほうが高速化する。 – 一方、ストリーミングのケースのように、並列数を増やすうことで処理が悪化するケー スもある。(メモリについても同じ) – 処理の内容やデータサイズに合わせて、適切なポイントを選ぶ必要がある。  パフォーマンスを出すには、書き方の工夫が必要。 – このスライドには現れていないが、(RDDオブジェクトの)repartitionやpersistな ど、適宜タスク数を調整したりキャッシュを入れたりする必要がある。  MLlibは内部でcollectなどメモリを圧迫する処理を複数回行うため、以下の対応 が必要。 – trainする前にpersistする。 – driverのメモリサイズを調整する。  管理UIが使いやすく、チューニングをするのに非常に助かる。 – どのタスクがどのくらい時間をとっているか、など。 43 まとめ
  44. 44. Copyright © BrainPad Inc. All Rights Reserved. 株式会社ブレインパッド 〒108-0071 東京都港区白金台3-2-10 白金台ビル3F TEL:03-6721-7001 FAX:03-6721-7010 info@brainpad.co.jp Copyright © BrainPad Inc. All Rights Reserved. www.brainpad.co.jp
  • kaindu

    Sep. 14, 2021
  • AyumiOwada

    Nov. 14, 2019
  • seicho2

    Oct. 24, 2019
  • YanlongChen1

    Oct. 20, 2019
  • nkamata

    Apr. 11, 2017
  • HirofumiKawasaki

    Jul. 21, 2016
  • matsukenbook

    Apr. 22, 2016
  • harukiokada98

    Feb. 3, 2016
  • tadatoshi

    Dec. 28, 2015
  • takashikaneda

    Nov. 12, 2015
  • AndrePemmelaar

    Oct. 29, 2015
  • Tyee

    Oct. 28, 2015
  • KanSakamoto

    Oct. 28, 2015
  • teramonagi

    Oct. 28, 2015
  • indy-yuki

    Oct. 26, 2015
  • yamajunjunjun

    Aug. 29, 2015
  • takashiimura10

    May. 28, 2015
  • f_prg

    May. 27, 2015
  • soonraah

    May. 25, 2015

株式会社ブレインパッドが行ったApache Sparkのパフォーマンス検証作業に関する資料です。詳細は、ブレインパッド公式ブログ「Platinum Data Blog」をご覧ください。URL:http://blog.brainpad.co.jp/

Views

Total views

9,217

On Slideshare

0

From embeds

0

Number of embeds

1,348

Actions

Downloads

53

Shares

0

Comments

0

Likes

19

×