Parallel Stochastic Gradient Discent #nipsreading
Upcoming SlideShare
Loading in...5
×
 

Parallel Stochastic Gradient Discent #nipsreading

on

  • 1,669 views

Parallel Stochastic Gradient Discent #nipsreading

Parallel Stochastic Gradient Discent #nipsreading

Statistics

Views

Total Views
1,669
Views on SlideShare
1,405
Embed Views
264

Actions

Likes
2
Downloads
14
Comments
0

3 Embeds 264

http://d.hatena.ne.jp 259
https://twitter.com 4
http://webcache.googleusercontent.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Parallel Stochastic Gradient Discent #nipsreading Parallel Stochastic Gradient Discent #nipsreading Presentation Transcript

    • Parallelized Stochastic Gradient Descent Martin A. Zinkevich. et al. #nipsreading @nokuno
    • 概要 2 MapReduceによるSGDの並列化を提案 アルゴリズムは超シンプル 解析部分はサッパリ分からず時間が足りないので省略 実験結果は至って普通
    • 既存手法 3 教師あり学習の並列化にはいくつかの分類がある マルチコア環境での並列SGD MapReduce環境でのバッチ学習の並列化 提案法はMapReduce環境での並列SGD
    • 前提知識:MapReduce 4 k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 3 6 8 reduce reduce reduce r1 s1 r2 s2 r3 s3
    • SGD:擬似コード 5 オンラインで勾配を使って重み更新 c j :データjに対するコスト関数 wt :時刻tの重み  :学習率
    • ParallelSGD:擬似コード 6 各コンピュータでSGDした結果の重みを平均する k: コンピュータ数 このアルゴリズムでは全コンピュータが全データを持つ必要がある!
    • SimuParallelSGD: 擬似コード 7 MapReduce向きにデータも処理も分散させるMapReduce
    • 実験データ 8 たぶんYahoo! Mailのスパム判定セットで実験 非公開のEメールシステムのデータセットを使用 ラベルは2値ラベル テストセット:681,015個 訓練セット:2,508,220個 特徴量: 785,751,531次元(非常にスパース) ハッシュで2^18 次元に圧縮 ノーマライズ済み
    • 実験結果(訓練誤差) 9 データとマシンを増やせばスケールする
    • 実験結果(テストセット) 10 テストセットでも効果は同様と確認できた
    • 実験結果(訓練誤差) 11正則化項を小さくすると、Single Pathより並能が良い(?) 訓練誤差で結果を論じられても・・・
    • まとめ 12 MapReduceによるSGDの並列化を提案 アルゴリズムは超シンプル ちゃんとスケールするよ
    • 13ご清聴ありがとうございました Presentation by