Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Cold-Start Reinforcement Learning with Softmax Policy Gradient

1,347 views

Published on

2018/02/04の関東CV勉強会「強化学習論文読み会」資料
Cold-Start Reinforcement Learning with
Softmax Policy Gradient

Published in: Technology
  • Be the first to comment

Cold-Start Reinforcement Learning with Softmax Policy Gradient

  1. 1. @
  2. 2. • • • • • • •
  3. 3. • • • •
  4. 4. 調子はどうですか? RNN
  5. 5. 調子はどうですか? 昨日 単語を出力 RNN
  6. 6. 調子はどうですか? 昨日 入力側に持ってきて・・・ RNN
  7. 7. 調子はどうですか?昨日 生成した結果を入力の最後に追加 RNN
  8. 8. 調子はどうですか?昨日 から RNN
  9. 9. 調子はどうですか? 昨日から RNN
  10. 10. 調子はどうですか? 昨日から インフルエンザ RNN
  11. 11. 調子はどうですか? 昨日からインフルエンザ です RNN
  12. 12. • • •
  13. 13. 「調子」「は」「どう」 「ですか」 文章を単語に分割して・・・ RNN
  14. 14. 「0100000」 「0000010」 「1000000」 「0001000」 ベクトルで表現 RNN
  15. 15. 「0100000」 「0000010」 「1000000」 「0001000」 出力は単語の 生成確率 0.1 0.0 0.0 0.1 0.0 0.8 80%で「昨日」を選択 RNN softmax
  16. 16. • • 昨日(80%) 明日(0%) 天気(0%) ・ ・ ・ 今日(10%)
  17. 17. • • 昨日(80%) 明日(0%) 天気(0%) ・ ・ ・ 今日(10%) から(80%) も(10%) と(0%) ・ ・ ・
  18. 18. • • 昨日(80%) 明日(0%) 天気(0%) ・ ・ ・ 今日(10%) から(80%) も(10%) と(0%) ・ ・ ・ インフルエンザ(10%) ・ ・ ・
  19. 19. 昨日(80%) 明日(0%) 天気(0%) ・ ・ ・ 今日(10%) から(80%) も(10%) と(0%) ・ ・ ・ インフルエンザ(10%) ・ ・ ・ •
  20. 20. • x y • 昨日 明日 天気 ・ ・ ・ 今日 から も と ・ ・ ・ インフルエンザ ・ ・ ・ 調子はどう ですか? RNNの出力がyになるように学習、 要はsoftmax cross entropy
  21. 21. • • T • • 昨日 明日 天気 ・ ・ ・ 今日 調子はどう ですか? (´・ω・`)知らんがな・・・ 適当な単語出したろ・・・
  22. 22. ____ / \ / ─ ─ \ / (●) (●) \ | (__人__) | ./ ∩ノ ⊃ / ( \ / _ノ | | .\ “ /__| | \ /___ / 論文の書き方10000000000000 パターンくらい教えてあげよう /\___/ヽ /'''''' '''''':::::::\ . |(●), 、(●)、 .:| + | ,,ノ(、_, )ヽ、,, .::::| . | `-=ニ=- ' .:::::::| + \ `ニニ´ .:::::/ + ,,.....イ.ヽヽ、ニ__ ーーノ゙-、. : | '; \_____ ノ.| ヽ i | \/゙(__)\,| i | > ヽ. ハ | || 理想的な教師あり学習の場合 ほうほう こんなやつはいない
  23. 23. / ̄ ̄\ / _ノ \ | ( ●)(●) . | (__人__) | ` ⌒´ノ . | } . ヽ } ヽ ノ \ / く \ \ | \ \ \ | |ヽ、二⌒)、 \ / ̄ ̄ ̄ \ / ― ― \ / (●) (●) \ | (__人__) | \ mj |⌒´ / 〈__ノ ノ ノ Kaiming Heの論文を10本見せてやるから、 来週までに同等の成果と論文書けや (・・・・・コピペしよ 実際に教師あり学習をしようとすると・・・
  24. 24. • 昨日(80%) 明日(0%) 天気(0%) ・ ・ ・ 今日(10%) から(80%) も(10%) と(0%) ・ ・ ・ インフルエンザ(10%) ・ ・ ・
  25. 25. • • • •
  26. 26. ____ /_ノ ヽ、_\ ミ ミ ミ o゚((●)) ((●))゚o ミ ミ ミ /⌒)⌒)⌒) ::::::⌒(__人__)⌒:::\ /⌒)⌒)⌒) | / / / |r┬-| | (⌒)/ / / // | :::::::::::(⌒) | | | /|^| ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄| | ノ | | | \| | | ヽ / `ー'´ | | | | | l||l 从人 l||l. | | VAIO. | ヽ .---一ー_~、⌒)、⌒)^),| | | ヽ _____,ノ|二二二二|_|_______________| 強化学習の場合 peisukeとかいう奴の書く論文、 全部ウ○コ! こんなやつはいる・・・ので、一応は解ける
  27. 27. • • • • • •
  28. 28. / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 論文書けた!
  29. 29. / ̄ ̄\ /ノ( _ノ \ | ⌒(( ●)(●) .| (__人__) /⌒l | ` ⌒´ノ |`'''| / ⌒ヽ } | | ____ / へ \ }__/ / /─ ?\ / / | ノ ノ /●)) ((●\ . ’, ・ ぐぇあ ( _ ノ | \´ _ / (__人__)’,∴\ , ’ | \_,, -- ''"  ̄ ゙̄''?---└'´ ̄`ヽ/ > て .| __ ノ / ( ヽ _,, -- ''" ̄ヽ、 ̄ `ー'´ / r'" ̄ \ , '´ / .| \ ( / | \ \ / / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 微妙! 論文書けた!
  30. 30. / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 論文書けた!
  31. 31. / ̄ ̄\ /ノ( _ノ \ | ⌒(( ●)(●) .| (__人__) /⌒l | ` ⌒´ノ |`'''| / ⌒ヽ } | | ____ / へ \ }__/ / /─ ?\ / / | ノ ノ /●)) ((●\ . ’, ・ ぐぇあ ( _ ノ | \´ _ / (__人__)’,∴\ , ’ | \_,, -- ''"  ̄ ゙̄''?---└'´ ̄`ヽ/ > て .| __ ノ / ( ヽ _,, -- ''" ̄ヽ、 ̄ `ー'´ / r'" ̄ \ , '´ / .| \ ( / | \ \ / / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 微妙! 論文書けた!
  32. 32. / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 論文書けた!
  33. 33. / ̄ ̄\ /ノ( _ノ \ | ⌒(( ●)(●) .| (__人__) /⌒l | ` ⌒´ノ |`'''| / ⌒ヽ } | | ____ / へ \ }__/ / /─ ?\ / / | ノ ノ /●)) ((●\ . ’, ・ ぐぇあ ( _ ノ | \´ _ / (__人__)’,∴\ , ’ | \_,, -- ''"  ̄ ゙̄''?---└'´ ̄`ヽ/ > て .| __ ノ / ( ヽ _,, -- ''" ̄ヽ、 ̄ `ー'´ / r'" ̄ \ , '´ / .| \ ( / | \ \ / / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 微妙! 論文書けた!
  34. 34. / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 論文書けた!
  35. 35. / ̄ ̄\ /ノ( _ノ \ | ⌒(( ●)(●) .| (__人__) /⌒l | ` ⌒´ノ |`'''| / ⌒ヽ } | | ____ / へ \ }__/ / /─ ?\ / / | ノ ノ /●)) ((●\ . ’, ・ ぐぇあ ( _ ノ | \´ _ / (__人__)’,∴\ , ’ | \_,, -- ''"  ̄ ゙̄''?---└'´ ̄`ヽ/ > て .| __ ノ / ( ヽ _,, -- ''" ̄ヽ、 ̄ `ー'´ / r'" ̄ \ , '´ / .| \ ( / | \ \ / / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 微妙! 論文書けた!
  36. 36. / \ /\ キリッ . / (ー) (ー)\ / ⌒(__人__)⌒ \ | |r┬-| | \ `ー'´ / ノ \ /´ ヽ | l \ ヽ -一''''''"~~``'ー--、 -一'''''''ー-、. ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒)) 論文書けた! / ̄ ̄\ / _ノ \ ( ●)(●) . (__人__) そこの表現は○○○だろ… ` ⌒´ノ 常識的に考えて… . } . ヽ } ヽ ノ \ / く \ \ \ \ \ ヽ、二⌒)、 \ 時々良い表現を教えてやりたい
  37. 37. • • • 従来 適当に文章を生成したら・・・ ・・・イケてる! なんかlogとexpくっつけてみた 提案手法
  38. 38. とある文章zが生成された時に・・・ ・・・その文章の良さRに応じて、 生成した方向に学習をすすめる が大抵ゼロなので、パラメータが更新されない 学習が進んでいない段階では、
  39. 39. とあるqの確率で文章をサンプリングして、 その文章を記憶 生成モデルと、教師の文章両方を加味してサンプリング すなわち、pの出力した下手な文章に、Rを参考にしたちょっと良 い表現を加えて、学習を進める
  40. 40. • • • • • •
  41. 41. • • •
  42. 42. • • • •
  43. 43. • • • • • •
  44. 44. 画像と文の組み合わせを入力して、勾配を出力する問題
  45. 45. 期待値を計算するためのモンテカルロサンプリング
  46. 46. 全ての新しいワード候補zに関する良し悪しを計算
  47. 47. NN( pq )の出力と報酬分布(r)の出力の和のsoftmaxより 各zの出現確率が求まるので、新たなzをサンプリング
  48. 48. 実装上は -log pq をloss値とすればOK
  49. 49. W=0の場合は単にzをサンプリング
  50. 50. サンプルしたzを生成文に追加
  51. 51. • • • •
  52. 52. • • • • • •
  53. 53. • • • •
  54. 54. • • • • • •

×