Volodymyr Mnih,Adrià Puigdomènech Badia,Mehdi Mirza,et al.
arXiv:1602.01783v2 [cs.LG] 16 Jun 2016
Asynchronous Methods for Deep
Reinforcement Learning
DeepLearningゼミ M1小川一太郎
DQNおさらい
• 𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼( 𝑟 + 𝛾𝑚𝑎𝑥𝑄∗
𝑠′
, 𝑎′
− 𝑄(𝑠, 𝑎))
• 行動したあとの状態をもとに、報酬(r)と遷移後の行動価値(Q*)を判断する
• Experience Replay
学習データをランダムに選択
• 学習データの相関をなくす
• Reword Clipping
• 報酬を±1に(大きさの固定)
• Target Network
• 教師データのNNを遅れて更新
• Loss Clipping
• Qの更新時の勾配の大きさの最大最小値を±1に(大きな更新を防ぐ)
Deep Rainforce Learningの改善の方向性
今までのDRL
• Online-agentによるデータは否定常
• OnlineRLの更新は非常に相関が強い
• バッチ化やExperience Replayで改善
• Off-PolicyなRLメソッドに限定していた(例:過去のデータから学習)
Experience Replay
メモリ使用大 計算量大
改善の方向性:より定常なプロセスでデータ収集出来るのではないか
非同期並列な学習
• データを非同期並列に学習する
• エージェント&学習部の探索方針が違う
利点:学習が安定化
• 学習時間がactor-learnerの分だけ減らせる
• Experience Replayに頼らないため、on-poicyなメソッドを使用できる
Off-Policy ON-Policy
Q学習 • Sarsa
• n-step methods
• Actor-Critic methods
メソッド例
On-Policyなメソッド①
Sarsa
• ほぼQ学習と同じ
• 更新式𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑟 + 𝛾𝑄 𝑠′
, 𝑎′
− 𝑄 𝑠, 𝑎
• maxQ*ではなく、実際の行動a’を使用
N-step Q-Learning
• 更新式(変化部分だけ)
(𝑟𝑡+𝛾𝑟𝑡+1 + 𝛾2 𝑟𝑡+2 + ⋯ + 𝛾 𝑛−1 𝑟𝑡+𝑛−1) + 𝛾 𝑛 𝑚𝑎𝑥𝑄∗ 𝑠𝑡+𝑛, 𝑎 𝑡+𝑛
− 𝑄 𝑠, 𝑎
• N回分まで実際に得た報酬を使用して学習
On-Policyなメソッド②
Actor-Critic
• 状態の表現方法
• 価値関数とは別に方策を表現する
• 行動選択(P:状態sで行動aとる確率)
• 𝜋 𝑡 𝑠, 𝑎 = 𝑃𝑟 𝑎 𝑡 = 𝑎 𝑠𝑡 = 𝑠 =
𝑒 𝑃(𝑠,𝑎)
𝑏 𝑒 𝑃(𝑠,𝑏)
• 状態価値観数
• 𝑉 𝑠𝑡 ← 𝑉 𝑠𝑡 + 𝛼[𝑟𝑡+1 + 𝛾𝑉 𝑠𝑡+1 − 𝑉(𝑠𝑡)]
• 𝑃 𝑠𝑡, 𝑎 𝑡 ← 𝑃 𝑠𝑡, 𝑎 𝑡 + 𝛽𝛿𝑡
非同期並列な強化学習(Q学習)
ローカルなQネット(θ)を使用して
それぞれのacter-learnerで勾配を蓄積
一定回数ごとにTネット(θ-)を
グローバルなQネット(θ)から更新
蓄積した勾配をもとに、一定回数ごとに
グローバルなQネット(θ)を更新
異なる探索方式が存在しているた
め、ロバスト性が改善される
A3C asynchronous advantage actor-critic
規定の回数まで行動する
行動にはθを用いる
報酬計算はθ’を用いる
終了から報酬を逆算する
θとθ’を更新
CNN層のみ共有し、出力は
方策:ソフトマックス
価値:線形結合
実験 Atari2600
• DQNと同様にAtari2600のスコアを計算
• グラフの縦軸はスコア、横軸は時間
• 16スレッド
• エピソード長5 同期頻度5
NNの構造
• 16filter 8*8size stride4
• 32filter 4*4size stride2
• 256 hidden
57ゲームにおいて人間のスコアと比較。
A3CにLSTM層を追加したものが非常に
高い値を記録している。
実験 Atari2600
• 各手法でゲームをしたときのスコアを比較
• それぞれの値は提唱された論文に記載のものを使用
• 57種類のゲームのうち最大の点数となったもの
• A3C FF, 1day 3種類
• A3C FF 4種類
• L3C LSTM 19種類 (最後に256のLSTM層)
他手法との比較(例)
TORCS Car Racing Simulator
• Atariの時と同じアーキテクチャ
• 12時間の学習
• 人のテスターが得たスコアのだいたい75%~90%を得ることができる
Labyrinth
• りんごを獲得 1pt
• ゴールに到達 10pt
• 60秒で1エピソード
まとめ
• 非同期並列なDRLの方法を提唱した
• A3Cは既存の手法よりも良い結果を残した
• ARLの利点として
• Experience Replayを使用しないため探索に方策を持つことができる
• エージェント、学習部の探索方針が違うため、学習データの相関が減少
• マルチCPUで動作するため、通信コストが削減
参考資料
• Asynchronous Methods for Deep Reinforcement Learning
(紹介論文)
Volodymyr Mnih,Adrià Puigdomènech Badia,Mehdi Mirza,et al.
https://arxiv.org/pdf/1602.01783.pdf
• 強化学習の基礎
小池 康晴 東京工業大学 精密工学研究所
鮫島 和行 科学技術振興事業団 ERATO 川人学習動態脳プロジェク
ト
http://www.jnns.org/previous/niss/2000/text/koike2.pdf

A3C解説