A3C解説

Volodymyr Mnih，Adrià Puigdomènech Badia，Mehdi Mirza，et al．
arXiv:1602.01783v2 [cs.LG] 16 Jun 2016
Asynchronous Methods for Deep
Reinforcement Learning
DeepLearningゼミ M1小川一太郎

DQNおさらい
• 𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼( 𝑟 + 𝛾𝑚𝑎𝑥𝑄∗
𝑠′
, 𝑎′
− 𝑄(𝑠, 𝑎))
• 行動したあとの状態をもとに、報酬(r)と遷移後の行動価値(Q*)を判断する
• Experience Replay
学習データをランダムに選択
• 学習データの相関をなくす
• Reword Clipping
• 報酬を±1に(大きさの固定)
• Target Network
• 教師データのNNを遅れて更新
• Loss Clipping
• Qの更新時の勾配の大きさの最大最小値を±1に(大きな更新を防ぐ)

Deep Rainforce Learningの改善の方向性
今までのDRL
• Online-agentによるデータは否定常
• OnlineRLの更新は非常に相関が強い
• バッチ化やExperience Replayで改善
• Off-PolicyなRLメソッドに限定していた(例：過去のデータから学習)
Experience Replay
メモリ使用大計算量大
改善の方向性：より定常なプロセスでデータ収集出来るのではないか

非同期並列な学習
• データを非同期並列に学習する
• エージェント＆学習部の探索方針が違う
利点：学習が安定化
• 学習時間がactor-learnerの分だけ減らせる
• Experience Replayに頼らないため、on-poicyなメソッドを使用できる
Off-Policy ON-Policy
Q学習 • Sarsa
• n-step methods
• Actor-Critic methods
メソッド例

On-Policyなメソッド①
Sarsa
• ほぼQ学習と同じ
• 更新式𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑟 + 𝛾𝑄 𝑠′
, 𝑎′
− 𝑄 𝑠, 𝑎
• maxQ*ではなく、実際の行動a’を使用
N-step Q-Learning
• 更新式(変化部分だけ)
(𝑟𝑡+𝛾𝑟𝑡+1 + 𝛾2 𝑟𝑡+2 + ⋯ + 𝛾 𝑛−1 𝑟𝑡+𝑛−1) + 𝛾 𝑛 𝑚𝑎𝑥𝑄∗ 𝑠𝑡+𝑛, 𝑎 𝑡+𝑛
− 𝑄 𝑠, 𝑎
• N回分まで実際に得た報酬を使用して学習

On-Policyなメソッド②
Actor-Critic
• 状態の表現方法
• 価値関数とは別に方策を表現する
• 行動選択(P:状態sで行動aとる確率)
• 𝜋 𝑡 𝑠, 𝑎 = 𝑃𝑟 𝑎 𝑡 = 𝑎 𝑠𝑡 = 𝑠 =
𝑒 𝑃(𝑠,𝑎)
𝑏 𝑒 𝑃(𝑠,𝑏)
• 状態価値観数
• 𝑉 𝑠𝑡 ← 𝑉 𝑠𝑡 + 𝛼[𝑟𝑡+1 + 𝛾𝑉 𝑠𝑡+1 − 𝑉(𝑠𝑡)]
• 𝑃 𝑠𝑡, 𝑎 𝑡 ← 𝑃 𝑠𝑡, 𝑎 𝑡 + 𝛽𝛿𝑡

非同期並列な強化学習（Q学習）
ローカルなQネット(θ)を使用して
それぞれのacter-learnerで勾配を蓄積
一定回数ごとにTネット(θ-)を
グローバルなQネット(θ)から更新
蓄積した勾配をもとに、一定回数ごとに
グローバルなQネット(θ)を更新
異なる探索方式が存在しているた
め、ロバスト性が改善される

A3C asynchronous advantage actor-critic
規定の回数まで行動する
行動にはθを用いる
報酬計算はθ’を用いる
終了から報酬を逆算する
θとθ’を更新
CNN層のみ共有し、出力は
方策：ソフトマックス
価値：線形結合

実験 Atari2600
• DQNと同様にAtari2600のスコアを計算
• グラフの縦軸はスコア、横軸は時間
• 16スレッド
• エピソード長5 同期頻度5
NNの構造
• 16filter 8*8size stride4
• 32filter 4*4size stride2
• 256 hidden
57ゲームにおいて人間のスコアと比較。
A3CにLSTM層を追加したものが非常に
高い値を記録している。

実験 Atari2600
• 各手法でゲームをしたときのスコアを比較
• それぞれの値は提唱された論文に記載のものを使用
• 57種類のゲームのうち最大の点数となったもの
• A3C FF, 1day 3種類
• A3C FF 4種類
• L3C LSTM 19種類（最後に256のLSTM層）
他手法との比較（例）

TORCS Car Racing Simulator
• Atariの時と同じアーキテクチャ
• 12時間の学習
• 人のテスターが得たスコアのだいたい75%~90%を得ることができる

Labyrinth
• りんごを獲得 1pt
• ゴールに到達 10pt
• 60秒で1エピソード

まとめ
• 非同期並列なDRLの方法を提唱した
• A3Cは既存の手法よりも良い結果を残した
• ARLの利点として
• Experience Replayを使用しないため探索に方策を持つことができる
• エージェント、学習部の探索方針が違うため、学習データの相関が減少
• マルチCPUで動作するため、通信コストが削減

参考資料
• Asynchronous Methods for Deep Reinforcement Learning
（紹介論文）
Volodymyr Mnih，Adrià Puigdomènech Badia，Mehdi Mirza，et al．
https://arxiv.org/pdf/1602.01783.pdf
• 強化学習の基礎
小池康晴東京工業大学精密工学研究所
鮫島和行科学技術振興事業団 ERATO 川人学習動態脳プロジェク
ト
http://www.jnns.org/previous/niss/2000/text/koike2.pdf

A3C解説

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to A3C解説

Similar to A3C解説 (8)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (14)

A3C解説