[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies

Reinforcement Learning with
Deep Energy-Based Policies
Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, Sergey Levine
2017/4/6
発表者：金子貴輝
※図表または式は明記しない場合，上記論文から引用

何の論文？
• 強化学習の論文
– ICLR 2017 accepted
– UC BerkeleyのSergey Levineらの研究室
• DeepLearning関係
– SVGDというカーネル関数を使った収束の速いサンプリング法
– 限定的だがGANとは違う密度推定が普通にあるっぽい（不確か）
• 強化学習関係
– 最大エントロピー強化学習という楽観的初期値に代わる探索基準
– Soft Q-Learning
2

概要
• 深層強化学習というとDDPGのように方策も価値もdeepにできている
• だが報酬最大化が基本で，探索を目的にすることが出来なかった
• これを定式化すると最大エントロピー強化学習になる
• Soft Q-Learningによる定式化でdeepな最大エントロピー学習を実現した
• この時，方策分布がenergy-based policyになるので連続でマルチモーダル
（多峰）にもなる
3
←探索の度合いを強くできる
マルチモーダルな方策が
複数のゴールを見つける→

探索を目的にする（最大エントロピーRL）
• 方策をなるだけ散らす事自体を目的にする
• 目指すべき軌道が与えられる最適制御や逆強化学習では
自然に出てくるらしい
• 普通の強化学習でも，転移や学習の途中で使う意味がある，
バランスはα
• ボルツマン探索（RBMの温度Tで制御する探索）と比べて非グリーディ
4
通常の強化学習の最適方策
最大エントロピー強化学習の最適方策

補足
• 解きやすい問題？
– テーブル表現などの単純な分布では
導出されている
– Energy-based Policyでは今回が初
• Energy-based Policyって何？
– 正規化されていなくて扱いにくいが
表現力の高い方策の一般形
– 連続にできるし条件付きガウシアンのように
単峰とは限らない
5

• soft Q関数は最大エントロピー強化学習のsoft Bellman方程式を
満たすようにする
• 方策改善法と同様に，現在のQに従う方策はQを改善する
• この更新が収束すると最適方策を得られる
Soft Q Learning
6
※ここではα=1としている

Soft Q Learning
• 価値反復の問題点
– 方策改善は巨大な状態行動空間では
正確に実行できない(全てのs,a)
– Qの指数に比例した分布でサンプリングを必要とする
7

提案分布で近似する
• 更新後との２乗誤差の形にして，提案分布で期待値を取る
• 状態価値関数も提案分布で重点サンプリングする
• どちらの提案分布にも方策分布を用いて良い
• これでQについては微分できる形になったのでSGD
8

重点サンプリングの注意
9
提案分布に用いる方策分布は尤度を求める必要がある
ノイズで微分可能かつ行動次元とノイズの次元が等しければ，
次の行列式が0に成らない仮定のもと，計算できる
学習初めはこの仮定が成り立たないので，提案分布には
代わりに一様分布を使う

方策分布からのサンプリング
• MCMCが一般的だが，オンライン実行が難しいので使わない
• 代わりに償却SVGDを使ってサンプリングする
10

アルゴリズム
• 各エポックの各ステップごとに
– 方策から行動をサンプリングしてリプレイメモリに格納
• 方策はGANと同様にノイズと状態を入力して行動を出力
– リプレイメモリからランダムに(s,a,s’,r)を引き出して
– SoftQの勾配を計算
• 価値反復から計算できる
– 方策の勾配を計算
• ボルツマン分布に似た方策分布の勾配を近似
• サンプリングにはMCMCではなくSVGDを使う
• エポックごとに目標に用いるパラメータを更新
11

実験
• ビデオ参照
• 実験１，複数のゴールを目指せるか
• 実験２.1，泳ぎスネークが前後を目指す，図６
に割合の図
• 実験2.2，コの字迷路の到達率
• 実験3，広場で全方向移動を事前学習して迷
路に挑む
12

Soft Q Learning
• soft Q関数を基準に状態価値関数と方策と価値反復を定義
– 状態価値関数は正規化定数から求められる
– soft Q関数は最大エントロピー強化学習のsoft Bellman方程式を
満たすようにする
13
※ここではα=1としている
エントロピーの項の補正のおかげで，Qの方策による期待値が状態価値にまとまる

[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (14)

[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies