JSAI2015_Twin_net

エネルギベースドモデルを用いた強化学習のための
多層パーセプトロン構造
An Architecture of Multilayer Perceptrons for
Energy-based Reinforcement Learning
東北大学医工学研究科
吉田尚人
1F3-1
Mar. 30 JSAI 2015 1

強化学習
• 環境との相互作用から最適方策を学習する枠組み．
Environment
P(s’|s,a)
r = r(s,a,s’)
Action: a
State: s
Reward: r MDP
π
Mar. 30 JSAI 2015 2

Actor-Critic アーキテクチャ
• Actor (方策）と Critic (評価）を分離
– Actor
– Critic
Sutton & Barto, ‘98
(Sutton et al., ’00)
Mar. 30 JSAI 2015 3
πθ

エネルギ関数による方策表現
Mar. 30 JSAI 2015 4
ボルツマン分布
エネルギ関数

エネルギベース方策に対する方策勾配
• エネルギベース方策の方策勾配：
Mar. 30 JSAI 2015 5
Advantage関数 A(s,a) = Q(s,a) - V(s)
離散行動：
連続行動：
エネルギ関数の勾配は
誤差逆伝播法で計算できる
⇒Bernoulli方策
⇒Gaussian方策
Anderson, ‘87

古典的なMLP Actorの問題点＠画像タス
ク
• 画像識別タスク:
– 28 x 28の数字画像を0,1,...,9のクラスに識別
– データ：強化学習のActorの状況を模擬したデータ
• MNIST Dataset (LeCun et al. ’98)
• 2種類のデータ
– Correct data
» 入力画像と教師信号(action)の対応が正しい
– Incorrect data
» 入力画像と教師信号の対応が間違っている
– いずれのデータであるかのラベル (TD error) が与えられる
Mar. 30 JSAI 2015 6

一般的な画像識別
タスクのデータ例
今回のデータ例
入力教師信号
データの
種類
対応関係に誤りがある
データの比率
Correct : Incorrect
= 1 : 999
Mar. 30 JSAI 2015 7

画像タスクのMLP
• Stochastic Gradient Descent -based
– α = 0.1
– # of hidden unit : 20
– hidden activation : logistic
– 出力：
• μθ : softmax output
• 1-hot representation
Mar. 30 JSAI 2015 8

画像タスク：結果
CACLA/CACLA (Hasselt & Wiering ‘07)
有効な学習は
ほぼ行われない
TD = negativeのデータは捨ててしまう
correct dataのみでの学習
Mar. 30 JSAI 2015 9
N=10
Errorrate100
Samples

解決策：Twin-net アーキテクチャⅠ
• エネルギ関数を２つに分割
• 学習
Mar. 30 JSAI 2015 10

• 方策関数
discrete:
エネルギー：
解決策：Twin-net アーキテクチャⅡ
Mar. 30 JSAI 2015 11

Twin-netによる画像タスク
負例に対しても
学習が行われている
Mar. 30 JSAI 2015 12
N=10
Errorrate100
Samples

実験：強化学習ドメイン
Mar. 30 JSAI 2015 13
Critic:
- Linear FA
V(s) = wTs
- TD learning
α = 0.1
Actor：
Hidden nodes
N = 20 (Ep, Enそれぞれに対して)
logistic activation
α = (grid search)
β = 1.0
NORMAL/CACLA
TWIN

実験Ⅰ
• グリッドワールド
– Action ∈{N,S,E,W}
– State 47状態
+ bias
– Reward
• Goal : +1
• Otherwise : 0
s = (0,0,..., 1, 0, ..., 0, 1)
47
Mar. 30 JSAI 2015 14

結果：Grid World
Episodes
1エピソードのステップ数
※Proceedingより実験エピソード数を増やした図を掲載しています
NORMAL
CACLA
TWIN
Mar. 30 JSAI 2015 15
N=10

実験Ⅱ
• グリッドワールド + 4ビット列行動
– Action 24=16 行動
– State 47状態
+ bias
– Reward
• Goal : 0
• Otherwise : -1
Mar. 30 JSAI 2015 16

結果：Grid World + ビット列行動
1エピソードのステップ数
Episodes
NORMAL
CACLA
TWIN
Mar. 30 JSAI 2015 17
N=10

他の活性化関数での結果
Mar. 30 JSAI 2015 18
tanh ReLU
@ Grid World + Action vectors

実験Ⅲ
• Blocker (Sallans & Hinton, ‘00)
– Agentは3つの駒を操作
– Blockerは駒のend-zoneへの侵入を妨害
– 報酬
• end-zoneへの侵入 : +1
• その他 : -1
– 状態
• 駒とBlockers位置
• 141 = 28 x 5 + 1(bias)
– 行動
• 4x4x4= 64 行動
– エピソード終了
• end-zoneへの侵入（success）
• 40ステップ経過（failure）
Mar. 30 JSAI 2015 19

結果：Blocker
タスク成功率
success/1000 (eps)
Time step
NORMAL
CACLA
TWIN
Mar. 30 JSAI 2015 20

結言
• エネルギー関数に基づくActor-Critic手法
– Multilayer Perceptronとの関係
• Multilayer Perceptronを方策関数として用い
た場合の問題点
• 新たなエネルギ関数/ネットワークの提案
– Twin-net
 https://hal.archives-ouvertes.fr/hal-01138709
Mar. 30 JSAI 2015 21

JSAI2015_Twin_net

Recommended

Recommended

More Related Content

Similar to JSAI2015_Twin_net

Similar to JSAI2015_Twin_net (6)

JSAI2015_Twin_net

Editor's Notes