論文紹介-Multi-Objective Deep Reinforcement Learning

Multi-Objective Deep
Reinforcement Learning
Mossalam, H., Assael, Y. M.,
Roijers, D. M., & Whiteson, S. (2016).
1
2018/06/11
千葉大学融合理工学府
修士２年野村俊太
論文紹介

2
Abstract
・multi-objective decision problemsを
解くためのアルゴリズム，
Deep Optimistic Linear Support Learning(DOL)
を提案
・ DRLによるmulti-objective policiesの学習に
成功した初めての試み
同著者による多目的最適化の
ための手法
Key:多目的強化学習＋深層学習

3
1. Introduction
近年のDeep Learningにおける研究成果
・Atariのゲーム
・アルファ碁
これらはsingle objectiveだが…
現実の問題は，
相反する複数の目的を持つ
multi-objective
(例…探索範囲の最大化
⇔損傷の最小化)
出典：” Multi-objective Decision-Theoretic Planning
with Optimistic Linear Support”
Diederik M. Roijers
roijers.info/pub/bathApr16.pdf
研究背景

4
1. Introduction
従来，multi-objectiveの問題は
Multi-Objective MDP(MOMDP)で定式化され，
Multi-Objective Reinforcement Learning(MORL)
により解かれてきた
研究背景
MORLは比較的新しい分野で
ベンチマーク問題が登場したのは2011年ごろ
"Empirical evaluation methods for
multiobjective reinforcement learning algorithms."
Vamplew, Peter, et al. Machine learning 84.1-2 (2011): 51-80.
MORL + Deep RL の提案

5
2. Background
𝑴 = (𝑺, 𝑨, 𝑻, 𝑹)
状態集合：𝒔 ∈ 𝑺
行動集合：𝒂 ∈ 𝑨
遷移関数：𝑻 𝒔, 𝒂, 𝒔′
~𝑷 𝒔′
𝒔, 𝒂
報酬：𝑹 𝒔, 𝒂, 𝒔′
= 𝑹 𝟏 𝒔, 𝒂, 𝒔′ , 𝑹 𝟐 𝒔, 𝒂, 𝒔′ , … , 𝑹 𝒎(𝒔, 𝒂, 𝒔′)
Multi-Objective MDP(MOMDP)
目的の数𝑚だけ報酬が与えられ、最適方策が複数存在
どの方策が良いかは各目的の重み（＝選好）による
最適方策とは、
多目的最適化問題におけるPareto最適解
＝Pareto最適方策のセットであるといえる

6
2. Background
Pareto最適解
以下の式が成り立つ𝑥 ∈ 𝑋が存在しないような
𝑥∗ ∈ 𝑋をPareto最適解と呼ぶ
目的関数
目的関数
Pareto Front
Pareto最適解
𝑓𝑖 𝑥 ≤ 𝑓𝑖 𝑥∗ ∀𝑖= 1, … , 𝑚
𝑓𝑖 𝑥 < 𝑓𝑖 𝑥∗ ∃𝑖∈ 1, … , 𝑚

7
2. Background
MOMDP環境の例
Vamplew, P., et al. “Empirical evaluation methods for multiobjective reinforcement
learning algorithms. ” Machine learning, 84(1-2), 51-80.
Deep Sea Treasure 報酬①：毎ステップ-1
報酬②：宝物の価値
10個の
最適方策

8
2. Background
MOMDP環境の例
Vamplew, P., et al. “Empirical evaluation methods for multiobjective reinforcement
learning algorithms. ” Machine learning, 84(1-2), 51-80.
Deep Sea Treasure 報酬①：毎ステップ-1
報酬②：宝物の価値
10個の
最適方策
MOMDPを解くこと＝
できるだけPareto Frontに
近い方策のセットを求めること

9
2. Background
MOMDPの解法
MOMDPの解法は、大きく分けて２つ
1) Single-Policy Method
2) Multiple-Policy Method
報酬をベクトルのまま受け取り、複数の方策を獲得
その後にスカラー化を行い、方策を決定するか
ユーザーの選好で方策を選択
あるスカラー化関数を用いて、
報酬ベクトルをスカラー化
シングルMDPにして解き、単一の方策を獲得

10
2. Background
MOMDPの解法
MOMDPの解法は、大きく分けて２つ
あるスカラー化関数を用いて、
報酬ベクトルをスカラー化
シングルMDPにして解き、単一の方策を獲得
今回はこっち
1) Single-Policy Method
2) Multiple-Policy Method
報酬をベクトルのまま受け取り、複数の方策を獲得
その後にスカラー化を行い、方策を決定するか
ユーザーの選好で方策を選択

11
2. Background
MOMDPの解法
最も一般的なのは、線形スカラー化
𝑉𝑤
𝜋
= ෍
𝑖=1
𝑛
𝑤𝑖 𝑉𝑖
𝜋
= 𝒘 ∙ 𝑽 𝝅
しかし単にスカラー化してMDPを解くだけでは
ある重みに対する一つの方策しか求まらないし
重みをどう決めればよいかもわからない
実際は全ての重みwに対する最適方策のセット
＝Coverage Set を求めたい
(𝑽 𝝅はpolicy
value vector)

12
2. Background
Coverage Setの例
左図の点は、右図の線に対応
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘

13
2. Background
D
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘
Coverage Setの例

14
2. Background
D
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘
最適方策は𝑽 𝒘を
最大にするもの
→0.0 ≤ 𝑤1 ≤ 0.35での
最適行動はD
Coverage Setの例

15
2. Background
D
0.0 ≤ 𝑤1 ≤ 0.35 のとき最適方策：D
Coverage Setの例

16
2. Background
D
0.0 ≤ 𝑤1 ≤ 0.35 のとき最適方策：D
0.35 ≤ 𝑤1 ≤ 0.65 のとき最適方策：A
A
Coverage Setの例

17
2. Background
D
A
E
0.0 ≤ 𝑤1 ≤ 0.35 のとき最適方策：D
0.35 ≤ 𝑤1 ≤ 0.65 のとき最適方策：A
0.65 ≤ 𝑤1 ≤ 1.0 のとき最適方策：E
Coverage Setの例

18
2. Background
D
A
E
0.0 ≤ 𝑤1 ≤ 0.35 のとき最適方策：D
0.35 ≤ 𝑤1 ≤ 0.65 のとき最適方策：A
0.65 ≤ 𝑤1 ≤ 1.0 のとき最適方策：E
Coverage
Set(CS)
Coverage Setの例

19
2. Background
正確には、先程の例は”Convex” Coverage Set(CSS)
実は、線形スカラー化関数では非凸な解を得られない
Pareto Frontの非凸な解

20
2. Background
B
B

21
2. Background
多くの論文ではPareto Front=
Pareto Coverage Setを得るのが
理想としているが…
著者曰く、多くの場合は
CSSで間に合うらしい？

22
2. Background
背景のまとめ
著者は前論文[1]でCSSを効率よく求める
Optimistic Linear Support(OLS)という
アルゴリズムを提案した
が、スカラー化したMDPをいちいち解くのは時間がかかる
[1] Roijers, D. M, et al. (2015). Computing convex coverage sets for faster multi-objective
coordination. Journal of Artificial Intelligence Research, 52, 399-443.

23
2. Background
背景のまとめ
DQNならネットワークの重みを再利用できて
学習が効率的なのでは？
…というのが今回の提案
Deep Optimistic Linear Support Learning(DOL)
[1] Roijers, D. M, et al. (2015). Computing convex coverage sets for faster multi-objective
coordination. Journal of Artificial Intelligence Research, 52, 399-443.
著者は前論文[1]でCSSを効率よく求める
Optimistic Linear Support(OLS)という
アルゴリズムを提案した
が、スカラー化したMDPをいちいち解くのは時間がかかる

24
3. Methodology
提案手法の流れ

25
3. Methodology
仮のCSSをSとし、
ある重みwについて計算する度にSを更新
計算する重みは、corner weightという
概念を用いて適宜見つけていく

26
3. Methodology
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線：Sに含まれる最適方策
赤の線：未計算のcorner weight
灰の線：計算済みのcorner weight

27
3. Methodology
corner weightを
次に計算する重みとし
シングルMDP化した
DQNで解く

28
3. Methodology
ある重みwについて
計算する度に
線が一本増え、新しい
corner weightが見つかる

29
3. Methodology

30
3. Methodology

31
3. Methodology
corner weightが
見つからなくなったら
残ったSをCSSとする

32
3. Methodology
・Deep OLS Learning(DOL)
重みごとにネットワークを初期化して計算
・DOL with Full Reuse(DOL-FR)
ある重みにおける計算を，今まで計算した中で
その重みにもっとも近い重みを計算したときの
ネットワークを再利用して行う
・DOL with Partial Reuse(DOL-PR)
ネットワークの最終層のみ初期化，
それ以外は再利用
DQNの３つの利用法
各 𝒘に対するMDPをDQNで解くとき…

33
4. Experimental Evaluation
実験設定
mountain car, deep sea treasureの
二つを用いて提案手法を評価
行動選択はϵ − 𝑔𝑟𝑒𝑒𝑑𝑦
2000→3000episodeで
ϵを1→0.05に減衰
割引率γ＝0.97
experience replay
target network
ミニバッチ手法
の利用

34
single-objectiveでは
all time stepsで－１，
goalで0の報酬
multi-objectiveでは
燃料消費量を
もう一つの目的とする
燃料消費量は，time step毎に
車の推進力に比例して大きくなる
Multi-Objective Mountain Car

35
問題の規模が小さいため、結果にあまり差がない
Q-tableから得られる
CCSをtrue CCSとし，
Max CCS errorを計算
Multi-Objective Mountain Car - Results

36
MORLのベンチマークとして広く
使われるDeep Sea Treasure
エージェントの行動は
上下左右の４種類
報酬①：宝箱の数値
報酬②：タイムステップ毎にー１
宝箱の報酬は
CCSの学習のため変えてある
報酬は０～１に正規化されて学習
Deep Sea Treasure

37
Deep Sea Treasure - Results
結果として
得られるのは
推定された
CCS？

38
Deep Sea Treasure - Results
raw version ：状態入力が通常の 𝑠
image version：状態入力が画像
“DOL-PR is preferred algorithm”

39
5. Discussion
・MORL＋deep Q-learningで
重み再利用による３種類の手法を提案
パレートフロントの代わりにCCSを獲得する
・多目的問題を線形スカラー化する際の
重みの決定に関する問題を解決できる
・入力が大きな問題では，提案手法は
CCSを高い精度で獲得可能
DOL-PRが優れた結果を出した
（full-reuseよりpartial-reuseのほうが，
前のｗの影響を受けにくい）
まとめと結論

40
5. Discussion
・実際の計算時間はどの程度減るのか
・３目的以上の場合は？
所感
・サブルーチンに強化学習を繰り返し使うアルゴリズムで
深層強化学習の近似性が役に立つのではないか
疑問

41
Appendix
OLS
アルゴリズム

42
Appendix
newCornerWeightsメソッド

43
Appendix
Much existing research assumes the Pareto coverage set(PCS), or Pareto front,
as the optimal solution set. However, we argue that this is not always the best choice.
… Because CCSs are typically much smaller, and have exploitable mathematical
properties, CCSs are often much cheaper to compute than PCSs.
“Efficient Methods for Multi-Objective Decision-Theoretic Planning”
Diederik M. Roijers. IJCAI. 2015.
In practice, the PCS and the CCS are often equal to the PF and CH. However,
the algorithms proposed in this article are guaranteed to produce a PCS or a CCS,
and not necessarily the entire PF or the CH. Because PCSs and the CCSs are
sucient solutions in terms of scalarized value, we say that these algorithms solve the
MO-CoGs.
"Computing Convex Coverage Sets for Faster Multi-objective Coordination.".
Diederik M. Roijers. Intell. Res.(JAIR) 52. 2015.
Pareto Coverage Setを求めないことについて

44
TD誤差を利用し，多層ニューラルネットでQ値を学習
（入力層に状態を入力すると，各行動のＱ値が
出力されるネットワークを構築）
Deep Q-Networks(DQN)
𝑸 𝒔 𝒕, 𝒂 𝒕 ← 𝑸 𝒔 𝒕, 𝒂 𝒕 + 𝜶[𝒓 𝒕+𝟏 + 𝜸 𝐦𝐚𝐱
𝒂
𝑸 𝒔 𝒕+𝟏, 𝒂 − 𝑸(𝒔 𝒕, 𝒂 𝒕)]
TD誤差
・
・
・
・
・
・
・
・
・
𝑎1
𝑎2
𝑎3
𝑎4
𝑄(𝑠𝑡, 𝑎1)
𝑠𝑡
入力：状態出力：
Ｑ値
Appendix

45
Multiple-Policy Methodの行動選択について
Appendix
“Empirical evaluation methods for multiobjective reinforcement learning algorithms. ”
Vamplew, P., et al. Machine learning, 84(1-2), 51-80. 2011.

46
Appendix
Pareto Front
Value
Iteration
MORL手法の
分類例
Chebyshev
scalarization
z*i：希求水準

47
Appendix
MORLアルゴリズム評価指標：

論文紹介-Multi-Objective Deep Reinforcement Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

論文紹介-Multi-Objective Deep Reinforcement Learning