SlideShare a Scribd company logo
Multi-Objective Deep
Reinforcement Learning
Mossalam, H., Assael, Y. M.,
Roijers, D. M., & Whiteson, S. (2016).
1
2018/06/11
千葉大学融合理工学府
修士2年 野村俊太
論文紹介
2
Abstract
・multi-objective decision problemsを
解くためのアルゴリズム,
Deep Optimistic Linear Support Learning(DOL)
を提案
・ DRLによるmulti-objective policiesの学習に
成功した初めての試み
同著者による多目的最適化の
ための手法
Key:多目的強化学習+深層学習
3
1. Introduction
近年のDeep Learningにおける研究成果
・Atariのゲーム
・アルファ碁
これらはsingle objectiveだが…
現実の問題は,
相反する複数の目的を持つ
multi-objective
(例…探索範囲の最大化
⇔損傷の最小化)
出典:” Multi-objective Decision-Theoretic Planning
with Optimistic Linear Support”
Diederik M. Roijers
roijers.info/pub/bathApr16.pdf
研究背景
4
1. Introduction
従来,multi-objectiveの問題は
Multi-Objective MDP(MOMDP)で定式化され,
Multi-Objective Reinforcement Learning(MORL)
により解かれてきた
研究背景
MORLは比較的新しい分野で
ベンチマーク問題が登場したのは2011年ごろ
"Empirical evaluation methods for
multiobjective reinforcement learning algorithms."
Vamplew, Peter, et al. Machine learning 84.1-2 (2011): 51-80.
MORL + Deep RL の提案
5
2. Background
𝑴 = (𝑺, 𝑨, 𝑻, 𝑹)
状態集合:𝒔 ∈ 𝑺
行動集合:𝒂 ∈ 𝑨
遷移関数:𝑻 𝒔, 𝒂, 𝒔′
~𝑷 𝒔′
𝒔, 𝒂
報酬 :𝑹 𝒔, 𝒂, 𝒔′
= 𝑹 𝟏 𝒔, 𝒂, 𝒔′ , 𝑹 𝟐 𝒔, 𝒂, 𝒔′ , … , 𝑹 𝒎(𝒔, 𝒂, 𝒔′)
Multi-Objective MDP(MOMDP)
目的の数𝑚だけ報酬が与えられ、最適方策が複数存在
どの方策が良いかは各目的の重み(=選好)による
最適方策とは、
多目的最適化問題におけるPareto最適解
=Pareto最適方策のセットであるといえる
6
2. Background
Pareto最適解
以下の式が成り立つ𝑥 ∈ 𝑋が存在しないような
𝑥∗ ∈ 𝑋をPareto最適解と呼ぶ
目的関数
目的関数
Pareto Front
Pareto最適解
𝑓𝑖 𝑥 ≤ 𝑓𝑖 𝑥∗ ∀𝑖= 1, … , 𝑚
𝑓𝑖 𝑥 < 𝑓𝑖 𝑥∗ ∃𝑖∈ 1, … , 𝑚
7
2. Background
MOMDP環境の例
Vamplew, P., et al. “Empirical evaluation methods for multiobjective reinforcement
learning algorithms. ” Machine learning, 84(1-2), 51-80.
Deep Sea Treasure 報酬①:毎ステップ-1
報酬②:宝物の価値
10個の
最適方策
8
2. Background
MOMDP環境の例
Vamplew, P., et al. “Empirical evaluation methods for multiobjective reinforcement
learning algorithms. ” Machine learning, 84(1-2), 51-80.
Deep Sea Treasure 報酬①:毎ステップ-1
報酬②:宝物の価値
10個の
最適方策
MOMDPを解くこと=
できるだけPareto Frontに
近い方策のセットを求めること
9
2. Background
MOMDPの解法
MOMDPの解法は、大きく分けて2つ
1) Single-Policy Method
2) Multiple-Policy Method
報酬をベクトルのまま受け取り、複数の方策を獲得
その後にスカラー化を行い、方策を決定するか
ユーザーの選好で方策を選択
あるスカラー化関数を用いて、
報酬ベクトルをスカラー化
シングルMDPにして解き、単一の方策を獲得
10
2. Background
MOMDPの解法
MOMDPの解法は、大きく分けて2つ
あるスカラー化関数を用いて、
報酬ベクトルをスカラー化
シングルMDPにして解き、単一の方策を獲得
今回はこっち
1) Single-Policy Method
2) Multiple-Policy Method
報酬をベクトルのまま受け取り、複数の方策を獲得
その後にスカラー化を行い、方策を決定するか
ユーザーの選好で方策を選択
11
2. Background
MOMDPの解法
最も一般的なのは、線形スカラー化
𝑉𝑤
𝜋
= ෍
𝑖=1
𝑛
𝑤𝑖 𝑉𝑖
𝜋
= 𝒘 ∙ 𝑽 𝝅
しかし単にスカラー化してMDPを解くだけでは
ある重みに対する一つの方策しか求まらないし
重みをどう決めればよいかもわからない
実際は全ての重みwに対する最適方策のセット
=Coverage Set を求めたい
(𝑽 𝝅はpolicy
value vector)
12
2. Background
Coverage Setの例
左図の点は、右図の線に対応
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘
13
2. Background
D
左図の点は、右図の線に対応
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘
Coverage Setの例
14
2. Background
D
左図の点は、右図の線に対応
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘
最適方策は𝑽 𝒘を
最大にするもの
→0.0 ≤ 𝑤1 ≤ 0.35での
最適行動はD
Coverage Setの例
15
2. Background
D
0.0 ≤ 𝑤1 ≤ 0.35 のとき 最適方策:D
Coverage Setの例
16
2. Background
D
0.0 ≤ 𝑤1 ≤ 0.35 のとき 最適方策:D
0.35 ≤ 𝑤1 ≤ 0.65 のとき 最適方策:A
A
Coverage Setの例
17
2. Background
D
A
E
0.0 ≤ 𝑤1 ≤ 0.35 のとき 最適方策:D
0.35 ≤ 𝑤1 ≤ 0.65 のとき 最適方策:A
0.65 ≤ 𝑤1 ≤ 1.0 のとき 最適方策:E
Coverage Setの例
18
2. Background
D
A
E
0.0 ≤ 𝑤1 ≤ 0.35 のとき 最適方策:D
0.35 ≤ 𝑤1 ≤ 0.65 のとき 最適方策:A
0.65 ≤ 𝑤1 ≤ 1.0 のとき 最適方策:E
Coverage
Set(CS)
Coverage Setの例
19
2. Background
正確には、先程の例は”Convex” Coverage Set(CSS)
実は、線形スカラー化関数では非凸な解を得られない
Pareto Frontの非凸な解
20
2. Background
正確には、先程の例は”Convex” Coverage Set(CSS)
実は、線形スカラー化関数では非凸な解を得られない
B
B
Pareto Frontの非凸な解
21
2. Background
正確には、先程の例は”Convex” Coverage Set(CSS)
実は、線形スカラー化関数では非凸な解を得られない
多くの論文ではPareto Front=
Pareto Coverage Setを得るのが
理想としているが…
著者曰く、多くの場合は
CSSで間に合うらしい?
Pareto Frontの非凸な解
22
2. Background
背景のまとめ
著者は前論文[1]でCSSを効率よく求める
Optimistic Linear Support(OLS)という
アルゴリズムを提案した
が、スカラー化したMDPをいちいち解くのは時間がかかる
[1] Roijers, D. M, et al. (2015). Computing convex coverage sets for faster multi-objective
coordination. Journal of Artificial Intelligence Research, 52, 399-443.
23
2. Background
背景のまとめ
DQNならネットワークの重みを再利用できて
学習が効率的なのでは?
…というのが今回の提案
Deep Optimistic Linear Support Learning(DOL)
[1] Roijers, D. M, et al. (2015). Computing convex coverage sets for faster multi-objective
coordination. Journal of Artificial Intelligence Research, 52, 399-443.
著者は前論文[1]でCSSを効率よく求める
Optimistic Linear Support(OLS)という
アルゴリズムを提案した
が、スカラー化したMDPをいちいち解くのは時間がかかる
24
3. Methodology
提案手法の流れ
25
3. Methodology
提案手法の流れ
仮のCSSをSとし、
ある重みwについて計算する度にSを更新
計算する重みは、corner weightという
概念を用いて適宜見つけていく
26
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線:Sに含まれる最適方策
赤の線 :未計算のcorner weight
灰の線 :計算済みのcorner weight
27
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線:Sに含まれる最適方策
赤の線 :未計算のcorner weight
灰の線 :計算済みのcorner weight
corner weightを
次に計算する重みとし
シングルMDP化した
DQNで解く
28
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線:Sに含まれる最適方策
赤の線 :未計算のcorner weight
灰の線 :計算済みのcorner weight
ある重みwについて
計算する度に
線が一本増え、新しい
corner weightが見つかる
29
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線:Sに含まれる最適方策
赤の線 :未計算のcorner weight
灰の線 :計算済みのcorner weight
30
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
31
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
corner weightが
見つからなくなったら
残ったSをCSSとする
32
3. Methodology
・Deep OLS Learning(DOL)
重みごとにネットワークを初期化して計算
・DOL with Full Reuse(DOL-FR)
ある重みにおける計算を,今まで計算した中で
その重みにもっとも近い重みを計算したときの
ネットワークを再利用して行う
・DOL with Partial Reuse(DOL-PR)
ネットワークの最終層のみ初期化,
それ以外は再利用
DQNの3つの利用法
各 𝒘に対するMDPをDQNで解くとき…
33
4. Experimental Evaluation
実験設定
mountain car, deep sea treasureの
二つを用いて提案手法を評価
行動選択はϵ − 𝑔𝑟𝑒𝑒𝑑𝑦
2000→3000episodeで
ϵを1→0.05に減衰
割引率γ=0.97
experience replay
target network
ミニバッチ手法
の利用
34
single-objectiveでは
all time stepsで-1,
goalで0の報酬
multi-objectiveでは
燃料消費量を
もう一つの目的とする
燃料消費量は,time step毎に
車の推進力に比例して大きくなる
4. Experimental Evaluation
Multi-Objective Mountain Car
35
問題の規模が小さいため、結果にあまり差がない
Q-tableから得られる
CCSをtrue CCSとし,
Max CCS errorを計算
Multi-Objective Mountain Car - Results
4. Experimental Evaluation
36
MORLのベンチマークとして広く
使われるDeep Sea Treasure
エージェントの行動は
上下左右の4種類
報酬①:宝箱の数値
報酬②:タイムステップ毎にー1
宝箱の報酬は
CCSの学習のため変えてある
報酬は0~1に正規化されて学習
4. Experimental Evaluation
Deep Sea Treasure
37
Deep Sea Treasure - Results
4. Experimental Evaluation
結果として
得られるのは
推定された
CCS?
38
Deep Sea Treasure - Results
4. Experimental Evaluation
raw version :状態入力が通常の 𝑠
image version:状態入力が画像
“DOL-PR is preferred algorithm”
39
5. Discussion
・MORL+deep Q-learningで
重み再利用による3種類の手法を提案
パレートフロントの代わりにCCSを獲得する
・多目的問題を線形スカラー化する際の
重みの決定に関する問題を解決できる
・入力が大きな問題では,提案手法は
CCSを高い精度で獲得可能
DOL-PRが優れた結果を出した
(full-reuseよりpartial-reuseのほうが,
前のwの影響を受けにくい)
まとめと結論
40
5. Discussion
・実際の計算時間はどの程度減るのか
・3目的以上の場合は?
所感
・サブルーチンに強化学習を繰り返し使うアルゴリズムで
深層強化学習の近似性が役に立つのではないか
疑問
41
Appendix
OLS
アルゴリズム
42
Appendix
newCornerWeightsメソッド
43
Appendix
Much existing research assumes the Pareto coverage set(PCS), or Pareto front,
as the optimal solution set. However, we argue that this is not always the best choice.
… Because CCSs are typically much smaller, and have exploitable mathematical
properties, CCSs are often much cheaper to compute than PCSs.
“Efficient Methods for Multi-Objective Decision-Theoretic Planning”
Diederik M. Roijers. IJCAI. 2015.
In practice, the PCS and the CCS are often equal to the PF and CH. However,
the algorithms proposed in this article are guaranteed to produce a PCS or a CCS,
and not necessarily the entire PF or the CH. Because PCSs and the CCSs are
sucient solutions in terms of scalarized value, we say that these algorithms solve the
MO-CoGs.
"Computing Convex Coverage Sets for Faster Multi-objective Coordination.".
Diederik M. Roijers. Intell. Res.(JAIR) 52. 2015.
Pareto Coverage Setを求めないことについて
44
TD誤差を利用し,多層ニューラルネットでQ値を学習
(入力層に状態を入力すると,各行動のQ値が
出力されるネットワークを構築)
Deep Q-Networks(DQN)
𝑸 𝒔 𝒕, 𝒂 𝒕 ← 𝑸 𝒔 𝒕, 𝒂 𝒕 + 𝜶[𝒓 𝒕+𝟏 + 𝜸 𝐦𝐚𝐱
𝒂
𝑸 𝒔 𝒕+𝟏, 𝒂 − 𝑸(𝒔 𝒕, 𝒂 𝒕)]
TD誤差
・
・
・
・
・
・
・
・
・
𝑎1
𝑎2
𝑎3
𝑎4
𝑄(𝑠𝑡, 𝑎1)
𝑄(𝑠𝑡, 𝑎2)
𝑄(𝑠𝑡, 𝑎3)
𝑄(𝑠𝑡, 𝑎4)
𝑠𝑡
入力:状態 出力:
Q値
Appendix
45
Multiple-Policy Methodの行動選択について
Appendix
“Empirical evaluation methods for multiobjective reinforcement learning algorithms. ”
Vamplew, P., et al. Machine learning, 84(1-2), 51-80. 2011.
46
Appendix
Pareto Front
Value
Iteration
MORL手法の
分類例
Chebyshev
scalarization
z*i:希求水準
47
Appendix
MORLアルゴリズム評価指標:
48
49

More Related Content

What's hot

Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
 
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
Deep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
Deep Learning JP
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
Deep Learning JP
 

What's hot (20)

Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
[DL輪読会]Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforc...
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
 

論文紹介-Multi-Objective Deep Reinforcement Learning