SlideShare a Scribd company logo
1 of 49
Download to read offline
Multi-Objective Deep
Reinforcement Learning
Mossalam, H., Assael, Y. M.,
Roijers, D. M., & Whiteson, S. (2016).
1
2018/06/11
千葉大学融合理工学府
修士2年 野村俊太
論文紹介
2
Abstract
・multi-objective decision problemsを
解くためのアルゴリズム,
Deep Optimistic Linear Support Learning(DOL)
を提案
・ DRLによるmulti-objective policiesの学習に
成功した初めての試み
同著者による多目的最適化の
ための手法
Key:多目的強化学習+深層学習
3
1. Introduction
近年のDeep Learningにおける研究成果
・Atariのゲーム
・アルファ碁
これらはsingle objectiveだが…
現実の問題は,
相反する複数の目的を持つ
multi-objective
(例…探索範囲の最大化
⇔損傷の最小化)
出典:” Multi-objective Decision-Theoretic Planning
with Optimistic Linear Support”
Diederik M. Roijers
roijers.info/pub/bathApr16.pdf
研究背景
4
1. Introduction
従来,multi-objectiveの問題は
Multi-Objective MDP(MOMDP)で定式化され,
Multi-Objective Reinforcement Learning(MORL)
により解かれてきた
研究背景
MORLは比較的新しい分野で
ベンチマーク問題が登場したのは2011年ごろ
"Empirical evaluation methods for
multiobjective reinforcement learning algorithms."
Vamplew, Peter, et al. Machine learning 84.1-2 (2011): 51-80.
MORL + Deep RL の提案
5
2. Background
𝑴 = (𝑺, 𝑨, 𝑻, 𝑹)
状態集合:𝒔 ∈ 𝑺
行動集合:𝒂 ∈ 𝑨
遷移関数:𝑻 𝒔, 𝒂, 𝒔′
~𝑷 𝒔′
𝒔, 𝒂
報酬 :𝑹 𝒔, 𝒂, 𝒔′
= 𝑹 𝟏 𝒔, 𝒂, 𝒔′ , 𝑹 𝟐 𝒔, 𝒂, 𝒔′ , … , 𝑹 𝒎(𝒔, 𝒂, 𝒔′)
Multi-Objective MDP(MOMDP)
目的の数𝑚だけ報酬が与えられ、最適方策が複数存在
どの方策が良いかは各目的の重み(=選好)による
最適方策とは、
多目的最適化問題におけるPareto最適解
=Pareto最適方策のセットであるといえる
6
2. Background
Pareto最適解
以下の式が成り立つ𝑥 ∈ 𝑋が存在しないような
𝑥∗ ∈ 𝑋をPareto最適解と呼ぶ
目的関数
目的関数
Pareto Front
Pareto最適解
𝑓𝑖 𝑥 ≤ 𝑓𝑖 𝑥∗ ∀𝑖= 1, … , 𝑚
𝑓𝑖 𝑥 < 𝑓𝑖 𝑥∗ ∃𝑖∈ 1, … , 𝑚
7
2. Background
MOMDP環境の例
Vamplew, P., et al. “Empirical evaluation methods for multiobjective reinforcement
learning algorithms. ” Machine learning, 84(1-2), 51-80.
Deep Sea Treasure 報酬①:毎ステップ-1
報酬②:宝物の価値
10個の
最適方策
8
2. Background
MOMDP環境の例
Vamplew, P., et al. “Empirical evaluation methods for multiobjective reinforcement
learning algorithms. ” Machine learning, 84(1-2), 51-80.
Deep Sea Treasure 報酬①:毎ステップ-1
報酬②:宝物の価値
10個の
最適方策
MOMDPを解くこと=
できるだけPareto Frontに
近い方策のセットを求めること
9
2. Background
MOMDPの解法
MOMDPの解法は、大きく分けて2つ
1) Single-Policy Method
2) Multiple-Policy Method
報酬をベクトルのまま受け取り、複数の方策を獲得
その後にスカラー化を行い、方策を決定するか
ユーザーの選好で方策を選択
あるスカラー化関数を用いて、
報酬ベクトルをスカラー化
シングルMDPにして解き、単一の方策を獲得
10
2. Background
MOMDPの解法
MOMDPの解法は、大きく分けて2つ
あるスカラー化関数を用いて、
報酬ベクトルをスカラー化
シングルMDPにして解き、単一の方策を獲得
今回はこっち
1) Single-Policy Method
2) Multiple-Policy Method
報酬をベクトルのまま受け取り、複数の方策を獲得
その後にスカラー化を行い、方策を決定するか
ユーザーの選好で方策を選択
11
2. Background
MOMDPの解法
最も一般的なのは、線形スカラー化
𝑉𝑤
𝜋
= ෍
𝑖=1
𝑛
𝑤𝑖 𝑉𝑖
𝜋
= 𝒘 ∙ 𝑽 𝝅
しかし単にスカラー化してMDPを解くだけでは
ある重みに対する一つの方策しか求まらないし
重みをどう決めればよいかもわからない
実際は全ての重みwに対する最適方策のセット
=Coverage Set を求めたい
(𝑽 𝝅はpolicy
value vector)
12
2. Background
Coverage Setの例
左図の点は、右図の線に対応
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘
13
2. Background
D
左図の点は、右図の線に対応
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘
Coverage Setの例
14
2. Background
D
左図の点は、右図の線に対応
𝑤1 ∙ 𝑉1 + 1 − 𝑤1 ∙ 𝑉2 = 𝑽 𝒘
最適方策は𝑽 𝒘を
最大にするもの
→0.0 ≤ 𝑤1 ≤ 0.35での
最適行動はD
Coverage Setの例
15
2. Background
D
0.0 ≤ 𝑤1 ≤ 0.35 のとき 最適方策:D
Coverage Setの例
16
2. Background
D
0.0 ≤ 𝑤1 ≤ 0.35 のとき 最適方策:D
0.35 ≤ 𝑤1 ≤ 0.65 のとき 最適方策:A
A
Coverage Setの例
17
2. Background
D
A
E
0.0 ≤ 𝑤1 ≤ 0.35 のとき 最適方策:D
0.35 ≤ 𝑤1 ≤ 0.65 のとき 最適方策:A
0.65 ≤ 𝑤1 ≤ 1.0 のとき 最適方策:E
Coverage Setの例
18
2. Background
D
A
E
0.0 ≤ 𝑤1 ≤ 0.35 のとき 最適方策:D
0.35 ≤ 𝑤1 ≤ 0.65 のとき 最適方策:A
0.65 ≤ 𝑤1 ≤ 1.0 のとき 最適方策:E
Coverage
Set(CS)
Coverage Setの例
19
2. Background
正確には、先程の例は”Convex” Coverage Set(CSS)
実は、線形スカラー化関数では非凸な解を得られない
Pareto Frontの非凸な解
20
2. Background
正確には、先程の例は”Convex” Coverage Set(CSS)
実は、線形スカラー化関数では非凸な解を得られない
B
B
Pareto Frontの非凸な解
21
2. Background
正確には、先程の例は”Convex” Coverage Set(CSS)
実は、線形スカラー化関数では非凸な解を得られない
多くの論文ではPareto Front=
Pareto Coverage Setを得るのが
理想としているが…
著者曰く、多くの場合は
CSSで間に合うらしい?
Pareto Frontの非凸な解
22
2. Background
背景のまとめ
著者は前論文[1]でCSSを効率よく求める
Optimistic Linear Support(OLS)という
アルゴリズムを提案した
が、スカラー化したMDPをいちいち解くのは時間がかかる
[1] Roijers, D. M, et al. (2015). Computing convex coverage sets for faster multi-objective
coordination. Journal of Artificial Intelligence Research, 52, 399-443.
23
2. Background
背景のまとめ
DQNならネットワークの重みを再利用できて
学習が効率的なのでは?
…というのが今回の提案
Deep Optimistic Linear Support Learning(DOL)
[1] Roijers, D. M, et al. (2015). Computing convex coverage sets for faster multi-objective
coordination. Journal of Artificial Intelligence Research, 52, 399-443.
著者は前論文[1]でCSSを効率よく求める
Optimistic Linear Support(OLS)という
アルゴリズムを提案した
が、スカラー化したMDPをいちいち解くのは時間がかかる
24
3. Methodology
提案手法の流れ
25
3. Methodology
提案手法の流れ
仮のCSSをSとし、
ある重みwについて計算する度にSを更新
計算する重みは、corner weightという
概念を用いて適宜見つけていく
26
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線:Sに含まれる最適方策
赤の線 :未計算のcorner weight
灰の線 :計算済みのcorner weight
27
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線:Sに含まれる最適方策
赤の線 :未計算のcorner weight
灰の線 :計算済みのcorner weight
corner weightを
次に計算する重みとし
シングルMDP化した
DQNで解く
28
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線:Sに含まれる最適方策
赤の線 :未計算のcorner weight
灰の線 :計算済みのcorner weight
ある重みwについて
計算する度に
線が一本増え、新しい
corner weightが見つかる
29
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
黒の太線:Sに含まれる最適方策
赤の線 :未計算のcorner weight
灰の線 :計算済みのcorner weight
30
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
31
3. Methodology
提案手法の流れ
"Multi-objective decision-theoretic planning." Roijers, Diederik M. AI Matters 2.4, 11-12. 2016.
corner weightが
見つからなくなったら
残ったSをCSSとする
32
3. Methodology
・Deep OLS Learning(DOL)
重みごとにネットワークを初期化して計算
・DOL with Full Reuse(DOL-FR)
ある重みにおける計算を,今まで計算した中で
その重みにもっとも近い重みを計算したときの
ネットワークを再利用して行う
・DOL with Partial Reuse(DOL-PR)
ネットワークの最終層のみ初期化,
それ以外は再利用
DQNの3つの利用法
各 𝒘に対するMDPをDQNで解くとき…
33
4. Experimental Evaluation
実験設定
mountain car, deep sea treasureの
二つを用いて提案手法を評価
行動選択はϵ − 𝑔𝑟𝑒𝑒𝑑𝑦
2000→3000episodeで
ϵを1→0.05に減衰
割引率γ=0.97
experience replay
target network
ミニバッチ手法
の利用
34
single-objectiveでは
all time stepsで-1,
goalで0の報酬
multi-objectiveでは
燃料消費量を
もう一つの目的とする
燃料消費量は,time step毎に
車の推進力に比例して大きくなる
4. Experimental Evaluation
Multi-Objective Mountain Car
35
問題の規模が小さいため、結果にあまり差がない
Q-tableから得られる
CCSをtrue CCSとし,
Max CCS errorを計算
Multi-Objective Mountain Car - Results
4. Experimental Evaluation
36
MORLのベンチマークとして広く
使われるDeep Sea Treasure
エージェントの行動は
上下左右の4種類
報酬①:宝箱の数値
報酬②:タイムステップ毎にー1
宝箱の報酬は
CCSの学習のため変えてある
報酬は0~1に正規化されて学習
4. Experimental Evaluation
Deep Sea Treasure
37
Deep Sea Treasure - Results
4. Experimental Evaluation
結果として
得られるのは
推定された
CCS?
38
Deep Sea Treasure - Results
4. Experimental Evaluation
raw version :状態入力が通常の 𝑠
image version:状態入力が画像
“DOL-PR is preferred algorithm”
39
5. Discussion
・MORL+deep Q-learningで
重み再利用による3種類の手法を提案
パレートフロントの代わりにCCSを獲得する
・多目的問題を線形スカラー化する際の
重みの決定に関する問題を解決できる
・入力が大きな問題では,提案手法は
CCSを高い精度で獲得可能
DOL-PRが優れた結果を出した
(full-reuseよりpartial-reuseのほうが,
前のwの影響を受けにくい)
まとめと結論
40
5. Discussion
・実際の計算時間はどの程度減るのか
・3目的以上の場合は?
所感
・サブルーチンに強化学習を繰り返し使うアルゴリズムで
深層強化学習の近似性が役に立つのではないか
疑問
41
Appendix
OLS
アルゴリズム
42
Appendix
newCornerWeightsメソッド
43
Appendix
Much existing research assumes the Pareto coverage set(PCS), or Pareto front,
as the optimal solution set. However, we argue that this is not always the best choice.
… Because CCSs are typically much smaller, and have exploitable mathematical
properties, CCSs are often much cheaper to compute than PCSs.
“Efficient Methods for Multi-Objective Decision-Theoretic Planning”
Diederik M. Roijers. IJCAI. 2015.
In practice, the PCS and the CCS are often equal to the PF and CH. However,
the algorithms proposed in this article are guaranteed to produce a PCS or a CCS,
and not necessarily the entire PF or the CH. Because PCSs and the CCSs are
sucient solutions in terms of scalarized value, we say that these algorithms solve the
MO-CoGs.
"Computing Convex Coverage Sets for Faster Multi-objective Coordination.".
Diederik M. Roijers. Intell. Res.(JAIR) 52. 2015.
Pareto Coverage Setを求めないことについて
44
TD誤差を利用し,多層ニューラルネットでQ値を学習
(入力層に状態を入力すると,各行動のQ値が
出力されるネットワークを構築)
Deep Q-Networks(DQN)
𝑸 𝒔 𝒕, 𝒂 𝒕 ← 𝑸 𝒔 𝒕, 𝒂 𝒕 + 𝜶[𝒓 𝒕+𝟏 + 𝜸 𝐦𝐚𝐱
𝒂
𝑸 𝒔 𝒕+𝟏, 𝒂 − 𝑸(𝒔 𝒕, 𝒂 𝒕)]
TD誤差
・
・
・
・
・
・
・
・
・
𝑎1
𝑎2
𝑎3
𝑎4
𝑄(𝑠𝑡, 𝑎1)
𝑄(𝑠𝑡, 𝑎2)
𝑄(𝑠𝑡, 𝑎3)
𝑄(𝑠𝑡, 𝑎4)
𝑠𝑡
入力:状態 出力:
Q値
Appendix
45
Multiple-Policy Methodの行動選択について
Appendix
“Empirical evaluation methods for multiobjective reinforcement learning algorithms. ”
Vamplew, P., et al. Machine learning, 84(1-2), 51-80. 2011.
46
Appendix
Pareto Front
Value
Iteration
MORL手法の
分類例
Chebyshev
scalarization
z*i:希求水準
47
Appendix
MORLアルゴリズム評価指標:
48
49

More Related Content

What's hot

強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫Masahiro Yasumoto
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 

What's hot (20)

強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 

論文紹介-Multi-Objective Deep Reinforcement Learning