【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?

DEEP LEARNING JP
[DL Papers]
“Is Conditional Generative Modeling All You
Need For Decision-Making?”
Presenter: Manato Yaguchi B4
(Hokkaido University)
http://deeplearning.jp/

目次
1. 書誌情報
2. Introduciton
3. 前提知識
4. 提案手法
5. 実験結果
6. まとめ
2

1. 書誌情報
紹介論文
タイトル: Is Conditional Generative Modeling All You Need For Decision-Making?(arxiv)
ICLR2023(top 5%)
出典: ArXiv (2022. 11)
著者: Anurag Ajay, Yilun Du, Abhi Gupta, Joshua B. Tenenbaum, Tommi S. Jaakkola, Pulkit Agrawal
Improbable AI Lab Operations Research Center Computer Science and Artificial Intelligence Lab Massachusetts Institute of
Technology
プロジェクトページ
概要
- 条件付き拡散モデルにより、強化学習に代わる手法として意思決定問題を行った
- 報酬で条件づけられた拡散モデルとして方策をモデル化することで、強化学習に見られる
複雑さを排除
- 制約やスキル等の他の条件変数も適用でき、かつ複数の制約を同時に組み合わせることが
可能 3

2. Introduction：条件付き生成モデル
4
• Conditional generative modeling
生成モデルを意思決定問題に適用することはできないのか？
• 画像生成：DALL-E • 言語モデル：Minerva
[1] [2]

2. Introduction：オフライン意思決定問題
5
• Offline decision-making
問題設定：報酬を最大化するような行動の軌跡を、最適ではない訓練データを元
に最適化
これまでの主な手法：価値関数等を用いた強化学習
問題点：
- オフポリシー学習や、ブートストラップ法により、価値関数の推定は不安定な
傾向がある
- 価値関数を安定させるため、各タスクに応じた複雑な設計が必要になる
報酬で条件づけられた拡散モデルにより、シンプルかつ高精度
にしたい
[3]

3. 前提知識：DDPM
6
• 𝑋0を入力として、Tステップに分けてガウスノイズを加える(forward
process)
𝑞 𝑋1:𝑇 𝑋0 =
𝑡=1
𝑇
𝑞 𝑋𝑡 𝑋𝑡−1 , 𝑞 𝑋𝑡 𝑋𝑡−1 = 𝑁(𝑋𝑡; 1 − 𝛽𝑡𝑋𝑡−1, 𝛽𝑡𝐼)
• その後、𝑋𝑇から、ノイズを取り除き、元画像を復元するように、モデルを
学習する(reverse process)
𝑝𝜃 𝑋0:𝑇 = 𝑝 𝑋𝑇
𝑇
𝑝𝜃 𝑋𝑡−1 𝑋𝑡 , 𝑝𝜃 𝑋𝑡−1 𝑋𝑡 = 𝑁(𝑋𝑡−1; 𝜇𝜃 𝑋𝑡, 𝑡 , Σ𝜃 𝑋𝑡, 𝑡 )
[4]

３. 前提知識：DDPM
7
• 訓練は、負の対数尤度関数の変分下界を考える
E −𝑙𝑜𝑔𝑝𝜃 𝑋0 ≤ E𝑞 −𝑙𝑜𝑔
𝑝𝜃 𝑋0:𝑇
𝑞 𝑋1:𝑇 𝑋0
= E𝑞 −𝑙𝑜𝑔𝑝 𝑋𝑇 −
𝑡≥1
𝑙𝑜𝑔
𝑝𝜃 𝑋𝑡−1 𝑋𝑡
𝑞 𝑋𝑡 𝑋𝑡−1
= 𝐿
• これは時刻tにおけるノイズを予測することと等価であることが示される
E𝑋0,𝜀[
𝛽𝑡
2
2𝜎𝑡
2
𝛼𝑡 1 − 𝛼𝑡
𝜖 − 𝜖𝜃 𝛼𝑡𝑋0 + 1 − 𝛼𝑡𝜖, 𝑡
2
]
• 上の式の代わりに、以下の式を最小化すると結果が良いことが、実験的に知られている
𝐿simple 𝜃 = E𝑡,𝑋0,𝜖[ 𝜖 − 𝜖𝜃( 𝛼𝑡𝑋0 + 1 − 𝛼𝑡𝜖, 𝑡)
2
]
[4]

３. 前提知識：Guided Diffusion
8
• 条件付き分布𝑞(𝑥|𝑦)をモデル化することで、yに関するデータをサンプリングでき
るようにしたい
• 𝜖𝜃(𝑥𝑘, 𝑘) ∝ ∇𝑥𝑘
log 𝑝(𝑥𝑘)から着想を得て、2通りの条件付けの方法が提案されてい
る
• Classifier-guidance：𝜖𝜃 𝑥𝑘, 𝑘 − 𝜔 1 − 𝛼𝑘∇𝑥𝑘
log 𝑝(𝑦|𝑥𝑘)
– ノイズがのったデータ𝑥𝑘を用いて、分類器𝑝(𝑦|𝑥𝑘)を訓練する必要がある
– 分類モデルの損失勾配で重みづける
• Classifier-free：𝜖𝜃 𝑥𝑘, 𝑘 + 𝜔(𝜖𝜃 𝑥𝑘, 𝑦, 𝑘 − 𝜖𝜃 𝑥𝑘, 𝑘 )
– 拡散モデルの訓練時に、𝑦で条件づけられた 𝜖𝜃 𝑥𝑘, 𝑦, 𝑘 をモデル化する必要が
ある
– 𝜖𝜃 𝑥𝑘, 𝑘 は、 𝜖𝜃 𝑥𝑘, ∅, 𝑘 とみなす
[5]

４. 提案手法：全体像
9
• 目標：max
𝜃
E𝜏~𝐷[log 𝑝𝜃(𝑥0(𝜏)|𝑦(𝜏))]
• Hタイムステップ分の状態の組 𝑥𝑘 𝜏 = (𝑠𝑡, 𝑠𝑡+1, … , 𝑠𝑡+𝐻−1)𝑘 を考える
• 𝑞(𝑥𝑘+1(𝜏)|𝑥𝑘(𝜏)), 𝑝𝜃(𝑥𝑘−1(𝜏)|𝑥𝑘 𝜏 , 𝑦(𝜏))として、拡散モデルを構築
• 二つの連続した時間における状態𝑠𝑡, 𝑠𝑡+1をもとに、行動𝑎𝑡を推論する
- 𝑎𝑡 = 𝑓𝜙(𝑠𝑡, 𝑠𝑡+1), 𝑓𝜙は訓練データから学習する関数

4. 提案手法：classifier-free guidanceによるプランニン
グ
10
• 𝑥𝑘 𝜏 = (𝑠𝑡, 𝑠𝑡+1, … , 𝑠𝑡+𝐻−1)𝑘により、拡散モデルを構築
• 拡散モデルをプランニングに用いるには、報酬や制約𝑦(𝜏)で条件付ける必要性
1. 分類器 𝑝𝜙(𝑦(𝜏)|𝑥𝑘(𝜏)) を訓練し、ノイズがのった軌跡𝑥𝑘(𝜏)から𝑦(𝜏)を予測する手法
– 𝑦(𝜏)として報酬を与える場合、一般にQ関数を予測する必要があり、RL的手法と同様の問題
2. Classifier-freeによる条件付け
𝜖 = 𝜖𝜃 𝑥𝑘 𝜏 , ∅, 𝑘 + 𝜔(𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 − 𝜖𝜃(𝑥𝑘 𝜏 , ∅, 𝑘))
- ガウスノイズ𝑥𝐾(𝜏)から始まり、上の式に従って𝑥𝑘, 𝑥𝑘−1へとデノイズしていく

4. 提案手法：報酬以外の条件付け
11
• 𝑦(𝜏)による条件付けについて、報酬、制約、行動の3つによる条件付けが考えられ
る
1. 報酬 (return)： 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 𝑅 𝜏 , 𝑘
- 報酬は𝑅 𝜏 ∈ [0,1]で規格化, 高い報酬を得たい場合は、 𝑅 𝜏 =1とする
2. 制約 (constraint)： 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 1(𝜏 ∈ 𝐶𝑖), 𝑘
- 制約の集合𝐶𝑖を満たすように条件付ける
- 制約について、one-hot encodingを行う
- 訓練データは一つの制約で条件付けられているが、推論時は複数の制約で条件
付け可能
3. 行動 (skill): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 1(𝜏 ∈ 𝐵𝑖), 𝑘

4. 提案手法：モデルの訓練
12
𝐿 𝜃, 𝜙 = E𝑘,𝜏∈𝐷,𝛽~𝐵𝑒𝑟𝑛(𝑝) 𝜖 − 𝜖𝜃 𝑥𝑘 𝜏 , 1 − 𝛽 𝑦 𝜏 + 𝛽∅, 𝑘 2 + E(𝑠,𝑎,𝑠′)∈𝐷[ 𝑎 − 𝑓𝜙(𝑠, 𝑠′)
2
]
で損失関数を定義.
• 第一項について：各軌跡𝜏について、𝜖~𝑁(0, 𝐼)と𝑘~𝒰{1, … , K}をサンプリングし、 𝑥𝑘 𝜏 を構築し
た後、 𝑥𝑘 𝜏 にのっているノイズを予測するように𝜖𝜃を学習する
• 第二項について：訓練データセット中の、任意の連続する2つの状態遷移(𝑠, 𝑠′)を元に、行動aを予
測する関数𝑓𝜙を学習する

5. 実験
13
• D4RLデータセットを用いて、既存のオフライン強化学習による手法と比較
• 報酬を最大化するような軌跡を出力することができるという点において、既存手
法を大きく上回る

５. 実験
14
• BlockHeight(赤)>BlockHeight(青)のような制約を与え、どの程度制約を満たす軌跡を出力
できるか実験した
• 下の段は、BlockHeight(赤)>BlockHeight(青)>BlockHeight(紫)のような複数の制約
– 訓練データには一つの制約によりラベル付けされたデータしか存在しないことに注意
• 実験1で用いたCQL等は、そもそもブロックを積むことにし失敗し、ほぼ0%

５. 実験
15
• 四足歩行のロボットが、複数の歩き方に関するスキルを獲得する様子を実験
• 左図は横軸がtimestepで、縦軸が歩き方に関する確率
• 各タイムステップごとに、どのような歩き方をしているかに関する確率を出力す
る分類器を別に訓練

6. 考察・所感
16
• まとめ
- 連続的な意思決定問題を、強化学習手法に代わり、条件付き生成モデルの枠組
みで解いた
- 従来の強化学習手法を上回る結果を出した
- 訓練データに見られる一つずつの制約や行動を、テスト時に柔軟に組み合わせ、
複数の制約や行動に対応することができた
• 今後の展望
- 連続的な状態のエントロピーを活用することで、オンラインファインチューニ
ングを行う
- 報酬ではなく先の状態で条件付けたモデルを考えることで、予測の難しいより
確率的な環境に対応できるようにする

引用
17
[1] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen.
Hierarchical textconditional image generation with clip latents. arXiv preprint
arXiv:2204.06125, 2022.
[2] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk
Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo
Gutman-Solo, et al. Solving quantitative reasoning problems with language models.
arXiv preprint arXiv:2206.14858, 2022.
[3] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4RL:
Datasets for deep data-driven reinforcement learning. arXiv preprint
arXiv:2004.07219, 2020.
[4] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic
models. In Advances in Neural Information Processing Systems, 2020.
[5] [DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and …
(slideshare.net)

【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?

More Related Content

What's hot

Similar to 【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?

More from Deep Learning JP

Recently uploaded

【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?

Editor's Notes