DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Makoto Kawano (@mkt_kwn), Matsuo Lab.
書誌情報
• AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 Liang, Z., Mu, Y., Ding, M., Ni, F., Tomizuka, M., and Luo, P
 The University of Hong Kong, University of California, Berkeley, Tianjin University,
Shanghai AI Laboratory
 ICML2023(oral)
• Planning with Diffusion for Flexible Behavior Synthesis
 Janner, M., Du, Y., Tenenbaum, J.B., and Levine, S.
 University of California, Berkeley, MIT
 ICML2022
今回のメイン
前回少し触れたが
かなり簡素だったので
2
学習済みモデルによるプランニング
• 強化学習やデータ駆動型の意思決定において非常に重要
 教師あり学習に近い未知の環境ダイナミクスの近似など
 うまくいくことはかなりレアケース:学習モデルがうまくいかないことが多いため
 うまくいくためには,因果的過程に従う必要がある
 賢くない学習モデルを使って計画立ててもうまくいくわけがない
• 本研究:軌道最適化をうまく扱えるモデルを作ること
 モデルからのサンプリングとモデルからの計画を同一的に扱う
 状態ダイナミクスと行動の分布は重要
 1ステップずつの精度より全体(長期)的な精度が大事
 一方で未知のタスクを含めた複数タスクに対応するため,z報酬に対して独立になるべき
3
問題設定
学習による軌道最適化を用いた動作合成
離散時間におけるダイナミクスを持つ系𝑠𝑡 = 𝑓 𝑠𝑡, 𝑎𝑡 を考える.タイムステップごとの報酬(もし
くはコスト)𝑟(𝑠𝑡, 𝑎𝑡)に因数分解された目的関数𝒥の最大化(もしくは最小化)するような行動の系列
𝑎 0:𝑇
∗
を見つけることを軌道最適化と呼ぶ:
ただし,𝑇は計画期間を表し,𝜏 = (𝑠0, 𝑎0, 𝑠1, 𝑎1, … , 𝑠𝑇, 𝑎𝑇)を状態と行動を交互にまとめたものとし
,𝒥(𝜏)を軌跡𝜏の目的値とする.
本研究の目標:軌跡𝜏を生成できるようなモデルを設計すること
4
軌道最適化における最大の課題
• 環境ダイナミクス𝑓に関する知識が必要であること
 多くの手法:学習によるダイナミクスモデルで近似して計画に利用する
真のモデルを利用することを前提にした計画アルゴリズムが多い
学習モデルで計画しても敵対的な軌道を見つけてしまう
• モデリングと計画を同時に行う拡散モデル𝑝𝜃(𝜏)を利用
 ノイズ除去の際に摂動分布からのサンプリングで条件づける=>確率論の問題になる
ℎ 𝜏 :理想の出力や報酬,観測などに関する情報を含めた関数
𝑝𝜃(𝜏)のもとで物理法則的に正しく,ℎ 𝜏 のもとで高い報酬となる軌道を見つける
「Diffuser」と呼ぶ
5
軌道計画における生成モデルDiffuserの要件:時間方向の順序づけ
• サンプリングと計画を同時に行うと普通ではない制約が生じる
 自己回帰による時間方向の状態予測ができなくなる
 ゴールで条件づけられた推論𝑝 𝑠1 𝑠0, 𝑠𝑇)を考える
「次の状態𝑠1が前の状態𝑠0と未来𝑠𝑇に依存している」
ダイナミクスの予測:因果的
=> 過去によって現在が決まる
全てのタイムステップにおける計画を同時に行う必要がある
意思決定と制御:反因果的
=> 未来に向かって現在を決める
6
軌道計画における生成モデルDiffuserの要件:時間方向の局所性/軌道の表現
• 自己回帰的/マルコフ的ではないが,時間的局所性を持たせたい
 ある時刻の予測:直近の過去/未来の情報にもとづく
1回のノイズ除去では局所的な一貫性にもとづく
繰り返すことで大域的な一貫性を持つことが可能
• 状態予測の質と同等に行動の有効性も重要
 状態と行動を同時に予測するように設計
状態表現に行動表現を連結:
計画期間方向
7
Diffuserのアーキテクチャ
• 基本はU-Netの1d-Convバージョン
 畳み込みのおかげで計画期間の長さは可変になる
• 学習も[Ho+, 2020]を利用
 𝑖 ∼ 𝒰{1,2, … , 𝑁}:拡散方向のタイムステップ
 𝜖 ∼ 𝒩(0, 𝐼):ターゲットノイズ
t
x
Conv1D
FC
Layer
Conv1D
GN Mish GN, Mish
8
「報酬」導入による Diffuserでの強化学習
• Control-as-inference[Levine, 2018]と同じように定式化
 𝒪𝑡:時刻𝑡における軌道の最適性を表す二値確率変数
• 摂動関数ℎ 𝜏 = 𝑝(𝒪1:𝑇|𝜏)によって最適な軌道をサンプリング可能
ガウス分布で近似
9
Diffuserの学習とプランニング
• 学習手順:
1. 学習データセットを用いて拡散モデル𝑝𝜃(𝜏)を学習
2. 各𝜏𝑖における累積報酬和を予測するモデル𝒥𝜙を学習
• プランニング手順:
 𝒥_𝜙の勾配でガイド
10
一般的な方法との特徴的な違い1:学習による長期期間計画
11
• 単ステップ予測モデル:真の環境ダイナミクス𝑓の近似利用を想定
 特化して計画アルゴリズムと紐付いているわけではない
• Diffuser:拡散モデルのアフォーダンスに紐付いた計画手順
 計画≒サンプリングのため,diffuserの予測性能≒良質な長期計画
報酬がスパースな長期期間の計画
• 狙い撃ち法:近眼的な失敗が起きがち
• Diffuser:うまくいく
一般的な方法との特徴的な違い2:時間方向の合成
12
• 単ステップモデル:マルコフ性を利用することが多い
 学習データ分布の遷移を一般化して分布外データに適用
• Diffuser:局所的一貫性の反復=大域的一貫性を持つ
 いい感じで複数の軌道を組み合わせられる
• 狙い撃ち法:直線的な軌道しか計画できない
• Diffuser:二つの軌道をうまく組み合わせて
V字軌道を計画できる
一般的な方法との特徴的な違い3/4:可変な計画期間/タスクの合成
13
• 畳み込みを利用しているため,任意期間の計画が可能
 入力ノイズ𝜏𝑁 ∼ 𝒩(0, 𝐼)の長さNによって決められる
• Diffuser:環境のダイナミクスと行動の両方に関する情報を含む
一方で報酬関数とは独立
 モデル𝑝𝜃 𝜏 は,将来ありうる行動を出力
 摂動関数ℎ(𝜏)(複数組み合わせもあり)によって誘導される
(ここからAdaptDiffuser)Diffuserの欠点
14
RQ:拡散モデルの強力な生成能力を用いて,
自身を改善するような異種データを作ることができるのか?
そもそも拡散モデルの学習がうまくいかないとだめ
=>学習データの多様性によって制限されがち
※特に初見タスクは解けない
AdaptDiffuser
15
1. とにかく軌道生成
 様々なタスク報酬でガイド
Goal
Start State
Goal
Start State
�
�
Reward Function
Denoising
U-Net
� (Initialized as noise)
�
Denoising
Process
Discriminator
Data Pool
Goal 1 Goal 2 Goal 3
Diverse Task
Generation
Update Diffusion
Model
Drop Accept
Reward Gradient
Guidance
AdaptDiffuser
16
1. とにかく軌道生成
 様々なタスク報酬でガイド
2. 識別器𝒟で選択
 1で生成した軌道が
基準を満たしているか判断
Goal
Start State
Goal
Start State
�
�
Reward Function
Denoising
U-Net
� (Initialized as noise)
�
Denoising
Process
Discriminator
Data Pool
Goal 1 Goal 2 Goal 3
Diverse Task
Generation
Update Diffusion
Model
Drop Accept
Reward Gradient
Guidance
AdaptDiffuser
17
1. とにかく軌道生成
 様々なタスク報酬でガイド
2. 識別器𝒟で選択
 1で生成した軌道が
基準を満たしているか判断
3. 良質な合成データで学習
 拡散モデルをfine-tune
Goal
Start State
Goal
Start State
�
�
Reward Function
Denoising
U-Net
� (Initialized as noise)
�
Denoising
Process
Discriminator
Data Pool
Goal 1 Goal 2 Goal 3
Diverse Task
Generation
Update Diffusion
Model
Drop Accept
Reward Gradient
Guidance
AdaptDiffuser
18
1. とにかく軌道生成
 様々なタスク報酬でガイド
2. 識別器𝒟で選択
 1で生成した軌道が
基準を満たしているか判断
3. 良質な合成データで学習
 拡散モデルをfine-tune
4. 所望の精度まで継続
Reward
Guidance
Diffusion Model
II. Model (re-)training
Diverse Goal Point
IV. Diverse synthetic data
III. Guided Trajectory
Generation
I. Offline Trajectories
(Single Goal)
Initialize
Selection by
Discriminator
Goal Point
報酬ガイドによる合成データ生成
19
• 異なるゴールと報酬関数を用いて様々なタスクを定義する
 連続的報酬関数:MuJoCo
連続値から写像された確率による最適性を示す2値確率変数に準拠
Diffuserの𝑝(𝒪 = 1|𝜏)と同じ
 スパース報酬関数:迷路(Maze2D)のようにゴール地点のみ1
勾配がディラックデルタ関数になるためガイドに利用できない
サンプリングされた値を制約で置き換えてしまえばよい
 二つの報酬関数の組み合わせ:迷路の途中で寄るところがある
途中の報酬点を𝑠𝑐として,p-ノルムをガイド関数として追加
識別器𝒟:合成データが基準を満たしているか
20
• 従来手法の報酬ℛ(𝑠, 𝑎)を軌道𝜏 = (𝑠, 𝑎)生成との同時予測
 ダイナミクスの一貫性を解決できてなかった
遷移モデル𝑠′
= 𝒯(𝑠, 𝑎)による実際と予測された次の状態が逸脱
しかもそれを実行可能な解(=軌道)と見なされていた
• 逆動力学モデルℐを用いた状態追跡制御:𝑎𝑡 = ℐ 𝑠𝑡, 𝑠𝑡+1 を利用
 得られた実際に実行可能な行動𝑎𝑡は,ロボットの動的制約を守る
 行動𝑎𝑡を使って次の状態を得る:𝑠𝑡+1 = 𝒯(𝑠𝑡, 𝑎𝑡)
 𝑠𝑡+1とあまり離れていない𝑠𝑡+1 を採用
AdaptDiffuserでは
実験1:Maze2D
21
• 過去の軌道履歴からゴールまでの最短経路を見つけるタスク
 3種類のレイアウト
 報酬はゴールに到達した時のみ1与えられるスパース性
(b) AdaptDiffuser
Hard Case 1 (Maze2D-Medium)
(c) Diffuser (Failed) (d) AdaptDiffuser
Hard Case 2 (Maze2D-Large)
(a) Diffuser
※この経路はDiffuserのもの
実験2:MuJoCo
22
• 異種データ生成による性能向上の検証
 基本的には全てのタスクで性能が最も高い
 特にMediumデータセットでは顕著
データ生成によって良質な学習ができている
 一方でMedium-Expertはすでに良質のため効果薄
※この可視化はDiffuserのもの
実験3:初見タスクでの適応能力(Maze2D)
23
• Maze2Dで途中で金貨を集めるというタスクを追加
 金貨がない時:Diffuser共に最短経路を生成してる
 金貨追加時:共に経路を変更している
Diffuser:壁に衝突している
AdaptDiffuser:衝突なし,かつより滑らかな経路
(a) Diffuser
(Collision)
(b) AdaptDiffuser (c) Diffuser
(Collision)
(d) AdaptDiffuser
(No Collision)
Original Setting With Gold Coin on (4, 2)
実験3:初見タスクでの適応能力(KUKA)
24
• Stackingタスクの学習データのみ用意
• Pick and Placeタスクへの適応能力を評価
 セットアップ1:4つのブロックが全て床の上にある状態スタート
 セットアップ2:ランダムに積み上がった状態でスタート
25
• 条件付けなし
• 条件付けあり
(Diffuser)𝒑𝜽 𝝉 ∝ 𝒑𝜽 𝝉 𝒉(𝝉)の独立性
Ablation Study
26
• Fine-tuningの反復回数
 1回 < 2回のfine-tuning
 Medium-Expertは既に良質すぎるため,
効果がそんなにない
• 良質なデータ量
 50%のデータ量x25%の学習回数の時,
Diffuserの100%データ量x10%学習回数と同等
• 学習時間
 (一応主張としては)
データ生成+fine-tuning<<学習時間
(付録として)ChatGPTによるデータ生成
27
• データ生成時にLLMを使ったらうまくいくのでは?
 迷路のレイアウトも増やせば良質なデータセットが増える
 手作業で作るのは大変
 プロンプトエンジニアリングでできそう
(b) Generated Mazes with ChatGPT
(a) Existing Maze
発表まとめ
28
• 強化学習へ拡散モデルを応用したICML論文を2本
 状態の予測と行動の計画を同時に行なってしまう
 拡散モデルの性能の高さを利用して,Self-evolveなデータ拡張も可能
• 感想
 自己回帰型ではなく,全体での系を扱うのは賢い
世界モデルとの関係性はどうなのか
 上海AIラボすごい
OpenMMLabとかもここが管理してる
自動運転界隈でもすごい成果出してる

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners