[DL Papers]
AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Makoto Kawano (@mkt_kwn), Matsuo Lab.
• AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 Liang, Z., Mu, Y., Ding, M., Ni, F., Tomizuka, M., and Luo, P
 The University of Hong Kong, University of California, Berkeley, Tianjin University,
Shanghai AI Laboratory
 ICML2023(oral)
• Planning with Diffusion for Flexible Behavior Synthesis
 Janner, M., Du, Y., Tenenbaum, J.B., and Levine, S.
 University of California, Berkeley, MIT
 ICML2022
• 強化学習やデータ駆動型の意思決定において非常に重要
 教師あり学習に近い未知の環境ダイナミクスの近似など
 うまくいくことはかなりレアケース:学習モデルがうまくいかないことが多いため
 うまくいくためには,因果的過程に従う必要がある
 賢くない学習モデルを使って計画立ててもうまくいくわけがない
• 本研究:軌道最適化をうまく扱えるモデルを作ること
 モデルからのサンプリングとモデルからの計画を同一的に扱う
 状態ダイナミクスと行動の分布は重要
 1ステップずつの精度より全体(長期)的な精度が大事
 一方で未知のタスクを含めた複数タスクに対応するため,z報酬に対して独立になるべき
離散時間におけるダイナミクスを持つ系𝑠𝑡 = 𝑓 𝑠𝑡, 𝑎𝑡 を考える.タイムステップごとの報酬(もし
くはコスト)𝑟(𝑠𝑡, 𝑎𝑡)に因数分解された目的関数𝒥の最大化(もしくは最小化)するような行動の系列
𝑎 0:𝑇
ただし,𝑇は計画期間を表し,𝜏 = (𝑠0, 𝑎0, 𝑠1, 𝑎1, … , 𝑠𝑇, 𝑎𝑇)を状態と行動を交互にまとめたものとし
• 環境ダイナミクス𝑓に関する知識が必要であること
 多くの手法:学習によるダイナミクスモデルで近似して計画に利用する
• モデリングと計画を同時に行う拡散モデル𝑝𝜃(𝜏)を利用
 ノイズ除去の際に摂動分布からのサンプリングで条件づける=>確率論の問題になる
ℎ 𝜏 :理想の出力や報酬,観測などに関する情報を含めた関数
𝑝𝜃(𝜏)のもとで物理法則的に正しく,ℎ 𝜏 のもとで高い報酬となる軌道を見つける
• サンプリングと計画を同時に行うと普通ではない制約が生じる
 自己回帰による時間方向の状態予測ができなくなる
 ゴールで条件づけられた推論𝑝 𝑠1 𝑠0, 𝑠𝑇)を考える
=> 過去によって現在が決まる
=> 未来に向かって現在を決める
• 自己回帰的/マルコフ的ではないが,時間的局所性を持たせたい
 ある時刻の予測:直近の過去/未来の情報にもとづく
• 状態予測の質と同等に行動の有効性も重要
 状態と行動を同時に予測するように設計
• 基本はU-Netの1d-Convバージョン
 畳み込みのおかげで計画期間の長さは可変になる
• 学習も[Ho+, 2020]を利用
 𝑖 ∼ 𝒰{1,2, … , 𝑁}:拡散方向のタイムステップ
 𝜖 ∼ 𝒩(0, 𝐼):ターゲットノイズ
GN Mish GN, Mish
「報酬」導入による Diffuserでの強化学習
• Control-as-inference[Levine, 2018]と同じように定式化
 𝒪𝑡:時刻𝑡における軌道の最適性を表す二値確率変数
• 摂動関数ℎ 𝜏 = 𝑝(𝒪1:𝑇|𝜏)によって最適な軌道をサンプリング可能
• 学習手順:
1. 学習データセットを用いて拡散モデル𝑝𝜃(𝜏)を学習
2. 各𝜏𝑖における累積報酬和を予測するモデル𝒥𝜙を学習
• プランニング手順:
 𝒥_𝜙の勾配でガイド
• 単ステップ予測モデル:真の環境ダイナミクス𝑓の近似利用を想定
 特化して計画アルゴリズムと紐付いているわけではない
• Diffuser:拡散モデルのアフォーダンスに紐付いた計画手順
 計画≒サンプリングのため,diffuserの予測性能≒良質な長期計画
• 狙い撃ち法:近眼的な失敗が起きがち
• Diffuser:うまくいく
• 単ステップモデル:マルコフ性を利用することが多い
 学習データ分布の遷移を一般化して分布外データに適用
• Diffuser:局所的一貫性の反復=大域的一貫性を持つ
 いい感じで複数の軌道を組み合わせられる
• 狙い撃ち法:直線的な軌道しか計画できない
• Diffuser:二つの軌道をうまく組み合わせて
• 畳み込みを利用しているため,任意期間の計画が可能
 入力ノイズ𝜏𝑁 ∼ 𝒩(0, 𝐼)の長さNによって決められる
• Diffuser:環境のダイナミクスと行動の両方に関する情報を含む
 モデル𝑝𝜃 𝜏 は,将来ありうる行動を出力
 摂動関数ℎ(𝜏)(複数組み合わせもあり)によって誘導される
1. とにかく軌道生成
 様々なタスク報酬でガイド
Start State
Start State
Reward Function
� (Initialized as noise)
Data Pool
Goal 1 Goal 2 Goal 3
Diverse Task
Update Diffusion
Drop Accept
Reward Gradient
1. とにかく軌道生成
 様々なタスク報酬でガイド
2. 識別器𝒟で選択
 1で生成した軌道が
Start State
Start State
Reward Function
� (Initialized as noise)
Data Pool
Goal 1 Goal 2 Goal 3
Diverse Task
Update Diffusion
Drop Accept
Reward Gradient
1. とにかく軌道生成
 様々なタスク報酬でガイド
2. 識別器𝒟で選択
 1で生成した軌道が
3. 良質な合成データで学習
 拡散モデルをfine-tune
Start State
Start State
Reward Function
� (Initialized as noise)
Data Pool
Goal 1 Goal 2 Goal 3
Diverse Task
Update Diffusion
Drop Accept
Reward Gradient
1. とにかく軌道生成
 様々なタスク報酬でガイド
2. 識別器𝒟で選択
 1で生成した軌道が
3. 良質な合成データで学習
 拡散モデルをfine-tune
4. 所望の精度まで継続
Diffusion Model
II. Model (re-)training
Diverse Goal Point
IV. Diverse synthetic data
III. Guided Trajectory
I. Offline Trajectories
(Single Goal)
Selection by
Goal Point
• 異なるゴールと報酬関数を用いて様々なタスクを定義する
 連続的報酬関数:MuJoCo
Diffuserの𝑝(𝒪 = 1|𝜏)と同じ
 スパース報酬関数:迷路(Maze2D)のようにゴール地点のみ1
 二つの報酬関数の組み合わせ:迷路の途中で寄るところがある
• 従来手法の報酬ℛ(𝑠, 𝑎)を軌道𝜏 = (𝑠, 𝑎)生成との同時予測
 ダイナミクスの一貫性を解決できてなかった
= 𝒯(𝑠, 𝑎)による実際と予測された次の状態が逸脱
• 逆動力学モデルℐを用いた状態追跡制御:𝑎𝑡 = ℐ 𝑠𝑡, 𝑠𝑡+1 を利用
 得られた実際に実行可能な行動𝑎𝑡は,ロボットの動的制約を守る
 行動𝑎𝑡を使って次の状態を得る:𝑠𝑡+1 = 𝒯(𝑠𝑡, 𝑎𝑡)
 𝑠𝑡+1とあまり離れていない𝑠𝑡+1 を採用
• 過去の軌道履歴からゴールまでの最短経路を見つけるタスク
 3種類のレイアウト
 報酬はゴールに到達した時のみ1与えられるスパース性
(b) AdaptDiffuser
Hard Case 1 (Maze2D-Medium)
(c) Diffuser (Failed) (d) AdaptDiffuser
Hard Case 2 (Maze2D-Large)
(a) Diffuser
• 異種データ生成による性能向上の検証
 基本的には全てのタスクで性能が最も高い
 特にMediumデータセットでは顕著
 一方でMedium-Expertはすでに良質のため効果薄
• Maze2Dで途中で金貨を集めるというタスクを追加
 金貨がない時:Diffuser共に最短経路を生成してる
 金貨追加時:共に経路を変更している
(a) Diffuser
(b) AdaptDiffuser (c) Diffuser
(d) AdaptDiffuser
(No Collision)
Original Setting With Gold Coin on (4, 2)
• Stackingタスクの学習データのみ用意
• Pick and Placeタスクへの適応能力を評価
 セットアップ1:4つのブロックが全て床の上にある状態スタート
 セットアップ2:ランダムに積み上がった状態でスタート
• 条件付けなし
• 条件付けあり
(Diffuser)𝒑𝜽 𝝉 ∝ 𝒑𝜽 𝝉 𝒉(𝝉)の独立性
Ablation Study
• Fine-tuningの反復回数
 1回 < 2回のfine-tuning
 Medium-Expertは既に良質すぎるため,
• 良質なデータ量
 50%のデータ量x25%の学習回数の時,
• 学習時間
 (一応主張としては)
• データ生成時にLLMを使ったらうまくいくのでは?
 迷路のレイアウトも増やせば良質なデータセットが増える
 手作業で作るのは大変
 プロンプトエンジニアリングでできそう
(b) Generated Mazes with ChatGPT
(a) Existing Maze
• 強化学習へ拡散モデルを応用したICML論文を2本
 状態の予測と行動の計画を同時に行なってしまう
 拡散モデルの性能の高さを利用して,Self-evolveなデータ拡張も可能
• 感想
 自己回帰型ではなく,全体での系を扱うのは賢い
 上海AIラボすごい

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners