SlideShare a Scribd company logo
1 of 37
A Brief Survey of
Schrödinger Bridge (Part I)
Linking Diffusion Models
with Optimal Transport
株式会社モルフォ
リサーチャー 長山 知司
Copyright © 2023 Morpho, Inc. All Rights Reserved. 1
• 筆者が最近注目している生成モデルスキームの Schrödinger bridge について解説
• E. Schrödinger が 1931/1932 年に発表した統計力学の思考実験に由来[1, 2]
• 近年の研究によって、拡散モデルの拡張とみなせることが示されている
• (なお、量子力学はあまり関係がない)
はじめに
Diffusion Schrödinger Bridge (DSB) モデルによる
スイスロール-S字分布相互変換 (上) と EMNIST Letters-MNIST 相互変換 (下)
引用: [3]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 2
• 昨今は生成 AI の性能向上が著しく、ビジネス展開も盛ん
• 既存のデータを学習し、新しいコンテンツ (画像・オーディオ・文章など) を創造する手法
• この発展は拡散モデルの貢献が大きい
• ただし本スライド作成時点では、純粋な言語モデル (e.g., GPT-3[4] や LLaMA[5]) は例外
背景 | 生成AI ( G enerative AI )
画像生成 AI 「Stable Diffusion」 の生成サンプル
引用: [6]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 3
• ノイズ除去を繰り返す手続きによって生成を行う手法
• 純粋なノイズから始めて、徐々に目的のデータへと近づけていく
• 以前の主流だった敵対的生成ネットワーク (GAN) を上回る生成品質が報告されている
• 生成速度は遅いものの、数値的に安定した訓練が可能な特徴
背景 | 拡散モデル ( Diffus ion Models )
拡散モデルの生成手続きのコンセプト
(注: 写真を加工して作成、AI 生成データではない)
初期ノイズ 中間画像 中間画像 出力
ノイズ除去 ノイズ除去 ノイズ除去
Copyright © 2023 Morpho, Inc. All Rights Reserved. 4
• 拡散モデルは画像から画像への変換にも応用される (Image-to-Image)
• インペインティング、スタイル変換、ボケ除去など
• ただし原理的には、画像をガイドにしたノイズ-画像変換モデルという方が正確 (左図)
• 拡散モデルのエッセンスを維持しつつ、直接的手法へと拡張できないだろうか?
背景 | Image -t o -Image モデル
拡散モデル ?
拡散モデルっぽく
直接的手法を実現する
方法は存在するのか?
インペインティングのモデル図
ノイズ 生成画像 生成画像
原画像
原画像
Side
information
間接的手法の例 直接的手法
Copyright © 2023 Morpho, Inc. All Rights Reserved. 5
拡散モデルの基礎知識
Copyright © 2023 Morpho, Inc. All Rights Reserved. 6
• データからノイズへと崩壊する Markov 連鎖 (拡散過程) を構成し、
その逆過程によって生成を実現する手法
• あえてノイズを混ぜることで確率分布推定タスクの難易度を緩和する意図
• なお、発展的手法では Markov 性を満たさないことも多い (e.g., DDIM[7])
• 逆過程に対応する遷移確率をニューラルネットでモデル化
• ノイズを付与する処理の逆なので “ノイズ除去” として言及されることが多い
• 適切な拡散過程を選ぶことで、サンプル効率の良い訓練が可能
• 画像のような高次元データに適用可能になった要因の一つ
拡散モデル ( Diffus ion Models )
拡散過程の Markov 連鎖
引用: [8]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 7
• 有名な拡散モデルの一つである DDPM[8] の訓練・生成方法について簡単にまとめる
• 式①: データ → ノイズへの崩壊過程 (前進過程)
• 𝛼𝑡 ∈ ℝ+ ∀𝑡 はハイパーパラメータで、 𝑝 𝒙𝑇|𝒙0 ≈ 𝑁 𝟎, 𝑰 となるように設計
• 式②: 訓練可能なノイズ推定モデル 𝜺𝜽 𝒙, 𝑡 に関する損失関数
• ത
𝛼𝑡 ≔ ς𝑠=0
𝑡
𝛼𝑠、また、 𝜆 𝑡 は重み関数
• 式③: ノイズ → データのサンプリング (生成) 過程 (後退過程)
• 𝜎𝑡 ∈ ℝ++ ∀𝑡 はサンプル時に加えるノイズの強度
• より詳しい解説は C. Luo (2022)[9] を参照せよ
Denois ing Diffus ion Probabilis tic Models (DDPMs )
𝒙𝑡+1 = 𝛼𝑡𝒙𝑡 + 1 − 𝛼𝑡𝜺, 𝒙0 ∼ 𝑝data, 𝜺 ∼ 𝑁 𝟎, 𝑰
𝜽∗ = argmin
𝜽
𝔼𝑡,𝒙0,𝜀 𝜆 𝑡 𝜺 − 𝜺𝜽 𝒙𝑡|𝒙0, 𝑡 2 , 𝒙𝑡|𝒙0 = ത
𝛼𝑡𝒙0 + 1 − ത
𝛼𝑡𝜺
𝒙𝑡−1 =
1
𝛼𝑡
𝒙𝑡 −
1 − 𝛼𝑡
1 − ത
𝛼𝑡
𝜺𝜽∗ 𝒙𝑡, 𝑡 + 𝜎𝑡𝒛𝑡, 𝒛𝑡 ∼ 𝑁 𝟎, 𝑰
[①前進過程]
[②損失関数]
[③後退過程]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 8
• 拡散過程を時間について連続化すると、確率微分方程式 (SDE) として表せる → SGM[10]
• 前進過程 (データ分布 → 事前分布) は一般に次のような SDE として表現
• 𝒇 (ベクトル関数) はドリフト係数、 𝑔 (スカラー関数) は拡散係数と呼ばれるハイパーパラメータ
• 第二項の 𝒘𝑡 は標準 Wiener 過程 (標準 Brown 運動)
• 誤解を恐れずに言えば、平均ゼロで分散 𝑡 の正規分布に従う連続な確率変数のこと
ス コアベース 生成モデル ( SG Ms ) | 前進過程 ( for war d pr oc . )
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙0 ~ 𝑝data
引用: [11] 一次元標準 Wiener 過程のサンプルパス
Copyright © 2023 Morpho, Inc. All Rights Reserved. 9
• 後退過程 (事前分布 → データ分布) も同様に SDE として表すことが可能
• 前進過程とほぼ同形だが、ドリフト係数にスコア関数 (∇ log 𝑝𝑡 𝒙 ) の項が加わる
• 時間 𝑡 は逆方向に進めることに注意
• この分野の研究者であれば Anderson (1982)[12] で通じる
• 関数 𝑝𝑡 は、前進過程における 𝒙𝑡 の従う確率密度 (𝒙𝑡 ∼ 𝑝𝑡(𝒙))
• ここで、𝑝𝑡 ≔ 𝑝 ⋅ ; 𝑡 と略記している
ス コアベース 生成モデル ( SG Ms ) | 後退過程 ( bac kwar d pr oc .)
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior
引用: [11] 一次元標準 Wiener 過程のサンプルパス
Copyright © 2023 Morpho, Inc. All Rights Reserved. 10
• 前進過程の 𝒙𝑡 が従う確率密度 𝑝𝑡 は Fokker-Planck (FP) 方程式で与えられる
• Kolmogorov の前進方程式とも呼ばれる
• 一般に 𝑝0 𝒙 = 𝑝data 𝒙 は非明示的なために解析解は求められない
ス コアベース 生成モデル ( SG Ms ) | 確率密度の時間発展
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡
𝜕
𝜕𝑡
𝑝𝑡 𝒙 = −∇ ⋅ 𝒇 𝒙, 𝑡 𝑝𝑡 𝒙 +
1
2
𝑔2
𝑡 Δ𝑝𝑡 𝒙
[前進過程]
[対応する FP 方程式]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 11
• 目的: パラメータ化したモデル 𝒔𝜽 𝒙, 𝑡 でスコア関数 ∇ log 𝑝𝑡 𝒙 を学習
• 生成 (後退過程) のときは、密度関数 𝑝𝑡 𝒙 自体は知らなくても問題ない
• 条件付き確率 𝑝𝑡 𝒙𝑡 𝒙0 のスコアに対する二乗損失を最小化するように訓練
• 典型的な SGM の前進過程は線形 SDE なので、遷移確率 (𝑝𝑡 𝒙𝑡 𝒙0 ) は解析解が存在
• この損失関数は以下の最適化問題と解が等しいことが知られている[13, 14]
• いわゆる score matching technique
ス コアベース 生成モデル ( SG Ms ) | 学習
𝜽∗ = argmin
𝜽
𝔼𝑡,𝒙𝑡
𝜆 𝑡 𝒔𝜽 𝒙𝑡, 𝑡 − ∇ log 𝑝𝑡 𝒙𝑡
2
𝜽∗
= argmin
𝜽
𝔼𝑡,𝒙0,𝒙𝑡|𝒙0
𝜆 𝑡 𝒔𝜽 𝒙𝑡, 𝑡 − ∇ log 𝑝𝑡 𝒙𝑡|𝒙0
2
[SGM の損失関数]
[等価な損失関数]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 12
• 学習したスコア推定モデル 𝒔𝜽∗ を用いて、後退過程の解 𝒙0 を数値シミュレーションで求める
• 精度や計算量などの要求に応じて、様々なアルゴリズムが存在
• 最も単純な求解アルゴリズムは Euler-丸山法
• 常微分方程式 (ODE) の数値解法である Euler 法の SDE 版とみなせる
• Euler 法の更新式にノイズ項が加わる形式
• DDPM の原著における生成アルゴリズムはこれに対応
ス コアベース 生成モデル ( SG Ms ) | 生成
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 𝒔𝜽∗ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior
𝒙𝑘−1 = 𝒙𝑘 − 𝒇 𝒙𝑘, 𝑡𝑘 − 𝑔2
𝑡𝑘 𝒔𝜽∗ 𝒙𝑘, 𝑡𝑘 Δ𝑡𝑘 + 𝑔 𝑡𝑘 Δ𝑡𝑘𝒛𝑘, 𝒛𝑘 ∼ 𝑁 𝟎, 𝑰
Copyright © 2023 Morpho, Inc. All Rights Reserved. 13
• 実のところ、拡散モデルの応用手法の多くは生成のとき SDE の代わりに ODE を用いる
• 拡散モデルの SDE には、共通の密度関数を持つ ODE が付随 → 確率フロー ODE[11]
• 既存の訓練済みモデルに対しても再学習不要で適用可能
• 利点:
1. 決定論的な生成過程なので、固定した初期値に対して常に同じ結果を保証できる
2. 古くから研究されている ODE ソルバーの知見を取り入れられる (e.g., Runge-Kutta 法)
3. データ・事前分布のサンプル間で可逆変換が可能 (cf. Continuous Normalizing Flow[15])
確率フ ロー ODE ( Probability Flow ODE ) 1/ 2
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2
𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 −
1
2
𝑔2 𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡
[後退 SDE]
[確率フロー ODE]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 14
• SDE → 確率フロー ODE の導出手順 (ラフスケッチ)
• 前進 SDE の FP 方程式に対して Δ𝑝 = ∇ ⋅ ∇𝑝 = ∇ ⋅ 𝑝∇ log 𝑝 を適用 (対数微分の公式)
• 変数変換 ෨
𝒇 ≔ 𝒇 − 1/2 ⋅ 𝑔2∇ log 𝑝 は拡散項の無い FP 方程式で、元の前進過程と解が一致
• 変換後の FP 方程式に対応する (確率) 微分方程式の一つが確率フロー ODE
確率フ ロー ODE ( Probability Flow ODE ) 2/ 2
𝜕𝑝
𝜕𝑡
= −∇ ⋅ 𝒇𝑝 +
1
2
𝑔2Δ𝑝 = −∇ ⋅ 𝒇 −
1
2
𝑔2∇ log 𝑝 𝑝 = −∇ ⋅ ෨
𝒇𝑝
SDE および確率フロー ODE の生成するパス
引用: [11]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 15
Schrödinger Bridge
Copyright © 2023 Morpho, Inc. All Rights Reserved. 16
• 拡散モデルのスキームを Image-to-Image に拡張したい
• ただし、入力画像をガイドに用いる方法以外のものに限定して考える
• 単純に、事前分布 𝑝prior を任意の分布に置き換えてはどうか?
→ 前進過程の設計方法が問題化
• 確率密度について、 𝑝𝑇 ≈ 𝑝prior を満たすようにハイパラ 𝒇, 𝑔 を設計する必要性
(FP 方程式より、終端確率密度 𝑝𝑇 は 𝑝0, 𝒇, 𝑔 から自動的に定まってしまう)
• しかし、一般に 𝑝data, 𝑝prior は両方とも非明示的となるので、拡散モデルのように
訓練前に設計した 𝒇, 𝑔 を利用することは困難に
“ 真の” Image -t o -Image モデルへ向け て
[拡散モデルの FP 方程式]
𝜕
𝜕𝑡
𝑝𝑡 𝒙 = −∇ ⋅ 𝒇 𝒙, 𝑡 𝑝𝑡 𝒙 +
1
2
𝑔2 𝑡 Δ𝑝𝑡 𝒙 , 𝑝0 = 𝑝data
Copyright © 2023 Morpho, Inc. All Rights Reserved. 17
• 拡散モデルの代わりに、もう少し抽象化した
生成モデルの問題設定を考える:
1. データ分布 𝑝data と事前分布 𝑝prior が与えられている
2. それぞれの分布は SDE を通して接続
3. SDE の従う確率密度 𝑝𝑡 𝒙 をモデル化
(境界条件: 𝑝0 = 𝑝data, 𝑝𝑇 = 𝑝prior)
• Schrödinger bridge (SB) は、
このようなモデルの一例として知られる
• 分布同士が Brown 運動の “架け橋” に
よってつながることが名称の由来
• 量子力学における Schrödinger 方程式とは異なる
(関連性は少なからずあるものの)
• サーベイ論文として C. Léonard (2013)[16]や
Y. Chen et al. (2020)[17]が有名
拡散モデルの抽象化
𝑝data
𝑝data
𝑝prior
𝑝prior
拡散モデル
Schrödinger bridge
制約条件:
𝑝prior は正規分布
𝑝prior は任意
Copyright © 2023 Morpho, Inc. All Rights Reserved. 18
• SB は確率過程のパス測度の制約付き KL ダイバージェンス最小化問題として定式化
• 後述する static SB と対比して、こちらは dynamic SB とも呼ばれる
• パス測度とは、パス 𝒙𝑡 0≤𝑡≤𝑇 の全体を一つの標本として見たときの確率分布に相当
• ここで、パス測度 ℙ, ℚ はそれぞれ近似分布と真の分布に対応し、特に ℚ を参照測度と呼ぶ
Dynamic Schrödinger B ridge
min
ℙ
𝐷KL ℙ||ℚ s. t. ℙ0 = 𝜇data, ℙ𝑇 = 𝜇prior
確率空間 Ω, ℱ, ℙ の概念図
標本空間 Ω
Copyright © 2023 Morpho, Inc. All Rights Reserved. 19
• Dynamic SB の最適解は、関連する static SB の解から構成できることが知られる
• 緩やかな仮定のもとで、両者の最適解は一対一で対応する (後述)
• Static SB: 初期・終端時刻についての結合分布に関する KL ダイバージェンス最小化問題
• 途中の経路を周辺化して、始点と終点の組み合わせだけを考慮する設定
• ここで ℙ0,𝑇 および ℚ0,𝑇 はカップリング測度とも呼ばれる
Static Schrödinger B ridge
min
ℙ0,𝑇
𝐷KL ℙ0,𝑇||ℚ0,𝑇 s. t. ℙ0 = 𝜇0, ℙ𝑇 = 𝜇𝑇
引用: [18]
※ 𝜋, 𝛼, 𝛽 はそれぞれ ℙ0,𝑇, 𝜇0, 𝜇𝑇 に対応
Copyright © 2023 Morpho, Inc. All Rights Reserved. 20
• Dynamic SB の解を ℙ∗、static SB の解を ℙ0,𝑇
∗
と表す
• ℙ∗
は、参照 diffusion bridge ℚ|0,𝑇 の ℙ0,𝑇
∗
による周辺化として与えられる[16]
• 両端の値 (𝒙0, 𝒙𝑇) が固定された拡散過程を (diffusion) bridge と呼ぶ
• この ℙ∗
のように bridge の周辺化で構成されたパス測度を mixture of bridges と呼ぶ
• また、逆に ℙ0,T
∗
を ℙ∗
から一意に構成できることも知られている
Dynamic SB と Static SB の関係
ℙ∗ ⋅ = නℚ|0,𝑇 ⋅ 𝒙0, 𝒙𝑇 dℙ0,𝑇
∗
𝒙0, 𝒙𝑇
一次元 diffusion bridge ℚ|0,𝑇 ⋅ 𝒙0 = 0, 𝒙𝑇 = 0 のサンプルパス
Copyright © 2023 Morpho, Inc. All Rights Reserved. 21
• ある種の条件の元で、(static) SB は最適輸送と等しいことが知られている[16]
• 確率分布を移動させるときに、コストを最小化する運び方を探す問題 → 最適輸送
• 密度関数を砂山に見立て、ある砂山を運搬して別の形の砂山を構築するときにかかる
運搬コスト (距離と運ぶ量に相関) が最小になる組み合わせを探すようなイメージ
最適輸送 ( Optimal Trans port; OT )
分布 𝑝𝛼 分布 𝑝𝛽
Copyright © 2023 Morpho, Inc. All Rights Reserved. 22
• 現代的な最適輸送の定式化は Kantorovich の貢献に拠る
• 合計移動コストを最小化するカップリング測度 𝜋 を求める問題として扱われる
• ある質点から質点へ移動するとき、分割および統合を認めるような設定
• 輸送元、輸送先の確率測度をそれぞれ 𝛼, 𝛽 と表記
• ここで、単位質量の座標 𝒙 ∈ 𝒳 から座標 𝒚 ∈ 𝒴 への移動コストを 𝑐 𝒙, 𝒚 と定義
Kantorovich 最適輸送
min
𝜋
න
𝒳×𝒴
𝑐 𝒙, 𝒚 d𝜋 𝒙, 𝒚 s. t. 𝜋 ⋅ × 𝒴 = 𝛼, 𝜋 𝒳 × ⋅ = 𝛽
引用: [18]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 23
• 数値計算で OT を扱う際は、エントロピー正則化を
加えた緩和問題を考えることが多い
• コスト関数が 𝜋 に関して強凸となるので、
最適解が一意に定まり数値計算上の都合が良い
• 元の OT は凸だが、一般に強凸ではないので
最適解は一意とは限らない
• ここで、 𝐻 𝜋 は微分エントロピー
• 以下の定義式では、測度 𝜋 に対応する密度関数
𝑝 𝒙, 𝒚 が存在すると仮定
• より厳密には、離散 OT との対応を考慮し
相対エントロピーで定義[18]するほうが好ましい
エントロピー正則化 OT ( Entropy -Regularized OT; EROT )
min
𝜋
න
𝒳×𝒴
𝑐 𝒙, 𝒚 d𝜋 𝒙, 𝒚 + 𝜀𝐻 𝜋
s. t. 𝜋 ⋅ × 𝒴 = 𝛼, 𝜋 𝒳 × ⋅ = 𝛽, 引用: [18]
𝐻 𝜋 ≔ − න
𝒳×𝒴
𝑝 𝒙, 𝒚 log 𝑝 𝒙, 𝒚 d𝒙d𝒚
Copyright © 2023 Morpho, Inc. All Rights Reserved. 24
• 参照測度 ℚ が可逆 Brown 運動のとき、 static SB と EROT は最適解が一致[17,18]
• 定常的な周辺測度を持つ Brown 運動を可逆 Brown 運動と呼ぶ (ℚ𝑡 = ℚ𝑠 ∀0 ≤ 𝑡 ≤ 𝑠 ≤ 𝑇)
• 可逆 Brown 運動ならば、 距離関数 𝑐 が存在し 𝑞0,𝑇 𝒙0, 𝒙𝑇 ∝ exp −𝑐 𝒙0, 𝒙𝑇 と表せる
• 具体例として、定義域が Euclid 空間 ℝ𝑛 のときの可逆 Brown 運動 ℚ に関連する
SDE は d𝒙𝑡 = 𝜎d𝒘𝑡 であり、距離関数は二乗 Euclid ノルム 𝑐 𝒙0, 𝒙𝑇 = ‖𝒙0 − 𝒙𝑇‖2
/2𝜎2
SB と最適輸送の関係性 1/ 2
[確率密度関数が存在するときの証明ラフスケッチ]
𝐷KL ℙ0,𝑇||ℚ0,𝑇 = −𝔼ℙ0,𝑇
log 𝑞0,𝑇 + 𝔼ℙ0,𝑇
log 𝑝0,𝑇
= −𝔼ℙ0,𝑇
−𝑐 𝒙0, 𝒙𝑇 + 𝐻 ℙ0,𝑇 + const.
= න𝑐 𝒙0, 𝒙𝑇 dℙ0,𝑇 𝒙0, 𝒙𝑇 + 𝐻 ℙ0,𝑇 + const.
Copyright © 2023 Morpho, Inc. All Rights Reserved. 25
• 離散 EROT の解から構成される mixture of bridges の可視化 (下図)
• 青の点群から赤の点群への輸送パス
• 各点の質量は全て等しい設定
• エントロピー項の寄与 (𝜀) が大きくなるほど、許容可能な bridge が多様化する傾向
SB と最適輸送の関係性 2/ 2
引用: [18]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 26
• パス測度はそのままだと扱いにくいので、SDE を用いた表現へと置き換えることにする
• ここでは、 T. Chen et al. (2021)[19] の定式化を紹介
• Dynamic SB は、等価な確率最適制御問題に変換できることが知られる[20]
• ここで d𝒙 = 𝒇 + 𝑔𝒖 d𝑡 + 𝑔d𝒘 は状態方程式
• 参照パス測度 ℚ より誘導される確率場 (SDE: d𝒙 = 𝒇d𝑡 + 𝑔d𝒘) を漂っている粒子に対して、
外力 (𝒖 に対応) を制御して初期値 𝒙0 から目標 𝒙𝑇 へと導くような問題設定
• 最小の作用 (‫׬‬ 𝒖 2
d𝑡) で目的を達成できるときの 𝒖 を最適解とする
SB の再定式化 | 確率最適制御問題
min
𝒖
𝔼 න
0
𝑇
1
2
𝒖 𝒙𝑡, 𝑡 2d𝑡
s. t. ቐ
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 + 𝑔 𝑡 𝒖 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡
𝒙0 ∼ 𝑝data
𝒙𝑇 ∼ 𝑝prior
d𝒙 = 𝒇d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 + 𝑔𝒖 d𝑡 + 𝑔d𝒘
source
target
𝒖
Copyright © 2023 Morpho, Inc. All Rights Reserved. 27
• 確率最適制御の最適解 𝒖∗
は、関数 Ψ, ෡
Ψ の偏微分方程式 (PDE) で特徴付けられる[20]
• この Ψ, ෡
Ψ を Schrödinger potential、 PDE を Schrödinger system と呼ぶ
• それぞれ Kolmogorov の後退・前進方程式に相当するが、互いに異なるポテンシャルを用いる
• Schrödinger system の解 Ψ, ෡
Ψ を用いて、 𝑝𝑡 と 𝒖∗
は次のように与えられる
• すなわち、Ψ, ෡
Ψ は 𝒙𝑡 の従う密度関数 𝑝𝑡 を分解したものとみなすことができる
• 具体的にどうやって Ψ, ෡
Ψ を求めるのか?という問題は後回しにする
SB の再定式化 | Schrödinger Sys tem
𝜕Ψ
𝜕𝑡
= − ∇Ψ, 𝒇 −
1
2
𝑔2ΔΨ
𝜕෡
Ψ
𝜕𝑡
= −∇ ⋅ ෡
Ψ𝒇 +
1
2
𝑔2Δ෡
Ψ
s. t. ൝
Ψ ⋅, 0 ෡
Ψ ⋅, 0 = 𝑝data
Ψ ⋅, 𝑇 ෡
Ψ ⋅, 𝑇 = 𝑝prior
𝑝𝑡 = Ψ ⋅, 𝑡 ෡
Ψ ⋅, 𝑡
𝒖∗ = 𝑔 𝑡 ∇ log Ψ
Copyright © 2023 Morpho, Inc. All Rights Reserved. 28
• 状態方程式の制御変数 𝒖 を最適ポテンシャル Ψ, ෡
Ψ に置き換えることで、
SB の解は次の前進・後退 SDE で表現できることが示されている[19]
• それぞれの SDE は reverse-time formula[12] によって相互変換可能
• すなわち、 Schrödinger bridge 問題とは次のように言い換えができる:
SB の再定式化 | 前進・ 後退 S D E
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 + 𝑔2 𝑡 ∇ log Ψ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙0 ∼ 𝑝data
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 ∇ log ෡
Ψ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior
確率分布 𝑝data, 𝑝prior と参照測度 (確率場) ℚ: d𝒙 = 𝒇d𝑡 + 𝑔d𝒘 が与えられたとき、
Schrödinger system を満たすような関数ペア Ψ, ෡
Ψ を求める問題
[前進 SDE]
[後退 SDE]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 29
• 生成モデルとしては以下のように実現される
• 学習
1. データ分布 𝑝data と事前分布 𝑝prior を用意
2. 参照測度 ℚ を SDE d𝒙 = 𝒇d𝑡 + 𝑔d𝒘 で設計
(𝒇, 𝑔 はハイパーパラメータ)
3. Schrödinger system を満たすように、
パラメータ化されたモデルを訓練
(Ψ, ෡
Ψ を学習)
• 生成
1. 初期データ 𝒙𝑇 を 𝑝prior からサンプル
2. 訓練済みモデルを用いて
初期条件 𝒙𝑇 のもとで後退 SDE
d𝒙 = 𝒇 − 𝑔2
∇ log ෡
Ψ d𝑡 + 𝑔d𝒘 を解く
SB の学習・ 生成ス キ ーム
d𝒙 = 𝒇 + 𝑔2
∇ log Ψ d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 − 𝑔2
∇ log ෡
Ψ d𝑡 + 𝑔d𝒘
𝒙0 𝒙𝑇
SGM/SB のコンセプト比較
(注: 写真を加工して作成、AI 生成データではない)
SB
SGM
d𝒙 = 𝒇d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 − 𝑔2
∇ log 𝑝 d𝑡 + 𝑔d𝒘
𝒙0 𝒙𝑇
Copyright © 2023 Morpho, Inc. All Rights Reserved. 30
• 導出した SB は拡散モデルの厳密な意味での拡張と言える
• 拡散モデルの前進・後退 SDE は、 Ψ ≡ 1, 𝑝 𝒙𝑇 𝒙0 = 𝑁 𝟎, 𝑰 の制約を設けた SB と等価
• このとき、 𝑔2∇ log Ψ ≡ 0, ෡
Ψ = Ψ෡
Ψ = 𝑝 が成立
• ものすごく大雑把にいえば、事前分布の制約条件を緩める代わりに
前進過程も学習パラメータ化した拡散モデルが Schrödinger bridge である
拡散モデル ( SG M ) との関係性
d𝒙 = 𝒇 + 𝑔2∇ log Ψ d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 − 𝑔2∇ log ෡
Ψ d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 − 𝑔2∇ log 𝑝 d𝑡 + 𝑔d𝒘
[拡散モデル (SGM)] [Schrödinger bridge]
[前進]
[後退]
[前進]
[後退]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 31
• まとめ
• Schrödinger Bridge (SB) とは、事前分布の制約を緩めた拡散モデルのような生成モデル
• もう一つの側面として、 SB は動的な最適輸送問題とみなすこともできる
• T. Chen et al. (2021)[19] の定式化では、前進・後退 SDE の同時最適化として扱える
• 今回は説明しなかった内容
1. 参照パス測度 ℚ の設計方法
• 確率最適制御問題における確率場 (SDE) d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡 のこと
• ドリフト係数 𝒇 𝒙𝑡, 𝑡 と拡散係数 𝑔 𝑡 はどのような基準で設計すべきか?
2. SB モデルの訓練アルゴリズム
• Schrödinger potential Ψ, ෡
Ψ の最適解の求め方のこと
• 機械学習の枠組みに持ち込むとき、どのようにパラメータ化するのが好ましいのだろうか?
おわりに
Copyright © 2023 Morpho, Inc. All Rights Reserved. 32
• SB の学習アルゴリズム
• Iterative Proportional Fitting (IPF)[3, 21]
• 最適輸送で有名な Sinkhorn-Knopp アルゴリズム[22]の拡張
• Forward-Backward SDE (SB-FBSDE)[19]
• Iterative Markovian Fitting (IMF)[23]
• CV 系の応用手法
• Image-to-Image Schrödinger Bridge (I2SB)[24]
• 関連アルゴリズム
• Conditional Flow Matching (CFM)[25]
• Stochastic Interpolants[26]
• Simulation-Free Score and Flow Matching ([SF]2M)[27]
Part II 以降で取り扱う内容 ( 予定)
I2SB の結果画像例
引用: [20]
Copyright © 2023 Morpho, Inc. All Rights Reserved. 33
• [1] E. Schrödinger, “Über die Umkehrung der Naturgesetze,” Sitzungsberichte der Preuss Akad. Wissen. Berlin, Phys. Math. Klasse,
vol. 10, pp. 144–153, 1931.
• [2] E. Schrödinger, “Sur la théorie relativiste de l’électron et l’interprétation de la mécaniquequantique,” Ann. Inst. H. Poincaré,
vol. 2, pp. 269–310, 1932.
• [3] V. De Bortoli, J. Thornton, J. Heng, and A. Doucet, “Diffusion Schrödinger Bridge with Applications to Score-Based Generative
Modeling.” arXiv, Dec. 06, 2021. doi: 10.48550/arXiv.2106.01357.
• [4] T. B. Brown et al., “Language Models are Few-Shot Learners.” arXiv, Jul. 22, 2020. Accessed: Jul. 14, 2023. [Online]. Available:
https://arxiv.org/abs/2005.14165
• [5] H. Touvron et al., “LLaMA: Open and Efficient Foundation Language Models.” arXiv, Feb. 27, 2023. Accessed: Jul. 14, 2023.
[Online]. Available: https://arxiv.org/abs/2302.13971
• [6] Stability AI, “GitHub - Stability-AI/generative-models: Generative Models by Stability AI.” https://github.com/Stability-
AI/generative-models (accessed Jul. 14, 2023).
• [7] J. Song, C. Meng, and S. Ermon, “Denoising Diffusion Implicit Models.” arXiv, Oct. 05, 2022. Accessed: Jul. 12, 2023. [Online].
Available: https://arxiv.org/abs/2010.02502
• [8] J. Ho, A. Jain, and P. Abbeel, “Denoising Diffusion Probabilistic Models.” arXiv, Dec. 16, 2020. doi: 10.48550/arXiv.2006.11239.
• [9] C. Luo, “Understanding Diffusion Models: A Unified Perspective.” arXiv, Aug. 25, 2022. doi: 10.48550/arXiv.2208.11970.
• [10] Y. Song and S. Ermon, “Generative Modeling by Estimating Gradients of the Data Distribution.” arXiv, Oct. 10, 2020. doi:
10.48550/arXiv.1907.05600.
• [11] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, “Score-Based Generative Modeling through
Stochastic Differential Equations.” arXiv, Feb. 10, 2021. doi: 10.48550/arXiv.2011.13456.
• [12] B. D. O. Anderson, “Reverse-time diffusion equation models,” Stochastic Processes and their Applications, vol. 12, no. 3, pp.
313–326, 1982, doi: 10.1016/0304-4149(82)90051-5.
参考文献 1/ 3
Copyright © 2023 Morpho, Inc. All Rights Reserved. 34
• [13] Y. Song, C. Durkan, I. Murray, and S. Ermon, “Maximum Likelihood Training of Score-Based Diffusion Models.” arXiv, Oct. 20,
2021. doi: 10.48550/arXiv.2101.09258.
• [14] P. Vincent, “A Connection Between Score Matching and Denoising Autoencoders,” Neural Computation, vol. 23, no. 7, pp.
1661–1674, Jul. 2011, doi: 10.1162/NECO_a_00142.
• [15] R. T. Q. Chen, Y. Rubanova, J. Bettencourt, and D. Duvenaud, “Neural Ordinary Differential Equations.” arXiv, Dec. 13, 2019.
doi: 10.48550/arXiv.1806.07366.
• [16] C. Léonard, “A survey of the Schrödinger problem and some of its connections with optimal transport.” Aug. 01, 2013.
Accessed: Mar. 24, 2023. [Online]. Available: https://arxiv.org/abs/1308.0215
• [17] Y. Chen, T. T. Georgiou, and M. Pavon, “Stochastic control liaisons: Richard Sinkhorn meets Gaspard Monge on a Schroedinger
bridge.” arXiv, Nov. 26, 2020. doi: 10.48550/arXiv.2005.10963.
• [18] G. Peyré and M. Cuturi, “Computational Optimal Transport.” arXiv, Mar. 18, 2020. doi: 10.48550/arXiv.1803.00567.
• [19] T. Chen, G.-H. Liu, and E. A. Theodorou, “Likelihood Training of Schrödinger Bridge using Forward-Backward SDEs Theory.”
arXiv, Jul. 14, 2022. doi: 10.48550/arXiv.2110.11291.
• [20] K. F. Caluya and A. Halder, “Wasserstein Proximal Algorithms for the Schrödinger Bridge Problem: Density Control with
Nonlinear Drift.” Mar. 15, 2021. Accessed: Apr. 01, 2023. [Online]. Available: https://arxiv.org/abs/1912.01244
• [21] F. Vargas, P. Thodoroff, N. D. Lawrence, and A. Lamacraft, “Solving Schrödinger Bridges via Maximum Likelihood,” Entropy, vol.
23, no. 9, p. 1134, Aug. 2021, doi: 10.3390/e23091134.
• [22] M. Cuturi, “Sinkhorn Distances: Lightspeed Computation of Optimal Transportation Distances.” arXiv, Jun. 04, 2013. doi:
10.48550/arXiv.1306.0895.
• [23] Y. Shi, V. De Bortoli, A. Campbell, and A. Doucet, “Diffusion Schrödinger Bridge Matching.” arXiv, Mar. 29, 2023. doi:
10.48550/arXiv.2303.16852.
• [24] G.-H. Liu, A. Vahdat, D.-A. Huang, E. A. Theodorou, W. Nie, and A. Anandkumar, “I2SB: Image-to-Image Schrödinger Bridge.”
arXiv, Feb. 12, 2023. doi: 10.48550/arXiv.2302.05872.
参考文献 2/ 3
Copyright © 2023 Morpho, Inc. All Rights Reserved. 35
• [25] A. Tong et al., “Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport.” arXiv, Feb. 01, 2023. doi:
10.48550/arXiv.2302.00482.
• [26] M. S. Albergo, N. M. Boffi, and E. Vanden-Eijnden, “Stochastic Interpolants: A Unifying Framework for Flows and Diffusions.”
Mar. 15, 2023. Accessed: Mar. 20, 2023. [Online]. Available: https://arxiv.org/abs/2303.08797
• [27] A. Tong et al., “Simulation-free Schrödinger bridges via score and flow matching.” arXiv, Jul. 07, 2023. Accessed: Jul. 26,
2023. [Online]. Available: https://arxiv.org/abs/2307.03672
参考文献 3/ 3
Thank you

More Related Content

What's hot

機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
論文紹介:Multimodal Learning with Transformers: A Survey
論文紹介:Multimodal Learning with Transformers: A Survey論文紹介:Multimodal Learning with Transformers: A Survey
論文紹介:Multimodal Learning with Transformers: A SurveyToru Tamaki
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介miyanegi
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language ModelsDeep Learning JP
 

What's hot (20)

機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
論文紹介:Multimodal Learning with Transformers: A Survey
論文紹介:Multimodal Learning with Transformers: A Survey論文紹介:Multimodal Learning with Transformers: A Survey
論文紹介:Multimodal Learning with Transformers: A Survey
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
 

Similar to A Brief Survey of Schrödinger Bridge (Part I)

Deep learning basics described
Deep learning basics describedDeep learning basics described
Deep learning basics describedNaoki Watanabe
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalKCS Keio Computer Society
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSamplingdaiki hojo
 
暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学MITSUNARI Shigeo
 
博士論文本審査スライド
博士論文本審査スライド博士論文本審査スライド
博士論文本審査スライドRyuichi Ueda
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Masaya Kaneko
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video ClassificationToru Tamaki
 
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題健児 青木
 
競技プログラミングでの線型方程式系
競技プログラミングでの線型方程式系競技プログラミングでの線型方程式系
競技プログラミングでの線型方程式系tmaehara
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法健児 青木
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろHiroshi Yamashita
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video RecognitionToru Tamaki
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習Kenta Ishii
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation MaximizationKoji Matsuda
 

Similar to A Brief Survey of Schrödinger Bridge (Part I) (20)

Deep learning basics described
Deep learning basics describedDeep learning basics described
Deep learning basics described
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学
 
博士論文本審査スライド
博士論文本審査スライド博士論文本審査スライド
博士論文本審査スライド
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification
 
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
 
競技プログラミングでの線型方程式系
競技プログラミングでの線型方程式系競技プログラミングでの線型方程式系
競技プログラミングでの線型方程式系
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Recently uploaded (12)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

A Brief Survey of Schrödinger Bridge (Part I)

  • 1. A Brief Survey of Schrödinger Bridge (Part I) Linking Diffusion Models with Optimal Transport 株式会社モルフォ リサーチャー 長山 知司
  • 2. Copyright © 2023 Morpho, Inc. All Rights Reserved. 1 • 筆者が最近注目している生成モデルスキームの Schrödinger bridge について解説 • E. Schrödinger が 1931/1932 年に発表した統計力学の思考実験に由来[1, 2] • 近年の研究によって、拡散モデルの拡張とみなせることが示されている • (なお、量子力学はあまり関係がない) はじめに Diffusion Schrödinger Bridge (DSB) モデルによる スイスロール-S字分布相互変換 (上) と EMNIST Letters-MNIST 相互変換 (下) 引用: [3]
  • 3. Copyright © 2023 Morpho, Inc. All Rights Reserved. 2 • 昨今は生成 AI の性能向上が著しく、ビジネス展開も盛ん • 既存のデータを学習し、新しいコンテンツ (画像・オーディオ・文章など) を創造する手法 • この発展は拡散モデルの貢献が大きい • ただし本スライド作成時点では、純粋な言語モデル (e.g., GPT-3[4] や LLaMA[5]) は例外 背景 | 生成AI ( G enerative AI ) 画像生成 AI 「Stable Diffusion」 の生成サンプル 引用: [6]
  • 4. Copyright © 2023 Morpho, Inc. All Rights Reserved. 3 • ノイズ除去を繰り返す手続きによって生成を行う手法 • 純粋なノイズから始めて、徐々に目的のデータへと近づけていく • 以前の主流だった敵対的生成ネットワーク (GAN) を上回る生成品質が報告されている • 生成速度は遅いものの、数値的に安定した訓練が可能な特徴 背景 | 拡散モデル ( Diffus ion Models ) 拡散モデルの生成手続きのコンセプト (注: 写真を加工して作成、AI 生成データではない) 初期ノイズ 中間画像 中間画像 出力 ノイズ除去 ノイズ除去 ノイズ除去
  • 5. Copyright © 2023 Morpho, Inc. All Rights Reserved. 4 • 拡散モデルは画像から画像への変換にも応用される (Image-to-Image) • インペインティング、スタイル変換、ボケ除去など • ただし原理的には、画像をガイドにしたノイズ-画像変換モデルという方が正確 (左図) • 拡散モデルのエッセンスを維持しつつ、直接的手法へと拡張できないだろうか? 背景 | Image -t o -Image モデル 拡散モデル ? 拡散モデルっぽく 直接的手法を実現する 方法は存在するのか? インペインティングのモデル図 ノイズ 生成画像 生成画像 原画像 原画像 Side information 間接的手法の例 直接的手法
  • 6. Copyright © 2023 Morpho, Inc. All Rights Reserved. 5 拡散モデルの基礎知識
  • 7. Copyright © 2023 Morpho, Inc. All Rights Reserved. 6 • データからノイズへと崩壊する Markov 連鎖 (拡散過程) を構成し、 その逆過程によって生成を実現する手法 • あえてノイズを混ぜることで確率分布推定タスクの難易度を緩和する意図 • なお、発展的手法では Markov 性を満たさないことも多い (e.g., DDIM[7]) • 逆過程に対応する遷移確率をニューラルネットでモデル化 • ノイズを付与する処理の逆なので “ノイズ除去” として言及されることが多い • 適切な拡散過程を選ぶことで、サンプル効率の良い訓練が可能 • 画像のような高次元データに適用可能になった要因の一つ 拡散モデル ( Diffus ion Models ) 拡散過程の Markov 連鎖 引用: [8]
  • 8. Copyright © 2023 Morpho, Inc. All Rights Reserved. 7 • 有名な拡散モデルの一つである DDPM[8] の訓練・生成方法について簡単にまとめる • 式①: データ → ノイズへの崩壊過程 (前進過程) • 𝛼𝑡 ∈ ℝ+ ∀𝑡 はハイパーパラメータで、 𝑝 𝒙𝑇|𝒙0 ≈ 𝑁 𝟎, 𝑰 となるように設計 • 式②: 訓練可能なノイズ推定モデル 𝜺𝜽 𝒙, 𝑡 に関する損失関数 • ത 𝛼𝑡 ≔ ς𝑠=0 𝑡 𝛼𝑠、また、 𝜆 𝑡 は重み関数 • 式③: ノイズ → データのサンプリング (生成) 過程 (後退過程) • 𝜎𝑡 ∈ ℝ++ ∀𝑡 はサンプル時に加えるノイズの強度 • より詳しい解説は C. Luo (2022)[9] を参照せよ Denois ing Diffus ion Probabilis tic Models (DDPMs ) 𝒙𝑡+1 = 𝛼𝑡𝒙𝑡 + 1 − 𝛼𝑡𝜺, 𝒙0 ∼ 𝑝data, 𝜺 ∼ 𝑁 𝟎, 𝑰 𝜽∗ = argmin 𝜽 𝔼𝑡,𝒙0,𝜀 𝜆 𝑡 𝜺 − 𝜺𝜽 𝒙𝑡|𝒙0, 𝑡 2 , 𝒙𝑡|𝒙0 = ത 𝛼𝑡𝒙0 + 1 − ത 𝛼𝑡𝜺 𝒙𝑡−1 = 1 𝛼𝑡 𝒙𝑡 − 1 − 𝛼𝑡 1 − ത 𝛼𝑡 𝜺𝜽∗ 𝒙𝑡, 𝑡 + 𝜎𝑡𝒛𝑡, 𝒛𝑡 ∼ 𝑁 𝟎, 𝑰 [①前進過程] [②損失関数] [③後退過程]
  • 9. Copyright © 2023 Morpho, Inc. All Rights Reserved. 8 • 拡散過程を時間について連続化すると、確率微分方程式 (SDE) として表せる → SGM[10] • 前進過程 (データ分布 → 事前分布) は一般に次のような SDE として表現 • 𝒇 (ベクトル関数) はドリフト係数、 𝑔 (スカラー関数) は拡散係数と呼ばれるハイパーパラメータ • 第二項の 𝒘𝑡 は標準 Wiener 過程 (標準 Brown 運動) • 誤解を恐れずに言えば、平均ゼロで分散 𝑡 の正規分布に従う連続な確率変数のこと ス コアベース 生成モデル ( SG Ms ) | 前進過程 ( for war d pr oc . ) d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙0 ~ 𝑝data 引用: [11] 一次元標準 Wiener 過程のサンプルパス
  • 10. Copyright © 2023 Morpho, Inc. All Rights Reserved. 9 • 後退過程 (事前分布 → データ分布) も同様に SDE として表すことが可能 • 前進過程とほぼ同形だが、ドリフト係数にスコア関数 (∇ log 𝑝𝑡 𝒙 ) の項が加わる • 時間 𝑡 は逆方向に進めることに注意 • この分野の研究者であれば Anderson (1982)[12] で通じる • 関数 𝑝𝑡 は、前進過程における 𝒙𝑡 の従う確率密度 (𝒙𝑡 ∼ 𝑝𝑡(𝒙)) • ここで、𝑝𝑡 ≔ 𝑝 ⋅ ; 𝑡 と略記している ス コアベース 生成モデル ( SG Ms ) | 後退過程 ( bac kwar d pr oc .) d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior 引用: [11] 一次元標準 Wiener 過程のサンプルパス
  • 11. Copyright © 2023 Morpho, Inc. All Rights Reserved. 10 • 前進過程の 𝒙𝑡 が従う確率密度 𝑝𝑡 は Fokker-Planck (FP) 方程式で与えられる • Kolmogorov の前進方程式とも呼ばれる • 一般に 𝑝0 𝒙 = 𝑝data 𝒙 は非明示的なために解析解は求められない ス コアベース 生成モデル ( SG Ms ) | 確率密度の時間発展 d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡 𝜕 𝜕𝑡 𝑝𝑡 𝒙 = −∇ ⋅ 𝒇 𝒙, 𝑡 𝑝𝑡 𝒙 + 1 2 𝑔2 𝑡 Δ𝑝𝑡 𝒙 [前進過程] [対応する FP 方程式]
  • 12. Copyright © 2023 Morpho, Inc. All Rights Reserved. 11 • 目的: パラメータ化したモデル 𝒔𝜽 𝒙, 𝑡 でスコア関数 ∇ log 𝑝𝑡 𝒙 を学習 • 生成 (後退過程) のときは、密度関数 𝑝𝑡 𝒙 自体は知らなくても問題ない • 条件付き確率 𝑝𝑡 𝒙𝑡 𝒙0 のスコアに対する二乗損失を最小化するように訓練 • 典型的な SGM の前進過程は線形 SDE なので、遷移確率 (𝑝𝑡 𝒙𝑡 𝒙0 ) は解析解が存在 • この損失関数は以下の最適化問題と解が等しいことが知られている[13, 14] • いわゆる score matching technique ス コアベース 生成モデル ( SG Ms ) | 学習 𝜽∗ = argmin 𝜽 𝔼𝑡,𝒙𝑡 𝜆 𝑡 𝒔𝜽 𝒙𝑡, 𝑡 − ∇ log 𝑝𝑡 𝒙𝑡 2 𝜽∗ = argmin 𝜽 𝔼𝑡,𝒙0,𝒙𝑡|𝒙0 𝜆 𝑡 𝒔𝜽 𝒙𝑡, 𝑡 − ∇ log 𝑝𝑡 𝒙𝑡|𝒙0 2 [SGM の損失関数] [等価な損失関数]
  • 13. Copyright © 2023 Morpho, Inc. All Rights Reserved. 12 • 学習したスコア推定モデル 𝒔𝜽∗ を用いて、後退過程の解 𝒙0 を数値シミュレーションで求める • 精度や計算量などの要求に応じて、様々なアルゴリズムが存在 • 最も単純な求解アルゴリズムは Euler-丸山法 • 常微分方程式 (ODE) の数値解法である Euler 法の SDE 版とみなせる • Euler 法の更新式にノイズ項が加わる形式 • DDPM の原著における生成アルゴリズムはこれに対応 ス コアベース 生成モデル ( SG Ms ) | 生成 d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 𝒔𝜽∗ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior 𝒙𝑘−1 = 𝒙𝑘 − 𝒇 𝒙𝑘, 𝑡𝑘 − 𝑔2 𝑡𝑘 𝒔𝜽∗ 𝒙𝑘, 𝑡𝑘 Δ𝑡𝑘 + 𝑔 𝑡𝑘 Δ𝑡𝑘𝒛𝑘, 𝒛𝑘 ∼ 𝑁 𝟎, 𝑰
  • 14. Copyright © 2023 Morpho, Inc. All Rights Reserved. 13 • 実のところ、拡散モデルの応用手法の多くは生成のとき SDE の代わりに ODE を用いる • 拡散モデルの SDE には、共通の密度関数を持つ ODE が付随 → 確率フロー ODE[11] • 既存の訓練済みモデルに対しても再学習不要で適用可能 • 利点: 1. 決定論的な生成過程なので、固定した初期値に対して常に同じ結果を保証できる 2. 古くから研究されている ODE ソルバーの知見を取り入れられる (e.g., Runge-Kutta 法) 3. データ・事前分布のサンプル間で可逆変換が可能 (cf. Continuous Normalizing Flow[15]) 確率フ ロー ODE ( Probability Flow ODE ) 1/ 2 d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡 d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 1 2 𝑔2 𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡 [後退 SDE] [確率フロー ODE]
  • 15. Copyright © 2023 Morpho, Inc. All Rights Reserved. 14 • SDE → 確率フロー ODE の導出手順 (ラフスケッチ) • 前進 SDE の FP 方程式に対して Δ𝑝 = ∇ ⋅ ∇𝑝 = ∇ ⋅ 𝑝∇ log 𝑝 を適用 (対数微分の公式) • 変数変換 ෨ 𝒇 ≔ 𝒇 − 1/2 ⋅ 𝑔2∇ log 𝑝 は拡散項の無い FP 方程式で、元の前進過程と解が一致 • 変換後の FP 方程式に対応する (確率) 微分方程式の一つが確率フロー ODE 確率フ ロー ODE ( Probability Flow ODE ) 2/ 2 𝜕𝑝 𝜕𝑡 = −∇ ⋅ 𝒇𝑝 + 1 2 𝑔2Δ𝑝 = −∇ ⋅ 𝒇 − 1 2 𝑔2∇ log 𝑝 𝑝 = −∇ ⋅ ෨ 𝒇𝑝 SDE および確率フロー ODE の生成するパス 引用: [11]
  • 16. Copyright © 2023 Morpho, Inc. All Rights Reserved. 15 Schrödinger Bridge
  • 17. Copyright © 2023 Morpho, Inc. All Rights Reserved. 16 • 拡散モデルのスキームを Image-to-Image に拡張したい • ただし、入力画像をガイドに用いる方法以外のものに限定して考える • 単純に、事前分布 𝑝prior を任意の分布に置き換えてはどうか? → 前進過程の設計方法が問題化 • 確率密度について、 𝑝𝑇 ≈ 𝑝prior を満たすようにハイパラ 𝒇, 𝑔 を設計する必要性 (FP 方程式より、終端確率密度 𝑝𝑇 は 𝑝0, 𝒇, 𝑔 から自動的に定まってしまう) • しかし、一般に 𝑝data, 𝑝prior は両方とも非明示的となるので、拡散モデルのように 訓練前に設計した 𝒇, 𝑔 を利用することは困難に “ 真の” Image -t o -Image モデルへ向け て [拡散モデルの FP 方程式] 𝜕 𝜕𝑡 𝑝𝑡 𝒙 = −∇ ⋅ 𝒇 𝒙, 𝑡 𝑝𝑡 𝒙 + 1 2 𝑔2 𝑡 Δ𝑝𝑡 𝒙 , 𝑝0 = 𝑝data
  • 18. Copyright © 2023 Morpho, Inc. All Rights Reserved. 17 • 拡散モデルの代わりに、もう少し抽象化した 生成モデルの問題設定を考える: 1. データ分布 𝑝data と事前分布 𝑝prior が与えられている 2. それぞれの分布は SDE を通して接続 3. SDE の従う確率密度 𝑝𝑡 𝒙 をモデル化 (境界条件: 𝑝0 = 𝑝data, 𝑝𝑇 = 𝑝prior) • Schrödinger bridge (SB) は、 このようなモデルの一例として知られる • 分布同士が Brown 運動の “架け橋” に よってつながることが名称の由来 • 量子力学における Schrödinger 方程式とは異なる (関連性は少なからずあるものの) • サーベイ論文として C. Léonard (2013)[16]や Y. Chen et al. (2020)[17]が有名 拡散モデルの抽象化 𝑝data 𝑝data 𝑝prior 𝑝prior 拡散モデル Schrödinger bridge 制約条件: 𝑝prior は正規分布 𝑝prior は任意
  • 19. Copyright © 2023 Morpho, Inc. All Rights Reserved. 18 • SB は確率過程のパス測度の制約付き KL ダイバージェンス最小化問題として定式化 • 後述する static SB と対比して、こちらは dynamic SB とも呼ばれる • パス測度とは、パス 𝒙𝑡 0≤𝑡≤𝑇 の全体を一つの標本として見たときの確率分布に相当 • ここで、パス測度 ℙ, ℚ はそれぞれ近似分布と真の分布に対応し、特に ℚ を参照測度と呼ぶ Dynamic Schrödinger B ridge min ℙ 𝐷KL ℙ||ℚ s. t. ℙ0 = 𝜇data, ℙ𝑇 = 𝜇prior 確率空間 Ω, ℱ, ℙ の概念図 標本空間 Ω
  • 20. Copyright © 2023 Morpho, Inc. All Rights Reserved. 19 • Dynamic SB の最適解は、関連する static SB の解から構成できることが知られる • 緩やかな仮定のもとで、両者の最適解は一対一で対応する (後述) • Static SB: 初期・終端時刻についての結合分布に関する KL ダイバージェンス最小化問題 • 途中の経路を周辺化して、始点と終点の組み合わせだけを考慮する設定 • ここで ℙ0,𝑇 および ℚ0,𝑇 はカップリング測度とも呼ばれる Static Schrödinger B ridge min ℙ0,𝑇 𝐷KL ℙ0,𝑇||ℚ0,𝑇 s. t. ℙ0 = 𝜇0, ℙ𝑇 = 𝜇𝑇 引用: [18] ※ 𝜋, 𝛼, 𝛽 はそれぞれ ℙ0,𝑇, 𝜇0, 𝜇𝑇 に対応
  • 21. Copyright © 2023 Morpho, Inc. All Rights Reserved. 20 • Dynamic SB の解を ℙ∗、static SB の解を ℙ0,𝑇 ∗ と表す • ℙ∗ は、参照 diffusion bridge ℚ|0,𝑇 の ℙ0,𝑇 ∗ による周辺化として与えられる[16] • 両端の値 (𝒙0, 𝒙𝑇) が固定された拡散過程を (diffusion) bridge と呼ぶ • この ℙ∗ のように bridge の周辺化で構成されたパス測度を mixture of bridges と呼ぶ • また、逆に ℙ0,T ∗ を ℙ∗ から一意に構成できることも知られている Dynamic SB と Static SB の関係 ℙ∗ ⋅ = නℚ|0,𝑇 ⋅ 𝒙0, 𝒙𝑇 dℙ0,𝑇 ∗ 𝒙0, 𝒙𝑇 一次元 diffusion bridge ℚ|0,𝑇 ⋅ 𝒙0 = 0, 𝒙𝑇 = 0 のサンプルパス
  • 22. Copyright © 2023 Morpho, Inc. All Rights Reserved. 21 • ある種の条件の元で、(static) SB は最適輸送と等しいことが知られている[16] • 確率分布を移動させるときに、コストを最小化する運び方を探す問題 → 最適輸送 • 密度関数を砂山に見立て、ある砂山を運搬して別の形の砂山を構築するときにかかる 運搬コスト (距離と運ぶ量に相関) が最小になる組み合わせを探すようなイメージ 最適輸送 ( Optimal Trans port; OT ) 分布 𝑝𝛼 分布 𝑝𝛽
  • 23. Copyright © 2023 Morpho, Inc. All Rights Reserved. 22 • 現代的な最適輸送の定式化は Kantorovich の貢献に拠る • 合計移動コストを最小化するカップリング測度 𝜋 を求める問題として扱われる • ある質点から質点へ移動するとき、分割および統合を認めるような設定 • 輸送元、輸送先の確率測度をそれぞれ 𝛼, 𝛽 と表記 • ここで、単位質量の座標 𝒙 ∈ 𝒳 から座標 𝒚 ∈ 𝒴 への移動コストを 𝑐 𝒙, 𝒚 と定義 Kantorovich 最適輸送 min 𝜋 න 𝒳×𝒴 𝑐 𝒙, 𝒚 d𝜋 𝒙, 𝒚 s. t. 𝜋 ⋅ × 𝒴 = 𝛼, 𝜋 𝒳 × ⋅ = 𝛽 引用: [18]
  • 24. Copyright © 2023 Morpho, Inc. All Rights Reserved. 23 • 数値計算で OT を扱う際は、エントロピー正則化を 加えた緩和問題を考えることが多い • コスト関数が 𝜋 に関して強凸となるので、 最適解が一意に定まり数値計算上の都合が良い • 元の OT は凸だが、一般に強凸ではないので 最適解は一意とは限らない • ここで、 𝐻 𝜋 は微分エントロピー • 以下の定義式では、測度 𝜋 に対応する密度関数 𝑝 𝒙, 𝒚 が存在すると仮定 • より厳密には、離散 OT との対応を考慮し 相対エントロピーで定義[18]するほうが好ましい エントロピー正則化 OT ( Entropy -Regularized OT; EROT ) min 𝜋 න 𝒳×𝒴 𝑐 𝒙, 𝒚 d𝜋 𝒙, 𝒚 + 𝜀𝐻 𝜋 s. t. 𝜋 ⋅ × 𝒴 = 𝛼, 𝜋 𝒳 × ⋅ = 𝛽, 引用: [18] 𝐻 𝜋 ≔ − න 𝒳×𝒴 𝑝 𝒙, 𝒚 log 𝑝 𝒙, 𝒚 d𝒙d𝒚
  • 25. Copyright © 2023 Morpho, Inc. All Rights Reserved. 24 • 参照測度 ℚ が可逆 Brown 運動のとき、 static SB と EROT は最適解が一致[17,18] • 定常的な周辺測度を持つ Brown 運動を可逆 Brown 運動と呼ぶ (ℚ𝑡 = ℚ𝑠 ∀0 ≤ 𝑡 ≤ 𝑠 ≤ 𝑇) • 可逆 Brown 運動ならば、 距離関数 𝑐 が存在し 𝑞0,𝑇 𝒙0, 𝒙𝑇 ∝ exp −𝑐 𝒙0, 𝒙𝑇 と表せる • 具体例として、定義域が Euclid 空間 ℝ𝑛 のときの可逆 Brown 運動 ℚ に関連する SDE は d𝒙𝑡 = 𝜎d𝒘𝑡 であり、距離関数は二乗 Euclid ノルム 𝑐 𝒙0, 𝒙𝑇 = ‖𝒙0 − 𝒙𝑇‖2 /2𝜎2 SB と最適輸送の関係性 1/ 2 [確率密度関数が存在するときの証明ラフスケッチ] 𝐷KL ℙ0,𝑇||ℚ0,𝑇 = −𝔼ℙ0,𝑇 log 𝑞0,𝑇 + 𝔼ℙ0,𝑇 log 𝑝0,𝑇 = −𝔼ℙ0,𝑇 −𝑐 𝒙0, 𝒙𝑇 + 𝐻 ℙ0,𝑇 + const. = න𝑐 𝒙0, 𝒙𝑇 dℙ0,𝑇 𝒙0, 𝒙𝑇 + 𝐻 ℙ0,𝑇 + const.
  • 26. Copyright © 2023 Morpho, Inc. All Rights Reserved. 25 • 離散 EROT の解から構成される mixture of bridges の可視化 (下図) • 青の点群から赤の点群への輸送パス • 各点の質量は全て等しい設定 • エントロピー項の寄与 (𝜀) が大きくなるほど、許容可能な bridge が多様化する傾向 SB と最適輸送の関係性 2/ 2 引用: [18]
  • 27. Copyright © 2023 Morpho, Inc. All Rights Reserved. 26 • パス測度はそのままだと扱いにくいので、SDE を用いた表現へと置き換えることにする • ここでは、 T. Chen et al. (2021)[19] の定式化を紹介 • Dynamic SB は、等価な確率最適制御問題に変換できることが知られる[20] • ここで d𝒙 = 𝒇 + 𝑔𝒖 d𝑡 + 𝑔d𝒘 は状態方程式 • 参照パス測度 ℚ より誘導される確率場 (SDE: d𝒙 = 𝒇d𝑡 + 𝑔d𝒘) を漂っている粒子に対して、 外力 (𝒖 に対応) を制御して初期値 𝒙0 から目標 𝒙𝑇 へと導くような問題設定 • 最小の作用 (‫׬‬ 𝒖 2 d𝑡) で目的を達成できるときの 𝒖 を最適解とする SB の再定式化 | 確率最適制御問題 min 𝒖 𝔼 න 0 𝑇 1 2 𝒖 𝒙𝑡, 𝑡 2d𝑡 s. t. ቐ d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 + 𝑔 𝑡 𝒖 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡 𝒙0 ∼ 𝑝data 𝒙𝑇 ∼ 𝑝prior d𝒙 = 𝒇d𝑡 + 𝑔d𝒘 d𝒙 = 𝒇 + 𝑔𝒖 d𝑡 + 𝑔d𝒘 source target 𝒖
  • 28. Copyright © 2023 Morpho, Inc. All Rights Reserved. 27 • 確率最適制御の最適解 𝒖∗ は、関数 Ψ, ෡ Ψ の偏微分方程式 (PDE) で特徴付けられる[20] • この Ψ, ෡ Ψ を Schrödinger potential、 PDE を Schrödinger system と呼ぶ • それぞれ Kolmogorov の後退・前進方程式に相当するが、互いに異なるポテンシャルを用いる • Schrödinger system の解 Ψ, ෡ Ψ を用いて、 𝑝𝑡 と 𝒖∗ は次のように与えられる • すなわち、Ψ, ෡ Ψ は 𝒙𝑡 の従う密度関数 𝑝𝑡 を分解したものとみなすことができる • 具体的にどうやって Ψ, ෡ Ψ を求めるのか?という問題は後回しにする SB の再定式化 | Schrödinger Sys tem 𝜕Ψ 𝜕𝑡 = − ∇Ψ, 𝒇 − 1 2 𝑔2ΔΨ 𝜕෡ Ψ 𝜕𝑡 = −∇ ⋅ ෡ Ψ𝒇 + 1 2 𝑔2Δ෡ Ψ s. t. ൝ Ψ ⋅, 0 ෡ Ψ ⋅, 0 = 𝑝data Ψ ⋅, 𝑇 ෡ Ψ ⋅, 𝑇 = 𝑝prior 𝑝𝑡 = Ψ ⋅, 𝑡 ෡ Ψ ⋅, 𝑡 𝒖∗ = 𝑔 𝑡 ∇ log Ψ
  • 29. Copyright © 2023 Morpho, Inc. All Rights Reserved. 28 • 状態方程式の制御変数 𝒖 を最適ポテンシャル Ψ, ෡ Ψ に置き換えることで、 SB の解は次の前進・後退 SDE で表現できることが示されている[19] • それぞれの SDE は reverse-time formula[12] によって相互変換可能 • すなわち、 Schrödinger bridge 問題とは次のように言い換えができる: SB の再定式化 | 前進・ 後退 S D E d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 + 𝑔2 𝑡 ∇ log Ψ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙0 ∼ 𝑝data d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 ∇ log ෡ Ψ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior 確率分布 𝑝data, 𝑝prior と参照測度 (確率場) ℚ: d𝒙 = 𝒇d𝑡 + 𝑔d𝒘 が与えられたとき、 Schrödinger system を満たすような関数ペア Ψ, ෡ Ψ を求める問題 [前進 SDE] [後退 SDE]
  • 30. Copyright © 2023 Morpho, Inc. All Rights Reserved. 29 • 生成モデルとしては以下のように実現される • 学習 1. データ分布 𝑝data と事前分布 𝑝prior を用意 2. 参照測度 ℚ を SDE d𝒙 = 𝒇d𝑡 + 𝑔d𝒘 で設計 (𝒇, 𝑔 はハイパーパラメータ) 3. Schrödinger system を満たすように、 パラメータ化されたモデルを訓練 (Ψ, ෡ Ψ を学習) • 生成 1. 初期データ 𝒙𝑇 を 𝑝prior からサンプル 2. 訓練済みモデルを用いて 初期条件 𝒙𝑇 のもとで後退 SDE d𝒙 = 𝒇 − 𝑔2 ∇ log ෡ Ψ d𝑡 + 𝑔d𝒘 を解く SB の学習・ 生成ス キ ーム d𝒙 = 𝒇 + 𝑔2 ∇ log Ψ d𝑡 + 𝑔d𝒘 d𝒙 = 𝒇 − 𝑔2 ∇ log ෡ Ψ d𝑡 + 𝑔d𝒘 𝒙0 𝒙𝑇 SGM/SB のコンセプト比較 (注: 写真を加工して作成、AI 生成データではない) SB SGM d𝒙 = 𝒇d𝑡 + 𝑔d𝒘 d𝒙 = 𝒇 − 𝑔2 ∇ log 𝑝 d𝑡 + 𝑔d𝒘 𝒙0 𝒙𝑇
  • 31. Copyright © 2023 Morpho, Inc. All Rights Reserved. 30 • 導出した SB は拡散モデルの厳密な意味での拡張と言える • 拡散モデルの前進・後退 SDE は、 Ψ ≡ 1, 𝑝 𝒙𝑇 𝒙0 = 𝑁 𝟎, 𝑰 の制約を設けた SB と等価 • このとき、 𝑔2∇ log Ψ ≡ 0, ෡ Ψ = Ψ෡ Ψ = 𝑝 が成立 • ものすごく大雑把にいえば、事前分布の制約条件を緩める代わりに 前進過程も学習パラメータ化した拡散モデルが Schrödinger bridge である 拡散モデル ( SG M ) との関係性 d𝒙 = 𝒇 + 𝑔2∇ log Ψ d𝑡 + 𝑔d𝒘 d𝒙 = 𝒇 − 𝑔2∇ log ෡ Ψ d𝑡 + 𝑔d𝒘 d𝒙 = 𝒇 d𝑡 + 𝑔d𝒘 d𝒙 = 𝒇 − 𝑔2∇ log 𝑝 d𝑡 + 𝑔d𝒘 [拡散モデル (SGM)] [Schrödinger bridge] [前進] [後退] [前進] [後退]
  • 32. Copyright © 2023 Morpho, Inc. All Rights Reserved. 31 • まとめ • Schrödinger Bridge (SB) とは、事前分布の制約を緩めた拡散モデルのような生成モデル • もう一つの側面として、 SB は動的な最適輸送問題とみなすこともできる • T. Chen et al. (2021)[19] の定式化では、前進・後退 SDE の同時最適化として扱える • 今回は説明しなかった内容 1. 参照パス測度 ℚ の設計方法 • 確率最適制御問題における確率場 (SDE) d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡 のこと • ドリフト係数 𝒇 𝒙𝑡, 𝑡 と拡散係数 𝑔 𝑡 はどのような基準で設計すべきか? 2. SB モデルの訓練アルゴリズム • Schrödinger potential Ψ, ෡ Ψ の最適解の求め方のこと • 機械学習の枠組みに持ち込むとき、どのようにパラメータ化するのが好ましいのだろうか? おわりに
  • 33. Copyright © 2023 Morpho, Inc. All Rights Reserved. 32 • SB の学習アルゴリズム • Iterative Proportional Fitting (IPF)[3, 21] • 最適輸送で有名な Sinkhorn-Knopp アルゴリズム[22]の拡張 • Forward-Backward SDE (SB-FBSDE)[19] • Iterative Markovian Fitting (IMF)[23] • CV 系の応用手法 • Image-to-Image Schrödinger Bridge (I2SB)[24] • 関連アルゴリズム • Conditional Flow Matching (CFM)[25] • Stochastic Interpolants[26] • Simulation-Free Score and Flow Matching ([SF]2M)[27] Part II 以降で取り扱う内容 ( 予定) I2SB の結果画像例 引用: [20]
  • 34. Copyright © 2023 Morpho, Inc. All Rights Reserved. 33 • [1] E. Schrödinger, “Über die Umkehrung der Naturgesetze,” Sitzungsberichte der Preuss Akad. Wissen. Berlin, Phys. Math. Klasse, vol. 10, pp. 144–153, 1931. • [2] E. Schrödinger, “Sur la théorie relativiste de l’électron et l’interprétation de la mécaniquequantique,” Ann. Inst. H. Poincaré, vol. 2, pp. 269–310, 1932. • [3] V. De Bortoli, J. Thornton, J. Heng, and A. Doucet, “Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling.” arXiv, Dec. 06, 2021. doi: 10.48550/arXiv.2106.01357. • [4] T. B. Brown et al., “Language Models are Few-Shot Learners.” arXiv, Jul. 22, 2020. Accessed: Jul. 14, 2023. [Online]. Available: https://arxiv.org/abs/2005.14165 • [5] H. Touvron et al., “LLaMA: Open and Efficient Foundation Language Models.” arXiv, Feb. 27, 2023. Accessed: Jul. 14, 2023. [Online]. Available: https://arxiv.org/abs/2302.13971 • [6] Stability AI, “GitHub - Stability-AI/generative-models: Generative Models by Stability AI.” https://github.com/Stability- AI/generative-models (accessed Jul. 14, 2023). • [7] J. Song, C. Meng, and S. Ermon, “Denoising Diffusion Implicit Models.” arXiv, Oct. 05, 2022. Accessed: Jul. 12, 2023. [Online]. Available: https://arxiv.org/abs/2010.02502 • [8] J. Ho, A. Jain, and P. Abbeel, “Denoising Diffusion Probabilistic Models.” arXiv, Dec. 16, 2020. doi: 10.48550/arXiv.2006.11239. • [9] C. Luo, “Understanding Diffusion Models: A Unified Perspective.” arXiv, Aug. 25, 2022. doi: 10.48550/arXiv.2208.11970. • [10] Y. Song and S. Ermon, “Generative Modeling by Estimating Gradients of the Data Distribution.” arXiv, Oct. 10, 2020. doi: 10.48550/arXiv.1907.05600. • [11] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, “Score-Based Generative Modeling through Stochastic Differential Equations.” arXiv, Feb. 10, 2021. doi: 10.48550/arXiv.2011.13456. • [12] B. D. O. Anderson, “Reverse-time diffusion equation models,” Stochastic Processes and their Applications, vol. 12, no. 3, pp. 313–326, 1982, doi: 10.1016/0304-4149(82)90051-5. 参考文献 1/ 3
  • 35. Copyright © 2023 Morpho, Inc. All Rights Reserved. 34 • [13] Y. Song, C. Durkan, I. Murray, and S. Ermon, “Maximum Likelihood Training of Score-Based Diffusion Models.” arXiv, Oct. 20, 2021. doi: 10.48550/arXiv.2101.09258. • [14] P. Vincent, “A Connection Between Score Matching and Denoising Autoencoders,” Neural Computation, vol. 23, no. 7, pp. 1661–1674, Jul. 2011, doi: 10.1162/NECO_a_00142. • [15] R. T. Q. Chen, Y. Rubanova, J. Bettencourt, and D. Duvenaud, “Neural Ordinary Differential Equations.” arXiv, Dec. 13, 2019. doi: 10.48550/arXiv.1806.07366. • [16] C. Léonard, “A survey of the Schrödinger problem and some of its connections with optimal transport.” Aug. 01, 2013. Accessed: Mar. 24, 2023. [Online]. Available: https://arxiv.org/abs/1308.0215 • [17] Y. Chen, T. T. Georgiou, and M. Pavon, “Stochastic control liaisons: Richard Sinkhorn meets Gaspard Monge on a Schroedinger bridge.” arXiv, Nov. 26, 2020. doi: 10.48550/arXiv.2005.10963. • [18] G. Peyré and M. Cuturi, “Computational Optimal Transport.” arXiv, Mar. 18, 2020. doi: 10.48550/arXiv.1803.00567. • [19] T. Chen, G.-H. Liu, and E. A. Theodorou, “Likelihood Training of Schrödinger Bridge using Forward-Backward SDEs Theory.” arXiv, Jul. 14, 2022. doi: 10.48550/arXiv.2110.11291. • [20] K. F. Caluya and A. Halder, “Wasserstein Proximal Algorithms for the Schrödinger Bridge Problem: Density Control with Nonlinear Drift.” Mar. 15, 2021. Accessed: Apr. 01, 2023. [Online]. Available: https://arxiv.org/abs/1912.01244 • [21] F. Vargas, P. Thodoroff, N. D. Lawrence, and A. Lamacraft, “Solving Schrödinger Bridges via Maximum Likelihood,” Entropy, vol. 23, no. 9, p. 1134, Aug. 2021, doi: 10.3390/e23091134. • [22] M. Cuturi, “Sinkhorn Distances: Lightspeed Computation of Optimal Transportation Distances.” arXiv, Jun. 04, 2013. doi: 10.48550/arXiv.1306.0895. • [23] Y. Shi, V. De Bortoli, A. Campbell, and A. Doucet, “Diffusion Schrödinger Bridge Matching.” arXiv, Mar. 29, 2023. doi: 10.48550/arXiv.2303.16852. • [24] G.-H. Liu, A. Vahdat, D.-A. Huang, E. A. Theodorou, W. Nie, and A. Anandkumar, “I2SB: Image-to-Image Schrödinger Bridge.” arXiv, Feb. 12, 2023. doi: 10.48550/arXiv.2302.05872. 参考文献 2/ 3
  • 36. Copyright © 2023 Morpho, Inc. All Rights Reserved. 35 • [25] A. Tong et al., “Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport.” arXiv, Feb. 01, 2023. doi: 10.48550/arXiv.2302.00482. • [26] M. S. Albergo, N. M. Boffi, and E. Vanden-Eijnden, “Stochastic Interpolants: A Unifying Framework for Flows and Diffusions.” Mar. 15, 2023. Accessed: Mar. 20, 2023. [Online]. Available: https://arxiv.org/abs/2303.08797 • [27] A. Tong et al., “Simulation-free Schrödinger bridges via score and flow matching.” arXiv, Jul. 07, 2023. Accessed: Jul. 26, 2023. [Online]. Available: https://arxiv.org/abs/2307.03672 参考文献 3/ 3