A Brief Survey of Schrödinger Bridge (Part I)

A Brief Survey of
Schrödinger Bridge (Part I)
Linking Diffusion Models
with Optimal Transport
株式会社モルフォ
リサーチャー長山知司

Copyright © 2023 Morpho, Inc. All Rights Reserved. 1
• 筆者が最近注目している生成モデルスキームの Schrödinger bridge について解説
• E. Schrödinger が 1931/1932 年に発表した統計力学の思考実験に由来[1, 2]
• 近年の研究によって、拡散モデルの拡張とみなせることが示されている
• （なお、量子力学はあまり関係がない）
はじめに
Diffusion Schrödinger Bridge (DSB) モデルによる
スイスロール-S字分布相互変換（上）と EMNIST Letters-MNIST 相互変換（下）
引用: [3]

• 昨今は生成 AI の性能向上が著しく、ビジネス展開も盛ん
• 既存のデータを学習し、新しいコンテンツ（画像・オーディオ・文章など）を創造する手法
• この発展は拡散モデルの貢献が大きい
• ただし本スライド作成時点では、純粋な言語モデル（e.g., GPT-3[4] や LLaMA[5]）は例外
背景 | 生成AI （ G enerative AI ）
画像生成 AI 「Stable Diffusion」の生成サンプル
引用: [6]

• ノイズ除去を繰り返す手続きによって生成を行う手法
• 純粋なノイズから始めて、徐々に目的のデータへと近づけていく
• 以前の主流だった敵対的生成ネットワーク（GAN) を上回る生成品質が報告されている
• 生成速度は遅いものの、数値的に安定した訓練が可能な特徴
背景 | 拡散モデル（ Diffus ion Models ）
拡散モデルの生成手続きのコンセプト
（注: 写真を加工して作成、AI 生成データではない）
初期ノイズ中間画像中間画像出力
ノイズ除去ノイズ除去ノイズ除去

• 拡散モデルは画像から画像への変換にも応用される（Image-to-Image）
• インペインティング、スタイル変換、ボケ除去など
• ただし原理的には、画像をガイドにしたノイズ-画像変換モデルという方が正確（左図）
• 拡散モデルのエッセンスを維持しつつ、直接的手法へと拡張できないだろうか？
背景 | Image -t o -Image モデル
拡散モデル？
拡散モデルっぽく
直接的手法を実現する
方法は存在するのか？
インペインティングのモデル図
ノイズ生成画像生成画像
原画像
原画像
Side
information
間接的手法の例直接的手法

拡散モデルの基礎知識

• データからノイズへと崩壊する Markov 連鎖（拡散過程）を構成し、
その逆過程によって生成を実現する手法
• あえてノイズを混ぜることで確率分布推定タスクの難易度を緩和する意図
• なお、発展的手法では Markov 性を満たさないことも多い（e.g., DDIM[7]）
• 逆過程に対応する遷移確率をニューラルネットでモデル化
• ノイズを付与する処理の逆なので “ノイズ除去” として言及されることが多い
• 適切な拡散過程を選ぶことで、サンプル効率の良い訓練が可能
• 画像のような高次元データに適用可能になった要因の一つ
拡散モデル（ Diffus ion Models ）
拡散過程の Markov 連鎖
引用: [8]

• 有名な拡散モデルの一つである DDPM[8] の訓練・生成方法について簡単にまとめる
• 式①: データ → ノイズへの崩壊過程（前進過程）
• 𝛼𝑡 ∈ ℝ+ ∀𝑡 はハイパーパラメータで、 𝑝 𝒙𝑇|𝒙0 ≈ 𝑁 𝟎, 𝑰 となるように設計
• 式②: 訓練可能なノイズ推定モデル 𝜺𝜽 𝒙, 𝑡 に関する損失関数
• ത
𝛼𝑡 ≔ ς𝑠=0
𝑡
𝛼𝑠、また、 𝜆 𝑡 は重み関数
• 式③: ノイズ → データのサンプリング（生成）過程（後退過程）
• 𝜎𝑡 ∈ ℝ++ ∀𝑡 はサンプル時に加えるノイズの強度
• より詳しい解説は C. Luo (2022)[9] を参照せよ
Denois ing Diffus ion Probabilis tic Models (DDPMs )
𝒙𝑡+1 = 𝛼𝑡𝒙𝑡 + 1 − 𝛼𝑡𝜺, 𝒙0 ∼ 𝑝data, 𝜺 ∼ 𝑁 𝟎, 𝑰
𝜽∗ = argmin
𝜽
𝔼𝑡,𝒙0,𝜀 𝜆 𝑡 𝜺 − 𝜺𝜽 𝒙𝑡|𝒙0, 𝑡 2 , 𝒙𝑡|𝒙0 = ത
𝛼𝑡𝒙0 + 1 − ത
𝛼𝑡𝜺
𝒙𝑡−1 =
1
𝛼𝑡
𝒙𝑡 −
1 − 𝛼𝑡
1 − ത
𝛼𝑡
𝜺𝜽∗ 𝒙𝑡, 𝑡 + 𝜎𝑡𝒛𝑡, 𝒛𝑡 ∼ 𝑁 𝟎, 𝑰
[①前進過程]
[②損失関数]
[③後退過程]

• 拡散過程を時間について連続化すると、確率微分方程式（SDE）として表せる → SGM[10]
• 前進過程（データ分布 → 事前分布）は一般に次のような SDE として表現
• 𝒇 （ベクトル関数）はドリフト係数、 𝑔 （スカラー関数）は拡散係数と呼ばれるハイパーパラメータ
• 第二項の 𝒘𝑡 は標準 Wiener 過程（標準 Brown 運動）
• 誤解を恐れずに言えば、平均ゼロで分散 𝑡 の正規分布に従う連続な確率変数のこと
スコアベース生成モデル（ SG Ms ） | 前進過程（ for war d pr oc . ）
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙0 ~ 𝑝data
引用: [11] 一次元標準 Wiener 過程のサンプルパス

• 後退過程（事前分布 → データ分布）も同様に SDE として表すことが可能
• 前進過程とほぼ同形だが、ドリフト係数にスコア関数（∇ log 𝑝𝑡 𝒙 ）の項が加わる
• 時間 𝑡 は逆方向に進めることに注意
• この分野の研究者であれば Anderson (1982)[12] で通じる
• 関数 𝑝𝑡 は、前進過程における 𝒙𝑡 の従う確率密度（𝒙𝑡 ∼ 𝑝𝑡(𝒙)）
• ここで、𝑝𝑡 ≔ 𝑝 ⋅ ; 𝑡 と略記している
スコアベース生成モデル（ SG Ms ） | 後退過程（ bac kwar d pr oc .）
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior
引用: [11] 一次元標準 Wiener 過程のサンプルパス

• 前進過程の 𝒙𝑡 が従う確率密度 𝑝𝑡 は Fokker-Planck （FP）方程式で与えられる
• Kolmogorov の前進方程式とも呼ばれる
• 一般に 𝑝0 𝒙 = 𝑝data 𝒙 は非明示的なために解析解は求められない
スコアベース生成モデル（ SG Ms ） | 確率密度の時間発展
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡
𝜕
𝜕𝑡
𝑝𝑡 𝒙 = −∇ ⋅ 𝒇 𝒙, 𝑡 𝑝𝑡 𝒙 +
1
2
𝑔2
𝑡 Δ𝑝𝑡 𝒙
[前進過程]
[対応する FP 方程式]

• 目的: パラメータ化したモデル 𝒔𝜽 𝒙, 𝑡 でスコア関数 ∇ log 𝑝𝑡 𝒙 を学習
• 生成（後退過程）のときは、密度関数 𝑝𝑡 𝒙 自体は知らなくても問題ない
• 条件付き確率 𝑝𝑡 𝒙𝑡 𝒙0 のスコアに対する二乗損失を最小化するように訓練
• 典型的な SGM の前進過程は線形 SDE なので、遷移確率（𝑝𝑡 𝒙𝑡 𝒙0 ）は解析解が存在
• この損失関数は以下の最適化問題と解が等しいことが知られている[13, 14]
• いわゆる score matching technique
スコアベース生成モデル（ SG Ms ） | 学習
𝜽∗ = argmin
𝜽
𝔼𝑡,𝒙𝑡
𝜆 𝑡 𝒔𝜽 𝒙𝑡, 𝑡 − ∇ log 𝑝𝑡 𝒙𝑡
2
𝜽∗
= argmin
𝜽
𝔼𝑡,𝒙0,𝒙𝑡|𝒙0
𝜆 𝑡 𝒔𝜽 𝒙𝑡, 𝑡 − ∇ log 𝑝𝑡 𝒙𝑡|𝒙0
2
[SGM の損失関数]
[等価な損失関数]

• 学習したスコア推定モデル 𝒔𝜽∗ を用いて、後退過程の解 𝒙0 を数値シミュレーションで求める
• 精度や計算量などの要求に応じて、様々なアルゴリズムが存在
• 最も単純な求解アルゴリズムは Euler-丸山法
• 常微分方程式（ODE）の数値解法である Euler 法の SDE 版とみなせる
• Euler 法の更新式にノイズ項が加わる形式
• DDPM の原著における生成アルゴリズムはこれに対応
スコアベース生成モデル（ SG Ms ） | 生成
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 𝒔𝜽∗ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior
𝒙𝑘−1 = 𝒙𝑘 − 𝒇 𝒙𝑘, 𝑡𝑘 − 𝑔2
𝑡𝑘 𝒔𝜽∗ 𝒙𝑘, 𝑡𝑘 Δ𝑡𝑘 + 𝑔 𝑡𝑘 Δ𝑡𝑘𝒛𝑘, 𝒛𝑘 ∼ 𝑁 𝟎, 𝑰

• 実のところ、拡散モデルの応用手法の多くは生成のとき SDE の代わりに ODE を用いる
• 拡散モデルの SDE には、共通の密度関数を持つ ODE が付随 → 確率フロー ODE[11]
• 既存の訓練済みモデルに対しても再学習不要で適用可能
• 利点:
1. 決定論的な生成過程なので、固定した初期値に対して常に同じ結果を保証できる
2. 古くから研究されている ODE ソルバーの知見を取り入れられる（e.g., Runge-Kutta 法）
3. データ・事前分布のサンプル間で可逆変換が可能 (cf. Continuous Normalizing Flow[15])
確率フロー ODE （ Probability Flow ODE ） 1/ 2
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2
𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 −
1
2
𝑔2 𝑡 ∇ log 𝑝𝑡 𝒙𝑡 d𝑡
[後退 SDE]
[確率フロー ODE]

• SDE → 確率フロー ODE の導出手順（ラフスケッチ）
• 前進 SDE の FP 方程式に対して Δ𝑝 = ∇ ⋅ ∇𝑝 = ∇ ⋅ 𝑝∇ log 𝑝 を適用（対数微分の公式）
• 変数変換 ෨
𝒇 ≔ 𝒇 − 1/2 ⋅ 𝑔2∇ log 𝑝 は拡散項の無い FP 方程式で、元の前進過程と解が一致
• 変換後の FP 方程式に対応する（確率）微分方程式の一つが確率フロー ODE
確率フロー ODE （ Probability Flow ODE ） 2/ 2
𝜕𝑝
𝜕𝑡
= −∇ ⋅ 𝒇𝑝 +
1
2
𝑔2Δ𝑝 = −∇ ⋅ 𝒇 −
1
2
𝑔2∇ log 𝑝 𝑝 = −∇ ⋅ ෨
𝒇𝑝
SDE および確率フロー ODE の生成するパス
引用: [11]

Schrödinger Bridge

• 拡散モデルのスキームを Image-to-Image に拡張したい
• ただし、入力画像をガイドに用いる方法以外のものに限定して考える
• 単純に、事前分布 𝑝prior を任意の分布に置き換えてはどうか？
→ 前進過程の設計方法が問題化
• 確率密度について、 𝑝𝑇 ≈ 𝑝prior を満たすようにハイパラ 𝒇, 𝑔 を設計する必要性
（FP 方程式より、終端確率密度 𝑝𝑇 は 𝑝0, 𝒇, 𝑔 から自動的に定まってしまう）
• しかし、一般に 𝑝data, 𝑝prior は両方とも非明示的となるので、拡散モデルのように
訓練前に設計した 𝒇, 𝑔 を利用することは困難に
“ 真の” Image -t o -Image モデルへ向けて
[拡散モデルの FP 方程式]
𝜕
𝜕𝑡
𝑝𝑡 𝒙 = −∇ ⋅ 𝒇 𝒙, 𝑡 𝑝𝑡 𝒙 +
1
2
𝑔2 𝑡 Δ𝑝𝑡 𝒙 , 𝑝0 = 𝑝data

• 拡散モデルの代わりに、もう少し抽象化した
生成モデルの問題設定を考える:
1. データ分布 𝑝data と事前分布 𝑝prior が与えられている
2. それぞれの分布は SDE を通して接続
3. SDE の従う確率密度 𝑝𝑡 𝒙 をモデル化
（境界条件: 𝑝0 = 𝑝data, 𝑝𝑇 = 𝑝prior）
• Schrödinger bridge （SB）は、
このようなモデルの一例として知られる
• 分布同士が Brown 運動の “架け橋” に
よってつながることが名称の由来
• 量子力学における Schrödinger 方程式とは異なる
（関連性は少なからずあるものの）
• サーベイ論文として C. Léonard (2013)[16]や
Y. Chen et al. (2020)[17]が有名
拡散モデルの抽象化
𝑝data
𝑝data
𝑝prior
𝑝prior
拡散モデル
Schrödinger bridge
制約条件:
𝑝prior は正規分布
𝑝prior は任意

• SB は確率過程のパス測度の制約付き KL ダイバージェンス最小化問題として定式化
• 後述する static SB と対比して、こちらは dynamic SB とも呼ばれる
• パス測度とは、パス 𝒙𝑡 0≤𝑡≤𝑇 の全体を一つの標本として見たときの確率分布に相当
• ここで、パス測度 ℙ, ℚ はそれぞれ近似分布と真の分布に対応し、特に ℚ を参照測度と呼ぶ
Dynamic Schrödinger B ridge
min
ℙ
𝐷KL ℙ||ℚ s. t. ℙ0 = 𝜇data, ℙ𝑇 = 𝜇prior
確率空間 Ω, ℱ, ℙ の概念図
標本空間 Ω

• Dynamic SB の最適解は、関連する static SB の解から構成できることが知られる
• 緩やかな仮定のもとで、両者の最適解は一対一で対応する（後述）
• Static SB: 初期・終端時刻についての結合分布に関する KL ダイバージェンス最小化問題
• 途中の経路を周辺化して、始点と終点の組み合わせだけを考慮する設定
• ここで ℙ0,𝑇 および ℚ0,𝑇 はカップリング測度とも呼ばれる
Static Schrödinger B ridge
min
ℙ0,𝑇
𝐷KL ℙ0,𝑇||ℚ0,𝑇 s. t. ℙ0 = 𝜇0, ℙ𝑇 = 𝜇𝑇
引用: [18]
※ 𝜋, 𝛼, 𝛽 はそれぞれ ℙ0,𝑇, 𝜇0, 𝜇𝑇 に対応

• Dynamic SB の解を ℙ∗、static SB の解を ℙ0,𝑇
∗
と表す
• ℙ∗
は、参照 diffusion bridge ℚ|0,𝑇 の ℙ0,𝑇
∗
による周辺化として与えられる[16]
• 両端の値（𝒙0, 𝒙𝑇）が固定された拡散過程を (diffusion) bridge と呼ぶ
• この ℙ∗
のように bridge の周辺化で構成されたパス測度を mixture of bridges と呼ぶ
• また、逆に ℙ0,T
∗
を ℙ∗
から一意に構成できることも知られている
Dynamic SB と Static SB の関係
ℙ∗ ⋅ = නℚ|0,𝑇 ⋅ 𝒙0, 𝒙𝑇 dℙ0,𝑇
∗
𝒙0, 𝒙𝑇
一次元 diffusion bridge ℚ|0,𝑇 ⋅ 𝒙0 = 0, 𝒙𝑇 = 0 のサンプルパス

• ある種の条件の元で、(static) SB は最適輸送と等しいことが知られている[16]
• 確率分布を移動させるときに、コストを最小化する運び方を探す問題 → 最適輸送
• 密度関数を砂山に見立て、ある砂山を運搬して別の形の砂山を構築するときにかかる
運搬コスト（距離と運ぶ量に相関）が最小になる組み合わせを探すようなイメージ
最適輸送（ Optimal Trans port; OT ）
分布 𝑝𝛼 分布 𝑝𝛽

• 現代的な最適輸送の定式化は Kantorovich の貢献に拠る
• 合計移動コストを最小化するカップリング測度 𝜋 を求める問題として扱われる
• ある質点から質点へ移動するとき、分割および統合を認めるような設定
• 輸送元、輸送先の確率測度をそれぞれ 𝛼, 𝛽 と表記
• ここで、単位質量の座標 𝒙 ∈ 𝒳 から座標 𝒚 ∈ 𝒴 への移動コストを 𝑐 𝒙, 𝒚 と定義
Kantorovich 最適輸送
min
𝜋
න
𝒳×𝒴
𝑐 𝒙, 𝒚 d𝜋 𝒙, 𝒚 s. t. 𝜋 ⋅ × 𝒴 = 𝛼, 𝜋 𝒳 × ⋅ = 𝛽
引用: [18]

• 数値計算で OT を扱う際は、エントロピー正則化を
加えた緩和問題を考えることが多い
• コスト関数が 𝜋 に関して強凸となるので、
最適解が一意に定まり数値計算上の都合が良い
• 元の OT は凸だが、一般に強凸ではないので
最適解は一意とは限らない
• ここで、 𝐻 𝜋 は微分エントロピー
• 以下の定義式では、測度 𝜋 に対応する密度関数
𝑝 𝒙, 𝒚 が存在すると仮定
• より厳密には、離散 OT との対応を考慮し
相対エントロピーで定義[18]するほうが好ましい
エントロピー正則化 OT （ Entropy -Regularized OT; EROT ）
min
𝜋
න
𝒳×𝒴
𝑐 𝒙, 𝒚 d𝜋 𝒙, 𝒚 + 𝜀𝐻 𝜋
s. t. 𝜋 ⋅ × 𝒴 = 𝛼, 𝜋 𝒳 × ⋅ = 𝛽, 引用: [18]
𝐻 𝜋 ≔ − න
𝒳×𝒴
𝑝 𝒙, 𝒚 log 𝑝 𝒙, 𝒚 d𝒙d𝒚

• 参照測度 ℚ が可逆 Brown 運動のとき、 static SB と EROT は最適解が一致[17,18]
• 定常的な周辺測度を持つ Brown 運動を可逆 Brown 運動と呼ぶ（ℚ𝑡 = ℚ𝑠 ∀0 ≤ 𝑡 ≤ 𝑠 ≤ 𝑇）
• 可逆 Brown 運動ならば、距離関数 𝑐 が存在し 𝑞0,𝑇 𝒙0, 𝒙𝑇 ∝ exp −𝑐 𝒙0, 𝒙𝑇 と表せる
• 具体例として、定義域が Euclid 空間 ℝ𝑛 のときの可逆 Brown 運動 ℚ に関連する
SDE は d𝒙𝑡 = 𝜎d𝒘𝑡 であり、距離関数は二乗 Euclid ノルム 𝑐 𝒙0, 𝒙𝑇 = ‖𝒙0 − 𝒙𝑇‖2
/2𝜎2
SB と最適輸送の関係性 1/ 2
[確率密度関数が存在するときの証明ラフスケッチ]
𝐷KL ℙ0,𝑇||ℚ0,𝑇 = −𝔼ℙ0,𝑇
log 𝑞0,𝑇 + 𝔼ℙ0,𝑇
log 𝑝0,𝑇
= −𝔼ℙ0,𝑇
−𝑐 𝒙0, 𝒙𝑇 + 𝐻 ℙ0,𝑇 + const.
= න𝑐 𝒙0, 𝒙𝑇 dℙ0,𝑇 𝒙0, 𝒙𝑇 + 𝐻 ℙ0,𝑇 + const.

• 離散 EROT の解から構成される mixture of bridges の可視化（下図）
• 青の点群から赤の点群への輸送パス
• 各点の質量は全て等しい設定
• エントロピー項の寄与（𝜀）が大きくなるほど、許容可能な bridge が多様化する傾向
SB と最適輸送の関係性 2/ 2
引用: [18]

• パス測度はそのままだと扱いにくいので、SDE を用いた表現へと置き換えることにする
• ここでは、 T. Chen et al. (2021)[19] の定式化を紹介
• Dynamic SB は、等価な確率最適制御問題に変換できることが知られる[20]
• ここで d𝒙 = 𝒇 + 𝑔𝒖 d𝑡 + 𝑔d𝒘 は状態方程式
• 参照パス測度 ℚ より誘導される確率場（SDE: d𝒙 = 𝒇d𝑡 + 𝑔d𝒘）を漂っている粒子に対して、
外力（𝒖 に対応）を制御して初期値 𝒙0 から目標 𝒙𝑇 へと導くような問題設定
• 最小の作用（‫׬‬ 𝒖 2
d𝑡）で目的を達成できるときの 𝒖 を最適解とする
SB の再定式化 | 確率最適制御問題
min
𝒖
𝔼 න
0
𝑇
1
2
𝒖 𝒙𝑡, 𝑡 2d𝑡
s. t. ቐ
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 + 𝑔 𝑡 𝒖 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡
𝒙0 ∼ 𝑝data
𝒙𝑇 ∼ 𝑝prior
d𝒙 = 𝒇d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 + 𝑔𝒖 d𝑡 + 𝑔d𝒘
source
target
𝒖

• 確率最適制御の最適解 𝒖∗
は、関数 Ψ, ෡
Ψ の偏微分方程式（PDE）で特徴付けられる[20]
• この Ψ, ෡
Ψ を Schrödinger potential、 PDE を Schrödinger system と呼ぶ
• それぞれ Kolmogorov の後退・前進方程式に相当するが、互いに異なるポテンシャルを用いる
• Schrödinger system の解 Ψ, ෡
Ψ を用いて、 𝑝𝑡 と 𝒖∗
は次のように与えられる
• すなわち、Ψ, ෡
Ψ は 𝒙𝑡 の従う密度関数 𝑝𝑡 を分解したものとみなすことができる
• 具体的にどうやって Ψ, ෡
Ψ を求めるのか？という問題は後回しにする
SB の再定式化 | Schrödinger Sys tem
𝜕Ψ
𝜕𝑡
= − ∇Ψ, 𝒇 −
1
2
𝑔2ΔΨ
𝜕෡
Ψ
𝜕𝑡
= −∇ ⋅ ෡
Ψ𝒇 +
1
2
𝑔2Δ෡
Ψ
s. t. ൝
Ψ ⋅, 0 ෡
Ψ ⋅, 0 = 𝑝data
Ψ ⋅, 𝑇 ෡
Ψ ⋅, 𝑇 = 𝑝prior
𝑝𝑡 = Ψ ⋅, 𝑡 ෡
Ψ ⋅, 𝑡
𝒖∗ = 𝑔 𝑡 ∇ log Ψ

• 状態方程式の制御変数 𝒖 を最適ポテンシャル Ψ, ෡
Ψ に置き換えることで、
SB の解は次の前進・後退 SDE で表現できることが示されている[19]
• それぞれの SDE は reverse-time formula[12] によって相互変換可能
• すなわち、 Schrödinger bridge 問題とは次のように言い換えができる:
SB の再定式化 | 前進・後退 S D E
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 + 𝑔2 𝑡 ∇ log Ψ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙0 ∼ 𝑝data
d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 − 𝑔2 𝑡 ∇ log ෡
Ψ 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡, 𝒙𝑇 ∼ 𝑝prior
確率分布 𝑝data, 𝑝prior と参照測度（確率場） ℚ: d𝒙 = 𝒇d𝑡 + 𝑔d𝒘 が与えられたとき、
Schrödinger system を満たすような関数ペア Ψ, ෡
Ψ を求める問題
[前進 SDE]
[後退 SDE]

• 生成モデルとしては以下のように実現される
• 学習
1. データ分布 𝑝data と事前分布 𝑝prior を用意
2. 参照測度 ℚ を SDE d𝒙 = 𝒇d𝑡 + 𝑔d𝒘 で設計
（𝒇, 𝑔 はハイパーパラメータ）
3. Schrödinger system を満たすように、
パラメータ化されたモデルを訓練
（Ψ, ෡
Ψ を学習）
• 生成
1. 初期データ 𝒙𝑇 を 𝑝prior からサンプル
2. 訓練済みモデルを用いて
初期条件 𝒙𝑇 のもとで後退 SDE
d𝒙 = 𝒇 − 𝑔2
∇ log ෡
Ψ d𝑡 + 𝑔d𝒘 を解く
SB の学習・生成スキーム
d𝒙 = 𝒇 + 𝑔2
∇ log Ψ d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 − 𝑔2
∇ log ෡
Ψ d𝑡 + 𝑔d𝒘
𝒙0 𝒙𝑇
SGM/SB のコンセプト比較
（注: 写真を加工して作成、AI 生成データではない）
SB
SGM
d𝒙 = 𝒇d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 − 𝑔2
∇ log 𝑝 d𝑡 + 𝑔d𝒘
𝒙0 𝒙𝑇

• 導出した SB は拡散モデルの厳密な意味での拡張と言える
• 拡散モデルの前進・後退 SDE は、 Ψ ≡ 1, 𝑝 𝒙𝑇 𝒙0 = 𝑁 𝟎, 𝑰 の制約を設けた SB と等価
• このとき、 𝑔2∇ log Ψ ≡ 0, ෡
Ψ = Ψ෡
Ψ = 𝑝 が成立
• ものすごく大雑把にいえば、事前分布の制約条件を緩める代わりに
前進過程も学習パラメータ化した拡散モデルが Schrödinger bridge である
拡散モデル（ SG M ）との関係性
d𝒙 = 𝒇 + 𝑔2∇ log Ψ d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 − 𝑔2∇ log ෡
Ψ d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 d𝑡 + 𝑔d𝒘
d𝒙 = 𝒇 − 𝑔2∇ log 𝑝 d𝑡 + 𝑔d𝒘
[拡散モデル（SGM）] [Schrödinger bridge]
[前進]
[後退]
[前進]
[後退]

• まとめ
• Schrödinger Bridge （SB）とは、事前分布の制約を緩めた拡散モデルのような生成モデル
• もう一つの側面として、 SB は動的な最適輸送問題とみなすこともできる
• T. Chen et al. (2021)[19] の定式化では、前進・後退 SDE の同時最適化として扱える
• 今回は説明しなかった内容
1. 参照パス測度 ℚ の設計方法
• 確率最適制御問題における確率場（SDE） d𝒙𝑡 = 𝒇 𝒙𝑡, 𝑡 d𝑡 + 𝑔 𝑡 d𝒘𝑡 のこと
• ドリフト係数 𝒇 𝒙𝑡, 𝑡 と拡散係数 𝑔 𝑡 はどのような基準で設計すべきか？
2. SB モデルの訓練アルゴリズム
• Schrödinger potential Ψ, ෡
Ψ の最適解の求め方のこと
• 機械学習の枠組みに持ち込むとき、どのようにパラメータ化するのが好ましいのだろうか？
おわりに

• SB の学習アルゴリズム
• Iterative Proportional Fitting (IPF)[3, 21]
• 最適輸送で有名な Sinkhorn-Knopp アルゴリズム[22]の拡張
• Forward-Backward SDE (SB-FBSDE)[19]
• Iterative Markovian Fitting (IMF)[23]
• CV 系の応用手法
• Image-to-Image Schrödinger Bridge (I2SB)[24]
• 関連アルゴリズム
• Conditional Flow Matching (CFM)[25]
• Stochastic Interpolants[26]
• Simulation-Free Score and Flow Matching ([SF]2M)[27]
Part II 以降で取り扱う内容（予定）
I2SB の結果画像例
引用: [20]

• [1] E. Schrödinger, “Über die Umkehrung der Naturgesetze,” Sitzungsberichte der Preuss Akad. Wissen. Berlin, Phys. Math. Klasse,
vol. 10, pp. 144–153, 1931.
• [2] E. Schrödinger, “Sur la théorie relativiste de l’électron et l’interprétation de la mécaniquequantique,” Ann. Inst. H. Poincaré,
vol. 2, pp. 269–310, 1932.
• [3] V. De Bortoli, J. Thornton, J. Heng, and A. Doucet, “Diffusion Schrödinger Bridge with Applications to Score-Based Generative
Modeling.” arXiv, Dec. 06, 2021. doi: 10.48550/arXiv.2106.01357.
• [4] T. B. Brown et al., “Language Models are Few-Shot Learners.” arXiv, Jul. 22, 2020. Accessed: Jul. 14, 2023. [Online]. Available:
https://arxiv.org/abs/2005.14165
• [5] H. Touvron et al., “LLaMA: Open and Efficient Foundation Language Models.” arXiv, Feb. 27, 2023. Accessed: Jul. 14, 2023.
[Online]. Available: https://arxiv.org/abs/2302.13971
• [6] Stability AI, “GitHub - Stability-AI/generative-models: Generative Models by Stability AI.” https://github.com/Stability-
AI/generative-models (accessed Jul. 14, 2023).
• [7] J. Song, C. Meng, and S. Ermon, “Denoising Diffusion Implicit Models.” arXiv, Oct. 05, 2022. Accessed: Jul. 12, 2023. [Online].
Available: https://arxiv.org/abs/2010.02502
• [8] J. Ho, A. Jain, and P. Abbeel, “Denoising Diffusion Probabilistic Models.” arXiv, Dec. 16, 2020. doi: 10.48550/arXiv.2006.11239.
• [9] C. Luo, “Understanding Diffusion Models: A Unified Perspective.” arXiv, Aug. 25, 2022. doi: 10.48550/arXiv.2208.11970.
• [10] Y. Song and S. Ermon, “Generative Modeling by Estimating Gradients of the Data Distribution.” arXiv, Oct. 10, 2020. doi:
10.48550/arXiv.1907.05600.
• [11] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, “Score-Based Generative Modeling through
Stochastic Differential Equations.” arXiv, Feb. 10, 2021. doi: 10.48550/arXiv.2011.13456.
• [12] B. D. O. Anderson, “Reverse-time diffusion equation models,” Stochastic Processes and their Applications, vol. 12, no. 3, pp.
313–326, 1982, doi: 10.1016/0304-4149(82)90051-5.
参考文献 1/ 3

• [13] Y. Song, C. Durkan, I. Murray, and S. Ermon, “Maximum Likelihood Training of Score-Based Diffusion Models.” arXiv, Oct. 20,
2021. doi: 10.48550/arXiv.2101.09258.
• [14] P. Vincent, “A Connection Between Score Matching and Denoising Autoencoders,” Neural Computation, vol. 23, no. 7, pp.
1661–1674, Jul. 2011, doi: 10.1162/NECO_a_00142.
• [15] R. T. Q. Chen, Y. Rubanova, J. Bettencourt, and D. Duvenaud, “Neural Ordinary Differential Equations.” arXiv, Dec. 13, 2019.
doi: 10.48550/arXiv.1806.07366.
• [16] C. Léonard, “A survey of the Schrödinger problem and some of its connections with optimal transport.” Aug. 01, 2013.
Accessed: Mar. 24, 2023. [Online]. Available: https://arxiv.org/abs/1308.0215
• [17] Y. Chen, T. T. Georgiou, and M. Pavon, “Stochastic control liaisons: Richard Sinkhorn meets Gaspard Monge on a Schroedinger
bridge.” arXiv, Nov. 26, 2020. doi: 10.48550/arXiv.2005.10963.
• [18] G. Peyré and M. Cuturi, “Computational Optimal Transport.” arXiv, Mar. 18, 2020. doi: 10.48550/arXiv.1803.00567.
• [19] T. Chen, G.-H. Liu, and E. A. Theodorou, “Likelihood Training of Schrödinger Bridge using Forward-Backward SDEs Theory.”
arXiv, Jul. 14, 2022. doi: 10.48550/arXiv.2110.11291.
• [20] K. F. Caluya and A. Halder, “Wasserstein Proximal Algorithms for the Schrödinger Bridge Problem: Density Control with
Nonlinear Drift.” Mar. 15, 2021. Accessed: Apr. 01, 2023. [Online]. Available: https://arxiv.org/abs/1912.01244
• [21] F. Vargas, P. Thodoroff, N. D. Lawrence, and A. Lamacraft, “Solving Schrödinger Bridges via Maximum Likelihood,” Entropy, vol.
23, no. 9, p. 1134, Aug. 2021, doi: 10.3390/e23091134.
• [22] M. Cuturi, “Sinkhorn Distances: Lightspeed Computation of Optimal Transportation Distances.” arXiv, Jun. 04, 2013. doi:
10.48550/arXiv.1306.0895.
• [23] Y. Shi, V. De Bortoli, A. Campbell, and A. Doucet, “Diffusion Schrödinger Bridge Matching.” arXiv, Mar. 29, 2023. doi:
10.48550/arXiv.2303.16852.
• [24] G.-H. Liu, A. Vahdat, D.-A. Huang, E. A. Theodorou, W. Nie, and A. Anandkumar, “I2SB: Image-to-Image Schrödinger Bridge.”
arXiv, Feb. 12, 2023. doi: 10.48550/arXiv.2302.05872.
参考文献 2/ 3

• [25] A. Tong et al., “Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport.” arXiv, Feb. 01, 2023. doi:
10.48550/arXiv.2302.00482.
• [26] M. S. Albergo, N. M. Boffi, and E. Vanden-Eijnden, “Stochastic Interpolants: A Unifying Framework for Flows and Diffusions.”
Mar. 15, 2023. Accessed: Mar. 20, 2023. [Online]. Available: https://arxiv.org/abs/2303.08797
• [27] A. Tong et al., “Simulation-free Schrödinger bridges via score and flow matching.” arXiv, Jul. 07, 2023. Accessed: Jul. 26,
2023. [Online]. Available: https://arxiv.org/abs/2307.03672
参考文献 3/ 3

A Brief Survey of Schrödinger Bridge (Part I)

More Related Content

What's hot

Similar to A Brief Survey of Schrödinger Bridge (Part I)

A Brief Survey of Schrödinger Bridge (Part I)