SlideShare a Scribd company logo
1 of 49
Download to read offline
ICML2020 最適輸送まとめ
2020/07/11
1
"Optimal Transport", "Sinkhorn" or "Wasserstein" をタイトルに含む論⽂が計16本!
1. On Unbalanced Optimal Transport: An Analysis of Sinkhorn Algorithm
2. Debiased Sinkhorn barycenters
3. Sparse Sinkhorn Attention
4. Representation Learning via Adversarially-Contrastive Optimal Transport
5. TrajectoryNet: A Dynamic Optimal Transport Network for Modeling Cellular
Dynamics
6. Optimal transport mapping via input convex neural networks
7. Adversarial Risk via Optimal Transport and Optimal Couplings
2
8. Scalable Nearest Neighbor Search for Optimal Transport
9. Margin-aware Adversarial Domain Adaptation with Optimal Transport
10. A Swiss Army Knife for Minimax Optimal Transport
11. Regularized Optimal Transport is Ground Cost Adversarial
12. Missing Data Imputation using Optimal Transport
13. Graph Optimal Transport for Cross-Domain Alignment
14. Bridging the Gap Between f-GANs and Wasserstein GANs
15. Stronger and Faster Wasserstein Adversarial Attacks
16. Principled learning method for Wasserstein distributionally robust optimization
with local perturbations
3
最適輸送問題とは
(Ballu, et al '20)
4
最適輸送問題とは
(Ballu, et al '20)
5
最適輸送問題の始まり
モンジュの問題(離散版)
:有限集合。
ある製品が⼯場 で 個⽣産され、 で 個消費する。 から に運ぶ
のに⼀つ当たり のコストがかかる。
の時、各輸送 に対する総コスト
c(T) = a c(x, T(x))
x∈X
∑ x
が最⼩になるような輸送(最適輸送,Optimal Transport)を⾒つけよ。
で、コスト がよくあるケース
X, Y
x ∈ X ax y ∈ Y by x y
c(x, y) ≥ 0
a =∑x x b∑y y T : X → Y
X, Y ⊂ Rd
c(x, y) = ∣∣x − y∣∣2
6
Kantrovich relaxation
実はモンジュの問題は⼀般には不良設定問題( など)
しかし↓の広い意味では解が存在。
カントロヴィッチの最適輸送問題
前⾴の設定で、⼯場 から複数の都市 に分割して運ぶことを許す。
から に 個運ぶ輸送計画 の総コスト
c(P) = c(x, y)P(x, y) =
x,y
∑ ⟨C, P⟩
を最⼩にせよ(制約: )。
∣Y ∣ > ∣X∣
x ∈ X y ∈ Y x
y P(x, y) P
P(x, y) =∑y a , P(x, y) =x ∑x by
7
Wasserstein 距離
以下
最⼩値 を、 と のコスト関数 (通常
ユークリッド距離)についての Wasserstein 距離という。
応⽤
データ分布とモデル分布の⽐較
Principal Differences Analysis [NIPS'15], Model Criticism [NIPS'15,'16]
Wasserstein GAN (連続版の最適輸送)
敵対攻撃・ロバスト性向上
X = {x , x , ..., x }, Y =1 2 m {y , y , ..., y },1 2 n
a =∑i i b =∑j j 1, (⇒ P =∑i,j i,j 1)
W(a, b) := min c(P)T a = (a )i i b = (b )j j C
8
画像処理 [Papadakis'15]
color transfer
segmentation
9
理論の事前準備 : エントロピー正則化[Cuturi '13]
以下更に簡単のため .
minimize⟨C, P⟩ sub. to P1 =n a, P 1 =T
n b, P ≥i,j 0
この線形計画問題を解くには、 の計算量
⾼速に近似解を求めたい
そこでエントロピー
0 < H(P) := − P log P ≤
i,j
∑ i,j i,j H(ab )T
を少し引いて以下の最適化問題を考える
minimize⟨C, P⟩ − ηH(P) sub. to P1 =n a, P 1 =T
n b, P ≥i,j 0
m = n
O(n )3
10
正則化つき最適輸送の解
定理[Cuturi'13]
は強凸。最適解は を⽤いて
P = diag(u)e diag(v)−C/η
と書ける。(このような は唯⼀)
はSinkhornの固定点アルゴリズムで計算できる(Matrix Balancingとも呼ばれる)
計算量 per iteration
⟨C, P⟩ − ηH(P) u ∈ R , v ∈n
Rn
u, v
u, v
O(n )2
11
OTの応⽤ in ICML2020
12
TrajectoryNet: A Dynamic Optimal Transport Network for
Modeling Cellular Dynamics
13
TrajectoryNet: A Dynamic Optimal Transport Network for Modeling Cellular
Dynamics
各点の動きを知りたい・ある時点の分布を知りたい -> NF + NODE でモデリング
14
全体の⼒学系は最適輸送を実現しているのが好ましい
15
計算できる形に書き直すと、⾃然にConticuous NF + 正則化の形に
16
貢献
⾼次元の分布の⼒学系を近似するフレームワーク構築
density/velocity/growth といった⽣物学的な正則化も適⽤
従来の⼿法を統⼀する強いモデル(と主張してるが、⽐較実験はない) 17
Missing Data Imputation using Optimal Transport
18
Missing Data Imputation using Optimal Transport
データ補間
⽋損値を持つ 個の 次元データ点,
に対して"良い"補間
を求めたい
⽋損値を持つデータを削除するのは⾼次元データでは致命的
貢献
⼤域的なデータ分布を考慮したnon-parametricなデータ補間
parametricにも応⽤、NNとかが使える柔軟なフレームワークを提案
n d Ω ∈ {0, 1}n×d
19
⼿法
部分データセット の
経験分布
が互いに近くなるようなものを考える
Wasserstein distを⼩さくする
計量な計算のためにエントロピー正則化をしたいが負の値になるのが嫌
代わりに Sinkhorn divergence
を最⼩化することを⽬指す
(疑問:全てのデータが同じ分布に従うことを仮定しているけど、そうでないとき
は︖"Conditional Wasserstein"みたいなものは考えうるか?)
X =K (x ) , K ⊂k: k∈K {1, 2, ⋯ , n}, ∣K∣ = m ≤ n
20
Alg.1 補間データ⾃体がパラメータみたいなものなので、確率的勾配法で最適化
21
Alg. 2 パラメトリックな補間もできる
補間器を学習してOut-of-sample 後から得たデータの補間ができる
22
実験
Baseline
i. 平均
ii. ice (imputation by chained equations) : cyclical linear
iii. softimpute : iterative soft-thresholded SVD
Deep-based
iv. MIWAE : importance weighted AEを援⽤
v. GAIN : GAN を援⽤
vi. VAEAC : VAE を援⽤
提案⼿法として、non-parametric, Linear/MLP imputer
Linearモデルはiceの⽬的関数だけを変えたものになる
30%のデータ⽋損を補間(toy exampleでは20%)
23
2-dim toy example
24
vs. non-deep model
25
vs. deep model
26
Out-Of-Sample imputation
27
Sparse Sinkhorn Attention
28
Attentionを系列全体で計算するとコスト⾼すぎる
かといってブロックに区切って計算すると情報が落ちる
Sparse Transformer[Child+'19]
Soft Sort(Sinkhorn で計算できる[Adam&Zemel'11])を組み込みattentionを⾼速化
この論⽂では最適輸送とは扱っていない
Soft SortはOTでも構成される[Cuturi+'19] : OTの応⽤でも少し⽑⾊が違う
今回の⼿法とは別物。関連づくか︖ 29
Adversarial Risk via Optimal Transport and Optimal Couplings
Stronger and Faster Wasserstein Adversarial Attacks
↑⼆つは敵対例への応⽤
metric⾃体が最適化問題なのでminimax (敵対的な)問題としての定式化と相性
がよい
Graph Optimal Transport for Cross-Domain Alignment
特徴量のアラインメント(Cross-Domain Alignment, CDA)
⾃然⾔語の情報と画像の情報を対応させる
30
Representation Learning via Adversarially-Contrastive Optimal
Transport
表現学習
Margin-aware Adversarial Domain Adaptation with Optimal
Transport
ドメイン適応
Principled learning method for Wasserstein distributionally
robust optimization with local perturbations
識別器のロバスト性向上
31
OTやWasserstein hogehogeの計算/解析 in ICML2020
hogehoge = 距離 / 最近傍 / 重⼼ / 射影
32
On Unbalanced Optimal Transport: An Analysis of Sinkhorn
Algorithm
33
Unbalanced Optimal Transport
の制約をなくした問題
総量の変化を考慮する問題になる
⟨C, P⟩ +
X∈Rn×n
arg min τKL(X1 ∣∣a) +n τKL(X 1 ∣∣b)T
n
貢献
-近似解を で計算できることを証明
OTでは とされるので、Unbalancedの⽅が速い
制約がないことが良い⽅に働く(Lemma 4)
a =∑i i b (=∑j j 1)
ϵ (n /ϵ)O 2
(n /ϵ )O 2 2
34
OTの場合の解析
-近似解
に応じて正則化 を適切に⼩さくとってSinkhornを⼗分回せば達成できる
Altschuler+'17 : シンプルな解析⼿法、全てのベース
Lin+'19 Jan. :
ϵ P
⟨C, P⟩ ≤ ⟨C, P ⟩ +∗ ϵ
ϵ η
(n /ϵ )O 2 3
(n /ϵ )O 2 2
35
Unbalanced Sinkhorn
36
Debiased Sinkhorn Barycenter
37
Wasserstein Barycenter :
: weight s.t.
: 確率分布
α :W = w W(α , α)
α∈P(R )d
arg min
k
∑ k k
ここでは の台が与えられている場合を考える
Sinkhornで⾼速に近似を求める[Cuturi'14]
(w )k k w =∑k k 1
(α ∈k P(R ))d
k
αW
38
問題点 : エントロピー正則化をかけるとぼやけちゃう
39
エントロピーを相対エントロピーに⼀般化して考える
今までの は⼀様分布に対するエントロピー
逆に積測度 を使った最適輸送距離 を使うと重⼼測度は潰れる
(離散だと⼀様分布と積測度は同じエントロピーになるんじゃないっけ…︖)
H(P)
α ⊗ β OT (α, β)ϵ
⊗
40
代わりに次の距離を使って重⼼を求めることを提案
等分散の正規分布では正しい重⼼を返す
の代わりに普通のエントロピーでも同じ量になる( によらない)⊗ m ⊗1 m2
41
⾼速な計算 per iteration (ただし収束がまだ⽰せてない)O(n )2
42
実験 : 既存⼿法とのquality / run-time⽐較
43
実験 : 3D画像のinterpolation (⼆枚の重み付き平均)
(疑問:exactなWasserstein barycenterとはどれくらい違うのか︖)
44
Scalable Nearest Neighbor Search for Optimal Transport
45
分布空間の中で最近傍探索をする話
⽂章をword embedding空間上の離散測度とみなして「⽂章間の距離」を定義
したときとかに使う(Word Mover distance [Kusner+'15])
Quadtree をより正確にした Flowtreeを提案
(Backurs'20)
46
A Swiss Army Knife for Minimax Optimal Transport
Regularized Optimal Transport is Ground Cost Adversarial
どちらも全く同じ問題を扱う。前者が実験的・後者が理論
ロバストな最適輸送を得るために、さらにコスト関数の集合上で最適化
47
Stochastic Optimization for Regularized Wasserstein Estimators
Wasserstein-"最尤推定"の近似を軽い計算で⾏う話
応⽤としてbarycenterの計算をあげているがbiasはより強まってしまいそう…?
Optimal transport mapping via input convex neural networks
ユークリッド空間内の最適輸送写像をNNで実現する
凸関数でのminimax問題に帰着
凸関数を表現するICNN (Input Convex Neural Networks)で解く
48
まとめ
ロバスト性などわかりやすい応⽤から、データ補間やCDAなど多様な応⽤まで
エントロピー正則化によるバイアスを除いた距離Sinkhorn Divergence は有⽤そう
加えてUnbalanced Optimal Transportの理論・応⽤の発展が今後⾒込めそう
49

More Related Content

What's hot

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38horihorio
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門Retrieva inc.
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展Deep Learning JP
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 

What's hot (20)

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 

Similar to ICML 2020 最適輸送まとめ

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムMiyoshi Yuya
 
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent AlignmentsDeep Learning JP
 
Jokyonokai130531
Jokyonokai130531Jokyonokai130531
Jokyonokai130531nwpmq516
 

Similar to ICML 2020 最適輸送まとめ (7)

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
 
Jokyonokai130531
Jokyonokai130531Jokyonokai130531
Jokyonokai130531
 
CMSI計算科学技術特論B(11) 大規模MD並列化の技術2
CMSI計算科学技術特論B(11) 大規模MD並列化の技術2CMSI計算科学技術特論B(11) 大規模MD並列化の技術2
CMSI計算科学技術特論B(11) 大規模MD並列化の技術2
 
π計算
π計算π計算
π計算
 

ICML 2020 最適輸送まとめ