Recommended
PDF
PPTX
Graph convolution (スペクトルアプローチ)
PPTX
PPTX
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
PDF
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
PDF
Snake eats leapfrog (in Japanese)
PDF
PPTX
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
PDF
PDF
PDF
introductino to persistent homology and topological data analysis
PDF
PDF
PDF
PDF
数値計算結果のPythonによる後処理について(1次元データのピーク値およびその位置の推定)
PPTX
PDF
PDF
PDF
PDF
PDF
PDF
PPTX
PPTX
Learning Depthwise Separable Graph Convolution from Data Manifold
PPTX
PDF
PDF
PDF
PDF
[DL輪読会]“Submodular Field Grammars Representation” and “Deep Submodular Functi...
PDF
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
More Related Content
PDF
PPTX
Graph convolution (スペクトルアプローチ)
PPTX
PPTX
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
PDF
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
PDF
Snake eats leapfrog (in Japanese)
PDF
PPTX
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
What's hot
PDF
PDF
PDF
introductino to persistent homology and topological data analysis
PDF
PDF
PDF
PDF
数値計算結果のPythonによる後処理について(1次元データのピーク値およびその位置の推定)
PPTX
PDF
PDF
PDF
PDF
PDF
PDF
PPTX
PPTX
Learning Depthwise Separable Graph Convolution from Data Manifold
PPTX
PDF
PDF
PDF
Similar to 20140306 ibisml
PDF
[DL輪読会]“Submodular Field Grammars Representation” and “Deep Submodular Functi...
PDF
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
PDF
PDF
PDF
PDF
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
PDF
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
PPTX
PPTX
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
PPTX
PPTX
PPTX
PPTX
Greed is Good: 劣モジュラ関数最大化とその発展
PPTX
PPTX
PPTX
Deep learning basics described
PDF
PPTX
20140306 ibisml 1. 大阪大学 産業科学研究所
/ 科学技術振興機構(さきがけ)
Email: ykawahara@sanken.osaka-u.ac.jp
Web: http://www.ar.sanken.osaka-u.ac.jp/~kawahara/jp/
河原 吉伸
劣モジュラ性を用いた機械学習
—― 入門と最近の話題 —―
第16回 IBISML研究会 (2014年3月7日)
2. 集合関数と劣モジュラ性
} 劣モジュラ性: 連続関数の凸性に対応する集合関数の構造
– 連続の場合同様、(大域最適=局所最適)や双対性,分離定
理などの有用な性質を持つ.
2
凸性(連続関数)
劣モジュラ性(集合関数)
自然に
現れる構造
対応する概念
効率的なアルゴリズム
構築に有用な構造
1
2
3
4
5
6
7
部分集合
実数値
集合関数 fV
f(S) + f(T ) f(S T ) + f(S [ T )
(S, T ✓ V)
3. 4. 講演の内容
(前半)
} 劣モジュラ性の基本的事項 1 (定義)
} 機械学習における代表的な例 1 (集合関数最適化)
– 貪欲法の適用(劣モジュラ最大化としての定式化)
– グラフカットとエネルギー最小化(MRFにおける推論)
(後半)
} 劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)
} 機械学習における代表的な例 2 (連続関数最適化)
– 構造正則化学習における劣モジュラ最適化
(劣モジュラ多面体上での最適化)
} その他の最近の話題
4
5. 6. 7. 劣モジュラ性の定義(3)
} 任意の に対して,次式を満たす:
} Lovász拡張(後述) が凸.
} その他,劣モジュラ性の等価な定義が複数知られている
((Lovász,1983), (Fujishige,2005), (Bach,2013) などを参照).
7
f(S) + f(T ) f(S T ) + f(S [ T )
S, T ✓ V
ˆf : RV
! R
これらについても後ろでふれます.
8. 9. 10. 11. 12. 講演の内容
(前半)
} 劣モジュラ性の基本的事項 1 (定義)
} 機械学習における代表的な例 1 (集合関数最適化)
– 貪欲法の適用(劣モジュラ最大化としての定式化)
– グラフカットとエネルギー最小化(MRFにおける推論)
(後半)
} 劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)
} 機械学習における代表的な例 2 (連続関数最適化)
– 構造正則化学習における劣モジュラ最適化
(劣モジュラ多面体上での最適化)
} その他の最近の話題
12
13. 14. 15. 16. 17. 18. 具体的な問題例(文書要約)(2)
} 評価関数としては,
– 被覆関数
– Maximal Margin Relevance (Carbonell & Goldstein, 1998)
⇒ 非単調な劣モジュラ関数
– Rouge-N (Lin, 2004)
⇒ 単調な劣モジュラ関数
– Rewarded被覆関数 (Lin & Bilmes, 2011)
⇒ 単調な劣モジュラ関数
18
19. 講演の内容
(前半)
} 劣モジュラ性の基本的事項 1 (定義)
} 機械学習における代表的な例 1 (集合関数最適化)
– 貪欲法の適用(劣モジュラ最大化としての定式化)
– グラフカットとエネルギー最小化(MRFにおける推論)
(後半)
} 劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)
} 機械学習における代表的な例 2 (連続関数最適化)
– 構造正則化学習における劣モジュラ最適化
(劣モジュラ多面体上での最適化)
} その他の最近の話題
19
20. 21. マルコフ確率場モデルにおける推論(2)
} 最大事後確率(MAP)推定:
21
観測
unary terms
pairwise terms
格子状グラフ 上での0、または1の割り当て.
G = (V, E)
ˆx = argmax
x2{0,1}V
Pr(x|y)
= argmax
x2{0,1}V
Y
i2V
Pr(yi|xi) Pr(x)
= argmax
x2{0,1}V
X
i2V
log[Pr(yi|xi)] + log[Pr(x)]
= argmin
x2{0,1}V
X
i2V
i(xi) +
X
(i,j)2E
ij(xi, xj)
xi
xj
ij
エネルギー最小化
22. } しかし, が劣モジュラ性を満たすときは“効率的に”計算可能.
グラフカットとの関係(1)
22
劣モジュラ性:
⇒ 一般に「NP困難」
ij
から容易に導ける:
ij(1, 0) + ij(0, 1) ij(1, 1) + ij(0, 0)
f(S) + f(T ) f(S T ) + f(S [ T ) (S, T ✓ V)
・ (とそれ同等の場合)以外の場合は明らか.
・ 上記の場合は,次のようになる:
S = i, T = j
f(S T ) = f(;) , ij(0, 0) f(S [ T ) = f(V) , ij(1, 1),
min
x2{0,1}V
X
i2V
i(xi) +
X
(i,j)2E
ij(xi, xj)
スムースネス
23. 24. 25. 26. 一般化グラフカット(2)
} 例). 分解可能劣モジュラ関数(Stobbe & Krause, 2010):
26
f(S) = d(S) +
kX
i=1
min{yi, w(i)(S)} (S ✓ V)
正実ベクトル
正実数
非負実ベクトル
*) より一般の形は,コンピュータ・ビジョン分野の文献に見られる((Kohli+2009)など).
|S|
yi
min{yi, w(i)(S)}
t
u2
u3
V U
s
u1
1
2
3
4
d1 y1
w(1)1
27. 講演の内容
(前半)
} 劣モジュラ性の基本的事項 1 (定義)
} 機械学習における代表的な例 1 (集合関数最適化)
– 貪欲法の適用(劣モジュラ最大化としての定式化)
– グラフカットとエネルギー最小化(MRFにおける推論)
(後半)
} 劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)
} 機械学習における代表的な例 2 (連続関数最適化)
– 構造正則化学習における劣モジュラ最適化
(劣モジュラ多面体上での最適化)
} その他の最近の話題
27
28. Lovász拡張
} 集合関数fの連続関数への緩和の一つ (Lovász (1983)):
(定義) 任意の実ベクトル の要素の値を大きい順に
と並べたとき,任意の集合関数 f に対して,Lovász拡張 f は
次のように定義される :
28
集合関数 f は,そのLovasz拡張 f が凸でありかつその時のみ,
劣モジュラである
定理 (Lovász,1983)
p 2 Rn
ˆp1 > ˆp2 > · · · > ˆpm
^
(Uk = {i 2 V : pi ˆpk})
ˆf(p) =
m 1X
k=1
(ˆpk ˆpk+1) f(Uk) + ˆpm f(Um)
^
29. Lovász拡張
} 集合関数fの連続関数への緩和の一つ (Lovász (1983)):
29
における f
1. の要素を降順に並べる.
2. 定義に従って,
p1 = 0.6 > p2 = 0.2
例)
|V| = 2. f(;) = 0, f({1}) = 0.8, f({2}) = 0.5, f(V) = 0.2
p
(U1 = {2}, U2 = {1, 2})
p = (0.2, 0.6) ^
ˆf(p) =(0.6 0.2) ⇥ f({2})
+ 0.2 ⇥ f(V) = 0.24
30. 31. 講演の内容
(前半)
} 劣モジュラ性の基本的事項 1 (定義)
} 機械学習における代表的な例 1 (集合関数最適化)
– 貪欲法の適用(劣モジュラ最大化としての定式化)
– グラフカットとエネルギー最小化(MRFにおける推論)
(後半)
} 劣モジュラ性の基本的事項 2 (Lovász拡張,基多面体)
} 機械学習における代表的な例 2 (連続関数最適化)
– 構造正則化学習における劣モジュラ最適化
(劣モジュラ多面体上での最適化)
} その他の最近の話題
31
32. 33. 34. 35. 適用例(背景切り出し)(2)
} 画像の背景切り出しにおける隣接構造の利用 (Mairal+ 2011):
35
L1正則化
(Olshausen & Field, 1996)
ZATION FOR STRUCTURED SPARSITY
ground with Ω. (c) ℓ1, 87.1%.
(a) Original frame. (b) Estimated background with Ω. (c) ℓ1, 87.1%
(d) ℓ1 + ˜Ω (non-overlapping), 96.3%. (e) ℓ1 +Ω (overlapping), 98.9%. (f) Ω, another fr
グループ正則化
重なりを持つ全(3×3)パッチをグループと設定
(98.9%)
(87.1%)
⌦(w) =
X
g2G
kwgk2
36. 37. 38. Lovász拡張による正則化項の例
グループ正則化: 変数上に,グループ構造 (各要素が の部
分集合)が与えられたときに,各グループ内の変数が同時にゼ
ロになりやすくなるような正則化.
38
Sparsity patterns induced for L(w) + ⌦
Lasso: ⌦(w) =
P
i |wi |
Group Lasso (Yuan and Lin, 2006): ⌦(w) =
P
g2G
Group Lasso when groups overlap: ⌦(w) =
P
g2G
Sparsity tutorial II, EC
グループ内のものは同時に
ゼロになりやすい.
G V
(L∞)グループ正則化項:
=
(等価)
被覆関数のLovász拡張:
f(S) =
X
{dg : g 2 G, g S 6= ;}
⌦(w) =
X
g2G
dgkwgk1
39. 40. 最小ノルム点問題への帰着
} Proximal Operatorの計算は,最小ノルム点問題の計算と
等価(一種の双対)である事が示される (Bach, 2013):
40
min
w2Rd
1
2
ku wk2
2 + · ˆf(w) = min
w2Rd
max
s2B(f)
1
2
ku wk2
2 + · w>
s
= max
s2B(f)
min
w2Rd
1
2
ku wk2
2 + · w>
s
= max
s2B(f)
1
2
kuk2
2
1
2
k · s uk2
2
劣モジュラ多面体
劣モジュラ関数 の
基多面体上の最小ノルム点の計算
⇒ 最小ノルム点アルゴリズムの適用
min
t2B(f 1u)
ktk2
2
f(S) 1
u(S)
w⇤
= t⇤
(Lovász拡張の定義)
41. 42. パラメトリック最適化(2)
} 特に,関数 f が一般化グラフカット関数の場合,パラメトリック
最大流アルゴリズム((Gallo+ 1989)など)で高速に計算できる:
⇒ 例えば,多くの構造正則化はこれに含まれる.
42
min
S✓V
˜f(S) ↵ · b(S)
s
t
1
2
3
u1
u2
u3
V
U
計算量は最大流計算と同様
↵ b1
↵ b2
↵ b3
O(|V [ U|m log(|V [ U|2
/m))
43. 44. その他の最近の話題
} 双劣モジュラ関数,k-劣モジュラ関数の利用
(Kolmogorov, 2010), (Kolmogorov, 2011), (Singh+ 2012), (Hirai, 2013)
} 一般の離散凸関数の利用
(Murota, 2003) (教科書的な本), (Kolmogorov & Shioura, 2009)
} 離散的な情報論的尺度など
(Steudel+ 2010), (Iyer & Bilmes, 2013)
} コンピュータ・ビジョン(Kolmogorov, Boykov, Kohliら多数)や機械学習
/データマイニングの様々な問題(クラスタリング (Narasimhan+2006)
(Nagano+2011),構造学習(Narasimhan & Bilmes, 2004), (Checketka & Guestrin, 2008),
ネットワーク上の影響伝播問題(Kempe+2003), (Gomez-Rodriguez & Sholkopf, 2012),
マーケティング(Hartline+2008),オンライン学習(Hazan&Kale,2009) など)へ応用
が行なわれている.
44
45.