20140306 ibisml

大阪大学産業科学研究所
/ 科学技術振興機構(さきがけ)
Email: ykawahara@sanken.osaka-u.ac.jp
Web: http://www.ar.sanken.osaka-u.ac.jp/~kawahara/jp/
河原吉伸
劣モジュラ性を用いた機械学習
—― 入門と最近の話題 —―
第16回 IBISML研究会（2014年3月7日）

集合関数と劣モジュラ性
}  劣モジュラ性：連続関数の凸性に対応する集合関数の構造
–  連続の場合同様、（大域最適＝局所最適）や双対性，分離定
理などの有用な性質を持つ．
2
凸性（連続関数）
劣モジュラ性（集合関数）
自然に
現れる構造
対応する概念
効率的なアルゴリズム
構築に有用な構造
1
2
3
4
5
6
7
部分集合
実数値
集合関数 fV
f(S) + f(T ) f(S T ) + f(S [ T )
(S, T ✓ V)

本講演の構成
}  集合関数最適化と連続関数最適化，各々として定式化される
機械学習における劣モジュラ性の利用について順に述べる：
3
集合関数最適化として
定式化される機械学習
連続関数最適化として
定式化される機械学習
（Lovász拡張，基多面体）
（前半）
劣モジュラ性の利用
（後半）
（スライド） http://www.ar.sanken.osaka-u.ac.jp/~kawahara/jp/submo_ibisml16.pdf

講演の内容
（前半）
}  劣モジュラ性の基本的事項 1 (定義)
}  機械学習における代表的な例 1 (集合関数最適化)
–  貪欲法の適用（劣モジュラ最大化としての定式化）
–  グラフカットとエネルギー最小化（MRFにおける推論）
（後半）
}  劣モジュラ性の基本的事項 2 (Lovász拡張，基多面体)
}  機械学習における代表的な例 2 (連続関数最適化)
–  構造正則化学習における劣モジュラ最適化
（劣モジュラ多面体上での最適化）
}  その他の最近の話題
4

劣モジュラ性の定義（1）
}  次式を満たす集合関数（つまり　　　　　　　　）を劣モジュラ関数
と呼ぶ（　　　　　　　　　　　　　　）：
5
ilarge imp.
small imp.
Diminishing Returns （規模の経済性，限界効用逓減の法則など）
f : 2V
! R
f(S + i) f(S) f(T + i) f(T )
*) –f が劣モジュラ関数のとき，
f は優モジュラ関数と呼ぶ．
S ✓ T ✓ V, i 2 V T

6
SERVER
LAB
KITCHEN
COPYELEC
PHONEQUIET
STORAGE
CONFERENCE
OFFICEOFFICE
Y2
‘large’ imp.
Yi
SERVER
LAB
KITCHEN
COPYELEC
PHONEQUIET
STORAGE
CONFERENCE
OFFICEOFFICE
Location S = {Y1,Y2}
Y1
Y2Y1
Y3
Y4
Y5
* From IJCAI09 tutorial “Intelligent Information Gathering and Submodular Function Optimization”
Location S = {Y1,Y2,Y3,Y4,Y5}
‘small’ imp.
観測ノイズの分散低減：
（：センサ配置可能箇所）
観測に伴う
ノイズの分散
f(S) := V ar(;) V ar(S) V
f(S + i) f(S) f(T + i) f(T ) i

}  任意のに対して，次式を満たす：
}  Lovász拡張（後述）が凸．
}  その他，劣モジュラ性の等価な定義が複数知られている
（(Lovász,1983), (Fujishige,2005), (Bach,2013) などを参照）．
7
f(S) + f(T ) f(S T ) + f(S [ T )
S, T ✓ V
ˆf : RV
! R
これらについても後ろでふれます．

劣モジュラ関数の例（1）
}  情報理論やグラフ理論，ゲーム理論，経済学，人工知能分野等，
多くの数理工学や社会科学の分野において頻繁に見られる．
–  情報理論：（同時）エントロピー，相互情報量，情報利得
–  グラフ理論：カット関数，ネットワークのカット容量，マトロイド
のランク関数
–  その他：経済分野における効用関数（優モジュラ関数），被覆
関数，正定値対称行列の行列式，自乗重相関係数（負の自
乗誤差），Convex Gameなど
8

劣モジュラ関数の例（2）
9
カット関数：
被覆関数：
1
2
3
4
5
f(S) =
X
{ce : e 2 E(S, V S)} (S ✓ V)
f({1, 2}) = 3
エッジ e 上の重み
端点がとに
含まれるエッジの集合
S V S
f({1, 2}) = 8
f(S) =
X
{cu : u 2 [i2SSi} (S ✓ V)
各点上の重み
V = {S1, S2, S3}

その他の劣モジュラ性の性質
}  その他に重要な劣モジュラ性に関連した概念として，講演中
では以下のものにふれる予定です：
–  Lovász拡張：
•  集合関数の連続緩和の一つ．劣モジュラ性と凸性の関係を表す
重要な概念であり，様々な場面で数理的基礎として用いられる．
–  基多面体，劣モジュラ多面体：
•  劣モジュラ関数を，等価な線形制約の組（つまり多面体）として
表現したもの．劣モジュラ関数最適化を，等価な制約付き最適
化として考える際などに有用．
10

機械学習における劣モジュラ最適化
11
劣モジュラ最小化
劣モジュラ最大化
離散DC計画問題
制約付き劣モジュラ最小化
（劣モジュラ最適化問題）
問題自体の難しさ
（NP困難）
対応する
連続最適化
凸最小化
凸最大化
DC計画
関連する代表的な問題例
クラスタリング，グラフ構造
の学習，構造正則化学習
最密部分グラフ問題
(l0正則化)特徴選択
能動学習, ノンパラ推定
エネルギー最小化

講演の内容
（前半）
（後半）
12

劣モジュラ関数の最大化
}  機械学習の問題の中には，（サイズ制約下での）劣モジュラ
関数の最大化として定式化されるものが多数存在する：
13
max
S✓V
f(S) s.t. |S|  k
劣モジュラ関数
ノンパラ推定
(Reed & Ghahramani,2013)
能動学習
(Hoi+ 2006), (Chen & Krause, 2013)
文章要約
(Lin & Bilmes, 2010)
(k 0)
サイズ制約の場合の
貪欲法による近似率
(Nemhauser+ 1978)
ナップサック制約の
場合の近似率
(Lee+ 2009)
〜

[代表的な関連研究]
2005
2013
グラフマイニング
(Thoma+ 2009)
センサ配置
(Krause & Guestrin, 2005), (Krause+ 2008)
特徴選択
(Das & Kempe, 2008)
2010
1978

劣モジュラ最大化と貪欲法
}  劣モジュラ最大化は，貪欲法により良い近似解が得られる：
14
貪欲法を適用
max
S✓V
f(S) s.t. |S|  k 近似解
最悪の場合でも，最適解の
(1-1/e)倍の解が得られる
(Nemhauser+ 1978)
(1 1/e) ⇡ 0.68
1. , に設定．
2. の間，以下の手順を繰り返す：
a). 残りの要素（）内で，最も関数値を増やすものを選択：
b). , .
i 1 S0 ;
貪欲法の手順：
V Si 1
Si Si 1 [ {ei}
|Si| < k
i i + 1
①
（単調）劣モジュラ関数
ei = argmax
e2VSi 1
f(Si 1 [ e) f(Si 1)

劣モジュラ最大化と貪欲法
}  劣モジュラ最大化は，貪欲法により良い近似解が得られる：
15
貪欲法を適用
（単調）劣モジュラ関数
max
S✓V
f(S) s.t. |S|  k 近似解
(1 1/e) ⇡ 0.68
•  例えば，Accelerated貪欲法 (Minout, 1978) の適用により，実用
的にはより高速に，貪欲法と同様の解を得る事ができる．
①
②
最悪の場合でも，最適解の
(1-1/e)倍の解が得られる
(Nemhauser+ 1978)
その他にも，いくつかの貪欲法が提案されている．また非単調な場合は，
近似率がわるくなる (例えば，(Krause, 2012)を参照)．

具体的な問題例（特徴選択）
}  L0ノルムを用いた正則化による特徴選択：
}  劣モジュラ関数の最大化として定式化可能 (Das & Kempe, 2008) :
1. という集合関数を定義．
2. 最大化する集合関数：
16
L0ノルム（非ゼロ要素の数）
min
w2RV
1
n
nX
i=1
yi w>
xi
2
2
s.t. kwk0  k
f(S) := g(;) g(S)
：集合に対応するの部分ベクトル
：を用いた場合の最小自乗推定パラメータ
xS
ˆwS
S x
xS
g(S) :=
1
n
nX
i=1
yi ˆw>
S xi,S
2
2

具体的な問題例（文書要約）（1）
17
max
S✓V
f(S) s.t.
X
i2S
ci  b
劣モジュラ性を満たす (Lin & Bilmes, 2010)．
各文内のコスト（文字数など）
（ナップサック制約）
新しい文を加えたときの限界効用は徐々に小さくなる．
⇢
（文章）
（文章）

具体的な問題例（文書要約）（2）
}  評価関数としては，
–  被覆関数
–  Maximal Margin Relevance (Carbonell & Goldstein, 1998)
⇒ 非単調な劣モジュラ関数
–  Rouge-N (Lin, 2004)
⇒ 単調な劣モジュラ関数
–  Rewarded被覆関数 (Lin & Bilmes, 2011)
⇒ 単調な劣モジュラ関数
18

講演の内容
（前半）
（後半）
19

マルコフ確率場モデルにおける推論（1）
20
xi
yi
Pr(x) =
1
Z
exp
2
4
X
(i,j)2E
ij(xi, xj)
3
5
元の画像
観測画像
y
x
MRF事前分布

マルコフ確率場モデルにおける推論（2）
}  最大事後確率（MAP）推定：
21
観測
unary terms
pairwise terms
格子状グラフ上での0、または1の割り当て．
G = (V, E)
ˆx = argmax
x2{0,1}V
Pr(x|y)
= argmax
x2{0,1}V
Y
i2V
Pr(yi|xi) Pr(x)
= argmax
x2{0,1}V
X
i2V
log[Pr(yi|xi)] + log[Pr(x)]
= argmin
x2{0,1}V
X
i2V
i(xi) +
X
(i,j)2E
ij(xi, xj)
xi
xj
ij
エネルギー最小化

}  しかし，が劣モジュラ性を満たすときは“効率的に”計算可能．
グラフカットとの関係（1）
22
劣モジュラ性：
⇒ 一般に「NP困難」
ij
から容易に導ける：
ij(1, 0) + ij(0, 1) ij(1, 1) + ij(0, 0)
f(S) + f(T ) f(S T ) + f(S [ T ) (S, T ✓ V)
・（とそれ同等の場合）以外の場合は明らか．
・上記の場合は，次のようになる：
S = i, T = j
f(S T ) = f(;) , ij(0, 0) f(S [ T ) = f(V) , ij(1, 1)，
min
x2{0,1}V
X
i2V
i(xi) +
X
(i,j)2E
ij(xi, xj)
スムースネス

}  図のように構成したs/t-グラフ上での，カット関数の最小化問
題と等価である事が知られている (Boykov+ 2001)．
23
s
t
ij(0, 1) xi
xj
ij(1, 0)
(source)
(sink)
i(1)
とにかく早く解ける！
（画像処理分野では
頻繁に使われている）
最大流アルゴリズムで
計算可能
（最小カット・最大流定理）
i(0)

}  カット関数は，高速に最小化可能な，劣モジュラ関数の部分
クラス（２次の劣モジュラ関数）：
24
グラフカット
（：エッジ数，：関数評価）
劣モジュラ関数
O(|V|5
EO + |V|6
)
O(|V|m log(|V|2
/m)) など
(Goldberg & Tarjan, 1986)
(Orlin 2009)
高速に解ける
より広いクラスは？
最小化の
計算量
*) 理論的な計算量は未知だが，実用的には比較的高速な劣モジュラ最小化アルゴリズム
は存在する（最小ノルム点アルゴリズム (Fujishige+ 2006)）．

一般化グラフカット（1）
}  最大流アルゴリズムで解けるより一般の関数*
(Jegelka+ 2011, Nagano & Kawahara, 2013)
25
f(S) = min
A✓U
X
ce : e 2 out
G ({s} [ S [ A)
s
t
1
2
3
u1
u2
u3
V
ノードから外に向かうエッジ
各エッジのキャパシティ
U
実用的な問題に現れる
劣モジュラ関数の多くは，
この形になっている．
ノードを追加した場合の
カット関数と等価
U

一般化グラフカット（2）
}  例). 分解可能劣モジュラ関数(Stobbe & Krause, 2010)：
26
f(S) = d(S) +
kX
i=1
min{yi, w(i)(S)} (S ✓ V)
正実ベクトル
正実数
非負実ベクトル
*) より一般の形は，コンピュータ・ビジョン分野の文献に見られる（(Kohli+2009)など）．
|S|
yi
min{yi, w(i)(S)}
t
u2
u3
V U
s
u1
1
2
3
4
d1 y1
w(1)1

講演の内容
（前半）
（後半）
27

Lovász拡張
}  集合関数fの連続関数への緩和の一つ (Lovász (1983))：
（定義）任意の実ベクトルの要素の値を大きい順に
と並べたとき，任意の集合関数 f に対して，Lovász拡張 f は
次のように定義される：
28
集合関数 f は，そのLovasz拡張 f が凸でありかつその時のみ，
劣モジュラである
定理 (Lovász,1983)
p 2 Rn
ˆp1 > ˆp2 > · · · > ˆpm
^
(Uk = {i 2 V : pi ˆpk})
ˆf(p) =
m 1X
k=1
(ˆpk ˆpk+1) f(Uk) + ˆpm f(Um)
^

Lovász拡張
}  集合関数fの連続関数への緩和の一つ (Lovász (1983))：
29
における f　
1. の要素を降順に並べる．
2. 定義に従って，
p1 = 0.6 > p2 = 0.2
例）
|V| = 2. f(;) = 0, f({1}) = 0.8, f({2}) = 0.5, f(V) = 0.2
p
(U1 = {2}, U2 = {1, 2})
p = (0.2, 0.6) ^
ˆf(p) =(0.6 0.2) ⇥ f({2})
+ 0.2 ⇥ f(V) = 0.24

基多面体，劣モジュラ多面体
}  劣モジュラ関数から定義される線形制約の集合（多面体構造）
30
P(f) = {x 2 RV
: x(S)  f(S) (8S ✓ V)}
B(f) = {x 2 RV
: x 2 P(f), x(V) = f(V)}
劣モジュラ多面体：
基多面体：
x1
x2
P(f)
B(f)
の場合
|V| = 2 の場合
|V| = 3
x1
x2
B(f)
P(f)
x3
（最大）個の
線形制約で表される
22
1 = 3
（最大）個の
線形制約で表される
23
1 = 7

講演の内容
（前半）
（後半）
31

構造正則化学習における劣モジュラ最適化（1）
}  構造正則化学習：問題が持つ組合せ的構造を，正則化項として与え
る事で，事前情報の利用を可能にする学習の枠組み．
32
グラフ構造
グループ構造
階層構造
Sparsity patterns induced for L(w) + ⌦(w)
Lasso: ⌦(w) =
P
i |wi |
Group Lasso (Yuan and Lin, 2006): ⌦(w) =
P
g2G kwg k
Group Lasso when groups overlap: ⌦(w) =
P
g2G kwg k
損失関数
学習モデル
モデル・パラメータ
（索引集合が）
min
w2RV
1
n
nX
i=1
l(yi, g(xi; w)) + · ⌦(w)
学習毎に定義される損失項：
こういった変数間の
組合せ的な構造を
正則化項として組込む
構造正則化項：
V
その他，有向グ
ラフ上のパスや，
２次元グリッド
上でのブロック
構造など．

構造正則化のイメージ
}  正則化は，必ずしも変数間で均一にする必要はない：
33
Unit norm balls
Geometric interpretation
∥w∥2 ∥w∥1 w2
1 + w2
2 + |w3|
x1とx2は同時に0になりやすい
(図はF.BachのMLSS’12におけるスライドより）
このような変数毎への正則化の加え方を工夫して構造を正則化へ組み込める

適用例（背景切り出し）（1）
}  画像の背景切り出しにおける隣接構造の利用 (Mairal+ 2011)：
34
テスト画像（y）
推定された背景
背景画像の推定
min
a2RN ,e2Rd
1
2
ky Xa ek
2
2 + ⌦(a)
…
…
訓練ビデオ・シーケンス（X）
（N フレーム）

適用例（背景切り出し）（2）
}  画像の背景切り出しにおける隣接構造の利用 (Mairal+ 2011)：
35
L1正則化
(Olshausen & Field, 1996)
ZATION FOR STRUCTURED SPARSITY
ground with Ω. (c) ℓ1, 87.1%.
(a) Original frame. (b) Estimated background with Ω. (c) ℓ1, 87.1%
(d) ℓ1 + ˜Ω (non-overlapping), 96.3%. (e) ℓ1 +Ω (overlapping), 98.9%. (f) Ω, another fr
グループ正則化
重なりを持つ全（3×3）パッチをグループと設定
(98.9%)
(87.1%)
⌦(w) =
X
g2G
kwgk2

構造正則化学習における劣モジュラ最適化（3）
}  構造正則化項の多くは，劣モジュラ関数のLovász拡張（及びそ
の緩和）で表される (Bach, NIPS’10-11)．
36
min
w2RV
1
n
nX
i=1
l(yi, g(xi; w)) + · ⌦(w)
min
w2RV
1
n
nX
i=1
l(yi, g(xi; w)) + · ˆf(w)
が構造正則化項の場合
劣モジュラ関数のLovász拡張
⌦(w)

Lovász拡張による正則化項の例
(一般化) Fused正則化：各変数をノードとするグラフ
上で，隣接する変数の値は近くなるように正則化を行う．
37
隣接する変数に関する
係数が近い値になる
G = (E, V)
⌦(w) =
X
(i,j)2E
aij|wi wj|
（一般化）Fused正則化項：
=
（等価）
カット関数のLovász拡張：
f(S) =
X
{aij : i 2 S, j 2 V S}
隣接行列の要素

Lovász拡張による正則化項の例
グループ正則化：変数上に，グループ構造（各要素がの部
分集合）が与えられたときに，各グループ内の変数が同時にゼ
ロになりやすくなるような正則化．
38
Sparsity patterns induced for L(w) + ⌦
Lasso: ⌦(w) =
P
i |wi |
Group Lasso (Yuan and Lin, 2006): ⌦(w) =
P
g2G
Group Lasso when groups overlap: ⌦(w) =
P
g2G
Sparsity tutorial II, EC
グループ内のものは同時に
ゼロになりやすい．
G V
（L∞）グループ正則化項：
=
（等価）
被覆関数のLovász拡張：
f(S) =
X
{dg : g 2 G, g S 6= ;}
⌦(w) =
X
g2G
dgkwgk1

近接勾配法による最適化
}  構造正則化学習における最適化は，微分不可能な凸最小
化であるため，一般に，近接勾配法を適用する事が多い．
39
min
w2RV
1
n
nX
i=1
l(yi, g(xi; w)) + · ˆf(w)
微分不可能な凸関数
微分可能な凸関数
近接勾配法における更新：
勾配法
近接法
の計算へ帰着される．
min
w2Rd
1
2
ku wk2
2 + · ⌦(w) (u 2 Rd
)

最小ノルム点問題への帰着
}  Proximal Operatorの計算は，最小ノルム点問題の計算と
等価（一種の双対）である事が示される (Bach, 2013)：
40
min
w2Rd
1
2
ku wk2
2 + · ˆf(w) = min
w2Rd
max
s2B(f)
1
2
ku wk2
2 + · w>
s
= max
s2B(f)
min
w2Rd
1
2
ku wk2
2 + · w>
s
= max
s2B(f)
1
2
kuk2
2
1
2
k · s uk2
2
劣モジュラ多面体
劣モジュラ関数の
基多面体上の最小ノルム点の計算
⇒ 最小ノルム点アルゴリズムの適用
min
t2B(f 1u)
ktk2
2
f(S) 1
u(S)
w⇤
= t⇤
（Lovász拡張の定義）

パラメトリック最適化（1）
}  （分離凸項＋Lovász拡張）最小化は，基多面体上での（正
規化）ノルム最小化と等価(Nagano&Aihara,2012),(Nagano&Kawahara,2013)：
41
パラメトリック劣モジュラ関数最小化として効率的に解く事ができる
min
x2B( ˜f)
X
i2V
x2
i
bi
min
w2Rd
X
i2V
(wi) + ˆf(w)
凸関数
min
S✓V
˜f(S) ↵ · b(S) ↵ 0for all
(; =) S0 ⇢ S1 ⇢ · · · ⇢ Sl (= V) x⇤
i =
f(Sj+1) f(Sj)
b(Sj+1 Sj)
· bi
各に対する解
↵
[0, ↵1) [↵1, ↵2) [↵l, +1)
（全体として，微分不可能な凸）
（制約が滑らかでない凸）

パラメトリック最適化（2）
}  特に，関数 f が一般化グラフカット関数の場合，パラメトリック
最大流アルゴリズム（(Gallo+ 1989)など）で高速に計算できる：
⇒ 例えば，多くの構造正則化はこれに含まれる．
42
min
S✓V
˜f(S) ↵ · b(S)
s
t
1
2
3
u1
u2
u3
V
U
計算量は最大流計算と同様
↵ b1
↵ b2
↵ b3
O(|V [ U|m log(|V [ U|2
/m))

数値例（一般化Fused正則化）
}  パラメトリック最適化（パラメトリック最大流）として一般化Fused
正則化を扱うと，著しい計算速度の向上が得られる．
⇒ 高解像度な画像の処理などへも適用可能になる．
43
ame. (b) Estimated background with Ω. (c) ℓ1, 87.1%.
ping), 96.3%. (e) ℓ1 +Ω (overlapping), 98.9%. (f) Ω, another frame.
グループ正則化
さらに改善
一般化Fused正則化
隣接する画素を結ぶエッジを持つグラフ
（格子状）を用いたFused正則化+L1
⌦(w) = 1|w| + 2
X
(i,j)2E
aij|wi wj|

その他の最近の話題
}  双劣モジュラ関数，k-劣モジュラ関数の利用
(Kolmogorov, 2010), (Kolmogorov, 2011), (Singh+ 2012), (Hirai, 2013)
}  一般の離散凸関数の利用
(Murota, 2003) (教科書的な本), (Kolmogorov & Shioura, 2009)
}  離散的な情報論的尺度など
(Steudel+ 2010), (Iyer & Bilmes, 2013)
}  コンピュータ・ビジョン（Kolmogorov, Boykov, Kohliら多数）や機械学習
／データマイニングの様々な問題（クラスタリング (Narasimhan+2006)
(Nagano+2011)，構造学習(Narasimhan & Bilmes, 2004), (Checketka & Guestrin, 2008)，
ネットワーク上の影響伝播問題(Kempe+2003), (Gomez-Rodriguez & Sholkopf, 2012)，
マーケティング(Hartline+2008)，オンライン学習(Hazan&Kale,2009) など）へ応用
が行なわれている．
44

最後に
}  劣モジュラ性は，概念・理論としては，アルゴリズムの設計
や解析に極めて有用なツール．
}  ただし実用的には，一般の劣モジュラ最適化アルゴリズム
は使えるかは微妙なところ 😅
}  従って応用を考える際には，
–  効率的に解けないクラスの場合は，高速な近似アルゴリズム
が存在する問題へ定式化できないか考える（例．劣モジュラ最
大化における貪欲法）
–  効率的に解けるクラスの場合は，実用的にも高速に解けるサ
ブクラスがないかを考える（例．劣モジュラ最小化における（パ
ラメトリック）最小カット）
というスタンスが良いかなと思います．
45

20140306 ibisml

More Related Content

What's hot

Similar to 20140306 ibisml

20140306 ibisml