【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】

StatsML Symposium’20
パラメータ制約付き行列分解の
ベイズ汎化誤差解析
本講演は松井孝太先生（名古屋大）にお世話になりました．
林直輝 (1,2)
(1) 株式会社NTTデータ数理システムシミュレーション＆マイニング部
(2) 東京工業大学情報理工学院数理・計算科学系
1

目次
1. 統計的学習
2. 特異モデルのベイズ汎化誤差解析
3. パラメータ制約
4. 非負値行列分解
5. 潜在ディリクレ配分
6. 結び
5

１．統計的学習
統計的学習とは何か
未知なる𝑞 𝑥 をデータとモデルから学習する
6
デ―タ 𝑋 𝑛
真の分布（未知）
𝑞 𝑥
i.i.d.～
モデル 𝑝 𝑥 𝑤
事前分布 𝜑 𝑤

統計的学習: 学習結果を用いてデータの発生源を推測すること
7
デ―タ 𝑋 𝑛
𝑞 𝑥
i.i.d.～
予測分布
𝑝∗
𝑥 ≔ 𝑝 𝑥 𝑤 𝜓 𝑤 𝑋 𝑛
d𝑤
𝜓 𝑤 𝑋 𝑛
: 事後分布: 推定されたパラメータ分布
事前分布 𝜑 𝑤
ベイズ学習: 真の分布はベイズ予測分布ではないか？と推測すること

統計的学習: 学習結果を用いてデータの発生源を推測すること
8
デ―タ 𝑋 𝑛
𝑞 𝑥
i.i.d.～
予測分布
𝑝∗
𝑥 ≔ 𝑝 𝑥 𝑤 𝜓 𝑤 𝑋 𝑛
d𝑤
𝜓 𝑤 𝑋 𝑛
: 事後分布: 推定されたパラメータ分布
事前分布 𝜑 𝑤モデルは未知データをどれだけ良く予測するか？
モデルはデータ生成過程のどれだけ良い説明を与えているか？
ベイズ学習: 真の分布はベイズ予測分布ではないか？と推測すること

ベイズ学習の重要な確率変数（推定精度）
汎化誤差 𝐺 𝑛 と周辺尤度 𝑍 𝑛 = 𝑍 𝑋 𝑛 .
• 𝐺 𝑛 ≔ 𝑞 𝑥 log
𝑞 𝑥
𝑝∗ 𝑥
d𝑥.
‒ 新規データ生成過程の意味で，真の分布と予測分布の非類似度
• 𝑍 𝑛 ≔ 𝑖=1
𝑛
𝑝 𝑋𝑖 𝑤 𝜑 𝑤 d𝑤.
‒ データセット生成過程の意味で，真の分布とモデルの類似度
‒ 非類似度 𝐹𝑛 ≔ − log 𝑍 𝑛を自由エネルギーという
9
真の分布予測分布
モデル
～
データ
自由エネルギー
汎化誤差

ベイズ学習の重要な確率変数（推定精度）
汎化誤差 𝐺 𝑛 と周辺尤度 𝑍 𝑛 = 𝑍 𝑋 𝑛 .
• 𝐺 𝑛 ≔ 𝑞 𝑥 log
𝑞 𝑥
𝑝∗ 𝑥
d𝑥.
‒ 新規データ生成過程の意味で，真の分布と予測分布の非類似度
• 𝑍 𝑛 ≔ 𝑖=1
𝑛
𝑝 𝑋𝑖 𝑤 𝜑 𝑤 d𝑤.
‒ データセット生成過程の意味で，真の分布とモデルの類似度
‒ 非類似度 𝐹𝑛 ≔ − log 𝑍 𝑛を自由エネルギーという
10
真の分布予測分布
モデル
～
データ
自由エネルギー
汎化誤差
とはどのような挙動だろうか？

目次
1. 統計的学習
6. 結び
11

２．特異モデルのベイズ汎化誤差解析
正則学習理論
• 正則: 事後分布が正規分布で近似可能な時, 以下が成立:
‒ 𝔼 𝐺 𝑛 =
𝑑
2𝑛
+ 𝑜
1
𝑛
,
‒ 𝐹𝑛 = 𝑛𝑆 𝑛 +
𝑑
2
log 𝑛 + 𝑂𝑝 1 ,
𝑑 はパラメータ次元，𝑆 𝑛 は経験エントロピー.
• 情報量規準AIC及びBICの基礎
‒ 最尤・MAP法でも同様の汎化誤差
12

正則学習理論
• 正則: 事後分布が正規分布で近似可能な時, 以下が成立:
‒ 𝔼 𝐺 𝑛 =
𝑑
2𝑛
+ 𝑜
1
𝑛
,
‒ 𝐹𝑛 = 𝑛𝑆 𝑛 +
𝑑
2
log 𝑛 + 𝑂𝑝 1 ,
𝑑 はパラメータ次元，𝑆 𝑛 は経験エントロピー.
• 情報量規準AIC及びBICの基礎
‒ 最尤・MAP法でも同様の汎化誤差
13
非正則すなわち特異な場合は？

特異学習理論
• 階層モデルや潜在変数モデルは特異
• どのような正規分布を以ってしても事後分布の妥当な近似が不可能
• 特異モデルの例：
‒ 神経回路網，混合分布，行列分解，LDA，……
14
特異な事後分布のイメージ特異点集合のイメージ

特異学習理論
• 特異学習理論：特異な場合の汎化誤差解析
• 事後分布が正規分布で近似できなくても、汎化誤差の平均値の
挙動が分かる：
𝔼 𝐺 𝑛 =
𝜆
𝑛
−
𝑚 − 1
𝑛 log 𝑛
+ 𝑜
1
𝑛 log 𝑛
.
• 係数𝜆を実対数閾値、 𝑚を多重度という．
‒ KL(q||p)の零点が作る代数多様体から定まる（双有理不変量）．
• 自由エネルギー𝐹𝑛も 𝜆, 𝑚 が主要項となる:
𝐹𝑛 = 𝑛𝑆 𝑛 + 𝜆 log 𝑛 − 𝑚 − 1 log log 𝑛 + 𝑂𝑝 1 .
• 正則学習理論は特別な場合として包含される：
𝜆 = 𝑑/2, 𝑚 = 1.
15
[13] Watanabe. 2001

• Def. 下記の複素函数の最大極の絶対値とその位数をそれぞれ
K(w)（とb(w)）の実対数閾値と多重度という：
𝜁 𝑧 = 𝐾 𝑤 z 𝑏 𝑤 d𝑤 ,
ここで K(w) と b(w) は非負値（区分的）解析函数である.
16
双有理不変量: 実対数閾値

• Def. 下記の複素函数の最大極の絶対値とその位数をそれぞれ
K(w)（とb(w)）の実対数閾値と多重度という：
𝜁 𝑧 = 𝐾 𝑤 z 𝑏 𝑤 d𝑤 ,
ここで K(w) と b(w) は非負値（区分的）解析函数である.
• Thm. 𝐾 𝑤 = KL 真||モデル及び 𝑏 𝑤 = 事前密度とすると，そ
の実対数閾値と多重度は前述の主要項の係数 𝜆 と 𝑚 になる．
17
特異学習理論の主結果：
ベイズ汎化誤差がゼータ函数により特徴づけられる！
[7] Watanabe. 2001

18
パラメータ空間におけるK(w)の零点集合
☆は「最も深い」特異点

19
「最も深い」：
ゼータ函数の最大極
に対応する
𝜁 𝑧 =
𝐶
𝑧 + 𝜆 𝑚
+ ⋯
𝐎𝐗 𝐗 𝐗
𝒛 = −𝝀
ℂ

• 実対数閾値𝜆の直感的意味：体積次元
𝜆 = lim
𝑡→+0
log 𝑉 𝑡
log 𝑡
, 𝑉 𝑡 =
𝐾 𝑤 <𝑡
𝜑 𝑤 d𝑤 .
‒ KL(q||p) = 𝐾 𝑤 の零点近傍の体積次元，常に有理数
20
𝐾 𝑤 < 𝑡の模式図
黒＋：零点集合
赤//： 𝑉 𝑡 の積分領域
𝑡 → +0

𝜆 = lim
𝑡→+0
log 𝑉 𝑡
log 𝑡
, 𝑉 𝑡 =
𝐾 𝑤 <𝑡
𝜑 𝑤 d𝑤 .
• 似た概念：ミンコフスキー次元𝑑∗
𝑑∗ = 𝑑 − lim
𝑡→+0
log 𝒱 𝑡
log 𝑡
, 𝒱 𝑡 =
dist 𝑆,𝑤 <𝑡
d𝑤 .
‒ 部分空間 𝑆 ⊂ ℝ 𝑑 のフラクタル次元，無理数になりうる
21

𝜆 = lim
𝑡→+0
log 𝑉 𝑡
log 𝑡
, 𝑉 𝑡 =
𝐾 𝑤 <𝑡
𝜑 𝑤 d𝑤 .
𝑡→+0
log 𝒱 𝑡
log 𝑡
, 𝒱 𝑡 =
d𝑤 .
22
実対数閾値：一般ケースのベイズ汎化誤差 [13]Watanabe. 2001
ミンコフスキー次元：あるクラスのDNNの近似・汎化誤差 [12]Nakada, et. al. 2020
参考１

𝜆 = lim
𝑡→+0
log 𝑉 𝑡
log 𝑡
, 𝑉 𝑡 =
𝐾 𝑤 <𝑡
𝜑 𝑤 d𝑤 .
𝑡→+0
log 𝒱 𝑡
log 𝑡
, 𝒱 𝑡 =
d𝑤 .
23
“Deep Learning is Singular and That’s Good” https://arxiv.org/abs/2010.11560
DNNの理論解析を特異学習理論で行うアプローチと課題
参考２
実対数閾値：一般ケースのベイズ汎化誤差 [13]Watanabe. 2001
ミンコフスキー次元：あるクラスのDNNの近似・汎化誤差 [12]Nakada, et. al. 2020
参考１

• (𝜆, 𝑚) を求める多くの研究がある：
24
特異モデル文献
混合正規分布 Yamazaki, et. al. in 2003 [15]
縮小ランク回帰＝行列分解 Aoyagi, et. al. in 2005 [1]
マルコフモデル Zwiernik in 2011 [16]
非負値行列分解今日の内容１
潜在ディリクレ配分今日の内容２
…… ……
本研究の位置づけ：
特異モデルの汎化誤差解析の知識体系への貢献

特異学習理論の応用
• 特異学習理論そのもの：
‒ 広く使える情報量規準 WAIC≒ベイズ汎化損失
 （LOOCV並みーー実験的には以上ーーに正確かつ低コスト）
‒ 広く使えるベイズ情報量規準 WBIC≒自由エネルギー
• 実対数閾値の解明：
‒ 特異ベイズ情報量規準 sBIC≒自由エネルギー
 （WBICより正確かつ低ｺｽﾄ）
‒ 交換モンテカルロ法の逆温度（交換確率を一定にする）
‒ MCMCによる事後分布の評価
 実対数閾値の一致推定量
25
“クリア特典”
By 渡辺澄夫先生
Ref. http://watanabe-
www.math.dis.titech.ac.jp/users/
swatanab/chap45_46.pdf
https://publicdomainq.net/treasure-box-0012726/
[8] Watanabe.
[2] Drton & et al.
[11] Nagata & et al.
[8] Imai.

目次
1. 統計的学習
6. 結び
26

３．パラメータ制約
モチベーション
• パラメータ領域に制約を付けてモデリングすることがしばしばある
‒ 解釈性の良い結果を得るために付けられる
1. 非負値制約
2. 単体制約 ……など
27
Coefficients Coefficients
Non-negative
restriction
Legend
・TVCM
・DM
・Rating
・Reviews
E.g. Logistic regression of purchase existence for a product.
[9] Kohjima. 2016

data{
int<lower=1> n; //number of sample
int<lower=1> M; //row dimension of input
int<lower=1> H; //hidden dimension
int<lower=1> N; //column dimension of input
int x[M,N,n]; //matrix to be decomposed by A and B
real<lower=0> alpha; //hyperparameter for gamma dist
real<lower=0> beta; //hyperparameter for gamma dist
}
parameters{
matrix<lower=0>[M, H] A; //non-neg constraint
matrix<lower=0>[H, N] B; //non-neg constraint
simplex[M] sA[H]; //simplex constraint
simplex[H] sB[N]; //simplex constraint
}
//modelは略
28
確率的プログラミング言語Stanを用いたパラメータ
制約の記述例:
型としてやが表現できるため，
柔軟なモデリングが可能

data{
int<lower=1> n; //number of sample
int<lower=1> M; //row dimension of input
int<lower=1> H; //hidden dimension
int<lower=1> N; //column dimension of input
int x[M,N,n]; //matrix to be decomposed by A and B
real<lower=0> alpha; //hyperparameter for gamma dist
real<lower=0> beta; //hyperparameter for gamma dist
}
parameters{
matrix<lower=0>[M, H] A; //non-neg constraint
matrix<lower=0>[H, N] B; //non-neg constraint
simplex[M] sA[H]; //simplex constraint
simplex[H] sB[N]; //simplex constraint
}
//modelは略
29
確率的プログラミング言語Stanを用いたパラメータ
制約の記述例:
型としてやが表現できるため，
柔軟なモデリングが可能
制約を付けてモデリングすると推定
精度はどうなるのだろうか？

30
代数多様体の再考
「最も深い」：
ゼータ函数の最大極
に対応する
𝜁 𝑧 =
𝐶
𝑧 + 𝜆 𝑚
+ ⋯

31
パラメータ領域に制約を設けると,

32
「最も深い」特異点が変わる！

33
「最も深い」特異点が変わる！
実対数閾値と多重度が変わり，
推定精度も変化する

パラメータ制約付きモデルの汎化誤差解析
• パラメータ制約付き学習モデルは広く使われている
‒ 非負値行列分解（NMF）, 潜在ディリクレ配分（LDA）, ……
• パラメータ制約により汎化誤差の挙動がどう変わるかは非自明
‒ 一般論: 制約なし以上の値になる
 次元が落ちる場合も大きくなるのか？
 どの程度大きくなるのか？どんなときは等しいか？
‒ 特に制約を入れる前から特異なモデルについてはわかっていない
34

パラメータ制約付きモデルの汎化誤差解析
パラメータ制約付きモデルの代表例として行列分解型の次を解析：
• Non-negative matrix factorization (NMF)
‒ Based on our previous works:
https://doi.org/10.1016/j.neucom.2017.04.068 [3]
https://doi.org/10.1109/ssci.2017.8280811 [4]
https://doi.org/10.1016/j.neunet.2020.03.009 [6]
• Latent Dirichlet allocation (LDA)
‒ Based on our previous/going work:
https://doi.org/10.1007/s42979-020-0071-3 [5]
https://arxiv.org/abs/2008.01304 [7]
35

目次
1. 統計的学習
6. 結び
36

４．非負値行列分解
NMFは広く使われている
• NMFは，複合データを解析するために様々な分野で使われ
ている機械学習手法である
• 応用例
‒ 購買バスケットデータ → 購買解析
‒ 画像，音声，…… → 信号処理
‒ テキストデータ → テキストマイニング
‒ マイクロアレイデータ → バイオインフォマティクス
↑ 知識・構造の発見
NMF: data → knowledge
38

• NMF は階層構造を持つ統計モデル
• 尤度・事後分布は正規分布で
近似することができない
• 従来の正則学習理論は成立しない
39
AIC BIC
伝統的な統計学：
「正規分布でいつでも近似できる」
NMFは特異モデル

階層構造によるパラメータの識別不能性 :
𝑿𝒀 = 𝑿𝑷𝑷−𝟏
𝒀; 𝐟𝐨𝐫 ∃𝑷 ≠ 𝑰; 𝑿, 𝒀, 𝑿𝑷, 𝑷−𝟏
𝒀 ≥ 𝟎
𝟏 𝟑
𝟏 𝟑
𝟏 𝟒
𝟏 𝟏 𝟒
𝟓 𝟏 𝟒
=
1 3
1 3
1 4
2 −3
1 2
𝟐 −𝟑
𝟏 𝟐
−𝟏
𝟏 𝟏 𝟒
𝟓 𝟏 𝟒
=
𝟏
𝟕
5 3
5 3
6 5
𝟏𝟕 𝟓 𝟐𝟎
𝟗 𝟏 𝟒
=
𝟏𝟔 𝟒 𝟏𝟔
𝟏𝟔 𝟒 𝟏𝟔
𝟐𝟏 𝟓 𝟐𝟎
40
AIC BIC

階層構造によるパラメータの識別不能性 :
𝑿𝒀 = 𝑿𝑷𝑷−𝟏
𝒀; 𝐟𝐨𝐫 ∃𝑷 ≠ 𝑰; 𝑿, 𝒀, 𝑿𝑷, 𝑷−𝟏
𝒀 ≥ 𝟎
𝟏 𝟑
𝟏 𝟑
𝟏 𝟒
𝟏 𝟏 𝟒
𝟓 𝟏 𝟒
=
1 3
1 3
1 4
2 −3
1 2
𝟐 −𝟑
𝟏 𝟐
−𝟏
𝟏 𝟏 𝟒
𝟓 𝟏 𝟒
=
𝟏
𝟕
5 3
5 3
6 5
𝟏𝟕 𝟓 𝟐𝟎
𝟗 𝟏 𝟒
=
𝟏𝟔 𝟒 𝟏𝟔
𝟏𝟔 𝟒 𝟏𝟔
𝟐𝟏 𝟓 𝟐𝟎
41
AIC BIC
１つの非負値行列に
対して２つ以上の
分解が存在する

問題設定
• 統計モデルとしてのNMF: 複数の行列の分解を扱う
‒ データ: 𝑋 𝑛 = 𝑋 1 , … , 𝑋 𝑛 ; 𝑀 × 𝑁 × 𝑛
 各データ行列の(i,j)要素の真の分布 𝑞 𝑋𝑖𝑗 = Poi 𝑋𝑖𝑗| 𝑈0 𝑉0 𝑖𝑗 .
 𝑈0; 𝑀 × 𝐻0, 𝑉0; 𝐻0 × 𝑁
‒ モデルを 𝑝 𝑋𝑖𝑗|𝑈, 𝑉 = Poi 𝑋𝑖𝑗| 𝑈𝑉 𝑖𝑗 とし，
事前分布を 𝜑 𝑈, 𝑉 = Gam 𝑈𝑖𝑘|𝜙 𝑈, 𝜃 𝑈 Gam 𝑉𝑘𝑗|𝜙 𝑉, 𝜃 𝑉 とする．
 𝑈; 𝑀 × 𝐻, 𝑉; 𝐻 × 𝑁
42
n
X
U
V
𝑃 𝑋, 𝑈, 𝑉 = 𝑃 𝑋 𝑈, 𝑉 𝑃 𝑈 𝑃 𝑉
Poi 𝑥|𝑐 =
𝑐 𝑥
𝑒−𝑐
𝑥!
Gam 𝑎|𝜙, 𝜃 =
𝜃 𝜙
Γ 𝜃
𝑎 𝜙
𝑒−𝜃𝑎
[10] Kohjima. 2017.

問題設定
• 統計モデルとしてのNMF: 複数の行列の分解を扱う
‒ データ: 𝑋 𝑛 = 𝑋 1 , … , 𝑋 𝑛 ; 𝑀 × 𝑁 × 𝑛
 各データ行列の(i,j)要素の真の分布 𝑞 𝑋𝑖𝑗 = Poi 𝑋𝑖𝑗| 𝑈0 𝑉0 𝑖𝑗 .
 𝑈0; 𝑀 × 𝐻0, 𝑉0; 𝐻0 × 𝑁
‒ モデルを 𝑝 𝑋𝑖𝑗|𝑈, 𝑉 = Poi 𝑋𝑖𝑗| 𝑈𝑉 𝑖𝑗 とし，
事前分布を 𝜑 𝑈, 𝑉 = Gam 𝑈𝑖𝑘|𝜙 𝑈, 𝜃 𝑈 Gam 𝑉𝑘𝑗|𝜙 𝑉, 𝜃 𝑉 とする．
 𝑈; 𝑀 × 𝐻, 𝑉; 𝐻 × 𝑁
43
n
X
U
V
𝑃 𝑋, 𝑈, 𝑉 = 𝑃 𝑋 𝑈, 𝑉 𝑃 𝑈 𝑃 𝑉
Poi 𝑥|𝑐 =
𝑐 𝑥
𝑒−𝑐
𝑥!
Gam 𝑎|𝜙, 𝜃 =
𝜃 𝜙
Γ 𝜃
𝑎 𝜙
𝑒−𝜃𝑎
n
X
A
B
n
X
A
B
行列 X を積UV に分解する通常の
NMFを確率モデル化.
𝑿
𝑵 𝑯 𝑵
𝑴
𝑼 𝑽𝑯
[14] Kohjima. 2016
複数の行列の分解が必要な例：
・購買解析
・交通流解析
[10] Kohjima. 2017.

ＮＭＦの実対数閾値
• NMFの実対数閾値 𝝀 は以下の不等式を満たす:
𝝀 ≤
𝟏
𝟐
𝑯 − 𝑯 𝟎 𝐦𝐢𝐧 𝑴𝝓 𝑼, 𝑵𝝓 𝑽 + 𝑯 𝟎 𝑴 + 𝑵 − 𝟏 .
等号は 𝑯 = 𝑯 𝟎 = 𝟏 or 𝑯 𝟎 = 𝟎 のとき成立する．
‒ 𝐻0 = 0のときは制約なし行列分解より大きなλとなる．
• 𝝓 𝑼 = 𝝓 𝑽 = 𝟏のとき更にタイトなバウンドが
成立する．
44
[4] H. and Watanabe. 2017.
[6] H. 2020.

ＮＭＦの実対数閾値
• NMFの実対数閾値 𝝀 は以下の不等式を満たす:
𝝀 ≤
𝟏
𝟐
𝑯 − 𝑯 𝟎 𝐦𝐢𝐧 𝑴𝝓 𝑼, 𝑵𝝓 𝑽 + 𝑯 𝟎 𝑴 + 𝑵 − 𝟏 .
等号は 𝑯 = 𝑯 𝟎 = 𝟏 or 𝑯 𝟎 = 𝟎 のとき成立する．
‒ 𝐻0 = 0のときは制約なし行列分解より大きなλとなる．
• 𝝓 𝑼 = 𝝓 𝑽 = 𝟏のとき更にタイトなバウンドが
成立する．
• 主結果と先行研究を合わせるとNMFの
変分近似誤差の下界も得られ，相転移の
違いも確認できる（右図）.
45
[6] H. 2020.
[6] H. 2020.
https://arxiv.org/abs/1809.02963
[10] Kohjima. 2017.

目次
1. 統計的学習
6. 結び
46

５．潜在ディリクレ配分
LDAとは
• LDAの典型例: テキストマイニング
‒ LDAの対象: bag of words
‒ トピック: 各文書が持つ潜在的な単語「生成源」
47
MATH
NAME
…
Riemann,
Lebesgue,
Atiyah,
Hironaka,
… integral,
measure,
distribution,
singularity,
…
document
topic
word
word

LDAとは
• 文書 𝑧 𝑛 と単語 𝑥 𝑛 : 観測変数
• トピック 𝑦 𝑛 : 潜在変数
• 文書→単語の出現確率を推定するモデル
48
n
xyz
𝑥 𝑛
∼ 𝑞 𝑥 𝑧
𝑝 𝑥, 𝑦 𝑧, 𝑤
estimate
MATH
NAME
…
Riemann,
Lebesgue,
Atiyah,
Hironaka,
… integral,
measure,
distribution,
singularity,
…
document
topic
word
word

LDAとは
49
FOOD
Alice
sushi
NAME
MATH
Riemann
integral
NAME
・
・
・
・
・
・
FOOD pudding
・
・
・
NAME Lebesgue
LDAによるデータ（単語）の生成過程モデリング
Document 1
Document N

LDAとは
50
FOOD
Alice
sushi
NAME
MATH
Riemann
integral
NAME
・
・
・
・
・
・
FOOD pudding
・
・
・
NAME Lebesgue
LDAによるデータ（単語）の生成過程モデリング
Document 1
Document N
文書jのトピック比率 𝑏𝑗 = 𝑏1𝑗, … , 𝑏 𝐻𝑗
トピックkの単語比率 𝑎 𝑘 = 𝑎1𝑘, … , 𝑎 𝑀𝑘

LDAとは
• LDAの学習モデル：
𝑝 𝑥|𝑧, 𝑦, 𝐴, 𝐵 ≔
𝑗
𝑁
𝑘
𝐻
𝑏 𝑘𝑗Cat 𝑥 𝑎 𝑘
𝑦 𝑘
𝑧 𝑗
‒ 文書 𝑧, トピック 𝑦, 単語 𝑥,：それぞれ N,H,M 次元の onehot ベクトル.
‒ パラメータ 𝐴; 𝑀 × 𝐻, 𝐵; 𝐻 × 𝑁：確率行列
𝑘 𝑎𝑖𝑘 = 1, 𝑗 𝑏 𝑘𝑗 = 1.
‒ 事前分布: 𝜑 𝐴, 𝐵 = 𝑘 Dir 𝑎 𝑘|𝜙 𝐴 𝑗 Dir 𝑏 𝑘|𝜙 𝐵 .
‒ トピックを周辺化すると, 𝑝 𝑥 𝑧, 𝐴, 𝐵 = 𝑘 𝑗
𝑁
𝑧 𝑗
.
51
0.3 0.1 0.5
0.3 0.1 0.1
0.4 0.8 0.4
確率行列の例
𝑃 𝑋, 𝑌, 𝐴, 𝐵|𝑍 = 𝑃 𝑋, 𝑌 𝑍, 𝐴, 𝐵 𝑃 𝐴 𝑃 𝐵 ; Dir 𝑐|𝜙 =
Γ 𝑘
𝐻
𝜙 𝑘
𝑘
𝐻
𝜙 𝑘
𝑘
𝐻
𝑐 𝑘
𝜙 𝑘−1
, 𝑘 𝑐 𝑘 = 1.

LDAも広く使われており，特異モデル
• LDAはテキストマイニング以外にも様々な領域で役に立つ
• 応用例：
‒ 画像データ→画像解析
‒ 市場データ→マーケットリサーチ
‒ 地層データ→地球科学
• NMF同様に特異モデル
‒ ある種の行列分解とみなせる（後述）
52

問題設定
• LDAの学習モデル：
𝑝 𝑥|𝑧, 𝑦, 𝐴, 𝐵 ≔ 𝑗
𝑁
𝑘
𝐻
𝑦 𝑘 𝑧 𝑗
.
• 真の分布:
𝑞 𝑥 𝑧 ≔ 𝑝 𝑥|𝑧, 𝐴0, 𝐵0 , トピック数はH0 (≦H).
• 事前分布:
𝐾 𝐴, 𝐵 ≔ KL 𝑞‖𝑝 の零点上で正かつ有界な分布．
53

確率行列分解（SMF）
• NMFにおいて非負値行列を確率行列に置き換えてみる.
‒ 各列が単体上にあるという制約→非負値制約より強い
• 置き換えた場合のモデルを確率行列分解（SMF）という．
54

• LDAとSMFは同じ実対数閾値を持つことが証明できる．
‒ LDAのKL情報量: 𝐾 𝑤 = 𝑧 𝑥 𝑞 𝑥 𝑧 𝑞 𝑧 log
𝑞 𝑥 𝑧
𝑝 𝑥 𝑧, 𝐴, 𝐵
‒ SMFの二乗誤差: 𝐻 𝑤 = 𝐴𝐵 − 𝐴 𝑜 𝐵𝑜
2
‒ ある定数𝑐1, 𝑐2に対して 𝑐1 𝐻 𝑤 ≤ 𝐾 𝑤 ≤ 𝑐2 𝐻 𝑤 の成立を証明できる．
55

• LDAとSMFは同じ実対数閾値を持つことが証明できる．
‒ LDAのKL情報量: 𝐾 𝑤 = 𝑧 𝑥 𝑞 𝑥 𝑧 𝑞 𝑧 log
𝑞 𝑥 𝑧
𝑝 𝑥 𝑧, 𝐴, 𝐵
‒ SMFの二乗誤差: 𝐻 𝑤 = 𝐴𝐵 − 𝐴 𝑜 𝐵𝑜
2
‒ ある定数𝑐1, 𝑐2に対して 𝑐1 𝐻 𝑤 ≤ 𝐾 𝑤 ≤ 𝑐2 𝐻 𝑤 の成立を証明できる．
56
SMFの実対数閾値を求めればよい！

LDA～SMFの実対数閾値
【本研究の主結果】
LDAの実対数閾値𝜆を明らかにした：
(1) ①N+H0≦M+H & ②M+H0≦N+H & ③H+H0≦M+Nのとき，
57
𝜆 =
1
8
2 𝐻 + 𝐻0 𝑀 + 𝑁 − 𝑀 − 𝑁 2
− 𝐻 + 𝐻0
2
− 𝛿,
𝛿 =
𝑁
2
, 𝑀 + 𝑁 + 𝐻 + 𝐻0: 偶数.
𝑁
2
−
1
8
, 𝑀 + 𝑁 + 𝐻 + 𝐻0: 奇数.
Thm. 3.1. in https://arxiv.org/abs/2008.01304
[7] H. 2020.

(2) not ①, i.e. M+H<N+H0のとき，
58
𝜆 =
1
2
𝑀𝐻 + 𝑁𝐻0 − 𝐻𝐻0 − 𝑁 .
[7] H. 2020.

(3) not ②, i.e. N+H<M+H0のとき，
59
𝜆 =
1
2
𝑁𝐻 + 𝑀𝐻0 − 𝐻𝐻0 − 𝑁 .
[7] H. 2020.

(4) not ③, i.e. M+N<H+H0のとき，
多重度は(1)の奇数ケースで 𝑚 = 2，それ以外で 𝑚 = 1．
60
𝜆 =
1
2
𝑀𝑁 − 𝑁 .
[7] H. 2020.

• 真を固定してトピック数を増やすとどうなるか？
61
実対数閾値lim
𝑛→∞
𝑛𝔼𝐺𝑛
正則モデルと大きく異なる挙動
• パラメータ次元/2（黄◆）：
線型に増加して非有界
• LDAの実対数閾値（青●）：
非線形かつ上に有界
𝑑
2
=
𝑀 − 1 𝐻 + 𝐻 − 1 𝑁
2
.
𝑑
2
𝜆
[7] H. 2020.

• LDAの実対数閾値＝SMFの実対数閾値
• 行列分解との関係
‒ LDAと行列分解の実対数閾値を𝜆 𝐿𝐷𝐴, 𝜆 𝑀𝐹とすると，
𝜆 𝐿𝐷𝐴 𝑀, 𝑁, 𝐻, 𝐻0
= 𝜆 𝑀𝐹 𝑀 − 1, 𝑁 − 1, 𝐻 − 1, 𝐻0 − 1 +
𝑀 − 1
2
… (1)
= 𝜆 𝑀𝐹 𝑀, 𝑁, 𝐻, 𝐻0 −
𝑁
2
… (2)
‒ (1): 主定理の証明は(1)の証明を介する．
‒ (2): (1)と𝜆 𝑀𝐹[1]から計算して導出する．
• LDAの自由度から自明に得られる式ではない
→単体制約がパラメータ空間を変え汎化誤差に影響
62

目次
1. 統計的学習
6. 結び
63

６．結び
• 特異学習理論:
‒ 事後分布が正規分布で近似できなくても汎化誤差を明らかにできる
‒ 学習モデルの固有次元＝代数多様体の体積次元
• パラメータ制約:
‒ モデルのパラメータに制約を加えてモデリング
‒ 推定制度への制約による影響は非自明
• パラメータ制約下の特異学習理論
‒ 非負値行列分解: 境界上で非負値制約の影響大，相転移，変分近似誤差
‒ 潜在ディリクレ配分=単体制約付き行列分解: 実対数閾値の厳密値
64

References
[1] Aoyagi, M & Watanabe, S. Stochastic complexities of reduced rank regression in Bayesian estimation. Neural Netw.
2005;18(7):924–33.
[2] Drton, M & Plummer, M. A Bayesian information criterion for singular models. J R Stat Soc B. 2017;79:323–80 with discussion.
[3] H, N & Watanabe, S. Upper bound of Bayesian generalization error in non-negative matrix factorization. Neurocomputing.
2017;266C(29 November):21–8.
[4] H, N & Watanabe, S. Tighter upper bound of real log canonical threshold of non-negative matrix factorization and its application to
Bayesian inference. In IEEE symposium series on computational intelligence (IEEE SSCI). (2017). (pp. 718–725).
[5] H, N & Watanabe, S. Asymptotic Bayesian generalization error in latent Dirichlet allocation. SN Computer Science. 2020;1(69):1-22.
[6] H, N. Variational approximation error in non-negative matrix factorization. Neural Netw. 2020;126(June):65-75.
[7] H, N. The exact asymptotic form of Bayesian generalization error in latent Dirichlet allocation. https://arxiv.org/abs/2008.01304
[8] Imai, T. Estimating real log canonical threshold. https://arxiv.org/abs/1906.01341
[9] Kohjima M, Matsubayashi T, Sawada H. Multiple data analysis and non-negative matrix/tensor factorization [I]: multiple data
analysis and its advances. IEICE Transaction. 2016:99(6);543-550. In Japanese.
[10] Kohjima M., & Watanabe S. (2017). Phase transition structure of variational bayesian nonnegative matrix factorization. In
International conference on artificial neural networks (ICANN) (2017). (pp. 146–154).
[11] Nagata K, Watanabe S. Asymptotic behavior of exchange ratio in exchange monte carlo method. Neural Netw. 2008;21(7):980–8.
[12] Nakada, R & Imaizumi, M. Adaptive approximation and generalization of deep neural network with Intrinsic dimensionality. JMLR.
2020;21(174):1-38.
[13] Watanabe, S. Algebraic geometrical methods for hierarchical learning machines. Neural Netw. 2001;13(4):1049–60.
[14] Watanabe, S. Mathematical theory of Bayesian statistics. Florida: CR Press. 2018.
[15] Yamazaki, K & Watanabe, S. Singularities in mixture models and upper bounds of stochastic complexity. Neural Netw.
2003;16(7):1029–38.
[16] Zwiernik P. An asymptotic behaviour of the marginal likelihood for general Markov models. J Mach Learn Res.
2011;12(Nov):3283–310.
65

音声ソフトと利益相反（CoI）
【音声ソフト】
• 『VOICEROID2 琴葉茜・葵』（株式会社ＡＨＳ）
【CoI】
• 本発表は著者個人の研究活動に依る．
• 所属組織における業務は一切関係ない．
66

【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】

More Related Content

What's hot

Similar to 【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】

More from Naoki Hayashi

【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】

Editor's Notes