記号の使い方に関して1 
議論展開に用いる記号 
記号仮名称詳細 
⇐,⇔,⇒ 論理記号純粋に論理的関係/論理的帰結を表す。(従来の数学的用法を踏襲。) 
⇒! 不可逆帰結⇒であるが、⇔ではないことを示す。 
·⇒ 通常帰結例外除去的な条件を課すと⇒と置換できるニュアンスを示す。 
⇒: 前提付加左側のような前提条件を取り決めた上で、右側の命題を主張する。● 
:⇐ 条件付加右側のような条件を追加的に取り決めた上で、左側の命題を主張する。● 
:⇔: 等価定義等価な条件式を並べて、どれかの条件式で取り決めをすることを示す。 
未定義 代入可能時主張右辺の代入可能な全ての値について、左辺の条件が成り立つことを表す。 
「· · ·」カギ括弧真偽の不明な命題、もしくは文字通りに解釈できない便宜上の数式を表す。 
イコールに似た操作記号 
記号仮名称詳細 
= 通常等号少なくとも、純粋に論理的に両辺が等しい値を持つことを示す。 
ニュアンス明確化の必要がある場合には、出来るだけこの他の記号に置換。 
:=: 等式展開計算すれば等式関係が判明可能であることを表す。● 
:= (遅延) 代入左辺の未定義の変数について、右辺の内容で定義する。(ただし遅延評価。) 
左辺が単純な1 つの変数で無い場合には、未定義なのはどれであるか要注意。● 
← 即時代入左辺に右辺を即時に代入する。:= よりも意味が明確化する。○ 
(数式群からのアルゴリズムの構成に有用な場合がある。) 
== 等式制約等しいという条件を新たに加える操作を表す。● 
:== 定義確認既に定義したことを確認する意図で使う記号。○ 
未定義 定義可能主張定義可能であることを主張し、かつ、それを定義として用いる。 
未定義 定義可能時定義定義可能な場合に限定して、それを定義として用いる。 
+ 近似記号近似関係 
:+ 近似意図右辺を近似する意図で、左辺に何かの定義操作を加える。 
データを扱うための記号(大体において数学の教科書に使われているような方法を踏襲する) 
記号参照名詳細 
R 実数全体 
RD 直積D 次元のベクトル全体 
↔ 縦/横ベクトルそれぞれN 次元縦ベクトルとM 次元横ベクトル 
RN 
l / RM 
N ×M 行列行列の次元の順序縦N 次元で横M 次元の行列であること 
RN 
l 
↔ N ×M 行列全体 
M 
IM 単位行列対角要素は1、非対角要素は0 の縦横M 次元の正方行列 
 : RD → RM 定義域と値域写像 の定義域と値域を→で結んで表示している。 
u · v 内積同じ長さのベクトル2 個の内積を意味している。 
(xi)N 
i=1 数列数列を表す。 
1前回のゼミとも異なるので注意。 
1
変数、特に確率変数に関する記号 
X 
確率変数 
[x] 
既知化(観測) 
⇋ 
未知化(由来参照) 
X⋆ 
値 
x 
P[x] 
確率分布 
P(x) 
確率参照 
表記仮名称詳細 
X 大文字化変数x の「未知化」。分布を考慮することができるようになる。● 
x⋆ 意図達成数式/変数の意図(最適化/新たなデータの代入など) 達成を⋆ で示す。 
x∀ 任意化変数の由来を残したまま、値を一般的に考慮する任意化の操作を表す。 
[x] 一般化括弧変数x の「由来参照」/「未知化」/「任意化」のいずれかを示す。● 
X⋆ 観測未知変数に⋆ がついた場合は、特に「観測」を表すこととする。○ 
引数x の値だけでなく引数がどの確率変数に由来するか関知して 
P(x) 確率参照確率参照記号P は異なる働きをするものとする。● 
(従来の統計学の用法を踏襲。) 補助的に、Q, p, q も用いる。 
P[x] 分布参照未知化変数を引数に持つ確率参照は、分布を表す。P([x]) の略記。● 
• 無名変数数式表記簡潔化/変数(の由来と意図) の考慮阻止の目的で用いる。 
∝ 比例記号未知化変数/無名変数のみを動かしたときの比例、と意味を限定する。 
const. 定数記号未知化変数/無名変数のみに対して定数関数、と意味を限定する。 
P′ 普遍的総和不都合の無い限り、総和及び積分をこの記号で表示する。 
E[確率変数| 条件k 分布の指定] またはE分布[確率変数| 条件] 相加平均を表す。 
G[確率変数| 条件k 分布の指定] またはG分布[確率変数| 条件] 相乗平均を表す。● 
上記の記号体系の作成意図に関して 
- 概念の本質の理解にかかわる冗漫さを最小化するため。 
- 後日の参照の際に、作成した数式を含むノートを容易に理解できるようにするため。 
- 誤読の回避/入力と推敲の容易性/読解の手間の低減により、上記の目的の達成を目指している。 
- おそらく上記は、コルモゴロフによる確率論の公理論的展開で問題無く正当化が可能と考えられる。 
2
■ 用語集(索引に未記載のものなど) 
変分ベイズ法「変分推論法」と同じ。 
モデルエビデンスパラメータを周辺化した尤度 
モデルエビデンス最大化パラメータを周辺化した尤度関数を最大にするパラメータを決定すること 
非特異連続な分布を持つ確率変数が、丁度ある値を持つ確率が0 で無いこと(ポイントマスを持つ 
こと)。 
積分消去観測対象となりうる値の予測分布を求めるために、パラメータの変数に対して積分をする 
ことで、そのパラメータを消去する操作。 
解析的に加減乗除およびべき乗の操作で式が表示できることを表す。 
閉形式積分の操作をした後の結果が「解析的」になった時g の結果について表す。 
モデル平均p187 複数のモデルをパラメータで指定するようにして、そのパラメータ上の分布が求まっ 
たときに、それを使った平均値を使うことと考えられる。(?) 
■ 参考になりそうな他の文献: 
1. 情報幾何学の新展開甘利俊一サイエンス社(SGC-110) 
ごく最近(2014 年8 月25 日) に出版された本で、EM alg. 等の理論的な話、最良検定など(私 
が個人的に気になる話)、産業連関表への言及などあまり見たことの無い話、甘利氏のさまざ 
まな個人的な研究にまつわる話が記載されており、興味深い。 
2. 持橋さんのホームページ(所在未参照) 
この章は長くて複雑なので、この章を補完する重要情報がインターネット上のどこかにあると聞 
いた。http://ibisforest.org/index.php?PRML によると、10 章を担当したのは持橋氏である。 
■ 理解が難しいところなど 
• § 10.1(p177) 「十分に柔軟な分布を使っても、過学習の問題は起きない」 
→ 理論的根拠はあるのか/経験則なのか? 
• § 10.1.2(p183) 図10.3「最もよく近似する一変数ガウス」→ 2 変数ガウスではないか? 
• § 10.1.4(p187) 隠れ変数Z がモデルm により「構造」が異なるということを反映した数学的 
に自然な表記は何だろうか? 
1
1 
第10 章の全般的な内容と構成に関して 
上下巻全般からの10 章についての言及のされかた 
場所(ページ) 言及のされ方言及対象/解釈 
1.2.3ベイズ確率(23) 最近1999 年以降? の非常に能率的な決定論的近似法変分ベイズ法/EP 法 
1.2.4ガウス分布(28) 分散パラメータがベイズアプローチでも得られる§ 10.1.3 (§ 10.3.1?) 
4.4ラプラス近似 
(213)(215) 解析的な近似/局所的でない全体的アプローチ分解と変分近似 
6.4.5ガウス過程 
からの分類3 個考えられるガウス分布近似(1 個は§ 6.4.6) 変分推論法/EP 法 
9混合モデル 
とEM (139) エレガントなベイズ的扱いKL 距離を使ったこと? 
余分な計算がほとんど不要? 
データから自動的に要素数を決定§ 10.2 
9.2.1混合ガウス 
最尤推定(150) 特異性による最尤推定の深刻な過学習を回避EM alg. では未解決 
EMアルゴリズムの一般化が変分推論法の枠組みlog px = Lpq 
+ KLp(z|x) 
q 
10.2変分線形回帰 
(188) →「長く複雑なので· · · 後回しにして良い」§ 10.2 全体について 
手法紹介の年代に関して(教科書に記載されたもの全部とは限らない) 
変分推論(18 世紀、オイラーとラグランジュ)/汎関数微分(Feynmann et.al, 1964) 
有限要素法(Kapur,1989)/最大エントロピー法(Schwarz,1988) 
分布の分解の仮定(Jordan et al.,1999; Jaakkola, 2001)/平均場近似(Parisi, 1988) 
条件q⋆( (zj) ) = G[ P(x,Z) ||Zj = zj ] による反復解の収束の保証(Boyd and Vandenberghe, 2004) 
 ダイバージェンス(Ali and Silvey, 1966; Amari, 1985; Minka, 2005) 
一変数ガウス分布を平均と分散で分解した近似の例(MacKay, 2003) 
ガウス分布のベイズ推論の完全な取り扱い(Minka 1998) 
「変分混合ガウス分布」(ベイズ的でエレガント) (Attias, 1999b) 
更新が最適化になっているのか徹底的なテスト(195)(Svens´en and Bishop, 2004) 
 をパラメータと見なしてL を最大化し、点推定する(Corduneanu and Bishop, 2001) 
変分ベイズ法の推論を行う汎用ソフトウェアの構成(207)(Bishop et al., 2003) 
更新式は局所的なメッセージパッシングアルゴリズム(Winn and Bishop, 2005) 
凸双対性の枠組み(Rockafellar, 1972; Jordan et al., 1999) 
ガウス分布の関数形式でシグモイド関数の下限を作る(Jaakkola and Jordan, 2000) 
EP 法(期待値伝搬法) (Minka, 2001a, Minka, 2001b) /雑音データ問題(Minka, 2001b) 
仮定密度フィルタリング(ADF)/モーメント一致法 
(Maybeck, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and Winther,1999) 
ロジスティックの形のモデルの場合は、EP 法が局所的変分法/ラプラス近似より勝ることが多い 
(Kuss and Rasmussen, 2006) 
再重み付け木メッセージパッシング(Wainwright et al., 2005) 
部分的確率伝搬(Wiegerinck and Heskes, 2003) 
Power EP 法(Minka, 2004)
2 
10 章の節の内容 
節のタイトル節の内容 
10.1 変分推論分布を積に分ける/一般解を求める/ごく簡単な例 
10.2 例:変分混合ガウス分布(例) 混合ガウス分布 
10.3 変分線形回帰(例) 線形基底関数モデル 
10.4 指数型分布族指数型分布族に関係することと/メッセージパッシング 
10.5 局所的変分推定法局所的な下限? 
10.6 変分ロジスティック回帰(例) ロジスティック回帰 
10.7EP 法逆KL 距離で考えた/(例) 雑音とグラフィカルモデル 
10 章の節の構成 
節小節の数(頁数) 依存先/言及先計算例 
10.14(11) 2.3 ガウス分布e−z2/2 
1+e−20z−4 ; 細長い分布,2 峰の分布;1 変数ガウス分布 
10.25(13) 2.3.6, 10.4.1, 3.4, 間欠泉のデータに混合ガウスを適用- 
10.33(4) 3.3 , 3.5 3 次式にガウスノイズを入れた10 点 
10.41(3) 2.4, 4.2.4, 10.2.5 メッセージパッシング 
10.50(5) 1.6.1, 4.5 
10.63(7) 4.5, 4.3 ロジスティック回帰 
10.72(2) 8.4 グラフ推論混合ガウスモデル、雑音データ 
10 章の小節のタイトル 
節のタイトル小節のタイトル 
10.1 変分推論分布の分解/分解の近似の持つ性質/一変数ガウス分布/モデル比較 
10.2 例:変分混合ガウス分布変分事後分布/変分下限/予測分布/要素数決定/導出された分解 
10.3 変分線形回帰変分分布/予測分布/変分下限 
10.4 指数型分布族メッセージパッシング 
10.5 局所的変分推定法 
10.6 変分ロジスティック回帰変分事後分布/変分パラメータの最適化/超パラメータの推論 
10.7EP 法雑音データ問題/グラフィカルモデルとEP 法 
似た様な章との比較 
手法利点欠点 
9 章混合モデルとEM (32 頁) 離散潜在変数を扱う(例: どのクラスタに属するか) 
K-means alg. 必ず極大値に収束するE-step が無理なことがある()10 章,11 章) 
EM alg. (dim Z が高い/積分が閉形式でない場合) 
10 章近似推論法(62 頁) 近似が決定的 
変分法or 変分ベイズ事後分布の解析的近似決して厳密解は求まらない 
(分解/ガウス分布を使う) 
11 章サンプリング法(37 頁) 近似が確率的 
MCMC 厳密な漸近的な一致性計算量が多く解ける問題は意外と小さい。 
サンプルが互いに独立か検証困難。 
12 章連続潜在変数(48 頁) 連続潜在変数を扱う(例: 文字画像のズレの分布を扱う) 
線形ガウスモデル? ?
第10.1.2 節分解による近似のもつ性質下巻180 頁 
この小節では3 例に、直前の小節で示した方法の“分解” を適用し、その結果を観察する。 
1. 2 次元ガウス分布をq( (z1, z2) ) := q1(z1) q2(z2) (z1, z2 2 R) で“変分近似” する。 
2. 比較のため、別の方法を適用する。KL 距離KL( q || P ) の極小化をする代わりに、引数を逆転 
させたKL( P || q ) を極小化する。 
3. 2 峰性の分布に対して適用し、局所解が複数存在することを調べる。 
また、 ダイバージェンスを紹介する。(KL 距離、Hellinger 距離の一般化になっている。) 
P の分布(↓) KL(q||P) を極小化した場合KL(P||q) を極小化した場合 
斜めに細長い分布 
分布を小さく 
近似する傾向がある 
周辺分布が一致する 
(少なくとも1 or 2 次元ガウスの場合) 
2 峰性の分布 
局所解が複数存在する「予測性能の悪化をもたらす」 
P(z) がきわめて0 に近い場所でq(z) 
の値が大きいと” 損失” が大きいので 
q の“分布域” は小さくまとまる。 
q(z) がきわめて0 に近い場所でP(z) 
の値が大きいと” 損失” が大きいので 
q はP の“分布域” を覆うように広がる。 
• 考えると面白そうなこと: 
– 分布のP とq が上記のようなケースだけではなくて、fat-tail な場合や特異の場合も考察して、何が起こるか 
考える。 
1
第10.1.3 節例: 一変数ガウス分布下巻184 頁 
ガウス分布からN 個の点を観測した状況を考えている。 
尤度関数P(D = x|μ, ) = 
 τ 
2π 
N/2 
exp 
n 
−τ 
2 
PN 
n=1(xn − μ)2 
o 
(10.21) 
事前分布: p[μ|]   N(μ|μ0, (0)−1), p[]   Gam(|a0, b0) を採用すると共役分布になる§ 2.3.6 ガウス-ガンマ分布 
演習2.44 。 
“分解” としてはq[μ, ] = q[μ] × q[] (10.24) とすることで、q[μ] はガウス分布、q[] はガンマ分布となる。 
(1) 初期値(2) μ で最適化 
(3)  で最適化(4) 収束解 
分解q[μ]q[] := q[μ, ] (10.24) 
共役事前分布p([μ]|)   N(μ0, 1 
λ0 
) (10.22) 
〃p([])   Gamma(a0, b0)  
(10.23) 
0μ0 + Nx 
¯最適解q⋆[μ] :=: N(μN, N) := N 
0 + N 
 
, (0 + N)Eq⋆[τ]() 
(10.25 − 27) 
〃q⋆[] :=: Gam(aN, bN) := Gam(a0 + 
N + 1 
2 
, b0 + 
1 
2 
Eq⋆[μ] 
 
XN 
(xn − μ)2 + 0(μ − μ0) 
n=1 
# 
(10.28 − 30) 
(a0, b0, μ0, 0)   (0, 0, 0, 0) =) Eq⋆[μ][μ] = ¯x, Eq⋆[μ][μ2] = ¯x2 + 
1 
NEq⋆[τ][] 
(10.32) 
PN 
Eq⋆[τ][] = (x¯2 − ¯x2)−1 = ( 
n=1(xn − ¯x)2/N)−1 (10.33) 
, 
補足: 最尤推定と比較した優位性についての議論を含む、ガウス分布のベイズ推論の完全な扱いは、 
Minka 1998(“Inferring a Gaussian distribution”. Media Lab note, MIT) を参照。 
http://research.microsoft.com/˜minka 
2
第3 章線形回帰モデル上巻135 頁 
この第3 章のメモについての作成意図: 第10.3 節でよく参照されるため。 
第10.3 節で必要と考えられる仮定と定義について(主に第3 章) 
太字は主に節のタイトル下線でよく使う用語の定義●はx, t, ,,
,  の定義○は§ 10.3.1 から参照 
節(小節数)頁数節のタイトル10 章で必要と考えられる仮定/定義事項 
1.2.4 4 ガウス分布精度とは分散の逆数であり1/2 に等しい。 
2.3.6 5 ガウス分布に対するベイズ推論精度パラメータに対する共役事前分布はガンマ分布。 
3. 42 線形回帰モデル● N 個の観測値(xn 2 RD) と「目標値」(tn 2 R) 
3.1 (5) 10 線形基底関数モデル線形モデル= 線形基底関数モデル∋ 線形回帰モデル 
○● 
(j=0,...,1) : 基底関数(ただしx) := 1 とするj M−) 
P 
0(線形モデルy(x,w) := 
j=0..M−1 wjj (x) :=: w · (x) 
3.1.1 2 最尤推定と最小二乗法●計画行列 :( nj := j(xn) (3.16) 
●
: 観測値へのノイズの分散の逆数P(t|x,w,
) = N(t|y(x,w),
−1) 
3.2 5 バイアス-バリアンス分解 
3.3 (3) 9 ベイズ線形回帰 
3.3.1 4 パラメータの分布● : パラメータw の各要素の精度p(w|) = N(w|0, −1IM) 
○ 事前分布P([w]) := N(0, −1), 観測ノイズP([t]|x,w,
) := N(w · (x),

PRML10-draft1002

  • 1.
    記号の使い方に関して1 議論展開に用いる記号 記号仮名称詳細 ⇐,⇔,⇒ 論理記号純粋に論理的関係/論理的帰結を表す。(従来の数学的用法を踏襲。) ⇒! 不可逆帰結⇒であるが、⇔ではないことを示す。 ·⇒ 通常帰結例外除去的な条件を課すと⇒と置換できるニュアンスを示す。 ⇒: 前提付加左側のような前提条件を取り決めた上で、右側の命題を主張する。● :⇐ 条件付加右側のような条件を追加的に取り決めた上で、左側の命題を主張する。● :⇔: 等価定義等価な条件式を並べて、どれかの条件式で取り決めをすることを示す。 未定義 代入可能時主張右辺の代入可能な全ての値について、左辺の条件が成り立つことを表す。 「· · ·」カギ括弧真偽の不明な命題、もしくは文字通りに解釈できない便宜上の数式を表す。 イコールに似た操作記号 記号仮名称詳細 = 通常等号少なくとも、純粋に論理的に両辺が等しい値を持つことを示す。 ニュアンス明確化の必要がある場合には、出来るだけこの他の記号に置換。 :=: 等式展開計算すれば等式関係が判明可能であることを表す。● := (遅延) 代入左辺の未定義の変数について、右辺の内容で定義する。(ただし遅延評価。) 左辺が単純な1 つの変数で無い場合には、未定義なのはどれであるか要注意。● ← 即時代入左辺に右辺を即時に代入する。:= よりも意味が明確化する。○ (数式群からのアルゴリズムの構成に有用な場合がある。) == 等式制約等しいという条件を新たに加える操作を表す。● :== 定義確認既に定義したことを確認する意図で使う記号。○ 未定義 定義可能主張定義可能であることを主張し、かつ、それを定義として用いる。 未定義 定義可能時定義定義可能な場合に限定して、それを定義として用いる。 + 近似記号近似関係 :+ 近似意図右辺を近似する意図で、左辺に何かの定義操作を加える。 データを扱うための記号(大体において数学の教科書に使われているような方法を踏襲する) 記号参照名詳細 R 実数全体 RD 直積D 次元のベクトル全体 ↔ 縦/横ベクトルそれぞれN 次元縦ベクトルとM 次元横ベクトル RN l / RM N ×M 行列行列の次元の順序縦N 次元で横M 次元の行列であること RN l ↔ N ×M 行列全体 M IM 単位行列対角要素は1、非対角要素は0 の縦横M 次元の正方行列 : RD → RM 定義域と値域写像 の定義域と値域を→で結んで表示している。 u · v 内積同じ長さのベクトル2 個の内積を意味している。 (xi)N i=1 数列数列を表す。 1前回のゼミとも異なるので注意。 1
  • 2.
    変数、特に確率変数に関する記号 X 確率変数 [x] 既知化(観測) ⇋ 未知化(由来参照) X⋆ 値 x P[x] 確率分布 P(x) 確率参照 表記仮名称詳細 X 大文字化変数x の「未知化」。分布を考慮することができるようになる。● x⋆ 意図達成数式/変数の意図(最適化/新たなデータの代入など) 達成を⋆ で示す。 x∀ 任意化変数の由来を残したまま、値を一般的に考慮する任意化の操作を表す。 [x] 一般化括弧変数x の「由来参照」/「未知化」/「任意化」のいずれかを示す。● X⋆ 観測未知変数に⋆ がついた場合は、特に「観測」を表すこととする。○ 引数x の値だけでなく引数がどの確率変数に由来するか関知して P(x) 確率参照確率参照記号P は異なる働きをするものとする。● (従来の統計学の用法を踏襲。) 補助的に、Q, p, q も用いる。 P[x] 分布参照未知化変数を引数に持つ確率参照は、分布を表す。P([x]) の略記。● • 無名変数数式表記簡潔化/変数(の由来と意図) の考慮阻止の目的で用いる。 ∝ 比例記号未知化変数/無名変数のみを動かしたときの比例、と意味を限定する。 const. 定数記号未知化変数/無名変数のみに対して定数関数、と意味を限定する。 P′ 普遍的総和不都合の無い限り、総和及び積分をこの記号で表示する。 E[確率変数| 条件k 分布の指定] またはE分布[確率変数| 条件] 相加平均を表す。 G[確率変数| 条件k 分布の指定] またはG分布[確率変数| 条件] 相乗平均を表す。● 上記の記号体系の作成意図に関して - 概念の本質の理解にかかわる冗漫さを最小化するため。 - 後日の参照の際に、作成した数式を含むノートを容易に理解できるようにするため。 - 誤読の回避/入力と推敲の容易性/読解の手間の低減により、上記の目的の達成を目指している。 - おそらく上記は、コルモゴロフによる確率論の公理論的展開で問題無く正当化が可能と考えられる。 2
  • 3.
    ■ 用語集(索引に未記載のものなど) 変分ベイズ法「変分推論法」と同じ。 モデルエビデンスパラメータを周辺化した尤度 モデルエビデンス最大化パラメータを周辺化した尤度関数を最大にするパラメータを決定すること 非特異連続な分布を持つ確率変数が、丁度ある値を持つ確率が0 で無いこと(ポイントマスを持つ こと)。 積分消去観測対象となりうる値の予測分布を求めるために、パラメータの変数に対して積分をする ことで、そのパラメータを消去する操作。 解析的に加減乗除およびべき乗の操作で式が表示できることを表す。 閉形式積分の操作をした後の結果が「解析的」になった時g の結果について表す。 モデル平均p187 複数のモデルをパラメータで指定するようにして、そのパラメータ上の分布が求まっ たときに、それを使った平均値を使うことと考えられる。(?) ■ 参考になりそうな他の文献: 1. 情報幾何学の新展開甘利俊一サイエンス社(SGC-110) ごく最近(2014 年8 月25 日) に出版された本で、EM alg. 等の理論的な話、最良検定など(私 が個人的に気になる話)、産業連関表への言及などあまり見たことの無い話、甘利氏のさまざ まな個人的な研究にまつわる話が記載されており、興味深い。 2. 持橋さんのホームページ(所在未参照) この章は長くて複雑なので、この章を補完する重要情報がインターネット上のどこかにあると聞 いた。http://ibisforest.org/index.php?PRML によると、10 章を担当したのは持橋氏である。 ■ 理解が難しいところなど • § 10.1(p177) 「十分に柔軟な分布を使っても、過学習の問題は起きない」 → 理論的根拠はあるのか/経験則なのか? • § 10.1.2(p183) 図10.3「最もよく近似する一変数ガウス」→ 2 変数ガウスではないか? • § 10.1.4(p187) 隠れ変数Z がモデルm により「構造」が異なるということを反映した数学的 に自然な表記は何だろうか? 1
  • 4.
    1 第10 章の全般的な内容と構成に関して 上下巻全般からの10 章についての言及のされかた 場所(ページ) 言及のされ方言及対象/解釈 1.2.3ベイズ確率(23) 最近1999 年以降? の非常に能率的な決定論的近似法変分ベイズ法/EP 法 1.2.4ガウス分布(28) 分散パラメータがベイズアプローチでも得られる§ 10.1.3 (§ 10.3.1?) 4.4ラプラス近似 (213)(215) 解析的な近似/局所的でない全体的アプローチ分解と変分近似 6.4.5ガウス過程 からの分類3 個考えられるガウス分布近似(1 個は§ 6.4.6) 変分推論法/EP 法 9混合モデル とEM (139) エレガントなベイズ的扱いKL 距離を使ったこと? 余分な計算がほとんど不要? データから自動的に要素数を決定§ 10.2 9.2.1混合ガウス 最尤推定(150) 特異性による最尤推定の深刻な過学習を回避EM alg. では未解決 EMアルゴリズムの一般化が変分推論法の枠組みlog px = Lpq + KLp(z|x) q 10.2変分線形回帰 (188) →「長く複雑なので· · · 後回しにして良い」§ 10.2 全体について 手法紹介の年代に関して(教科書に記載されたもの全部とは限らない) 変分推論(18 世紀、オイラーとラグランジュ)/汎関数微分(Feynmann et.al, 1964) 有限要素法(Kapur,1989)/最大エントロピー法(Schwarz,1988) 分布の分解の仮定(Jordan et al.,1999; Jaakkola, 2001)/平均場近似(Parisi, 1988) 条件q⋆( (zj) ) = G[ P(x,Z) ||Zj = zj ] による反復解の収束の保証(Boyd and Vandenberghe, 2004) ダイバージェンス(Ali and Silvey, 1966; Amari, 1985; Minka, 2005) 一変数ガウス分布を平均と分散で分解した近似の例(MacKay, 2003) ガウス分布のベイズ推論の完全な取り扱い(Minka 1998) 「変分混合ガウス分布」(ベイズ的でエレガント) (Attias, 1999b) 更新が最適化になっているのか徹底的なテスト(195)(Svens´en and Bishop, 2004) をパラメータと見なしてL を最大化し、点推定する(Corduneanu and Bishop, 2001) 変分ベイズ法の推論を行う汎用ソフトウェアの構成(207)(Bishop et al., 2003) 更新式は局所的なメッセージパッシングアルゴリズム(Winn and Bishop, 2005) 凸双対性の枠組み(Rockafellar, 1972; Jordan et al., 1999) ガウス分布の関数形式でシグモイド関数の下限を作る(Jaakkola and Jordan, 2000) EP 法(期待値伝搬法) (Minka, 2001a, Minka, 2001b) /雑音データ問題(Minka, 2001b) 仮定密度フィルタリング(ADF)/モーメント一致法 (Maybeck, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and Winther,1999) ロジスティックの形のモデルの場合は、EP 法が局所的変分法/ラプラス近似より勝ることが多い (Kuss and Rasmussen, 2006) 再重み付け木メッセージパッシング(Wainwright et al., 2005) 部分的確率伝搬(Wiegerinck and Heskes, 2003) Power EP 法(Minka, 2004)
  • 5.
    2 10 章の節の内容 節のタイトル節の内容 10.1 変分推論分布を積に分ける/一般解を求める/ごく簡単な例 10.2 例:変分混合ガウス分布(例) 混合ガウス分布 10.3 変分線形回帰(例) 線形基底関数モデル 10.4 指数型分布族指数型分布族に関係することと/メッセージパッシング 10.5 局所的変分推定法局所的な下限? 10.6 変分ロジスティック回帰(例) ロジスティック回帰 10.7EP 法逆KL 距離で考えた/(例) 雑音とグラフィカルモデル 10 章の節の構成 節小節の数(頁数) 依存先/言及先計算例 10.14(11) 2.3 ガウス分布e−z2/2 1+e−20z−4 ; 細長い分布,2 峰の分布;1 変数ガウス分布 10.25(13) 2.3.6, 10.4.1, 3.4, 間欠泉のデータに混合ガウスを適用- 10.33(4) 3.3 , 3.5 3 次式にガウスノイズを入れた10 点 10.41(3) 2.4, 4.2.4, 10.2.5 メッセージパッシング 10.50(5) 1.6.1, 4.5 10.63(7) 4.5, 4.3 ロジスティック回帰 10.72(2) 8.4 グラフ推論混合ガウスモデル、雑音データ 10 章の小節のタイトル 節のタイトル小節のタイトル 10.1 変分推論分布の分解/分解の近似の持つ性質/一変数ガウス分布/モデル比較 10.2 例:変分混合ガウス分布変分事後分布/変分下限/予測分布/要素数決定/導出された分解 10.3 変分線形回帰変分分布/予測分布/変分下限 10.4 指数型分布族メッセージパッシング 10.5 局所的変分推定法 10.6 変分ロジスティック回帰変分事後分布/変分パラメータの最適化/超パラメータの推論 10.7EP 法雑音データ問題/グラフィカルモデルとEP 法 似た様な章との比較 手法利点欠点 9 章混合モデルとEM (32 頁) 離散潜在変数を扱う(例: どのクラスタに属するか) K-means alg. 必ず極大値に収束するE-step が無理なことがある()10 章,11 章) EM alg. (dim Z が高い/積分が閉形式でない場合) 10 章近似推論法(62 頁) 近似が決定的 変分法or 変分ベイズ事後分布の解析的近似決して厳密解は求まらない (分解/ガウス分布を使う) 11 章サンプリング法(37 頁) 近似が確率的 MCMC 厳密な漸近的な一致性計算量が多く解ける問題は意外と小さい。 サンプルが互いに独立か検証困難。 12 章連続潜在変数(48 頁) 連続潜在変数を扱う(例: 文字画像のズレの分布を扱う) 線形ガウスモデル? ?
  • 6.
    第10.1.2 節分解による近似のもつ性質下巻180 頁 この小節では3 例に、直前の小節で示した方法の“分解” を適用し、その結果を観察する。 1. 2 次元ガウス分布をq( (z1, z2) ) := q1(z1) q2(z2) (z1, z2 2 R) で“変分近似” する。 2. 比較のため、別の方法を適用する。KL 距離KL( q || P ) の極小化をする代わりに、引数を逆転 させたKL( P || q ) を極小化する。 3. 2 峰性の分布に対して適用し、局所解が複数存在することを調べる。 また、 ダイバージェンスを紹介する。(KL 距離、Hellinger 距離の一般化になっている。) P の分布(↓) KL(q||P) を極小化した場合KL(P||q) を極小化した場合 斜めに細長い分布 分布を小さく 近似する傾向がある 周辺分布が一致する (少なくとも1 or 2 次元ガウスの場合) 2 峰性の分布 局所解が複数存在する「予測性能の悪化をもたらす」 P(z) がきわめて0 に近い場所でq(z) の値が大きいと” 損失” が大きいので q の“分布域” は小さくまとまる。 q(z) がきわめて0 に近い場所でP(z) の値が大きいと” 損失” が大きいので q はP の“分布域” を覆うように広がる。 • 考えると面白そうなこと: – 分布のP とq が上記のようなケースだけではなくて、fat-tail な場合や特異の場合も考察して、何が起こるか 考える。 1
  • 7.
    第10.1.3 節例: 一変数ガウス分布下巻184頁 ガウス分布からN 個の点を観測した状況を考えている。 尤度関数P(D = x|μ, ) = τ 2π N/2 exp n −τ 2 PN n=1(xn − μ)2 o (10.21) 事前分布: p[μ|] N(μ|μ0, (0)−1), p[] Gam(|a0, b0) を採用すると共役分布になる§ 2.3.6 ガウス-ガンマ分布 演習2.44 。 “分解” としてはq[μ, ] = q[μ] × q[] (10.24) とすることで、q[μ] はガウス分布、q[] はガンマ分布となる。 (1) 初期値(2) μ で最適化 (3) で最適化(4) 収束解 分解q[μ]q[] := q[μ, ] (10.24) 共役事前分布p([μ]|) N(μ0, 1 λ0 ) (10.22) 〃p([]) Gamma(a0, b0) (10.23) 0μ0 + Nx ¯最適解q⋆[μ] :=: N(μN, N) := N 0 + N , (0 + N)Eq⋆[τ]() (10.25 − 27) 〃q⋆[] :=: Gam(aN, bN) := Gam(a0 + N + 1 2 , b0 + 1 2 Eq⋆[μ] XN (xn − μ)2 + 0(μ − μ0) n=1 # (10.28 − 30) (a0, b0, μ0, 0) (0, 0, 0, 0) =) Eq⋆[μ][μ] = ¯x, Eq⋆[μ][μ2] = ¯x2 + 1 NEq⋆[τ][] (10.32) PN Eq⋆[τ][] = (x¯2 − ¯x2)−1 = ( n=1(xn − ¯x)2/N)−1 (10.33) , 補足: 最尤推定と比較した優位性についての議論を含む、ガウス分布のベイズ推論の完全な扱いは、 Minka 1998(“Inferring a Gaussian distribution”. Media Lab note, MIT) を参照。 http://research.microsoft.com/˜minka 2
  • 8.
    第3 章線形回帰モデル上巻135 頁 この第3 章のメモについての作成意図: 第10.3 節でよく参照されるため。 第10.3 節で必要と考えられる仮定と定義について(主に第3 章) 太字は主に節のタイトル下線でよく使う用語の定義●はx, t, ,,
  • 9.
    , の定義○は§10.3.1 から参照 節(小節数)頁数節のタイトル10 章で必要と考えられる仮定/定義事項 1.2.4 4 ガウス分布精度とは分散の逆数であり1/2 に等しい。 2.3.6 5 ガウス分布に対するベイズ推論精度パラメータに対する共役事前分布はガンマ分布。 3. 42 線形回帰モデル● N 個の観測値(xn 2 RD) と「目標値」(tn 2 R) 3.1 (5) 10 線形基底関数モデル線形モデル= 線形基底関数モデル∋ 線形回帰モデル ○● (j=0,...,1) : 基底関数(ただしx) := 1 とするj M−) P 0(線形モデルy(x,w) := j=0..M−1 wjj (x) :=: w · (x) 3.1.1 2 最尤推定と最小二乗法●計画行列 :( nj := j(xn) (3.16) ●
  • 10.
  • 11.
  • 12.
    −1) 3.2 5バイアス-バリアンス分解 3.3 (3) 9 ベイズ線形回帰 3.3.1 4 パラメータの分布● : パラメータw の各要素の精度p(w|) = N(w|0, −1IM) ○ 事前分布P([w]) := N(0, −1), 観測ノイズP([t]|x,w,
  • 13.
    ) := N(w· (x),