PRML輪読#1

PRML輪読会 2017
第１章序論
東京⼤学⼤学院⼯学系研究科
技術経営戦略学専攻
松尾研究室
M1 中川⼤海

構成
1.1 多項式曲線フィッティング
1.2 確率論
1.3 モデル選択
1.4 次元の呪い
1.5 決定理論
1.6 情報理論
2

• 訓練集合：N個の⼊⼒値 XNと対応するN個の⽬標値TN
• 訓練集合から新たな⼊⼒ x の⽬標変数 t を予測することが⽬標
• 以下のような多項式で予測することを考える
– パラメータ w に対して線形：線形モデル
– M はモデルのパラメータ
• パラメータを固定した時の関数 y(x, w) と訓練集合の値のズレを最⼩化す
るパラメータを選ぶことで関数を推定
– ⼆乗和誤差関数
3

• 変数が増えるとデータに含まれるノイズの影響が強くなる
– 係数の値が⼤きくなる
4

• データが少ないと過学習が起こりやすい
• データが少なくても正則化によって過学習を抑えられる
– 正則化をかけすぎると係数が⼩さくなりすぎる
5

1.2 確率論
6
確率の基本法則
引⽤： https://www.slideshare.net/takushimiki/prml-52113785

1.2.1 確率密度
7
確率密度関数
累積分布関数
引⽤： https://www.slideshare.net/takushimiki/prml-52113785

1.2.1 確率密度
• 確率密度はヤコビ⾏列により特殊な変換を⾏う
• 確率密度の最⼤値は変数の選び⽅に依存する
8
引⽤： https://www.slideshare.net/alembert2000/prml-at-1

1.2.1 確率密度
9引⽤： https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs

1.2.2 期待値と分散
• 離散分布の期待値
• 連続分布の期待値
• 離散/連続を問わず、有限個のN個の点から近似できる
– サンプリングを⾏う時などに⽤いる（１１章）
• 分散と共分散
10

1.2.4 ガウス分布
• 単⼀の実数変数 x に対するガウス分布
• 期待値
• ⼆次モーメント（⼆乗の期待値）
• 分散
11

• ガウス分布から⽣成されたi.i.dなN個の点から分布のパラメータを推定する
• データ集合の確率：尤度関数
– パラメータを固定とした時に観測されたデータがどれくらい起こりやすいか？
– 周辺確率の積で求まる
– 尤度関数の最⼤化：最尤推定
• 対数尤度を⽤いる
– 積を和に変換できる
– ⼩さな確率値の積のアンダーフローを防げる
– 対数は単調増加なので対数最⼤化＝元の関数最⼤化
12

• 𝜇 と 𝜎 を最尤推定する(各変数について最⼤化する)
– ガウス分布では両者を分離して最⼤化を⾏える
– 標本平均と標本分散が得られる
• 最尤推定の問題点：分散が過⼩評価される＝バイアス
– サンプル数が⼤きくなれば影響は減るが、これが過学習の根本
13

1.2.5 曲線フィッティング再訪
• 曲線フィッテイングの尤度関数
• 対数尤度
• 対数尤度の最⼤化＝負の対数尤度の最⼩化
– ノイズがガウス分布に従うという仮定の元では、⼆乗和誤差の最⼩化＝尤度の最⼤化
14

1.2.5 曲線フィッティング再訪
• 最尤推定によってパラメータが求まり得られる予測分布
• これにパラメータｗに関する事前分布を導⼊する
– 頻度論的なアプローチからベイズ的なアプローチへ
• w の事後分布は尤度関数と事前分布の積に⽐例
• これにより事後分布を最⼤化する w が求められる
– 最⼤事後確率推定(MAP推定)
15

1.2.6 ベイズ曲線フィッティング
• 事後分布を組み込むだけでは点推定にとどまる
• 加法・乗法定理を⽭盾なく適⽤して、ｗの全ての値に関して積分する
– 完全なベイズアプローチに
• 予測分布
– 新たな点 x に関する⽬標値 t をを w に対して周辺化し求める
• 予測平均
• 予測分散
• 分散⾏列
• 基底
16
⽬標変数のノイズによる不確実性
パラメータwに対する不確実性

1.3 モデル選択
• モデルの汎化性能を上げるには？
• 交差検証
– 訓練データをｓ分割
– 訓練時間はｓ倍になる
– パラメータが増えると指数関数的に訓練回数が増えうる
• ⼀回の訓練だけで複数の超パラメータとモデルタイプを⽐較したい
– 訓練データのみに依存し過学習バイアスを持たない性能尺度が必要
• 情報量基準（４章）
– AIC, BICなど
– モデルのパラメータの不確実性は考慮していない
– 過度に単純なモデルを選びやすい
• より⾃然で理にかなうのがベイズアプローチ（３章）
17

1.4 次元の呪い
• 学習アルゴリズムの設計
• マス⽬に分割してみる
– ⼊⼒空間の次元数の増加に対してマス⽬が指数関数的に増加
• 多項式曲線フィッティング
– 係数の数がべき乗に増加
• 幾何的直感が⼀致しないなど、様々な困難が伴う＝次元の呪い
• 実⽤では、意外と⾼次元空間でもなんとかなる
– 実データは実際には低次元領域に存在する
– ⽬標変数の重要な変化が⽣じる⽅向はそこまで多くない
– ⼊⼒空間上の⼩さな変化は⽬標変数に⼩さな変化しか与えない
18

1.5 決定理論
• 訓練データ集合 → 同時分布：推定（難しい）
• 同時分布 → 基準に基づき最適な⾏動：決定（簡単）
• どのような基準で決定するか？ → 誤識別率の最⼩化
– 事後確率が最⼤のクラスに分類するのが最適
• 誤り率の定式化（2クラス）
• より⾼次だと正解率を定式化するほうが易しい
19

1.5.2 期待損失の最⼩化
• 識別率だけ上がればよいのか？
– ex) 癌患者を健康と誤診するほうが問題...
– 損失関数を定めて期待損失を最⼩化する必要がある
• 期待損失
– 同時確率で定義される
– 共通因⼦を除くと事後確率
• 棄却オプションという選択肢もある
– 事後確率が閾値θ以下なら決定を避ける
20
k を j と識別した際の損失(k = j なら０)

1.5.4 推論と決定
21
⽣成モデル
• 同時分布を推論する
• 出⼒の分布だけでなく⼊⼒の分布もモデル化
• 新規性検出などのメリット
• 訓練コストが⾼い
識別モデル
識別関数
• 事後確率のみ推論して決定理論でクラス割当
• 出⼒の分布をモデル化
• 訓練コスト節約
• ⼊⼒を直接ラベルに写像する関数を学習
• 確率は⽤いない
難
易

1.5.4 推論と決定
• 事後確率を求めるメリット
– 損失⾏列の変更や棄却オプションなどへの柔軟性
– 訓練データの修正などの情報による事前確率の補正
– 複数のモジュールの結合
22

1.5.5 回帰のための損失関数
• 損失関数が⼆乗誤差の場合の期待損失
• 最適解は条件付き平均になる
• 変形した損失関数
23
回帰関数
解が条件付き平均の時に最⼩
＝最適解
⽬標データが持つノイズ
＝損失関数の最⼩値

1.6 情報理論
• 離散確率変数ｘを観測した時の情報量
– 確率が低い事象が起こったときほど⼤きくなる
– 互いに独⽴な確率変数の情報量は単独の場合の和になる
– 底２：ビット、底e：ナット
• 情報量の平均：エントロピー
• 離散分布
– ⼀様分布で最⼤
• 連続分布
– ガウス分布で最⼤
– 分散が⼤きくなるに連れてエントロピーも増⼤
24
lnΔ異なる
＝Δ→0で発散
＝連続変数を厳密に定義するには無限のビット数が必要

1.6.1 相対エントロピーと相互情報量
• 真の分布 p(x) を q(x) で近似したい
• q(x)でxの値を特定するのに追加で必要な情報量は
• KLダイバージェンス（相対エントロピー）
– (p(x)のエントロピー) – (q(x)のエントロピー)
– 分布間の距離のようなもの（⾮対称）
• であり、０になるのは p(x) = q(x)
– 凸関数であるため成り⽴つ
25

• 凸関数
– 関数 f(x) は全ての弦が関数に乗っているか、それよりも上にある
• 関数の値 ≦ 弦上の値
– 数学的帰納法によりイェンセンの不等式に変換
– を確率分布と⾒なすと
– 連続変数に対しては
– KLダイバージェンスに適⽤すると
26
http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb

• データを⽣成している未知の分布 p(x) をモデル化したい場合
– パラメータ θ をもつパラメトリックな分布 q(x) で近似してみる
– θ は KL(p||q) を θ について最⼩化することで求まる
• p(x)を知らないからKLが計算できない
– p(x) をサンプリングによって近似する
• KLの最⼩化＝尤度最⼤化（最尤法）
27
θ と独⽴な項
θ の負の対数尤度
• xとｙが独⽴に近いかどうか？
• p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる

• xとｙが独⽴に近いかどうか？
• p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
• y(x)を知ることでx(y)に関する不確実性がどのように減少するかを表す
28

参考資料
• パターン認識と機械学習上
– C.M. ビショップ (著), 元⽥浩 (監訳), 栗⽥多喜夫 (監訳), 樋⼝知之 (監訳), 松本裕治 (監訳), 村⽥昇 (監訳)
• PRML読み会#1 (三⽊, SlideShare)
– https://www.slideshare.net/takushimiki/prml-52113785
• PRML 上巻勉強会第1章序論 (⼤澤, SlideShare)
– https://www.slideshare.net/alembert2000/prml-at-1
• 演習問題解答
– https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
• イェンセン(Jensen)の不等式の直感的理解 (Qiita)
– http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb
29

PRML輪読#1

More Related Content

What's hot

Similar to PRML輪読#1

More from matsuolab

PRML輪読#1