PRML輪読会 2017
第1章 序論
東京⼤学⼤学院⼯学系研究科
技術経営戦略学専攻
松尾研究室
M1 中川 ⼤海
構成
1.1 多項式曲線フィッティング
1.2 確率論
1.3 モデル選択
1.4 次元の呪い
1.5 決定理論
1.6 情報理論
2
1.1 多項式曲線フィッティング
• 訓練集合:N個の⼊⼒値 XNと対応するN個の⽬標値TN
• 訓練集合から新たな⼊⼒ x の⽬標変数 t を予測することが⽬標
• 以下のような多項式で予測することを考える
– パラメータ w に対して線形:線形モデル
– M はモデルのパラメータ
• パラメータを固定した時の関数 y(x, w) と訓練集合の値のズレを最⼩化す
るパラメータを選ぶことで関数を推定
– ⼆乗和誤差関数
3
1.1 多項式曲線フィッティング
• 変数が増えるとデータに含まれるノイズの影響が強くなる
– 係数の値が⼤きくなる
4
1.1 多項式曲線フィッティング
• データが少ないと過学習が起こりやすい
• データが少なくても正則化によって過学習を抑えられる
– 正則化をかけすぎると係数が⼩さくなりすぎる
5
1.2 確率論
6
確率の基本法則
引⽤: https://www.slideshare.net/takushimiki/prml-52113785
1.2.1 確率密度
7
確率密度関数
累積分布関数
引⽤: https://www.slideshare.net/takushimiki/prml-52113785
1.2.1 確率密度
• 確率密度はヤコビ⾏列により特殊な変換を⾏う
• 確率密度の最⼤値は変数の選び⽅に依存する
8
引⽤: https://www.slideshare.net/alembert2000/prml-at-1
1.2.1 確率密度
9引⽤: https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
1.2.2 期待値と分散
• 離散分布の期待値
• 連続分布の期待値
• 離散/連続を問わず、有限個のN個の点から近似できる
– サンプリングを⾏う時などに⽤いる(11章)
• 分散と共分散
10
1.2.4 ガウス分布
• 単⼀の実数変数 x に対するガウス分布
• 期待値
• ⼆次モーメント(⼆乗の期待値)
• 分散
11
1.2.4 ガウス分布
• ガウス分布から⽣成されたi.i.dなN個の点から分布のパラメータを推定する
• データ集合の確率:尤度関数
– パラメータを固定とした時に観測されたデータがどれくらい起こりやすいか?
– 周辺確率の積で求まる
– 尤度関数の最⼤化:最尤推定
• 対数尤度を⽤いる
– 積を和に変換できる
– ⼩さな確率値の積のアンダーフローを防げる
– 対数は単調増加なので 対数最⼤化=元の関数最⼤化
12
1.2.4 ガウス分布
• 𝜇	と 𝜎	を最尤推定する(各変数について最⼤化する)
– ガウス分布では両者を分離して最⼤化を⾏える
– 標本平均と標本分散が得られる
• 最尤推定の問題点:分散が過⼩評価される=バイアス
– サンプル数が⼤きくなれば影響は減るが、これが過学習の根本
13
1.2.5 曲線フィッティング再訪
• 曲線フィッテイングの尤度関数
• 対数尤度
• 対数尤度の最⼤化=負の対数尤度の最⼩化
– ノイズがガウス分布に従うという仮定の元では、⼆乗和誤差の最⼩化=尤度の最⼤化
14
1.2.5 曲線フィッティング再訪
• 最尤推定によってパラメータが求まり得られる予測分布
• これにパラメータ w に関する事前分布を導⼊する
– 頻度論的なアプローチからベイズ的なアプローチへ
• w の事後分布は尤度関数と事前分布の積に⽐例
• これにより事後分布を最⼤化する w が求められる
– 最⼤事後確率推定(MAP推定)
15
1.2.6 ベイズ曲線フィッティング
• 事後分布を組み込むだけでは点推定にとどまる
• 加法・乗法定理を⽭盾なく適⽤して、wの全ての値に関して積分する
– 完全なベイズアプローチに
• 予測分布
– 新たな点 x に関する⽬標値 t を を w に対して周辺化し求める
• 予測平均
• 予測分散
• 分散⾏列
• 基底
16
⽬標変数のノイズによる不確実性
パラメータwに対する不確実性
1.3 モデル選択
• モデルの汎化性能を上げるには?
• 交差検証
– 訓練データをs分割
– 訓練時間はs倍になる
– パラメータが増えると指数関数的に訓練回数が増えうる
• ⼀回の訓練だけで複数の超パラメータとモデルタイプを⽐較したい
– 訓練データのみに依存し過学習バイアスを持たない性能尺度が必要
• 情報量基準(4章)
– AIC, BICなど
– モデルのパラメータの不確実性は考慮していない
– 過度に単純なモデルを選びやすい
• より⾃然で理にかなうのがベイズアプローチ(3章)
17
1.4 次元の呪い
• 学習アルゴリズムの設計
• マス⽬に分割してみる
– ⼊⼒空間の次元数の増加に対してマス⽬が指数関数的に増加
• 多項式曲線フィッティング
– 係数の数がべき乗に増加
• 幾何的直感が⼀致しないなど、様々な困難が伴う=次元の呪い
• 実⽤では、意外と⾼次元空間でもなんとかなる
– 実データは実際には低次元領域に存在する
– ⽬標変数の重要な変化が⽣じる⽅向はそこまで多くない
– ⼊⼒空間上の⼩さな変化は⽬標変数に⼩さな変化しか与えない
18
1.5 決定理論
• 訓練データ集合 → 同時分布:推定(難しい)
• 同時分布 → 基準に基づき最適な⾏動:決定(簡単)
• どのような基準で決定するか? → 誤識別率の最⼩化
– 事後確率が最⼤のクラスに分類するのが最適
• 誤り率の定式化(2クラス)
• より⾼次だと正解率を定式化するほうが易しい
19
1.5.2 期待損失の最⼩化
• 識別率だけ上がればよいのか?
– ex) 癌患者を健康と誤診するほうが問題...
– 損失関数を定めて期待損失を最⼩化する必要がある
• 期待損失
– 同時確率で定義される
– 共通因⼦を除くと事後確率
• 棄却オプションという選択肢もある
– 事後確率が閾値θ以下なら決定を避ける
20
k を j と識別した際の損失(k = j なら0)
1.5.4 推論と決定
21
⽣成モデル
• 同時分布を推論する
• 出⼒の分布だけでなく⼊⼒の分布もモデル化
• 新規性検出などのメリット
• 訓練コストが⾼い
識別モデル
識別関数
• 事後確率のみ推論して決定理論でクラス割当
• 出⼒の分布をモデル化
• 訓練コスト節約
• ⼊⼒を直接ラベルに写像する関数を学習
• 確率は⽤いない
難
易
1.5.4 推論と決定
• 事後確率を求めるメリット
– 損失⾏列の変更や棄却オプションなどへの柔軟性
– 訓練データの修正などの情報による事前確率の補正
– 複数のモジュールの結合
22
1.5.5 回帰のための損失関数
• 損失関数が⼆乗誤差の場合の期待損失
• 最適解は条件付き平均になる
• 変形した損失関数
23
回帰関数
解が条件付き平均の時に最⼩
=最適解
⽬標データが持つノイズ
=損失関数の最⼩値
1.6 情報理論
• 離散確率変数xを観測した時の情報量
– 確率が低い事象が起こったときほど⼤きくなる
– 互いに独⽴な確率変数の情報量は単独の場合の和になる
– 底2:ビット、底e:ナット
• 情報量の平均:エントロピー
• 離散分布
– ⼀様分布で最⼤
• 連続分布
– ガウス分布で最⼤
– 分散が⼤きくなるに連れてエントロピーも増⼤
24
lnΔ異なる
=Δ→0で発散
=連続変数を厳密に定義するには無限のビット数が必要
1.6.1 相対エントロピーと相互情報量
• 真の分布 p(x) を q(x) で近似したい
• q(x)でxの値を特定するのに追加で必要な情報量は
• KLダイバージェンス(相対エントロピー)
– (p(x)のエントロピー) – (q(x)のエントロピー)
– 分布間の距離のようなもの(⾮対称)
• であり、0になるのは p(x) = q(x)
– 凸関数であるため成り⽴つ
25
1.6.1 相対エントロピーと相互情報量
• 凸関数
– 関数 f(x) は全ての弦が関数に乗っているか、それよりも上にある
• 関数の値 ≦ 弦上の値
– 数学的帰納法によりイェンセンの不等式に変換
– を確率分布と⾒なすと
– 連続変数に対しては
– KLダイバージェンスに適⽤すると
26
http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb
1.6.1 相対エントロピーと相互情報量
• データを⽣成している未知の分布 p(x) をモデル化したい場合
– パラメータ θ をもつパラメトリックな分布 q(x) で近似してみる
– θ は KL(p||q) を θ について最⼩化することで求まる
• p(x)を知らないからKLが計算できない
– p(x) をサンプリングによって近似する
• KLの最⼩化=尤度最⼤化(最尤法)
27
θ と独⽴な項
θ の負の対数尤度
• xとyが独⽴に近いかどうか?
• p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
1.6.1 相対エントロピーと相互情報量
• xとyが独⽴に近いかどうか?
• p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
• y(x)を知ることでx(y)に関する不確実性がどのように減少するかを表す
28
参考資料
• パターン認識と機械学習 上
– C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監訳), 村⽥ 昇 (監訳)
• PRML読み会#1 (三⽊, SlideShare)
– https://www.slideshare.net/takushimiki/prml-52113785
• PRML 上巻勉強会 第1章 序論 (⼤澤, SlideShare)
– https://www.slideshare.net/alembert2000/prml-at-1
• 演習問題解答
– https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
• イェンセン(Jensen)の不等式の直感的理解 (Qiita)
– http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb
29

PRML輪読#1