Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
PRML輪読会 2017
第1章 序論
東京⼤学⼤学院⼯学系研究科
技術経営戦略学専攻
松尾研究室
M1 中川 ⼤海
構成
1.1 多項式曲線フィッティング
1.2 確率論
1.3 モデル選択
1.4 次元の呪い
1.5 決定理論
1.6 情報理論
2
1.1 多項式曲線フィッティング
• 訓練集合:N個の⼊⼒値 XNと対応するN個の⽬標値TN
• 訓練集合から新たな⼊⼒ x の⽬標変数 t を予測することが⽬標
• 以下のような多項式で予測することを考える
– パラメータ w に対して線形:...
1.1 多項式曲線フィッティング
• 変数が増えるとデータに含まれるノイズの影響が強くなる
– 係数の値が⼤きくなる
4
1.1 多項式曲線フィッティング
• データが少ないと過学習が起こりやすい
• データが少なくても正則化によって過学習を抑えられる
– 正則化をかけすぎると係数が⼩さくなりすぎる
5
1.2 確率論
6
確率の基本法則
引⽤: https://www.slideshare.net/takushimiki/prml-52113785
1.2.1 確率密度
7
確率密度関数
累積分布関数
引⽤: https://www.slideshare.net/takushimiki/prml-52113785
1.2.1 確率密度
• 確率密度はヤコビ⾏列により特殊な変換を⾏う
• 確率密度の最⼤値は変数の選び⽅に依存する
8
引⽤: https://www.slideshare.net/alembert2000/prml-at-1
1.2.1 確率密度
9引⽤: https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
1.2.2 期待値と分散
• 離散分布の期待値
• 連続分布の期待値
• 離散/連続を問わず、有限個のN個の点から近似できる
– サンプリングを⾏う時などに⽤いる(11章)
• 分散と共分散
10
1.2.4 ガウス分布
• 単⼀の実数変数 x に対するガウス分布
• 期待値
• ⼆次モーメント(⼆乗の期待値)
• 分散
11
1.2.4 ガウス分布
• ガウス分布から⽣成されたi.i.dなN個の点から分布のパラメータを推定する
• データ集合の確率:尤度関数
– パラメータを固定とした時に観測されたデータがどれくらい起こりやすいか?
– 周辺確率の積で求まる
– 尤...
1.2.4 ガウス分布
• 𝜇	と 𝜎	を最尤推定する(各変数について最⼤化する)
– ガウス分布では両者を分離して最⼤化を⾏える
– 標本平均と標本分散が得られる
• 最尤推定の問題点:分散が過⼩評価される=バイアス
– サンプル数が⼤きくな...
1.2.5 曲線フィッティング再訪
• 曲線フィッテイングの尤度関数
• 対数尤度
• 対数尤度の最⼤化=負の対数尤度の最⼩化
– ノイズがガウス分布に従うという仮定の元では、⼆乗和誤差の最⼩化=尤度の最⼤化
14
1.2.5 曲線フィッティング再訪
• 最尤推定によってパラメータが求まり得られる予測分布
• これにパラメータ w に関する事前分布を導⼊する
– 頻度論的なアプローチからベイズ的なアプローチへ
• w の事後分布は尤度関数と事前分布の積に⽐...
1.2.6 ベイズ曲線フィッティング
• 事後分布を組み込むだけでは点推定にとどまる
• 加法・乗法定理を⽭盾なく適⽤して、wの全ての値に関して積分する
– 完全なベイズアプローチに
• 予測分布
– 新たな点 x に関する⽬標値 t を を ...
1.3 モデル選択
• モデルの汎化性能を上げるには?
• 交差検証
– 訓練データをs分割
– 訓練時間はs倍になる
– パラメータが増えると指数関数的に訓練回数が増えうる
• ⼀回の訓練だけで複数の超パラメータとモデルタイプを⽐較したい
–...
1.4 次元の呪い
• 学習アルゴリズムの設計
• マス⽬に分割してみる
– ⼊⼒空間の次元数の増加に対してマス⽬が指数関数的に増加
• 多項式曲線フィッティング
– 係数の数がべき乗に増加
• 幾何的直感が⼀致しないなど、様々な困難が伴う=次...
1.5 決定理論
• 訓練データ集合 → 同時分布:推定(難しい)
• 同時分布 → 基準に基づき最適な⾏動:決定(簡単)
• どのような基準で決定するか? → 誤識別率の最⼩化
– 事後確率が最⼤のクラスに分類するのが最適
• 誤り率の定式化...
1.5.2 期待損失の最⼩化
• 識別率だけ上がればよいのか?
– ex) 癌患者を健康と誤診するほうが問題...
– 損失関数を定めて期待損失を最⼩化する必要がある
• 期待損失
– 同時確率で定義される
– 共通因⼦を除くと事後確率
• 棄...
1.5.4 推論と決定
21
⽣成モデル
• 同時分布を推論する
• 出⼒の分布だけでなく⼊⼒の分布もモデル化
• 新規性検出などのメリット
• 訓練コストが⾼い
識別モデル
識別関数
• 事後確率のみ推論して決定理論でクラス割当
• 出⼒の分...
1.5.4 推論と決定
• 事後確率を求めるメリット
– 損失⾏列の変更や棄却オプションなどへの柔軟性
– 訓練データの修正などの情報による事前確率の補正
– 複数のモジュールの結合
22
1.5.5 回帰のための損失関数
• 損失関数が⼆乗誤差の場合の期待損失
• 最適解は条件付き平均になる
• 変形した損失関数
23
回帰関数
解が条件付き平均の時に最⼩
=最適解
⽬標データが持つノイズ
=損失関数の最⼩値
1.6 情報理論
• 離散確率変数xを観測した時の情報量
– 確率が低い事象が起こったときほど⼤きくなる
– 互いに独⽴な確率変数の情報量は単独の場合の和になる
– 底2:ビット、底e:ナット
• 情報量の平均:エントロピー
• 離散分布
– ...
1.6.1 相対エントロピーと相互情報量
• 真の分布 p(x) を q(x) で近似したい
• q(x)でxの値を特定するのに追加で必要な情報量は
• KLダイバージェンス(相対エントロピー)
– (p(x)のエントロピー) – (q(x)の...
1.6.1 相対エントロピーと相互情報量
• 凸関数
– 関数 f(x) は全ての弦が関数に乗っているか、それよりも上にある
• 関数の値 ≦ 弦上の値
– 数学的帰納法によりイェンセンの不等式に変換
– を確率分布と⾒なすと
– 連続変数に対...
1.6.1 相対エントロピーと相互情報量
• データを⽣成している未知の分布 p(x) をモデル化したい場合
– パラメータ θ をもつパラメトリックな分布 q(x) で近似してみる
– θ は KL(p||q) を θ について最⼩化すること...
1.6.1 相対エントロピーと相互情報量
• xとyが独⽴に近いかどうか?
• p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
• y(x)を知ることでx(y)に関する不確実性がどのように減少するかを表す
28
参考資料
• パターン認識と機械学習 上
– C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監訳), 村⽥ 昇 (監訳)
• PRML読み会#1 (三⽊, SlideSha...
Upcoming SlideShare
Loading in …5
×

PRML輪読#1

6,650 views

Published on

東京大学松尾研究室におけるPRMLの輪読資料です。

Published in: Education
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Hi there! Essay Help For Students | Discount 10% for your first order! - Check our website! https://vk.cc/80SakO
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

PRML輪読#1

  1. 1. PRML輪読会 2017 第1章 序論 東京⼤学⼤学院⼯学系研究科 技術経営戦略学専攻 松尾研究室 M1 中川 ⼤海
  2. 2. 構成 1.1 多項式曲線フィッティング 1.2 確率論 1.3 モデル選択 1.4 次元の呪い 1.5 決定理論 1.6 情報理論 2
  3. 3. 1.1 多項式曲線フィッティング • 訓練集合:N個の⼊⼒値 XNと対応するN個の⽬標値TN • 訓練集合から新たな⼊⼒ x の⽬標変数 t を予測することが⽬標 • 以下のような多項式で予測することを考える – パラメータ w に対して線形:線形モデル – M はモデルのパラメータ • パラメータを固定した時の関数 y(x, w) と訓練集合の値のズレを最⼩化す るパラメータを選ぶことで関数を推定 – ⼆乗和誤差関数 3
  4. 4. 1.1 多項式曲線フィッティング • 変数が増えるとデータに含まれるノイズの影響が強くなる – 係数の値が⼤きくなる 4
  5. 5. 1.1 多項式曲線フィッティング • データが少ないと過学習が起こりやすい • データが少なくても正則化によって過学習を抑えられる – 正則化をかけすぎると係数が⼩さくなりすぎる 5
  6. 6. 1.2 確率論 6 確率の基本法則 引⽤: https://www.slideshare.net/takushimiki/prml-52113785
  7. 7. 1.2.1 確率密度 7 確率密度関数 累積分布関数 引⽤: https://www.slideshare.net/takushimiki/prml-52113785
  8. 8. 1.2.1 確率密度 • 確率密度はヤコビ⾏列により特殊な変換を⾏う • 確率密度の最⼤値は変数の選び⽅に依存する 8 引⽤: https://www.slideshare.net/alembert2000/prml-at-1
  9. 9. 1.2.1 確率密度 9引⽤: https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
  10. 10. 1.2.2 期待値と分散 • 離散分布の期待値 • 連続分布の期待値 • 離散/連続を問わず、有限個のN個の点から近似できる – サンプリングを⾏う時などに⽤いる(11章) • 分散と共分散 10
  11. 11. 1.2.4 ガウス分布 • 単⼀の実数変数 x に対するガウス分布 • 期待値 • ⼆次モーメント(⼆乗の期待値) • 分散 11
  12. 12. 1.2.4 ガウス分布 • ガウス分布から⽣成されたi.i.dなN個の点から分布のパラメータを推定する • データ集合の確率:尤度関数 – パラメータを固定とした時に観測されたデータがどれくらい起こりやすいか? – 周辺確率の積で求まる – 尤度関数の最⼤化:最尤推定 • 対数尤度を⽤いる – 積を和に変換できる – ⼩さな確率値の積のアンダーフローを防げる – 対数は単調増加なので 対数最⼤化=元の関数最⼤化 12
  13. 13. 1.2.4 ガウス分布 • 𝜇 と 𝜎 を最尤推定する(各変数について最⼤化する) – ガウス分布では両者を分離して最⼤化を⾏える – 標本平均と標本分散が得られる • 最尤推定の問題点:分散が過⼩評価される=バイアス – サンプル数が⼤きくなれば影響は減るが、これが過学習の根本 13
  14. 14. 1.2.5 曲線フィッティング再訪 • 曲線フィッテイングの尤度関数 • 対数尤度 • 対数尤度の最⼤化=負の対数尤度の最⼩化 – ノイズがガウス分布に従うという仮定の元では、⼆乗和誤差の最⼩化=尤度の最⼤化 14
  15. 15. 1.2.5 曲線フィッティング再訪 • 最尤推定によってパラメータが求まり得られる予測分布 • これにパラメータ w に関する事前分布を導⼊する – 頻度論的なアプローチからベイズ的なアプローチへ • w の事後分布は尤度関数と事前分布の積に⽐例 • これにより事後分布を最⼤化する w が求められる – 最⼤事後確率推定(MAP推定) 15
  16. 16. 1.2.6 ベイズ曲線フィッティング • 事後分布を組み込むだけでは点推定にとどまる • 加法・乗法定理を⽭盾なく適⽤して、wの全ての値に関して積分する – 完全なベイズアプローチに • 予測分布 – 新たな点 x に関する⽬標値 t を を w に対して周辺化し求める • 予測平均 • 予測分散 • 分散⾏列 • 基底 16 ⽬標変数のノイズによる不確実性 パラメータwに対する不確実性
  17. 17. 1.3 モデル選択 • モデルの汎化性能を上げるには? • 交差検証 – 訓練データをs分割 – 訓練時間はs倍になる – パラメータが増えると指数関数的に訓練回数が増えうる • ⼀回の訓練だけで複数の超パラメータとモデルタイプを⽐較したい – 訓練データのみに依存し過学習バイアスを持たない性能尺度が必要 • 情報量基準(4章) – AIC, BICなど – モデルのパラメータの不確実性は考慮していない – 過度に単純なモデルを選びやすい • より⾃然で理にかなうのがベイズアプローチ(3章) 17
  18. 18. 1.4 次元の呪い • 学習アルゴリズムの設計 • マス⽬に分割してみる – ⼊⼒空間の次元数の増加に対してマス⽬が指数関数的に増加 • 多項式曲線フィッティング – 係数の数がべき乗に増加 • 幾何的直感が⼀致しないなど、様々な困難が伴う=次元の呪い • 実⽤では、意外と⾼次元空間でもなんとかなる – 実データは実際には低次元領域に存在する – ⽬標変数の重要な変化が⽣じる⽅向はそこまで多くない – ⼊⼒空間上の⼩さな変化は⽬標変数に⼩さな変化しか与えない 18
  19. 19. 1.5 決定理論 • 訓練データ集合 → 同時分布:推定(難しい) • 同時分布 → 基準に基づき最適な⾏動:決定(簡単) • どのような基準で決定するか? → 誤識別率の最⼩化 – 事後確率が最⼤のクラスに分類するのが最適 • 誤り率の定式化(2クラス) • より⾼次だと正解率を定式化するほうが易しい 19
  20. 20. 1.5.2 期待損失の最⼩化 • 識別率だけ上がればよいのか? – ex) 癌患者を健康と誤診するほうが問題... – 損失関数を定めて期待損失を最⼩化する必要がある • 期待損失 – 同時確率で定義される – 共通因⼦を除くと事後確率 • 棄却オプションという選択肢もある – 事後確率が閾値θ以下なら決定を避ける 20 k を j と識別した際の損失(k = j なら0)
  21. 21. 1.5.4 推論と決定 21 ⽣成モデル • 同時分布を推論する • 出⼒の分布だけでなく⼊⼒の分布もモデル化 • 新規性検出などのメリット • 訓練コストが⾼い 識別モデル 識別関数 • 事後確率のみ推論して決定理論でクラス割当 • 出⼒の分布をモデル化 • 訓練コスト節約 • ⼊⼒を直接ラベルに写像する関数を学習 • 確率は⽤いない 難 易
  22. 22. 1.5.4 推論と決定 • 事後確率を求めるメリット – 損失⾏列の変更や棄却オプションなどへの柔軟性 – 訓練データの修正などの情報による事前確率の補正 – 複数のモジュールの結合 22
  23. 23. 1.5.5 回帰のための損失関数 • 損失関数が⼆乗誤差の場合の期待損失 • 最適解は条件付き平均になる • 変形した損失関数 23 回帰関数 解が条件付き平均の時に最⼩ =最適解 ⽬標データが持つノイズ =損失関数の最⼩値
  24. 24. 1.6 情報理論 • 離散確率変数xを観測した時の情報量 – 確率が低い事象が起こったときほど⼤きくなる – 互いに独⽴な確率変数の情報量は単独の場合の和になる – 底2:ビット、底e:ナット • 情報量の平均:エントロピー • 離散分布 – ⼀様分布で最⼤ • 連続分布 – ガウス分布で最⼤ – 分散が⼤きくなるに連れてエントロピーも増⼤ 24 lnΔ異なる =Δ→0で発散 =連続変数を厳密に定義するには無限のビット数が必要
  25. 25. 1.6.1 相対エントロピーと相互情報量 • 真の分布 p(x) を q(x) で近似したい • q(x)でxの値を特定するのに追加で必要な情報量は • KLダイバージェンス(相対エントロピー) – (p(x)のエントロピー) – (q(x)のエントロピー) – 分布間の距離のようなもの(⾮対称) • であり、0になるのは p(x) = q(x) – 凸関数であるため成り⽴つ 25
  26. 26. 1.6.1 相対エントロピーと相互情報量 • 凸関数 – 関数 f(x) は全ての弦が関数に乗っているか、それよりも上にある • 関数の値 ≦ 弦上の値 – 数学的帰納法によりイェンセンの不等式に変換 – を確率分布と⾒なすと – 連続変数に対しては – KLダイバージェンスに適⽤すると 26 http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb
  27. 27. 1.6.1 相対エントロピーと相互情報量 • データを⽣成している未知の分布 p(x) をモデル化したい場合 – パラメータ θ をもつパラメトリックな分布 q(x) で近似してみる – θ は KL(p||q) を θ について最⼩化することで求まる • p(x)を知らないからKLが計算できない – p(x) をサンプリングによって近似する • KLの最⼩化=尤度最⼤化(最尤法) 27 θ と独⽴な項 θ の負の対数尤度 • xとyが独⽴に近いかどうか? • p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
  28. 28. 1.6.1 相対エントロピーと相互情報量 • xとyが独⽴に近いかどうか? • p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる • y(x)を知ることでx(y)に関する不確実性がどのように減少するかを表す 28
  29. 29. 参考資料 • パターン認識と機械学習 上 – C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監訳), 村⽥ 昇 (監訳) • PRML読み会#1 (三⽊, SlideShare) – https://www.slideshare.net/takushimiki/prml-52113785 • PRML 上巻勉強会 第1章 序論 (⼤澤, SlideShare) – https://www.slideshare.net/alembert2000/prml-at-1 • 演習問題解答 – https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs • イェンセン(Jensen)の不等式の直感的理解 (Qiita) – http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb 29

×