SlideShare a Scribd company logo
PRML
  1.2.4
  1.2.5
  1.3
ガウス分布

正規分布、もしくはガウス分布という。

N(χ|ν,σ2) と書かれる。

νが平均、σ2が分散となっている。
もちろん分散の平方数 σ が標準偏差となる。

分散の逆数を精度パラメーターと呼ぶ。
ガウス分布

N(χ|ν,σ2)>0を満たしている。


らしい。


たぶん。分母の0を認めないから、ではないだろう
か。
正規分布表
http://blog-imgs-35.fc2.com/r/e/a/realwave/Normal_distribution_pdf.png
備考.モーメント

積率とも呼ばれる。
確率変数のべき乗に対する期待値で与えられる。
Xを確率変数、αを定数とした時、

  〈(x-α)n〉,n=1,2,...

と定義されている。
備考.n次モーメント

〈(X-α)n〉に対し、特にα=0の時
mnと表され、n次のモーメントという。

   〈Xn〉:=mn 
またこの時
   平均 ν = m1
   分散 σ2=m2-(m1)2
と表現できる。
備考.n次の中心モーメント

mnのモーメントに対して、m1に関するモーメントを
νn で表し、n次の中心モーメントという。

νn=〈(X-m1)n〉 :n次の中心モーメント

ここで2次の中心モーメントν2は
分散σ2と一致する
D次元でのガウス分布

 x={χ1,χ2,...χN}T
        N個のデータからなるデータ集合
 ∑
       DxDの行列
 |∑|
  ∑の行列式(det∑)
 独立同分布 i.i.d
  independent Identically distributed
補足.尤度関数

ある前提条件にしたがって結果が導出される際に、
その結果からみて「前提」を推測し、その尤もらしさ
を表現する数値を変数として扱う関数。

らしいです。
図を考えてみました。
補足.尤度関数.こんな感じ?
補足.尤度関数.例

                                                     この場合0.6
                                                     付近が変数
                                                     αだと推測
                                                     される




https://skitch-img.s3.amazonaws.com/20090516-x3ftyup4myyhe1yau8pe18jsw7.jpg
D次元のガウス分布と尤度関数

ガウス分布の未知のパラメーターνとσ2を決定す
るために、尤度関数を最大化する。

なお、尤度関数の対数を最大化するようにして計
算量を低くできる。

対数関数のグラフを思い出してみるとわかりやす
い。
指数の爆発は置いておくとして
D次元のガウス分布と尤度関数

νに対しての尤度関数の値をνML
σ2に対しての尤度関数の値をσ2ML
とする。
 式1.55
 式1.56

なお、同時に最大化を評価するときは
νに対して最大化し、その後にσ2を評価する。
バイアスの問題.足がかり

後に本書で述べられることではある。
最尤のアプローチでは特に分布の分散が系統的
に過小評価されている。これはバイアスと呼ばれる
現象の例であり、
多項式曲線フィッティングにおける過学習の問題
に関連している。
バイアスの問題.足がかり

最尤解νML,σ2MLはデータ集合χ1,...,χNの関数で
あることに注意する。
これらの量のパラメータν,σ2を持つガウス分布に
従うデータ集合に関する期待値を考える。
 式1.57 |  式1.58
となり、平均はいいけど、分散は(N-1)/N倍過小評
価されることが示されている。
バイアスの問題.足がかり

式1.58から、
 式1.59
は分散パラメータの不偏推定量になる。10節(すご
い先)ではこの結果がベイスアプローチによってど
のように自動的に得られるかがわかる。
最尤解のバイアスはデータ点Nが増えればあまり
重大ではなくなり、
N→∞の極限では分散の最尤解はデータを生成し
た分布の真の分布に一致する。
バイアスの問題.足がかり

Nが小さいという理由以外ではバイアスは深刻な
問題にはならないことが示されている。
しかしながら本書を通して多くのパラメーターを持
つより複雑なモデルを扱うので、最尤推定に伴うバ
イアスの問題ははるかに難しくなる。

:過学習の問題の根本にバイアスがある。
曲線フィッティング再訪

つかみは同じ。
確率的な観点から曲線フィッティングを考える。誤
差関数と正則化などを利用し、完全なベイズ的取り
扱いに進む。

N個の入力値で構成される訓練データの集合
x=(χ1,...,χN)T と対応する目標値t=(t1,...,tN)T
訓練集合にもとづいて与えられた新しい入力値χ
に対する目標変数tの予測をする。
曲線フィッティング再訪

目標変数に対する不確実性(誤差?)は確率分布
を使って表すことができる。
与えられたχに対し、対応するtは平均が1.1式で
与えられる多項式曲線y(χ,w)に等しいガウス分布
に従うものとする。
曲線フィッティング再訪

以降(たぶん本書これからずっと)
β := (σ2)-1 
とする。すなわち
β-1 は σ2 を意味する。

式 1.60

訓練データ{χ,t}を使って未知のパラメーター
w,β を求めるために尤度推定を使う。
曲線フィッティング再訪

データが先ほどのp(t|χ,w,β)の分布から独立に取
られたものだとすると、
尤度関数は

式 1.61

で与えられる。これも同様に尤度関数の対数を最
大化するほうが便利である。
曲線フィッティング再訪

対数尤度関数は
 式 1.62
で得られる。
まずは最尤解によって定まる多項式の係数
wMLを考える。式1.62 をwについて最大化して決ま
る。この時に右辺の二項はw依存しないので無視
することができる。
曲線フィッティング再訪

また、正の定数倍をしてもwの最大値の位置は変わ
らないので、
β/2 を 1/2 で置き換えることができることに注意す
る。
最後に、対数尤度を最大化する代わりにそれと等
価な、負の対数尤度を最小にすることができる。
曲線フィッティング再訪

すると尤度の最大化はwを決めるという観点からは
1.2説 で定義される二乗和誤差の最小化と等価で
あることがわかる。

したがって二乗和誤差関数はノイズがガウス分布
に従うという仮定の下で尤度の最大化の結果として
みなせる。
曲線フィッティング再訪

条件付きガウス分布の精度パラメーターβを決める
のにも最尤推定を使うことができる。
式1.62をβについて最大化すると、
 式1.63
を得る。
この場合においてもパラメータベクトルwMLを最初
に求め、そこから式1.63の平均を計算することに
よって、精度パラメータβMLを求める事ができる。
単純ガウス分布においても同様。
曲線フィッティング再訪

パラメータw,βが決まれば、χの新たな値に対する
予測ができる。
これまで確率モデルを使って定式化してきたので、
その予測は単なる点予測値ではなく、
予測分布という形で t の確率分布を与えることがで
きる。

予測分布: predictive distribustion
曲線フィッティング再訪

式1.60 を最尤パラメーターで置き換えれば
 式1.64
という形で得られる。

さらに多項式係数wに関する事前分布を導入し、ベ
イズ的なアプローチに進む。
曲線フィッティング再訪

まずは簡単のため(簡単とは思えないけど)
 式1.65
という形のガウス分布を考える。

α:分布の精度パラメーター
M+1:M次多項式に対するベクトルwの要素数
モデル選択

最小二乗法で多項式曲線をあてはめた例におい
て、最も良い汎化を示した適切な次数の多項式が
あることをみた。
 :多項式曲線を予測した時に、最適な次数の多
項式が出てくるよね、ということ?

多項式の次数はモデルの自由パラメーターの数を
制限し、したがってモデルの複雑さを支配する。
モデル選択

正則化した最小二乗法では正則化係数λもモデ
ルの実質的な複雑さを制御しており、
一方混合分布やニューラルネットワークといった複
雑なモデルにおいては、複雑さを支配する複数の
パラメーターが別に存在し得る。
モデル選択

実際の応用ではそういったパラメーターの値を決め
なければならないが、その主な目的は通常、新た
なデータに対して最も良い予測をすることである。
さらに与えられたモデル内の複雑さパラメータの適
切な値を決めるのとあわせて、異なる型のモデルも
考慮し、それぞれの応用ごとに最も良いモデルを
見つけたい。
モデル選択

すでにガウス分布の項目で述べたように、最尤アプ
ローチでは過学習の問題があるので、訓練集合に
対する性能というのは、予測性能の良い指標では
ない。

データが十分にあれば、手持ちのデータのちイブ
を使っていろいろなモデルを学習するか、あるいは
ひとつのモデルの複雑さパラメータの値を変えるか
したあと、独立なデータで比較し性能評価するのが
単純である。
モデル選択

この比較用のデータは確認用集合(検証用集合)と
呼ばれる。

限られたサイズのデータ集合を使ってモデルの設
計を何度も繰り返すと確認用集合にも過学習してし
まうことがあるので、三番目のテスト集合を別に用意
しておいて、選んだモデルの性能を最終的に評価
する必要がある。
モデル選択

しかし、多くの場合では訓練とテストに使えるデータ
は限られており、良いモデルを作るためには得られ
たデータはできるだけ沢山訓練に使いたい。
一方、確認用集合が小さいと予測性能の推定誤差
が大きくなる。
このジレンマを解く為に、交差確認という方法があ
る。
モデル選択.交差確認

交差検証(cross-validation)ともいう。
得られたデータの内、(S-1)/S の割合部分を訓練
に使いつつ、全データの性能評価に使うことができ
る。
データが特に少ない時にはデータ点数をNとした時
に S=N と考えるのが妥当であり、これをLOO法(1
個抜き法:Leave-one-out-method)と呼ぶ。
モデル選択.交差確認

欠点として訓練を行わなければならない回数がSに
比例して大きくなることがある。
複数の複雑さパラメータを保つ場合、訓練回数が
指数爆発の様に増えてしまうため、交差確認よりも
良いアプローチが必要となる。
モデル選択

理想的には、訓練データだけに依存し、一回の訓
練だけで超パラメータとモデルのタイプを比較でき
るものが望ましい。

そこで、訓練データだけに依存し、過学習によるバ
イアスを持たない性能の尺度が必要となる。
モデル選択

歴史的には情報量基準と呼ばれるものが提案され
てきたが、これは複雑なモデルによる過学習に罰
金項を足すことによって、最尤推定のバイアスを修
正しようということである。
たとえば赤池情報量基準(AIC)では
 式1.73
という量が最大になるモデルを選ぶ。
モデル選択

p(D|wML):最尤推定を行った場合の対数尤度
M:モデルの中の可変パラメータ数

これの変種にベイズ情報量規準(BIC)というものが
あり、4.4.1節で議論するらしい。
モデル選択

しかしながら、こうした基準はモデルパラメータの不
確実性は考慮しておらず、実際には過度に単純な
モデルを選ぶ傾向にある。

そこで、3.4節では複雑さに罰金を得耐えるのに自
然で理にかなった方法として、完全なベイズアプ
ローチを採用する。
日本語と英語対応(論文検索とか)

正規分布: normal distribution
ガウス分布: Gaussian distribution
精度パラメーター:precision parameter
独立同分布:independent identically distributed
二乗和誤差:sum-of-squares error
予測分布:predictive distribution
最大事後確率推定:maximum posterior
交差確認:cross-validation
情報量基準:information criterion

More Related Content

What's hot

PRML読書会#2,#3資料
PRML読書会#2,#3資料PRML読書会#2,#3資料
PRML読書会#2,#3資料Hiromasa Ohashi
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足Hiromasa Ohashi
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
Takushi Miki
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
Takuto Kimura
 
Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰
Yuki Matsubara
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
matsuolab
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
Ohsawa Goodfellow
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
matsuolab
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
Takafumi Sakakibara
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
matsuolab
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
KokiTakamiya
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似
KokiTakamiya
 
PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
matsuolab
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
nocchi_airport
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
Takashi Tamura
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Toshihiko Iio
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
matsuolab
 

What's hot (20)

PRML読書会#2,#3資料
PRML読書会#2,#3資料PRML読書会#2,#3資料
PRML読書会#2,#3資料
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 
Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
PRML8章
PRML8章PRML8章
PRML8章
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似
 
PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 

Viewers also liked

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
sleepy_yoshi
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節Koji Matsuda
 
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
zakktakk
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
tetsuro ito
 
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~Takanori Suzuki
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
 
機械学習プロフェッショナルシリーズ輪読会 #2 Chapter 5 「自己符号化器」 資料
機械学習プロフェッショナルシリーズ輪読会 #2 Chapter 5 「自己符号化器」 資料機械学習プロフェッショナルシリーズ輪読会 #2 Chapter 5 「自己符号化器」 資料
機械学習プロフェッショナルシリーズ輪読会 #2 Chapter 5 「自己符号化器」 資料
at grandpa
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
Hidekazu Tanaka
 
機械学習概論 講義テキスト
機械学習概論 講義テキスト機械学習概論 講義テキスト
機械学習概論 講義テキスト
Etsuji Nakai
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11
Minoru Chikamune
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
Danushka Bollegala
 
[AWSマイスターシリーズ] AWS CLI / AWS Tools for Windows PowerShell
[AWSマイスターシリーズ] AWS CLI / AWS Tools for Windows PowerShell[AWSマイスターシリーズ] AWS CLI / AWS Tools for Windows PowerShell
[AWSマイスターシリーズ] AWS CLI / AWS Tools for Windows PowerShell
Amazon Web Services Japan
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門Momoko Hayamizu
 

Viewers also liked (15)

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
 
機械学習プロフェッショナルシリーズ輪読会 #2 Chapter 5 「自己符号化器」 資料
機械学習プロフェッショナルシリーズ輪読会 #2 Chapter 5 「自己符号化器」 資料機械学習プロフェッショナルシリーズ輪読会 #2 Chapter 5 「自己符号化器」 資料
機械学習プロフェッショナルシリーズ輪読会 #2 Chapter 5 「自己符号化器」 資料
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
 
機械学習概論 講義テキスト
機械学習概論 講義テキスト機械学習概論 講義テキスト
機械学習概論 講義テキスト
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
 
[AWSマイスターシリーズ] AWS CLI / AWS Tools for Windows PowerShell
[AWSマイスターシリーズ] AWS CLI / AWS Tools for Windows PowerShell[AWSマイスターシリーズ] AWS CLI / AWS Tools for Windows PowerShell
[AWSマイスターシリーズ] AWS CLI / AWS Tools for Windows PowerShell
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門
 

Prml 1.2,4 5,1.3|輪講資料1120