PRML1.3

パターン認識と機械学習
上巻 1.3-1.4
山岡大輝

本日の内容
・モデル選択
・次元の呪い

いかに良いモデルを選ぶか
1次多項式 9次多項式
モデルが単純過ぎると訓練
データを説明できていない
モデルが複雑過ぎると過学
習を起こす

過学習を防ぐ
22
1
1
( ) { ( , ) }
2 2
N
n n
n
E y x t


  w w w%
誤差関数に正則化項(罰金項)を導入
λ : 正則化パラメータ
訓練データとのズレモデルの複雑さ
λが小さ過ぎる → 訓練データとのズレを小さくすることを重視
複雑なモデルになりやすく過学習を起こしやすい
λが大き過ぎる → 単純なモデルにすることを重視
訓練データとのズレは二の次
結局，λがいくらであれば良いのか分からないと正則化項を導入しても意味がない

解決法
・確認用集合を用いる
訓練データの一部を検証用データ(確認用集合)とし，これに対する
適合度合いをもとに過学習が起きていないか判断．
検証用データに対しても過学習してしまう可能性．
データは貴重なので，できるだけ訓練データとして使いたい．
しかし

限られたデータの効率的利用
交差確認(cross-validation)
1. サンプルデータをS等分にする
2. 1個を評価に、残りS-1個を訓練に使う
3. 評価に使う部分を変えて、S回繰り返す
4. S回の性能スコアを平均する
※S = サンプルデータ数にしたものがLOO法
交差確認法の欠点(モデル選択における)
・学習回数が増える
・複雑なモデル(パラメータが複数)などの場合には有効ではない
(パラメータ数に対し、指数関数的に訓練回数が増える可能性)
S=4の例

情報量規準(information criterion)
理想 : 1回で複数の超パラメータとモデルのタイプを比較
罰金項を加えて最尤推定のバイアスを修正
赤池情報量規準(AIC)
: 最尤推定を行なった場合の尤度
: モデル中の可変パラメータの数
これが最大となるモデルを選択する
ln ( )MLp D Mw
( )MLp D w
M

情報量規準(information criterion)②
AICは確認用集合が無くても，訓練データさえあれば求まる
欠点：モデルパラメータの不確実性は考慮しておらず，過度
に単純なモデルを選ぶ傾向がある
他にも，ベイズ情報量規準(BIC)がある(詳しくは4.4.1節)

次元の呪いとは
多くの入力変数による高次元空間を扱う際の問題・課題・困難
• 高次元化に伴う計算量の問題
• 三次元以下の空間における直感的理解との齟齬
実データは高次元でもやりようがある
実データは多くの場合において
• 実質的に低次元のデータが目標変数へ影響
• (局所的には)滑らかな性質
→ 多様体や内挿といった考え方を利用可能

計算量の増加について
例:入力変数が2つで、3状態に分類されるデータ
このデータは
赤，青，緑のどれに分類すべきか？
単純な手法
→マス目に区切って、最大数が属するクラスに分類
今回は2入力で４×４に区切ったので，16マスで済んだ
→もっと次元数が増えたら同じことができるか？

計算量の増加について②
入力空間を高次元に拡張すると
・マス目の数が指数的に増加する
・全てのマス目にデータが少なくとも1つないとこの方法は破綻する
ので，指数的に多くの訓練データが必要

多項式フィッティングの例
高次元入力の場合(入力変数がD個)
・モデルが３次多項式の場合
・独立な係数の数はD3に比例して増加
→モデルがM次多項式ならDMに比例して増加
(入力データが10次元なら約1000個のパラメータを推定しなけ
ればならない→実際に用いるのは困難)
＊正確には置換対称性(𝑥1 𝑥2 𝑥3と𝑥1 𝑥3 𝑥2など)から独立なM係数はDM
個ではない(演習1.15 & 演習1.16)
0
1 1 1 1 1 1
( , )
D D D D D D
i i j i j k
i ij ijk
i i j i j k
y w w x w x x w x x x
     
     x w

低次元での直感との齟齬
半径 r = 1 の球の体積と、r=1と r = 1 – ε の間にある体積の比を考
える
D次元の半径rの球の体積は
＊𝐾 𝐷はDのみに依存する定数
D=2ならπ，D=3なら4
3
πなど(演習1.18)
求める比は
D
D DV K r
(1) (1 )
1 (1 )
(1)
DD D
D
V V
V


 
  
D=2の場合
1 ε

各次元での体積比
(1) (1 )
1 (1 )
(1)
DD D
D
V V
V


 
  
大きなDの場合
・小さなεに対しても1に近い
→εが小さい範囲に体積がつまって
いる
→高次元では球の殆どの体積が表面
に近い薄皮に集中している
(球面集中現象)

高次元ガウス分布の極座標系密度を調べる
ガウス分布は，中心（平均値）で確率密度が最大になるが，高次元
では中心付近にデータはほとんど分布しない．
それを確かめるために，ガウス分布を極座標に変換し，中心からの
距離ｒでの確率分布にする．(演習1.20)
※𝑆 𝐷は単位超球の表面積 (演習1.18)

高次元ガウス分布の極座標系

高次元ガウス分布の極座標系密度を調べる
”High-Dimensional Probability
An Introduction with Applications in Data Science”より

実データは高次元空間でもやりようがある
• 高次元データの重要な変数は限られている
実データは多くの場合，実質的には低い次元の領域に入っている．
さらに，特に目標変数の重要な変化が生じる方向は限定される場合
が多い．
• 高次元データは局所的には滑らかに変化する
入力データが少しだけ変化したとしても，得られる目標のデータに
は少ししか変化をもたらさない．

画像データの例
例:「ベルトコンベアの上の2次元形状の物体をキャプチャした画
像から、その向きを決める」という問題
• データの次元数はピクセル数
• 実際に画像間に存在する違いは「物体の位置と方向」のみ
（物体の位置x,y座標と角度θの3自由度）

PRML1.3

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

Similar to PRML1.3

Similar to PRML1.3 (9)

More from hiroki yamaoka

More from hiroki yamaoka (14)

PRML1.3

Editor's Notes