PRML1.1

Pattern Recognition and Machine Learning (PRML)
パターン認識と機械学習 (ベイズ理論による統計的予測) 上

第1章序論
１．１多項式フィッティング
１．2 確率論
１.2.1 確率密度
1.2.2 期待値と分散
1.2.3 ベイズ確率
1.2.4 ガウス分布
1.2.5 曲線フィッティング再訪
1.2.6 ベイズ曲線フィッティング
１．3 モデル選択
１．4 次元の呪い
１．5 決定理論
１.5.1 識別率の最小化
１.5.2 期待値損失と最小化
１.5.3 棄却オプション
１.5.4 推論と決定
１.5.5 回帰のための損失関数
１.6 情報理論
１.6.1 相対エントロピーと相互情報量

“パターン認識は、計算機アルゴリズムを通じて、データの中の規則性を自動的に
見つけ出し、さらにその規則性を使ってデータを異なるカテゴリに分類する処理”
Pattern Recognition and Machine Learning (PRML)
⇒ まずパターン認識とは？
0
1
9
2
…
784
1
アルゴリズム
28
28
Ex) 手書き数字認識
ベクトルX

どうやってこのアルゴリズムを作成するか？
－人が見つけ出した経験的な規則(ヒューリスティック)は機械では使えない
－人が識別のためのルールを設定する ⇒ ルール数が発散、例外
機械が扱うルールは機械が決める ⇒ 機械学習
手書き文字機械学習数字
機械学習の目標は，入力 x に対して適切な出力 y を返す関数 y(x) を見つけること
学ぶ段階を訓練段階や学習段階といい，学習に用いるデータを訓練データという
そして、学んだことを活用するときに用いるデータをテストデータと呼ぶ

機械学習はデータやパターンの性質によって主に3つに分類される
強化学習
教師なし
学習
教師あり
学習
機械学習

機械学習はデータやパターンの性質によって主に3つに分類される
・教師あり学習 … データが入力とそれに対応する目標で構成される問題
入力と出力の関係を学習する
・教師なし学習 … データが入力のみで目標値が存在しない問題
データの構造を学習する
－クラスタリング: 類似した事例のグループを見つける
－密度推定: 入力空間におけるデータの分布を求める
－クラス分類: 入力を1つのカテゴリに割り当てる
－回帰問題: 入力から出力を予想する
・強化学習 … ある状況下で、報酬を最大にする適当な行動を学習する

入力変数 x を観測し、それを用いて目標変数 t を予測する
観測データにはノイズが乗っているため、 ෝ𝒙 に対する ො𝒕 の値には不確実性がある
確率論(1.2節)はそのような不確実性を定量的に表現する
観測変数 : 𝒙 ≡ (𝑥1, ⋯ , 𝑥 𝑁) 𝑇
目標変数 : 𝐭 ≡ (𝑡1, ⋯ , 𝑡 𝑁) 𝑇
予測
代表的な機械学習の例として、まず回帰問題を考える
回帰問題

𝑦 x, 𝒘 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2 + ∙∙∙ +𝑤 𝑀 𝑥 𝑀 = ෍
𝑗=0
𝑀
𝑤𝑗 𝑥 𝑗
多項式を用いたデータフィッティング
多項式
M: 多項式の次数, w：多項式の係数ベクトル
𝐬𝐢𝐧(𝟐𝛑𝒙)にランダムでノイズを加えたデータにフィッティングするような関数を考える
限られたデータ点から、それを生成した
元の関数(sin(2πx))を予想したい

二乗誤差関数
ｗを任意に固定したときの関数ｙ（ｙ、ｗ）の値と
訓練集合のデータ点のズレを計る誤差関数を最小化する
『𝑦 𝑥 𝑛, 𝑾 − 𝑡 𝑛 』は、真の値(𝑡 𝑛)と予測値(𝑦 𝑥 𝑛, 𝑾 )とのズレ
なるべくデータ点とのズレの総和が小さくなるような w を見つける

𝑀 = 0
𝑦 x, 𝒘 = 𝑤0
𝑦 x, 𝒘 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2
+ ∙∙∙ +𝑤 𝑀 𝑥 𝑀
= ෍
𝑗=0
𝑀
𝑤𝑗 𝑥 𝑗
多項式
𝑀 = 1
𝑦 x, 𝒘 = 𝑤0+𝑤1 𝑥
𝑴 = 𝟎, 𝟏 の場合、データへの当てはまりが良くない
関数 𝐬𝐢𝐧(𝟐𝛑𝒙)の表現としては不適当

𝑀 = 3
𝑦 x, 𝒘 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2
+ 𝑤3 𝑥3
𝑴 = 𝟑 のとき、グラフは 𝑴 = 𝟎, 𝟏の時よりも
関数 𝐬𝐢𝐧(𝟐𝛑𝒙)に良く当てはまっているといえる
𝑀 = 1
𝑦 x, 𝒘 = 𝑤0+𝑤1 𝑥
多項式の次数 𝑴 を増やしていけば、よりフィッティング性能が上がる？

𝑀 = 3
𝑦 x, 𝒘 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2
+ 𝑤3 𝑥3
𝑀 = 9
𝑦 x, 𝒘 = 𝑤0+𝑤1 𝑥 +∙∙∙ +𝑤9 𝑥9
𝑴 = 𝟗 のとき全データを通り、誤差 𝑬 𝒘∗ = 𝟎 となるが
グラフは発振していて、関数 𝐬𝐢𝐧(𝟐𝛑𝒙)の表現としては不適当
次数が増えると、予測関数はデータに含まれるノイズに強く影響される(過学習)

“目標は、新たなデータに対して正確な予想を行える高い汎化性能を達成すること”
でも、目標変数に誤差なく適応できてるなら
それでいいんじゃないの…？
汎化性能
学習時に与えられた訓練データだけに対してだけでなく
未知のデータに対するクラスラベルや関数値も正しく予測できる能力
訓練データだけに特化して高い性能を発揮する（過学習）のは良くない

“目標は、新たなデータに対して正確な予想を行える高い汎化性能を達成すること”
そのため、汎化性能が次数Mにどう依存するのかを定量的に評価したい
訓練時のデータとは異なるデータを使って誤差を評価する
平均二乗平方根誤差
二乗和誤差
Ｎで割ることでサイズの異なるデータ集合でも比較できる

M が0から大きくなると、訓練データの誤差は単調に減っていく．
テストデータは途中までは誤差が減るものの、M=9で誤差が急激に大きくなる
テスト誤差が大きい
訓練誤差は最も小さいが…
次数ごとに多項式フィッティングを行い、比較を行うと

何故、M=9のときは過学習してしまうのか？
様々な次数の時のｗの係数の結果を見てみると…
Ｍの増加に従って、ｗの係数が増大している
そのため、ランダムノイズに引きずられてしまう
テスト点１０個に対して、９次式は自由度が高すぎる

𝑴 = 𝟗
データ数 15個
𝑴 = 𝟗
データ数 100個
過学習を避けるにはどうしたらいいのか？
－過学習は自由度が高すぎるから起きた
－なら、学習データを増やして、自由度を下げればいい？
データ１００個のとき、データ15個に比べてフィッティングが良くなっている
データのサイズが大きくなれば、過学習の度合いは是正されていく

データがたくさんあれば過学習の問題を解決できそうだが
いつでも十分な数のデータがあるとは限らない…
過学習を避ける他の方法論
１．ベイズ的アプローチ（３．４節）
有効パラメータ数が自動的にデータ集合のサイズに適合する
２．誤差関数に罰金項を用いる (正則化)
！？
誤差関数に罰金項を付加することで係数が大きな値になるのを防ぐ
𝑤 2
= 𝑤0
2
+ 𝑤1
2
+ ⋯ + 𝑤 𝑀
2
正則化誤差関数

正則化を取り入れたときの9次のフィッティング
lnλ= －18では過学習が抑制されて、フィッティング性能が大幅に改善
lnλ= －18 lnλ= ０
しかし、lnλ= ０ではフィッティング性能が再び低下
λの値の選び方が重要

“λがモデルの実質的な複雑さを制御し、過学習の度合いを決定する”
汎化性能が正規化係数λにどう依存するのかを定量的に評価したい
訓練時のデータとは異なるデータを使って誤差を評価
正則化係数が
小さすぎると過学習
テスト誤差を最小にする
正規化係数

PRML1.1

Recommended

Recommended

More Related Content

More from Tomoyuki Hioki

More from Tomoyuki Hioki (12)

PRML1.1