1章
読書会#1 資料
twitter: @wrist
facebook: hiromasa.ohashi

13年12月25日水曜日
スライド作成について
•
•
•

図: 著者HPから落としてくる
表: CamScannerというiPhoneアプリで撮影
数式: tex2imgで画像を作成

•
13年12月25日水曜日

osxだとCUI版がある
まえがき
• 追加資料のURL
• http://research.microsoft.com/en-us/um/
people/cmbishop/PRML

• PRMLに載ってるURLでもリダイレクト
されます

13年12月25日水曜日
数式の表記(1)

13年12月25日水曜日
数式の表記(2)

13年12月25日水曜日
数式の表記(3)

•

最後のXの書体が怪しい
(ここではタイプライタ体)

13年12月25日水曜日
第1章 目次(1)
1.

序論
1.1. 例:多項式フィッティング
1.2. 確率論
1.2.1.確率密度
1.2.2.期待値と分散
1.2.3.ベイズ確率
1.2.4.ガウス分布
1.2.5.曲線フィッテイング再訪
1.2.6.ベイズ曲線フィッティング

13年12月25日水曜日
第1章 目次(2)
1.

序論
1.3. モデル選択
1.4. 次元の呪い
1.5. 決定理論
1.5.1.誤識別率の最小化
1.5.2.期待損失の最小化
1.5.3.棄却オプション
1.5.4.推論と決定
1.5.5.回帰のための損失関数

13年12月25日水曜日
第一章 目次(3)
1. 序論
1.6.情報理論
1.6.6.相対エントロピーと相互情報量

13年12月25日水曜日
序論

• 28x28ピクセルの画像
= 784次元の実数値ベクトルx

13年12月25日水曜日
機械学習のアプローチ
•

訓練集合(training set)を使ってモデルのパラメー
タを適応的に調整

•
•
•

N個の手書き数字の集合{x1,...,xN}
訓練集合の各々の数字は既知

各々の数字に対応するカテゴリは
目標ベクトル(target vector)tを用いて表現

13年12月25日水曜日
モデルの決定
•

機械学習によってy(x)を獲得

•

入力画像xに対して目標ベクトルと同じ符号
化の出力ベクトルy

•
•

訓練(training)段階、学習(learning)段階

テスト集合(test set)に対しても数字を推定可能

•

汎化(generalization)

•
13年12月25日水曜日

訓練に用いたのとは異なる事例の分類能力
実際の応用
• 前処理(preprocessing)によって新しい変
数に変換

• 画像の場合は拡大縮小、回転
• 特徴抽出(feature extraction)とも
13年12月25日水曜日
機械学習の分類
•

教師あり学習(supervised learning)

•
•

•

クラスタリング(clustering)
密度推定(densitiy estimation)
視覚化(visualization) => 射影なども含む

強化学習(reinforcement learning)

•
13年12月25日水曜日

出力が連続変数:回帰(regression)

教師なし学習(unsupervised learning)

•
•
•

•

出力が離散カテゴリ:クラス分類(classification)

報酬を最大にするような行動を見つける
1.1 例:多項式曲線フィッティング

• N個の観測点から緑の曲線を見つけたい
•
13年12月25日水曜日

新たな入力x^に対する予測
曲線フィッティング(curve fitting)

•
•
•

Mは多項式の次数(order)
多項式係数w0,...,wMをまとめてベクトルw
xの非線形関数であるがwの線形関数

•
13年12月25日水曜日

線形モデル(linear model)
fittingの方法

•
•

誤差関数(error function)の最小化
二乗和誤差(sum-of-squares error)

•
•
•
13年12月25日水曜日

1/2を乗じているのは変形時に便利なため
非負
0になるのはy(x,w)が全訓練データ点をちょうど通る時のみ
二乗誤差関数の幾何的解釈

• 緑のバーの二乗和が誤差関数
13年12月25日水曜日
誤差関数の最小化
• wで微分して0になる係数を探す
• 誤差関数はwに関して2次
• 微分すると線形
• ただひとつの解w*
• 結果として得られる多項式y(x,w)
13年12月25日水曜日
多項式の次数の選び方
• 多項式の次数Mの選択
• モデル比較(model comparison)、モデ
ル選択(model selection)

13年12月25日水曜日
様々なMに対する曲線

13年12月25日水曜日
過学習
• M=9の時は学習データとなる点全てを
通過しているが曲線が発散

• 過学習(過適合:over-fitting)

13年12月25日水曜日
Mによる汎化性能の違いの評価

•
•

テストセットを新たに作成し誤差を評価
平均二乗平方根誤差(root-mean-square error;
RMS error)による評価

•
•
13年12月25日水曜日

Nで割るので異なるデータ集合の比較が可能
平方根により目的変数tと同じ次元に
Mによる誤差の違い

•
•
•

小さなMでは誤差が大きい
3<M<8では誤差が小さい
M=9では訓練データに対しては誤差は0だが評価データに対
しては誤差が大きい

13年12月25日水曜日
なぜM=9の時にうまくいかないのか

• M=3次多項式と同程度以上の結果を出
すことができるのではないか?

• sinの級数展開には高次の項が存在

13年12月25日水曜日
Mによる係数の違い

• Mの増加に伴い係数が発散
• ランダムノイズに引きずられる
13年12月25日水曜日
M=9でデータサイズを変えた場合

•
•
13年12月25日水曜日

サイズが増えれば過学習の問題が深刻でなくなる
一般にモデルパラメータの何倍かのデータが必要
最尤推定と過学習
•

最小二乗誤差基準の学習

•
•
•

最尤推定(maximum likelihood)
過学習は最尤推定において一般的な性質

過学習を避ける方法

•

ベイズ的(Bayesian)アプローチが有効

•
•
13年12月25日水曜日

有効パラメータ数(number of effective parameters)が自
動的にデータサイズに適合

誤差関数への罰則項の追加
最小二乗誤差基準で過学習を避けるには

•
•
•

正則化項(罰則項)の導入
||w||2=wTw=w0+w1+...+wM

•

縮小推定(shrinkage)

•
•
13年12月25日水曜日

w0は外すこともある

2次の正則化の場合はリッジ回帰(ridge regression)
ニューラルネットワークでは荷重減衰(weight decay)
λの値による変化

• lnλ=-18だと良いが
lnλ=0だと再び
悪くなる
13年12月25日水曜日
正則化項が汎化誤差に与える影響

•

RMS誤差をlnλに対してプロット

•
•
13年12月25日水曜日

λが実質的なモデルの複雑さを制御

訓練集合だけでなく確認用集合(検証用集合; validation
set; ホールドアウト集合(hold-out set))も使うべき
1.2 確率論(probability theory)

• 不確実性に対する定量化と操作に関す
る一貫した枠組みを与える

• パターン認識の中心

13年12月25日水曜日
確率論の概念

• 箱の一つをランダムに選び、果物を一
つランダムに選ぶ

• 赤の箱を40%、青の箱を60%で選ぶ
13年12月25日水曜日
楽天スーパーセール
•

楽天が優勝した時にみかん二箱買ったら
一箱に纏められて送られてきました

•

13年12月25日水曜日

二箱とは一体
確率の直感的な定義
• どの箱を選ぶかを表す確率変数B={r,b}
• どの果物を選ぶかを表す確率変数F={a,o}
• 確率=(ある事象の生起回数)/(全試行回数)
• ただし無限回試行した時の極限
• P(B=r)=4/10, P(B=b)=6/10
• Pは[0,1]に収まり、総和が1
13年12月25日水曜日
確率に関する2つの法則

•
•

13年12月25日水曜日

確率の加法定理(sum rule of probability)
確率の乗法定理(product rule of probability)
設定の一般化
•
•

2つの確率変数X,Y
Xは任意のxi(i=1,...,M)、
Yは任意のyj(j=1,...L)

•
•

全N回の試行、X=xi,Y=yjとなる試行回数をnij
Yと無関係にX=xiとなる回数をci、
Xと無関係にY=yjとなる回数をrj

13年12月25日水曜日
各種確率
同時確率
(結合確率; joint probability)
周辺確率
(marginal probability)

加法定理の適用

条件付き確率
(conditional probability)
乗法定理

13年12月25日水曜日
確率の基本法則とベイズの定理

• 確率の加法定理と確率の乗法定理
• ベイズの定理(Bayes’ theorem)
• p(X,Y)=p(Y,X)よりp(Y|X)p(X)=p(X|Y)p(Y)
13年12月25日水曜日

大阪PRML読書会#1資料