1章
読書会#1 資料
twitter: @wrist
facebook: hiromasa.ohashi

13年12月25日水曜日
スライド作成について
•
•
•

図: 著者HPから落としてくる
表: CamScannerというiPhoneアプリで撮影
数式: tex2imgで画像を作成

•
13年12月25日水曜日

osxだとCUI版がある
まえがき
• 追加資料のURL
• http://research.microsoft.com/en-us/um/
people/cmbishop/PRML

• PRMLに載ってるURLでもリダイレクト
されます

13年12月25日水曜日
数式の表記(1)

13年12月25日水曜日
数式の表記(2)

13年12月25日水曜日
数式の表記(3)

•

最後のXの書体が怪しい
(ここではタイプライタ体)

13年12月25日水曜日
第1章 目次(1)
1.

序論
1.1. 例:多項式フィッティング
1.2. 確率論
1.2.1.確率密度
1.2.2.期待値と分散
1.2.3.ベイズ確率
1.2.4.ガウス分布
1.2.5.曲線フィッテイング再訪
1.2.6.ベイズ曲線フ...
第1章 目次(2)
1.

序論
1.3. モデル選択
1.4. 次元の呪い
1.5. 決定理論
1.5.1.誤識別率の最小化
1.5.2.期待損失の最小化
1.5.3.棄却オプション
1.5.4.推論と決定
1.5.5.回帰のための損失関数
...
第一章 目次(3)
1. 序論
1.6.情報理論
1.6.6.相対エントロピーと相互情報量

13年12月25日水曜日
序論

• 28x28ピクセルの画像
= 784次元の実数値ベクトルx

13年12月25日水曜日
機械学習のアプローチ
•

訓練集合(training set)を使ってモデルのパラメー
タを適応的に調整

•
•
•

N個の手書き数字の集合{x1,...,xN}
訓練集合の各々の数字は既知

各々の数字に対応するカテゴリは
目標ベクトル...
モデルの決定
•

機械学習によってy(x)を獲得

•

入力画像xに対して目標ベクトルと同じ符号
化の出力ベクトルy

•
•

訓練(training)段階、学習(learning)段階

テスト集合(test set)に対しても数字を推...
実際の応用
• 前処理(preprocessing)によって新しい変
数に変換

• 画像の場合は拡大縮小、回転
• 特徴抽出(feature extraction)とも
13年12月25日水曜日
機械学習の分類
•

教師あり学習(supervised learning)

•
•

•

クラスタリング(clustering)
密度推定(densitiy estimation)
視覚化(visualization) => 射影なども含...
1.1 例:多項式曲線フィッティング

• N個の観測点から緑の曲線を見つけたい
•
13年12月25日水曜日

新たな入力x^に対する予測
曲線フィッティング(curve fitting)

•
•
•

Mは多項式の次数(order)
多項式係数w0,...,wMをまとめてベクトルw
xの非線形関数であるがwの線形関数

•
13年12月25日水曜日

線形モデル(linear m...
fittingの方法

•
•

誤差関数(error function)の最小化
二乗和誤差(sum-of-squares error)

•
•
•
13年12月25日水曜日

1/2を乗じているのは変形時に便利なため
非負
0になるのはy(...
二乗誤差関数の幾何的解釈

• 緑のバーの二乗和が誤差関数
13年12月25日水曜日
誤差関数の最小化
• wで微分して0になる係数を探す
• 誤差関数はwに関して2次
• 微分すると線形
• ただひとつの解w*
• 結果として得られる多項式y(x,w)
13年12月25日水曜日
多項式の次数の選び方
• 多項式の次数Mの選択
• モデル比較(model comparison)、モデ
ル選択(model selection)

13年12月25日水曜日
様々なMに対する曲線

13年12月25日水曜日
過学習
• M=9の時は学習データとなる点全てを
通過しているが曲線が発散

• 過学習(過適合:over-fitting)

13年12月25日水曜日
Mによる汎化性能の違いの評価

•
•

テストセットを新たに作成し誤差を評価
平均二乗平方根誤差(root-mean-square error;
RMS error)による評価

•
•
13年12月25日水曜日

Nで割るので異なるデータ集...
Mによる誤差の違い

•
•
•

小さなMでは誤差が大きい
3<M<8では誤差が小さい
M=9では訓練データに対しては誤差は0だが評価データに対
しては誤差が大きい

13年12月25日水曜日
なぜM=9の時にうまくいかないのか

• M=3次多項式と同程度以上の結果を出
すことができるのではないか?

• sinの級数展開には高次の項が存在

13年12月25日水曜日
Mによる係数の違い

• Mの増加に伴い係数が発散
• ランダムノイズに引きずられる
13年12月25日水曜日
M=9でデータサイズを変えた場合

•
•
13年12月25日水曜日

サイズが増えれば過学習の問題が深刻でなくなる
一般にモデルパラメータの何倍かのデータが必要
最尤推定と過学習
•

最小二乗誤差基準の学習

•
•
•

最尤推定(maximum likelihood)
過学習は最尤推定において一般的な性質

過学習を避ける方法

•

ベイズ的(Bayesian)アプローチが有効

•
•
13年...
最小二乗誤差基準で過学習を避けるには

•
•
•

正則化項(罰則項)の導入
||w||2=wTw=w0+w1+...+wM

•

縮小推定(shrinkage)

•
•
13年12月25日水曜日

w0は外すこともある

2次の正則化の...
λの値による変化

• lnλ=-18だと良いが
lnλ=0だと再び
悪くなる
13年12月25日水曜日
正則化項が汎化誤差に与える影響

•

RMS誤差をlnλに対してプロット

•
•
13年12月25日水曜日

λが実質的なモデルの複雑さを制御

訓練集合だけでなく確認用集合(検証用集合; validation
set; ホールドアウト集合...
1.2 確率論(probability theory)

• 不確実性に対する定量化と操作に関す
る一貫した枠組みを与える

• パターン認識の中心

13年12月25日水曜日
確率論の概念

• 箱の一つをランダムに選び、果物を一
つランダムに選ぶ

• 赤の箱を40%、青の箱を60%で選ぶ
13年12月25日水曜日
楽天スーパーセール
•

楽天が優勝した時にみかん二箱買ったら
一箱に纏められて送られてきました

•

13年12月25日水曜日

二箱とは一体
確率の直感的な定義
• どの箱を選ぶかを表す確率変数B={r,b}
• どの果物を選ぶかを表す確率変数F={a,o}
• 確率=(ある事象の生起回数)/(全試行回数)
• ただし無限回試行した時の極限
• P(B=r)=4/10, P(B=b)...
確率に関する2つの法則

•
•

13年12月25日水曜日

確率の加法定理(sum rule of probability)
確率の乗法定理(product rule of probability)
設定の一般化
•
•

2つの確率変数X,Y
Xは任意のxi(i=1,...,M)、
Yは任意のyj(j=1,...L)

•
•

全N回の試行、X=xi,Y=yjとなる試行回数をnij
Yと無関係にX=xiとなる回数をci、
Xと無関係にY...
各種確率
同時確率
(結合確率; joint probability)
周辺確率
(marginal probability)

加法定理の適用

条件付き確率
(conditional probability)
乗法定理

13年12月25日...
確率の基本法則とベイズの定理

• 確率の加法定理と確率の乗法定理
• ベイズの定理(Bayes’ theorem)
• p(X,Y)=p(Y,X)よりp(Y|X)p(X)=p(X|Y)p(Y)
13年12月25日水曜日
Upcoming SlideShare
Loading in...5
×

大阪PRML読書会#1資料

1,099

Published on

大阪PRML読書会第一回の資料です。

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,099
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
20
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

大阪PRML読書会#1資料

  1. 1. 1章 読書会#1 資料 twitter: @wrist facebook: hiromasa.ohashi 13年12月25日水曜日
  2. 2. スライド作成について • • • 図: 著者HPから落としてくる 表: CamScannerというiPhoneアプリで撮影 数式: tex2imgで画像を作成 • 13年12月25日水曜日 osxだとCUI版がある
  3. 3. まえがき • 追加資料のURL • http://research.microsoft.com/en-us/um/ people/cmbishop/PRML • PRMLに載ってるURLでもリダイレクト されます 13年12月25日水曜日
  4. 4. 数式の表記(1) 13年12月25日水曜日
  5. 5. 数式の表記(2) 13年12月25日水曜日
  6. 6. 数式の表記(3) • 最後のXの書体が怪しい (ここではタイプライタ体) 13年12月25日水曜日
  7. 7. 第1章 目次(1) 1. 序論 1.1. 例:多項式フィッティング 1.2. 確率論 1.2.1.確率密度 1.2.2.期待値と分散 1.2.3.ベイズ確率 1.2.4.ガウス分布 1.2.5.曲線フィッテイング再訪 1.2.6.ベイズ曲線フィッティング 13年12月25日水曜日
  8. 8. 第1章 目次(2) 1. 序論 1.3. モデル選択 1.4. 次元の呪い 1.5. 決定理論 1.5.1.誤識別率の最小化 1.5.2.期待損失の最小化 1.5.3.棄却オプション 1.5.4.推論と決定 1.5.5.回帰のための損失関数 13年12月25日水曜日
  9. 9. 第一章 目次(3) 1. 序論 1.6.情報理論 1.6.6.相対エントロピーと相互情報量 13年12月25日水曜日
  10. 10. 序論 • 28x28ピクセルの画像 = 784次元の実数値ベクトルx 13年12月25日水曜日
  11. 11. 機械学習のアプローチ • 訓練集合(training set)を使ってモデルのパラメー タを適応的に調整 • • • N個の手書き数字の集合{x1,...,xN} 訓練集合の各々の数字は既知 各々の数字に対応するカテゴリは 目標ベクトル(target vector)tを用いて表現 13年12月25日水曜日
  12. 12. モデルの決定 • 機械学習によってy(x)を獲得 • 入力画像xに対して目標ベクトルと同じ符号 化の出力ベクトルy • • 訓練(training)段階、学習(learning)段階 テスト集合(test set)に対しても数字を推定可能 • 汎化(generalization) • 13年12月25日水曜日 訓練に用いたのとは異なる事例の分類能力
  13. 13. 実際の応用 • 前処理(preprocessing)によって新しい変 数に変換 • 画像の場合は拡大縮小、回転 • 特徴抽出(feature extraction)とも 13年12月25日水曜日
  14. 14. 機械学習の分類 • 教師あり学習(supervised learning) • • • クラスタリング(clustering) 密度推定(densitiy estimation) 視覚化(visualization) => 射影なども含む 強化学習(reinforcement learning) • 13年12月25日水曜日 出力が連続変数:回帰(regression) 教師なし学習(unsupervised learning) • • • • 出力が離散カテゴリ:クラス分類(classification) 報酬を最大にするような行動を見つける
  15. 15. 1.1 例:多項式曲線フィッティング • N個の観測点から緑の曲線を見つけたい • 13年12月25日水曜日 新たな入力x^に対する予測
  16. 16. 曲線フィッティング(curve fitting) • • • Mは多項式の次数(order) 多項式係数w0,...,wMをまとめてベクトルw xの非線形関数であるがwの線形関数 • 13年12月25日水曜日 線形モデル(linear model)
  17. 17. fittingの方法 • • 誤差関数(error function)の最小化 二乗和誤差(sum-of-squares error) • • • 13年12月25日水曜日 1/2を乗じているのは変形時に便利なため 非負 0になるのはy(x,w)が全訓練データ点をちょうど通る時のみ
  18. 18. 二乗誤差関数の幾何的解釈 • 緑のバーの二乗和が誤差関数 13年12月25日水曜日
  19. 19. 誤差関数の最小化 • wで微分して0になる係数を探す • 誤差関数はwに関して2次 • 微分すると線形 • ただひとつの解w* • 結果として得られる多項式y(x,w) 13年12月25日水曜日
  20. 20. 多項式の次数の選び方 • 多項式の次数Mの選択 • モデル比較(model comparison)、モデ ル選択(model selection) 13年12月25日水曜日
  21. 21. 様々なMに対する曲線 13年12月25日水曜日
  22. 22. 過学習 • M=9の時は学習データとなる点全てを 通過しているが曲線が発散 • 過学習(過適合:over-fitting) 13年12月25日水曜日
  23. 23. Mによる汎化性能の違いの評価 • • テストセットを新たに作成し誤差を評価 平均二乗平方根誤差(root-mean-square error; RMS error)による評価 • • 13年12月25日水曜日 Nで割るので異なるデータ集合の比較が可能 平方根により目的変数tと同じ次元に
  24. 24. Mによる誤差の違い • • • 小さなMでは誤差が大きい 3<M<8では誤差が小さい M=9では訓練データに対しては誤差は0だが評価データに対 しては誤差が大きい 13年12月25日水曜日
  25. 25. なぜM=9の時にうまくいかないのか • M=3次多項式と同程度以上の結果を出 すことができるのではないか? • sinの級数展開には高次の項が存在 13年12月25日水曜日
  26. 26. Mによる係数の違い • Mの増加に伴い係数が発散 • ランダムノイズに引きずられる 13年12月25日水曜日
  27. 27. M=9でデータサイズを変えた場合 • • 13年12月25日水曜日 サイズが増えれば過学習の問題が深刻でなくなる 一般にモデルパラメータの何倍かのデータが必要
  28. 28. 最尤推定と過学習 • 最小二乗誤差基準の学習 • • • 最尤推定(maximum likelihood) 過学習は最尤推定において一般的な性質 過学習を避ける方法 • ベイズ的(Bayesian)アプローチが有効 • • 13年12月25日水曜日 有効パラメータ数(number of effective parameters)が自 動的にデータサイズに適合 誤差関数への罰則項の追加
  29. 29. 最小二乗誤差基準で過学習を避けるには • • • 正則化項(罰則項)の導入 ||w||2=wTw=w0+w1+...+wM • 縮小推定(shrinkage) • • 13年12月25日水曜日 w0は外すこともある 2次の正則化の場合はリッジ回帰(ridge regression) ニューラルネットワークでは荷重減衰(weight decay)
  30. 30. λの値による変化 • lnλ=-18だと良いが lnλ=0だと再び 悪くなる 13年12月25日水曜日
  31. 31. 正則化項が汎化誤差に与える影響 • RMS誤差をlnλに対してプロット • • 13年12月25日水曜日 λが実質的なモデルの複雑さを制御 訓練集合だけでなく確認用集合(検証用集合; validation set; ホールドアウト集合(hold-out set))も使うべき
  32. 32. 1.2 確率論(probability theory) • 不確実性に対する定量化と操作に関す る一貫した枠組みを与える • パターン認識の中心 13年12月25日水曜日
  33. 33. 確率論の概念 • 箱の一つをランダムに選び、果物を一 つランダムに選ぶ • 赤の箱を40%、青の箱を60%で選ぶ 13年12月25日水曜日
  34. 34. 楽天スーパーセール • 楽天が優勝した時にみかん二箱買ったら 一箱に纏められて送られてきました • 13年12月25日水曜日 二箱とは一体
  35. 35. 確率の直感的な定義 • どの箱を選ぶかを表す確率変数B={r,b} • どの果物を選ぶかを表す確率変数F={a,o} • 確率=(ある事象の生起回数)/(全試行回数) • ただし無限回試行した時の極限 • P(B=r)=4/10, P(B=b)=6/10 • Pは[0,1]に収まり、総和が1 13年12月25日水曜日
  36. 36. 確率に関する2つの法則 • • 13年12月25日水曜日 確率の加法定理(sum rule of probability) 確率の乗法定理(product rule of probability)
  37. 37. 設定の一般化 • • 2つの確率変数X,Y Xは任意のxi(i=1,...,M)、 Yは任意のyj(j=1,...L) • • 全N回の試行、X=xi,Y=yjとなる試行回数をnij Yと無関係にX=xiとなる回数をci、 Xと無関係にY=yjとなる回数をrj 13年12月25日水曜日
  38. 38. 各種確率 同時確率 (結合確率; joint probability) 周辺確率 (marginal probability) 加法定理の適用 条件付き確率 (conditional probability) 乗法定理 13年12月25日水曜日
  39. 39. 確率の基本法則とベイズの定理 • 確率の加法定理と確率の乗法定理 • ベイズの定理(Bayes’ theorem) • p(X,Y)=p(Y,X)よりp(Y|X)p(X)=p(X|Y)p(Y) 13年12月25日水曜日
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×