Your SlideShare is downloading. ×
大阪PRML読書会#1資料
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

大阪PRML読書会#1資料

846
views

Published on

大阪PRML読書会第一回の資料です。

大阪PRML読書会第一回の資料です。

Published in: Technology

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
846
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
14
Comments
0
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 1章 読書会#1 資料 twitter: @wrist facebook: hiromasa.ohashi 13年12月25日水曜日
  • 2. スライド作成について • • • 図: 著者HPから落としてくる 表: CamScannerというiPhoneアプリで撮影 数式: tex2imgで画像を作成 • 13年12月25日水曜日 osxだとCUI版がある
  • 3. まえがき • 追加資料のURL • http://research.microsoft.com/en-us/um/ people/cmbishop/PRML • PRMLに載ってるURLでもリダイレクト されます 13年12月25日水曜日
  • 4. 数式の表記(1) 13年12月25日水曜日
  • 5. 数式の表記(2) 13年12月25日水曜日
  • 6. 数式の表記(3) • 最後のXの書体が怪しい (ここではタイプライタ体) 13年12月25日水曜日
  • 7. 第1章 目次(1) 1. 序論 1.1. 例:多項式フィッティング 1.2. 確率論 1.2.1.確率密度 1.2.2.期待値と分散 1.2.3.ベイズ確率 1.2.4.ガウス分布 1.2.5.曲線フィッテイング再訪 1.2.6.ベイズ曲線フィッティング 13年12月25日水曜日
  • 8. 第1章 目次(2) 1. 序論 1.3. モデル選択 1.4. 次元の呪い 1.5. 決定理論 1.5.1.誤識別率の最小化 1.5.2.期待損失の最小化 1.5.3.棄却オプション 1.5.4.推論と決定 1.5.5.回帰のための損失関数 13年12月25日水曜日
  • 9. 第一章 目次(3) 1. 序論 1.6.情報理論 1.6.6.相対エントロピーと相互情報量 13年12月25日水曜日
  • 10. 序論 • 28x28ピクセルの画像 = 784次元の実数値ベクトルx 13年12月25日水曜日
  • 11. 機械学習のアプローチ • 訓練集合(training set)を使ってモデルのパラメー タを適応的に調整 • • • N個の手書き数字の集合{x1,...,xN} 訓練集合の各々の数字は既知 各々の数字に対応するカテゴリは 目標ベクトル(target vector)tを用いて表現 13年12月25日水曜日
  • 12. モデルの決定 • 機械学習によってy(x)を獲得 • 入力画像xに対して目標ベクトルと同じ符号 化の出力ベクトルy • • 訓練(training)段階、学習(learning)段階 テスト集合(test set)に対しても数字を推定可能 • 汎化(generalization) • 13年12月25日水曜日 訓練に用いたのとは異なる事例の分類能力
  • 13. 実際の応用 • 前処理(preprocessing)によって新しい変 数に変換 • 画像の場合は拡大縮小、回転 • 特徴抽出(feature extraction)とも 13年12月25日水曜日
  • 14. 機械学習の分類 • 教師あり学習(supervised learning) • • • クラスタリング(clustering) 密度推定(densitiy estimation) 視覚化(visualization) => 射影なども含む 強化学習(reinforcement learning) • 13年12月25日水曜日 出力が連続変数:回帰(regression) 教師なし学習(unsupervised learning) • • • • 出力が離散カテゴリ:クラス分類(classification) 報酬を最大にするような行動を見つける
  • 15. 1.1 例:多項式曲線フィッティング • N個の観測点から緑の曲線を見つけたい • 13年12月25日水曜日 新たな入力x^に対する予測
  • 16. 曲線フィッティング(curve fitting) • • • Mは多項式の次数(order) 多項式係数w0,...,wMをまとめてベクトルw xの非線形関数であるがwの線形関数 • 13年12月25日水曜日 線形モデル(linear model)
  • 17. fittingの方法 • • 誤差関数(error function)の最小化 二乗和誤差(sum-of-squares error) • • • 13年12月25日水曜日 1/2を乗じているのは変形時に便利なため 非負 0になるのはy(x,w)が全訓練データ点をちょうど通る時のみ
  • 18. 二乗誤差関数の幾何的解釈 • 緑のバーの二乗和が誤差関数 13年12月25日水曜日
  • 19. 誤差関数の最小化 • wで微分して0になる係数を探す • 誤差関数はwに関して2次 • 微分すると線形 • ただひとつの解w* • 結果として得られる多項式y(x,w) 13年12月25日水曜日
  • 20. 多項式の次数の選び方 • 多項式の次数Mの選択 • モデル比較(model comparison)、モデ ル選択(model selection) 13年12月25日水曜日
  • 21. 様々なMに対する曲線 13年12月25日水曜日
  • 22. 過学習 • M=9の時は学習データとなる点全てを 通過しているが曲線が発散 • 過学習(過適合:over-fitting) 13年12月25日水曜日
  • 23. Mによる汎化性能の違いの評価 • • テストセットを新たに作成し誤差を評価 平均二乗平方根誤差(root-mean-square error; RMS error)による評価 • • 13年12月25日水曜日 Nで割るので異なるデータ集合の比較が可能 平方根により目的変数tと同じ次元に
  • 24. Mによる誤差の違い • • • 小さなMでは誤差が大きい 3<M<8では誤差が小さい M=9では訓練データに対しては誤差は0だが評価データに対 しては誤差が大きい 13年12月25日水曜日
  • 25. なぜM=9の時にうまくいかないのか • M=3次多項式と同程度以上の結果を出 すことができるのではないか? • sinの級数展開には高次の項が存在 13年12月25日水曜日
  • 26. Mによる係数の違い • Mの増加に伴い係数が発散 • ランダムノイズに引きずられる 13年12月25日水曜日
  • 27. M=9でデータサイズを変えた場合 • • 13年12月25日水曜日 サイズが増えれば過学習の問題が深刻でなくなる 一般にモデルパラメータの何倍かのデータが必要
  • 28. 最尤推定と過学習 • 最小二乗誤差基準の学習 • • • 最尤推定(maximum likelihood) 過学習は最尤推定において一般的な性質 過学習を避ける方法 • ベイズ的(Bayesian)アプローチが有効 • • 13年12月25日水曜日 有効パラメータ数(number of effective parameters)が自 動的にデータサイズに適合 誤差関数への罰則項の追加
  • 29. 最小二乗誤差基準で過学習を避けるには • • • 正則化項(罰則項)の導入 ||w||2=wTw=w0+w1+...+wM • 縮小推定(shrinkage) • • 13年12月25日水曜日 w0は外すこともある 2次の正則化の場合はリッジ回帰(ridge regression) ニューラルネットワークでは荷重減衰(weight decay)
  • 30. λの値による変化 • lnλ=-18だと良いが lnλ=0だと再び 悪くなる 13年12月25日水曜日
  • 31. 正則化項が汎化誤差に与える影響 • RMS誤差をlnλに対してプロット • • 13年12月25日水曜日 λが実質的なモデルの複雑さを制御 訓練集合だけでなく確認用集合(検証用集合; validation set; ホールドアウト集合(hold-out set))も使うべき
  • 32. 1.2 確率論(probability theory) • 不確実性に対する定量化と操作に関す る一貫した枠組みを与える • パターン認識の中心 13年12月25日水曜日
  • 33. 確率論の概念 • 箱の一つをランダムに選び、果物を一 つランダムに選ぶ • 赤の箱を40%、青の箱を60%で選ぶ 13年12月25日水曜日
  • 34. 楽天スーパーセール • 楽天が優勝した時にみかん二箱買ったら 一箱に纏められて送られてきました • 13年12月25日水曜日 二箱とは一体
  • 35. 確率の直感的な定義 • どの箱を選ぶかを表す確率変数B={r,b} • どの果物を選ぶかを表す確率変数F={a,o} • 確率=(ある事象の生起回数)/(全試行回数) • ただし無限回試行した時の極限 • P(B=r)=4/10, P(B=b)=6/10 • Pは[0,1]に収まり、総和が1 13年12月25日水曜日
  • 36. 確率に関する2つの法則 • • 13年12月25日水曜日 確率の加法定理(sum rule of probability) 確率の乗法定理(product rule of probability)
  • 37. 設定の一般化 • • 2つの確率変数X,Y Xは任意のxi(i=1,...,M)、 Yは任意のyj(j=1,...L) • • 全N回の試行、X=xi,Y=yjとなる試行回数をnij Yと無関係にX=xiとなる回数をci、 Xと無関係にY=yjとなる回数をrj 13年12月25日水曜日
  • 38. 各種確率 同時確率 (結合確率; joint probability) 周辺確率 (marginal probability) 加法定理の適用 条件付き確率 (conditional probability) 乗法定理 13年12月25日水曜日
  • 39. 確率の基本法則とベイズの定理 • 確率の加法定理と確率の乗法定理 • ベイズの定理(Bayes’ theorem) • p(X,Y)=p(Y,X)よりp(Y|X)p(X)=p(X|Y)p(Y) 13年12月25日水曜日