• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
PRML復々習レーン#12 前回までのあらすじ
 

PRML復々習レーン#12 前回までのあらすじ

on

  • 2,139 views

PRML復々習レーン#12 前回までのあらすじ発表資料

PRML復々習レーン#12 前回までのあらすじ発表資料

Statistics

Views

Total Views
2,139
Views on SlideShare
651
Embed Views
1,488

Actions

Likes
2
Downloads
9
Comments
0

4 Embeds 1,488

http://d.hatena.ne.jp 1483
http://hatenatunnel.appspot.com 2
http://dhatenane.greatbabyfood.com 2
http://k.hatena.ne.jp 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    PRML復々習レーン#12 前回までのあらすじ PRML復々習レーン#12 前回までのあらすじ Presentation Transcript

    • PRML復々習レーン#12 前回までのあらすじ 2013-07-21 Yoshihiko Suhara @sleepy_yoshi v.1.0
    • 前回のおさらい • 復々習レーンの復習を10分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容 • 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください • 目的 – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため ポイントだよ 2 ポイント小僧の向きに意味はありません ポイントだよ
    • 前回の範囲 • 7章 疎な解を持つカーネルマシン – 7.1 最大マージン分類器 • 7.1.1 重なりのあるクラス分布 • 7.1.2 ロジスティック回帰との関係 • 7.1.3 多クラスSVM • 7.1.4 回帰のためのSVM • 7.1.5 計算論的学習理論 – 7.2 関連ベクトルマシン • 7.2.1 回帰問題に対するRVM • 7.2.2 疎性の解析 • 7.2.3 分類問題に対するRVM • 8章 グラフィカルモデル – 8.1 ベイジアンネットワーク • 8.1.1 例:多項式曲線フィッティング • 8.1.2 生成モデル • 8.1.3 離散変数 • 8.1.4 線形ガウスモデル 3
    • 7章 疎な解を持つカーネルマシン 4
    • 7.1.5 計算論的学習理論 PAC学習 ≒ 統計的検定 訓練データとモデルの複雑さ (VC次元) で 汎化誤差を評価 • PAC学習 (だいたい確率的に正しい) • モデルの表現力が高い≒同じ汎化誤差達成に必要な 訓練データたくさん • マージン最大化は実効VC次元を押さえることで仮説 空間の大きさを絞り込むため,高い汎化誤差を達成 – 正確には悪い汎化誤差を生み出すのを防いでいる ポイントだよ 5
    • 7.2 関連ベクトルマシン 出力が確率であり,SVMよりも疎な解が出せる 最強のカーネルマシン,それがRVM • RVMのPros & Cons – Pros  •  出力が確率 – SVMの出力は確率ではない (確率的に扱うことも可能) •  パラメータ探索が不要 (i.e., SVMにおけるCパラメータ) •  SVMよりもスパースな解 – Cons  • 目的関数が非凸.学習に時間がかかる – パラメータ探索が不要だから全体としては速いよ ポイントだよ 6
    • 7.2.1 回帰問題に対するRVM RVMは基本的にベイズ線形回帰 予測分布の分散とカーネルに対する重みの 分散の事前分布をデータから決定するのが違い • 予測分布は 𝑝 𝑡 𝒙, 𝒘, 𝛽 = 𝒩 𝑡 𝑦 𝒙 , 𝛽−1 – ここで 𝑦 𝑥 = 𝑤 𝑛 𝑘(𝒙, 𝒙 𝑛)𝑁 𝑛=1 + 𝑏 • 各データ点に対応する重みパラメータ𝑤𝑖は平均0,精度𝛼𝑖の事前分布 𝒩 𝑤𝑖 0, 𝛼𝑖 −1 を仮定 – 𝛼𝑖 → ∞ のとき,対応するデータ点は予測に影響を与えない • ゼロでない重みを持つ基底関数に対応するデータを関連ベクトルと呼ぶ ポイントだよ 7 𝛽もデータから自動決定 = サポートベクタ回帰における𝜖許容誤差の調整が不要
    • 7.2.2 疎性の解析 疎になる (ry • 左の図は𝛼𝑖有限の場合に尤度最大化 • 右の図は𝛼𝑖を無限大にするのが尤度最大化 ポイントだよ 8
    • 7.2.3 分類問題に対するRVM RVMによる関連ベクトルと SVMによるサポートベクトルの違い • SVM超平面付近に集中 • RVM必ずしも超平面付近ではない ポイントだよ 9
    • 8章 グラフィカルモデル 10
    • 8章 グラフィカルモデル 確率変数間の関係を有向グラフや無向グラフで表現 することで複雑な確率モデルの設計・学習を容易に行える • グラフィカルモデルの利点 – 確率モデルの視覚化が容易 – グラフ構造を調べることで条件付き独立性などがわかる – 推論や学習における計算をグラフ上の操作として表現可能 • グラフィカルモデルの分類 – 有向グラフ • ベイジアンネットワーク (有向グラフィカルモデル) – 無向グラフ • マルコフ確率場 (無向グラフィカルモデル) • 因子グラフ ポイントだよ 11
    • 8.1 ベイジアンネットワーク 確率変数間の関係を有向グラフで表現することで 同時分布を条件付き確率の積に分解できる • 同時確率の分解方法は一意ではない 𝑝 𝑎, 𝑏, 𝑐 = 𝑝 𝑐 𝑎, 𝑏 𝑝 𝑏 𝑎 𝑝(𝑎) 𝑝 𝑎, 𝑏, 𝑐 = 𝑝 𝑏 𝑎, 𝑐 𝑝 𝑎 𝑐 𝑝(𝑐) • 確率変数の依存関係を有向グラフで表現 𝑝 𝒙 = 𝑝 𝑥 𝑘 pa 𝑘 𝐾 𝑘=1 ポイントだよ 12
    • 8.1.1 例:多項式曲線フィッティング 確率変数は塗りつぶさない円 観測変数は影付き円,決定的パラメータは小さい黒丸 • ベイズ多項式回帰をグラフィカルモデルで表現 ポイントだよ 13 決定的パラメータ 観測変数 確率変数 この枠に囲まれたノードが 𝑁個存在することを表現
    • 8.1.2 生成モデル 観測データの確率分布をモデル化すれば 新しいデータの生成が可能 • たとえば有向グラフの先祖からサンプリングを行 う伝承サンプリングなどがある ポイントだよ 14
    • 8.1.3 離散変数 依存関係やパラメータ共有を利用することで 確率変数の組み合わせパラメータを減らすことができる • 𝐾個の状態を取る離散確率変数が𝑀個ある場合 – 全結合グラフにおいて • 任意の同時分布は𝐾 𝑀 − 1個のパラメータが必要 – 全ての確率変数が独立だと仮定すると • 𝑀(𝐾 − 1)個のパラメータですむ – 鎖状に連結したグラフにおいて • 𝐾 − 1 + 𝑀 − 1 𝐾 𝐾 − 1 • 条件付き分布にパラメトリックな分布を利用する – e.g., ロジスティックシグモイドでモデル化 𝑝 𝑦 = 1 𝑥1, … , 𝑥 𝑀 = 𝜎 𝑤0 + 𝑤𝑖 𝑥𝑖 𝑀 𝑖=1 ポイントだよ 15
    • 8.1.4 線形ガウスモデル 超 (ハイパー) パラメータの事前分布を 導入する階層ベイズモデルの一例 • ガウス分布の平均の事前分布はガウス分布,その平均の 事前分布もガウス分布 – それらの同時分布もガウス分布なので,ベイズ的取扱いが可 能 • 超パラメータに対して事前分布 (超事前分布) を導入する モデルを階層ベイズモデルと呼ぶ ポイントだよ 16 ガウス! ガウス! ガウス!
    • つづく さぁ今日も一日 がんばるぞ 17