SlideShare a Scribd company logo
1 of 76
1




w8prml
 1.3 – 1.6
12/09/24
2


概要
1.3 モデルの選択
 • モデル選択のアプローチ
 • 確認用集合・テスト集合・交差確認法など
1.4 次元の呪い
 • 次元が大きくなることの弊害について
1.5 決定理論
 • 確率からのクラス分類について
 • 決定境界・棄却オプションなど
1.6 情報理論
 • 情報理論と確率理論やパターン認識・機械学習
 • 情報量・エントロピー・相互情報量など
3


1.3 モデル選択
•
4


 学習の流れ
               学習       モデル選択     性能評価


アルゴリズ         訓練集合      確認用       テスト
  ム                      集合       集合
  A



アルゴリズ         訓練集合      確認用       テスト
  ム                      集合        集合
  B



 • それぞれのアルゴリズムにおいて
   • 確認用集合を使って、複数のモデルから最良のものを選択
   • テスト集合を使って、最良のモデルの性能を評価
   • 評価結果から最良のアルゴリズムを選択
5


データの使い道
•
6


限られたデータの効率的利用
• 交差確認法(交差検定法)(cross-validation)
(LOO法(1個抜き法; leave-one-out method))
 1. サンプルデータをS等分にする               S=4の例

 2. 1個を評価に、残りS-1個を訓練に使う
 3. 評価に使う部分を変えて、S回繰り返す
 4. S回の性能スコアを平均する
 ※S = サンプルデータ数 にしたものがLOO法


• 交差確認法の欠点(モデル選択における)
  • 学習回数が増える
  • 複雑なモデル(パラメータが複数)などの場合には有効ではない
    (パラメータ数に対し、指数関数的に訓練回数が増える可能性)
7


情報量規準(information criterion)
•
8


赤池情報量規準の直感的理解
•
9

実際の例(教科書とは違うデータです
が)訓練データ(n=10)             各モデルでの二乗誤差の総和




同分布で乱数を取り直す(確認用集合)




• 赤池情報量規準によって最初の訓練データで M = 1 が最良と導ける
 ※対数尤度は、二乗誤差総和をデータ数(10)で割ったものの対数に比例
  (tの複雑さがガウス分布に従うと仮定した場合)
10


この他
• ベイズ情報量規準(Bayesian information criterion or BIC)
  • より、モデルの複雑さに対する罰則を強化したもの
  • 詳しくは 4.4.1 節
11


 1.4 次元の呪い
 • この節で言いたい事は以下のようなこと
1.次元の呪いと
は
  • 多くの入力変数による高次元空間を扱う際の問題・課題・困難
   • 高次元化に伴う計算量の問題
   • 一次元・二次元・三次元空間における直感的理解との齟齬

2.実データでは、高次元空間でもやりようが
ある
  • 実データは多くの場合において
   • 実質的に低次元のデータ(尐ないデータ)が目標変数へ影響
   • (尐なくとも局所的には)滑らかな性質
  → 多様体(manifold)や内挿(置換)といった考え方を利用可能
                 ×                 ○
12


例1:計算量の増加について(1)
• 例:入力変数が2つで、3状態に分類されるデータ


このデータは
赤青緑のいずれに分類すべきか?



単純な手法:
マス目に区切って、最大数が属
するクラスに分類



今回は2入力で、4x4に区切った
ので16マス。
ではもっと次元数が増えたら?
13


例1:計算量の増加について(2)
•




    ※D=3に対しては、立方体の領域の一部だけ示す
14


例2:多項式フィッティングの例
•
15

例3:低次元での直感との齟齬(球の体
積)
• 半径 r = 1 の球の体積と、r=1と r = 1 – ε の間にある体積の比を考える

                          D=2


                            1
                                     ε




                          D=3
16


例3:各次元での体積比
•
17


例4:高次元ガウス分布の極座標系密度
•
18


例4:高次元ガウス分布の極座標系密度
•




    • 後の章の、モデルパラメータ
    のベイズ推論を考える際に、
    この性質を使って重要な結論
    を導くらしい(演習1.20)
19


例4:高次元ガウス分布の極座標系密度
• 1次元の場合   • 2次元の場合




     0
     r r




                      r r
20


 実データでの場合
実データでは、高次元空間でもやりようが
ある
 1.実質的には低い次元の領域にある
     and/or
   重要な変化が生じる方向(次元)は限定的
 2.(局所的には)滑らかな性質を持ち、
   入力の小さな変化は目標変数に小さい変化しか与えない
 → 多様体(manifold)の考え方の利用や、内挿(補間)による目標変数
 の予測が可能
21


例:画像データ
例:『ベルトコンベアの上の2次元形状の物体をキャプチャした画像か
ら、その向きを決める』という問題
 • データの次元数はピクセル数
 • 実際は、画像間に存在する違いは『物体の位置と方向』だけ
   (物体の位置x,y座標と角度θの3つの自由度)
22


1.5 決定理論
•
23

例:患者のX線画像から癌かどうかを判
定
•
24
決定問題の要望その1:
できるだけxを誤ったクラスに分類した
くない
•
25


誤識別率
•
26


一般のKクラスについて(正解率)
•
27

一般のKクラスについて(誤識別
率)
•
28

決定問題の要望その2:
期待損失(コスト)を最小化したい
•




          癌    正常
      癌   0   1000
      正
      常   1    0
29


期待損失の最小化
•
30


棄却オプション
•
31


推論と決定:決定問題3つのアプローチ
•
32


それぞれの特徴
•
33


事後確率が欲しくなるケース
• リスク最小化
• 棄却オプション
• クラス事前確率の補正
• モデルの結合
34

事後確率が欲しくなるケース1
リスク最小化
•
35

事後確率が欲しくなるケース2
棄却オプション
• 事後確率がなければ棄却オプションを使えない
  • 誤認識別率や期待損失の最小化ができない
36

事後確率が欲しくなるケース3
クラス事前確率の補正(1)
• 稀なケースのクラスへの対処
• 例:癌である画像が1000件に1件の場合
  問題1:全部正常と診断するだけで 99.9% の精度
  問題2:幅広い癌の画像に対応すべく1000件集めるには
   → 学習には約1000000件のサンプルデータを集めて使う事に


→ 各クラスが同じくらいの数の訓練データを使えると良い
 • 訓練データに補正を加えた分を修正しなければならない
 (癌の画像が通常1000件に1件程度という情報も必要)
37

事後確率が欲しくなるケース3
クラス事前確率の補正(2)
•
38

事後確率が欲しくなるケース4
モデルの結合(1)
•
39

事後確率が欲しくなるケース4
モデルの結合(1)
•
40


回帰の為の損失関数(1)
•
41


回帰の為の損失関数(2)
•




       各 x での、t の不確実さを表す
       のが p(t|x)
       その平均地点を y(x) の値とす
       る
42


回帰の為の損失関数(3)
•




        tの分布の分散を x に関して平均したも
        の。
        目標データが本質的に持つ変動で、ノ
        イズ
        どうしようもない
43


回帰の為の損失関数(4)
•
44


ミンコフスキー損失と y(x)
• q=1 のとき



 となる事が条件
        ↓
 y(x)は p(t|x) のメディアン


• q=0 のとき
   t = y(x)が条件であり、
   かつ y(x) が最大となる値
            ↓
   y(x) はモード(最頻値)
                     ※ 演習 1.27
45


q=1について
•
46


q=1 について(続き)


• これを満たす事が y(x) の条件
• q = 1 の時は
47


q=0 について


•
48


1.6 情報理論
• 情報理論の分野から、確率論などについて考える
  • パターン認識や機械学習に有用ないくつかの概念を学習


 • 情報量
 • エントロピー
 • 微分エントロピー
 • 相対エントロピー
 • カルバックーライブラーダイバージェンス
 • イェンセンの不等式
49


情報量 (まず離散の事について)
•
50




•




    (※演習1.28)
51


情報量の有名?な例
• 12枚の硬貨のうち、1枚が不良品で重さが違う。
  天秤を使って不良品を特定するのに、何回必要か?

• 必要な事は、
  『12枚のうち1枚の特定』 → 1/12
  『重いか軽いかの判定』      → 1/2
   → 必要な情報量は log (12*2) = log (24)
• 一度の天秤では
  右=左、右>左、右<左 の3通りの結果が得られる
   → 情報量は log(3) = 1.584962….
• 結果
   log (24) / log (3) = 2.8927892607 …   → 3回は絶対必要
52

確率変数 x のエントロピー
(entropy)
•
53


    エントロピー=複雑さ?

箱
                    ・・・        物体




         全部でN個の物体

    •
54


入れ方の総数を考える
•
55


複雑さのエントロピー
•
56


物理用語では
•
57


離散確率変数で考えると・・・


           • エントロピー低
            • 一部で鋭いピークを持つ
             分布
           • エントロピー高
            • たくさんの値に広がって
             いる分布
           • エントロピー最小
             • どこかで p=1で、他では
               p=0となる分布
           • エントロピー最大
             • 全てが等確率 (一様分布)
58


エントロピー最大が一様分布の証明
•
59


連続変数でのエントロピー(1)
•




         ・平均値の定理の簡単な説明

                         積分値に
                         等しくな
                         る
                         赤い点が
                         連続関数
                         の場合見
                         つかる
               Δ
60


連続変数でのエントロピー(2)
•
61


微分エントロピーの最大化(1)
•
62


微分エントロピーの最大化(2)
•
63


微分エントロピーの最大化(3)
• ラグランジュ乗数法から、次の式を最大化      (演習1.34)


• 変分法を利用する事で次の式が得られる


• この p(x) と3つの制約式を使い最終的に



 • ガウス分布になる
 • 非負条件を入れなかったが、結局非負
64


微分エントロピーの最大化(4)
•
65


条件付きエントロピー(1)
•
66


条件付きエントロピー(2)
•
67

1.6.1 相対エントロピーと相互情報
量
•
68


KLダイバージェンスの性質
•
69


イェンセンの不等式と凸関数(1)
• 凸(とつ)関数 (convex function)
  • 関数 f(x) で、すべての弦が関数に乗っているかそれよりも上にある

                                  点c:λf(a)+(1-λ)f(b)


                                                            f(b)

                                  f(a)


                                                        f(λa+(1-λ)b)
                        ※演習1.36



 • 等号成立時がλ=0とλ=1のみに限る場合、真に凸(strictly convex)
 • 真に凸   ⇔ 2階微分が常に正
70


イェンセンの不等式と凸関数(2)
•
71


イェンセンの不等式と凸関数(3)
•
72


イェンセンの不等式の直感的理解
•
73


KLダイバージェンス(1)
•
74


KLダイバージェンス(2)
•
75

KLダイバージェンス(3) 相互情
報量
•
76


でてきた演習問題
• P14   1.15, 1.16
• P15   1.18
• P17   1.20 (P18)
• P30   1.24
• P44   1.27
• P50   1.28         取りこぼしもあるでしょうし、
• P63   1.34         だからなんだって感じですが
• P64   1.35
• P66   1.37
• P69   1.36

More Related Content

What's hot

PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
Hiroyuki Kato
 
Prml 1.2,4 5,1.3|輪講資料1120
Prml 1.2,4 5,1.3|輪講資料1120Prml 1.2,4 5,1.3|輪講資料1120
Prml 1.2,4 5,1.3|輪講資料1120
Hayato K
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
Hiroyuki Kato
 
PRML読書会#2,#3資料
PRML読書会#2,#3資料PRML読書会#2,#3資料
PRML読書会#2,#3資料
Hiromasa Ohashi
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
Nagayoshi Yamashita
 
2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル
Takeshi Sakaki
 

What's hot (20)

PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
Chapter2.3.6
Chapter2.3.6Chapter2.3.6
Chapter2.3.6
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 
Prml 1.2,4 5,1.3|輪講資料1120
Prml 1.2,4 5,1.3|輪講資料1120Prml 1.2,4 5,1.3|輪講資料1120
Prml 1.2,4 5,1.3|輪講資料1120
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
PRML読書会#2,#3資料
PRML読書会#2,#3資料PRML読書会#2,#3資料
PRML読書会#2,#3資料
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
 
2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 

Similar to Prml 1.3~1.6 ver3

PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
Shohei Okada
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
Takuya Akiba
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
Koji Matsuda
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
ryotat
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
koba cky
 

Similar to Prml 1.3~1.6 ver3 (20)

PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリング
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 
特徴パターンを用いた機械学習の説明手法 (JSAI2019)
特徴パターンを用いた機械学習の説明手法 (JSAI2019)特徴パターンを用いた機械学習の説明手法 (JSAI2019)
特徴パターンを用いた機械学習の説明手法 (JSAI2019)
 

Prml 1.3~1.6 ver3