スパース性に基づく機械学習
2.3〜2.5節
機械学習プロフェッショナルシリーズ
@St_Hakky
自己紹介と告知
• Twitter : @St_Hakky
• ブログ:http://st-hakky.hatenablog.com/
• 関西で機械学習勉強会を実施中!!
• 団体のモットー:
• 圧倒的スピード感で大量の書物と論文をぶった切る
• 「えっ、まだ読んでないの?」と煽り奉り、輪講会を乱立させる
• 過去のイベント例
• PRML輪講会、PRML上巻/下巻一気読み
• データ解析のための統計モデリング入門の輪講会
• わかりやすいパターン認識(続)の輪講会
• 参加したい方は、Facebookのグループにまずは参加を。
• URL :https://www.facebook.com/groups/1767916400127792/
スパース性に基づく機械学習の
2.3〜2.5節をやります
コンテンツ
• 2.3 : 正則化
• 2.4 : 交差確認
• 2.5 : 制約付き最小化問題と罰則項付き最小化問
題の等価性
正則化
• 仮説集合の大きさの制御方法
• 特徴量の増減だけじゃない!
• →同じ特徴空間であってもパラメータベクトル𝒘をより
小さい集合から選ぶことで分散を減少できる
• この様な方法として、パラメータベクトルのノルム
の制約がある。
ノルムとは
• 関数 ・ ∶ ℝ 𝑑 → ℝ が以下の3つの性質を満たす
とき、 ・ はノルム(norm)という。
• (斉次性) 任意の𝛼 ∈ ℝ, 𝒙 ∈ ℝ 𝑑に対して、
𝛼𝒙 = 𝛼 𝒙
が成立
• (劣加法性)任意の に対して、
が成立。
• (独立性)
L1,L2,L3ノルム
L1ノルム
L2ノルム
L3ノルム
罰則付き推定量
• 同じ特徴空間であってもパラメータベクトル𝑤をより小さい
集合から選ぶことで分散を減少するためのノルムを使った
一種の方法
• 罰則付き推定量
罰則付き推定量
2.5節で示すが、以下の二つの式は等価
2.20式はノルムで制約があるものの、パラメータ数は11であ
り、関数は正則化に関係なく10次の多項式
なぜノルムで分散を減らせるのか?
• 説明しよう!
まずは図の説明
罰則項付き最小化問題を幾何学的に解釈す
るために作られた図
パラメータ次元d=2で横軸が𝑤1、縦軸が𝑤2である
人工的に生成した回帰問題に対する正則化の
軌跡
真のパラメータ𝑤∗
= (2,1) 𝑇
(黒色の×)
サンプル数n=10
(a)の図と合わせて、もう一つ(b)の図があるが、
これらは独立に同分布から生成されたデータであ
る
楕円状の等高線上は経験誤差関数の値を表す
なぜノルムで分散を減らせるのか?
正則化パラメータλが大きくなるに
従って、解ωは原点を中心とする
小さい同心円上の内部に制約され
る。
すなわち、正則化が強くなるほど、小サンプルに由来する揺らぎが抑えら
れ、分散が小さくなることがわかる
これにより、別でサンプルされた(a)と(b)の回曲線が近づいていることが
わかる。
ノルムの値による違い
多項式回帰問題に対して罰則項付き経験誤差最小化
(2.19)を用いた結果を示す。
λ=10-6 : 概ね正しい関数を推定
λ=10-2 : 0 ≤ 𝑥 ≤ 0.6 の範囲で学習された関数がほ
ぼ直線になり、誤差が大きくなってしまう
パラメータの数の変化と正則化パラメータの
変化の比較
(c)と(d)の比較
(d):期待誤差は正則化パラメータλ=10-5付近で最小。極端な変化はなし
(c):次数p=3付近でやや急峻に誤差が変化
(c)の場合は、p=3以上ではバイアスと呼ぶ誤差要因がゼロになる一方で、(d)で
はラムダ=0でない限り、バイアスはゼロにならないから起こる。
(c) : パラメータの数を変化 (d) : 正則化パラメータを変化
2.4 交差確認
• 2.3節で多項式の次数pと正則化パラメータλあるいはCを
調節することでバイアスと分散のトレードオフを測ることが
できることを見た。
• これらのパラメータは、モデルの持つパラメータと区別する
ためにハイパーパラメータと呼ぶ。
• ハイパーパラメータを決定する問題はモデル選択という。
データを基にハイパーパラメータの決定
• ハイパーパラメータの決定を客観的にするにはど
うしたらいいか?
• 訓練データに対する当てはまり:×
• 理由:モデルが複雑なほど小さくなる。汎化性能がない
• 期待誤差を用いる?:×
• 理由:未知の分布に対する期待値が必要なので、基準として
用いることができない
• どうする?
データを基にハイパーパラメータの決定
• 一般的に、次の2つがよく用いられる
• 検証データを用いる方法
• 交差確認(cross validation)
検証データを用いる方法
• 検証データを用いる方法:
• 与えられたデータを訓練用と検証用に分割
• 訓練データでパラメータを学習(ハイパーパラメータは
固定)
• 検証データで、検証データに対する誤差を最小にする
様にハイパーパラメータを決定
• 訓練用と検証用の比率は、8:2 or 9:1が一般的
交差確認(cross validation)
• 交差確認を用いる方法:
• 訓練データをK分割
• K-1個の部分で学習して、誤差評価
• これをすべての1,2,…,K部分で行い、誤差平均を取る
• Kは5や10が一般的
検証データを用いる方法と交差確認の比較
• データの規模:
• 検証データを用いる方法:大規模データ
• 交差確認と比べて計算量が少ないから
• 交差確認:小〜中規模データ
• データの分割方法:
• 検証データを用いる方法:分割を固定することが多い
• 検証データに対する誤差に再現性があるため、コンペでもこの方法
を使うことが多い様子。
• 交差確認:分割はランダム
2.5 制約付き最小化問題と罰則項付き最小化問題
の等価性
ここでは、一般の損失関数𝐿と罰則項𝑔に関して、以下の二つの式が等価
であることを説明する
・制約付き最小化問題
・罰則項付き最小化問題
ここで、損失関数𝐿及び罰則項𝑔は共に凸関数とし、任意の𝐶に関して以
下の集合が有界とする
制約付き最小化問題と罰則項付き最小化問題の等
価性
あるCにおける制約付き最小化問題(2.21) の最小値をL(C)とする
青の実線𝐿(𝐶) :目的関数
の最小値を示す
制約𝑔 𝜔 ≤ Cの元で達成可能な
目的関数𝐿(𝜔)の値の領域
共通部分を持つという制約の中で
最も小さい𝑡に対応する直線
制約なし最小値𝐿0 = 𝑚𝑖𝑛 𝒘 𝐿(𝒘)より𝐿(𝐶)が小
さくなることはないことに注意。
交点の座標が罰則項付き
最小化問題(2.22)の解 𝒘
𝐿 + λ𝐶 = 𝑡
制約付き最小化問題と罰則項付き最小化問題の等
価性
青の実線� (� ) :目的関数
の最小値を示す
制約� � ≤ Cの元で達成可能な
目的関数� (� )の値の領域
共通部分を持つという制約の中で
最も小さい�に対応する直線
交点の座標が罰則項付き
最小化問題(2.22)の解�
� + λ� = �
この𝐶の値に対する制約付き最小化問題(2.21)の解は、罰則項付き最小
化問題の解 𝒘を含む。
逆に、曲線上側領域の凸性から、任意の𝐶に対して対応するλの値があ
り、罰則項付き最小化問題(2.22)の解はこの𝐶に対する制約付き最小化
問題(2.21)の解を含む
おしまい

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 2.3節〜2.5節