Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 2.3節〜2.5節

1,380 views

Published on

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ)の勉強会の資料です。

2.3節〜2.5節のスライドです。

Published in: Data & Analytics
  • Be the first to comment

スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 2.3節〜2.5節

  1. 1. スパース性に基づく機械学習 2.3〜2.5節 機械学習プロフェッショナルシリーズ @St_Hakky
  2. 2. 自己紹介と告知 • Twitter : @St_Hakky • ブログ:http://st-hakky.hatenablog.com/ • 関西で機械学習勉強会を実施中!! • 団体のモットー: • 圧倒的スピード感で大量の書物と論文をぶった切る • 「えっ、まだ読んでないの?」と煽り奉り、輪講会を乱立させる • 過去のイベント例 • PRML輪講会、PRML上巻/下巻一気読み • データ解析のための統計モデリング入門の輪講会 • わかりやすいパターン認識(続)の輪講会 • 参加したい方は、Facebookのグループにまずは参加を。 • URL :https://www.facebook.com/groups/1767916400127792/
  3. 3. スパース性に基づく機械学習の 2.3〜2.5節をやります
  4. 4. コンテンツ • 2.3 : 正則化 • 2.4 : 交差確認 • 2.5 : 制約付き最小化問題と罰則項付き最小化問 題の等価性
  5. 5. 正則化 • 仮説集合の大きさの制御方法 • 特徴量の増減だけじゃない! • →同じ特徴空間であってもパラメータベクトル𝒘をより 小さい集合から選ぶことで分散を減少できる • この様な方法として、パラメータベクトルのノルム の制約がある。
  6. 6. ノルムとは • 関数 ・ ∶ ℝ 𝑑 → ℝ が以下の3つの性質を満たす とき、 ・ はノルム(norm)という。 • (斉次性) 任意の𝛼 ∈ ℝ, 𝒙 ∈ ℝ 𝑑に対して、 𝛼𝒙 = 𝛼 𝒙 が成立 • (劣加法性)任意の に対して、 が成立。 • (独立性)
  7. 7. L1,L2,L3ノルム L1ノルム L2ノルム L3ノルム
  8. 8. 罰則付き推定量 • 同じ特徴空間であってもパラメータベクトル𝑤をより小さい 集合から選ぶことで分散を減少するためのノルムを使った 一種の方法 • 罰則付き推定量
  9. 9. 罰則付き推定量 2.5節で示すが、以下の二つの式は等価 2.20式はノルムで制約があるものの、パラメータ数は11であ り、関数は正則化に関係なく10次の多項式
  10. 10. なぜノルムで分散を減らせるのか? • 説明しよう!
  11. 11. まずは図の説明 罰則項付き最小化問題を幾何学的に解釈す るために作られた図 パラメータ次元d=2で横軸が𝑤1、縦軸が𝑤2である 人工的に生成した回帰問題に対する正則化の 軌跡 真のパラメータ𝑤∗ = (2,1) 𝑇 (黒色の×) サンプル数n=10 (a)の図と合わせて、もう一つ(b)の図があるが、 これらは独立に同分布から生成されたデータであ る 楕円状の等高線上は経験誤差関数の値を表す
  12. 12. なぜノルムで分散を減らせるのか? 正則化パラメータλが大きくなるに 従って、解ωは原点を中心とする 小さい同心円上の内部に制約され る。 すなわち、正則化が強くなるほど、小サンプルに由来する揺らぎが抑えら れ、分散が小さくなることがわかる これにより、別でサンプルされた(a)と(b)の回曲線が近づいていることが わかる。
  13. 13. ノルムの値による違い 多項式回帰問題に対して罰則項付き経験誤差最小化 (2.19)を用いた結果を示す。 λ=10-6 : 概ね正しい関数を推定 λ=10-2 : 0 ≤ 𝑥 ≤ 0.6 の範囲で学習された関数がほ ぼ直線になり、誤差が大きくなってしまう
  14. 14. パラメータの数の変化と正則化パラメータの 変化の比較 (c)と(d)の比較 (d):期待誤差は正則化パラメータλ=10-5付近で最小。極端な変化はなし (c):次数p=3付近でやや急峻に誤差が変化 (c)の場合は、p=3以上ではバイアスと呼ぶ誤差要因がゼロになる一方で、(d)で はラムダ=0でない限り、バイアスはゼロにならないから起こる。 (c) : パラメータの数を変化 (d) : 正則化パラメータを変化
  15. 15. 2.4 交差確認 • 2.3節で多項式の次数pと正則化パラメータλあるいはCを 調節することでバイアスと分散のトレードオフを測ることが できることを見た。 • これらのパラメータは、モデルの持つパラメータと区別する ためにハイパーパラメータと呼ぶ。 • ハイパーパラメータを決定する問題はモデル選択という。
  16. 16. データを基にハイパーパラメータの決定 • ハイパーパラメータの決定を客観的にするにはど うしたらいいか? • 訓練データに対する当てはまり:× • 理由:モデルが複雑なほど小さくなる。汎化性能がない • 期待誤差を用いる?:× • 理由:未知の分布に対する期待値が必要なので、基準として 用いることができない • どうする?
  17. 17. データを基にハイパーパラメータの決定 • 一般的に、次の2つがよく用いられる • 検証データを用いる方法 • 交差確認(cross validation)
  18. 18. 検証データを用いる方法 • 検証データを用いる方法: • 与えられたデータを訓練用と検証用に分割 • 訓練データでパラメータを学習(ハイパーパラメータは 固定) • 検証データで、検証データに対する誤差を最小にする 様にハイパーパラメータを決定 • 訓練用と検証用の比率は、8:2 or 9:1が一般的
  19. 19. 交差確認(cross validation) • 交差確認を用いる方法: • 訓練データをK分割 • K-1個の部分で学習して、誤差評価 • これをすべての1,2,…,K部分で行い、誤差平均を取る • Kは5や10が一般的
  20. 20. 検証データを用いる方法と交差確認の比較 • データの規模: • 検証データを用いる方法:大規模データ • 交差確認と比べて計算量が少ないから • 交差確認:小〜中規模データ • データの分割方法: • 検証データを用いる方法:分割を固定することが多い • 検証データに対する誤差に再現性があるため、コンペでもこの方法 を使うことが多い様子。 • 交差確認:分割はランダム
  21. 21. 2.5 制約付き最小化問題と罰則項付き最小化問題 の等価性 ここでは、一般の損失関数𝐿と罰則項𝑔に関して、以下の二つの式が等価 であることを説明する ・制約付き最小化問題 ・罰則項付き最小化問題 ここで、損失関数𝐿及び罰則項𝑔は共に凸関数とし、任意の𝐶に関して以 下の集合が有界とする
  22. 22. 制約付き最小化問題と罰則項付き最小化問題の等 価性 あるCにおける制約付き最小化問題(2.21) の最小値をL(C)とする 青の実線𝐿(𝐶) :目的関数 の最小値を示す 制約𝑔 𝜔 ≤ Cの元で達成可能な 目的関数𝐿(𝜔)の値の領域 共通部分を持つという制約の中で 最も小さい𝑡に対応する直線 制約なし最小値𝐿0 = 𝑚𝑖𝑛 𝒘 𝐿(𝒘)より𝐿(𝐶)が小 さくなることはないことに注意。 交点の座標が罰則項付き 最小化問題(2.22)の解 𝒘 𝐿 + λ𝐶 = 𝑡
  23. 23. 制約付き最小化問題と罰則項付き最小化問題の等 価性 青の実線� (� ) :目的関数 の最小値を示す 制約� � ≤ Cの元で達成可能な 目的関数� (� )の値の領域 共通部分を持つという制約の中で 最も小さい�に対応する直線 交点の座標が罰則項付き 最小化問題(2.22)の解� � + λ� = � この𝐶の値に対する制約付き最小化問題(2.21)の解は、罰則項付き最小 化問題の解 𝒘を含む。 逆に、曲線上側領域の凸性から、任意の𝐶に対して対応するλの値があ り、罰則項付き最小化問題(2.22)の解はこの𝐶に対する制約付き最小化 問題(2.21)の解を含む
  24. 24. おしまい

×