More Related Content
More from Tomoyuki Hioki (12)
PRML1.1
- 2. 第1章 序論
1.1 多項式フィッティング
1.2 確率論
1.2.1 確率密度
1.2.2 期待値と分散
1.2.3 ベイズ確率
1.2.4 ガウス分布
1.2.5 曲線フィッティング再訪
1.2.6 ベイズ曲線フィッティング
1.3 モデル選択
1.4 次元の呪い
1.5 決定理論
1.5.1 識別率の最小化
1.5.2 期待値損失と最小化
1.5.3 棄却オプション
1.5.4 推論と決定
1.5.5 回帰のための損失関数
1.6 情報理論
1.6.1 相対エントロピーと相互情報量
- 6. 機械学習はデータやパターンの性質によって主に3つに分類される
・ 教師あり学習 … データが入力とそれに対応する目標で構成される問題
入力と出力の関係を学習する
・ 教師なし学習 … データが入力のみで目標値が存在しない問題
データの構造を学習する
- クラスタリング: 類似した事例のグループを見つける
- 密度推定: 入力空間におけるデータの分布を求める
- クラス分類: 入力を1つのカテゴリに割り当てる
- 回帰問題: 入力から出力を予想する
・ 強化学習 … ある状況下で、報酬を最大にする適当な行動を学習する
- 7. 入力変数 x を観測し、それを用いて目標変数 t を予測する
観測データにはノイズが乗っているため、 ෝ𝒙 に対する ො𝒕 の値には不確実性がある
確率論(1.2節)はそのような不確実性を定量的に表現する
観測変数 : 𝒙 ≡ (𝑥1, ⋯ , 𝑥 𝑁) 𝑇
目標変数 : 𝐭 ≡ (𝑡1, ⋯ , 𝑡 𝑁) 𝑇
予測
代表的な機械学習の例として、まず回帰問題を考える
回帰問題
- 8. 𝑦 x, 𝒘 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2 + ∙∙∙ +𝑤 𝑀 𝑥 𝑀 =
𝑗=0
𝑀
𝑤𝑗 𝑥 𝑗
多項式を用いたデータフィッティング
多項式
M: 多項式の次数, w: 多項式の係数ベクトル
𝐬𝐢𝐧(𝟐𝛑𝒙)にランダムでノイズを加えたデータにフィッティングするような関数を考える
限られたデータ点から、それを生成した
元の関数(sin(2πx))を予想したい
- 10. 𝑀 = 0
𝑦 x, 𝒘 = 𝑤0
𝑦 x, 𝒘 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2
+ ∙∙∙ +𝑤 𝑀 𝑥 𝑀
=
𝑗=0
𝑀
𝑤𝑗 𝑥 𝑗
多項式
𝑀 = 1
𝑦 x, 𝒘 = 𝑤0+𝑤1 𝑥
𝑴 = 𝟎, 𝟏 の場合、データへの当てはまりが良くない
関数 𝐬𝐢𝐧(𝟐𝛑𝒙)の表現としては不適当
- 11. 𝑀 = 3
𝑦 x, 𝒘 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2
+ 𝑤3 𝑥3
𝑴 = 𝟑 のとき、グラフは 𝑴 = 𝟎, 𝟏の時よりも
関数 𝐬𝐢𝐧(𝟐𝛑𝒙)に良く当てはまっているといえる
𝑀 = 1
𝑦 x, 𝒘 = 𝑤0+𝑤1 𝑥
多項式の次数 𝑴 を増やしていけば、よりフィッティング性能が上がる?
- 12. 𝑀 = 3
𝑦 x, 𝒘 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2
+ 𝑤3 𝑥3
𝑀 = 9
𝑦 x, 𝒘 = 𝑤0+𝑤1 𝑥 +∙∙∙ +𝑤9 𝑥9
𝑴 = 𝟗 のとき全データを通り、誤差 𝑬 𝒘∗ = 𝟎 となるが
グラフは発振していて、関数 𝐬𝐢𝐧(𝟐𝛑𝒙)の表現としては不適当
次数が増えると、予測関数はデータに含まれるノイズに強く影響される(過学習)
- 17. 𝑴 = 𝟗
データ数 15個
𝑴 = 𝟗
データ数 100個
過学習を避けるにはどうしたらいいのか?
- 過学習は自由度が高すぎるから起きた
- なら、学習データを増やして、自由度を下げればいい?
データ100個のとき、データ15個に比べてフィッティングが良くなっている
データのサイズが大きくなれば、過学習の度合いは是正されていく