第4回入門機械学習
読書会
2013.07.27
@kzfm
6章正則化:テキスト回帰
サンプルコード
https://gist.github.com/kzfm/6093635
線形でないものをどうやっ
て線形回帰するか?
y = f(g(x))
y = f(x)が線形回帰できるようなgで変換すればい
い
前の例ではg = ^2
線形回帰できるようにgを決めるだけ
多項式回帰
poly関数を使いましょう
次数を変える
交差検定
モデル当てはめを過去のデータの一部を使わず
に行い、使わなかったデータでテストする
トレーニング用 テスト用
Rでやる場合
sample関数をつかう
>idx<- sample(1:100, 80)
> data <- 1:100
>idx<- sample(data, 80)
>data[idx]
[1] 50 46 37 97 17 78 7 38 13 18 76 65 24 44 8 31 82 52 55
26 33 79 67 74 62 59 20 56 72 21
[31] 28 57 6 25 30 11 93 90 63 89 80 23 40 16 27 10 77 39 81
4 58 71 48 14 100 51 99 49 5 47
[61] 34 61 75 85 3 95 88 69 41 91 70 94 29 12 9 22 42 73 84
64
> data[-idx]
[1] 1 2 15 19 32 35 36 43 45 53 54 60 66 68 83 86 87 92 96 98
過学習とは
モデルが内在する真のパターンではなく、デー
タセットのノイズの一部に当てはまってしまう
こと
同じ会社に勤めすぎてその会社以外では通用し
ないスキルをガッツリ磨いてしまうような実社
会のあるあるは、データセットでも起こるわけ
です
交差検定の例
良いモデルとは?
予測精度が高く、かつできるだけ単純なモデル
複雑さの指標を導入してペナルティとして使う
各係数の二乗の和 (L2ノルム)
各係数の絶対値の和 (L1ノルム)
正則化
もうちょっと知りたい?
Lasso回帰とかRidge回帰で調べるとよい(Ridgeは次
の章で出てきますが)
http://xn--
p8ja5bwe1i.jp/wiki/%E3%83%90%E3%82%A4%E3%
82%AA%E3%83%BB%E3%83%87%E3%83%BC%E
3%82%BF%E3%83%BB%E3%83%9E%E3%82%A4
%E3%83%8B%E3%83%B3%E3%82%B0/R%E3%81
%A7%E5%9B%9E%E5%B8%B0%E5%88%86%E6%
9E%90%E3%81%99%E3%82%8B/
テキスト回帰
ロジスティック回帰
ベルヌーイ分布に従う変数の統計的回帰モデル
の一種である。連結関数としてロジットを使用
する一般化線形モデル (GLM) の一種でもある。
ロジスティック回帰は医学や社会科学でよく使
われる。
病気/健康とかライフイベントとか
結果
6章まとめ
正則化は過学習を防ぐ方法のひとつ
複雑すぎるモデルは危険

入門機械学習6章