Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

入門機械学習6章

1,151 views

Published on

入門機械学習6章

Published in: Technology
  • Be the first to comment

入門機械学習6章

  1. 1. 第4回入門機械学習 読書会 2013.07.27 @kzfm
  2. 2. 6章正則化:テキスト回帰
  3. 3. サンプルコード https://gist.github.com/kzfm/6093635
  4. 4. 線形でないものをどうやっ て線形回帰するか?
  5. 5. y = f(g(x)) y = f(x)が線形回帰できるようなgで変換すればい い 前の例ではg = ^2 線形回帰できるようにgを決めるだけ
  6. 6. 多項式回帰 poly関数を使いましょう
  7. 7. 次数を変える
  8. 8. 交差検定 モデル当てはめを過去のデータの一部を使わず に行い、使わなかったデータでテストする トレーニング用 テスト用
  9. 9. Rでやる場合 sample関数をつかう >idx<- sample(1:100, 80) > data <- 1:100 >idx<- sample(data, 80) >data[idx] [1] 50 46 37 97 17 78 7 38 13 18 76 65 24 44 8 31 82 52 55 26 33 79 67 74 62 59 20 56 72 21 [31] 28 57 6 25 30 11 93 90 63 89 80 23 40 16 27 10 77 39 81 4 58 71 48 14 100 51 99 49 5 47 [61] 34 61 75 85 3 95 88 69 41 91 70 94 29 12 9 22 42 73 84 64 > data[-idx] [1] 1 2 15 19 32 35 36 43 45 53 54 60 66 68 83 86 87 92 96 98
  10. 10. 過学習とは モデルが内在する真のパターンではなく、デー タセットのノイズの一部に当てはまってしまう こと 同じ会社に勤めすぎてその会社以外では通用し ないスキルをガッツリ磨いてしまうような実社 会のあるあるは、データセットでも起こるわけ です
  11. 11. 交差検定の例
  12. 12. 良いモデルとは? 予測精度が高く、かつできるだけ単純なモデル 複雑さの指標を導入してペナルティとして使う 各係数の二乗の和 (L2ノルム) 各係数の絶対値の和 (L1ノルム)
  13. 13. 正則化
  14. 14. もうちょっと知りたい? Lasso回帰とかRidge回帰で調べるとよい(Ridgeは次 の章で出てきますが) http://xn-- p8ja5bwe1i.jp/wiki/%E3%83%90%E3%82%A4%E3% 82%AA%E3%83%BB%E3%83%87%E3%83%BC%E 3%82%BF%E3%83%BB%E3%83%9E%E3%82%A4 %E3%83%8B%E3%83%B3%E3%82%B0/R%E3%81 %A7%E5%9B%9E%E5%B8%B0%E5%88%86%E6% 9E%90%E3%81%99%E3%82%8B/
  15. 15. テキスト回帰
  16. 16. ロジスティック回帰 ベルヌーイ分布に従う変数の統計的回帰モデル の一種である。連結関数としてロジットを使用 する一般化線形モデル (GLM) の一種でもある。 ロジスティック回帰は医学や社会科学でよく使 われる。 病気/健康とかライフイベントとか
  17. 17. 結果
  18. 18. 6章まとめ 正則化は過学習を防ぐ方法のひとつ 複雑すぎるモデルは危険

×