Your SlideShare is downloading. ×
入門機械学習6章
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

入門機械学習6章

568
views

Published on

入門機械学習6章

入門機械学習6章

Published in: Technology

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
568
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
14
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 第4回入門機械学習 読書会 2013.07.27 @kzfm
  • 2. 6章正則化:テキスト回帰
  • 3. サンプルコード https://gist.github.com/kzfm/6093635
  • 4. 線形でないものをどうやっ て線形回帰するか?
  • 5. y = f(g(x)) y = f(x)が線形回帰できるようなgで変換すればい い 前の例ではg = ^2 線形回帰できるようにgを決めるだけ
  • 6. 多項式回帰 poly関数を使いましょう
  • 7. 次数を変える
  • 8. 交差検定 モデル当てはめを過去のデータの一部を使わず に行い、使わなかったデータでテストする トレーニング用 テスト用
  • 9. Rでやる場合 sample関数をつかう >idx<- sample(1:100, 80) > data <- 1:100 >idx<- sample(data, 80) >data[idx] [1] 50 46 37 97 17 78 7 38 13 18 76 65 24 44 8 31 82 52 55 26 33 79 67 74 62 59 20 56 72 21 [31] 28 57 6 25 30 11 93 90 63 89 80 23 40 16 27 10 77 39 81 4 58 71 48 14 100 51 99 49 5 47 [61] 34 61 75 85 3 95 88 69 41 91 70 94 29 12 9 22 42 73 84 64 > data[-idx] [1] 1 2 15 19 32 35 36 43 45 53 54 60 66 68 83 86 87 92 96 98
  • 10. 過学習とは モデルが内在する真のパターンではなく、デー タセットのノイズの一部に当てはまってしまう こと 同じ会社に勤めすぎてその会社以外では通用し ないスキルをガッツリ磨いてしまうような実社 会のあるあるは、データセットでも起こるわけ です
  • 11. 交差検定の例
  • 12. 良いモデルとは? 予測精度が高く、かつできるだけ単純なモデル 複雑さの指標を導入してペナルティとして使う 各係数の二乗の和 (L2ノルム) 各係数の絶対値の和 (L1ノルム)
  • 13. 正則化
  • 14. もうちょっと知りたい? Lasso回帰とかRidge回帰で調べるとよい(Ridgeは次 の章で出てきますが) http://xn-- p8ja5bwe1i.jp/wiki/%E3%83%90%E3%82%A4%E3% 82%AA%E3%83%BB%E3%83%87%E3%83%BC%E 3%82%BF%E3%83%BB%E3%83%9E%E3%82%A4 %E3%83%8B%E3%83%B3%E3%82%B0/R%E3%81 %A7%E5%9B%9E%E5%B8%B0%E5%88%86%E6% 9E%90%E3%81%99%E3%82%8B/
  • 15. テキスト回帰
  • 16. ロジスティック回帰 ベルヌーイ分布に従う変数の統計的回帰モデル の一種である。連結関数としてロジットを使用 する一般化線形モデル (GLM) の一種でもある。 ロジスティック回帰は医学や社会科学でよく使 われる。 病気/健康とかライフイベントとか
  • 17. 結果
  • 18. 6章まとめ 正則化は過学習を防ぐ方法のひとつ 複雑すぎるモデルは危険