Regression2

Regression(回帰)②
&分類
WSL勉強会
2016/08/13(⼟)
友松祐太
2016/8/13 1

はじめに
• 本スライドは本・ネットの資料を参考に作成した資料です。資
料内に誤りがあるかもしれません。。(指摘をお願いします。)
2016/8/13 2

もくじ
• 1. 回帰
• 1.1 正則化
• 1.2 t検定
• 2. 分類
• 2.1 パーセプトロン
• 2.2 ロジスティック回帰
2016/8/13 3

過学習(復習)
• 曲線回帰式:𝑦 = 𝑤$ + 𝑤& 𝑥&
+ 𝑤( 𝑥(
+ ⋯ + 𝑤*+& 𝑥*+&
• データ点の数>Mの時全ての点にフィットさせることができる。
• ⼀⽅、Mを増やしていくと無理やりデータ点とフィッティング
させようとするため、wの値が極端に⼤きくなってしまう。
• このような振る舞いをover-fitting(過学習)という。
2016/8/13 6

過学習(復習)
2016/7/17 8
𝑦 = 𝑤$ 𝑦 = 𝑤$ + 𝑤& 𝑥&
𝑦 = 𝑤$ + 𝑤& 𝑥&
+ 𝑤( 𝑥( 𝑦 = 𝑤$ + 𝑤& 𝑥&
+ 𝑤( 𝑥(
+ ⋯ + 𝑤, 𝑥,

過学習(復習)
• 過学習で問題になるのは重
みwが発散してしまうこと。
• 重みwが⼩さくなるように
調整すればいいんじゃ
ね？？
• ⇒正則化項付き回帰
2016/8/13 9

正則化
• 正則化項付き回帰では、重みが⼤きくなるのがいけないこと(罰則)として、最適化を⾏う。
• 普通の線形回帰の誤差関数
𝐸 𝑤 = . 𝑤/ 𝑥0
/ − 𝑦0
(
2
03&
• 正則化項付き線形回帰の誤差関数
𝐸 𝑤 = . 𝑤/ 𝑥0
/ − 𝑦0
(
2
03&
+ 𝜆 . |𝑤/|
*
/3&
・・・𝐿1正則化
𝐸 𝑤 = . 𝑤/ 𝑥0
/ − 𝑦0
(
2
03&
+ 𝜆 . 𝑤/
(
*
/3&
・・・𝐿2正則化
2016/8/13 10

正則化
• 正則化項(⼀般化)
𝜆 . 𝑤/
:
*
/3&
• λは罰則の⼤きさを表す。λ=0の時、普通の線形回帰になる。
λが⼤きくなるに連れてwが⼤きくなるのが厳しい罰になる。
2016/8/13 11
q 正則化回帰の名前
q=1 L1正則化 Lasso回帰
q=2 L2正則化 Ridge回帰
1<q<2 Elastic Net
それぞれの正
則化の性質は
前回のはやぴ
の資料を⾒て
ね！！

正則化
• L1正則化は変数選択と次元削
減を⾏う。
• L2正則化は係数を縮⼩して過
学習を抑える。
2016/8/13 15

Excelで回帰分析を⾏うと…
2016/8/13 17

Excelで回帰分析を⾏うと…
2016/8/13 18
t値とはなんぞ
や？
t検定って何がで
きるの？？

Whatʼs t検定
• 帰無仮説が正しいと仮定した場合に、統計量がt分布に従うこと
を利⽤する統計学的検定法の総称である。
• ⺟集団が正規分布に従うと仮定するパラメトリック検定法であ
り、t分布が直接、もとの平均や標準偏差にはよらない（ただし
⾃由度による）ことを利⽤している。
• 2組の標本について平均に有意差があるかどうかの検定などに
⽤いられる。
(Wikipediaより)
2016/8/13 19

Whatʼs t検定
⽤いられる。
(Wikipediaより)
この説明で
分かればこ
の発表は必
要ないです
2016/8/13 20

Whatʼs t検定
⽤いられる。
(Wikipediaより)
2016/8/13 21

有意差
• 品種の異なる2種類のりんご(A,B)があったとする。
• りんごAとりんごBはサイズが異なることを⽰したい。
• どのようなデータであればりんごAとりんごBはサイズが違うと
いうことが⾔えるだろうか？
2016/8/13 22

有意差
①りんごAとりんごBのサイズの平均値(期待値)を求めて⽐較す
る
ai サイズ
a1 13
a2 13.5
a3 13.3
a4 14
a5 12.8
bi サイズ
b1 14
b2 14.2
b3 15
b4 13.8
b5 12
13.8
13.32
2016/8/13 23

有意差
• ②分散が⼩さい
期待値は同じだけど、同じ⼤きさとして扱って良い？？
ai サイズ
a1 10
a2 20
a3 30
a4 40
bi サイズ
b1 23.5
b2 24.5
b3 25.5
b4 26.5
25
25
2016/8/13 24

有意差
• ③サンプルの量が⼗分にある
期待値は同じだけど、同じ⼤きさとして扱って良い？？2016/8/13 25
ai サイズ
a1 13
a2 13.5
a3 13.3
bi サイズ
b1 14
b2 14.2
b3 15
⋮ ⋮
b100 12
13.36
13.36

有意差まとめ
• ①期待値
• ②分散
• ③サンプルサイズ
これらを考慮すると意味のある差＝有意差を求めることができる。
これをまとめたものがt値である。
𝑡値 =
期待値の差
分散的ななにがし ÷ サンプルサイズ的ななにがし
t値を⾒ることによって、”たまたま平均値に差がある”のではなく、
“必然的に平均値に差がある”ということの確認を⾏うことができる。
2016/8/13 26

t検定
• t値がどのくらい⼤きければ有意に差があるといえるのだろう
か？？⇒t検定をおこなう！
2016/8/13 27

統計的仮説検定
帰無仮説が正しいと仮定した上で、その仮説が起
こる確率を求め、その確率が⼗分に⼩さい(有意⽔
準以下の)時にその仮説を棄却することによって、
対⽴仮説が正しいことを説明する検定⽅法
• 帰無仮説：主張したい仮説の逆の仮説のことを⾔う。H0と表す
• 対⽴仮説：主張したい仮説。帰無仮説を棄却することによってその
正しさを主張する。H1と表す。
• 有意⽔準：どれぐらい⼩さい確率をめったに起きない確率と定義す
るかの⽔準(5%,1%がよく使われる)
2016/8/13 28

t検定における帰無仮説
• 帰無仮説：期待値μ1とμ2が有意に差が無い(μ1-μ2=0)
• 対⽴仮説：期待値μ1とμ2が有意に差がある(μ1-μ2≠0)
• t値がt分布の両側5%の領域に⼊っている(帰無仮説が起こるこ
とがほとんどない)ことを⽰す事によって帰無仮説を棄却する。
2016/8/13 29

棄却域
• 有意⽔準を5%としたとき右の図のオレ
ンジの部分を⾒れば良い。
• 有意⽔準5%としたとき、t値が⼤体2.0
以上のとき２つの期待値に有意差があ
るとして良い。
2016/8/13 30

回帰におけるt検定
• 回帰では求めた重みが0と有意に差があるかどうかというのをt
検定することによって、その説明変数が意味のあるものなのか
どうかを検定することができる。
• 帰無仮説：重みwが0と有意に等しい。
• 対⽴仮説：重みwが0と有意に差がある。
2016/8/13 31

回帰におけるt検定
2016/8/13 32

分類
• データをある決まった規則にそって複数のクラスに分けること
を分類という。
• Y=f(x)というモデルを使うにあたって、Yが離散値ならば分類
問題、Yが連続値ならば回帰問題ということになる
• 例)
• メールをスパムとそうでないものに分ける(2値分類)
• ウェブニュースをスポーツや政治等のジャンルに分ける(多
値分類)
2016/8/13 34

分類
• このようなデータが与えられた時…
2016/8/13 35

分類
• ⻘のデータとオレンジのデータを分けるような線が引けそう！
これが
分類問題！
2016/8/13 36

2.1 単純パーセプトロン
2016/8/13 37

単純パーセプトロン
• ⼊⼒層と出⼒層からなる、線形分類器
• それぞれの⼊⼒に対して重みが設けられており、それらの和が
閾値以上になると発⽕する(1を出⼒)。閾値未満ならば発⽕しな
い(0を出⼒する)
2016/8/13 38

パーセプトロン
2016/8/13 39
𝑥&
𝑥(
𝑥0
⋮
𝑤&
𝑤(
𝑤0
𝑦 =
1 𝑖𝑓 . 𝑥0 𝑤0
0
/3&
≥ 𝜃
0 𝑖𝑓 . 𝑥0 𝑤0
0
/3&
< 𝜃
𝑦∑ 𝜃

分類
先程の例では…
𝑦 = 𝑎𝑥 + 𝑏𝑦 + 𝑐
の分離線が引ければ良さそう
2016/8/13 40
𝑥
𝑦

パーセプトロン
2016/8/13 41
1
𝑥
𝑦
𝑐
𝑎
𝑏
𝑓 = H
1 𝑖𝑓 𝑎𝑥 + 𝑏𝑦 + 𝑐 ≥ 0
0 𝑖𝑓 𝑎𝑥 + 𝑏𝑦 + 𝑐 < 0
𝑓∑ 0
パーセプトンを解い
て重みが求まれば分
類問題が解けそう！

パーセプトンを解く！
• パーセプトロンを解くには、、、
回帰と同様に、誤差関数を最⼩化する！
• では、誤差関数は？
回帰では、正解と予測値のズレを誤差と定義していた。
これを分類問題に適⽤してしまうと、どんなに値が正解
とずれていても、誤差は1になってしまう
2016/8/13 42

パーセプトロンを解く！
• パーセプトンの誤差関数
𝐸 𝑎, 𝑏, 𝑐 = . 𝑎𝑥0 + 𝑏𝑦0 + 𝑐
0∈K
(𝑀: 予測値が正解と異なったデータ群)
2016/8/13 43
正解までどれ
くらい動かせ
ばよいか

パーセプトロンを解く！
• パーセプトロンは線形回帰のように1発では求まらない。。
• 確率的勾配降下法を使う！
更新式
P
𝑎0QR = 𝑎STU + 𝑡0 𝑥0
𝑏0QR = 𝑏STU + 𝑡0 𝑦0
𝑐0QR = 𝑐STU + 𝑡0
(※予測値が正解と異なる場合に更新)
2016/8/13 44

パーセプトロンのメリット/デメリット
• 線形分離可能なデータに対しては必ず最適な線が引ける。
• 線形分離可能でないデータに対してはうまく求まらない。
線形分離可能でないデータの例⇒
2016/8/13 45
𝑥
𝑦

ロジスティック回帰
2016/8/13 46

線形分類モデル
• クラスに所属するか否かという2値で分類する(教師なしで⾔う
ところのハードクラスタリング的なもの)と、0.001だけ正例に
含まれたがために正解のような微妙なものが出てくる。
• 各クラスへの所属確率が分かれば、その値を信頼度として使う
ことができる(教師なしで⾔うところのソフトクラスタリング的
なもの)
⇒線形分類モデル
2016/8/13 47

• 線形分類モデルには条件付き確率をモデル化した⽣成的モデル
と訓練例の出⼒を最⼤化する識別モデルがある
• ⽣成的モデル
• ナイーブベイズ
• LDA(Linear Discriminant Analysis)
• 識別モデル
• ロジスティック回帰
• パーセプトロン
• 線形SVM
2016/8/13 48

• 線形分類モデルには条件付き確率をモデル化した⽣成的モデル
と訓練例の出⼒を最⼤化する識別モデルがある
• ⽣成的モデル
• ナイーブベイズ
• LDA(Linear Discriminant Analysis)
• 識別モデル
• ロジスティック回帰
• パーセプトロン
• 線形SVM
2016/8/13 49

• パーセプトロンの判別式を確率化する！
• 𝑓 𝑥 = 𝑤V
𝜙 𝑥 = ∑ 𝑤/ 𝜙/(𝑥)/
• この判別式によって0以上だったら正例,0未満ならば不例となる
• つまり、判別式の値が⼤きくなればなるほどそのクラスへの所
属確率が上がっていく！！
• 判別式の値が⼩さくなればなるほど正例である確率は0に
2016/8/13 50

• 先程までの例だと判別式
の値は-∞から∞までの値
を取りうる。
• ロジスティック関数(シグ
モイド関数)を使うことに
よって0から１の範囲に抑
えこむ
⇒確率的扱いができるよう
になる！
2016/8/13 51

• ロジスティック回帰の判別式
• 𝑝 𝑥 = 𝜎 𝑤V
𝜙 𝑥
• ※𝜎 𝑡 =
&
&Z[] (+^)
• 今回、判別式の導出までは扱いません。
2016/8/13 52

まとめ
• 正則化項は重みを抑制することによって過学習を抑えることが
できる！
• 回帰でのt値は説明変数の重要度を⾒ることができる
• パーセプトロンは線形分離可能なとき綺麗に分類できる！
• ロジスティック回帰を使うことによって確率的に分類ができる
よ！
• Letʼs ロジスティック回帰！
2016/8/13 53

ご清聴ありがとうございました！
2016/8/13 54

参考
• (機械学習はじめよう)[http://gihyo.jp/dev/serial/01/machine-learning]
• (1章-t検定（数式なし）)[http://logics-of-blue.com/1%E7%AB%A0-
t%E6%A4%9C%E5%AE%9A%EF%BC%88%E6%95%B0%E5%BC%8F%E3
%81%AA%E3%81%97%EF%BC%89/]
• (t検定-
wikipedia)[https://ja.wikipedia.org/wiki/T%E6%A4%9C%E5%AE%9A#t.
E6.A4.9C.E5.AE.9A.E3.82.92.E5.A7.8B.E3.82.81.E3.82.8B.E5.89.8D.E3.81.
AB
• (Elastic Netの勉
強)[http://kskbyt.hatenablog.jp/entry/2016/03/02/004122]
• (Ridge回帰とLasso - 突然終わるかもしれないブロ
グ)[http://mkprob.hatenablog.com/entry/2014/12/24/005655]
2016/8/13 55

Regression2

More Related Content

Viewers also liked

Similar to Regression2

Regression2