8/31/2013 33th Tokyo.R 1
相関係数と決定係数
~ 回帰係数とその不偏性も
@tanimocchi
8/31/2013 33th Tokyo.R 2
自己紹介
 Twitter ID: @tanimocchi
(もっちぃ)
 数学科出身、博士(情報科学)
 所属: タヒにかけ半導体
 仕事: マーケティングなのか
ブランディングなのか?
 統計解析は必要! だと信じてる。
 統数研公開講座に結構参加してますので、ご一緒の際は宜しくお願いします。
 アンケート設計・分析に従事のはずが……、市場開拓がメイン
 ちなみに、Rは第30回のTokyo.Rでインストールしました。
⇒ 今回のスライドにもRのコードないです、ゴメンなさい(><)
8/31/2013 33th Tokyo.R 3
先ず、相関係数のおさらい
その前に・・・
 二つのn次元ベクトル
 ベクトルの大きさ
 ベクトルの内積
8/31/2013 33th Tokyo.R 4
ベクトル表現のおさらい [1/2]


























nn b
b
b
a
a
a

2
1
2
1
,ba
      22
,,,,cos, bbbaaababa  
       

n
i
i
n
i
i
n
i
ii baba
1
2
1
2
1
,,,,, bbaaba
 

n
i
i
n
i
i ba
1
2
1
2
, ba
a
b

1cos1-  
8/31/2013 33th Tokyo.R 5
ベクトル表現のおさらい [2/2]
 標本データと標本平均、平均からのズレのベクトル表現


























































































knk
kk
kk
kkkkk
k
k
k
k
nk
k
k
k
jnj
jj
jj
jjjjj
j
j
j
j
nj
j
j
j
xx
xx
xx
x
x
x
x
x
x
x
xx
xx
xx
x
x
x
x
x
x
x


2
1
2
1
2
1
2
1
~,,
~,,
xxxxxx
xxxxxx
Rの文法
Rの文法
8/31/2013 33th Tokyo.R 6
相関係数のベクトル表現
    

n
i
kikjijkj xxxx
1
~,~ xx
  22 ~
1
1~,~
1
1
jjjj
nn
s xxx



分散   
   
の成す角は二つのベクトル     
共分散  
kjjk
jkkjkjjk
nn
s
xx
xxxx
~,~
cos~~
1
1~,~
1
1






   

n
i
jjijjj xx
1
22 ~~,~ xxx
 
 jk
kj
jkkj
kj
jk
jk
nn
n
ss
s


cos
~
1
1~
1
1
cos~~
1
1
r
22




xx
xx
相関係数 
 
 
  平行、反対の向き 正反対1   
垂直共通なし0   
平行、同じ向き全て共通1   
比率性がどの程度あるかの2つのベクトルの共通



-r
r
r
jk
jk
jk
  1r1  jk相関係数
8/31/2013 33th Tokyo.R 7
で、決定係数のおさらい
がやはり、その前に・・・
8/31/2013 33th Tokyo.R 8
(単)回帰での撹乱項と残差
 データを生成する「真の」モデル
 一般の回帰直線での近似
 最小二乗法での近似
,iii xy  
iii ubxay 
ii
iii
xbay
uxbay
ˆˆˆ
ˆˆˆ


 2..
,0~  Ndii
i  
撹乱項:各々独立で平均0の正規分布に従う
⇒ データは撹乱項の下で生成されている(と仮定)
残差:説明しきれなかった量
y
x
xbay ˆˆ 
 ii yx ˆ,
iuˆ
 ii yx ,
最小二乗法での残差
8/31/2013 33th Tokyo.R 9
決定係数
 当てはまり具合の指標の定義
 理論値データのバラつきが実績値データのバラつきに
近ければ近いほど、当てはまりが良いと考える。
 
  実績値の偏差二乗和
理論値の偏差二乗和








n
i
i
n
i
i
yy
yy
R
1
2
1
2
2
ˆ
8/31/2013 33th Tokyo.R 10
ちょっと寄り道して、
単回帰係数
を偏微分なしで求める。
8/31/2013 33th Tokyo.R 11
最小二乗法での回帰係数導出 [1/3]
 準備:一般回帰直線の式を全部足して平均を求める
 
 
 
   
   
とした。ここで、
     
     
    
から上式を引いて、
と仮定即ち、      
定の正規分布に従うと仮残差が平均  
xxxyyy
xby
xxbyy
yyyyyyu
xxbyy
bxay
u
xbay
iiii
ii
ii
iiiii
ii
ii








~,~
~~
ˆˆˆ
ˆ
ˆ
0ˆ
0
8/31/2013 33th Tokyo.R 12
最小二乗法での回帰係数導出 [2/3]
 残差の二乗和 Q を最小化で回帰直線近似実施
 







































































n
i
i
i
n
i
i
n
i
i
i
n
i
in
i
i
n
i
i
i
n
i
in
i
in
i
i
i
n
i
in
i
i
n
i
ii
n
i
i
n
i
i
n
i
ii
n
i
i
x
yx
b
x
yx
y
x
yx
y
x
yx
bx
ybyxbxxbyuQ
1
2
1
1
2
2
1
1
2
1
2
2
1
1
2
2
1
2
1
1
2
1
2
1
2
1
2
1
2
1
2
~
~~
~
~~
~
~
~~
~
~
~~
~
~~~2~~~ˆ
等号成立条件:   
 
8/31/2013 33th Tokyo.R 13
最小二乗法での回帰係数導出 [3/3]
 最小二乗法での回帰係数
 相関係数との関係
 xbya
x
yx
b n
i
i
i
n
i
i
ˆˆ,
~
~~
ˆ
1
2
1





ba ˆ,ˆ
x
y
xy
x
yxxy
x
xy
n
i
i
i
n
i
i
yxxyxy
yx
xy
xy
s
s
r
s
ssr
s
s
x
yx
b
ssrs
ss
s
r






22
1
2
1
~
~~
ˆ
yy 
y
 一方、
の値に無関係に一定値は
となりつまり回帰直線は
 
0ˆ0
y
0ˆ0



br
x
yy
br
xy
xy
  が成立 
に対してこの結果より、求めた
0ˆˆˆ
ˆ,ˆ
 xbayu
ba
8/31/2013 33th Tokyo.R 14
また寄り道して、求めた
回帰係数が不偏推定量
である事を示す
8/31/2013 33th Tokyo.R 15
不遍性って?
 全ての可能な標本それぞれに対して求めた推定量の期
待値 が、母集団特性値 に一致:    ˆE ˆE 
Dˆ推定量:
Cˆ推定量:
Aˆ推定量:
Bˆ推定量:
    ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値 
:母集団特性値
16
回帰係数が不遍推定量って?
 可能な標本すべてに対して回帰係数を其々も求めて平
均を取ると、母集団全体で求めた回帰係数と一致
⇒ 回帰分析が外れ値の解析に応用可能な理由
8/31/2013 33th Tokyo.R
17
傾き の不偏性: の証明
8/31/2013 33th Tokyo.R
bˆ
 
 
 
  
 
    
 
 
 
   
 













































































n
i
i
n
i
ii
n
i
i
i
n
i
i
n
i
i
ii
n
i
i
n
i
i
i
n
i
i
iii
iiii
xx
xx
xx
xx
xx
xxxx
xx
yyxx
b
n
xxyy
xy
Ebxy
1
2
1
1
2
1
1
2
1
1
2
1
E
E
EEˆE
0ˆ
  
 
注意して団の要素数でない事にが標本の大きさで母集
 
  
よりに代入する。先ず、を
  bE ˆ
18
切片 の不偏性: の証明
8/31/2013 33th Tokyo.R
aˆ   aE ˆ
      



xyxbEyxbyEaE
xyxbya
ˆˆˆ
ˆˆ
 
とからと
8/31/2013 33th Tokyo.R 19
最後に、
を示す
 2
相関係数決定係数 
20
準備:残差の性質 など
8/31/2013 33th Tokyo.R
 
 
   
     0ˆˆˆˆ(3)
0~
~
~~
~~~ˆ~~
ˆ~ˆ~~ˆˆ
~,~~ˆ~ˆ)2(
0ˆ0ˆˆˆ)1(
1111
1 1
2
1
2
1
1 1
2
1011
1






 


 



 


 


n
i
i
n
i
ii
n
i
ii
n
i
iii
n
i
n
i
in
i
i
n
i
ii
ii
n
i
n
i
iii
n
i
i
n
i
iii
n
i
ii
n
i
ii
iiiiiii
n
i
i
uxuxuxxyyxx
x
x
yx
yxxbyx
uxxbyxuxxxux
xxxyyyxbyu
uxbayu
   
   
   
より  一方、
より  
0ˆ,0ˆ
11
  
n
i
ii
n
i
i uxu
21
の証明
8/31/2013 33th Tokyo.R
 2
相関係数決定係数 
        
          
         
 
 
  
 
  
 
  
 
  
   
2
2
22
2
1
2
1
2
2
1
1
2
1
1
2
1
1
2
1
1
2
1
2
2
11
1111
2
2
1
1
1
1
1
1
ˆˆ
bˆ
ˆˆˆˆ
ˆˆˆˆˆˆ
ˆˆˆˆˆˆˆˆ
xy
yx
xy
yx
xy
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
ii
n
i
iiii
n
i
iii
n
i
ii
n
i
ii
n
i
i
iiiii
r
ss
s
ss
s
yy
n
xx
n
yyxx
n
yy
yyxx
xx
yyxx
yy
yyxxb
yy
yy
R
yyxxbyyyyxxb
yyxxyyxxbyyxxbyy
yyxxbyyaxbaxbyy



































































  
 
を代入すると二乗推定の義式に代入して、最乗これらを決定係数の定
  
  
より
8/31/2013 33th Tokyo.R 22
Thanks a lot!

相関係数と決定係数~回帰係数とその不偏性も

  • 1.
    8/31/2013 33th Tokyo.R1 相関係数と決定係数 ~ 回帰係数とその不偏性も @tanimocchi
  • 2.
    8/31/2013 33th Tokyo.R2 自己紹介  Twitter ID: @tanimocchi (もっちぃ)  数学科出身、博士(情報科学)  所属: タヒにかけ半導体  仕事: マーケティングなのか ブランディングなのか?  統計解析は必要! だと信じてる。  統数研公開講座に結構参加してますので、ご一緒の際は宜しくお願いします。  アンケート設計・分析に従事のはずが……、市場開拓がメイン  ちなみに、Rは第30回のTokyo.Rでインストールしました。 ⇒ 今回のスライドにもRのコードないです、ゴメンなさい(><)
  • 3.
    8/31/2013 33th Tokyo.R3 先ず、相関係数のおさらい その前に・・・
  • 4.
     二つのn次元ベクトル  ベクトルの大きさ ベクトルの内積 8/31/2013 33th Tokyo.R 4 ベクトル表現のおさらい [1/2]                           nn b b b a a a  2 1 2 1 ,ba       22 ,,,,cos, bbbaaababa            n i i n i i n i ii baba 1 2 1 2 1 ,,,,, bbaaba    n i i n i i ba 1 2 1 2 , ba a b  1cos1-  
  • 5.
    8/31/2013 33th Tokyo.R5 ベクトル表現のおさらい [2/2]  標本データと標本平均、平均からのズレのベクトル表現                                                                                           knk kk kk kkkkk k k k k nk k k k jnj jj jj jjjjj j j j j nj j j j xx xx xx x x x x x x x xx xx xx x x x x x x x   2 1 2 1 2 1 2 1 ~,, ~,, xxxxxx xxxxxx Rの文法 Rの文法
  • 6.
    8/31/2013 33th Tokyo.R6 相関係数のベクトル表現       n i kikjijkj xxxx 1 ~,~ xx   22 ~ 1 1~,~ 1 1 jjjj nn s xxx    分散        の成す角は二つのベクトル      共分散   kjjk jkkjkjjk nn s xx xxxx ~,~ cos~~ 1 1~,~ 1 1            n i jjijjj xx 1 22 ~~,~ xxx    jk kj jkkj kj jk jk nn n ss s   cos ~ 1 1~ 1 1 cos~~ 1 1 r 22     xx xx 相関係数        平行、反対の向き 正反対1    垂直共通なし0    平行、同じ向き全て共通1    比率性がどの程度あるかの2つのベクトルの共通    -r r r jk jk jk   1r1  jk相関係数
  • 7.
    8/31/2013 33th Tokyo.R7 で、決定係数のおさらい がやはり、その前に・・・
  • 8.
    8/31/2013 33th Tokyo.R8 (単)回帰での撹乱項と残差  データを生成する「真の」モデル  一般の回帰直線での近似  最小二乗法での近似 ,iii xy   iii ubxay  ii iii xbay uxbay ˆˆˆ ˆˆˆ    2.. ,0~  Ndii i   撹乱項:各々独立で平均0の正規分布に従う ⇒ データは撹乱項の下で生成されている(と仮定) 残差:説明しきれなかった量 y x xbay ˆˆ   ii yx ˆ, iuˆ  ii yx , 最小二乗法での残差
  • 9.
    8/31/2013 33th Tokyo.R9 決定係数  当てはまり具合の指標の定義  理論値データのバラつきが実績値データのバラつきに 近ければ近いほど、当てはまりが良いと考える。     実績値の偏差二乗和 理論値の偏差二乗和         n i i n i i yy yy R 1 2 1 2 2 ˆ
  • 10.
    8/31/2013 33th Tokyo.R10 ちょっと寄り道して、 単回帰係数 を偏微分なしで求める。
  • 11.
    8/31/2013 33th Tokyo.R11 最小二乗法での回帰係数導出 [1/3]  準備:一般回帰直線の式を全部足して平均を求める               とした。ここで、                  から上式を引いて、 と仮定即ち、       定の正規分布に従うと仮残差が平均   xxxyyy xby xxbyy yyyyyyu xxbyy bxay u xbay iiii ii ii iiiii ii ii         ~,~ ~~ ˆˆˆ ˆ ˆ 0ˆ 0
  • 12.
    8/31/2013 33th Tokyo.R12 最小二乗法での回帰係数導出 [2/3]  残差の二乗和 Q を最小化で回帰直線近似実施                                                                          n i i i n i i n i i i n i in i i n i i i n i in i in i i i n i in i i n i ii n i i n i i n i ii n i i x yx b x yx y x yx y x yx bx ybyxbxxbyuQ 1 2 1 1 2 2 1 1 2 1 2 2 1 1 2 2 1 2 1 1 2 1 2 1 2 1 2 1 2 1 2 ~ ~~ ~ ~~ ~ ~ ~~ ~ ~ ~~ ~ ~~~2~~~ˆ 等号成立条件:     
  • 13.
    8/31/2013 33th Tokyo.R13 最小二乗法での回帰係数導出 [3/3]  最小二乗法での回帰係数  相関係数との関係  xbya x yx b n i i i n i i ˆˆ, ~ ~~ ˆ 1 2 1      ba ˆ,ˆ x y xy x yxxy x xy n i i i n i i yxxyxy yx xy xy s s r s ssr s s x yx b ssrs ss s r       22 1 2 1 ~ ~~ ˆ yy  y  一方、 の値に無関係に一定値は となりつまり回帰直線は   0ˆ0 y 0ˆ0    br x yy br xy xy   が成立  に対してこの結果より、求めた 0ˆˆˆ ˆ,ˆ  xbayu ba
  • 14.
    8/31/2013 33th Tokyo.R14 また寄り道して、求めた 回帰係数が不偏推定量 である事を示す
  • 15.
    8/31/2013 33th Tokyo.R15 不遍性って?  全ての可能な標本それぞれに対して求めた推定量の期 待値 が、母集団特性値 に一致:    ˆE ˆE  Dˆ推定量: Cˆ推定量: Aˆ推定量: Bˆ推定量:     ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値  :母集団特性値
  • 16.
  • 17.
    17 傾き の不偏性: の証明 8/31/201333th Tokyo.R bˆ                                                                                                          n i i n i ii n i i i n i i n i i ii n i i n i i i n i i iii iiii xx xx xx xx xx xxxx xx yyxx b n xxyy xy Ebxy 1 2 1 1 2 1 1 2 1 1 2 1 E E EEˆE 0ˆ      注意して団の要素数でない事にが標本の大きさで母集      よりに代入する。先ず、を   bE ˆ
  • 18.
    18 切片 の不偏性: の証明 8/31/201333th Tokyo.R aˆ   aE ˆ           xyxbEyxbyEaE xyxbya ˆˆˆ ˆˆ   とからと
  • 19.
    8/31/2013 33th Tokyo.R19 最後に、 を示す  2 相関係数決定係数 
  • 20.
    20 準備:残差の性質 など 8/31/2013 33thTokyo.R              0ˆˆˆˆ(3) 0~ ~ ~~ ~~~ˆ~~ ˆ~ˆ~~ˆˆ ~,~~ˆ~ˆ)2( 0ˆ0ˆˆˆ)1( 1111 1 1 2 1 2 1 1 1 2 1011 1                        n i i n i ii n i ii n i iii n i n i in i i n i ii ii n i n i iii n i i n i iii n i ii n i ii iiiiiii n i i uxuxuxxyyxx x x yx yxxbyx uxxbyxuxxxux xxxyyyxbyu uxbayu             より  一方、 より   0ˆ,0ˆ 11    n i ii n i i uxu
  • 21.
    21 の証明 8/31/2013 33th Tokyo.R 2 相関係数決定係数                                                          2 2 22 2 1 2 1 2 2 1 1 2 1 1 2 1 1 2 1 1 2 1 2 2 11 1111 2 2 1 1 1 1 1 1 ˆˆ bˆ ˆˆˆˆ ˆˆˆˆˆˆ ˆˆˆˆˆˆˆˆ xy yx xy yx xy n i i n i i n i ii n i i n i ii n i i n i ii n i i n i ii n i i n i i n i ii n i iiii n i iii n i ii n i ii n i i iiiii r ss s ss s yy n xx n yyxx n yy yyxx xx yyxx yy yyxxb yy yy R yyxxbyyyyxxb yyxxyyxxbyyxxbyy yyxxbyyaxbaxbyy                                                                         を代入すると二乗推定の義式に代入して、最乗これらを決定係数の定       より
  • 22.
    8/31/2013 33th Tokyo.R22 Thanks a lot!