相関係数
ベクトルで理解する相関係数




MATSUURA Satoshi
matsuura@is.naist.jp


         1
相関が強い/弱いとは?

とても強い(線形)                強い                    弱い
料金               物理の得点                    成果




             >                        >
0      消費量       0            数学の得点       0         予算




                         2
相関係数
・目的
 2つの集合(x, y)の線形関係を定量的に表現したい


・性質
 1.相関係数は[-1, 1]の範囲で表す。
 2.0に近いほど相関が弱く、1(-1)に近づくほど相関が強い。
 3.相関関数が3倍になる事は、3倍の相関を得ることを示さない。
   相関度合いの比較を可能とするだけである。


・計算式
 x = (x1, x2, x3, ... xn), y = (y1, y2, y3, ... yn)の時
                                                        n
 x, yの相関関係Rは下記の式で求まる。だたし、      である。               x = n i=1 xi
                                                  ¯ 1

                       n
                       i=1 (xi     x)(yi
                                   ¯        y)
                                            ¯
      R=          n                    n
                  i=1 (xi    x)2
                             ¯         i=1 (yi    y )2
                                                  ¯

                                   3
問題点
・危険な(浅い)理解の仕方

     相関係数って、
関連がどれくらい有るかの値でしょ。


  ・値の大小が何を意味するか分からない
  ・そもそも[-1,1]の値を取る事を知らない
  ・相関係数が3倍になると3倍の相関が
   あると思ってしまう
            4
Goal
・簡潔な理解の仕方

     相関係数って、
     cosθ でしょ。

・[-1,1]の値を取るのは自明
・二つの集合(ベクトル)が同じ向き→1, 逆向き→-1
・¦cosθ¦ 1(強い相関)、¦cosθ¦ 0(弱い相関)

              5
そもそも線形の関係とは

線形:直線上に並ぶ
y

y4                         ・二つの集合(x, y)を考える
y3
                           ・x = (x1, x2, ... xn), y = (y1, y2, ... yn)とする
y2
y1                         ・(x1, y1), (x2, y2), ... (xn, yn)の全ての点を、
                            ある一つの直線が通過する時、二つの集合は
                            線形の関係にあると呼ぶ。
                       x
0    x1 x2   x3   x4




                                    6
線形関係の特徴

線形:直線上に並ぶ          重心を取る            重心と原点を重ねる

y              y                       y

                      x                0
                                           x
                                               x



0      x       0           x



             POINT: 重心は必ず直線上の点になる




                     7
線形関係の特徴

重心と原点が重なる
                    ・平行移動後の集合を(x , y )とする
 ように平行移動
                    ・x = (x1 , x2 , ... xn ), y = (y1 , y2 , ... yn )
   y       y = ax   →y = ax の関係が成り立つ

   0                              ・最重要ポイント
       x
             x                    x , y をn次元空間の1点と捉える


                    ・x , y の二つのベクトルの向きが等しい(a > 0)




                              8
ベクトルとcosθ
  y       y = ax

  0
                   ・線形の関係
      x            ・ベクトルx , y は4次元上で同一の方向を指す
            x

                   ・x , y で作る角度が0→cosθの値は1


  y       y = ax
                   ・線形に近い関係
  0
      x
            x
                   ・ベクトルx , y は4次元上で似た方向を指す
                   ・x , y で作る角度が小さい→cosθの値は1に近い


  y       y = ax
                   ・線形から遠い関係
  0
      x
            x
                   ・ベクトルx , y は4次元上で違った方向を指す
                   ・x , y で作る角度が大きい→cosθの値は0に近い



4点(4次元)は想像しにくいので、具体的な3点で確認してみて下さい
                          9
このcosθが
相関係数です。


   10
本当でしょうか?
  (以下確認)


   11
cosθの導出

         初期状態            (回帰直線と)重心を求める              重心を原点へ平行移動

     y                         y                        y


                                   x
                                                        0
                                                            x
     0          x              0          x                          x




                       POINT: 重心は必ず回帰直線上の点になる*




* 回帰直線:最小二乗法より求められる直線。重心が回帰直線上に存在することを確認するには少々の計算が必要(末尾のおまけを参照の事)。

                                   12
cosθの導出
                 ・初期状態の集合を(x, y)とする
                 ・平行移動後の集合を(x , y )とする
y                ・x = (x1 , x2 , ... xn ), y = (y1 , y2 , ... yn )


0                                       内積を考える
    x
          x


                 x ・y = ¦x ¦¦y ¦cosθ
                 ここで平行移動した距離は原点と重心間の距離に
                                 n
                        x = n i=1 xi
                        ¯ 1
                 等しく、       のように表される(yも同様)。
                 cosθについて解くと、下記を得る(p.3のRと同じ式)。

                      n
                      i=1 (xi         x)(yi
                                      ¯       y)
                                              ¯
        cos =    n                        n
                 i=1 (xi        x)2
                                ¯         i=1 (yi   y )2
                                                    ¯
                           13
ここまでのまとめ
       1.   集合 x, yの相関係数を求めたい
       2.   集合の重心を原点に合わせるように平行移動
       3.   平行移動後の集合 x , y をn次元の1点と捉える
       4.   ベクトルx , y から得られるcosθが求める相関係数

    ・相関係数の解釈の仕方

          どれだけ点(集合)が直線に沿って分布しているか
                      ↓
      どれだけベクトル(平行移動後の集合)が同じ方向を向いているか

y                      y                   y


                           x
                                           0
                                               x
0            x         0        x                  x




                           14
相関係数って、
  cosθ でしょ、
と思えたでしょうか。


     15
ここまで説明した、
相関係数のイメージが
 掴めれば十分です。
 (以下、おまけ)

    16
残された疑問
  ・なぜ、回帰直線を利用するのか
  ・本当に、回帰直線上に集合の重心が位置するのか
  ・回帰直線とcosθの関係はどうなっているのか
・p.12 cosθの導出より

         初期状態          (回帰直線と)重心を求める           重心を原点へ平行移動

     y                      y                    y


                                x
                                                 0
                                                     x
     0            x         0         x                  x




                      POINT: 重心は必ず回帰直線上の点になる
                                17
回帰直線を利用する理由
相関係数:線形関係にどれだけ近いか(遠いか)を示す値
              ↓
       基準となる直線が必要だ
              ↓
 出来るだけ、点(集合)の近くを通る直線を設定しよう
  (そうで無いと線形関係の場合、点(集合)が線上に存在しないという矛盾した状態が生じる)

            ↓
   そういう直線は最小二乗法で求められるよ
            ↓
  回帰直線:最小二乗法によって算出される直線

                       18
回帰直線と重心
       f (x) = ax + b
求める直線を        とおき、最小二乗法により求める。
       n
                                   J    J
J=          (yi       f (x)) が最小の時、       が成り立つ。
                            2
                                     =0   =0
      i=1
                                   a    b
                  n
      J
        =2     xi (axi + b               yi )2 = 0
      a    i=1
                  n
      J                                                          n
        =2     (axi + b              yi ) = 0
                                         2
                                                              =
                                                          以後、   とする。
      b    i=1                                                  i=1



  a         x2 + b
             i         xi           xi yi = 0

  a         xi + nb             yi = 0

                       n                        n
   x = n i=1 xi y = n i=1 yi
    ¯ 1         ¯ 1
ここで、             とおくと、

       xi yi     x2
             =a   i
                    + b¯
                       x
       n        n
                                             - (1)               y = a¯ + b
                                                                 ¯          (¯, y )
                                                                             x ¯
                                                            (1)式、      より重心   は
                                                                      x
  y = a¯ + b
  ¯    x                                                    回帰直線上に存在することがわかる



                                                     19
回帰直線とcosθ
続いて、回帰直線を求める。(1)より b を消去すると、

  xi yi              x2
            xy = a(
            ¯¯        i
                                       x2 )
                                       ¯                              - (2)
  n                 n

ここで、(2)式の右辺、左辺を整理する。
                                                                          n
  x2                  x2           xi               ¯
                                                    x2
   i
          x2 =
          ¯            i
                               2¯
                                x     +                                    =n
                                                                 (αが定数の時      が成り立つ)
 n                   n            n                n                     i=1

            =        (x2
                       i       2xi x + x2 )
                                   ¯ ¯
                 n
            =        (xi       x)2
                               ¯                                      - (2a)
                 n

  xi yi                  xi yi
           xy =
           ¯¯                    xy + y x + xy
                                 ¯ ¯ ¯¯ ¯ ¯
  n                      n
                         xi yi           ¯
                                      xi y     yi x + n¯y
                                                  ¯    x¯
                 =             +
                         n                   n
                 =       (xi yi         ¯
                                     xi y     yi x + xy )
                                                 ¯ ¯¯
                     n
                 =       (xi      x)(yi
                                  ¯           y)
                                              ¯                      - (2b)
                     n
                                                            20
回帰直線とcosθ
(2a), (2b)式を(2)に代入してaを得る。
       (xi     x)(yi y )
                ¯    ¯
 a=
             (xi x)2
                  ¯

(1)式に代入し、bを得る。
 b=y
   ¯   a¯
        x
             (xi     x)(yi y )
                      ¯     ¯
  =y
   ¯                           ¯
                               x
                   (xi x)
                        ¯ 2



a, bより回帰直線が下記の様に求まる。
       (xi     x)(yi y )
                ¯     ¯            (xi     x)(yi y )
                                            ¯     ¯
 y=                      x+y
                           ¯                         ¯
                                                     x       - (3)
             (xi x)
                  ¯ 2                    (xi x)
                                              ¯ 2



        y                                       y
                                                                     回帰直線

                                                    x                重心  y )
                                                                       (¯, ¯
                                                                        x

        0                x                      0        x




                                              21
回帰直線とcosθ
相関係数:線形関係にどれだけ近いかを示す値。
下図において回帰直線と点との差(赤線部)が小さいほど線形関係に近い。
→ 二乗和の比を利用して表す(定義。平行移動後の状態を利用する)。


・平行移動後の回帰直線をr(x)とすると、

             r(xi x)2
                   ¯
  R2 =                  - (4)
             (yi y )2
                  ¯



                                           (xi   ¯
                                                 x, y i   y)
                                                          ¯
  y                       y                                     y = r(x)


         x                                        (xi     ¯
                                                          x, r(xi   x))
                                                                    ¯

                          0
                              x
  0             x                      x
                                                                      x


                                  22
回帰直線とcosθ
(3)式よりr(x)は下記の様に求まり、(4)式を整理する。
                  (xi     x)(yi y )
                           ¯     ¯
 r(x) =                             x
                        (xi x)
                             ¯ 2


              r(xi x)2
                    ¯
 R =
  2
              (yi y )2
                   ¯
                  P
                      (xi x)(yi y )
                       P ¯       ¯
              (          (xi x)2
                              ¯     (xi    x))2
                                           ¯
      =
                            (yi y )2
                                  ¯
              P
          (   (xi x)(yi y ))2
               P ¯        ¯
              ( (xi x)
                     ¯ 2 )2          (xi    x)2
                                            ¯
      =
               (yi y )2
                    ¯
        ( (xi x)(yi y ))2
               ¯      ¯
      =
         (xi x)2 (yi y )2
             ¯          ¯

したがって、相関係数Rは下記の様に求まる。

                        (xi     x)(yi
                                ¯           y)
                                            ¯
 R=
                   (xi        x)2
                              ¯           (yi     y )2
                                                  ¯           p.13で求めたcosθと同じ式が得られた




                                                         23
おまけのまとめ

    ・相関係数:線形関係にどれだけ近いかを示す値。
     → 二乗和の比を利用して表す(定義)
    ・回帰直線からcosθと同じ値が得られた



・まとめの一言

    時には、定義から相関係数を導ける事も必要でしょう。
普段は、相関係数=cosθとベクトルと共にイメージ出来れば十分です。




                24
参考文献

・相関係数
http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF
%82%E6%95%B0


・5 回帰直線(1)
http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/rp4/rp4.htm




                              25

ベクトルで理解する相関係数