SlideShare a Scribd company logo
1 of 12
Download to read offline
データ解析・統計講座 ②
2013年9月18日
2次元のデータ
多次元データの統計学は、多くの変数を一括してその間の関係を扱う。2変数xとy
の場合、xとyの間に区別をもうけず対等に見る見方や方法を相関 といい、xからy(あ
るいはyからx)を見るとき、回帰という。
[注] 回帰(かいき)とは一般にはもとの位置または状態に戻ること、あるいはそれを繰り返すこと

キーワード:
多次元データmulti-dimensional data
相関correlation
回帰regression
身長と体重、数学と理科の成績などは、相関関係
年齢と血圧、所得と消費などは、回帰分析
とくに統計学では2つの変数の間に直線関係に近い傾向が見られるときに「相関関係
がある」ということが多い。
正の相関

・

・
・・
・・
・

負の相関
・
・
・・

無相関
・

・・

・

・
・・

・
・
2
散布図と分割表
2つのデータの間の関係を見るには、両方ともが量的データである場合には散布図、
少なくとも1つが質的データの場合には、分割表を用いる。
キーワード:
散布図scattergram
分割表contingency table=クロス表cross table
両方とも量的データである場合は散布図を使う。

(

片方あるいは両方とも質的データである場合は
分割表を使う、表側がより根元的なので、横方
向の相対度数が表示されることが多い。
ひ

留学あり

合計

99.4
75.6
70.3

0.6
6.6
0.5

100.0
70.8
70.8

:

:

:

93.1
100.0
93.1

6.9
100.0
6.9

100.0
100.0
100.0

X

男性
20代

ょ
う
そ
)

留学なし

女性
30代

表
側

※あまり使わない

Y

女性
20代

例)人口と小売商店数、不快指数が80以上の
日数とルームエアコンの保有率、世帯あたりの
米の消費支出とパンの消費支出、出世率と死
亡率、など

相対度数は3種類できる。
・横方向の相対度数
・縦方向の相対度数
・全体の大きさを分母とした相対度数(右下)

表頭(ひょうとう)

く

男性
30代
その他
合計

3
相関係数correlation coefficient
相関係数とは相関の程度を示す指標のことで、もっともよく用いられるのは、「ピアソ
ンの積率相関係数product-moment correlation coefficientであり、単に相関係数と
いうときには通常これをさしている。
[注]パラメトリック:前もって母集団の分布型を仮定しておくこと。
例えば、正規分布を仮定した上でデータにフィットするよう平均・分散を調整する。

相関係数

r=
=

変数Xと変数Yの共分散
変数Xの標準偏差*変数Yの標準偏差

å (x - x )(y - y )/ n
å (x - x / n) å (y - y
)
å (x - x (y - y )
å (x - x ()y - y )
i

i

2

i

=

i

i

)

/n

i

2

i

2

2

i

で定義される。相関係数はつねに[-1~1]の範囲にある。
上式の分子はxの偏差とyの偏差を同時に考えたときの全データについての平均であ
り、これを共分散covarianceと呼ぶ。
4
相関係数(2)
共分散
相関係数rの符号は、分母は常に正であるので、分子の共分散の符号によって決まる。
符号(±)が同じとき、ゾーンⅠおよびⅢとなり、異なるときゾーンⅡおよびⅣとなる。し
たがって、共分散は、下図の影の部分にあるデータが、そうでないデータに比較して多
ければ多いほど、+の側に大きくなり、逆に小さければ小さいほど-の側に大きくなる。
データが、影の部分にもそうでない所にも均等に分布していれば、正負は相殺され、0
に近づく。
y
Ⅱ
Ⅰ
xi - x > 0, yi - y > 0

(xi , yi )

y
Ⅲ

Ⅳ

x

x

Sy
完全相関
(x i - x )+ y
yi = ±
相関係数が最大、最小である±1をとるのは、
Sx
のときに限られる。書き換えると、右に示すとおり。 y = bx + a
i
i
すべてのデータが直線y=bx+a上にあるとき、
(ただし、 b = ± S y / S x , a = y - x S y / S x )
完全相関という。
5
相関関係と因果関係
相関関係correlation≠因果関係causality
相関係数が高いことは、一般的には強い相関があるといえるが、このことは必ずしも
その2つのデータの間に因果関係causalityがあるということではない。
(例)
・人口と商店街は、人口増→商店街の大きさ、といえる
相関関係があると同時に因果関係がある
(極端な例)
・ y = ( x - 8)

2

で関係が決まる場合、データの大きさをn=15とし、

(1, (1 - 8) ), (2, (2 - 8) ),× × ×, (15, (15 - 8) )
2

2

2

を考えてみると相関関係は0となる

特に社会現象の分析では、相関関係と因果関係のみきわめが難しいものが多い。
(例)みかんの消費量と風邪の患者数

6
みかけ上の相関と編相関係数
みかけ上の相関関係spurious correlation
(例)
東京都23区について、xに飲食店の数、yに金融機関の店舗数をとる
図からは、飲食店の多いところには金融機関が多いということになる。
相関係数もr=0.892と高い。
しかし、常識的に考えると、両者の間には直接的な関係はなく、この2つの変数は、居
住地の人口(特に昼間人口)という第3の変数を間にはさんで、強い正の相関関係が
観察されるのである。
金
融
機
(y)

関
店
舗
数

0.835

・
・
・
・・ ・
・・・・
・・
・・

みかけ上の相関 0.892
→偏相関 0.665

昼間人口(z)
0.815

飲食店数(x)

飲食店数(x)

金融機関店舗数(y)

偏相関係数 partial correlation coefficient
変数1と変数2のみかけ上の相関の値から、変数3の影響を除いたあとの相関係数

r12×3 =

r12 - r13r23
1 - r12

2

1 - r23

2
7
直線のあてはめ(1)
2変数xとyの間に、一方xが他方yを左右ないし決定する関係があるとき、xを独立変
数independent variable、yを従属変数dependent variableという。
(あるいは、説明変数、被説明変数ともいう)
統計学では、このxとyの関係を回帰という方法で扱う。
最小二乗法method of least squares
xiから予想される y の値 bx i + a と現実の値 y iが、
最も小さいへだたりを もつ最適な直線 y = bx + a の引き方である。

{

二乗和 L = å y i - (bx i + a

2
)}

を最小にする a , b の値を求める。
最小を求めるために a , b でそれぞれ偏微分して 0とおくと、
ì na + (å xi b ) å y i
=
ï
 
í
2
+
ï (å xi a ) å xi b = å xi y i
î

(

)

※次頁の展開式参照

となる。これを正規方程式normal equationという。これをa,bの2元連立方程式として
解くと、
å xi yi - nxy ,
b=
2
xi - nx 2
å

a = y - bx
8
最小二乗法を使った展開式
(上式) na + (å xi )b = å y i
n

{
L = å y i - (bx i + a

2
)
}

i =1

= å ( y i - bx i - a

2

(

)

)

= å y 2 i - 2 y i bx i - 2 ay i + b 2 x i + 2 abx i + a 2
2

変数 a 以外は定数項の 2次式と捉え、 a で偏微分して 0とおくと、
0 = å (- 2 y i + 2bx i + 2 a

å y = å a + å bx
i

(å +
(下式)  xi a )
n

i

= na + (å xi )b

(å x

{
L = å y i - (bx i + a

)

2
i

)

b = å xi y i

2
)
}

i =1

(

)

= å y 2 i - 2 y i bx i - 2 ay i + b 2 x i + 2 abx i + a 2
2

変数 b 以外は定数項の 2次式と捉え、 b で偏微分して 0とおくと、

(

0 = å - 2 y i x i + 2bx i + 2 ax i
2

å x y = å ax + å bx
i

i

i

2
i

= (å xi a )
+

(å x

)

2
i

b

)
直線のあてはめ(2)
回帰方程式
得られたa,bによる1次式をyのx上への回帰方程式 regression equation、bはその傾
きslopeで、偏回帰係数 partial regression coefficientと呼ぶ。
決定係数coefficient of determination
回帰と相関には、つながりがある。あてはめられた回帰直線の傾き、つまり回帰係数
は、
å (xi - x )( yi - y )
b=

å (x - x
i

2

※次頁の展開式参照

)

と表される。
相関係数の定義と比べると、bとrの間には
2
Sy
å ( yi - y )
=r
b=r
2
Sx
å (xi - x )
の関係が成立する。相関係数rはxとyの間の直線関係のあてはまりのよさという意味
をもつ。理論値との残差residualについて、

åd

2
i

(

ˆ
= å ( yi - yi ) = 1 - r 2
2

)å ( y - y )

2

i

が成り立つから、rの2乗が1に近いほど理論値に近づく。
10
回帰係数の展開式
最小二乗法で求めた正規方程式から、
傾き b =

å x y - nx y   を用いて
å x - nx
i

i

2

2

b=

i

å (x - x )( y - y )が求まるまでの展開式
å (x - x )
i

2

i

(分子)

)
å (x - x ( y - y =) å (x y - x y - x y
= å x y -å x y - å x y + å x y
= å x y -nx y - nx y + nx y
= å x y - nx y
i

i

i

i

i

i

i

i

i

+ xy

i

i

i

i

i

(分母)

(xi - x 2 )= å (xi 2 - 2 xi x + x 2
å
= å xi - å 2 xi x + å x 2
2

= å xi - 2nx × x + nx 2
2

= å xi - nx 2
2

i

)

)
決定係数の補足

( )
2

決定係数 r
相関係数rは直線のあてはまりの良さの尺度でもある。
理論値との外れ具合(残差)について、

åd

2
i

(

ˆ
= å ( yi - y i ) = 1 - r 2
2

)å ( y - y )

2

i

が成り立つ。直感的な理解としては、
2
ˆ 2
SS 0 = å ( yi - y ) ,SS E = å ( yi - yi ) とおくと、

SS E = (1 - r 2 ) × SS o
であるから、Yのばらつきは、割合r 2 だけ減少したことと同じである。

SS o (回帰前)

SS E (回帰後)

SS R (回帰による減少)
これが
となる

r2
12

More Related Content

Viewers also liked

統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践id774
 
新人教育と(Javaと)Python
新人教育と(Javaと)Python新人教育と(Javaと)Python
新人教育と(Javaと)Python7pairs
 
集合知2回目
集合知2回目集合知2回目
集合知2回目Noboru Kano
 
Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Naruhiko Shiratori
 
統計勉強会Vol1
統計勉強会Vol1統計勉強会Vol1
統計勉強会Vol1Yuto Suzuki
 
Bra kobe.r12
Bra kobe.r12Bra kobe.r12
Bra kobe.r12florets1
 
図解入門最新マーケティング・リサーチがよーくわかる本(2)
図解入門最新マーケティング・リサーチがよーくわかる本(2)図解入門最新マーケティング・リサーチがよーくわかる本(2)
図解入門最新マーケティング・リサーチがよーくわかる本(2)MROC Japan
 
相関係数は傾きに影響される
相関係数は傾きに影響される相関係数は傾きに影響される
相関係数は傾きに影響されるMitsuo Shimohata
 
Rで学ぶミニミニビッグデータ分析入門-第3回
Rで学ぶミニミニビッグデータ分析入門-第3回Rで学ぶミニミニビッグデータ分析入門-第3回
Rで学ぶミニミニビッグデータ分析入門-第3回Naruhiko Shiratori
 
統計学超入門 アップロード用
統計学超入門 アップロード用統計学超入門 アップロード用
統計学超入門 アップロード用w24nishi
 
100人のための統計解析 和食レストラン編
100人のための統計解析   和食レストラン編100人のための統計解析   和食レストラン編
100人のための統計解析 和食レストラン編. .
 
Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Naruhiko Shiratori
 
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用Rakuten Group, Inc.
 
白い陽気なやつとPythonでたわむれる
白い陽気なやつとPythonでたわむれる白い陽気なやつとPythonでたわむれる
白い陽気なやつとPythonでたわむれるKen'ichi Matsui
 
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Hiroko Onari
 
PythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよPythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよTanaka Yuichi
 
統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半Ken'ichi Matsui
 

Viewers also liked (20)

データ解析
データ解析データ解析
データ解析
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
 
Rでvisualization
RでvisualizationRでvisualization
Rでvisualization
 
新人教育と(Javaと)Python
新人教育と(Javaと)Python新人教育と(Javaと)Python
新人教育と(Javaと)Python
 
集合知2回目
集合知2回目集合知2回目
集合知2回目
 
Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回 Rで学ぶミニミニビッグデータ分析入門-第2回
Rで学ぶミニミニビッグデータ分析入門-第2回
 
統計勉強会Vol1
統計勉強会Vol1統計勉強会Vol1
統計勉強会Vol1
 
統計Python2
統計Python2統計Python2
統計Python2
 
Bra kobe.r12
Bra kobe.r12Bra kobe.r12
Bra kobe.r12
 
図解入門最新マーケティング・リサーチがよーくわかる本(2)
図解入門最新マーケティング・リサーチがよーくわかる本(2)図解入門最新マーケティング・リサーチがよーくわかる本(2)
図解入門最新マーケティング・リサーチがよーくわかる本(2)
 
相関係数は傾きに影響される
相関係数は傾きに影響される相関係数は傾きに影響される
相関係数は傾きに影響される
 
Rで学ぶミニミニビッグデータ分析入門-第3回
Rで学ぶミニミニビッグデータ分析入門-第3回Rで学ぶミニミニビッグデータ分析入門-第3回
Rで学ぶミニミニビッグデータ分析入門-第3回
 
統計学超入門 アップロード用
統計学超入門 アップロード用統計学超入門 アップロード用
統計学超入門 アップロード用
 
100人のための統計解析 和食レストラン編
100人のための統計解析   和食レストラン編100人のための統計解析   和食レストラン編
100人のための統計解析 和食レストラン編
 
Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回Rで学ぶミニミニビッグデータ分析入門-第1回
Rで学ぶミニミニビッグデータ分析入門-第1回
 
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用ビジネスリテラシーとしての統計 ビッグデータと統計の活用
ビジネスリテラシーとしての統計 ビッグデータと統計の活用
 
白い陽気なやつとPythonでたわむれる
白い陽気なやつとPythonでたわむれる白い陽気なやつとPythonでたわむれる
白い陽気なやつとPythonでたわむれる
 
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
 
PythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよPythonでDeepLearningを始めるよ
PythonでDeepLearningを始めるよ
 
統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半
 

Similar to データ解析・統計講座②

グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計t2tarumi
 
ラグランジュ未定乗数法
ラグランジュ未定乗数法ラグランジュ未定乗数法
ラグランジュ未定乗数法弘毅 露崎
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布Akihiro Nitta
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINALTomoshige Nakamura
 
東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1hirokazutanaka
 
第6回スキル養成講座 講義スライド
第6回スキル養成講座 講義スライド第6回スキル養成講座 講義スライド
第6回スキル養成講座 講義スライドkeiodig
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎Hirotaka Hachiya
 
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10) 2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10) Akira Asano
 
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用Hirotaka Hachiya
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ssuserf4860b
 
2022年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2022. 10. 20)
2022年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2022. 10. 20) 2022年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2022. 10. 20)
2022年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2022. 10. 20) Akira Asano
 

Similar to データ解析・統計講座② (18)

グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計
 
回帰
回帰回帰
回帰
 
ラグランジュ未定乗数法
ラグランジュ未定乗数法ラグランジュ未定乗数法
ラグランジュ未定乗数法
 
PRML 2.3節
PRML 2.3節PRML 2.3節
PRML 2.3節
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL
 
PRML セミナー
PRML セミナーPRML セミナー
PRML セミナー
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1
 
C03
C03C03
C03
 
第6回スキル養成講座 講義スライド
第6回スキル養成講座 講義スライド第6回スキル養成講座 講義スライド
第6回スキル養成講座 講義スライド
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 
PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2
 
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10) 2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
 
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
 
2022年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2022. 10. 20)
2022年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2022. 10. 20) 2022年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2022. 10. 20)
2022年度秋学期 応用数学(解析) 第5回 微分方程式とは・変数分離形 (2022. 10. 20)
 

データ解析・統計講座②