統計学勉強会#4 t分布
- 1. 推計学のすすめ 飲んべえ族に耳よりな話 (p.70)
―t 分布 (¯ の分布)―
x
伊藤
2012 年 4 月 2 日
1 m と x(前節のおさらいと新たな問題)
¯
1. 母平均 m
2. 母標準偏差 ρ
正規分布はこの 2 つのパラメータさえ分かれば完全に記述できる。
問題点 母平均も母標準偏差も普通は直接知ることはできない。すべてのデータを集められれば知ることがで
きるが、大抵はサンプル (標本) しか集められない。
解決策 サンプルから計算した標本平均 (¯) を母平均の推定値とし、同じようにサンプルから計算した標本標
x
準偏差 (s) を標準偏差の推定値とする。
x が m の、s が ρ のもっとも良い推定値 (最尤推定量*1 ) であることは理論的考察により保証されている。
¯
ただし、x も s もあくまで代用値にすぎない。サンプルから計算された値である以上、ある程度の誤差は伴
¯
うだろうし、誤差は何らかの分布に従うだろう。そこで、次のような事を考えてみる。
1. 平均 m、標準偏差 ρ の正規分布をする母集団を考える。
2. 母集団から資料 x として n 個のサンプルを抽出する。x の平均値 x の分布はどうなるか。
¯
3. x の分布から何が分かるか。
¯
*1 「尤もらしさ」を表す尤度を最大化するように決定された推定量という意味
1
- 2. 2 ノーマル・チップス
番号を書いたカードを表 1 ように用意する*2 。このチップは平均が 30、標準偏差 10 の正規分布を模してい
る。すなわち、この中からチップを無作為に 1 枚取り出せば、それを平均 30、標準偏差 10 の母集団から取り
出した標本とみなすことができる。
表 1 をグラフ化したものが図 1 である。このグラフは R では次のようにして描く。
## ノーマル・チップスの作成
norm.tips <- rep(0:60, c( 1, 1, 1, 1, 1, 2, 2, 3, 4, 4,
5, 7, 8, 9,11,13,15,17,19,22,
24,27,29,31,33,35,37,38,39,40,
40,40,39,38,37,35,33,31,29,27,
24,22,19,17,15,13,11, 9, 8, 7,
5, 4, 4, 3, 2, 2, 1, 1, 1, 1, 1))
library(MASS) # truehist() 読み込み
## 描画
png("normtips.png")
truehist(norm.tips, breaks = -0.5:60.5, prob = FALSE,
lty = 0, col = "gray",
xlab = "番号", ylab = "枚数")
dev.off()
また、平均は平均を求める関数 mean() を用いて、標準偏差は分散を求める関数 var() と平方根を求める関
数 sqrt() を組み合わせて次のように計算できる。
mean(norm.tips)
sqrt(var(norm.tips))
出力は
> mean(norm.tips)
[1] 30
> sqrt(var(norm.tips))
[1] 9.959396
となり、設定通り、平均は 30、標準偏差は概ね 10 であることが分かる。
*2 米国の物理学者、技術者、統計学者である Walter A. Shewhart(1891-1967) にちなむ。Shewhart は前回の勉強会で扱った「管
理図」を考案したことでも知られる。
2
- 3. 表1 シューハートのノーマル・チップス
番号 枚数 番号 枚数 番号 枚数
0 1 21 27 41 22
1 1 22 29 42 19
2 1 23 31 43 17
3 1 24 33 44 15
4 1 25 35 45 13
5 2 26 37 46 11
6 2 27 38 47 9
7 3 28 39 48 8
8 4 29 40 49 7
9 4 30 40 50 5
10 5 31 40 51 4
11 7 32 39 52 4
12 8 33 38 53 3
13 9 34 37 54 2
14 11 35 35 55 2
15 13 36 33 56 1
16 15 37 31 57 1
17 17 38 29 58 1
18 19 39 27 59 1
19 22 40 24 60 1
20 24
3 シミュレーション
ノーマル・チップスから 5 枚のチップを復元抽出*3 する。抽出した標本から平均値 x を計算する。この操作
¯
を 100 回繰り返す。結果の一部を表 2 に示す。
表 2 は R を用いて計算したため、テキストのものとは結果が異なる。R では次のようにシミュレーション
を実行する。なお、norm.tips などの変数は先程グラフを描画する際に設定したものと同様である。
### 抽出実験
## 記録用紙の作成
memo <- matrix(nrow=100, ncol =5)
## チップの抽出*100 回
set.seed(777) # 乱数の"種"を指定してサンプリングの結果を固定
# 結果が毎回同じになる以外の効果は無いので、
*3 1 枚とりだすごとにチップを元に戻す操作を繰り返す事。もし戻さないとすると抽出の度に母集団が変化してしまうため。
3
- 4. # 実際には不要
for(i in 1:100){
memo[i,] <-
sample(norm.tips, # norm.tips から
5, # 5 枚を抽出
replace = TRUE) # 復元抽出をする
}
## それぞれのセットについて平均を計算し、記録用紙に記入
means <- apply(memo, 1, mean)
memo <- cbind(memo, means)
## 行と列の名前を設定
colnames(memo) <- c(paste("チップ",1:5, sep=""), "平均")
rownames(memo) <- paste("試行", 1:100, sep="")
## 一部だけ出力
head(memo)
図1 シューハートのノーマル・チップス
4
- 5. 表 2 チップ実験のデータ
チップ 1 チップ 2 チップ 3 チップ 4 チップ 5 平均
試行 1 35 30 26 56 35 36.4
試行 2 7 26 21 46 23 24.6
試行 3 36 34 32 32 41 35.0
試行 4 17 28 41 26 27 27.8
試行 5 27 34 31 21 11 24.8
試行 6 38 30 31 53 35 37.4
試行 7 40 36 40 26 25 33.4
試行 8 25 37 24 35 34 31.0
試行 9 10 24 32 26 22 22.8
試行 10 53 43 43 44 20 40.6
試行 11 34 26 13 20 30 24.6
試行 12 20 15 47 25 10 23.4
試行 13 37 22 39 5 42 29.0
試行 14 15 18 23 45 33 26.8
試行 15 18 37 47 28 25 31.0
試行 16 43 24 34 33 27 32.2
試行 17 27 29 26 28 23 26.6
試行 18 30 22 23 36 42 30.6
試行 19 38 17 23 42 22 28.4
試行 20 39 27 22 45 45 35.6
試行 21 45 32 18 19 53 33.4
試行 22 39 29 29 33 33 32.6
試行 23 33 43 25 29 33 32.6
試行 24 24 6 37 38 45 30.0
試行 25 26 20 32 26 29 26.6
試行 26 36 14 35 43 31 31.8
試行 27 28 35 24 32 31 30.0
試行 28 23 25 28 28 26 26.0
試行 29 40 38 23 18 16 27.0
試行 30 7 35 32 18 21 22.6
試行 31 36 14 26 39 31 29.2
試行 32 30 20 16 35 25 25.2
試行 33 38 20 30 40 40 33.6
試行 34 28 30 21 29 27 27.0
試行 35 31 33 21 45 21 30.2
5
- 6. 図 2 x の分布
¯
4 xの分布
¯
シミュレーションで得られた x のヒストグラムを描くと、図 2 のようになる。
¯
平均、および標準偏差は次の通り。
> mean(means)
[1] 29.644
> sqrt(var(means))
[1] 4.559247
このヒストグラム、および平均や標準偏差から読み取れるのは、
1. 真の平均値 30 に近い値が多く得られており、標本平均は推定値として優れているが、20 以下や 40 以
上の場合もあり、標本平均 x がすなわち母平均 m と考えられるわけではないことが分かる。
¯
2. x の平均値は母平均に極めて近く、標本平均の平均値と母平均は一致し、最尤推定量であることが示唆
¯
される。
3. x の標準偏差は 4.56 であり、母標準偏差 10 より小さい。
¯
6
- 7. 5 推定の精度
x の標準偏差は母標準偏差より小さい。標準偏差は「精度」を表し、小さいほど「精度」が良いと言える。
¯
このことは次の例で説明できる。
ウイスキーのシングル 1 杯は 30mL であるが、バーテンはこれを目分量ではかるのが常である。このとき、
「バーテンがシングル 1 杯として注ぐウイスキーの分量」が平均 30、標準偏差 10 の正規分布に従うと仮定し
てみよう。
我々客は母集団を知ることはできない。バーテンが実際に注いだウイスキーの分量を測定することで、本当
に平均して 30mL のウイスキーを注いでいるのか検証したい。
このとき、1 杯だけのサンプルから推定しようとすると、それは平均 30、標準偏差 10 の分布に従うのでそ
れなりの誤差を伴う。
一方、5 杯のサンプルから推定しようとすると、5 杯のサンプルの平均値は平均が 30、標準偏差がおよそ
4.56 の正規分布に従う。1 杯のサンプルから平均値を推定しようとしたときに比べると標準偏差が小さいの
で、より良い精度で母平均を推定できるということが分かる。
6 x の標準偏差
¯
√
x の分布の標準偏差は 4.56 であったが、この値は母標準偏差 10 を
¯ 5 で割った値 (4.47) に近い。実は、一
般に次のことが言える。
定理 1 母平均 m、母標準偏差 ρ の正規分布をする母集団から、n 個の資料を取り出し、平均値 x を求めたと
¯
ρ
き、x は平均 m、標準偏差
¯ √
n
の正規分布をする。
定理 1 を図で示すと図 3 のようになる。
定理 1 はサンプル数を増やすほど推定の精度が高まることを示している。しかし、図 4 から明らかなよう
に、20∼30 程度以上のサンプルを用意しても、精度はそれほど高まらない。
7 t 分布を導く
現実には母平均 m は明らかでない場合が普通である。つまり、次のようなことが問題となる。
問題 いきつけのバーではシングル 1 杯として本当に 30mL を注いでいるのか?あるいは、バーテンの注ぐ
ウイスキーの分量の母平均は 30mL であるのか?
まず、30mL からどれだけ離れているか?を問題にするのだから、x と 30 との差を考える。
¯
x − 30
¯
また、スケールを「標準偏差の何倍」という形にするため、x の標準偏差で割る。ただし、x の標準偏差は
¯ ¯
√
ρ/ n であるが、母標準偏差 ρ は分からないので標本標準偏差 s で代用する。
x − 30
¯
t= s
√
n
7
- 8. 図 3 x の分布
¯
ここで求めた t という量は、x の分布を正規化したものと考えることができる (前節での正規分布の基準化
¯
の手順を思い出してもらいたい)。
この t とう統計量は正規分布によく似たが異なる t 分布という分布に従う。このことは当時ギネス社に務め
ていたウィリアム・ゴセット (William Sealy Gosset 1876-1937) が証明したが、ギネス社は社員が論文を発
表することを禁じていたため、ゴセットは Student というペンネームを用いて発表した*4 。そのため、この分
布は「Student の t 分布」とも呼ばれる。
*4 論文を発表した Biometrika 誌を主催していたのはカール・ピアソンであり、ゴセットの論文の重要さを見抜き統計量に t という
字を当てたのはロナルド・フィッシャーである。
8
- 9. 図4 資料の数 n を増した時の x の精度
¯
8 t 分布表
t 分布表を表 5 に示した。t 分布表は、分布の中心 (t=0) からそれ以上離れている t 値が出る確率が一定の
値 (1%、5% など) である点が示されている。また、t 値を計算するために不偏分散を用いたため、t 分布は自
由度 (n-1) により異なった形となる。
例えば、3 つのサンプルからなる標本を用いて t 値を計算したとしよう。そのとき、t 値の計算に用いた母
平均値が正しかったとして、t 値の絶対値が 4.30 より大きくなる可能性は 5% であるということが t 分布表か
ら読み取れる。
t 分布表からは確率→ t 値の対応しか読取ることができないが、コンピュータを使用すれば、t 値→確率の
対応を求めることができる*5 。
例えば、R では pt() という関数である t 値以下の値がでる確率を求めることができる。第 1 引数に t 値、第
2 引数に自由度を与える。
> (1 - pt(63.66, 1)) * 2
[1] 0.009999488
*5 一般に検定結果で p 値などとして出てくるのはこの値である。t 分布表など分布表を用いていた時代は統計量→確率を求めること
が困難だったため、 p<0.05 で有意」などという書き方しかできなかった。現在は p 値を直接求めることができるため、p=0.02
「
などと直接記述し、読者に対する判断の余地を広めるべきである。
9
- 10. 図 5 t 分布表
この例では自由度が 1 のときに t 値が 63.66 以下になる確率を 1 から引くことで 63.66 以上の t 値がでる確率
を求めている。2 倍したのは、-63.66 以下の値がでる確率を含めるため (両側検定にするため) である。出力
を見てみると、t 分布表の自由度 1、確率 1% の部分に対応していることが分かる。
9 t 分布表による検定
t 分布表による検定は、
「得られたサンプルの平均値は、想定している平均値と異なるかどうか?」を問題と
する。例えば、次のような問題である。
例題 バー・エックスで 2 杯のシングルを注文した。それぞれを計量したところ、32mL と 22mL であった。
このバーのシングルは 30mL であると言って良いのだろうか?
ここでは「シングル 1 杯の母平均は 30mL である」というのが帰無仮説になる。
上述したように、t 値は以下の式で求められる。
x − 30
¯
t= √
s/ n
例題の場合、次のような手順で t 値が計算できる。
• x = (32 + 22)/2 = 27
¯
2 2
• s2 = (32−27)2−1
+(22−27)
= 50
√ √
• s= s 2 = 50 = 7.07
10
- 11. • t= 27−30
√
7.07/ 2
= −0.6
自由度は 1 なので、t 分布表の自由度 1、確率 5% の点を調べる。もし計算した t 値の絶対値が t 分布表の値
より大きければ、この t 値は偶然得られたものではない= シングル 1 杯 30mL という仮定がそもそも間違っ
ていた、という結論を導くことができる。
今回の場合、t 値の絶対値は 0.6 であり、t 分布表の値 12.71 より小さい。よって、シングル 1 杯 30mL で
はないとはいえない*6 。
しかし、サンプル数を増やせば x の推定精度が高まるため、30mL ではない、という結論が得られるかも知
¯
れない。
*6 「シングル 1 杯 30mL である」というような結論を導くことはできないという点に注意。このようなことが言えないために回りく
どい二重否定の表現を使わざるを得ない。
11