第5章 統計的仮説検定 (Rによるやさしい統計学)

10,966 views

Published on

Published in: Education
  • Be the first to comment

第5章 統計的仮説検定 (Rによるやさしい統計学)

  1. 1. 第5章 統計的仮説検定 Rによるやさしい統計学 @Prunus1350 Tokyo.R 26 2012/09/08
  2. 2. 自己紹介
  3. 3. • Twitterアカウント ぷるうぬす@Prunus1350• 職業 SASエンジニア• 好きな物 日本酒、ベルギービール
  4. 4. まずは前回のおさらい
  5. 5. 標本正規母集団 平均: X 1 2 不偏分散: ˆ1 標本サイズ: n 平均: µ 平均: X 2 2母分散: 不偏分散: ˆ2 2 ランダムサンプリング … 平均: X m 2 不偏分散: ˆm …
  6. 6. 標本の平均: X 2 はいろいろな値をとり得るが… 不偏分散: ˆ 期待値は母集団のものと一致する! E[X] = µ E[ˆ 2 ] = 2
  7. 7. また、標本の平均:X の分布は 平均: µ 2分散: n 0.4の正規分布にしたがう 0.3 0.2 0.1 0.0 -4 -2 0 2 4 X
  8. 8. ここから第5章の本題
  9. 9. 正規母集団を仮定すると、標本の平均が母平均とどのくらいずれているかを 見ることにより、その標本平均の出る確率が どのくらいかが分かる 0.4 0.3 確率が低ければ 0.2 仮定が違っているのかも、 0.1 と考えることができる 0.0 -4 -2 0 2 4 X
  10. 10. 平均値の検定をやってみよう
  11. 11. 母分散が既知の場合は Z検定マジンガーZ
  12. 12. 標本平均では確率計算が面倒なので、 標準化する 0.4検定統計量Z 0.3 X µZ= 0.2 p n 0.1 2 :母分散 0.0 -4 -2 0 2 4 Z
  13. 13. Rでやってみる > 心理学テスト<-c(13,14,7,12,10,6,8,15,4,14,9,6,10,12,5,12,8,8,12,15) > Z分子 <- mean(心理学テスト)-12 > Z分子 [1] -2 > Z分母 <- sqrt(10/length(心理学テスト)) > Z分母 [1] 0.7071068 > Z統計量 <- Z分子/Z分母 > Z統計量 [1] -2.828427 > 2*pnorm(abs(Z統計量),lower.tail=FALSE) [1] 0.004677735
  14. 14. 母集団の分散が未知の場合は t検定 テコンV
  15. 15. 検定統計量Z 検定統計量t X µ X µ Z= t= ˆ p p n n 2 2 :母分散 ˆ :不偏分散0.4 0.40.3 0.30.2 0.20.1 0.10.0 0.0 -4 -2 0 2 4 -4 -2 0 2 4 Z t
  16. 16. 自由度:1 0.4 0.3 0.2 0.1 実線:t分布 点線:標準正規分布 0.0 -4 -2 0 2 4 t
  17. 17. 自由度:2 0.4 0.3 0.2 0.1 実線:t分布 点線:標準正規分布 0.0 -4 -2 0 2 4 t
  18. 18. 自由度:3 0.4 0.3 0.2 0.1 実線:t分布 点線:標準正規分布 0.0 -4 -2 0 2 4 t
  19. 19. 自由度:20 0.4 0.3 0.2 0.1 実線:t分布 点線:標準正規分布 0.0 -4 -2 0 2 4 t
  20. 20. Rでやってみる > 心理学テスト<-c(13,14,7,12,10,6,8,15,4,14,9,6,10,12,5,12,8,8,12,15) > t.test(心理学テスト,mu=12) One Sample t-test data: 心理学テスト t = -2.6166, df = 19, p-value = 0.01697 alternative hypothesis: true mean is not equal to 12 95 percent confidence interval: 8.400225 11.599775 sample estimates: mean of x 10
  21. 21. 独立性の検定(χ二乗検定)
  22. 22. 独立性の検定とは?2つの質的変数に関連があるかどうかを確かめるための検定 数学の好き嫌いと 統計の好き嫌いには 関連があるのか? 統計嫌い 統計好き 計数学嫌い 10 4 14数学好き 2 4 6 計 12 8 20
  23. 23. 観測値 期待値 統計嫌い 統計好き 計 統計嫌い 統計好き 計 数学嫌い 10 4 14 数学嫌い 8.4 5.6 14 数学好き 2 4 6 数学好き 3.6 2.4 6 計 12 8 20 計 12 8 20 Ok :観測度数 Ek :期待度数 2検定統計量 2 (O1 E1 ) 2 (O2 E2 ) 2 (Ok Ek ) 2 = + + ··· + E1 E2 Ek
  24. 24. 2 は帰無仮説のもとで自由度別の 2 分布にしたがう 2 分布0.5 自由度:10.4 自由度:20.3 自由度 = (列の数 - 1) (行の数 - 1) 自由度:40.2 自由度:80.10.0 0 5 10 15 20
  25. 25. Rでやってみる > A <- matrix(c(10,2,4,4),ncol=2,byrow=FALSE) > > chisq.test(A,correct=FALSE) Pearsons Chi-squared test data: A X-squared = 2.5397, df = 1, p-value = 0.111 警告メッセージ: In chisq.test(A, correct = FALSE) : カイ自乗近似は不正確かもしれません
  26. 26. おまけ
  27. 27. 2 2分割表の場合はYatesの補正をかけるべし!
  28. 28. Rでやってみる > A <- matrix(c(10,2,4,4),ncol=2,byrow=FALSE) > > chisq.test(A) Pearsons Chi-squared test with Yates continuity correction data: A X-squared = 1.2004, df = 1, p-value = 0.2732 警告メッセージ: In chisq.test(A, correct = FALSE) : カイ自乗近似は不正確かもしれません
  29. 29. 警告メッセージが気になる…
  30. 30. フィッシャーの正確確率検定 (Fisher s Exact Test) テレンス・T・ダービー
  31. 31. 2 2分割表で期待度数が小さい場合には χ二乗検定ではなく フィッシャーの正確確率検定を用いるべし! 統計嫌い 統計好き 計数学嫌い a b e e Ca ⇤ f Cc e!f !g!h! P = = n Cg n!a!b!c!d!数学好き c d f 計 g h n デメリット:階乗を含むので計算が大変
  32. 32. 周辺度数を固定したままセル内の人数を変え、 それぞれの確率を計算する a b c d P 0.4① 12 2 0 6 0.0007223942② 11 3 1 5 0.01733746 0.3③ 10 4 2 4 0.119195④ 9 5 3 3 0.3178535 0.2⑤ 8 6 4 2 0.3575851 0.1⑥ 7 7 5 1 0.1634675⑦ 6 8 6 0 0.02383901 0 ① ② ③ ④ ⑤ ⑥ ⑦計 1 パターン③と、それより確率の低い パターン①,②,⑦のPを足し合わせる(両側検定) p 0.16109
  33. 33. Rでやってみる > A <- matrix(c(10,2,4,4),ncol=2,byrow=FALSE) > > fisher.test(A) Fishers Exact Test for Count Data data: A p-value = 0.1611 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.4459581 70.7319343 sample estimates: odds ratio 4.565523
  34. 34. ご清聴ありがとうございました!

×