Recommended
PDF
2020年度秋学期 統計学 第13回 不確かな測定の不確かさを測る ー 不偏分散とt分布 (2020. 12. 22)
PDF
PDF
PDF
KEY
第5章 統計的仮説検定 (Rによるやさしい統計学)
PPT
PDF
PPT
PDF
PDF
PPTX
PPT
PPT
PDF
PDF
PDF
2015年度秋学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 10. 28)
PDF
2015年度春学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 5. 14)
PDF
PDF
2016年度秋学期 統計学 第5回 分布をまとめる-平均・分散 (2016. 10. 24)
PPT
PPT
PDF
統計学における相関分析と仮説検定の基本的な考え方とその実践
PDF
PDF
PDF
PDF
2022年度秋学期 統計学 第14回 分布についての仮説を検証するー仮説検定(1) (2023. 1. 10)
PPTX
PDF
2014年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2014. 10. 22)
PDF
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
PDF
セグメンテーションの考え方・使い方 - TokyoR #44
More Related Content
PDF
2020年度秋学期 統計学 第13回 不確かな測定の不確かさを測る ー 不偏分散とt分布 (2020. 12. 22)
PDF
PDF
PDF
KEY
第5章 統計的仮説検定 (Rによるやさしい統計学)
PPT
PDF
PPT
Similar to 第6章 2つの平均値を比較する - TokyoR #28
PDF
PDF
PPTX
PPT
PPT
PDF
PDF
PDF
2015年度秋学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 10. 28)
PDF
2015年度春学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 5. 14)
PDF
PDF
2016年度秋学期 統計学 第5回 分布をまとめる-平均・分散 (2016. 10. 24)
PPT
PPT
PDF
統計学における相関分析と仮説検定の基本的な考え方とその実践
PDF
PDF
PDF
PDF
2022年度秋学期 統計学 第14回 分布についての仮説を検証するー仮説検定(1) (2023. 1. 10)
PPTX
PDF
2014年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2014. 10. 22)
More from horihorio
PDF
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
PDF
セグメンテーションの考え方・使い方 - TokyoR #44
PDF
PDF
PDF
状態空間モデルの考え方・使い方 - TokyoR #38
PDF
ロジスティック回帰の考え方・使い方 - TokyoR #33
PDF
時系列解析の使い方 - TokyoWebMining #17
PDF
PDF
Rで学ぶ現代ポートフォリオ理論入門 - TokyoR #18
Recently uploaded
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
PPTX
PDF
さくらインターネットの今 法林リージョン:さくらのAIとか GPUとかイベントとか 〜2026年もバク進します!〜
PDF
PDF
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
PDF
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
PDF
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
PDF
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
第6章 2つの平均値を比較する - TokyoR #28 1. 2. 自己紹介
• Twitter ID:
@horihorio
• お仕事:
データマイニング・コンサルタント
(金融の分析で6年程)
• 興味事項:
統計/機械学習/DB/R/Finance/金融業/会計
• 過去の発表内容:
ここ:http://www.slideshare.net/horihorio
2013/01/26 2つの平均値を比較する 1 / 26
3. 第6章のゴール
違いが分かる人になる。
【例題】センター英語で、現役vs浪人で差はあるか?
謎の手法 (?)でデータを入手 (入手方法はあとで)
現役(N= 411734):
153, 115, 109, 100, 35, 154, 71, 91, 52, 122, …
浪人(N= 102933) :
163, 123, 162, 139, 40, 184, 121, 61, 90, 193, …
2013/01/26 2つの平均値を比較する 2 / 26
4. 5. 1. 仮説検定の発想
統計的仮説検定の一般的な手順(P.111)
手順 やること
1 母集団に関する帰無仮説と対立仮説(両側or片
側検定)を設定する
2 検定統計量を選ぶ
3 有意水準αの値を決める
4 (データを収集した後)データから検定統計量の実
現値を求める
5 検定統計量の実現値が棄却域に入れば帰無仮
説を棄却して、対立仮説を採択する。棄却域に入
らなければ、帰無仮説を採択する
2013/01/26 2つの平均値を比較する 4 / 26
6. 7. 1. 仮説検定の発想
いったん、例えば
帰無仮説
否定したいこと:
あ (今の体重)-(1年前の体重)>0
を考え、
否定したいことの発生確率が高い/低い
で評価する。
2013/01/26 2つの平均値を比較する 6 / 26
8. 平均5, 分散2の
1. 仮説検定の発想
正規分布に従う
体重増加~N(5,2) 体重増加~N(-4,2)
0.20
0.20
0.15
0.15
99.1% 2.7%
発生確率
発生確率
0.10
0.10
0.05
0.05
0.00
0.00
-2 0 2 4 6 8 10 -8 -6 -4 -2 0 2
yokkunsの体重増加 yokkunsの体重増加
体重増加 体重減少
2013/01/26 2つの平均値を比較する 7 / 26
9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 3. 2つの平均値を比較する
【謎のデータ分析】 手順1. 等分散チェック
> ls()
[1] "geneki" "ronin" 等分散の確率
>
⇒小さいので異分散
> var.test(geneki, ronin)
F test to compare two variances
data: geneki and ronin
F = 1.2459, num df = 411733,
denom df = 102932, p-value < 2.2e-16
alternative hypothesis:
true ratio of variances is not equal to 1
95 percent confidence interval:
1.235178 1.256706
sample estimates: ratio of variances 1.245919
2013/01/26 2つの平均値を比較する 21 / 26
23. 3. 2つの平均値を比較する
【謎のデータ分析】 手順2. Welchの検定
> t.test(geneki,ronin, var.equal=FALSE)
Welch Two Sample t-test
data: geneki and ronin
t = -197.3022, df = 172848.2, p-value < 2.2e-16
差=0の確率は小さい
alternative hypothesis: ⇒差≠0 平均値が異なる!
true difference in means is not equal to 0
95 percent confidence interval: -23.64578 -23.18061
sample estimates:
mean of x mean of y
120.8260 144.2392
2013/01/26 2つの平均値を比較する 22 / 26
24. 3. 2つの平均値を比較する
【ご参考】 等分散の場合の検定
> t.test(geneki, ronin, var.equal=TRUE)
Two Sample t-test
data: geneki and ronin
t = -184.739, df = 514665, p-value < 2.2e-16
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval: -23.66159 -23.16480
sample estimates:
mean of x mean of y
120.8260 144.2392
2013/01/26 2つの平均値を比較する 23 / 26
25. 3. 2つの平均値を比較する
【補足】対応のあるt検定
• 対応のあるデータって?
母集団を、何かを施術/未施術 で分割したペア
例:怒涛の英語力が身につく学校に
行った/行かなかった 場合の比較
• この場合は、検定統計量が異なる
• Rでは、t.test(x, y, paired=TRUE) とする
• Rでの実例は、P.150~156を参照
2013/01/26 2つの平均値を比較する 24 / 26
26. 3. 2つの平均値を比較する
で、データの入手源 → 下記コードだったり…
set.seed(666) # 同一乱数生成 数値参考源:
# 初期乱数付与 • 昨年のセンター試験
geneki <- rnorm(n=519867*.792, mean=123.3, sd=40) • ベネッセ・駿台の
ronin <- rnorm(n=519867*.198, mean=152.2, sd=30) 自己採点集計
# 全数値が0~200になるまで乱数で置換
while( length(which(geneki<0|geneki>200)) ) {
geneki <- replace(geneki, which(geneki<0|geneki>200)
, rnorm(length(which(geneki<0 | geneki>200)), mean=123.3, sd=40)) }
while( length(which(ronin<0|ronin>200)) ) {
ronin <- replace(ronin, which(ronin<0|ronin>200)
, rnorm(length(which(ronin<0 | ronin>200)), mean=50, sd=60)) }
実は:両母集団とも
# 整数置換
geneki <- round(geneki); ronin <- round(ronin) 正規分布でない…
2013/01/26 2つの平均値を比較する 25 / 26
27. まとめ
• Welch検定/t検定:
2つの母集団に差がある?を知りたい
• 検定で重要なこと:
検定統計量の仮定に当てはまる?
• Rのコマンド:
1. 等分散か?: var.test
2. 差がある? :
t.test(x, y, var.equal=FALSE / TRUE)
2013/01/26 2つの平均値を比較する 26 / 26