0
t 検定   カイ二乗検定    分散分析         阪 上 辰 也     SAKAUE Akkuş Tatsuya(名古屋大学 大学院 国際開発研究科 学術研究員)
0. 自己紹介
0. 自己紹介• 阪上 辰也(SAKAUE, Tatsuya)   • “坂”上・さか “がみ” は高頻度エラー   • ID: @sakaue• 所属:名古屋大学の研究員• 専門:第二言語習得、CALL 教材開発
今日で Nagoya.R 1周年• 入門者(初心者と区別)の拠り所に• 今回を入れて5回開催   • 3/26 (#1), 5/8 (#2), 6/19 (#3), 10/30 (#4)• 延べ100人以上の参加• 今後ともどうぞよろしくお願い...
Agenda1. t 検定(今日のメイン)2. カイ二乗検定3. 分散分析
Agenda1. t 検定(今日のメイン)2. カイ二乗検定3. 分散分析
検定の前に仮説を設ける• 帰無仮説 H0:「差はない」「効果はない」• 対立仮説 H1:「差がある」「効果がある」•   帰無仮説が正しいという前提で,検定統計量(t, χ2, F )    を求める•   検定統計量が,極端で滅多に得られない...
t 検定• 2つのグループの平均値の差の検定 するのに使う手法• R では,t.test() であっさりと実行
t 検定 •   (例)英語の好きな組と嫌いな組が受けたテストの     平均値に差があるかどうか> like <- c(6,10,6,10,7,8,7,9,10,4)> dislike <- c(3,5,6,4,4,8,4,5,4,7)> t...
t 検定> t.test(like,dislike,var.equal=TRUE)  Two Sample t-testdata: like and disliket = 3.3041, df = 18, p-value = 0.003946a...
t 検定の前に...  “等分散であるかどうかを確かめてから,普通の  t 検定を使うか,Welch の方法による t 検定にす  るかを決めるというのは,よくない。最初から     Welch の方法による t 検定を使えばよい。”http:...
問答無用にWelch !よく分からないが(解説希望),1つのこと(有意な差の有無)を知りたいのに,予備の検定を含めた2段階の検定と いうのが「気持ち悪い」らしい。
ソース! ソース!    ―(等分散の検定はせず)最初から Welch で行け―•   http://oku.edu.mie-u.ac.jp/~okumura/blog/node/2262•   http://aoki2.si.gunma-u....
という訳で...> t.test(like,dislike,var.equal=FALSE)  Welch Two Sample t-testdata: like and disliket = 3.3041, df = 16.795, p-va...
ところで t 検定の t は何なのかと...•   t 分布の t なんだけど...•   ゴセットの発表した統計量(Student の t 分布)に,(論    敵の)フィッシャーが t という記号を充てた•   別に特別な意味は無く,論文中...
Agenda1. t 検定2. カイ二乗検定3. 分散分析
Agenda1. t 検定2. カイ二乗検定3. 分散分析
カイ二乗検定• 独立性の検定のために使う(連関の有無)•   (例)数学が好き嫌いと統計の好き嫌いの間に有    意な連関があるか•   (例)あるコーパス中の表現Aと表現Bの頻度の差• ざっくり言えば,期待度数と観測度数のズレ が偶然出ちゃっ...
接続詞 however の生起位置                   文頭          文中          文末           合計      頻度            109         347           8...
Agenda1. t 検定2. カイ二乗検定3. 分散分析
Agenda1. t 検定2. カイ二乗検定3. 分散分析
分散分析• 3つ以上の平均値の差の検定のために使う •   t 検定は使えない:検定の多重性の問題あり=本当     は差がないのに,差があると判断してしまう確率     (第1種の誤り)が上がってしまう• ANOVA(アノーバ、ANalysi...
ひとまず分散分析 Aクラス Bクラス Cクラス   10   9    6    8   7    4    9   4    3    6   5    9    9   2    2    5   8    6    7   4    2 ...
ひとまず分散分析> test <- read.csv("demo.csv", header=T)> anova(lm(Points ~ Score, data=test))Analysis of Variance TableResponse: ...
まとめ• 差がありそうかなさそうかを判断するため に各種検定を行う  • 平均値の差の検定:t 検定と分散分析  • 独立性の検定  :カイ二乗検定• 数行のコマンドであっさり検定!   • データ準備の手間は多少かかるかも...
Nagoyar 5 Part 1
Upcoming SlideShare
Loading in...5
×

Nagoyar 5 Part 1

602

Published on

Published in: Education, Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
602
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Transcript of "Nagoyar 5 Part 1"

    1. 1. t 検定 カイ二乗検定 分散分析 阪 上 辰 也 SAKAUE Akkuş Tatsuya(名古屋大学 大学院 国際開発研究科 学術研究員)
    2. 2. 0. 自己紹介
    3. 3. 0. 自己紹介• 阪上 辰也(SAKAUE, Tatsuya) • “坂”上・さか “がみ” は高頻度エラー • ID: @sakaue• 所属:名古屋大学の研究員• 専門:第二言語習得、CALL 教材開発
    4. 4. 今日で Nagoya.R 1周年• 入門者(初心者と区別)の拠り所に• 今回を入れて5回開催 • 3/26 (#1), 5/8 (#2), 6/19 (#3), 10/30 (#4)• 延べ100人以上の参加• 今後ともどうぞよろしくお願いします
    5. 5. Agenda1. t 検定(今日のメイン)2. カイ二乗検定3. 分散分析
    6. 6. Agenda1. t 検定(今日のメイン)2. カイ二乗検定3. 分散分析
    7. 7. 検定の前に仮説を設ける• 帰無仮説 H0:「差はない」「効果はない」• 対立仮説 H1:「差がある」「効果がある」• 帰無仮説が正しいという前提で,検定統計量(t, χ2, F ) を求める• 検定統計量が,極端で滅多に得られないような値となっ たら,帰無仮説を棄却し,対立仮説を採択する
    8. 8. t 検定• 2つのグループの平均値の差の検定 するのに使う手法• R では,t.test() であっさりと実行
    9. 9. t 検定 • (例)英語の好きな組と嫌いな組が受けたテストの 平均値に差があるかどうか> like <- c(6,10,6,10,7,8,7,9,10,4)> dislike <- c(3,5,6,4,4,8,4,5,4,7)> t.test(like,dislike,var.equal=TRUE)
    10. 10. t 検定> t.test(like,dislike,var.equal=TRUE) Two Sample t-testdata: like and disliket = 3.3041, df = 18, p-value = 0.003946alternative hypothesis: true difference inmeans is not equal to 0 # 両側検定してます95 percent confidence interval: # 信頼区間 0.9831754 4.4168246sample estimates:mean of x mean of y 7.7 5.0
    11. 11. t 検定の前に... “等分散であるかどうかを確かめてから,普通の t 検定を使うか,Welch の方法による t 検定にす るかを決めるというのは,よくない。最初から Welch の方法による t 検定を使えばよい。”http://aoki2.si.gunma-u.ac.jp/lecture/Average/bunsan1.html
    12. 12. 問答無用にWelch !よく分からないが(解説希望),1つのこと(有意な差の有無)を知りたいのに,予備の検定を含めた2段階の検定と いうのが「気持ち悪い」らしい。
    13. 13. ソース! ソース! ―(等分散の検定はせず)最初から Welch で行け―• http://oku.edu.mie-u.ac.jp/~okumura/blog/node/2262• http://aoki2.si.gunma-u.ac.jp/lecture/BF/index.html• Donald W. Zimmerman, ``Some properties of preliminary tests of equality of variances in the two-sample location problem, The Journal of General Psychology, Vol.123, pp.217-231 (1996)• The unequal variance t-test is an underused alternative to Students t-test and the Mann- Whitney U test -- Ruxton 17 (4): 688 -- Behavioral Ecology• 馬車馬のように: [統計]Mann-WhitneyのU検定と不等分散(http://qdai.way- nifty.com/qjes/2005/02/mannwhitneyu.html
    14. 14. という訳で...> t.test(like,dislike,var.equal=FALSE) Welch Two Sample t-testdata: like and disliket = 3.3041, df = 16.795, p-value = 0.004249alternative hypothesis: true difference inmeans is not equal to 095 percent confidence interval: 0.9743014 4.4256986sample estimates:mean of x mean of y 7.7 5.0
    15. 15. ところで t 検定の t は何なのかと...• t 分布の t なんだけど...• ゴセットの発表した統計量(Student の t 分布)に,(論 敵の)フィッシャーが t という記号を充てた• 別に特別な意味は無く,論文中の標本分散s^2に対する式 だったことから,s の次の t を使ったらしい...• 「ウィリアム・ゴセット」http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%83%AA%E3%82%A2%E3%83%A0%E3%83%BB %E3%82%B4%E3%82%BB%E3%83%83%E3%83%88• 「自由度」http://ja.wikipedia.org/wiki/%E8%87%AA%E7%94%B1%E5%BA%A6• http://mat.isc.chubu.ac.jp/fpr/fpr1997/0119.html• http://www.pol.geophys.tohoku.ac.jp/~hanawa/ori/ori/054.html
    16. 16. Agenda1. t 検定2. カイ二乗検定3. 分散分析
    17. 17. Agenda1. t 検定2. カイ二乗検定3. 分散分析
    18. 18. カイ二乗検定• 独立性の検定のために使う(連関の有無)• (例)数学が好き嫌いと統計の好き嫌いの間に有 意な連関があるか• (例)あるコーパス中の表現Aと表現Bの頻度の差• ざっくり言えば,期待度数と観測度数のズレ が偶然出ちゃったかどうかを調べる
    19. 19. 接続詞 however の生起位置 文頭 文中 文末 合計 頻度 109 347 8 493> freq <- c(109,347,8)> chisq.test(freq,correct=FALSE) Chi-squared test for given probabilitiesdata: freqX-squared = 391.7371, df = 2, p-value < 2.2e-16# 手作業なら,カイ二乗分布表の自由度2のところを確認する# http://homepage2.nifty.com/nandemoarchive/toukei_kiso/t_F_chi.htm
    20. 20. Agenda1. t 検定2. カイ二乗検定3. 分散分析
    21. 21. Agenda1. t 検定2. カイ二乗検定3. 分散分析
    22. 22. 分散分析• 3つ以上の平均値の差の検定のために使う • t 検定は使えない:検定の多重性の問題あり=本当 は差がないのに,差があると判断してしまう確率 (第1種の誤り)が上がってしまう• ANOVA(アノーバ、ANalysis Of VAriance)• F という検定統計量を利用(F 分布)
    23. 23. ひとまず分散分析 Aクラス Bクラス Cクラス 10 9 6 8 7 4 9 4 3 6 5 9 9 2 2 5 8 6 7 4 2 9 2 4 8 8 3 10 4 9
    24. 24. ひとまず分散分析> test <- read.csv("demo.csv", header=T)> anova(lm(Points ~ Score, data=test))Analysis of Variance TableResponse: Score Df Sum Sq Mean Sq F value Pr(>F)Class 2 63.267 31.633 5.9066 0.00745**Residuals 27 144.600 5.356---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
    25. 25. まとめ• 差がありそうかなさそうかを判断するため に各種検定を行う • 平均値の差の検定:t 検定と分散分析 • 独立性の検定  :カイ二乗検定• 数行のコマンドであっさり検定! • データ準備の手間は多少かかるかも...
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×