• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Nagoyar 5 Part 1
 

Nagoyar 5 Part 1

on

  • 741 views

 

Statistics

Views

Total Views
741
Views on SlideShare
741
Embed Views
0

Actions

Likes
0
Downloads
2
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Apple Keynote

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n

Nagoyar 5 Part 1 Nagoyar 5 Part 1 Presentation Transcript

  • t 検定 カイ二乗検定 分散分析 阪 上 辰 也 SAKAUE Akkuş Tatsuya(名古屋大学 大学院 国際開発研究科 学術研究員)
  • 0. 自己紹介
  • 0. 自己紹介• 阪上 辰也(SAKAUE, Tatsuya) • “坂”上・さか “がみ” は高頻度エラー • ID: @sakaue• 所属:名古屋大学の研究員• 専門:第二言語習得、CALL 教材開発
  • 今日で Nagoya.R 1周年• 入門者(初心者と区別)の拠り所に• 今回を入れて5回開催 • 3/26 (#1), 5/8 (#2), 6/19 (#3), 10/30 (#4)• 延べ100人以上の参加• 今後ともどうぞよろしくお願いします
  • Agenda1. t 検定(今日のメイン)2. カイ二乗検定3. 分散分析
  • Agenda1. t 検定(今日のメイン)2. カイ二乗検定3. 分散分析
  • 検定の前に仮説を設ける• 帰無仮説 H0:「差はない」「効果はない」• 対立仮説 H1:「差がある」「効果がある」• 帰無仮説が正しいという前提で,検定統計量(t, χ2, F ) を求める• 検定統計量が,極端で滅多に得られないような値となっ たら,帰無仮説を棄却し,対立仮説を採択する
  • t 検定• 2つのグループの平均値の差の検定 するのに使う手法• R では,t.test() であっさりと実行
  • t 検定 • (例)英語の好きな組と嫌いな組が受けたテストの 平均値に差があるかどうか> like <- c(6,10,6,10,7,8,7,9,10,4)> dislike <- c(3,5,6,4,4,8,4,5,4,7)> t.test(like,dislike,var.equal=TRUE)
  • t 検定> t.test(like,dislike,var.equal=TRUE) Two Sample t-testdata: like and disliket = 3.3041, df = 18, p-value = 0.003946alternative hypothesis: true difference inmeans is not equal to 0 # 両側検定してます95 percent confidence interval: # 信頼区間 0.9831754 4.4168246sample estimates:mean of x mean of y 7.7 5.0
  • t 検定の前に... “等分散であるかどうかを確かめてから,普通の t 検定を使うか,Welch の方法による t 検定にす るかを決めるというのは,よくない。最初から Welch の方法による t 検定を使えばよい。”http://aoki2.si.gunma-u.ac.jp/lecture/Average/bunsan1.html
  • 問答無用にWelch !よく分からないが(解説希望),1つのこと(有意な差の有無)を知りたいのに,予備の検定を含めた2段階の検定と いうのが「気持ち悪い」らしい。
  • ソース! ソース! ―(等分散の検定はせず)最初から Welch で行け―• http://oku.edu.mie-u.ac.jp/~okumura/blog/node/2262• http://aoki2.si.gunma-u.ac.jp/lecture/BF/index.html• Donald W. Zimmerman, ``Some properties of preliminary tests of equality of variances in the two-sample location problem, The Journal of General Psychology, Vol.123, pp.217-231 (1996)• The unequal variance t-test is an underused alternative to Students t-test and the Mann- Whitney U test -- Ruxton 17 (4): 688 -- Behavioral Ecology• 馬車馬のように: [統計]Mann-WhitneyのU検定と不等分散(http://qdai.way- nifty.com/qjes/2005/02/mannwhitneyu.html
  • という訳で...> t.test(like,dislike,var.equal=FALSE) Welch Two Sample t-testdata: like and disliket = 3.3041, df = 16.795, p-value = 0.004249alternative hypothesis: true difference inmeans is not equal to 095 percent confidence interval: 0.9743014 4.4256986sample estimates:mean of x mean of y 7.7 5.0
  • ところで t 検定の t は何なのかと...• t 分布の t なんだけど...• ゴセットの発表した統計量(Student の t 分布)に,(論 敵の)フィッシャーが t という記号を充てた• 別に特別な意味は無く,論文中の標本分散s^2に対する式 だったことから,s の次の t を使ったらしい...• 「ウィリアム・ゴセット」http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%83%AA%E3%82%A2%E3%83%A0%E3%83%BB %E3%82%B4%E3%82%BB%E3%83%83%E3%83%88• 「自由度」http://ja.wikipedia.org/wiki/%E8%87%AA%E7%94%B1%E5%BA%A6• http://mat.isc.chubu.ac.jp/fpr/fpr1997/0119.html• http://www.pol.geophys.tohoku.ac.jp/~hanawa/ori/ori/054.html
  • Agenda1. t 検定2. カイ二乗検定3. 分散分析
  • Agenda1. t 検定2. カイ二乗検定3. 分散分析
  • カイ二乗検定• 独立性の検定のために使う(連関の有無)• (例)数学が好き嫌いと統計の好き嫌いの間に有 意な連関があるか• (例)あるコーパス中の表現Aと表現Bの頻度の差• ざっくり言えば,期待度数と観測度数のズレ が偶然出ちゃったかどうかを調べる
  • 接続詞 however の生起位置 文頭 文中 文末 合計 頻度 109 347 8 493> freq <- c(109,347,8)> chisq.test(freq,correct=FALSE) Chi-squared test for given probabilitiesdata: freqX-squared = 391.7371, df = 2, p-value < 2.2e-16# 手作業なら,カイ二乗分布表の自由度2のところを確認する# http://homepage2.nifty.com/nandemoarchive/toukei_kiso/t_F_chi.htm
  • Agenda1. t 検定2. カイ二乗検定3. 分散分析
  • Agenda1. t 検定2. カイ二乗検定3. 分散分析
  • 分散分析• 3つ以上の平均値の差の検定のために使う • t 検定は使えない:検定の多重性の問題あり=本当 は差がないのに,差があると判断してしまう確率 (第1種の誤り)が上がってしまう• ANOVA(アノーバ、ANalysis Of VAriance)• F という検定統計量を利用(F 分布)
  • ひとまず分散分析 Aクラス Bクラス Cクラス 10 9 6 8 7 4 9 4 3 6 5 9 9 2 2 5 8 6 7 4 2 9 2 4 8 8 3 10 4 9
  • ひとまず分散分析> test <- read.csv("demo.csv", header=T)> anova(lm(Points ~ Score, data=test))Analysis of Variance TableResponse: Score Df Sum Sq Mean Sq F value Pr(>F)Class 2 63.267 31.633 5.9066 0.00745**Residuals 27 144.600 5.356---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
  • まとめ• 差がありそうかなさそうかを判断するため に各種検定を行う • 平均値の差の検定:t 検定と分散分析 • 独立性の検定  :カイ二乗検定• 数行のコマンドであっさり検定! • データ準備の手間は多少かかるかも...