1 2.t検定

12,562 views

Published on

8月10~11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。

1-2t検定
平均・分散といった統計の基礎からt検定まで

サイト作ってます
http://logics-of-blue.com/

Published in: Technology
0 Comments
19 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
12,562
On SlideShare
0
From Embeds
0
Number of Embeds
7,800
Actions
Shares
0
Downloads
0
Comments
0
Likes
19
Embeds 0
No embeds

No notes for slide

1 2.t検定

  1. 1. 統計の基本と t検定 1 1日目-第2講 名前:馬場真哉 所属:北大水産 修士課程2年 Webサイト: logics of blue で検索
  2. 2. 2 正規線形モデルの理解のために 統計の基本とt検定 分散分析(ANOVA) 回帰分析と分散分析 PB検定と確率分布 モデル選択とAIC 出来れば Type II ANOVA、交互作用
  3. 3. 3 統計の基本と t検定 理解してほしい事  用語の理解 • 平均・分散 • 不偏分散 • 標準偏差 • 標準誤差  検定の仕組み
  4. 4. 4 用語の理解 ① 平均値と期待値 足して2で割る 正確な定義 「確率×その時の値」の合計 𝑝𝑖 𝑥𝑖 𝑛 𝑖=1 n:サンプルサイズ p:確率 x:変数
  5. 5. 5 期待値(「確率×その時の値」の合計)の例 大阪の気温10日分 {19, 19, 20, 20, 20, 20, 20, 21, 21, 21} 19になる確率 = 2÷10 20になる確率 = 5÷10 21になる確率 = 3÷10 19 × 2 10 + 20 × 5 10 + 21 × 3 10 = 20.1
  6. 6. 6 期待値とは何か 期待値とは データを表す「代表値」です 「確率×その時の値」の合計 • 大きい値がたくさんあるとでかくなる • 大きい値が少ししかないとデカくならない
  7. 7. 7 なぜ代表値が必要か 比較が楽だから 大阪 {19, 19, 20, 20, 20, 20, 20, 21, 21, 21} 東京 {-50, 0, 0, 20, 20, 20, 20, 20, 70, 70} 比較が大変 20.1 VS 19一目瞭然!
  8. 8. 8 用語その2 分散 期待値の「役に立たなささ」 • 比較に使える →役に立つ • 比較に使えない→役立たず 期待値の「不確実性」 ではない
  9. 9. 9 分散の定義 分散 𝑝𝑖 𝑥𝑖 − 𝜇 2 𝑛 𝑖=1 n:サンプルサイズ p:確率 x:変数 µ:期待値 1 𝑛 𝑥𝑖 − 𝜇 2 𝑛 𝑖=1 「(Data-期待値)の2乗」の期待値
  10. 10. 10 分散とは何か 分散 「(Data-期待値)の2乗」の期待値 Dataと期待値の乖離 一つ一つのデータは期待値から どれだけ離れていると期待できるか (データの「ばらつき」の大きさ)
  11. 11. 11 期待値と分散の例 大阪 {19, 19, 20, 20, 20, 20, 20, 21, 21, 21} 東京 {-50, 0, 0, 20, 20, 20, 20, 20, 70, 70} 期待値:20.1 分散:0.54… 期待値:19 分散:1069… 東京データは分散が大きすぎる
  12. 12. 12 データの大小を比較するとき 期待値の差が大きい 期待値が比較に使える(分散小さい) 「差がある」とは?
  13. 13. 13 まとめ ① データは期待値で比較する 楽だから ② 期待値が使えるかを分散で判断 「データが期待値からどれだけ 離れていると期待できるか」 質問どうぞ!
  14. 14. 14 ここからは…… 分散をもっと使いやすくしよう! • 不偏分散 • 標準偏差 • 標準誤差
  15. 15. 15 不偏分散とは 「不偏」=偏りがない たくさんサンプリングしたら 漸近的に正しい値に近づいていく 漸近的に0に近づく
  16. 16. 16 普通の分散、不偏な分散 普通の分散には偏りがある たくさんサンプリングをしても 正しい値に近づかない ちょっと怪しげな解説
  17. 17. 17 {1, 2, 3, 4, 5,・・・ , 98, 99, 100} データ 普通の分散はなぜ不偏でないか 「真の」期待値 50.5 「真の」分散 833.25 {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} 10個だけサンプリングしてみた 「データの」期待値 5.5
  18. 18. 18 「真の」期待値「データの」期待値 1 100 正しい分散の計算
  19. 19. 19 「真の」期待値「データの」期待値 1 100 ウソの分散の計算
  20. 20. 20 「真の」期待値「データの」期待値 1 100 ウソの分散の計算 正しい分散の計算 普通の分散は下方修正されている
  21. 21. 21 普通の分散はなぜ不偏でないか 1.分散は期待値を計算した後に計算される 不偏分散 2.データから計算された期待値は怪しい →ただし、漸近的には正しくなる 3.怪しい期待値から計算された分散はもっと怪しい →漸近的にも正しくならない
  22. 22. 22 不偏分散の計算方法 普通の分散(標本分散) 𝑝𝑖 𝑥𝑖 − 𝜇 2 𝑛 𝑖=1 n:サンプルサイズ p:確率 x:変数 µ:期待値 1 𝑛 𝑥𝑖 − 𝜇 2 𝑛 𝑖=1 1 𝑛 − 1 𝑥𝑖 − 𝜇 2 𝑛 𝑖=1 不偏分散 分散が大きくなった
  23. 23. 23 ここからは…… 分散をもっと使いやすくしよう! その② 標準偏差
  24. 24. 24 標準偏差とは 標準偏差= (不偏)分散 分散の単位 ℃ 2 、個 2 、kg2 標準偏差の単位 ℃ 、個 、kg 楽
  25. 25. 25 ここからは…… 分散をもっと使いやすくしよう! その③ 標準誤差
  26. 26. 26 標準誤差とは 期待値の不確実性の尺度 標準誤差= (不偏)分散 サンプルサイズ なぜサンプルサイズ?
  27. 27. 27 標準誤差の例:エレベータの搭載重量 一人だけ乗る場合 1/2 1/2 二人だけ乗る場合 よくある レアレア 四人も乗る場合 よくある 激レア激レア 人数が増えると 全員デブ or 全員ガリ にはなりにくい サンプルサイズは 大事!
  28. 28. 28 標準誤差とは 標準誤差= (不偏)分散 サンプルサイズ たくさんデータがあった方が 期待値は信用できる 期待値の不確実性の尺度
  29. 29. 29 データの大小を比較するとき 期待値の差が大きい 期待値が比較に使える(分散小さい) サンプルサイズが大きい 「差がある」とは?
  30. 30. 30 まとめ ① データは期待値で比較する 楽だから ② 期待値が使えるかを分散で判断 • 不偏分散 → バイアスの排除 • 標準偏差 → 単位を見やすく 質問どうぞ! ③ サンプルサイズも加味 標準誤差
  31. 31. 31 ここからは… 検定やります
  32. 32. 32 検定って? “有意差”があるかどうかを判別すること 検定 意味の有る差?
  33. 33. 33 データの大小を比較するとき 期待値の差が大きい 期待値が比較に使える(分散小さい) サンプルサイズが大きい 「意味の有る差」とは? この比較作業こそが有意性検定
  34. 34. 34 比較に使う指標 t値 = 期待値の差の大きさ 分散 サンプルサイズ t値 t値が大なら • 期待値の差が大きい • 分散が小さい(期待値を比較に使える) • サンプルサイズ大(期待値が信用できる) 有意差あり
  35. 35. 35 例 あるデータの期待値は “有意に”0と異なるか? = データの期待値 − 0 データの分散 データのサンプルサイズ t値 t値が大なら • 期待値と0との差が大きい • 分散が小さい(期待値を比較に使える) • サンプルサイズ大(期待値が信用できる) 有意差あり
  36. 36. 36 t値の大小 どれくらい大きければ有意になるの? 「確率」というモノサシを使う t値が大きければ有意差ありになる!
  37. 37. 37 ① 絶対に期待値が0と有意に異ならないと わかっているデータをたくさん集める t値の大小の判別方法(t値が2.59の時) t値が2.59を超えた回数が、100回中5回以内だった →偶然でt値が2.59を超える確率は小さい →有意差あり ② そのデータのt値を計算する ③ 0とは有意に異ならないデータにおける t値を例えば100回計算する。 ④ 100回中、t値が2.59を超えた回数を記録
  38. 38. 38 t値の大小の判別方法(t値が2.59の時) 100回中、t値が2.59を超えた回数を算出 = 2.59を超えた回数 100 p値 p値≦0.05ならt値はデカいとみなす → 有意差あり! =偶然で今回計算された 統計量(t値)を超える確率
  39. 39. 39 t検定まとめ ① t値が大きい → 有意差あり = 期待値の差の大きさ 分散 サンプルサイズ t値 ② p値が小さい → t値が大きい p値 =偶然で今回計算された 統計量(t値)を超える確率 質問どうぞ!
  40. 40. 40 ① 絶対に期待値が0と有意に異ならないと わかっているデータをたくさん集める 実際のところは 集めるのは大変なので、普通は計算で補う 偉い人が計算式を作ってくれている(t分布) おまけ 集め方はパラメトリックブートストラップ検定で解説します
  41. 41. 41 実演

×