Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データサイエンス概論第一=4-3 信頼区間と統計的検定

1,313 views

Published on

九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義

Published in: Data & Analytics
  • Be the first to comment

データサイエンス概論第一=4-3 信頼区間と統計的検定

  1. 1. 1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第4回 確率分布と検定: 4-3 信頼区間と統計的検定 システム情報科学研究院情報知能工学部門 内田誠一
  2. 2. 2 データサイエンス概論第一の内容  データとは  データのベクトル表現と集合  平均と分散  データ間の距離  データ間の類似度  データのクラスタリング (グルーピング)  線形代数に基づくデータ解析の基礎  主成分分析と因子分析  回帰分析  相関・頻度・ヒストグラム  確率と確率分布  信頼区間と統計的検定  時系列データの解析  異常検出
  3. 3. 3 信頼区間 お世話になった参考書: 栗原伸一,入門統計学,オーム社 スライド作成でお世話になった方:早志英朗先生@九大情報知能
  4. 4. 4 この「信頼区間」で学ぶこと 存在しうるすべてのデータ 実際に手に 入ったデータ 例えば 「平均値」 あなた,この平均値,真の平均値と同じと思います? いや,ある程度近いとは思うけど,多少違うかも... ※なお以下では平均の信頼区間について論じますが,分散の信頼区間もあります
  5. 5. 5 こういう状況と少し似ている 5 こないだのテスト,みんな40点ぐらいだよ~ みんなって誰よ?名前言ってみなさい! AちゃんとB君とCさんが40点だよぉ それじゃみんなじゃないでしょ! じゃぁ,平均は30点から60点ぐらいだよぉ ウソ言いなさい!平均90点なんじゃないの? 90点はあり得ないよぉ~
  6. 6. 6 母集団と標本化 全部が無理なら一部だけ
  7. 7. 77 真の平均点を求めたい:例題 お母さんは,子供が受けたテストの 真の平均点を知りたくなった しかし,テストを受けた生徒は相当多いので, 全員のテストの点数を聞くのは無理っぽい 数人なら聞けるかも... 真の平均点はわかるのだろうか? ウソ言ってないよ~
  8. 8. 8 もちろん,ありとあらゆる生徒にテストの点数を 聞けば,真の平均はわかるだろう 8 ありとあらゆる生徒にテストの点数を聞いて回る さすがに それは無理
  9. 9. 9 すべてのデータの集合=母集団: 母集団全体は見えないことが多い 9 コストが かかる 想定される 数が多すぎ データ取得中に 増減が起こりうる ちなみに父集団ってのはありません. お母さんとも無関係. 母集団の英訳は「population」です. (mothers’ groupではないです) 全員は無理
  10. 10. 10 全部が無理なら一部だけ:標本 10 無作為抽出 (ランダムサンプリング) 標本 母集団:ありとあらゆる生徒 𝜇: 母平均 (ありとあらゆる生徒の平均点) 𝜎2: 母分散 (ありとあらゆる生徒の平均点からのばらつき) 𝑥: 標本平均 = (81 + 67 + 77)/3 = 75 𝑠2 : 標本分散 = (62 + 82 + 22 )/3 ≈ 34.7 𝑁: 標本サイズ = 3 知りようが ない 知りようが ない こちらは わかる 81点 67点 77点
  11. 11. 11 やりたいこと: 標本平均から母平均を推定したい 11 無作為抽出 (ランダムサンプリング) 標本 母集団:ありとあらゆる生徒 𝜇: 母平均 (ありとあらゆる生徒の平均点) 𝜎2: 母分散 (ありとあらゆる生徒の平均点からのばらつき) 𝑥: 標本平均 𝑠2: 標本分散 𝑁: 標本サイズ ③なるべく 正確に 推定したい ①これを知りたいのだが, 全生徒(母集団)が 不可知なので知りようがない ②標本を測れば 計算できます
  12. 12. 12 標本平均の分布 「分布の平均」じゃなくて「平均の分布」
  13. 13. 13 異なる標本からは異なる標本平均が出る → 𝑇回標本すると𝑇個標本平均が出る 標本1 母集団: ありとあらゆる生徒 標本平均 68点 標本2 標本平均 71点 … 標本𝑇 標本平均 95点 うーむ,どれが 母平均に近いのか!? (母平均はわからないのだけど...)
  14. 14. 14 とりあえず「標本平均の分布」を考えてみる: 「分布の平均」じゃなくて「平均の分布」 母集団: ありとあらゆる生徒 標本平均 𝑥 頻度 どんな分布と 思います? 標本1 標本平均 68点 標本2 標本平均 71点 … 標本𝑇 標本平均 95点
  15. 15. 15 面白い事実1:「標本平均の分布」は 母平均を中心とした正規分布! 母集団: ありとあらゆる生徒 標本平均 𝑥 頻度 標本1 標本平均 68点 標本2 標本平均 71点 … 標本𝑇 標本平均 95点 母平均
  16. 16. 16 (標本サイズ𝑁がある程度大きければ)元の分布がどんな形でも, 「標本平均の分布」は正規分布に! 母集団: ありとあらゆる生徒 … 標本平均 𝑥 頻度 母平均 頻度 点数 母平均 元の分布: 全然正規分布 じゃない 標本平均の分布: 母平均まわりの正規分布 なんだかスゴイこの関係を「中心極限定理」と呼びます
  17. 17. 17 面白い事実2: 「標本平均の分布」のバラツキは標本サイズで決まる 17 標本サイズ小 母平均 標本平均 𝑥 標本サイズ大⇒ 標本平均の ばらつき小 標本平均 68点 標本サイズ大標本サイズ大 標本サイズ小 母集団: ありとあらゆる生徒 標本平均 71点 標本平均 95点 標本平均 72点 標本平均 70点 標本平均 68点 まぁ確かに標本サイズが無限大になれば「母平均」からブレないだろう
  18. 18. 18 面白い事実2: 「標本平均の分布」のバラツキは標本サイズで決まる 18 「より多くの標本から平均を求めれば,母平均に近づく (=母平均からのブレは少なくなる)」 この一見アタリマエにも見える傾向を,業界では「大数の法則」と呼ぶ
  19. 19. 1919 面白い事実2: 「標本平均の分布」のバラツキは標本サイズで決まる 標本平均の分散(標本平均のばらつき) 𝜎 𝑥 2 = 𝜎2 𝑁 𝜎2 : 母分散 𝑁: 標本サイズ 標本サイズが大きくなるほど, バラツキはどんどん小さく 母平均 標本平均 𝑥 標本サイズ大 標本サイズ小 というわけで,基本的には データは多いほうがよい
  20. 20. 2020 ここまでのまとめ 全データ(母集団)から真の平均を求めたい 全データ調査は非現実的.普通は限られた標本しかない 残念ながら,標本平均は,毎回変わり,真の値ではない しかし,平均=「真の平均値」,分散=「標本サイズに逆比例し た分散」.の正規分布に従うことはわかっている... となると「この範囲に真の平均はありそう」 ぐらいは言えないか? みんなの平均も 30~60点だよう 平均90点 ぐらいでしょ!
  21. 21. 21 信頼区間① 母分散がわかっている場合 真の平均,ピッタリ答えるのは無理なので, 「この範囲に(ほぼほぼ)ある!」と答える
  22. 22. 2222 真の平均はどの範囲にある?: 母分散がわかっているケース (1/3) 母分散𝜎2 =すべての生徒のテストの点数の分散 ふつうはこれが既知ということはないのだが... これが既知なら,標本平均の分散𝜎𝑥 2 は 𝜎2 𝑁 なので … 母平均がありそうな位置=「今得られた標本平均の周りに分散𝜎𝑥 2 で分布」と考えるのが素直 今求まった標本平均68点 𝜎 𝑥 2 = 𝜎2 𝑁 標本平均
  23. 23. 2323 真の平均はどの範囲にある?: 母分散がわかっているケース (2/3) なので... 真の平均は,95%の確率で,標本平均±1.96 𝜎 𝑁の 範囲にある! 母分散𝜎が小 or 𝑁が大 → 区間は狭く(=より正確に) 標本平均 68点 真の平均 (母平均) 標本平均 ±1.96 𝜎 𝑥 2 = ±1.96𝜎 𝑁 95% 95%信頼区間
  24. 24. 2424 さらに... 真の平均は,99%の確率で,標本平均±2.57 𝜎 𝑁の 範囲にある! 信頼度を高める(95→99%)には区間を広げざるを得ない 真の平均はどの範囲にある?: 母分散がわかっているケース (3/3) 標本平均 68点 真の平均 (母平均) 標本平均 ±2.57 𝜎 𝑥 2 = ±2.57𝜎 𝑁 99% 99%信頼区間
  25. 25. 25 信頼区間② 母分散がわからない場合 「t分布」登場
  26. 26. 26 Q:普通は母分散がわからない.どうするか? A: 標本サイズ𝑁が大きいなら標本分散で代用 標本平均 72点 標本分散𝑠2 78 ≒ 母分散𝜎2 と「みなす」 標本サイズ𝑁 = 例えば 100 でも...標本平均はそのまま信じないのに(信頼区間つきで答える), 標本分散は「≒母分散」とみなす.ちょっと気持ち悪いなぁ... 気持ち悪いなら,次スライドの方法も使えますよ あとは「虫のよいケース」と同じ
  27. 27. 2727 Q:母分散も不明,𝑁も小さい.どうするか? A: 次の2つの変更をする 変更1: 母分散の代わりに,標本分散を用いる 変更2: 正規分布の代わりに(よく似た)t分布を用いる 標本平均68点 標本分散𝑠2112 怪しいけど しょうがない 標本平均68点 真の平均 (母平均) 標本平均 ±2.262𝑠 𝑁 − 1 95% t分布 正規分布では1.96𝜎だったので, t分布を使うと,もっと広め, すなわち安全サイドに 範囲をとることになる
  28. 28. 28 参考:なんだろう,t分布... 以下の点だけ抑えておけば十分 wikipedia =正規分布 =標本サイズ𝑁 − 1 ①標本サイズ𝑁 →大で 正規分布に近づく ②正規分布よりつぶれ ている → 同じ信頼度なら 区間は広がる
  29. 29. 2929 t分布,95%と99% 95% 99% 標本平均 真の平均 (母平均) 標本平均 ±2.262𝑠 𝑁 − 1 95% t分布 正規分布では1.96𝜎だったので, t分布を使うと,もっと広め, すなわち安全サイドに 範囲をとることになる 標本平均 真の平均 (母平均) 標本平均 ±3.250𝑠 𝑁 − 1 99% t分布 正規分布では2.57𝜎だったので, t分布を使うと,もっと広め, すなわち安全サイドに 範囲をとることになる
  30. 30. 3030 ここまでのまとめ 真の平均が「𝑝%の確率で入る範囲」を答える方法がある その範囲を「𝑝%信頼区間」と呼ぶ もしも母分散がわかっているのなら簡単に答えられる 母分散がわからないときは,標本分散を代わりにつかって, 範囲を答える方法がある.ただし範囲は広くなるかも... みんなの平均も 30~60点だよう 25~65点だよう あ,点数10人分しか 知らなかったぞ... 平均90点 ぐらいでしょ!
  31. 31. 31 統計的検定 “testing” お世話になった参考書: 栗原伸一,入門統計学,オーム社 スライド作成でお世話になった方:早志英朗先生@九大情報知能
  32. 32. 32 検定の考え方と 基本的手順 用語が面倒だったりしますが...
  33. 33. 3333 統計的検定とは何で,いつ使うのか? 「AとBは差がある」と統計的に言いたいときに使う 事例 東京と福岡で平均所得に差があるか? あるトレーニングを行った前後で能力に差が出たか? あるダイエット食品に効果があるか? • ダイエット食品と食べた群と食べなかった群に差があるか? ある遺伝子がある病気の原因になるか? • 「野生型」と「その遺伝子をノックアウトした型」で,病気の罹患率に差があるか?
  34. 34. 3434 シンプルな検定の例 九大生と名乗る学生𝑁名がやってきた 怪しいので,あるテストを受けさせたら, 平均点は 𝑥だった 過去に同じテストを九大生全員に実施したところ, 点数は平均𝜇,分散𝜎2の 正規分布を成した 彼らは九大生なのかニセモノかを検定せよ 九大生デス 差があるか? 全九大生
  35. 35. 3535 統計的検定の基本手順 (1/3) 帰無仮説の設定 言いたいことと反対の仮説(「AとBに差はない」)を立てる 仮説の下で矛盾が起こることを証明 =そもそも仮説が間違っていた 対立仮説(「AとBに差はある」)を採択 なんかすごく回りくどく見える 最初から「差がある」ことを示せばいいのでは? 九大生と考える 九大生ならそんな 点数とるはずがない 九大生ではない
  36. 36. 3636 統計的検定の基本手順 (2/3) 回りくどく見えますが... 「差がある」ことを直接証明するよりも 「差がない」ことを前提にして矛盾を導くほうが楽 いわゆる「背理法」 「 2が有理数でない」ことを直接証明するよりも 「 2が有理数である」ことを前提にして矛盾を導くほうが楽 1つでも矛盾が見つかれば,それで否定できる点がありがたい! 正面から試行錯誤しながら追及するより, 容疑者に自分の正しさを証明させながら, そのほころびを(1つでも)見つけたほうが早い
  37. 37. 3737 統計的検定の基本手順 (3/3) もうちょっと詳細 帰無仮説の設定 言いたいことと反対の仮説(「AとBに差はない」)を立てる 検定統計量の計算 例えば標本平均 確率の計算 その統計量が「どの程度起こりうるものなのかどうか」 仮説の判定 そもそも仮説が間違っていた 対立仮説(「AとBに差はある」)を採択 九大生と考える 「九大生ならとるはず がない」点数をとった 九大生と考えたのが 間違いだった 九大生としての テストを受験させる 九大生ではない
  38. 38. 38 帰無仮説の矛盾が見つからなかった (=棄却できなかった)場合の考え方 帰無仮説𝐻0:差はない 「差がある」とも 「ない」とも言えない (要は「フリダシに戻る」) 対立仮説𝐻1 「差がある」を採択 棄却できた (「差はない」という仮説の 矛盾を見つけた) 棄却できなかった (「差はない」という仮説が 間違っていると言える ほどの根拠がない) 𝐻0 𝐻0だとすれば ここはどうなってんだ? すみません, 𝐻0はウソでした う!そ,それは... うーむ,𝐻0を 突き崩すための 十分な証拠がない...
  39. 39. 39 簡単な検定の例: 平均の検定
  40. 40. 4040 再掲:シンプルな検定の例 九大生と名乗る学生𝑁名がやってきた 怪しいので,あるテストを受けさせたら, 平均点は 𝑥だった 過去に同じテストを九大生全員に実施したところ, 点数は平均𝜇,分散𝜎2の 正規分布を成した 彼らは九大生なのかニセモノかを検定せよ 九大生デス 差があるか? 全九大生
  41. 41. 4141 平均の検定: その平均は母集団に受け入れられるのか?(1/5) 母集団の分布(母平均𝜇 ,母分散𝜎2 )はわかっているとする あまり現実にはないが,今回はシンプルな例ということで 標本平均の分布は(既述の通り)正規分布になる 母平均(既知) 標本平均 𝑥𝜇 母平均, 母分散 標本平均 標本平均 標本平均 標本平均の分散= 母分散 𝜎2 標本サイズ 𝑁 九大全体 元の分布によらず,常に正規 分布になるのはありがたい! 中心極限定理バンザイ!
  42. 42. 4242 平均の検定: その平均は母集団に受け入れられるのか?(2/5) このとき,ある標本(標本平均 𝑥)は 母集団に受け入れ可能? 受け入れられる→標本も母集団の一部 受け入れられない→標本は母集団の一部ではない 母平均(既知) 標本平均 𝑥𝜇 標本平均の分布 標本平均の分散= 母分散 𝜎2 標本サイズ 𝑁 ? 九大生デス
  43. 43. 4343 平均の検定: その平均は母集団に受け入れられるのか?(3/5) もうわかりますよね! 母平均(既知) 標本平均 𝑥𝜇 標本平均が この辺なら 受け入れ可能 標本平均が この辺なら 受け入れたくない
  44. 44. 4444 平均の検定: その平均は母集団に受け入れられるのか?(4/5) 端っこのほうにきたら(リスクは少々あるが)棄却してしまう! 九大生でない!と 結論しても, それが過ちである 可能性は高々5% 標本平均 𝑥母平均𝜇 95% 𝜇 − 1.96 𝜎 𝑁 𝜇 + 1.96 𝜎 𝑁 「九大生である」という 帰無仮説を 有意水準5%で棄却できる 九大生じゃないでしょ! ヤバイ,バレタ!
  45. 45. 4545 平均の検定: その平均は母集団に受け入れられるのか?(5/5) もっと端っこなら,もっと自信をもって棄却できる 標本平均 𝑥母平均𝜇 99% 𝜇 − 2.57 𝜎 𝑁 𝜇 + 2.57 𝜎 𝑁 「九大生である」という 帰無仮説を 有意水準1%で棄却できる 九大生でない!と 結論しても, それが過ちである 可能性は高々1%
  46. 46. 46 𝑝値,有意水準,有意差: 単なる言葉の使い方 差がない帰無仮説 5%で検定 有意水準5%で 帰無仮説を棄却できた 有意な差がある 両者には有意差 (𝑝 < 0.05)がある ヤバイ,バレタ!
  47. 47. 4747 標本サイズ𝑁は重要 標本サイズ𝑁→大,標本平均の分散→小 母平均から少しでも違えば,有意差が出る =標本サイズが大きければ,わずかな差でも信頼できる 4 7 母平均 標本平均 𝑥𝜇 母平均 標本平均 𝑥𝜇 標本平均の分散= 母分散 𝜎2 標本サイズ 𝑁 t
  48. 48. 48 2群の平均の差の検定① 目的と攻め方 よくある検定課題
  49. 49. 4949 もっと一般的な検定課題:平均の差の検定 先に述べた以下の検定課題は,すべてこのタイプ 東京と福岡で平均所得に差があるか? あるトレーニングを行った前後で能力に差が出たか? あるダイエット食品に効果があるか? ある遺伝子がある病気の原因になるか? K大学の母集団 L大学の母集団 平均に差が あるか?
  50. 50. 50 平均の差の検定~ダメな方法 50 K大学の母集団 標本 L大学の母集団 標本 𝑥 𝐾と 𝑥 𝐿は異なる ↓ 母平均は違う 標本平均 𝑥 𝐾 標本平均 𝑥 𝐿 こんな短絡的なテストではNG: 標本平均は揺らぐことを忘れずに! (標本平均の差も揺らぐ)
  51. 51. 51 平均の差の検定~実際の攻め方 51 K大学の母集団 標本 L大学の母集団 標本 𝑥 𝐾と 𝑥 𝐿の差 母平均は異なる =母集団には 有意差がある 標本平均 𝑥 𝐾 標本平均 𝑥 𝐿 この差は「母平均が 等しい」という仮説下 ではあり得ない
  52. 52. 52 2群の平均の差の検定② 母分散がわかっている場合 前にも言ったように「母分散がわかっている」ことはあまりない. でもわかりやすいから...
  53. 53. 53 とりあえずの仮定: 母分散がわかっているとしましょう 53 K大学の母集団 L大学の母集団 全体は不可知だが 母分散𝜎 𝐾 2 は既知 全体は不可知だが 母分散𝜎𝐿 2 は既知
  54. 54. 54 そうすると(マンネリ気味で恐縮ですが) 標本平均の分布もわかる 54 K大学 L大学 母分散𝜎 𝐾 2 母分散𝜎𝐿 2 母平均(未知) 標本平均 𝑥 𝐾 𝜇 𝐾 標本平均の 分布 (正規分布) 母平均(未知) 標本平均 𝑥 𝐿 𝜇 𝐿 標本平均の 分布 (正規分布) 標本平均の分散 = 母分散𝜎 𝐾 2 標本サイズ𝑁 標本平均の分散 = 母分散𝜎𝐿 2 標本サイズ𝑁 標本 母集団 標本 母集団 中心極限定理 バンザイ!
  55. 55. 55 標本平均の差をテストしたいんです 55 K大学 L大学 母平均(未知) 標本平均 𝑥 𝐾 𝜇 𝐾 標本平均の 分布 (正規分布) 母平均(未知) 標本平均 𝑥 𝐿 𝜇 𝐿 標本平均の 分布 (正規分布)𝑥 𝐾と 𝑥 𝐿の 差をチェックしたい 𝜎 𝐾 2 𝑁 𝜎𝐿 2 𝑁 標本平均 𝑥 𝐾 − 𝑥 𝐿 どんな分布?
  56. 56. 56 標本平均の差をテストしたいんです: 正規分布する二つの値の「差」も,やはり正規分布 56 K大学 L大学 母平均(未知) 標本平均 𝑥 𝐾 𝜇 𝐾 標本平均の 分布 (正規分布) 母平均(未知) 標本平均 𝑥 𝐿 𝜇 𝐿 標本平均の 分布 (正規分布)𝑥 𝐾と 𝑥 𝐿の 差をチェックしたい 𝜎 𝐾 2 𝑁 𝜎𝐿 2 𝑁 標本平均 𝑥 𝐾 − 𝑥 𝐿 𝜎 𝐾 2 𝑁+ 𝜎𝐿 2 𝑁 𝜇 𝐾 − 𝜇 𝐿 扱いやすい正規 分布で助かったー 標本平均の 差の分布 (正規分布)
  57. 57. 57 ちょっと解説: 差の分布,分散は大きくなります 57 K大学 L大学 標本平均 𝑥 𝐾 − 𝑥 𝐿 𝜎 𝐾 2 𝑁+ 𝜎𝐿 2 𝑁 𝜇 𝐾 − 𝜇 𝐿 -10 2 13 27 A-Bの最小値=-10-27=-37, A-Bの最大値=13-2=11, なので -37 11 分散大きくなった 分布Aの範囲(幅23) 分布Bの範囲(幅25) A-Bの範囲(幅48=23+25) なぜ差の分散は大きくなる?直観的な説明 標本平均の 差の分布 (正規分布)
  58. 58. 58 母平均は等しい,すなわち 𝜇 𝐾 = 𝜇 𝐿という仮説の下では 𝜇 𝐾 − 𝜇 𝐿 = 0 (ちょうどいい具合に未知項がなくなった!) さぁ,いよいよ帰無仮説: 「二つの大学には差がない」=(母平均は等しい!) 58 K大学 L大学 標本平均 𝑥 𝐾 − 𝑥 𝐿 𝜎 𝐾 2 𝑁+ 𝜎𝐿 2 𝑁 0 標本平均の 差の分布 (正規分布)
  59. 59. 59 実際の差が差分布のどこに来るかをテスト! 果たして帰無仮説は棄却されるか? 59 標本平均 𝑥 𝐾 0 K大学 L大学 標本 母集団 標本 母集団 標本平均 𝑥 𝐿差 𝑥 𝐾 − 𝑥 𝐿 95% 上図のようになれば(めったに起きない程度の差が生じているので) 帰無仮説「差はない」は棄却,有意水準5%で「差がある」 平均0, 分散𝜎 𝐾 2 𝑁+ 𝜎𝐿 2 𝑁 の 正規分布 Ex.90点 Ex.40点
  60. 60. 6060 どういう場合に「『差はない』帰無仮説」は 棄却されやすいか? 場合1: 𝑥 𝐾と 𝑥 𝐿の差(の絶対値)が大きい 場合2: 母分散𝜎 𝐾 2 と𝜎𝐿 2 が小さい 場合3: 標本サイズ𝑁が大きい 標本平均 𝑥 𝐾 0 K大学 L大学 標本 母集団 標本 母集団 標本平均 𝑥 𝐿差 𝑥 𝐾 − 𝑥 𝐿 95% 平均0, 分散𝜎 𝐾 2 𝑁+ 𝜎𝐿 2 𝑁 の 正規分布 Ex.90点 Ex.40点
  61. 61. 61 2群の平均の差の検定③ 母分散がわからない場合 最も一般的な「2群の平均に差があるか」の検定
  62. 62. 62 母分散がわからない.ピンチか? (1/3) 62 K大学の母集団 L大学の母集団 不可知 不可知 標本
  63. 63. 63 母分散がわからない.ピンチか? (2/3) 63 K大学の母集団 L大学の母集団 不可知 不可知 標本平均 𝑥 𝐾 標本平均の分布 標本平均の分散 = 母分散𝜎 𝐾 2 標本サイズ𝑁 標本 標本 この母分散わからない→ 標本平均の分布(揺らぎ)が 定義できない(=ピンチ!?) 標本平均
  64. 64. 64 母分散がわからない.ピンチか? (3/3) 64 K大学の母集団 L大学の母集団 不可知 不可知 標本平均 𝑥 𝐾 標本平均の分布 標本平均の分散 = 標本分散𝜎 𝐾 2 標本サイズ𝑁 標本 標本 標本平均 標本分散 標本分散で「代用」 するしかない!
  65. 65. 65 ん? 似た話,どっかで聞いた!? 65 あ,もしや今回も 正規分布の代わりに t分布?
  66. 66. 66 その通り! 正規分布をt分布に置き換えればOK 66 K大学 L大学 母分散未知 母分散未知 母平均(未知) 標本平均 𝑥 𝐾 𝜇 𝐾 標本平均の 分布 母平均(未知) 標本平均 𝑥 𝐿 𝜇 𝐿 標本平均の 分布 (t分布) 分散= 標本分散𝜎 𝐾 2 標本サイズ𝑁 − 1 分散= 標本分散𝜎𝐿 2 標本サイズ𝑁 − 1 標本 母集団 標本 母集団 (t分布)
  67. 67. 67 標本平均の差をテストしたいんです: t分布する二つの値の「差」も,やはりt分布 67 K大学 L大学 母平均(未知) 標本平均 𝑥 𝐾 𝜇 𝐾 標本平均の 分布 (t分布) 母平均(未知) 標本平均 𝑥 𝐿 𝜇 𝐿 標本平均の 分布 (t分布)𝑥 𝐾と 𝑥 𝐿の 差をチェックしたい 標本分散𝜎 𝐾 2 𝑁 − 1 標本平均 𝑥 𝐾 − 𝑥 𝐿 𝜎 𝐾 2 𝑁−1 + 𝜎 𝐿 2 𝑁−1 𝜇 𝐾 − 𝜇 𝐿 標本平均の 差の分布 (t分布) 標本分散𝜎𝐿 2 𝑁 − 1 t分布の場合も 同様でよかったー
  68. 68. 68 というわけであとは母分散既知の場合と同様, 帰無仮説を棄却できればOK 68 標本平均 𝑥 𝐾 0 K大学 L大学 標本 母集団 標本 母集団 標本平均 𝑥 𝐿差 𝑥 𝐾 − 𝑥 𝐿 95% 上図のようになれば(めったに起きない程度の差が生じているので) 帰無仮説「差はない」は棄却,有意水準5%で「差がある」 ※t分布は正規分布よりつぶれているので, 同じ有意水準のためには母分散既知の場合より大きな差が必要 平均0, 分散 𝜎 𝐾 2 𝑁−1 + 𝜎 𝐿 2 𝑁−1 のt分布 Ex.90点 Ex.40点 標本分散

×