検定

     適合度検定
    独立性の検定
              2003.07.11 講義後に修正
           2003.07.16 r ×c 分割表を追加
2011.08.20 カイ 2 乗分布パーセント点グラフを追加
適合度検定
• 母集団がある分布に従っているか、度
  数分布表にもとづいて検定

 母集団 Π~F ( x)
  H 0 : F = F0
  H1 : F ≠ F0
仮説
  母集団 Π~F ( x)
    H 0 : F = F0
   H1 : F ≠ F0
度数分布表
              a1   a2   …   am   Total
 観測度数         f1   f2   …   fm     n
 期待度数         e1   e2   …   em     n

    期待度数  ei = n Pr( X = ai )
検定統計量
         ( f1 − e1 ) 2 ( f 2 − e2 ) 2     ( f m − em ) 2
  χ 02 =              +               ++
              e1             e2                 em
         m
          ( f k − ek ) 2
     ∑
   =                     ~ χ m −1  
                             2

     k =1       ek
  帰無仮説のもとで自由度m − 1のχ 2分布

有意水準αより、
   χ 2 > χ m −1 (α )) = α
 Pr(       2


となる上側α点 χ m −1 (α )を数表から求める。
          2


  χ 0 > χ m −1 (α )     H 0を棄却
    2     2
                     ⇒
  χ 0 < χ m −1 (α )     H 0を棄却しない
    2     2
                     ⇒
例題
• サイコロを 60 回振ったところ、1から
  6の目が次の表のように出現した。
  このサイコロは「正しい」サイコロと
  言えるか、有意水準 0.05 で検定せよ。
               1     2    3     4     5     6     計
観測度数           14    10   11    8     9     8     60
期待度数           10    10   10    10    10    10    60
( f − e) 2 / e 1.6   0    0.1   0.4   0.1   0.4   2.6

   χ = 2.6 < 11.07 = χ (0.05)
          2
          0
                                 2
                                 5

よりH 0は棄却できない
演習
 • 1876 年から 1894 年に「馬に蹴られて死んだプ
   ロシア軍兵士の度数分布」
 • 1 年間に死者の軍団数が次のデータである。
 • これはポアソン分布に当てはまると言われてい
   る。
 • ポアソン分布と見なされるか適合度検定を行お
   う
         0  1     2 3  4  5 以上 計

観測度数   109   65   22   3   1   -   200
ポアソン (Poison) 分布
• ポアソン分布は一定時間、一定面積内
  に起きるある事象の回数の分布などに
  よく当てはまる。
• とりうる値 k は 0 以上の自然数
• 確率密度と期待値、分散
  X ~ Po(λ )
                 λk −λ
  Pr( X = k ) = e   k = 0,1, 
                  k!
  E ( X ) = Var ( X ) = λ
演習のヒント
             λ
• ポアソン分布のパラメータ  は指定されて
  いないので、データより推定する。
• データの平均値
 ˆ = 1 (0 ×109 + 1× 65 + 2 × 22 + 3 × 3 + 4 ×1) = 0.61
 λ
    200
• Po(0.61) に従っているかを検定する
  その時の期待度数を求める
• 3 人、 4 人、 5 人以上は度数が少ないので、
  まとめて 3 人以上にするのがよい。
   λ
•   の値をデータから推定しているので、自
  由度は1下がる
0         1           2           3           4          5 以上 計

観測度数             109       65          22          3           1          -           200

確率密度                                                                                  1.00
                 0.610 −0.61 0.611 −0.61 0.612 −0.61 0.613 −0.61 0.614 −0.61 ∞ 0.61k −0.61
                   0!
                      e    e   
                               1!          2!
                                              e   
                                                       3!
                                                          e   
                                                                   4!
                                                                      e      ∑ k! e   
                                                                             k =5



期待度数             108.7 66.3            20.2        4.1         0.6        0.1         200


( f − e) 2 / e
独立性の検定
• 二つの属性 B と C との間が独立かどう
  か  H 0 : BとCとは独立
• 仮説 H : BとCとは独立ではない
        1



• データC1 2×2 分割表
         C2  計
 B1   n11  n12   n1•   
 B2   n21  n22   n2•   
 計    n•1  n•2   n   
ni• × n• j
• 観測度数        期待度数 =
                 eij
                                                                                     n
        C1          C2                計                         C1         C2         計
  B1    n11  n12   n1•    B1                                    e11  e12   n1•   
  B2    n21  n22   n2•    B2                                    e21  e22   n2•   
        n•1  n•2   n                                            n•1  n•2   n   
  計                                                 計
• 検定     χ =
          2
          0
             (n11 − e11 ) 2 (n12 − e12 ) 2
                           +
                  e11            e12
  統計量       (n21 − e21 ) 2 (n22 − e22 ) 2
           
          +               +                                            Yates の補正
                 e21            e22
                2    2     (nij − eij ) 2     n(n11n22 − n21n12 ) 2 n(n11n22 − n21n12 ± n / 2) 2
            ∑∑
          =                                 =                      =
               i =1 j =1        eij              n1• n2• n•1n•2            n1• n2• n•1n•2
            χ12   自由度1の χ2 分布
          ~
例題
• 運動していると風邪をひきにくいことがあ
  るか  風邪  風邪 計
          かかった    かからな
                  い
  運動      16      36     52
  している
  運動      122     126    248
  していな
  い
  計       138     162    300



     300(16 ×126 − 122 × 36)  2
 χ =
  2
  0                          = 5.87
       52 × 248 ×138 × 162
演習
• インフルエンザに予防注射は効果があ
  るか?
             インフルエンザ
                         計
             かかった かからな
                  かった
       受けた   35    45    80
予防注射
       受けてい 80     40    120
       ない
             115   85    200
計
r×c 分割表
     C1   C2      Cc   計
B1   n11 n12     n1c  n1•  
              
B2   n21 n22     n2 c  n2•
              
                 
           
Br   nr1 nr 2     nrc  nr •
               
計    n•1 n•2     n•c  n
              
ni•
pi = Pr( B = Bi ) =
ˆ
                      n
                     n• j
q j = Pr(C = C j ) =
ˆ
                       n
独立性を仮定すると
pij = Pr( B = Bi & C = C j )
ˆ
   Pr( B = Bi ) Pr(C = C j )
 =
                ni• n• j
   pi q j =
      = ˆ ˆ
                 n n                検定統計量は
となり、期待度数は                                 r    c     (nij − eij ) 2
                                    χ 02 == ∑∑                        ~ χ (2r −1)( c −1)
                ni• n• j ni• n• j        i =1 j =1        eij
e ij = npij = n
        ˆ                =
                 n n        n        自由度(r − 1)(c − 1)の χ2 分布
となる。

086 独立性の検定

  • 1.
    検定 適合度検定 独立性の検定 2003.07.11 講義後に修正 2003.07.16 r ×c 分割表を追加 2011.08.20 カイ 2 乗分布パーセント点グラフを追加
  • 2.
    適合度検定 • 母集団がある分布に従っているか、度 数分布表にもとづいて検定 母集団 Π~F ( x)  H 0 : F = F0  H1 : F ≠ F0
  • 3.
    仮説 母集団 Π~F( x)  H 0 : F = F0  H1 : F ≠ F0 度数分布表 a1 a2 … am Total 観測度数 f1 f2 … fm n 期待度数 e1 e2 … em n 期待度数  ei = n Pr( X = ai )
  • 4.
    検定統計量 ( f1 − e1 ) 2 ( f 2 − e2 ) 2 ( f m − em ) 2 χ 02 = + ++ e1 e2 em m ( f k − ek ) 2    ∑ = ~ χ m −1   2 k =1 ek 帰無仮説のもとで自由度m − 1のχ 2分布 有意水準αより、    χ 2 > χ m −1 (α )) = α Pr( 2 となる上側α点 χ m −1 (α )を数表から求める。 2   χ 0 > χ m −1 (α )     H 0を棄却 2 2 ⇒   χ 0 < χ m −1 (α )     H 0を棄却しない 2 2 ⇒
  • 5.
    例題 • サイコロを 60回振ったところ、1から 6の目が次の表のように出現した。 このサイコロは「正しい」サイコロと 言えるか、有意水準 0.05 で検定せよ。 1 2 3 4 5 6 計 観測度数 14 10 11 8 9 8 60 期待度数 10 10 10 10 10 10 60 ( f − e) 2 / e 1.6 0 0.1 0.4 0.1 0.4 2.6   χ = 2.6 < 11.07 = χ (0.05) 2 0 2 5 よりH 0は棄却できない
  • 6.
    演習 • 1876年から 1894 年に「馬に蹴られて死んだプ ロシア軍兵士の度数分布」 • 1 年間に死者の軍団数が次のデータである。 • これはポアソン分布に当てはまると言われてい る。 • ポアソン分布と見なされるか適合度検定を行お う 0 1 2 3 4 5 以上 計 観測度数 109 65 22 3 1 - 200
  • 7.
    ポアソン (Poison) 分布 •ポアソン分布は一定時間、一定面積内 に起きるある事象の回数の分布などに よく当てはまる。 • とりうる値 k は 0 以上の自然数 • 確率密度と期待値、分散 X ~ Po(λ ) λk −λ Pr( X = k ) = e   k = 0,1,  k! E ( X ) = Var ( X ) = λ
  • 8.
    演習のヒント λ • ポアソン分布のパラメータ  は指定されて いないので、データより推定する。 • データの平均値 ˆ = 1 (0 ×109 + 1× 65 + 2 × 22 + 3 × 3 + 4 ×1) = 0.61 λ 200 • Po(0.61) に従っているかを検定する その時の期待度数を求める • 3 人、 4 人、 5 人以上は度数が少ないので、 まとめて 3 人以上にするのがよい。 λ •   の値をデータから推定しているので、自 由度は1下がる
  • 9.
    0 1 2 3 4 5 以上 計 観測度数 109 65 22 3 1 - 200 確率密度 1.00 0.610 −0.61 0.611 −0.61 0.612 −0.61 0.613 −0.61 0.614 −0.61 ∞ 0.61k −0.61 0! e    e    1! 2! e    3! e    4! e    ∑ k! e    k =5 期待度数 108.7 66.3 20.2 4.1 0.6 0.1 200 ( f − e) 2 / e
  • 10.
    独立性の検定 • 二つの属性 Bと C との間が独立かどう か H 0 : BとCとは独立 • 仮説 H : BとCとは独立ではない 1 • データC1 2×2 分割表 C2 計 B1 n11  n12   n1•    B2 n21  n22   n2•    計 n•1  n•2   n   
  • 11.
    ni• × n•j • 観測度数        期待度数 = eij n C1 C2 計 C1 C2 計 B1 n11  n12   n1•    B1 e11  e12   n1•    B2 n21  n22   n2•    B2 e21  e22   n2•    n•1  n•2   n    n•1  n•2   n    計 計 • 検定 χ = 2 0 (n11 − e11 ) 2 (n12 − e12 ) 2 + e11 e12 統計量 (n21 − e21 ) 2 (n22 − e22 ) 2    + + Yates の補正 e21 e22 2 2 (nij − eij ) 2 n(n11n22 − n21n12 ) 2 n(n11n22 − n21n12 ± n / 2) 2    ∑∑ = = = i =1 j =1 eij n1• n2• n•1n•2 n1• n2• n•1n•2    χ12   自由度1の χ2 分布 ~
  • 12.
    例題 • 運動していると風邪をひきにくいことがあ るか 風邪 風邪 計 かかった かからな い 運動 16 36 52 している 運動 122 126 248 していな い 計 138 162 300 300(16 ×126 − 122 × 36) 2 χ = 2 0 = 5.87 52 × 248 ×138 × 162
  • 13.
    演習 • インフルエンザに予防注射は効果があ るか? インフルエンザ 計 かかった かからな かった 受けた 35 45 80 予防注射 受けてい 80 40 120 ない 115 85 200 計
  • 14.
    r×c 分割表 C1 C2 Cc 計 B1 n11 n12     n1c  n1•    B2 n21 n22     n2 c  n2•                   Br nr1 nr 2     nrc  nr •  計 n•1 n•2     n•c  n 
  • 15.
    ni• pi = Pr(B = Bi ) = ˆ n n• j q j = Pr(C = C j ) = ˆ n 独立性を仮定すると pij = Pr( B = Bi & C = C j ) ˆ    Pr( B = Bi ) Pr(C = C j ) = ni• n• j    pi q j = = ˆ ˆ n n 検定統計量は となり、期待度数は r c (nij − eij ) 2 χ 02 == ∑∑ ~ χ (2r −1)( c −1) ni• n• j ni• n• j i =1 j =1 eij e ij = npij = n ˆ = n n n  自由度(r − 1)(c − 1)の χ2 分布 となる。