SlideShare a Scribd company logo
1 of 99
Download to read offline
2 つの平均値の比較




id:yokkuns 里 洋平

第2回 R 勉強会@東京




                  1
自己紹介
●   id:yokkuns
●
    名前 : 里 洋平
●
    職業 :Web エンジニア
●
    出身 : 種子島
●
    趣味 : プログラミングとかカラオケとか
●
    最近、何故か数学に興味があり、アクチュア
    リーとか金融工学とか勉強してたりする

                           2
アジェンダ
●
    統計的仮説検定
      –   必要性
      –   種類
      –   手順
●
    2 つの平均値を比較する
      –   t 検定の前提条件
      –   独立な 2 群の t 検定
      –   Welch の検定
      –   対応のある t 検定
                          3
統計的仮説検定

      4
統計的仮説検定
●
    必要性
●
    例
●
    考え方
●
    種類
●
    手順
●
    まとめ


                    5
統計的仮説検定
●
    必要性
●
    例
●
    考え方
●
    種類
●
    手順
●
    まとめ


                    6
統計的仮説検定の必要性
●
    統計の種類
     –   記述統計
         母集団
                 母集団そのものを直接調べる



     –   推測統計
         母集団          標本
                抽出!        母集団から抽出した
                           標本から、母集団を
                           推測する

                                 7
統計的仮説検定の必要性
●
    統計の種類
     –   記述統計
      母集団
                 母集団そのものを直接調べる



     –   推測統計
         母集団          標本
                抽出!        母集団から抽出した
                           標本から、母集団を
                           推測する

                                 8
統計的仮説検定の必要性
●
    母集団の相関や平均などの正確な値を知る事
    は、一般的にはほとんど不可能
     –   日本人の大学生において自尊感情とソーシャル
          スキルの間に相関関係があるかを検討
●
    無作為に抽出された標本の値が○○だから、母集
    団の値もそんなもんだろうという判断をせざる
    を得ない



                             9
統計的仮説検定がなかったら
50 人の大学生を無作為に選んだら、
   相関係数が 0.5 だったので、
     相関関係があります




                      10
統計的仮説検定がなかったら
50 人の大学生を無作為に選んだら、
   相関係数が 0.5 だったので、
     相関関係があります


    たまたま相関関係が見られるような
   標本を抽出しただけじゃないのかね?




                       11
統計的仮説検定がなかったら
50 人の大学生を無作為に選んだら、
   相関係数が 0.5 だったので、
     相関関係があります


    たまたま相関関係が見られるような
   標本を抽出しただけじゃないのかね?



     ぐぬぬ ...




                       12
統計的仮説検定がなかったら
    50 人の大学生を無作為に選んだら、
       相関係数が 0.5 だったので、
         相関関係があります


        たまたま相関関係が見られるような
母集団全部を調べた訳じゃないので反論出来ない!
       標本を抽出しただけじゃないのかね?
   そもそも、それが無理だからの標本抽出

         ぐぬぬ ...




                          13
そこで
●
    逆に、母集団で○○くらいの値じゃなかったら、
    標本で○○という結果が得られる可能性は非常に
    小さい事を示す。
●
    統計的仮説検定は、確率論に基づいてこのよう
    な主張を行う方法




                         14
統計的仮説検定があったら
50 人の大学生を無作為に選んだら、
   相関係数が 0.5 だったので、
     相関関係があります




                      15
統計的仮説検定があったら
50 人の大学生を無作為に選んだら、
   相関係数が 0.5 だったので、
     相関関係があります


    たまたま相関関係が見られるような
   標本を抽出しただけじゃないのかね?




                       16
統計的仮説検定があったら
50 人の大学生を無作為に選んだら、
   相関係数が 0.5 だったので、
     相関関係があります


    たまたま相関関係が見られるような
   標本を抽出しただけじゃないのかね?

 母集団に相関関係がなかったら、
  標本でこの結果が出る確率は
     5% 以下です!



                       17
統計的仮説検定があったら
50 人の大学生を無作為に選んだら、
   相関係数が 0.5 だったので、
     相関関係があります


    たまたま相関関係が見られるような
   標本を抽出しただけじゃないのかね?

 母集団に相関関係がなかったら、
  標本でこの結果が出る確率は
     5% 以下です!

        ぐぬぬ ... まぁ認めてやろう
                           18
統計的仮説検定があったら
   50 人の大学生を無作為に選んだら、
      相関係数が 0.5 だったので、
        相関関係があります


       たまたま相関関係が見られるような
100% とは言えないが、説得力がある!
      標本を抽出しただけじゃないのかね?

    母集団に相関関係がなかったら、
     標本でこの結果が出る確率は
        5% 以下です!

           ぐぬぬ ... まぁ認めてやろう
                              19
統計的仮説検定
●
    必要性
●
    例
●
    考え方
●
    種類
●
    手順
●
    まとめ


                    20
統計的仮説検定の例
●
    p129 の例題で考える(独立性の検定)
●
    表 5.2 の結果から、数学の好き・嫌いと、統計
    の好き・嫌いの間に有意な関連があると言える
    でしょうか。有意水準 5% で検定を行ってくだ
    さい。
                        表 5.2
                                統計
                       嫌い    好き      計
                  嫌い    10      4        14
             数学   好き    2       4        6
                  計     12      8        20

                                              21
独立性の検定
     2 つの変数は独立である
帰無仮説 (数学の好き・嫌いと、統計の好き・嫌いには連関はな
     い)
     2 つの変数には連関がある
対立仮説 (数学の好き・嫌いと、統計の好き・嫌いは独立でな
     い)

検定統計量


有意水準 α 0.05


 R 関数   chisq.test() 関数


                            22
R でやると
■ データの準備




■ カイ二乗検定




                    23
R でやると
■ データの準備




■ カイ二乗検定       ピアソンのカイ二乗検定

                 使ったデータとその実現値、
                 自由度、 p 値



    データから計算される期待度数が小さい時にでる警告   24
統計的仮説検定
●
    必要性
●
    例
●
    考え方
●
    種類
●
    手順
●
    まとめ


                    25
統計的仮説検定の考え方
           ■ 帰無仮説
関連が全くない母集団 数学の好き・嫌いと、統計の好き・嫌い
           の間に全く関連の無い母集団を考える




                           26
統計的仮説検定の考え方

関連が全くない母集団      抽出!



                       ■ 標本抽出
             標本 20 人
                       無作為に 20 人選ぶ




                                     27
統計的仮説検定の考え方

関連が全くない母集団      抽出!


                       ■ クロス集計表作成
                       テストの点数と数学の好き・嫌い、
             標本 20 人
                       統計学の好き・嫌いを聞く


                         アンケート




                                    28
統計的仮説検定の考え方

関連が全くない母集団      抽出!




             標本 20 人


                       アンケート


                          カイ二乗統計量
                             計算
                                29
統計的仮説検定の考え方

関連が全くない母集団      抽出!




             標本 20 人
    戻す
                       アンケート


                          カイ二乗統計量
                             計算
                                30
統計的仮説検定の考え方

関連が全くない母集団      抽出!



                       ■ 標本抽出
             標本 20 人
                       無作為に 20 人選ぶ




                                     31
統計的仮説検定の考え方

関連が全くない母集団      抽出!


                       ■ クロス集計表作成
                       テストの点数と数学の好き・嫌い、
             標本 20 人
                       統計学の好き・嫌いを聞く


                         アンケート




                                    32
統計的仮説検定の考え方

関連が全くない母集団      抽出!




             標本 20 人


                       アンケート


                          カイ二乗統計量
                             計算
                                33
統計的仮説検定の考え方

関連が全くない母集団      抽出!




             標本 20 人
    戻す
                       アンケート


この作業を延々と繰り返す!             カイ二乗統計量
                             計算
                                34
統計的仮説検定の考え方


カイ二乗統計量の確率分布は
  カイ二乗分布になる!
                1 回目 : 0.202020202
                2 回目 : 0.736659525
                3 回目 : 3.333333333
                4 回目 : 0.202020202
                5 回目 : 0.833333333
                    ...



                               35
R で実験
   chiSquareExp.R - yokkuns




                         36
R で実験
           chiSquareExp.R - yokkuns

1 〜 4 をランダムで m 個取った
クロス集計表を n 個作る
                 各クロス集計表に対して、
                 カイ二乗統計量を求める




  結果から不正なものは除いて返す




         重ねて表示してるだけ
                                 37
R で実験




100 回           1000 回

                         38
R で実験




10000 回           100000 回

                             39
R で実験




大体あってる!

10000 回           100000 回

                             40
統計的仮説検定の考え方
   ← この線から右の確率が 5% (棄却域)




                      41
統計的仮説検定の考え方
●
    例題のカイ二乗統計量は、




                    42
統計的仮説検定の考え方
     ← この線から右の確率が 5% (棄却域)




  ← 例題のカイ二乗統計量




                        43
統計的仮説検定の考え方
     ← この線から右の確率が 5% (棄却域)


         棄却域に入らない
         ↓
         数学の好き・嫌いと、
         統計の好き・嫌いとの間には、
         有意な関連があるとは言えない

  ← 例題のカイ二乗統計量




                        44
統計的仮説検定
●
    必要性
●
    例
●
    考え方
●
    種類
●
    手順
●
    まとめ


                    45
統計的仮説検定の種類
●
    1 つの平均値の検定・母分散が既知
     –   標準正規分布を利用
●
    1 つの平均値の検定・母分散が未知
     –   t 分布を利用
●
    相関係数の検定
     –   t 分布を利用
●
    独立性の検定
     –   カイ二乗分布を利用
                        46
統計的仮説検定
●
    必要性
●
    例
●
    考え方
●
    種類
●
    手順
●
    まとめ


                    47
統計的仮説検定の手順
●
    いろんな検定があるが、手順はどれも同じ
     –   母集団に関する帰無仮説と対立仮説を設定する
     –   検定統計量の選ぶ
     –   有意水準 α を決定する
     –   検定統計量の実現値を求める
     –   検定等計量の実現値が棄却域に入れば帰無仮説
          を棄却して対立仮説を採択



                             48
統計的仮説検定
●
    必要性
●
    例
●
    考え方
●
    種類
●
    手順
●
    まとめ


                    49
統計的仮説検定のまとめ
●
    一般に、母集団の正しい統計量を知る事は不可能なの
    で、無作為に抽出した標本から推測する
●
    推測したものについて、それが正しいと言えるかを確
    率論に基づいて判断
      => 統計的仮説検定
●
    帰無仮説における検定統計量の確率分布を利用
      –   標本の検定統計量が、帰無仮説のもとで出てくる確
           率がどれくらいかを調べる
      –   有意水準(例えば 5% )以下の場合は、推測したも
           のが正しいとする
                                 50
2 つの平均値を比較する



               51
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         52
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         53
2 つの平均値の比較
●
    2 つの平均値に差があるのかを検討したい
       –   男女で心理学テストの平均値に差があるか
       –   統計が好き・嫌いで統計のテストの平均値に差
            があるか
       –   統計の指導を受けた事により成績が向上するか
●
     このような疑問に答えるための検定
●
    t.test() 関数


                                 54
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         55
独立な 2 群の t 検定の例
●
    p143 の例題で考える
      –   「統計テスト 1 」の得点の平均値に男女で有意
           な差があるか。有意水準 5% 、両側検定で検
           定してください。
            ●
                男 : 6, 10, 6, 10, 5, 3, 5, 9, 3, 3
            ●
                女 : 11, 6, 11, 9, 7, 5, 8, 7, 7, 9




                                                     56
独立な 2 群の t 検定の例
帰無仮説    μ1 = μ2   ( 2 つの平均値は等しい)


対立仮説 μ1 ≠ μ2      ( 2 つの平均値は等しくない)



検定統計量



有意水準 α 0.05


 R 関数   t.test() 関数
                                     57
独立な 2 群の t 検定の例




                  58
独立な 2 群の t 検定の例
2 つのサンプルの t 検定   使用したデータと実現値、自由度、 p 値




    何か説明

                                  59
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         60
独立な 2 群の t 検定
●
    平均値の標本分布は、




●
    標準化すると




                       61
独立な 2 群の t 検定
●
    未知の値である母標準偏差が含まれているの
    で、これを推定値に置き換える




●
    検定統計量 t の分布は、帰無仮説 H0:μ1 = μ2 の元
    で、自由度 df = n1 + n2-2 の t 分布に従う
                                      62
独立な 2 群の t 検定
●
    t 分布




                           63
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         64
R で実験
●
    カイ二乗検定の実験と同様に関連なしの母集団
    で実験する
     –   manAndWoman.R - yokkuns -




                                     65
R で実験

        試行回数 : 100




                     66
R で実験

        試行回数 : 1000




                      67
R で実験

        試行回数 : 10000




                       68
R で実験

        試行回数 : 10000




                  69
R で実験
●
    例題の検定統計量は、 -1.842885




                           70
R で実験
          例題の検定統計量
          -1.842885




棄却域




                  71
R で実験
           例題の検定統計量
           -1.842885


      棄却域に入らない
      ↓
      5% 水準で有意差が見られない


棄却域




                   72
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         73
t 検定の前提
●
    無作為抽出
     –   標本抽出が無作為に行われていること
●
    正規性
     –   母集団の分布が正規分布に従っている事
●
    分散の等質性
     –   2 つの母集団の分散が等質であること
     –   R では var.test() 関数で検定出来る


                                    74
Welch の検定
●
    分散の等質性が見られない場合に行う検定
●
    t.test 関数で、 var.equal=FALSE オプション
●
    詳しくは後で調べる




                                   75
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         76
対応のある t 検定
●
    以下のような場合、対応のあるデータといい、
    独立な 2 群の t 検定ではない別の方法が必要
      –   あらかじめ似てる被験者 2 人をペアにして一方
           のを第 1 郡に、他方を第 2 部に割り当てる
      –   統計の指導を受ける前と後のテストの得点

●
    t.test() 関数で paired=TRUE オプション



                                     77
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         78
対応のある t 検定の例
●
    P152 の例題で考える
      –   指導の前後で統計のテストの得点が変化したと
           言えるか。有意水準 5% 、両側検定で検定し
           てください。




      –   1 行目 : 指導前
      –   2 行目 : 指導後
                                79
対応のある t 検定の例
帰無仮説    μ1 = μ2   ( 2 つの平均値は等しい)


対立仮説    μ1 ≠ μ2   ( 2 つの平均値は等しくない)



検定統計量



有意水準 α 0.05


 R 関数   t.test() 関数。 paired=TRUE オプション
                                         80
対応のある t 検定の例




               81
対応のある t 検定の例
対応のある t 検定
             使用したデータと実現値、自由度、 p 値




  何か説明

                                    82
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         83
対応のある t 検定の検定統計量
●
    対応のあるデータでは、「変化量」を考える



●
    標本平均を使うと変化量の平均は




                           84
対応のある t 検定の検定統計量
●
    差分 D が、平均 μ_D 、分散 σ_D^2 の正規分
    布にしたがうと仮定すれば、その標本平均は正
    規分布に従う



●
    標準化して




                               85
対応のある t 検定の検定統計量
●
    検定統計量の分母の σ_D は未知なので、標本
    から求めた標準偏差で代用すると、



●
    検定統計量 t は、帰無仮説 H0:μD = 0 のもと
    で、自由度 df = n -1 の t 分布に従う
●
    対応のある t 検定は、本質的には変化量という
    1つの平均値の検定になる

                               86
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         87
R で実験
●
    関連の無い母集団で実験
     –   shido.R - yokkuns -




                               88
R で実験
        試行回数 : 100




                 89
R で実験
        試行回数 : 1000




                  90
R で実験
        試行回数 : 10000




                  91
R で実験
        試行回数 : 100000




                  92
R で実験
●
    例題の検定統計量は、 4.839903




                          93
R で実験

           例題の検定統計量は
           4.839903
      棄却域に入る
      ↓
      5% 水準で有意差が見らる


棄却域




              ↑ 例題の検定統計量
                      94
2 つの平均値を比較する
●
    独立な 2 群の t 検定
      –   例
      –   検定統計量
      –   R で実験
      –   t 検定の前提条件
●
    対応のある t 検定
      –   例
      –   検定統計量
      –   R で実験
●
    まとめ
                         95
2 つの平均値の比較のまとめ
●
    2 つの平均値に差が比較する場合は、 t 分布を
    利用した検定
●
    独立な 2 群の比較
      –   分散の等質性の検定を行い、行う検定を選ぶ
            ●
                等質の場合    : t 検定
            ●
                等質でない場合 : Welch の検定
●
    対応のある t 検定
      –   本質的には変化量という 1 つの平均値の検定

                                      96
2 つの平均値の比較のまとめ
分散の等質の検定        var.test(x1, x2)


独立な 2 群の t 検定   t.test(x1, x2, var.equal=TRUE)


Welch の検定       t.test(x1, x2, var.equal=FALSE)


                t.test(x)

                 または
対応のある t 検定
                t.test(x1, x2, paired=TRUE)


                                                  97
ご清聴ありがとうございました。




                  98
参考文献
●
    Rによるやさしい統計学
●
    確率統計キャンパスゼミ
●
    Rプログラミングマニュアル
●
    マンガでわかる統計学




                    99

More Related Content

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 

More from Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 

R-study-tokyo02

  • 2. 自己紹介 ● id:yokkuns ● 名前 : 里 洋平 ● 職業 :Web エンジニア ● 出身 : 種子島 ● 趣味 : プログラミングとかカラオケとか ● 最近、何故か数学に興味があり、アクチュア リーとか金融工学とか勉強してたりする 2
  • 3. アジェンダ ● 統計的仮説検定 – 必要性 – 種類 – 手順 ● 2 つの平均値を比較する – t 検定の前提条件 – 独立な 2 群の t 検定 – Welch の検定 – 対応のある t 検定 3
  • 5. 統計的仮説検定 ● 必要性 ● 例 ● 考え方 ● 種類 ● 手順 ● まとめ 5
  • 6. 統計的仮説検定 ● 必要性 ● 例 ● 考え方 ● 種類 ● 手順 ● まとめ 6
  • 7. 統計的仮説検定の必要性 ● 統計の種類 – 記述統計 母集団 母集団そのものを直接調べる – 推測統計 母集団 標本 抽出! 母集団から抽出した 標本から、母集団を 推測する 7
  • 8. 統計的仮説検定の必要性 ● 統計の種類 – 記述統計 母集団 母集団そのものを直接調べる – 推測統計 母集団 標本 抽出! 母集団から抽出した 標本から、母集団を 推測する 8
  • 9. 統計的仮説検定の必要性 ● 母集団の相関や平均などの正確な値を知る事 は、一般的にはほとんど不可能 – 日本人の大学生において自尊感情とソーシャル スキルの間に相関関係があるかを検討 ● 無作為に抽出された標本の値が○○だから、母集 団の値もそんなもんだろうという判断をせざる を得ない 9
  • 10. 統計的仮説検定がなかったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります 10
  • 11. 統計的仮説検定がなかったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります たまたま相関関係が見られるような 標本を抽出しただけじゃないのかね? 11
  • 12. 統計的仮説検定がなかったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります たまたま相関関係が見られるような 標本を抽出しただけじゃないのかね? ぐぬぬ ... 12
  • 13. 統計的仮説検定がなかったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります たまたま相関関係が見られるような 母集団全部を調べた訳じゃないので反論出来ない! 標本を抽出しただけじゃないのかね? そもそも、それが無理だからの標本抽出 ぐぬぬ ... 13
  • 14. そこで ● 逆に、母集団で○○くらいの値じゃなかったら、 標本で○○という結果が得られる可能性は非常に 小さい事を示す。 ● 統計的仮説検定は、確率論に基づいてこのよう な主張を行う方法 14
  • 15. 統計的仮説検定があったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります 15
  • 16. 統計的仮説検定があったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります たまたま相関関係が見られるような 標本を抽出しただけじゃないのかね? 16
  • 17. 統計的仮説検定があったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります たまたま相関関係が見られるような 標本を抽出しただけじゃないのかね? 母集団に相関関係がなかったら、 標本でこの結果が出る確率は 5% 以下です! 17
  • 18. 統計的仮説検定があったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります たまたま相関関係が見られるような 標本を抽出しただけじゃないのかね? 母集団に相関関係がなかったら、 標本でこの結果が出る確率は 5% 以下です! ぐぬぬ ... まぁ認めてやろう 18
  • 19. 統計的仮説検定があったら 50 人の大学生を無作為に選んだら、 相関係数が 0.5 だったので、 相関関係があります たまたま相関関係が見られるような 100% とは言えないが、説得力がある! 標本を抽出しただけじゃないのかね? 母集団に相関関係がなかったら、 標本でこの結果が出る確率は 5% 以下です! ぐぬぬ ... まぁ認めてやろう 19
  • 20. 統計的仮説検定 ● 必要性 ● 例 ● 考え方 ● 種類 ● 手順 ● まとめ 20
  • 21. 統計的仮説検定の例 ● p129 の例題で考える(独立性の検定) ● 表 5.2 の結果から、数学の好き・嫌いと、統計 の好き・嫌いの間に有意な関連があると言える でしょうか。有意水準 5% で検定を行ってくだ さい。 表 5.2 統計 嫌い 好き 計 嫌い 10 4 14 数学 好き 2 4 6 計 12 8 20 21
  • 22. 独立性の検定 2 つの変数は独立である 帰無仮説 (数学の好き・嫌いと、統計の好き・嫌いには連関はな い) 2 つの変数には連関がある 対立仮説 (数学の好き・嫌いと、統計の好き・嫌いは独立でな い) 検定統計量 有意水準 α 0.05 R 関数 chisq.test() 関数 22
  • 24. R でやると ■ データの準備 ■ カイ二乗検定 ピアソンのカイ二乗検定 使ったデータとその実現値、 自由度、 p 値 データから計算される期待度数が小さい時にでる警告 24
  • 25. 統計的仮説検定 ● 必要性 ● 例 ● 考え方 ● 種類 ● 手順 ● まとめ 25
  • 26. 統計的仮説検定の考え方 ■ 帰無仮説 関連が全くない母集団 数学の好き・嫌いと、統計の好き・嫌い の間に全く関連の無い母集団を考える 26
  • 27. 統計的仮説検定の考え方 関連が全くない母集団 抽出! ■ 標本抽出 標本 20 人 無作為に 20 人選ぶ 27
  • 28. 統計的仮説検定の考え方 関連が全くない母集団 抽出! ■ クロス集計表作成 テストの点数と数学の好き・嫌い、 標本 20 人 統計学の好き・嫌いを聞く アンケート 28
  • 29. 統計的仮説検定の考え方 関連が全くない母集団 抽出! 標本 20 人 アンケート カイ二乗統計量 計算 29
  • 30. 統計的仮説検定の考え方 関連が全くない母集団 抽出! 標本 20 人 戻す アンケート カイ二乗統計量 計算 30
  • 31. 統計的仮説検定の考え方 関連が全くない母集団 抽出! ■ 標本抽出 標本 20 人 無作為に 20 人選ぶ 31
  • 32. 統計的仮説検定の考え方 関連が全くない母集団 抽出! ■ クロス集計表作成 テストの点数と数学の好き・嫌い、 標本 20 人 統計学の好き・嫌いを聞く アンケート 32
  • 33. 統計的仮説検定の考え方 関連が全くない母集団 抽出! 標本 20 人 アンケート カイ二乗統計量 計算 33
  • 34. 統計的仮説検定の考え方 関連が全くない母集団 抽出! 標本 20 人 戻す アンケート この作業を延々と繰り返す! カイ二乗統計量 計算 34
  • 35. 統計的仮説検定の考え方 カイ二乗統計量の確率分布は カイ二乗分布になる! 1 回目 : 0.202020202 2 回目 : 0.736659525 3 回目 : 3.333333333 4 回目 : 0.202020202 5 回目 : 0.833333333 ... 35
  • 36. R で実験 chiSquareExp.R - yokkuns 36
  • 37. R で実験 chiSquareExp.R - yokkuns 1 〜 4 をランダムで m 個取った クロス集計表を n 個作る 各クロス集計表に対して、 カイ二乗統計量を求める 結果から不正なものは除いて返す 重ねて表示してるだけ 37
  • 38. R で実験 100 回 1000 回 38
  • 39. R で実験 10000 回 100000 回 39
  • 41. 統計的仮説検定の考え方 ← この線から右の確率が 5% (棄却域) 41
  • 42. 統計的仮説検定の考え方 ● 例題のカイ二乗統計量は、 42
  • 43. 統計的仮説検定の考え方 ← この線から右の確率が 5% (棄却域) ← 例題のカイ二乗統計量 43
  • 44. 統計的仮説検定の考え方 ← この線から右の確率が 5% (棄却域) 棄却域に入らない ↓ 数学の好き・嫌いと、 統計の好き・嫌いとの間には、 有意な関連があるとは言えない ← 例題のカイ二乗統計量 44
  • 45. 統計的仮説検定 ● 必要性 ● 例 ● 考え方 ● 種類 ● 手順 ● まとめ 45
  • 46. 統計的仮説検定の種類 ● 1 つの平均値の検定・母分散が既知 – 標準正規分布を利用 ● 1 つの平均値の検定・母分散が未知 – t 分布を利用 ● 相関係数の検定 – t 分布を利用 ● 独立性の検定 – カイ二乗分布を利用 46
  • 47. 統計的仮説検定 ● 必要性 ● 例 ● 考え方 ● 種類 ● 手順 ● まとめ 47
  • 48. 統計的仮説検定の手順 ● いろんな検定があるが、手順はどれも同じ – 母集団に関する帰無仮説と対立仮説を設定する – 検定統計量の選ぶ – 有意水準 α を決定する – 検定統計量の実現値を求める – 検定等計量の実現値が棄却域に入れば帰無仮説 を棄却して対立仮説を採択 48
  • 49. 統計的仮説検定 ● 必要性 ● 例 ● 考え方 ● 種類 ● 手順 ● まとめ 49
  • 50. 統計的仮説検定のまとめ ● 一般に、母集団の正しい統計量を知る事は不可能なの で、無作為に抽出した標本から推測する ● 推測したものについて、それが正しいと言えるかを確 率論に基づいて判断 => 統計的仮説検定 ● 帰無仮説における検定統計量の確率分布を利用 – 標本の検定統計量が、帰無仮説のもとで出てくる確 率がどれくらいかを調べる – 有意水準(例えば 5% )以下の場合は、推測したも のが正しいとする 50
  • 52. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 52
  • 53. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 53
  • 54. 2 つの平均値の比較 ● 2 つの平均値に差があるのかを検討したい – 男女で心理学テストの平均値に差があるか – 統計が好き・嫌いで統計のテストの平均値に差 があるか – 統計の指導を受けた事により成績が向上するか ● このような疑問に答えるための検定 ● t.test() 関数 54
  • 55. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 55
  • 56. 独立な 2 群の t 検定の例 ● p143 の例題で考える – 「統計テスト 1 」の得点の平均値に男女で有意 な差があるか。有意水準 5% 、両側検定で検 定してください。 ● 男 : 6, 10, 6, 10, 5, 3, 5, 9, 3, 3 ● 女 : 11, 6, 11, 9, 7, 5, 8, 7, 7, 9 56
  • 57. 独立な 2 群の t 検定の例 帰無仮説 μ1 = μ2 ( 2 つの平均値は等しい) 対立仮説 μ1 ≠ μ2 ( 2 つの平均値は等しくない) 検定統計量 有意水準 α 0.05 R 関数 t.test() 関数 57
  • 58. 独立な 2 群の t 検定の例 58
  • 59. 独立な 2 群の t 検定の例 2 つのサンプルの t 検定 使用したデータと実現値、自由度、 p 値 何か説明 59
  • 60. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 60
  • 61. 独立な 2 群の t 検定 ● 平均値の標本分布は、 ● 標準化すると 61
  • 62. 独立な 2 群の t 検定 ● 未知の値である母標準偏差が含まれているの で、これを推定値に置き換える ● 検定統計量 t の分布は、帰無仮説 H0:μ1 = μ2 の元 で、自由度 df = n1 + n2-2 の t 分布に従う 62
  • 63. 独立な 2 群の t 検定 ● t 分布 63
  • 64. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 64
  • 65. R で実験 ● カイ二乗検定の実験と同様に関連なしの母集団 で実験する – manAndWoman.R - yokkuns - 65
  • 66. R で実験 試行回数 : 100 66
  • 67. R で実験 試行回数 : 1000 67
  • 68. R で実験 試行回数 : 10000 68
  • 69. R で実験 試行回数 : 10000 69
  • 70. R で実験 ● 例題の検定統計量は、 -1.842885 70
  • 71. R で実験 例題の検定統計量 -1.842885 棄却域 71
  • 72. R で実験 例題の検定統計量 -1.842885 棄却域に入らない ↓ 5% 水準で有意差が見られない 棄却域 72
  • 73. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 73
  • 74. t 検定の前提 ● 無作為抽出 – 標本抽出が無作為に行われていること ● 正規性 – 母集団の分布が正規分布に従っている事 ● 分散の等質性 – 2 つの母集団の分散が等質であること – R では var.test() 関数で検定出来る 74
  • 75. Welch の検定 ● 分散の等質性が見られない場合に行う検定 ● t.test 関数で、 var.equal=FALSE オプション ● 詳しくは後で調べる 75
  • 76. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 76
  • 77. 対応のある t 検定 ● 以下のような場合、対応のあるデータといい、 独立な 2 群の t 検定ではない別の方法が必要 – あらかじめ似てる被験者 2 人をペアにして一方 のを第 1 郡に、他方を第 2 部に割り当てる – 統計の指導を受ける前と後のテストの得点 ● t.test() 関数で paired=TRUE オプション 77
  • 78. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 78
  • 79. 対応のある t 検定の例 ● P152 の例題で考える – 指導の前後で統計のテストの得点が変化したと 言えるか。有意水準 5% 、両側検定で検定し てください。 – 1 行目 : 指導前 – 2 行目 : 指導後 79
  • 80. 対応のある t 検定の例 帰無仮説 μ1 = μ2 ( 2 つの平均値は等しい) 対立仮説 μ1 ≠ μ2 ( 2 つの平均値は等しくない) 検定統計量 有意水準 α 0.05 R 関数 t.test() 関数。 paired=TRUE オプション 80
  • 82. 対応のある t 検定の例 対応のある t 検定 使用したデータと実現値、自由度、 p 値 何か説明 82
  • 83. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 83
  • 84. 対応のある t 検定の検定統計量 ● 対応のあるデータでは、「変化量」を考える ● 標本平均を使うと変化量の平均は 84
  • 85. 対応のある t 検定の検定統計量 ● 差分 D が、平均 μ_D 、分散 σ_D^2 の正規分 布にしたがうと仮定すれば、その標本平均は正 規分布に従う ● 標準化して 85
  • 86. 対応のある t 検定の検定統計量 ● 検定統計量の分母の σ_D は未知なので、標本 から求めた標準偏差で代用すると、 ● 検定統計量 t は、帰無仮説 H0:μD = 0 のもと で、自由度 df = n -1 の t 分布に従う ● 対応のある t 検定は、本質的には変化量という 1つの平均値の検定になる 86
  • 87. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 87
  • 88. R で実験 ● 関連の無い母集団で実験 – shido.R - yokkuns - 88
  • 89. R で実験 試行回数 : 100 89
  • 90. R で実験 試行回数 : 1000 90
  • 91. R で実験 試行回数 : 10000 91
  • 92. R で実験 試行回数 : 100000 92
  • 93. R で実験 ● 例題の検定統計量は、 4.839903 93
  • 94. R で実験 例題の検定統計量は 4.839903 棄却域に入る ↓ 5% 水準で有意差が見らる 棄却域 ↑ 例題の検定統計量 94
  • 95. 2 つの平均値を比較する ● 独立な 2 群の t 検定 – 例 – 検定統計量 – R で実験 – t 検定の前提条件 ● 対応のある t 検定 – 例 – 検定統計量 – R で実験 ● まとめ 95
  • 96. 2 つの平均値の比較のまとめ ● 2 つの平均値に差が比較する場合は、 t 分布を 利用した検定 ● 独立な 2 群の比較 – 分散の等質性の検定を行い、行う検定を選ぶ ● 等質の場合 : t 検定 ● 等質でない場合 : Welch の検定 ● 対応のある t 検定 – 本質的には変化量という 1 つの平均値の検定 96
  • 97. 2 つの平均値の比較のまとめ 分散の等質の検定 var.test(x1, x2) 独立な 2 群の t 検定 t.test(x1, x2, var.equal=TRUE) Welch の検定 t.test(x1, x2, var.equal=FALSE) t.test(x) または 対応のある t 検定 t.test(x1, x2, paired=TRUE) 97
  • 99. 参考文献 ● Rによるやさしい統計学 ● 確率統計キャンパスゼミ ● Rプログラミングマニュアル ● マンガでわかる統計学 99