SlideShare a Scribd company logo
1 of 34
Download to read offline
分散分析




     id:yokkuns 里 洋平

第 3 回 R 勉強会@東京 (Tokyo.R#03)




                              1
自己紹介
●   id:yokkuns
●
    名前 : 里 洋平
●
    職業 :Web エンジニア
●
    出身 : 種子島
●
    趣味 : プログラミングとかカラオケとか
●
    最近、何故か数学に興味があり、アクチュア
    リーとか金融工学とか勉強してたりする

                           2
アジェンダ
●
    分散分析とは
●
    一元配置分散分析
     –   対応なし
     –   対応あり
●
    二元配置分散分析
     –   対応なし
     –   2 要因とも対応あり
     –   1 要因のみ対応あり
                        3
分散分析とは




         4
3 つ以上の平均値差を比較
●
    2 つの平均値差の検定では t 検定を使うが、 3 つ
    以上の標本には使えない。
      –   検定の多重性の問題
●
    3 つ以上の平均値差の検定は分散分析
      –   3 つ以上の平均値が等しいかどうかを検定
      –   等しい時は、有意差なしと結論
      –   等しくない場合、どの平均対の間に差があるかを検定



                                 5
分散分析の意味
●
     観測データの変動を要因による変動 ( 要因効果 ) と誤差
     による変動に分解し、要因に有意な効果があるかを検定
     する手法
     データ = 全体平均 + 要因効果 + 誤差
A    B    C    D        A    B    C    D         A     B      C      D          A      B       C      D
15   13   10   10       10   10   10   10       4.8   -0.4   -0.8   -3.6       0.2    3.4     0.8    3.6
9    8     6   7        10   10   10   10       4.8   -0.4   -0.8   -3.6       -5.8   -1.6   -3.2    0.6
18   8    11   3    =   10   10   10   10   +   4.8   -0.4   -0.8   -3.6   +   3.2    -1.6    1.8   -3.4
14   12    7   5        10   10   10   10       4.8   -0.4   -0.8   -3.6       -0.8   2.4    -2.2   -1.4
18   7    12   7        10   10   10   10       4.8   -0.4   -0.8   -3.6       3.2    -2.6    2.8    0.6



                                            要因平均 - 全平均 全データ - 要因平均
                                                                                                    6
平方和の分解
●
    平方和とは
     –   観測データのばらつきの大きさを表す指標で、
          個々のデータと平均値との差の 2 乗和
●
    平方和の分解
     –   全体の平方和を要因平方和と誤差平方和に分解す
          ること

    全体平方和 = 要因平方和 + 誤差平方和

                             7
分散分析表
           自由度   平方和       平均平方和      分散比         p値
            df   Sum Sq     Mean Sq   F value    Pr(>F)
    変動要因    3    184.000    61.333    7.1111    0.002988

     誤差    16    138.000     8.625



●
    自由度 : 要因水準数 – 1 、全体ではデータ総数 – 1
●
    平均平方和 : 平方和 ÷ 自由度
●
    分散比 : 要因の平均平方和 ÷ 誤差の平均平方和



                                                           8
多重比較( Tukey の方法)

●
    分散分析で分かるのは、 n 群の母平均が等しく
    ないことであり、具体的にどの群に差があるの
    かまでは分からない。
●
    これを検定するには、多重比較を用いる必要が
    ある




                          9
一元配置分散分析(対応なし)




                 10
概要
●
    帰無仮説と対立仮説
      –   帰無仮説 : n 群の母平均は等しい
      –   対立仮説 : n 群の母平均は等しくない
●
    検定統計量

    F = 群間平方和 / 群間の自由度
        郡内平方和 / 郡内の自由度


                                 11
R で一元配置分散分析 ( 対応なし )
●
    一元配置分散分析(対応なし)
      –   oneway.test(y~x)
      –   summary(aov(y~x))
      –   anova(lm(y~x))
●
    Tukey の多重比較
      –   TukeyHSD(aov(y~x))




                               12
例
●
    p.201 練習問題 (1)
    ある大学の法学部、文学部、理大学部、工学部の 4 学
    部から 8 名ずつの学生を無作為抽出してテストを行っ
    た。学部間でテストの母平均に差があるかを有意水準
    5% で分散分析を実行してください。



法学部     75   61   68   58   66   55   65   63
文学部     62   60   66   63   55   53   59   63
理学部     65   60   78   52   59   66   73   64
工学部     52   59   44   67   47   53   58   49

                                                13
例



5% 水準で有意となったので、多重比較を行う




法学部と工学部、理学部と工学部の間で有意差があることが分かった
                            14
一元配置分散分析(対応あり)




                 15
概要
●
    帰無仮説と対立仮説
      –   帰無仮説 : 条件の母平均は等しい
      –   対立仮説 : 条件の母平均は等しくない
●
    検定統計量

    F = 条件平方和 / 条件の自由度
        残差平方和 / 残差の自由度


                                16
対応の有無による違い
●
    対応ありとは
      –   同じ被験者が複数の条件を経験するようなデータ
      –   個人の違いにより説明出来る部分を分解する必要がある
●
    平方和の分解
      –   対応無し
    全体平方和 = 群間平方和 + 郡内平方和
      –   対応あり
    全体平方和 = 条件平方和 + 個人差平方和 + 残差平方和
                                   17
R で一元配置分散分析 ( 対応あり )
●
    一元配置分散分析(対応あり)
      –   summary(aov(y~x+t))
●
    Tukey の多重比較
      –   TukeyHSD(aov(y~x))




                                18
例
●
    p.201 練習問題 (2)
    7 名の学生を無作為に抽出し、全員が「講義中心
    型」、「問題練習中心型」、「コンピュータ実習中心
    型」の 3 種類の授業を受けて、それぞれ授業後に行う
    定着度テストの得点で効果を比較した。授業形態で有
    意な差があるかを有意水準 5% で分散分析を実行して
    ください。
学生       A    B    C    D    E    F    G
講義       51   66   70   75   73   62   55
問題       47   54   55   39   60   62   56
実習       55   37   47   60   62   53   50
                                            19
例


5% 水準で有意となったので多重比較




講義中心型とコンピュータ実習中心型の間に有意差があることが分かった
                               20
二元配置分散分析




           21
二元配置分散分析
●
    二元配置分散分析とは
     –   2 つの条件の組み合わせによって母平均がこと
           なるかどうかを検定する手法
●
    主効果と交互作用
     –   主効果
          各要因による単独の効果
     –   交互作用効果
          1 つの要因の結果に与える他方の要因の効果

                              22
二元配置分散分析
●
    帰無仮説と対立仮説
     –   2 つの主効果と 1 つの交互作用効果を検定
     –   帰無仮説と対立仮説のペアも 3 つになる
●
    検定統計量
     –   3 ペアそれぞれで F を利用




                                  23
交互作用
    交互作用なし          交互作用あり




単純な要因の効果の足し算で   単純な要因の効果の足し算で
説明出来る場合は平行になる   説明出来ない場合は平行にならない


                              24
R で二元配置分散分析
●
    二元配置分散分析(対応なし)
     –   summary(aov(y~a*b))
●
    二元配置分散分析( 2 要因とも対応あり)
     –   summary(aov(y~a+Error(t+t:a+t:b+t:a:b)))
●
    二元配置分散分析( 1 要因のみ対応あり)
     –   summary(aov(y~a*b+Error(t:a+t:a:b)))
●
    交互作用効果を確認するための平均値プロット
     –   interaction.plot(a, b, y)
                                                25
例(対応なし)
 ●
     p.183 例題
     3 種類の銘柄のミネラルウォーターのおいしさについて、 2 種
     類の温度のもとで、それぞれの条件に 5 人ずつ割当て、計 30
     人に評定してもらった。このデータから銘柄の違いや温度の違
     いによって、おいしさの評定の母平均は異なると言えるか。
         A① 冷蔵庫                    A② 常温
B① イカアン B② ボスビッグB③ ビビッテル B① イカアン B② ボスビッグ B③ ビビッテル

     6     10      11      5        7        12
     4     8       12      4        6        8
     5     10      12      2        5        5
     3     8       10      2        4        6
     2     9       10      2        3        4

                                                  26
例
温度を fa 、銘柄を fb とした。




■ 結果
温度の主効果 : 5% 水準で有意な効果がある
銘柄の主効果 : 5% 水準で有意な効果がある
温度と銘柄の交互作用効果 : 5% 水準で有意な効果はない



                                27
例( 2 要因とも対応あり)
●
    p.192 例題
    5 人の評定者が温度と銘柄を組み合わせた 6 つの条件全てでお
    いしさの評定を行った。
    このデータから銘柄の違いや温度の違いによっておいしさの評
    定の母平均は異なると言えるか
               A① 冷蔵庫             A② 常温
          B①    B②      B③   B①    B②     B③
     A    6      10     11   5      7     12
     B    4      8      12   4      6     8
    C     5      10     12   2      5     5
    D     3      8      10   2      4     6
     E    2      9      10   2      3     4

                                               28
例
                    温度を fa 、銘柄を fb 、
                    人を id ( 1 〜 5 )とした。




■ 結果
温度の主効果 : 5% 水準で有意な効果がある
銘柄の主効果 : 5% 水準で有意な効果がある
温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある
                                      29
例( 1 要因のみ対応あり)
●
    p.195 例題
    各評定者に 6 つの条件の水を全て飲んでもらうのではなく、冷
    蔵か常温のどちらかの温度条件に割り当てた上で、その温度の
    ものだけ 3 種類飲んで評定してもらった。銘柄の違いや温度の
    違いによっておいしさの評定の母平均は異なると言えるか。
             A①                   A②
        B①   B②     B③       B①   B②   B③
    A   6      10   11   F   5    7    12
    B   4      8    12   G   4    6    8
    C   5      10   12   H   2    5    5
    D   3      8    10   I   2    4    6
    E   2      9    10   J   2    3    4

                                            30
例
温度を fa 、銘柄を fb 、人を id ( 1 〜 10 )とした。




■ 結果
温度の主効果 : 5% 水準で有意な効果がある
銘柄の主効果 : 5% 水準で有意な効果がある
温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある
                                       31
まとめ
●
    3 つ以上の平均値差の検定には、分散分析
●
    分散分析とは、データの変動を各要因とそれら
    の交互作用による変動、誤差変動に分解して、
    各要因、交互作用に有意な効果があるかを検定
    する手法
●
    有意差がある場合は多重比較を行い、どの要因
    間で差があるかを調べる


                           32
ご清聴ありがとうございました。




                  33
参考文献
●
    Rによるやさしい統計学
●
    確率統計キャンパスゼミ
●
    Rプログラミングマニュアル
●
    マンガでわかる統計学




                    33

More Related Content

What's hot

重回帰分析で交互作用効果
重回帰分析で交互作用効果重回帰分析で交互作用効果
重回帰分析で交互作用効果Makoto Hirakawa
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズHiroshi Shimizu
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析logics-of-blue
 
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Koichiro Gibo
 
Rで潜在ランク分析
Rで潜在ランク分析Rで潜在ランク分析
Rで潜在ランク分析Hiroshi Shimizu
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門Yu Tamura
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)Toru Imai
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17horihorio
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 
統計的検定と例数設計の基礎
統計的検定と例数設計の基礎統計的検定と例数設計の基礎
統計的検定と例数設計の基礎Senshu University
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219Shuhei Ichikawa
 
1 3.分散分析 anova
1 3.分散分析 anova1 3.分散分析 anova
1 3.分散分析 anovalogics-of-blue
 

What's hot (20)

重回帰分析で交互作用効果
重回帰分析で交互作用効果重回帰分析で交互作用効果
重回帰分析で交互作用効果
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析
 
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
 
Rで潜在ランク分析
Rで潜在ランク分析Rで潜在ランク分析
Rで潜在ランク分析
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
統計的検定と例数設計の基礎
統計的検定と例数設計の基礎統計的検定と例数設計の基礎
統計的検定と例数設計の基礎
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219GLMM in interventional study at Require 23, 20151219
GLMM in interventional study at Require 23, 20151219
 
1 3.分散分析 anova
1 3.分散分析 anova1 3.分散分析 anova
1 3.分散分析 anova
 

Similar to R Study Tokyo03

ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
実験計画法入門 Part 1
実験計画法入門 Part 1実験計画法入門 Part 1
実験計画法入門 Part 1haji mizu
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
第二回統計学勉強会@東大駒場
第二回統計学勉強会@東大駒場第二回統計学勉強会@東大駒場
第二回統計学勉強会@東大駒場Daisuke Yoneoka
 
Rm20140514 5key
Rm20140514 5keyRm20140514 5key
Rm20140514 5keyyouwatari
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門Hiroshi Unzai
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4keyyouwatari
 
Rm20140702 11key
Rm20140702 11keyRm20140702 11key
Rm20140702 11keyyouwatari
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 
13.01.20.第1回DARM勉強会資料#1
13.01.20.第1回DARM勉強会資料#113.01.20.第1回DARM勉強会資料#1
13.01.20.第1回DARM勉強会資料#1Yoshitake Takebayashi
 
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)Akira Asano
 
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学Yasuyuki Okumura
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析aa_aa_aa
 
03 「重回帰分析」の入門
03 「重回帰分析」の入門03 「重回帰分析」の入門
03 「重回帰分析」の入門Shuhei Ichikawa
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習Hirotaka Hachiya
 
第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討Masaru Tokuoka
 

Similar to R Study Tokyo03 (20)

ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
実験計画法入門 Part 1
実験計画法入門 Part 1実験計画法入門 Part 1
実験計画法入門 Part 1
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
Tokyor24 doradora09
Tokyor24 doradora09Tokyor24 doradora09
Tokyor24 doradora09
 
第二回統計学勉強会@東大駒場
第二回統計学勉強会@東大駒場第二回統計学勉強会@東大駒場
第二回統計学勉強会@東大駒場
 
Rm20140514 5key
Rm20140514 5keyRm20140514 5key
Rm20140514 5key
 
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4key
 
Rm20140702 11key
Rm20140702 11keyRm20140702 11key
Rm20140702 11key
 
Rゼミ 3
Rゼミ 3Rゼミ 3
Rゼミ 3
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
13.01.20.第1回DARM勉強会資料#1
13.01.20.第1回DARM勉強会資料#113.01.20.第1回DARM勉強会資料#1
13.01.20.第1回DARM勉強会資料#1
 
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
 
Gasshuku98
Gasshuku98Gasshuku98
Gasshuku98
 
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
 
03 「重回帰分析」の入門
03 「重回帰分析」の入門03 「重回帰分析」の入門
03 「重回帰分析」の入門
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 

More from Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 

R Study Tokyo03

  • 1. 分散分析 id:yokkuns 里 洋平 第 3 回 R 勉強会@東京 (Tokyo.R#03) 1
  • 2. 自己紹介 ● id:yokkuns ● 名前 : 里 洋平 ● 職業 :Web エンジニア ● 出身 : 種子島 ● 趣味 : プログラミングとかカラオケとか ● 最近、何故か数学に興味があり、アクチュア リーとか金融工学とか勉強してたりする 2
  • 3. アジェンダ ● 分散分析とは ● 一元配置分散分析 – 対応なし – 対応あり ● 二元配置分散分析 – 対応なし – 2 要因とも対応あり – 1 要因のみ対応あり 3
  • 5. 3 つ以上の平均値差を比較 ● 2 つの平均値差の検定では t 検定を使うが、 3 つ 以上の標本には使えない。 – 検定の多重性の問題 ● 3 つ以上の平均値差の検定は分散分析 – 3 つ以上の平均値が等しいかどうかを検定 – 等しい時は、有意差なしと結論 – 等しくない場合、どの平均対の間に差があるかを検定 5
  • 6. 分散分析の意味 ● 観測データの変動を要因による変動 ( 要因効果 ) と誤差 による変動に分解し、要因に有意な効果があるかを検定 する手法 データ = 全体平均 + 要因効果 + 誤差 A B C D A B C D A B C D A B C D 15 13 10 10 10 10 10 10 4.8 -0.4 -0.8 -3.6 0.2 3.4 0.8 3.6 9 8 6 7 10 10 10 10 4.8 -0.4 -0.8 -3.6 -5.8 -1.6 -3.2 0.6 18 8 11 3 = 10 10 10 10 + 4.8 -0.4 -0.8 -3.6 + 3.2 -1.6 1.8 -3.4 14 12 7 5 10 10 10 10 4.8 -0.4 -0.8 -3.6 -0.8 2.4 -2.2 -1.4 18 7 12 7 10 10 10 10 4.8 -0.4 -0.8 -3.6 3.2 -2.6 2.8 0.6 要因平均 - 全平均 全データ - 要因平均 6
  • 7. 平方和の分解 ● 平方和とは – 観測データのばらつきの大きさを表す指標で、 個々のデータと平均値との差の 2 乗和 ● 平方和の分解 – 全体の平方和を要因平方和と誤差平方和に分解す ること 全体平方和 = 要因平方和 + 誤差平方和 7
  • 8. 分散分析表 自由度 平方和 平均平方和 分散比 p値 df Sum Sq Mean Sq F value Pr(>F) 変動要因 3 184.000 61.333 7.1111 0.002988 誤差 16 138.000 8.625 ● 自由度 : 要因水準数 – 1 、全体ではデータ総数 – 1 ● 平均平方和 : 平方和 ÷ 自由度 ● 分散比 : 要因の平均平方和 ÷ 誤差の平均平方和 8
  • 9. 多重比較( Tukey の方法) ● 分散分析で分かるのは、 n 群の母平均が等しく ないことであり、具体的にどの群に差があるの かまでは分からない。 ● これを検定するには、多重比較を用いる必要が ある 9
  • 11. 概要 ● 帰無仮説と対立仮説 – 帰無仮説 : n 群の母平均は等しい – 対立仮説 : n 群の母平均は等しくない ● 検定統計量 F = 群間平方和 / 群間の自由度 郡内平方和 / 郡内の自由度 11
  • 12. R で一元配置分散分析 ( 対応なし ) ● 一元配置分散分析(対応なし) – oneway.test(y~x) – summary(aov(y~x)) – anova(lm(y~x)) ● Tukey の多重比較 – TukeyHSD(aov(y~x)) 12
  • 13. 例 ● p.201 練習問題 (1) ある大学の法学部、文学部、理大学部、工学部の 4 学 部から 8 名ずつの学生を無作為抽出してテストを行っ た。学部間でテストの母平均に差があるかを有意水準 5% で分散分析を実行してください。 法学部 75 61 68 58 66 55 65 63 文学部 62 60 66 63 55 53 59 63 理学部 65 60 78 52 59 66 73 64 工学部 52 59 44 67 47 53 58 49 13
  • 16. 概要 ● 帰無仮説と対立仮説 – 帰無仮説 : 条件の母平均は等しい – 対立仮説 : 条件の母平均は等しくない ● 検定統計量 F = 条件平方和 / 条件の自由度 残差平方和 / 残差の自由度 16
  • 17. 対応の有無による違い ● 対応ありとは – 同じ被験者が複数の条件を経験するようなデータ – 個人の違いにより説明出来る部分を分解する必要がある ● 平方和の分解 – 対応無し 全体平方和 = 群間平方和 + 郡内平方和 – 対応あり 全体平方和 = 条件平方和 + 個人差平方和 + 残差平方和 17
  • 18. R で一元配置分散分析 ( 対応あり ) ● 一元配置分散分析(対応あり) – summary(aov(y~x+t)) ● Tukey の多重比較 – TukeyHSD(aov(y~x)) 18
  • 19. 例 ● p.201 練習問題 (2) 7 名の学生を無作為に抽出し、全員が「講義中心 型」、「問題練習中心型」、「コンピュータ実習中心 型」の 3 種類の授業を受けて、それぞれ授業後に行う 定着度テストの得点で効果を比較した。授業形態で有 意な差があるかを有意水準 5% で分散分析を実行して ください。 学生 A B C D E F G 講義 51 66 70 75 73 62 55 問題 47 54 55 39 60 62 56 実習 55 37 47 60 62 53 50 19
  • 22. 二元配置分散分析 ● 二元配置分散分析とは – 2 つの条件の組み合わせによって母平均がこと なるかどうかを検定する手法 ● 主効果と交互作用 – 主効果 各要因による単独の効果 – 交互作用効果 1 つの要因の結果に与える他方の要因の効果 22
  • 23. 二元配置分散分析 ● 帰無仮説と対立仮説 – 2 つの主効果と 1 つの交互作用効果を検定 – 帰無仮説と対立仮説のペアも 3 つになる ● 検定統計量 – 3 ペアそれぞれで F を利用 23
  • 24. 交互作用 交互作用なし 交互作用あり 単純な要因の効果の足し算で 単純な要因の効果の足し算で 説明出来る場合は平行になる 説明出来ない場合は平行にならない 24
  • 25. R で二元配置分散分析 ● 二元配置分散分析(対応なし) – summary(aov(y~a*b)) ● 二元配置分散分析( 2 要因とも対応あり) – summary(aov(y~a+Error(t+t:a+t:b+t:a:b))) ● 二元配置分散分析( 1 要因のみ対応あり) – summary(aov(y~a*b+Error(t:a+t:a:b))) ● 交互作用効果を確認するための平均値プロット – interaction.plot(a, b, y) 25
  • 26. 例(対応なし) ● p.183 例題 3 種類の銘柄のミネラルウォーターのおいしさについて、 2 種 類の温度のもとで、それぞれの条件に 5 人ずつ割当て、計 30 人に評定してもらった。このデータから銘柄の違いや温度の違 いによって、おいしさの評定の母平均は異なると言えるか。 A① 冷蔵庫 A② 常温 B① イカアン B② ボスビッグB③ ビビッテル B① イカアン B② ボスビッグ B③ ビビッテル 6 10 11 5 7 12 4 8 12 4 6 8 5 10 12 2 5 5 3 8 10 2 4 6 2 9 10 2 3 4 26
  • 27. 例 温度を fa 、銘柄を fb とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果はない 27
  • 28. 例( 2 要因とも対応あり) ● p.192 例題 5 人の評定者が温度と銘柄を組み合わせた 6 つの条件全てでお いしさの評定を行った。 このデータから銘柄の違いや温度の違いによっておいしさの評 定の母平均は異なると言えるか A① 冷蔵庫 A② 常温 B① B② B③ B① B② B③ A 6 10 11 5 7 12 B 4 8 12 4 6 8 C 5 10 12 2 5 5 D 3 8 10 2 4 6 E 2 9 10 2 3 4 28
  • 29. 温度を fa 、銘柄を fb 、 人を id ( 1 〜 5 )とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある 29
  • 30. 例( 1 要因のみ対応あり) ● p.195 例題 各評定者に 6 つの条件の水を全て飲んでもらうのではなく、冷 蔵か常温のどちらかの温度条件に割り当てた上で、その温度の ものだけ 3 種類飲んで評定してもらった。銘柄の違いや温度の 違いによっておいしさの評定の母平均は異なると言えるか。 A① A② B① B② B③ B① B② B③ A 6 10 11 F 5 7 12 B 4 8 12 G 4 6 8 C 5 10 12 H 2 5 5 D 3 8 10 I 2 4 6 E 2 9 10 J 2 3 4 30
  • 31. 例 温度を fa 、銘柄を fb 、人を id ( 1 〜 10 )とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある 31
  • 32. まとめ ● 3 つ以上の平均値差の検定には、分散分析 ● 分散分析とは、データの変動を各要因とそれら の交互作用による変動、誤差変動に分解して、 各要因、交互作用に有意な効果があるかを検定 する手法 ● 有意差がある場合は多重比較を行い、どの要因 間で差があるかを調べる 32
  • 34. 参考文献 ● Rによるやさしい統計学 ● 確率統計キャンパスゼミ ● Rプログラミングマニュアル ● マンガでわかる統計学 33