R Study Tokyo03
Upcoming SlideShare
Loading in...5
×
 

R Study Tokyo03

on

  • 4,236 views

 

Statistics

Views

Total Views
4,236
Views on SlideShare
3,728
Embed Views
508

Actions

Likes
0
Downloads
18
Comments
0

6 Embeds 508

http://d.hatena.ne.jp 308
http://dl.dropboxusercontent.com 183
http://www.slideshare.net 8
http://cptl.corp.yahoo.co.jp 5
http://webcache.googleusercontent.com 2
http://a0.twimg.com 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

R Study Tokyo03 R Study Tokyo03 Presentation Transcript

  • 分散分析 id:yokkuns 里 洋平 第 3 回 R 勉強会@東京 (Tokyo.R#03) 1
  • 自己紹介 ● id:yokkuns ● 名前 : 里 洋平 ● 職業 :Web エンジニア ● 出身 : 種子島 ● 趣味 : プログラミングとかカラオケとか ● 最近、何故か数学に興味があり、アクチュア リーとか金融工学とか勉強してたりする 2
  • アジェンダ ● 分散分析とは ● 一元配置分散分析 – 対応なし – 対応あり ● 二元配置分散分析 – 対応なし – 2 要因とも対応あり – 1 要因のみ対応あり 3
  • 分散分析とは 4
  • 3 つ以上の平均値差を比較 ● 2 つの平均値差の検定では t 検定を使うが、 3 つ 以上の標本には使えない。 – 検定の多重性の問題 ● 3 つ以上の平均値差の検定は分散分析 – 3 つ以上の平均値が等しいかどうかを検定 – 等しい時は、有意差なしと結論 – 等しくない場合、どの平均対の間に差があるかを検定 5
  • 分散分析の意味 ● 観測データの変動を要因による変動 ( 要因効果 ) と誤差 による変動に分解し、要因に有意な効果があるかを検定 する手法 データ = 全体平均 + 要因効果 + 誤差 A B C D A B C D A B C D A B C D 15 13 10 10 10 10 10 10 4.8 -0.4 -0.8 -3.6 0.2 3.4 0.8 3.6 9 8 6 7 10 10 10 10 4.8 -0.4 -0.8 -3.6 -5.8 -1.6 -3.2 0.6 18 8 11 3 = 10 10 10 10 + 4.8 -0.4 -0.8 -3.6 + 3.2 -1.6 1.8 -3.4 14 12 7 5 10 10 10 10 4.8 -0.4 -0.8 -3.6 -0.8 2.4 -2.2 -1.4 18 7 12 7 10 10 10 10 4.8 -0.4 -0.8 -3.6 3.2 -2.6 2.8 0.6 要因平均 - 全平均 全データ - 要因平均 6
  • 平方和の分解 ● 平方和とは – 観測データのばらつきの大きさを表す指標で、 個々のデータと平均値との差の 2 乗和 ● 平方和の分解 – 全体の平方和を要因平方和と誤差平方和に分解す ること 全体平方和 = 要因平方和 + 誤差平方和 7
  • 分散分析表 自由度 平方和 平均平方和 分散比 p値 df Sum Sq Mean Sq F value Pr(>F) 変動要因 3 184.000 61.333 7.1111 0.002988 誤差 16 138.000 8.625 ● 自由度 : 要因水準数 – 1 、全体ではデータ総数 – 1 ● 平均平方和 : 平方和 ÷ 自由度 ● 分散比 : 要因の平均平方和 ÷ 誤差の平均平方和 8
  • 多重比較( Tukey の方法) ● 分散分析で分かるのは、 n 群の母平均が等しく ないことであり、具体的にどの群に差があるの かまでは分からない。 ● これを検定するには、多重比較を用いる必要が ある 9
  • 一元配置分散分析(対応なし) 10
  • 概要 ● 帰無仮説と対立仮説 – 帰無仮説 : n 群の母平均は等しい – 対立仮説 : n 群の母平均は等しくない ● 検定統計量 F = 群間平方和 / 群間の自由度 郡内平方和 / 郡内の自由度 11
  • R で一元配置分散分析 ( 対応なし ) ● 一元配置分散分析(対応なし) – oneway.test(y~x) – summary(aov(y~x)) – anova(lm(y~x)) ● Tukey の多重比較 – TukeyHSD(aov(y~x)) 12
  • 例 ● p.201 練習問題 (1) ある大学の法学部、文学部、理大学部、工学部の 4 学 部から 8 名ずつの学生を無作為抽出してテストを行っ た。学部間でテストの母平均に差があるかを有意水準 5% で分散分析を実行してください。 法学部 75 61 68 58 66 55 65 63 文学部 62 60 66 63 55 53 59 63 理学部 65 60 78 52 59 66 73 64 工学部 52 59 44 67 47 53 58 49 13
  • 例 5% 水準で有意となったので、多重比較を行う 法学部と工学部、理学部と工学部の間で有意差があることが分かった 14
  • 一元配置分散分析(対応あり) 15
  • 概要 ● 帰無仮説と対立仮説 – 帰無仮説 : 条件の母平均は等しい – 対立仮説 : 条件の母平均は等しくない ● 検定統計量 F = 条件平方和 / 条件の自由度 残差平方和 / 残差の自由度 16
  • 対応の有無による違い ● 対応ありとは – 同じ被験者が複数の条件を経験するようなデータ – 個人の違いにより説明出来る部分を分解する必要がある ● 平方和の分解 – 対応無し 全体平方和 = 群間平方和 + 郡内平方和 – 対応あり 全体平方和 = 条件平方和 + 個人差平方和 + 残差平方和 17
  • R で一元配置分散分析 ( 対応あり ) ● 一元配置分散分析(対応あり) – summary(aov(y~x+t)) ● Tukey の多重比較 – TukeyHSD(aov(y~x)) 18
  • 例 ● p.201 練習問題 (2) 7 名の学生を無作為に抽出し、全員が「講義中心 型」、「問題練習中心型」、「コンピュータ実習中心 型」の 3 種類の授業を受けて、それぞれ授業後に行う 定着度テストの得点で効果を比較した。授業形態で有 意な差があるかを有意水準 5% で分散分析を実行して ください。 学生 A B C D E F G 講義 51 66 70 75 73 62 55 問題 47 54 55 39 60 62 56 実習 55 37 47 60 62 53 50 19
  • 例 5% 水準で有意となったので多重比較 講義中心型とコンピュータ実習中心型の間に有意差があることが分かった 20
  • 二元配置分散分析 21
  • 二元配置分散分析 ● 二元配置分散分析とは – 2 つの条件の組み合わせによって母平均がこと なるかどうかを検定する手法 ● 主効果と交互作用 – 主効果 各要因による単独の効果 – 交互作用効果 1 つの要因の結果に与える他方の要因の効果 22
  • 二元配置分散分析 ● 帰無仮説と対立仮説 – 2 つの主効果と 1 つの交互作用効果を検定 – 帰無仮説と対立仮説のペアも 3 つになる ● 検定統計量 – 3 ペアそれぞれで F を利用 23
  • R で二元配置分散分析 ● 二元配置分散分析(対応なし) – summary(aov(y~a*b)) ● 二元配置分散分析( 2 要因とも対応あり) – summary(aov(y~a+Error(t+t:a+t:b+t:a:b))) ● 二元配置分散分析( 1 要因のみ対応あり) – summary(aov(y~a*b+Error(t:a+t:a:b))) ● 交互作用効果を確認するための平均値プロット – interaction.plot(a, b, y) 24
  • 例(対応なし) ● p.183 例題 3 種類の銘柄のミネラルウォーターのおいしさについて、 2 種 類の温度のもとで、それぞれの条件に 5 人ずつ割当て、計 30 人に評定してもらった。このデータから銘柄の違いや温度の違 いによって、おいしさの評定の母平均は異なると言えるか。 A① 冷蔵庫 A② 常温 B① イカアン B② ボスビッグB③ ビビッテル B① イカアン B② ボスビッグ B③ ビビッテル 6 10 11 5 7 12 4 8 12 4 6 8 5 10 12 2 5 5 3 8 10 2 4 6 2 9 10 2 3 4 25
  • 例 温度を fa 、銘柄を fb とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果はない 26
  • 例( 2 要因とも対応あり) ● p.192 例題 5 人の評定者が温度と銘柄を組み合わせた 6 つの条件全てでお いしさの評定を行った。 このデータから銘柄の違いや温度の違いによっておいしさの評 定の母平均は異なると言えるか A① 冷蔵庫 A② 常温 B① B② B③ B① B② B③ A 6 10 11 5 7 12 B 4 8 12 4 6 8 C 5 10 12 2 5 5 D 3 8 10 2 4 6 E 2 9 10 2 3 4 27
  • 例 温度を fa 、銘柄を fb 、人を id ( 1 〜 5 )とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある 28
  • 例( 1 要因のみ対応あり) ● p.195 例題 各評定者に 6 つの条件の水を全て飲んでもらうのではなく、冷 蔵か常温のどちらかの温度条件に割り当てた上で、その温度の ものだけ 3 種類飲んで評定してもらった。銘柄の違いや温度の 違いによっておいしさの評定の母平均は異なると言えるか。 A① A② B① B② B③ B① B② B③ A 6 10 11 F 5 7 12 B 4 8 12 G 4 6 8 C 5 10 12 H 2 5 5 D 3 8 10 I 2 4 6 E 2 9 10 J 2 3 4 29
  • 例 温度を fa 、銘柄を fb 、人を id ( 1 〜 10 )とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある 30
  • まとめ ● 3 つ以上の平均値差の検定には、分散分析 ● 分散分析とは、データの変動を各要因とそれら の交互作用による変動、誤差変動に分解して、 各要因、交互作用に有意な効果があるかを検定 する手法 ● 有意差がある場合は多重比較を行い、どの要因 間で差があるかを調べる 31
  • ご清聴ありがとうございました。 32
  • 参考文献 ● Rによるやさしい統計学 ● 確率統計キャンパスゼミ ● Rプログラミングマニュアル ● マンガでわかる統計学 18