NagoyaStat #4
ご挨拶と前回の復習
@ito_yan
E-mail: 1mail2itoh3 [at] gmail.com
2017.02.03
NagoyaStat #4
今回の内容
• ご挨拶と前回の復習
• 重要なところを思い出しましょう
• 参加者による自己紹介・近況報告
• 「データ解析のための統計モデリング入門」発表
• 第7章 Yukix2200 様
• 第8章 t_yamagu 様
2
主催者について
• TwitterID: @ito_yan
• ITインフラ屋さん
• 仮想サーバ(構築、運用)
• Javaアプリケーション開発
• 後輩の指導やユーザサポートなど面倒を見る業務
• 小規模ネットワーク構築(入門中)
• CiscoやHPの機器と戯れてます
3
勉強会で取り上げる書籍について
• 「データ解析のための統計モデリング入門」
• 通称:緑本
• 農学系のデータを扱っているが、農学系以外の
分野でも適用可能な内容となっている
4
第5章の概要
• 尤度比検定
• 2つのネストしたモデルの逸脱度の差をみて、モデ
ルがデータによく適合しているかを統計の検定の
手法に基づいて判断する
• ネイマン・ピアソン検定の枠組みを利用
• 帰無仮説と対立仮説を用意する
• 第3章のポアソン回帰を例にとって検定を行う
5
第5章の問題設定
• 検定したい内容
• 帰無仮説:一定モデル
• 対立仮説:xモデル(体サイズを考慮)
• 逸脱度の差は4.5となっている
• 帰無仮説が真のとき、偶然と言えないほどの差か?
• ネストしたモデルの比較では、パラメータが多くなる
ほど逸脱度は小さくなる
6
「xモデルの方が一定モデルよ
り、データによく当てはまると
主張したい」ための検定
二種類の過誤
• 第一種の過誤
• 帰無仮説が正しいのに棄却する
• 逸脱度の差が大きいのだから、xモデルが正しい、帰無仮
説は正しくない と誤る
• 第二種の過誤
• 対立仮説が正しいのに、帰無仮説を棄却しない
• 逸脱度の差は小さく、xモデルは意味もなく複雑、帰無仮
説を棄却する必要はない と誤る
7
帰無仮説は 逸脱度はめったにない差 逸脱度はよくある差
真のモデルである 第一種の過誤 正しい
真のモデルでない 正しい 第二種の過誤
二種類の過誤の関係
• 一般的にトレードオフの関係にある
• 手元のデータだけで、二種類の過誤を同時に減ら
すのは無理
• 帰無仮説を棄却する基準を下げると(有意水準を
上げていくと)、棄却すべきでないものまで棄却して
しまう。逆に、帰無仮説を棄却する基準を上げると、
棄却すべき結果を棄却しないことにつながる。
• 有意水準5%というよく見かける表現は、第一種
の過誤を5%に抑えるための方法である
• 過誤の重大さによって、5%という数値は変わる
8
p値
• 帰無仮説の下で、観測された現象以上に極端な
ことが起こる確率をp値と呼ぶ
• 今回の例では、逸脱度の差が4.5以上になる確率
• p値が有意水準より小さければ、帰無仮説の設定
が間違っていたと考えて、対立仮説を採択する
• 逆に帰無仮説を棄却できないとき、積極的に「帰無
仮説の採択」とは言わない
• 第一種の誤りは有意水準5%でコントロールされているが、
第二種の誤りはコントロールされていないため
• 積極的に言えるようにするには、事前にサンプルサイズを
増やすなど計画しておく必要がある
9
パラメトリックブートストラップ(PB)法
• 帰無仮説が正しいとして、乱数を用いて大量に
データを発生させ、検定統計量の分布を作る
• 大量のデータ = 平均7.83のポアソン分布から生成
• 平均7.83は種子数の最尤推定値(第3章で導出済)
• 検定統計量 = 2モデル間の逸脱度の差
• 検定統計量でヒストグラムを作ると、逸脱度が4.5
以上の差になるのは5%にも満たず、p値は0.05
を下回るため、帰無仮説は棄却し、対立仮説が
採択される
• 乱数次第で結果が変わることもある
10
PB法のコードとその結果
• 逸脱度の差の分布は右図
• p値は0.03となり、帰無仮説は棄却される
11
検定統計量の近似計算
• サンプルサイズが大きい場合、逸脱度の差の分
布はカイ二乗分布で近似できる
• 例題(サンプルサイズ=100)ではPB法を推奨
12
第6章の概要
• GLMは確率分布、リンク関数を組み合わせること
で、さまざまなタイプのデータを表現できる
• 第6章では、上限のあるカウントデータの表現方
法として、ロジスティック回帰が登場した
• 参考:ポアソン回帰は確率分布がポアソン分布、リ
ンク関数は対数をとったものだった
• ポアソン回帰は上限がなく、平均と分散がほぼ同じ
データに対するモデルに対して有効だった
13
第6章の問題設定
• 観測対象の100個体の植物群からN個の種子を
取得し、y個が発芽し、N-y個が死滅した
• 発芽するものは0~N個と整数で、かつ上限がある
• 今回はN=8で固定としている
• 植物の大きさと施肥処理で、発芽率が変化する様子
をモデル化してみよう
• 植物の発芽と死滅は二項分布で表現できる
• qは発芽確率、yが実際に発芽した数
14
まずはデータを観察してみる
• 施肥した植物の方が種子の発芽率が高そう
15
C:統制群(Controll)
施肥されていないグループ
T:実験群(Treatment)
施肥されたグループ
ロジスティック関数
• 上限が1であり、割合を表現することに使える
16
ロジット関数
• ロジスティック関数をzについて解いたものをロ
ジット関数と呼ぶ
• ロジット関数は生存確率(q)と線形予測子(z)をう
まく結びつける関数である
• (パラメータの関数)=(線形予測子)の形ができた
17
をオッズという
尤度関数表示
• 尤度関数を最大化するようにパラメータを決めれ
ばよく、その計算はGLM関数で行うことができる
• 対数尤度関数
18
Rによるロジスティック回帰の結果
• 最尤推定の結果は
となり、
体が大きくなるか、施肥をすると発芽率が高まる
19
stepAIC関数
• 変数を増減させて、ネストしたモデルの間で、予
測がもっともよいモデルを選択できる
• AICが最小となるのは x + f モデル
20
x + f モデル、x モデル、f モデル の順
-fはfを考慮しないxモデルの意味
交互作用
• 複数要因の積で表される効果
• 交互作用の項はむやみに入れない方がよい
• 解釈が難しくなる
21
次回日程について
• 2016年3月末~4月上旬近辺を予定しています
• 9章発表予定者: tmkz.it 様
• 10章発表予定者: nishioka0902 様
• その次が11章のみになる
• 次回までに60~90分程度の企画を考える
• 次の書籍に入る、問題演習などの案があります
22

NagoyaStat #4 ご挨拶と前回の復習