Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

NagoyaStat #4 ご挨拶と前回の復習

451 views

Published on

尤度比検定、二種類の過誤、p値、パラメトリックブートストラップ法、ロジスティック回帰などについて20分程度で復習しました。

Published in: Science
  • Be the first to comment

  • Be the first to like this

NagoyaStat #4 ご挨拶と前回の復習

  1. 1. NagoyaStat #4 ご挨拶と前回の復習 @ito_yan E-mail: 1mail2itoh3 [at] gmail.com 2017.02.03 NagoyaStat #4
  2. 2. 今回の内容 • ご挨拶と前回の復習 • 重要なところを思い出しましょう • 参加者による自己紹介・近況報告 • 「データ解析のための統計モデリング入門」発表 • 第7章 Yukix2200 様 • 第8章 t_yamagu 様 2
  3. 3. 主催者について • TwitterID: @ito_yan • ITインフラ屋さん • 仮想サーバ(構築、運用) • Javaアプリケーション開発 • 後輩の指導やユーザサポートなど面倒を見る業務 • 小規模ネットワーク構築(入門中) • CiscoやHPの機器と戯れてます 3
  4. 4. 勉強会で取り上げる書籍について • 「データ解析のための統計モデリング入門」 • 通称:緑本 • 農学系のデータを扱っているが、農学系以外の 分野でも適用可能な内容となっている 4
  5. 5. 第5章の概要 • 尤度比検定 • 2つのネストしたモデルの逸脱度の差をみて、モデ ルがデータによく適合しているかを統計の検定の 手法に基づいて判断する • ネイマン・ピアソン検定の枠組みを利用 • 帰無仮説と対立仮説を用意する • 第3章のポアソン回帰を例にとって検定を行う 5
  6. 6. 第5章の問題設定 • 検定したい内容 • 帰無仮説:一定モデル • 対立仮説:xモデル(体サイズを考慮) • 逸脱度の差は4.5となっている • 帰無仮説が真のとき、偶然と言えないほどの差か? • ネストしたモデルの比較では、パラメータが多くなる ほど逸脱度は小さくなる 6 「xモデルの方が一定モデルよ り、データによく当てはまると 主張したい」ための検定
  7. 7. 二種類の過誤 • 第一種の過誤 • 帰無仮説が正しいのに棄却する • 逸脱度の差が大きいのだから、xモデルが正しい、帰無仮 説は正しくない と誤る • 第二種の過誤 • 対立仮説が正しいのに、帰無仮説を棄却しない • 逸脱度の差は小さく、xモデルは意味もなく複雑、帰無仮 説を棄却する必要はない と誤る 7 帰無仮説は 逸脱度はめったにない差 逸脱度はよくある差 真のモデルである 第一種の過誤 正しい 真のモデルでない 正しい 第二種の過誤
  8. 8. 二種類の過誤の関係 • 一般的にトレードオフの関係にある • 手元のデータだけで、二種類の過誤を同時に減ら すのは無理 • 帰無仮説を棄却する基準を下げると(有意水準を 上げていくと)、棄却すべきでないものまで棄却して しまう。逆に、帰無仮説を棄却する基準を上げると、 棄却すべき結果を棄却しないことにつながる。 • 有意水準5%というよく見かける表現は、第一種 の過誤を5%に抑えるための方法である • 過誤の重大さによって、5%という数値は変わる 8
  9. 9. p値 • 帰無仮説の下で、観測された現象以上に極端な ことが起こる確率をp値と呼ぶ • 今回の例では、逸脱度の差が4.5以上になる確率 • p値が有意水準より小さければ、帰無仮説の設定 が間違っていたと考えて、対立仮説を採択する • 逆に帰無仮説を棄却できないとき、積極的に「帰無 仮説の採択」とは言わない • 第一種の誤りは有意水準5%でコントロールされているが、 第二種の誤りはコントロールされていないため • 積極的に言えるようにするには、事前にサンプルサイズを 増やすなど計画しておく必要がある 9
  10. 10. パラメトリックブートストラップ(PB)法 • 帰無仮説が正しいとして、乱数を用いて大量に データを発生させ、検定統計量の分布を作る • 大量のデータ = 平均7.83のポアソン分布から生成 • 平均7.83は種子数の最尤推定値(第3章で導出済) • 検定統計量 = 2モデル間の逸脱度の差 • 検定統計量でヒストグラムを作ると、逸脱度が4.5 以上の差になるのは5%にも満たず、p値は0.05 を下回るため、帰無仮説は棄却し、対立仮説が 採択される • 乱数次第で結果が変わることもある 10
  11. 11. PB法のコードとその結果 • 逸脱度の差の分布は右図 • p値は0.03となり、帰無仮説は棄却される 11
  12. 12. 検定統計量の近似計算 • サンプルサイズが大きい場合、逸脱度の差の分 布はカイ二乗分布で近似できる • 例題(サンプルサイズ=100)ではPB法を推奨 12
  13. 13. 第6章の概要 • GLMは確率分布、リンク関数を組み合わせること で、さまざまなタイプのデータを表現できる • 第6章では、上限のあるカウントデータの表現方 法として、ロジスティック回帰が登場した • 参考:ポアソン回帰は確率分布がポアソン分布、リ ンク関数は対数をとったものだった • ポアソン回帰は上限がなく、平均と分散がほぼ同じ データに対するモデルに対して有効だった 13
  14. 14. 第6章の問題設定 • 観測対象の100個体の植物群からN個の種子を 取得し、y個が発芽し、N-y個が死滅した • 発芽するものは0~N個と整数で、かつ上限がある • 今回はN=8で固定としている • 植物の大きさと施肥処理で、発芽率が変化する様子 をモデル化してみよう • 植物の発芽と死滅は二項分布で表現できる • qは発芽確率、yが実際に発芽した数 14
  15. 15. まずはデータを観察してみる • 施肥した植物の方が種子の発芽率が高そう 15 C:統制群(Controll) 施肥されていないグループ T:実験群(Treatment) 施肥されたグループ
  16. 16. ロジスティック関数 • 上限が1であり、割合を表現することに使える 16
  17. 17. ロジット関数 • ロジスティック関数をzについて解いたものをロ ジット関数と呼ぶ • ロジット関数は生存確率(q)と線形予測子(z)をう まく結びつける関数である • (パラメータの関数)=(線形予測子)の形ができた 17 をオッズという
  18. 18. 尤度関数表示 • 尤度関数を最大化するようにパラメータを決めれ ばよく、その計算はGLM関数で行うことができる • 対数尤度関数 18
  19. 19. Rによるロジスティック回帰の結果 • 最尤推定の結果は となり、 体が大きくなるか、施肥をすると発芽率が高まる 19
  20. 20. stepAIC関数 • 変数を増減させて、ネストしたモデルの間で、予 測がもっともよいモデルを選択できる • AICが最小となるのは x + f モデル 20 x + f モデル、x モデル、f モデル の順 -fはfを考慮しないxモデルの意味
  21. 21. 交互作用 • 複数要因の積で表される効果 • 交互作用の項はむやみに入れない方がよい • 解釈が難しくなる 21
  22. 22. 次回日程について • 2016年3月末~4月上旬近辺を予定しています • 9章発表予定者: tmkz.it 様 • 10章発表予定者: nishioka0902 様 • その次が11章のみになる • 次回までに60~90分程度の企画を考える • 次の書籍に入る、問題演習などの案があります 22

×