NagoyaStat #5
ご挨拶と前回の復習
@ito_yan
E-mail: 1mail2itoh3 [at] gmail.com
2017.04.07
NagoyaStat #5
今回の内容
• ご挨拶と前回の復習
• 参加者による自己紹介
• 「データ解析のための統計モデリング入門」
• 第9章 tmkz.it 様
• 第10章 nishioka0902 様
2
主催者について
• TwitterID: @ito_yan
• ITインフラ屋さん
• 仮想サーバ(構築、運用)
• Javaアプリケーション開発
• 最近はドメイン移行に伴うメール移行とか
• 小規模ネットワーク構築
3
勉強会で取り上げる書籍について
• 「データ解析のための統計モデリング入門」
• 通称:緑本
• 農学系のデータを扱っているが、農学系以外の
分野でも適用可能なことを扱っている
4
第7章の復習
• 第3章や第6章でみた回帰は、現実のデータモデ
リングへの適用が難しい
• カウントデータのばらつきがポアソン分布や二項分
布「だけ」ではうまく説明できないことが多い
• 説明変数が同じなら平均も同じになるというGLMの
仮定は、生物データには当てはまらないのが普通
• 第7章では測定できない個体差(原因不明の差
異)を組み込んだGLMであるGLMMが登場した
5
問題設定
• 植物の各個体から8個の種子をとってきて、いくつ
生存しているかを調べる
• 生存種子数が葉数と共に増大するかを調べたい
• 葉数は2~6とし、各葉数で20個体を調査する
6
何となく葉数が増えると、
生存している種子数は増
えているように見えるが…
一般化線形混合モデル(GLMM)
• 通常のロジスティック回帰はうまくいかない
• 推定すると、真の傾きに近い結果が得られない
• そもそもデータは二項分布に従っていない
• X=4の箇所は特にその傾向が強い
• 観測できない個体差や場所差の影響を組み込ん
だ統計モデリングが必要となる
• 生物的な要因(遺伝子、経験の相違)
• 非生物的な要因(栄養・水・光など環境の違い)
• 原因不明の個体差や場所差の効果をGLMに組
み込んだ統計モデルをGLMMと呼んでいる
7
GLMMのモデル
• 3項目に原因不明の効果をいれておく
• 正規分布を選ぶ根拠はない
• そもそも個体差は観測不可なので分布も不明
• 統計モデリングに便利という程度で選ばれている
• 単純化のため、個体差は相互に独立とする
• 最初の2項は固定効果、最後の項はランダム効
果、それらを合わせると混合モデルと呼ばれる
8
sは集団内のばらつきを表す
GLMMの最尤推定
• 個体差をすべて推定するのは無理がある
• 各個体の尤度は次式で与えられる
• 個体差を標準偏差に置き換えるのがキモ
• 各個体の尤度は3つのパラメータで書ける
• 全体の尤度は で与えられ
るので、ここからパラメータを推定することになる
→RのGLMM関数を用いる
9
GLMMの実行コード
• 教科書のコードそのままでは動かないので注意
10
推定結果
• 赤は真値、青は推定値をもとに描いた曲線
11
GLMMが必要な状況とは?
• 擬似反復が含まれているかで決まる
• 1個体から複数データをとることで、個体差の推定
ができるため、モデルの中で個体差を組み込む必
要が出てくる
• 個体差を考えないと過分散のようなことになる
• 逆に1個体に1つしかデータが得られない場合、
個体差の推定はやりようがない
• この場合は個体差を考えないGLMで推定する
12
第8章
• 考慮しなければならない誤差の原因(ランダム効
果)が増える
• ランダム効果の発生源の数だけ多重積分が発生
するため、計算ができなくなるという問題が発生
• MCMC(マルコフ連鎖モンテカルロ法)により、パ
ラメータの分布を得る
• 点推定ではなく、分布の形で得る
13
第8章の例題
• 第6章6.2節の例題(上限のあるカウントデータ)と
同じように20個体の植物から種子8個を得て、そ
の生死を調べる
• 各植物は均質で、生存数は二項分布に従うとす
ると、ある個体iの種子数が である確率は
• 尤度は
あとはLの対数をとってをqで微分してやればよく、
最尤推定量は種子数の平均で与えられる
14
ふらふらした最尤推定
• では、(第7章の積分が複雑になる場合のように)
最尤推定で解析的にパラメータが求まらないケー
スはどう対応するか?
• qを離散化(qは0~1で0.01刻み)
• ある値からスタートし
• ランダムに隣接するqを選び
• 対数尤度が高ければそちらに移動する
• すると、例題においてはqの値の最尤推定値に向
かって移動していく
15
メトロポリス法
• ランダムに隣接するqを選んで尤度が小さくなる
場合でも、確率 でそちらの方
に移動させる
• ふらふらした最尤推定の拡張
• メトロポリス法は直前のステップのみで新しい状
態を作り出し(マルコフ連鎖)、また隣接するqの
選択にランダム性がある(モンテカルロ法)ので、
MCMCと呼ばれるアルゴリズムの一種である
16
定常分布
• メトロポリス法でqが変化すると、qの値で作るヒス
トグラムがある確率分布に近づいていき、その分
布は定常分布と呼ばれる
• 例題のqは初期値によらず定常分布に近づく
• 詳細釣り合いの条件を満たしているため
• qの値の最初に得られたサンプルは初期値に依存
したものなので、定常分布には含めない
• 良いMCMCアルゴリズムは1ステップ間でサンプ
ルされた値の相関が低いアルゴリズムである
• 直前の値を引きずらず、定常分布が早く作れる
17
最尤推定とベイズ統計の違い
• 最尤推定は頻度主義のやりかたであり、パラメー
タはある定数であるという考え方である
• ベイズ統計は推定したいパラメータを確率分布で
表現するため、定常分布(MCMC)との親和性が
高い
18
ベイズ統計モデル
• ベイズの定理を変形していく
• 事後分布は尤度と事前分布の積に比例
• パラメータは分布の形で推定されるので、最尤推
定法のように1つの値では決まらない
• 事前分布が定数なら単に尤度に比例する
19
分母はqに依存しない

NagoyaStat #5 ご挨拶と前回の復習