最⼩⼆乗法と線形回帰
1
授業振替
(休講⽇)7⽉19⽇(⽕) 2限 (11:10-12:40)
(振替⽇)7⽉12⽇(⽕)5限 (16:40-18:10)
http://www.slideshare.net/ShinjiNakaoka
授業レクチャーノート
授業1つ前に事前公開予定、授業後、追加スライド挿⼊、誤植など
訂正分を再アップロード
さまざまな分布
2
正規分布(normal / Gauss)
確率変数 X の確率密度分布関数が
で表されるとき、X は正規分布に従うという。
確率変数 X の平均・分散 (分布は省略)
左図は μ=1, σ=1 の確率密度関数
例) 多数 (視聴率など)、中⼼極限定理の収束分布
参考:確率モデル⼊⾨ 尾崎俊治著 朝倉書店 P.28-33
⼀般化線形モデル
(Generalized Linear Model)
3
これまではカウントデータを扱ってきたので離散分布に対する最尤推定法、⼀
般化線形モデルを紹介したが、ノイズなど連続変量は連続分布で表現。
正規分布とその尤度
対数尤度関数は以下の通り
分散と平均が独⽴と仮定すると、 μ の最尤推定量第⼆項のみで決まる。
ノイズを例とする。平均と分散が独⽴ということは、正規分布に従うノイズ
のばらつき(分散)が⼤きさ(平均)と無関係、つまり加法ノイズを扱っているこ
とになる。ノイズのばらつきが⼤きさに影響する乗法ノイズはこの枠組では
使えない。
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 134-137
⼀般化線形モデル
(Generalized Linear Model)
4
正規分布に対する線形予測⼦とリンク関数 (続き)
反応変数を x と応答変数 z は線形の関係を仮定する (線形予測⼦)
リンク関数は恒等関数とする:
対数尤度関数は以下の通り
直線の最⼩⼆乗法がデータと直線の距離を最⼩にする
⼿法であったことから、正規分布による最尤推定法は、
平均と分散が独⽴の場合には最⼩⼆乗法と同値である
ことがわかる。
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 134-137
ロジスティック回帰
5
例:テレビの普及率 (年代 vs 普及台数)
や薬物応答 (薬物量と反応細胞数)
ロジスティック回帰
6
⼆項分布:ある・なしカウントデータ
今回、⽣存して発芽能⼒があるかどうかという問題設定を考える。また、種⼦
数に上限を設ける。N 個中 y 個⽣存する確率は、各々の固体の⽣存確率によっ
て変わってくる。また、どれだけの個数⽣存できるかは y に依存するはずであ
る。このような「ある(⽣存)・なし(死亡}」のカウントデータは、⼆項分布に
よって表現できそうである。
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 113-127
ロジスティック回帰
7
⼆項分布に対する線形予測⼦とリンク関数
反応変数を x とし、応答変数を z とする。⼿始めとして、体サイズを反応変数
とした場合、図から体サイズが⼤きいと⽣存種⼦数が⾼いように思われる。⽣
存種⼦数には上限 (最⼤で8) があるため、z を x の関数で表す場合には上限と
下限(全滅)が必要。⼀⽅、x の⽅には特に上限は設けないとする。
ロジスティック関数によって、実数範囲を
動く変数によって上限と下限を記述可能。
リンク関数は
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 113-127
ロジスティック回帰
8
⼆項分布に対する線形予測⼦とリンク関数 (続き)
反応変数を x と応答変数 z は線形の関係を仮定する (線形予測⼦)
リンク関数と合わせることにより、
⽣存確率を表すパラメーター q と 𝛽1, 𝛽2 の関係は、ロジスティック関数の逆
関数であるロジット⽅程式
を⽤いて以下のように表される (⾃然と対数リンク関数となっている)。
ログ内はオッズ⽐と呼ばれ、対象事象
(発症/未発症等)のリスクを量的に⾒積も
る上でよく⽤いられている。
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 113-127
最尤推定法 (⼆項分布)
9
尤度および対数尤度関数は以下のようにかける (N=8):
パラメーター 𝛽1, 𝛽2 に関する⾮線形関数なので、最尤推定量は最適化問
題を数値計算で解くことにより求める。堆肥の有無の影響も含めたモデリ
ングを⾏う。R 内では以下のコマンドで実⾏できる。
fit	<- glm(cbind(y,N-y)~x+f,	 data=d,	family=binomial)
交互作⽤や密度などを表現する上で取るオフセット(割り算回避)について
も同様にモデリングに組み込んでパラメーターの推定が可能。ここでは
割愛。
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 113-127
予測結果
10
Predict(fit)
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 113-127
遺伝⼦発現量の例
11
ある遺伝⼦の mRNA のコピー数を3つの遺伝的に同⼀なマウスから計測。平均
値が分散と等しければ、コピー数はカウントデータなので Poisson 分布でモデ
ル化できる。ところが、⼀般に分散 > 平均となっている傾向 (過分散) がみら
れる。遺伝⼦発現の解析を⾏う多くの⼿法では、mRNA のコピー数が負の⼆項
分布に従うと仮定されている。なぜ負の⼆項分布が採⽤されているのか。⼀般
化線形混合モデルを考える前に、過分散と観測されない個体差に起因する影響
について考える。
とあるサンプル群のアクチン 𝛽 (actb) : ハウスキーピング遺伝⼦として発現が
安定しているため、qPCR による遺伝⼦発現の相対定量を⾏う上で基準として
⽤いられる。
actb <-
c(682.432,802.551,674.206,735.527,734.218,834.782,613.917,735.097,8
00.645,782.104,790.357,784.615)
Ø mean(actb)	=	747.5376
Ø var(actb)	=	4164.426
平均よりも分散の⽅が⼤きくなっている。過分散の影響
は⼀般にはよくわからないが、データから対処は可能。
その⽅法について考察
負の⼆項分布
12
負の⼆項分布 (negative binomial)
成功確率を p とした場合のベルヌーイ試⾏において、初めて r 回成功
するまでの失敗回数を X とすれば、X は負の⼆項分布にしたがう。
恒等式
を⽤いると、確率関数は
成功確率 p =0.2 、3 回成功するまでの失敗回数
を 10000	万回シミュレーション (左図)
参考:確率モデル⼊⾨ 尾崎俊治著 朝倉書店 P.23-27
⼀般化線形混合モデル
(Generalized Linear Mixed Model)
13
⼀般化線形モデルのおさらい (線形予測⼦とリンク関数)
反応変数を x と応答変数 z :線形関係を仮定 (線形予測⼦)
確率分布とリンク関数の選び⽅の組み合わせで様々なケース (指数分布族)の統計
モデリングが可能であった (ロジット関数や対数リンク関数、恒等関数 etc)。
混合:固定効果とランダム効果
歴史的に、線形回帰では全体の平均を変えうるものを固定効果、平均は変化さ
せないが全体のバラつきを帰るものをランダム効果と呼んでいて、それらが混
ざった状況を考慮する際に混合モデルが⽤いられてきた。分布を⾜し合わせる
という過分散のアイディアを定式化するため、観測されていない個体差の影響
をランダムな効果として、⼀般化線形モデルに組み込む形で拡張を⾏う。
基本型にランダムな影響を表す確率変数を導⼊し、その確率変数にしたがって
各個体からのデータが取得できていると想定したモデリングを⾏う。個体に
よって異なるランダム効果の確率変数 ri の従う確率分布は、よくわからない
ので平均 0、分散 s の正規分布とし、影響を線形予測⼦にノイズとして組み込
むことにする。
過分散
14
過分散の極端な例 (2グループを想定することで説明できそうなケース)
混合分布のイメージ
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 148-161
全ての種⼦が⽣存する個体 (yi=8) と、全滅する個体 (yi=0) が共存するが
同数存在する場合、平均は 4 であるが分散が⾮常に⼤きくなってしまう。
過分散
15
もう少し⼀般的な状況
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 148-161
個体差のばらつきが⼩さい場合 個体差のばらつきが⼤きい場合
正規乱数 ri を発⽣
確率 1/(1+exp(-ri)
の⼆項乱数を発⽣
⼀般化線形混合モデル
16
⼀般化線形混合モデルの定式化
(対数)リンク関数と線形予測⼦
ランダム効果の従う確率分布 (平均 0 標準偏差 s の正規分布)
各個体ごとの尤度 (混合分布)
積分は、ランダム効果を表す正規分布を重みとした尤度の期待値を表しており、
どの程度ランダム効果が広いかはパラメーター s によって制御されている。
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 148-161
コラム
17
分布を混ぜるイメージ
⼀般化線形混合モデルに限らず、分布
を混ぜる作業はいたるところにみられ
る。機械学習における潜在 (latent)
モデル等は、潜在変数(確率変数)に
よってある分布が⽣成されていると仮
定している。ベイズ統計では、階層モ
デルと対応しており、複雑な構造のモ
デリングを柔軟に⾏えて、かつ
MCMC や EM アルゴリズムといった
⼿法で計算機を援⽤して解くことがで
きる。
アニメーションが公開されている: http://yagays.github.io/blog/2012/11/09/glm-mcmc-chp7-2/
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 148-161
過分散のデータ例
18
過分散によりロジスティック回帰がうまくいかないデータを扱う
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 148-161
最尤推定法
19
最尤推定法 (⼆項分布とロジスティック回帰)
ロジット関数、線形予測⼦とランダム効果の従う確率分布
尤度 (混合分布)
内部では数値積分法によって積分値を求め、最適化関数を数値的に解いている
模様
R での操作
glmmML(cbind(y,N-y),	data=d,	family=binomial,	cluster=id)
参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 148-161
予測
20参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 148-161
Memo
21

0712-2