事前分布との出会い

977 views

Published on

Published in: Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
977
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

事前分布との出会い

  1. 1. JMRX at Intage 2010 年 12 月 15 日 「事前分布との出会い」 朝野熙彦(首都大)(1)ロジスティック回帰分析 確率pのロジット(logit)をリンク関数にした一般線形モデルを①に示す。  p  log    c  xb ………………………………………①  1 p ①で xb はベクトルの内積  x, b  を示す。xは実数値をとる k 次のベクトルで、bはパラメータベクトル、cは定数である。①の左辺を対数オッズとかロジットと呼び、確率pをロジットに変換することをロジット変換と呼ぶ。この変換によって 0  p  1 の定義域を正から負まで無限の値が取れるように広げることができる。そのロジットが線形予測子である c  xb によって定まるというのが①の構造モデルの意味。①に従う分析をロジスティック回帰分析という。線形予測子をまとめてVと書き両辺の指数をとって変形すると②が導かれる。 p  exp V , p  exp V  p exp V , p 1  expV   expV 1 p ………② exp V 1 1 p   1  exp V 1  exp  V  1  exp  c  xb  成長曲線という解釈にこだわらず一般的な分析法として②の関数に着目したのが Berkson(1944)であった。説明変数を多変量に拡張したのが Truett とCornfie1d(1967)、最尤解を示したのが Wa1ker と Duncan(1967)である。(2)多変量正規分布の尤度比 デフォルト集団を g 1 、完済集団を g 0 とし、k 個の説明変数が平均ベクトル1 , 0 、分散共分散行列∑が等しい多変量正規分布に従うと仮定する。第g集団の正規分布の密度関数は g  1, 0 、円周率をπとして  1  exp    x   g   1  x   g  ……………③ 1 fg  x   2   2  k 1 2 2 2つの集団はパラメータ 1 , 0 だけが異なる。データxが与えられたもとで③は尤度でもあるので、完済 vs デフォルトの尤度比は④の通り。どちらを分子に 1
  2. 2. してもよいが後の数式展開の都合でこのように書いた。指数の部分が煩雑になるが根気よく展開すると④のようになる。 f0  x  1    exp   1  0  1  1  0   x 1  1  0    exp  ab  xb ……④ f1  x  2 ④右辺では a  1  1  0  、 b  1  1  0  と要約した。 x b はフィッシャーの線 2形判別関数 discriminant function と呼ばれるもので、 b は判別係数である。(3)ベイズの定理 デフォルトの事前確率を  とすれば、データxの人がデフォルト群に属する確率はベイズの定理から次のようになる。 f1  x   p  g1 x   1  f1  x    f 0  x 1    1   f0  x  1   f1  x  ……………………⑤ 1   1  1  exp log  ab  xb     ⑤が有名なフラミンガム研究で提唱された多重ロジスティック関数である。事前分布が無情報の場合は   0.5, log1  0 となるのでxに無関係な定数をab  c とおけば⑤は、 p  g1 x   1 ………………………………………⑥ 1  exp  c  xb結局、Truett らの多重ロジスティック関数はロジスティック回帰分析に事前分布を加えたものであることが分かる。(4)事前分布の組み込み ⑥における分母の c は2群の平均値に対応した判別スコアの重心を意味している。なぜなら④で a  1 2  1  0  としたからである。つまり2群の規模の違いを無視してその平均の判別スコアを定性的に表したものである。それに対して⑤の右辺分母の「負の対数オッズ」 1   log   log   は事前分布の効果を表している。   1  調査データの群構成比が市場全体と一致しない場合は多い。そのような場合は⑤を利用して線形判別関数からまず手計算で定数 c を求め、それにさらに負の対数オッズを加えることで、事前分布を加味した個人予測モデルができる。なお事前分布としては  が分かればよいので、過去の個票データは不要である。 2

×