Dbda chapter15

DBDA
Chapter
15:

Metric
Predicted
Variable

on
a
Single
Group
オーマ株式会社

Agchbayar
Amarsanaa　(アマル)

導入
次のシチュエーションを考える

•  ある大学の1年生の中から無作法にサンプルを選んで血圧を計ってみた。

–  連邦政府関係機関が発表している、該当する年齢の正常値と比べて違いが
あるか？

•  （自称）ベジタリアンの中から無作法にサンプルを選んでIQを調べてみる

–  全国平均100と比べて違いがあるか？

•  一つのグループの中から観測される変数の値を予測

•  一般化線形モデルの最も基本的なケースを紹介（Ch.14
p.384）

–  （正規分布に従う）あるグループの平均を予測する

–  伝統的な統計学の「t検定」に該当する内容

詩
It’s
normal
to
want
to
ﬁt
in
with
your
friends

Behave
by
their
means
and
believe
all
their
ends.

But
I’ll
be
high
tailing
it,
fast
and
askew,

Precisely
‘cause
I
can’t
abide
what
you
do.

参考：The
end
jus*ﬁes
the
means.目的は手段を正当化する；

友達の輪にとけ込もうとするのは普通のことだ

同じ志しを持っていると信じ、同じように振る舞うだろう

しかし私は（あなたを）軽蔑し、足早に逃去るだろう

だって、はっきり言ってあなたがすることが我慢できないのだ

15.1
EsRmaRng
the
Mean
and
Precision
of
a
Normal
Likelihood
p y µ,σ( )=
1
Z
exp −
1
2
y −µ( )
2
σ 2
"
#
$
$
%
&
'
'
•  正規尤度関数

•  　　　　　　　　　　　　の場合、

•  Dが与えられたときペイズの定理より、各パラメータを次のように推測

•  適当な事前確率　　　　　　の基で(15.2)を評価してみる

（15.1）
where Z =σ 2π
!
"
#
$
%
&
D = y1, y2, y3{ }
p yi µ,σ( )i
∏ = p D µ,σ( )
p µ,σ D( )=
p D µ,σ( )p µ,σ( )
dµ dσ p D µ,σ( )p µ,σ( )∫∫
（15.2）
p µ,σ( )

15.1.1
SoluRon
by
MathemaRcal
Analysis
•  前提条件

–  尤度関数の標準偏差σが固定されている（σ=Sy）

•  σの事前分布はスパイク

•  もし事前確率　　　　　　が正規分布に従う場合、事後確率も正規分布である

–  Conjugateな事前確率

•  μ〜N(Mμ,Sμ)とすると、

（15.2）
p µ( )

15.1.1
SoluRon
by
MathemaRcal
Analysis
（15.3）

15.1.1
SoluRon
by
MathemaRcal
Analysis
（15.4）
つまり、σ＝Sy、μ〜N(Mμ,Sμ)の場合、

である。

精度　　　　　で表すと、

(事後の精度=事前精度＋尤度精度)

p y µ,Sy( )p µ( )∝ N
Sy
2
Mµ + Sµ
2
y
Sy
2
+ Sµ
2
,
Sy
2
Sµ
2
Sy
2
+ Sµ
2
"
#
$
$
%
&
'
'
1/σ 2
Sy
2
+ Sµ
2
Sy
2
Sµ
2
=
1
Sµ
2
+
1
Sy
2

15.1.1
SoluRon
by
MathemaRcal
Analysis
平均も精度で表すと、

　　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　（事前精度が良い場合、事後平均が事前平均に近くなる）　

　　　　　　（尤度精度が良い場合、事後平均が誘導平均に近くなる）

15.1.1
SoluRon
by
MathemaRcal
Analysis
•  Nサンプルの場合、

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　を使えば、

　　事後平均＝

　　事後精度＝

　　（サンプルサイズが多くなれば、事後平均がデータの平均に引っ張られる）

•  正規分布を平均と精度で表すと都合が良い場合があるN（μ、τ）

y1,...,N ~ N(µ,σ ) ⇒ y ~ N(µ,σ / N )

15.1.1
SoluRon
by
MathemaRcal
Analysis
•  尤度関数の平均μが固定されている場合

•  もし事前確率p(τ)がガンマ分布に従う場合、事後確率もガンマ分布である

–  Conjugateな事前確率

–  （e.g.,
Gelman
et
al.,
2004,
p50）

–  ガンマ分布の形が直感的にあっているよね

•  μ、σのどちらも固定しない場合もConjugateな事前確率を特定することが可能。

–  （e.g.,
Gelman
et
al.,
2004,
p78-‐83）

15.1.2
ApproximaRon
by
MCMC
in
BUGS
•  データyiは,尤度関数N（μ、τ）によっ
て生成されている

–  平均μ〜N(M,T)

–  精度τ〜Γ（S,R）

•  μ、τが独立であるという前提条件の
基で、2次元空間から2パラメータを
推測する。

各矢印がBUGS
コードの使用と
対応している

15.1.2
ApproximaRon
by
MCMC
in
BUGS
•  モデルを理解したり、デバッグしたりするにはあらかじめ決めたパラメータを使って
架空のデータを生成してみるのが役に立つ

–  事後分布を使ってパラメータを推測してみてその良さを確認する（SecRon
15.4.1）

15.1.3
Outliers
and
Robust
EsRmaRon:
The
t
DistribuRon
•  異常値の扱い

–  データに異常値が含まれている場合、その原因となる外部要因が分かっていれば修正できる

–  しかしほとんどの場合、外部要因によるものなのか、異常値ではないのかの判断はつかない

–  何かの基準で異常値をデータから削除せず使う場合、正規分布より異常値の影響を受けにくい
尤度関数を使う

•  t分布は、異常値が含まれるデータのモデルとして使える

–  （Damgaard,
2007,
Meyer
&
Yu,
2000,
Tsionas
2002）

15.1.3
Outliers
and
Robust
EsRmaRon:
The
t
DistribuRon
•  Maximum
Likelihood
esRmates

–  p(D|μ、τ）を最大化する正規分布、p(D|μ、τ、df）を最大化するt分布

65歳以上の177人を対象に、
体内の無機リン化合物の量を
量ったデータ。（単位：1mg/
10l）。数個のデータを意図的
に変更している。

15.1.4
When
the
Data
Are
Non-‐normal:
TransformaRons

例）

•  光のない洞窟に住む、超音波を発生する新しい種の虫が発見された

•  ある理論によると、発生する音の周波数の平均は22,000Hz

•  ある昆虫学者は200個の周波数を測定した

•  この理論は正しいと言えるか？

•  やり方1：

–  周波数測定データをそのまま使った

–  結果は、「支持されない」

•  やり方2：

–  ピッチ（知覚される音の高さ）を使った

•  ログをとる

–  結果は、「支持された」

15.1.4
When
the
Data
Are
Non-‐normal:
TransformaRons

答えは「支持される」が正しい。つまりやり方2が正しい。

•  正規尤度モデルの場合、データが正規分布に従うと仮定している

–  正規分布の場合だけ、μ、τパラメータが意味を持つ

–  データは少なくとも「大体」正規分布に従っている必要がある

正規分布以外のデータをどう解析するか？

•  やり方1：データを正規化する

–  条件1：全てのデータを同じやり方で変換すること

–  条件2：単調変換（monotonic
tranformaRon）であること。つまり尺度を変える

•  地震エネルギー　対　マグニチュード

•  摂氏　対華氏

•  フィート　対　メートル

–  変換後の事前分布も適切なものにしなければならない（ex15.2,
15.3）

•  やり方2：正規分布の代わりに、適切な尤度関数を使う

–  適切なデータ変換が見つからない、変換後の尺度が扱いにくい、データ生成に正規分布以外の
分布が仮定されている場合など

–  正規分布以外の分布に関する知識が必要

15.1.4
When
the
Data
Are
Non-‐normal:
TransformaRons

異常値の変換は大丈夫？

•  一つのグループからのデータセットの場合原則OK。

–  異常値（テールの部分）を圧縮し正常な範囲内に収めるが、変換後の事前分布を考慮しながら同
時にやるのが一般的に難しい

–  変換は一般的に大量の偏りを直すためであり、異常値を直すために使われない。

15.2
Repeated
Measures
and
Individual
Diﬀerences
実世界で応用する場合、同じサンプルを繰り返し計測する場合がある。例、

•  ある会社の従業員の血圧の平均を調べたい

–  全従業員の血圧を日にちと時間をランダムに繰り返し測定する

このような場合、次の仮定を置く

•  サンプル（個人）がグループ全体からランダムに抽出される

•  同じサンプル（個人）の測定結果はお互いに独立である

–  注意深く設計する必要がある

–  測定間隔が近すぎる（数分、数秒）と相関の高い計測結果になってしまう

–  測定間隔が遠すぎると、根本的な傾向が変わってしまう（体脂肪率が増えたとか）

–  決まったやり方がない

15.2
Repeated
Measures
and
Individual
Diﬀerences
•  航空機Boeing720
12体の空調システムの故障間の間隔（Proschan,
1963）

–  同じ機体の空調システムの故障はお互いに独立だと仮定する

•  故障時に、問題の部品が取り替えられるから

–  日にちのルート5で正規化

•  全体と個別の尤度関数が大体正規分布になるように設定する必要がある

15.2.1
Hierarchical
Model
仮定

•  J番目の機体のデータは、N(μj,τj)に従う

•  μjはN(μG,
τG)に従う。←グループレベルの分布

すると、

•  μjはグループレベルの分布に従うと、τjもグループレベルの分布に従う

–  繰り返し測定するときの測定値の動き具合は、所属しているグループによるからである

•  従って、τjはグループレペルガンマ分布Γ(sG,rG)

15.2.1
Hierarchical
Model
①　μjはグループレベルパラメータのμG,τGに依存する

②　τjはグループレベルパラメータのsG,rGに依存する

③　グループレベルパラメータはより高レベルの分布に従っ　

　　　ている。

④　利便性の為に、（形状、尺度）→（平均、標準偏差）に直
す

•  最初、グループレベルの事前確率の定数は具体的に
与えられる必要がある。その分野や手元にあるデータ
によって適切に決められる必要がある。

•  例えば、空調システムの故障なしで作動する機関はお
よそ100で１〜10000日の間に収まる場合μGはmsや無
限大の値を取らないようにする。（正規化したことも忘れ
ずに）

•  パラメータ推測時に、そもそもの仮定を崩さないように。
各機体からのデータは正規分布に従っていること（ユニ
モーダルで対称性のある）。μjが正規分布に従っている
こと。τjがガンマ分布に従っていること。

　　　

①
②
③
④
•  顕著な異常値があった場合、t分布を使った方がい
いかもしれない

•  個別の機体のデータで現れる異常値と、平均の分
布で現れる異常値が考えられる。

•  μjとμGの分布をt分布に変える

15.2.2
ImplementaRon
in
BUGS
•  データ配列Ndataの各値は、測定値と機体番号
のセットになっている

•  「機体jのi番目のデータ」という意味ではない！

•  事後平均：61.6日

•  Means
of
Each
Aircrauを最も説明できるのは、平
均2.28、標準偏差0.33の正規分布

•  Precisions
of
Each
Aircrauを最も説明できるのは、
平均3.83、標準偏差1.25のガンマ分布

（SecRon
15.4.2）

15.3
Summary
•  正規尤度関数の精度が固定された場合、事後確率分布の平均と精度が計算が
シンプルに。←このため標準偏差の代わりに精度を使う

•  「正規尤度関数の平均が正規分布に従う、精度がガンマ分布に従う」とするのが
conjugate事前関数が使えるから一般的である。しかし、必ずこれを使う必要性は
なく、BUGSを使えば任意の事前関数プログラムが簡単にかける（効率に違いがあ
る）

•  繰り返し測定の場合、個々の分布と、個々の平均の分布に正規分布が使える。
BUGSでの階層モデルのプログラミングも簡単

•  正規尤度関数を使う場合、データが正規分布に従っていることをチェックする必要
がある（少なくともユニモーダルで対称性のあることをチェックする）。激しくnon-‐
normalな場合正規かするか、non-‐normal尤度関数を使う。

•  データに顕著な異常値が含まれている場合、正規尤度関数の代わりにt分布を
使った方が良い場合がある。(BUGSを使った応用例は後の章に出る)

15.4
R
Code
15.4.1
EsRmaRng
the
Mean
and
Precision
of
a
Normal
Likelihood

•  正規尤度関数の平均・精度の推測

15.4.2
Repeated
Measures:
Normal
Across
and
Normal
Within

•  階層モデルの実装（航空機の空調システム）

Dbda chapter15

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (9)

Similar to Dbda chapter15

Similar to Dbda chapter15 (20)

Dbda chapter15