SlideShare a Scribd company logo
1 of 24
Download to read offline
DBDA	
  Chapter	
  15:	
  
Metric	
  Predicted	
  Variable	
  
on	
  a	
  Single	
  Group	
オーマ株式会社	
  
Agchbayar	
  Amarsanaa (アマル)
導入	
次のシチュエーションを考える	
  
•  ある大学の1年生の中から無作法にサンプルを選んで血圧を計ってみた。	
  
–  連邦政府関係機関が発表している、該当する年齢の正常値と比べて違いが
あるか?	
  
•  (自称)ベジタリアンの中から無作法にサンプルを選んでIQを調べてみる	
  
–  全国平均100と比べて違いがあるか?	
  
	
  
	
  
	
  
•  一つのグループの中から観測される変数の値を予測	
  
•  一般化線形モデルの最も基本的なケースを紹介(Ch.14	
  p.384)	
  
–  (正規分布に従う)あるグループの平均を予測する	
  
–  伝統的な統計学の「t検定」に該当する内容	
  
	
  
詩	
It’s	
  normal	
  to	
  want	
  to	
  fit	
  in	
  with	
  your	
  friends	
  
Behave	
  by	
  their	
  means	
  and	
  believe	
  all	
  their	
  ends.	
  
But	
  I’ll	
  be	
  high	
  tailing	
  it,	
  fast	
  and	
  askew,	
  
Precisely	
  ‘cause	
  I	
  can’t	
  abide	
  what	
  you	
  do.	
  
参考:The	
  end	
  jus*fies	
  the	
  means.目的は手段を正当化する;	
  
	
  
友達の輪にとけ込もうとするのは普通のことだ	
  
同じ志しを持っていると信じ、同じように振る舞うだろう	
  
しかし私は(あなたを)軽蔑し、足早に逃去るだろう	
  
だって、はっきり言ってあなたがすることが我慢できないのだ	
  
	
  
	
  
15.1	
  EsRmaRng	
  the	
  Mean	
  and	
  Precision	
  of	
  a	
  Normal	
  Likelihood	
p y µ,σ( )=
1
Z
exp −
1
2
y −µ( )
2
σ 2
"
#
$
$
%
&
'
'
•  正規尤度関数	
  
•              の場合、	
  
•  Dが与えられたときペイズの定理より、各パラメータを次のように推測	
  
•  適当な事前確率      の基で(15.2)を評価してみる	
  
(15.1)	
where Z =σ 2π
!
"
#
$
%
&
D = y1, y2, y3{ }
p yi µ,σ( )i
∏ = p D µ,σ( )
p µ,σ D( )=
p D µ,σ( )p µ,σ( )
dµ dσ p D µ,σ( )p µ,σ( )∫∫
(15.2)	
p µ,σ( )
15.1.1	
  SoluRon	
  by	
  MathemaRcal	
  Analysis	
•  前提条件	
  
–  尤度関数の標準偏差σが固定されている(σ=Sy)	
  
•  σの事前分布はスパイク	
  
•  もし事前確率      が正規分布に従う場合、事後確率も正規分布である	
  
–  Conjugateな事前確率	
  
•  μ〜N(Mμ,Sμ)とすると、	
  
	
  
(15.2)	
p µ( )
15.1.1	
  SoluRon	
  by	
  MathemaRcal	
  Analysis	
(15.3)
15.1.1	
  SoluRon	
  by	
  MathemaRcal	
  Analysis	
(15.4)	
つまり、σ=Sy、μ〜N(Mμ,Sμ)の場合、	
  
	
  
	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  である。	
  
	
  
精度     で表すと、	
  
	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  (事後の精度=事前精度+尤度精度)	
  
	
  
p y µ,Sy( )p µ( )∝ N
Sy
2
Mµ + Sµ
2
y
Sy
2
+ Sµ
2
,
Sy
2
Sµ
2
Sy
2
+ Sµ
2
"
#
$
$
%
&
'
'
1/σ 2
Sy
2
+ Sµ
2
Sy
2
Sµ
2
=
1
Sµ
2
+
1
Sy
2
15.1.1	
  SoluRon	
  by	
  MathemaRcal	
  Analysis	
平均も精度で表すと、	
  
	
  
                          	
  
	
  
      (事前精度が良い場合、事後平均が事前平均に近くなる) 	
  
      (尤度精度が良い場合、事後平均が誘導平均に近くなる) 	
  
	
  
	
  
	
  
15.1.1	
  SoluRon	
  by	
  MathemaRcal	
  Analysis	
•  Nサンプルの場合、	
  
                                 を使えば、	
  
	
  
	
  
  事後平均=	
  
	
  
	
  
  事後精度=	
  
	
  
	
  
  (サンプルサイズが多くなれば、事後平均がデータの平均に引っ張られる)	
  
	
  
•  正規分布を平均と精度で表すと都合が良い場合があるN(μ、τ)	
  
y1,...,N ~ N(µ,σ ) ⇒ y ~ N(µ,σ / N )
15.1.1	
  SoluRon	
  by	
  MathemaRcal	
  Analysis	
•  尤度関数の平均μが固定されている場合	
  
•  もし事前確率p(τ)がガンマ分布に従う場合、事後確率もガンマ分布である	
  
–  Conjugateな事前確率	
  
–  (e.g.,	
  Gelman	
  et	
  al.,	
  2004,	
  p50)	
  
–  ガンマ分布の形が直感的にあっているよね	
  
•  μ、σのどちらも固定しない場合もConjugateな事前確率を特定することが可能。	
  
–  (e.g.,	
  Gelman	
  et	
  al.,	
  2004,	
  p78-­‐83)	
  
15.1.2	
  ApproximaRon	
  by	
  MCMC	
  in	
  BUGS	
•  データyiは,尤度関数N(μ、τ)によっ
て生成されている	
  
–  平均μ〜N(M,T)	
  
–  精度τ〜Γ(S,R)	
  
•  μ、τが独立であるという前提条件の
基で、2次元空間から2パラメータを
推測する。	
  
各矢印がBUGS
コードの使用と
対応している
15.1.2	
  ApproximaRon	
  by	
  MCMC	
  in	
  BUGS	
•  モデルを理解したり、デバッグしたりするにはあらかじめ決めたパラメータを使って
架空のデータを生成してみるのが役に立つ	
  
–  事後分布を使ってパラメータを推測してみてその良さを確認する(SecRon	
  15.4.1)	
  
15.1.3	
  Outliers	
  and	
  Robust	
  EsRmaRon:	
  The	
  t	
  DistribuRon	
•  異常値の扱い	
  
–  データに異常値が含まれている場合、その原因となる外部要因が分かっていれば修正できる	
  
–  しかしほとんどの場合、外部要因によるものなのか、異常値ではないのかの判断はつかない	
  
–  何かの基準で異常値をデータから削除せず使う場合、正規分布より異常値の影響を受けにくい
尤度関数を使う	
  
•  t分布は、異常値が含まれるデータのモデルとして使える	
  
–  (Damgaard,	
  2007,	
  Meyer	
  &	
  Yu,	
  2000,	
  Tsionas	
  2002)	
  
15.1.3	
  Outliers	
  and	
  Robust	
  EsRmaRon:	
  The	
  t	
  DistribuRon	
•  Maximum	
  Likelihood	
  esRmates	
  
–  p(D|μ、τ)を最大化する正規分布、p(D|μ、τ、df)を最大化するt分布	
  
65歳以上の177人を対象に、
体内の無機リン化合物の量を
量ったデータ。(単位:1mg/
10l)。数個のデータを意図的
に変更している。
15.1.4	
  When	
  the	
  Data	
  Are	
  Non-­‐normal:	
  TransformaRons	
  	
例)	
  
•  光のない洞窟に住む、超音波を発生する新しい種の虫が発見された	
  
•  ある理論によると、発生する音の周波数の平均は22,000Hz	
  
•  ある昆虫学者は200個の周波数を測定した	
  
•  この理論は正しいと言えるか?	
  
	
  
•  やり方1:	
  
–  周波数測定データをそのまま使った	
  
–  結果は、「支持されない」	
  
•  やり方2:	
  
–  ピッチ(知覚される音の高さ)を使った	
  
•  ログをとる	
  
–  結果は、「支持された」	
  
15.1.4	
  When	
  the	
  Data	
  Are	
  Non-­‐normal:	
  TransformaRons	
  	
答えは「支持される」が正しい。つまりやり方2が正しい。	
  
•  正規尤度モデルの場合、データが正規分布に従うと仮定している	
  
–  正規分布の場合だけ、μ、τパラメータが意味を持つ	
  
–  データは少なくとも「大体」正規分布に従っている必要がある	
  
正規分布以外のデータをどう解析するか?	
  
•  やり方1:データを正規化する	
  
–  条件1:全てのデータを同じやり方で変換すること	
  
–  条件2:単調変換(monotonic	
  tranformaRon)であること。つまり尺度を変える	
  
•  地震エネルギー 対 マグニチュード	
  
•  摂氏 対 華氏	
  
•  フィート 対 メートル	
  
–  変換後の事前分布も適切なものにしなければならない(ex15.2,	
  15.3)	
  
•  やり方2:正規分布の代わりに、適切な尤度関数を使う	
  
–  適切なデータ変換が見つからない、変換後の尺度が扱いにくい、データ生成に正規分布以外の
分布が仮定されている場合など	
  
–  正規分布以外の分布に関する知識が必要	
  
15.1.4	
  When	
  the	
  Data	
  Are	
  Non-­‐normal:	
  TransformaRons	
  	
異常値の変換は大丈夫?	
  
•  一つのグループからのデータセットの場合原則OK。	
  
–  異常値(テールの部分)を圧縮し正常な範囲内に収めるが、変換後の事前分布を考慮しながら同
時にやるのが一般的に難しい	
  
–  変換は一般的に大量の偏りを直すためであり、異常値を直すために使われない。	
  
15.2	
  Repeated	
  Measures	
  and	
  Individual	
  Differences	
実世界で応用する場合、同じサンプルを繰り返し計測する場合がある。例、	
  
•  ある会社の従業員の血圧の平均を調べたい	
  
–  全従業員の血圧を日にちと時間をランダムに繰り返し測定する	
  
	
  
このような場合、次の仮定を置く	
  
•  サンプル(個人)がグループ全体からランダムに抽出される	
  
•  同じサンプル(個人)の測定結果はお互いに独立である	
  
–  注意深く設計する必要がある	
  
–  測定間隔が近すぎる(数分、数秒)と相関の高い計測結果になってしまう	
  
–  測定間隔が遠すぎると、根本的な傾向が変わってしまう(体脂肪率が増えたとか)	
  
–  決まったやり方がない	
  
15.2	
  Repeated	
  Measures	
  and	
  Individual	
  Differences	
•  航空機Boeing720	
  12体の空調システムの故障間の間隔(Proschan,	
  1963)	
  
–  同じ機体の空調システムの故障はお互いに独立だと仮定する	
  
•  故障時に、問題の部品が取り替えられるから	
  
–  日にちのルート5で正規化	
  
•  全体と個別の尤度関数が大体正規分布になるように設定する必要がある	
  
15.2.1	
  Hierarchical	
  Model	
仮定	
  
•  J番目の機体のデータは、N(μj,τj)に従う	
  
•  μjはN(μG,	
  τG)に従う。←グループレベルの分布	
  
すると、	
  
•  μjはグループレベルの分布に従うと、τjもグループレベルの分布に従う	
  
–  繰り返し測定するときの測定値の動き具合は、所属しているグループによるからである	
  
•  従って、τjはグループレペルガンマ分布Γ(sG,rG)	
  
15.2.1	
  Hierarchical	
  Model	
① μjはグループレベルパラメータのμG,τGに依存する	
  
② τjはグループレベルパラメータのsG,rGに依存する	
  
③ グループレベルパラメータはより高レベルの分布に従っ 	
  
   ている。	
  
④ 利便性の為に、(形状、尺度)→(平均、標準偏差)に直
す	
  
	
  
•  最初、グループレベルの事前確率の定数は具体的に
与えられる必要がある。その分野や手元にあるデータ
によって適切に決められる必要がある。	
  
•  例えば、空調システムの故障なしで作動する機関はお
よそ100で1〜10000日の間に収まる場合μGはmsや無
限大の値を取らないようにする。(正規化したことも忘れ
ずに)	
  
•  パラメータ推測時に、そもそもの仮定を崩さないように。
各機体からのデータは正規分布に従っていること(ユニ
モーダルで対称性のある)。μjが正規分布に従っている
こと。τjがガンマ分布に従っていること。	
  
   	
  
①	
 ②	
③	
④	
•  顕著な異常値があった場合、t分布を使った方がい
いかもしれない	
  
•  個別の機体のデータで現れる異常値と、平均の分
布で現れる異常値が考えられる。	
  
•  μjとμGの分布をt分布に変える	
  
15.2.2	
  ImplementaRon	
  in	
  BUGS	
•  データ配列Ndataの各値は、測定値と機体番号
のセットになっている	
  
•  「機体jのi番目のデータ」という意味ではない!	
  
•  事後平均:61.6日	
  
•  Means	
  of	
  Each	
  Aircrauを最も説明できるのは、平
均2.28、標準偏差0.33の正規分布	
  
•  Precisions	
  of	
  Each	
  Aircrauを最も説明できるのは、
平均3.83、標準偏差1.25のガンマ分布	
  
(SecRon	
  15.4.2)
15.3	
  Summary	
•  正規尤度関数の精度が固定された場合、事後確率分布の平均と精度が計算が
シンプルに。←このため標準偏差の代わりに精度を使う	
  
•  「正規尤度関数の平均が正規分布に従う、精度がガンマ分布に従う」とするのが
conjugate事前関数が使えるから一般的である。しかし、必ずこれを使う必要性は
なく、BUGSを使えば任意の事前関数プログラムが簡単にかける(効率に違いがあ
る)	
  
•  繰り返し測定の場合、個々の分布と、個々の平均の分布に正規分布が使える。
BUGSでの階層モデルのプログラミングも簡単	
  
•  正規尤度関数を使う場合、データが正規分布に従っていることをチェックする必要
がある(少なくともユニモーダルで対称性のあることをチェックする)。激しくnon-­‐
normalな場合正規かするか、non-­‐normal尤度関数を使う。	
  
•  データに顕著な異常値が含まれている場合、正規尤度関数の代わりにt分布を
使った方が良い場合がある。(BUGSを使った応用例は後の章に出る)	
  
	
  
15.4	
  R	
  Code	
15.4.1	
  EsRmaRng	
  the	
  Mean	
  and	
  Precision	
  of	
  a	
  Normal	
  Likelihood	
  
•  正規尤度関数の平均・精度の推測	
  
15.4.2	
  Repeated	
  Measures:	
  Normal	
  Across	
  and	
  Normal	
  Within	
  
•  階層モデルの実装(航空機の空調システム)	
  

More Related Content

Viewers also liked

【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...Junki Marui
 
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...Shuhei Iitsuka
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定Hiroshi Nakagawa
 
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance TestingDoing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance TestingHiroki Takanashi
 
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood wit...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood wit...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood wit...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood wit...Koji Yoshida
 
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...Hajime Sasaki
 
全脳アーキテクチャ勉強会 第1回(松尾)
全脳アーキテクチャ勉強会 第1回(松尾)全脳アーキテクチャ勉強会 第1回(松尾)
全脳アーキテクチャ勉強会 第1回(松尾)Yutaka Matsuo
 

Viewers also liked (9)

【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
 
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance TestingDoing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
 
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood wit...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood wit...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood wit...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood wit...
 
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
 
Dbda chapter17
Dbda chapter17Dbda chapter17
Dbda chapter17
 
Dbda03
Dbda03Dbda03
Dbda03
 
全脳アーキテクチャ勉強会 第1回(松尾)
全脳アーキテクチャ勉強会 第1回(松尾)全脳アーキテクチャ勉強会 第1回(松尾)
全脳アーキテクチャ勉強会 第1回(松尾)
 

Similar to Dbda chapter15

Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4keyyouwatari
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方Yuki Yamada
 
統計的検定と例数設計の基礎
統計的検定と例数設計の基礎統計的検定と例数設計の基礎
統計的検定と例数設計の基礎Senshu University
 
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみたTakahiro Yoshizawa
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定t2tarumi
 
初心者による初心者のための「質的データの二変量解析」
初心者による初心者のための「質的データの二変量解析」初心者による初心者のための「質的データの二変量解析」
初心者による初心者のための「質的データの二変量解析」Yasuyuki Okumura
 
ベイズ入門
ベイズ入門ベイズ入門
ベイズ入門Zansa
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章Shuyo Nakatani
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習Hirotaka Hachiya
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正弘毅 露崎
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statisticsKohta Ishikawa
 
K070 点推定
K070 点推定K070 点推定
K070 点推定t2tarumi
 
「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門yokomitsuken5
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Issei Kurahashi
 
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月Shigeyuki Oba
 

Similar to Dbda chapter15 (20)

Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方
 
統計的検定と例数設計の基礎
統計的検定と例数設計の基礎統計的検定と例数設計の基礎
統計的検定と例数設計の基礎
 
統計分析
統計分析統計分析
統計分析
 
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
 
1 2.t検定
1 2.t検定1 2.t検定
1 2.t検定
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
 
初心者による初心者のための「質的データの二変量解析」
初心者による初心者のための「質的データの二変量解析」初心者による初心者のための「質的データの二変量解析」
初心者による初心者のための「質的データの二変量解析」
 
ベイズ入門
ベイズ入門ベイズ入門
ベイズ入門
 
tadano m
tadano mtadano m
tadano m
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 
Rゼミ 3
Rゼミ 3Rゼミ 3
Rゼミ 3
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 
001 z test
001 z test001 z test
001 z test
 
K070 点推定
K070 点推定K070 点推定
K070 点推定
 
「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月
 

Dbda chapter15

  • 1. DBDA  Chapter  15:   Metric  Predicted  Variable   on  a  Single  Group オーマ株式会社   Agchbayar  Amarsanaa (アマル)
  • 2. 導入 次のシチュエーションを考える   •  ある大学の1年生の中から無作法にサンプルを選んで血圧を計ってみた。   –  連邦政府関係機関が発表している、該当する年齢の正常値と比べて違いが あるか?   •  (自称)ベジタリアンの中から無作法にサンプルを選んでIQを調べてみる   –  全国平均100と比べて違いがあるか?         •  一つのグループの中から観測される変数の値を予測   •  一般化線形モデルの最も基本的なケースを紹介(Ch.14  p.384)   –  (正規分布に従う)あるグループの平均を予測する   –  伝統的な統計学の「t検定」に該当する内容    
  • 3. 詩 It’s  normal  to  want  to  fit  in  with  your  friends   Behave  by  their  means  and  believe  all  their  ends.   But  I’ll  be  high  tailing  it,  fast  and  askew,   Precisely  ‘cause  I  can’t  abide  what  you  do.   参考:The  end  jus*fies  the  means.目的は手段を正当化する;     友達の輪にとけ込もうとするのは普通のことだ   同じ志しを持っていると信じ、同じように振る舞うだろう   しかし私は(あなたを)軽蔑し、足早に逃去るだろう   だって、はっきり言ってあなたがすることが我慢できないのだ      
  • 4. 15.1  EsRmaRng  the  Mean  and  Precision  of  a  Normal  Likelihood p y µ,σ( )= 1 Z exp − 1 2 y −µ( ) 2 σ 2 " # $ $ % & ' ' •  正規尤度関数   •              の場合、   •  Dが与えられたときペイズの定理より、各パラメータを次のように推測   •  適当な事前確率      の基で(15.2)を評価してみる   (15.1) where Z =σ 2π ! " # $ % & D = y1, y2, y3{ } p yi µ,σ( )i ∏ = p D µ,σ( ) p µ,σ D( )= p D µ,σ( )p µ,σ( ) dµ dσ p D µ,σ( )p µ,σ( )∫∫ (15.2) p µ,σ( )
  • 5. 15.1.1  SoluRon  by  MathemaRcal  Analysis •  前提条件   –  尤度関数の標準偏差σが固定されている(σ=Sy)   •  σの事前分布はスパイク   •  もし事前確率      が正規分布に従う場合、事後確率も正規分布である   –  Conjugateな事前確率   •  μ〜N(Mμ,Sμ)とすると、     (15.2) p µ( )
  • 6. 15.1.1  SoluRon  by  MathemaRcal  Analysis (15.3)
  • 7. 15.1.1  SoluRon  by  MathemaRcal  Analysis (15.4) つまり、σ=Sy、μ〜N(Mμ,Sμ)の場合、                                                                                                                                                                                                                                        である。     精度     で表すと、                                                                                                                                (事後の精度=事前精度+尤度精度)     p y µ,Sy( )p µ( )∝ N Sy 2 Mµ + Sµ 2 y Sy 2 + Sµ 2 , Sy 2 Sµ 2 Sy 2 + Sµ 2 " # $ $ % & ' ' 1/σ 2 Sy 2 + Sµ 2 Sy 2 Sµ 2 = 1 Sµ 2 + 1 Sy 2
  • 8. 15.1.1  SoluRon  by  MathemaRcal  Analysis 平均も精度で表すと、                                          (事前精度が良い場合、事後平均が事前平均に近くなる)          (尤度精度が良い場合、事後平均が誘導平均に近くなる)         
  • 9. 15.1.1  SoluRon  by  MathemaRcal  Analysis •  Nサンプルの場合、                                    を使えば、         事後平均=         事後精度=         (サンプルサイズが多くなれば、事後平均がデータの平均に引っ張られる)     •  正規分布を平均と精度で表すと都合が良い場合があるN(μ、τ)   y1,...,N ~ N(µ,σ ) ⇒ y ~ N(µ,σ / N )
  • 10. 15.1.1  SoluRon  by  MathemaRcal  Analysis •  尤度関数の平均μが固定されている場合   •  もし事前確率p(τ)がガンマ分布に従う場合、事後確率もガンマ分布である   –  Conjugateな事前確率   –  (e.g.,  Gelman  et  al.,  2004,  p50)   –  ガンマ分布の形が直感的にあっているよね   •  μ、σのどちらも固定しない場合もConjugateな事前確率を特定することが可能。   –  (e.g.,  Gelman  et  al.,  2004,  p78-­‐83)  
  • 11. 15.1.2  ApproximaRon  by  MCMC  in  BUGS •  データyiは,尤度関数N(μ、τ)によっ て生成されている   –  平均μ〜N(M,T)   –  精度τ〜Γ(S,R)   •  μ、τが独立であるという前提条件の 基で、2次元空間から2パラメータを 推測する。   各矢印がBUGS コードの使用と 対応している
  • 12. 15.1.2  ApproximaRon  by  MCMC  in  BUGS •  モデルを理解したり、デバッグしたりするにはあらかじめ決めたパラメータを使って 架空のデータを生成してみるのが役に立つ   –  事後分布を使ってパラメータを推測してみてその良さを確認する(SecRon  15.4.1)  
  • 13. 15.1.3  Outliers  and  Robust  EsRmaRon:  The  t  DistribuRon •  異常値の扱い   –  データに異常値が含まれている場合、その原因となる外部要因が分かっていれば修正できる   –  しかしほとんどの場合、外部要因によるものなのか、異常値ではないのかの判断はつかない   –  何かの基準で異常値をデータから削除せず使う場合、正規分布より異常値の影響を受けにくい 尤度関数を使う   •  t分布は、異常値が含まれるデータのモデルとして使える   –  (Damgaard,  2007,  Meyer  &  Yu,  2000,  Tsionas  2002)  
  • 14. 15.1.3  Outliers  and  Robust  EsRmaRon:  The  t  DistribuRon •  Maximum  Likelihood  esRmates   –  p(D|μ、τ)を最大化する正規分布、p(D|μ、τ、df)を最大化するt分布   65歳以上の177人を対象に、 体内の無機リン化合物の量を 量ったデータ。(単位:1mg/ 10l)。数個のデータを意図的 に変更している。
  • 15. 15.1.4  When  the  Data  Are  Non-­‐normal:  TransformaRons   例)   •  光のない洞窟に住む、超音波を発生する新しい種の虫が発見された   •  ある理論によると、発生する音の周波数の平均は22,000Hz   •  ある昆虫学者は200個の周波数を測定した   •  この理論は正しいと言えるか?     •  やり方1:   –  周波数測定データをそのまま使った   –  結果は、「支持されない」   •  やり方2:   –  ピッチ(知覚される音の高さ)を使った   •  ログをとる   –  結果は、「支持された」  
  • 16. 15.1.4  When  the  Data  Are  Non-­‐normal:  TransformaRons   答えは「支持される」が正しい。つまりやり方2が正しい。   •  正規尤度モデルの場合、データが正規分布に従うと仮定している   –  正規分布の場合だけ、μ、τパラメータが意味を持つ   –  データは少なくとも「大体」正規分布に従っている必要がある   正規分布以外のデータをどう解析するか?   •  やり方1:データを正規化する   –  条件1:全てのデータを同じやり方で変換すること   –  条件2:単調変換(monotonic  tranformaRon)であること。つまり尺度を変える   •  地震エネルギー 対 マグニチュード   •  摂氏 対 華氏   •  フィート 対 メートル   –  変換後の事前分布も適切なものにしなければならない(ex15.2,  15.3)   •  やり方2:正規分布の代わりに、適切な尤度関数を使う   –  適切なデータ変換が見つからない、変換後の尺度が扱いにくい、データ生成に正規分布以外の 分布が仮定されている場合など   –  正規分布以外の分布に関する知識が必要  
  • 17. 15.1.4  When  the  Data  Are  Non-­‐normal:  TransformaRons   異常値の変換は大丈夫?   •  一つのグループからのデータセットの場合原則OK。   –  異常値(テールの部分)を圧縮し正常な範囲内に収めるが、変換後の事前分布を考慮しながら同 時にやるのが一般的に難しい   –  変換は一般的に大量の偏りを直すためであり、異常値を直すために使われない。  
  • 18. 15.2  Repeated  Measures  and  Individual  Differences 実世界で応用する場合、同じサンプルを繰り返し計測する場合がある。例、   •  ある会社の従業員の血圧の平均を調べたい   –  全従業員の血圧を日にちと時間をランダムに繰り返し測定する     このような場合、次の仮定を置く   •  サンプル(個人)がグループ全体からランダムに抽出される   •  同じサンプル(個人)の測定結果はお互いに独立である   –  注意深く設計する必要がある   –  測定間隔が近すぎる(数分、数秒)と相関の高い計測結果になってしまう   –  測定間隔が遠すぎると、根本的な傾向が変わってしまう(体脂肪率が増えたとか)   –  決まったやり方がない  
  • 19. 15.2  Repeated  Measures  and  Individual  Differences •  航空機Boeing720  12体の空調システムの故障間の間隔(Proschan,  1963)   –  同じ機体の空調システムの故障はお互いに独立だと仮定する   •  故障時に、問題の部品が取り替えられるから   –  日にちのルート5で正規化   •  全体と個別の尤度関数が大体正規分布になるように設定する必要がある  
  • 20. 15.2.1  Hierarchical  Model 仮定   •  J番目の機体のデータは、N(μj,τj)に従う   •  μjはN(μG,  τG)に従う。←グループレベルの分布   すると、   •  μjはグループレベルの分布に従うと、τjもグループレベルの分布に従う   –  繰り返し測定するときの測定値の動き具合は、所属しているグループによるからである   •  従って、τjはグループレペルガンマ分布Γ(sG,rG)  
  • 21. 15.2.1  Hierarchical  Model ① μjはグループレベルパラメータのμG,τGに依存する   ② τjはグループレベルパラメータのsG,rGに依存する   ③ グループレベルパラメータはより高レベルの分布に従っ       ている。   ④ 利便性の為に、(形状、尺度)→(平均、標準偏差)に直 す     •  最初、グループレベルの事前確率の定数は具体的に 与えられる必要がある。その分野や手元にあるデータ によって適切に決められる必要がある。   •  例えば、空調システムの故障なしで作動する機関はお よそ100で1〜10000日の間に収まる場合μGはmsや無 限大の値を取らないようにする。(正規化したことも忘れ ずに)   •  パラメータ推測時に、そもそもの仮定を崩さないように。 各機体からのデータは正規分布に従っていること(ユニ モーダルで対称性のある)。μjが正規分布に従っている こと。τjがガンマ分布に従っていること。         ① ② ③ ④ •  顕著な異常値があった場合、t分布を使った方がい いかもしれない   •  個別の機体のデータで現れる異常値と、平均の分 布で現れる異常値が考えられる。   •  μjとμGの分布をt分布に変える  
  • 22. 15.2.2  ImplementaRon  in  BUGS •  データ配列Ndataの各値は、測定値と機体番号 のセットになっている   •  「機体jのi番目のデータ」という意味ではない!   •  事後平均:61.6日   •  Means  of  Each  Aircrauを最も説明できるのは、平 均2.28、標準偏差0.33の正規分布   •  Precisions  of  Each  Aircrauを最も説明できるのは、 平均3.83、標準偏差1.25のガンマ分布   (SecRon  15.4.2)
  • 23. 15.3  Summary •  正規尤度関数の精度が固定された場合、事後確率分布の平均と精度が計算が シンプルに。←このため標準偏差の代わりに精度を使う   •  「正規尤度関数の平均が正規分布に従う、精度がガンマ分布に従う」とするのが conjugate事前関数が使えるから一般的である。しかし、必ずこれを使う必要性は なく、BUGSを使えば任意の事前関数プログラムが簡単にかける(効率に違いがあ る)   •  繰り返し測定の場合、個々の分布と、個々の平均の分布に正規分布が使える。 BUGSでの階層モデルのプログラミングも簡単   •  正規尤度関数を使う場合、データが正規分布に従っていることをチェックする必要 がある(少なくともユニモーダルで対称性のあることをチェックする)。激しくnon-­‐ normalな場合正規かするか、non-­‐normal尤度関数を使う。   •  データに顕著な異常値が含まれている場合、正規尤度関数の代わりにt分布を 使った方が良い場合がある。(BUGSを使った応用例は後の章に出る)    
  • 24. 15.4  R  Code 15.4.1  EsRmaRng  the  Mean  and  Precision  of  a  Normal  Likelihood   •  正規尤度関数の平均・精度の推測   15.4.2  Repeated  Measures:  Normal  Across  and  Normal  Within   •  階層モデルの実装(航空機の空調システム)