Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"

2,398 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,398
On SlideShare
0
From Embeds
0
Number of Embeds
988
Actions
Shares
0
Downloads
7
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tutorial with R and BUGS"

  1. 1. Chapter 13 Goals, Power and Sample Size 分析目的 検出力 標本サイズ Hajime SASAKI Policy Alternatives Research Institute. The University of Tokyo. “Doing Bayesian Data Analysis: A Tutorial with R and BUGS.” 2013/08/31
  2. 2. 中身 13.1 The Will to Power(なんで検出力の話をするのか) 13.1.1 Goals and Obstacles(分析における目的と障害) 13.1.2 Power(検出力とは) 13.1.3 Sample Size(サンプルサイズとは) 13.1.4 Other Expressions of Goals(分析目的いろいろ) 13.2 Sample Size for a Single Coin(ワンコインで買えるサンプルサイズ) 13.2.1 When the Goal Is to Exclude a Null Value(帰無値を超えて) 13.2.2 When the Goal Is Precision(精度が欲しい) 13.3 Sample Size for Multiple Mints(造幣局から愛をこめて) 13.4 Power: Prospective, Retrospective, and Replication(検出力分析もいろいろ) 13.4.1 Power Analysis Requires Verisimilitude of Simulated Data (そのデータ、現実を写しているの?) 13.5 The Importance of Planning(調査設計大事超大事) 13.6 R Code 13.6.1 Sample Size for a Single Coin 13.6.2 Power and Sample Size for Multiple Mints 13.7 Exercises(運動)
  3. 3. はじめに !   本資料は, “Doing Bayesian Data Analysis: A Tutorial with R and BUGS”13章に書かれていないこともゆ るめに記述してます。 !   原著では明示的に記述してないことを書いてい るページには右上に「補足ページ」と記してま す。 補足ページ
  4. 4. 13.1 The will to the power !   何らかの目的のために分析データ収集をするにしても、デー タ中にノイズが存在する以上、期待する結果が達成されるの はあくまで確率的なものである。 !   ここでいう目的(Goals)とは。:帰無仮説を棄却したい!とか、 精度を求めたい!とか。 !   検出力:その命題が真である場合に、本当に真であると検出 する確率。 !   達成の確率が低い分析目的に無駄な資源を費やしてはならな い。研究・実験・分析において、高い検出力を求めるべき。 !   この章では検出力の定義と計算のしかたについて議論しよう。
  5. 5. 13.1.1 Goals and Obstacle !   分析目的(Goals) !   「特定のパラメータが帰無値を超えることを示し たい」 !   95%HDIが帰無値以上に位置するもしくは、設定し たROPE*以上に位置することを示す。。(*ROPE(Region Of Practical Equivalence):コインがフェアであることを期待するには表が出る確率は0.5 であることを望むんだけど、それは0.49でも0.51も実質問題ないよね?その幅を ROPEとして設定する。) !   「一定以上の精度が欲しい」 !   95%HDIの幅が特定の幅を有することを示す。 !   障害(Obstacle) !   どんなに精密に作られたコインでも表の出る確率 が常に正確に50%になるとは言い切れない。どん なに歪んだコインでも、場合によっては10回投げ て5回表が出ることだってあるでしょ。 !   プラシーボ薬を投与して治療されることもあるだ ろうし、実際に効く薬を投与しても、試験によっ ては未処置群と大きな差は出ないかもしれないで しょ。 !   そういうことなので、検出力(Power)について考えま しょう。 95%HDI nullvalue ROPE 95%HDI>0.2
  6. 6. おさらい:2種類の過誤 n  第一種過誤(α過誤、偽陽性:False Positive) 帰無仮説が実際には真であるのに棄却してしまう過誤。本当は帰無仮説が 正しいので,棄却してはいけないのに,誤って棄却してしまう。 例えば、ある女性が妊娠していないのに検査結果で妊娠していると判定さ れる場合などを指す。 n  第二種過誤(β過誤、偽陰性: False Negative) 対立仮説が実際には真であるのに帰無仮説を採用してしまう過誤。対立仮 説が正しく,帰無仮説は棄却すべきなのに,棄却しない。 妊娠しているのに、検査結果で検出できなかった場合を指す。 http://ja.wikipedia.org/wiki/第一種過誤と第二種過誤 第一種の過誤と第二種 の過誤はトレードオフ。 どちらの抑制を重視する かは目的によって異なる。 たまに分からなくなるのでこうやって覚える。 “第一種の過誤は冤罪。第二種の過誤は犯人見逃し。” 補足ページ
  7. 7. 偽陽性率(False Positive Rate):α 陰性の標本集団のうち誤って陽性と判定された標本の割合 真陽性(TP)+偽陽性(FP) 偽陽性(FP) 偽陽性率α= 1-αを特異度と定義。これが増えると、第一種過誤となる確率が下がり、 一方で第二種過誤となる確率が上がる。 偽陰性率(False Negative Rate):β 陽性の標本集団のうち誤って陰性と判定された標本の割合 真陰性(TN)+偽陰性(FN) 偽陰性(FN) 偽陰性率β= 1-βを検出力と定義。 例)検出力:0.8、100回仮説検証を行った場合に80回は検出できる 補足ページ
  8. 8. 13.1.2 Power 期待する効果を得るために我々にできること。 !   Method 1:ノイズを可能な限り減らす。薬剤の治療率を特 定する際、患者のもつランダムな作用を取り除く(薬剤の 投与タイミング、食事の変化など)。 !   Method 2:効果の検出を向上させること。例えば、クスリ を可能なかぎり投与(dose)する。実際はいろいろな事情があ るらしく、難しいことも。 !   Method3:サンプルサイズを増やすことで検出力をあげる。 サンプルサイズを増やせばノイズが相殺される。一般的に サンプルサイズを増加させることで検出力は向上する。
  9. 9. サンプルサイズが増えるとどうなるのか。 2群の平均値の検定 x群のサンプルサイズmが10、y群のサンプルサイズnが10の場合 x群のサンプルサイズmが100、y群のサンプルサイズnが100の場合 x群のサンプルサイズmが200、y群のサンプルサイズnが200の場合 x群のサンプルサイズmが300、y群のサンプルサイズnが300の場合 http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/samplesize_pchi.htm 検定量 サンプルサイズさえ大きくすれば、実際には大した 差があるわけでもないのに有意差が認められてしま う。サンプルサイズが大きくなるほど検出力も大き くなる。 補足ページ
  10. 10. ベイズによる検出力の推定プロセス 実データ取得のプロセス シミュレーションデータ 取得のプロセス 一般的に検出力を概算推定するには下記の手順 1:データ生成器よりランダムなサンプルデータを生成。 生成器は実データ取得時でどのようにデータが収集されるかを考慮。 2: 事前分布にもとづきベイズによる事後確率を計算 3: 事後推定から目的達成されたかどうかを集計する。 95%HDIが帰無値付近でROPEを超える or 95%HDIが設定幅より狭い。 4: 上記を繰り返す。検出力はその定義から目的が達成された回数に比例する。
  11. 11. 13.1.3 Sample Size !   サンプルサイズを上げれば検出力は上がるけど、コストがかか るので、要求検出力を満たす最低限のサンプルサイズを知りた い。 !   サンプルサイズが増えれば、その分尤度関数は狭くなるので。 事後分布も狭くなる。 !   確認:サンプル数とサンプルサイズは別ですよ。 •  サンプル数(標本数):k 母集団から標本を抽出した回数 •  サンプルサイズ(標本の大きさ):n 抽出された各標本に含まれる 個体の数。 箱に入っている500円玉全てを母集団とすれば,つかみ取った回数がサンプ ル数(標本数)、それぞれ1回でつかみ取れた500円玉の数がサンプルサ イズ(標本の大きさ)
  12. 12. アンチテーゼ:”ビッグデータなんていらんのじゃ” !   「統計学ってのは限られたサンプル(抽出)データから、まだ見ぬ全体像 を知るためのもの」「だからビッグデータなんて苦労して集める必要はな い、サンプリングされたデータだけで十分だ」 !   という主張。えーと、半分はその通りだと思います。けれども、半分はそ うでもないかなぁ、と。 !   何故なら、レコメンダーとかSPAMフィルタなどのバックエンドシステム開 発では、できれば全数データを使って可能な限り精度を上げ続けた方が良 いものが多いからです。だからHadoop以下大規模分散処理などの高度な手 法を沢山駆使しているわけで、そこでは依然として全数データは非常に重 要です。 !   引用:@TJO_datasci ”銀座で働くデータサイエンティストのブログ”    サンプリング時の最適なサンプルサイズをRパッケージ{pwr}で求める http://tjo.hatenablog.com/entry/2013/06/21/190729 !   でもやっぱりそれは限定的なケース。 !   多くの場合は依然として、適切な抽出方法とサンプルサイズ得られたデー タを元にリーンに()分析するのが現実的でしょ。 補足ページ
  13. 13. 13.2 Sample size for a single coin !   13.2.1 When the Goal is to Exclude a Null value 2000回の試行に基づき、0.65の確率で表が出るように歪んでい ると信じられているコイン。 このコインの表が出る確率分布の95%HDIがθ=0.5の外に位置 することを示すために必要となるサンプルサイズ。 95%HDI Nullvalue(0.5) Biased Coin(θ=0.65) Flip N times
  14. 14. 歪んだコインを投げ続けてみる 歪んだコインを投げ続けて表が出る確率分布。 •  コインの歪みっぷり:ベータ分布(連続確率分布) •  表が出るっぷり:二項分布(離散確率分布) のたたみ込み。 p(z | N) = d! p(z | N,!)p(!) 0 1 ! = d!binomial(z | N,!)Beta(! | a,b) 0 1 ! = d! N z " # $$ % & ''!z (1(!)(N(z) !(a(1) / B(a,b) 0 1 ! = N z " # $$ % & ''B(z + a, N ( z + b) / B(a,b) →ベータ二項分布(BBD: Beta-Binomial Distribution) 別名:負の超幾何分布(Negative Hypergeometric Distribution) 別名:ポリア=エッゲンベルガー分布(Polya‐Eggenberger Distribution)
  15. 15. N z ! " ## $ % &&B(z + a, N ' z + b) / B(a,b) (minNforHDIpower.R) Logarithmic form to prevent underflow errors. 要求検出力(0.8)を超えるまで サンプリングサイズを増やし続ける。 •  HDImaxwid以下にするためのサンプルサイ ズ •  95%HDIがnullvalueを超えるためのサンプ ルサイズ genPriorN: N genPriorA: a genPriorB: b 要求検出力(0.8)を超えたら サンプルサイズを返して終わり。 さっきの式
  16. 16. •  90%の確率(検出力0.9)で、95%HDIが0.5を超えることを 示すには、最低でも111回必要。 •  generating mean が増加するほど、表になる回数の割合が 大きくなりHDIが早いうちにはしっこに偏るので、必要 となるサンプルサイズは減少する。 •  要求検出力が増加するほど、サンプルサイズは劇的に増 加する。
  17. 17. そもそも95%HDIがnull valueを超え得ないとき 参院選東京選挙区 出口調査10人に聞きました。 「鈴木寛にいれたよ」:4人 「山本太郎にいれたよ」:6人 の情報を元に事前分布はベータ関数BETA(7,5)で与えられるとする。 Under 72% of HDI 95%HDI 0.841 0.318 サンプルサイズを増やして も Θ=0.5において、 72%HDIが限界!! > x<-seq(0,1,length=10) > p0<-dbeta(x,7,5) > plot(p0)
  18. 18. 13.2.2 When the Goal is Precision 事後確率の精度を求めることをゴールにする。例えば、80% の確率で95%HDIの幅が0.2を下回るかどうかを基準とする。 95%HDIの幅が、設定したMaximal Width (0.2)を達成する際に 必要となるサンプルサイズ。 要求検出力をあげても、必要となる サンプルサイズは微増。 ちなみに、要求HDIの幅を小さくす ればするほどサンプルサイズは急増 する。 (たとえば0.2から0.1にするだけで検 出力80%でθ=0.6におけるサンプル サイズは(92から)377に増える。)
  19. 19. 13.3 Sample size for multiple Mints !   セクション9.3.1の(P219) filtration condensation experiment. !   Filtration group (μ1 and μ2) !   Condensation group(μ3 and μ4) (μ1+μ2)/2-(μ3+μ4)/2の95%HDIが0.0を 超えることを示したい。 この場合のサンプルサイズはN=6で検出 力0.8を得ることができる!
  20. 20. 13.3 Sample size for multiple Mints. (Cont.) 一方で、それぞれの group内における 比較: !   μ1-μ2の95%HDIが0を超えるこ とを示したい。 !   >達成されず。なぜならN=6の時 の検出力は0.04(4%)。ただし、 N=40にすると検出力が0.43(43%) に向上。実データそのものが偶 然だったことを意味する。 !   mu3とmu4の比較について考える。 差がないことを示したい。いい かえるなら、mu3-mu4の95%HDI の幅が0.2以下であることを示し たい。 !   このとき80%検出力を得るための サンプルサイズは32である。
  21. 21. 13.4 Power: Prospective, Retrospective and Replication Prospective (a apiori) power analysis: 先行研究(ただし全く同じではない)を元にデータ分布の仮説をえる。 Retrospective power analysis: 実際に同じ条件で取得しているデータを元にパラメータをセットする。既に事後分布を 持っていることになる。fil-con実験はこれにあたる。 Replication power: 繰り返し実験をした際に、どのくらいの確率で目的を達成できるかを知りたい。 Retrospective power analysisと同様に、実際に同じデータを元に事後分布からデータを得る。 ただし、事前分布も同様にに元のデータから得る。
  22. 22. 13.4.1Power Analysis Requires Verisimilitude of Simulated Data “検出力分析は、生成データが実データを 模擬していることが前提” 13.5 The Importance of Planning “結構みんなサンプルサイズ設計とか軽視するけど、それ良くないよ。” “データ取得した後に議論しても意味ないけど” “事前にやっておけば無駄なく実験・分析を進められるし。” “提案書を書くときとかも大事だよ。”
  23. 23. スモールデータで楽しい分析ライフを!

×