なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
Upcoming SlideShare
Loading in...5
×
 

なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由

on

  • 9,690 views

Japanese

Japanese

Statistics

Views

Total Views
9,690
Views on SlideShare
8,229
Embed Views
1,461

Actions

Likes
20
Downloads
104
Comments
0

11 Embeds 1,461

http://d.hatena.ne.jp 1086
https://twitter.com 175
http://takehiko-i-hayashi.hatenablog.com 154
https://si0.twimg.com 24
http://a0.twimg.com 7
https://twimg0-a.akamaihd.net 6
http://tweetedtimes.com 4
http://webcache.googleusercontent.com 2
https://abs.twimg.com 1
https://www.google.co.jp 1
http://www.google.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />
  • <br />

なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由 なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由 Presentation Transcript

  • 2010.6.17国環研生物系若手セミナー*ブログup用改変版* なぜベイズ統計はリスク分析に向いているのか? ∼その哲学上および実用上の理由∼ (ver 2.0) 林岳彦 国立環境研究所環境リスク研究センター hayashi.takehiko@nies.go.jp
  • 今日の話 ベイズにまつわる エトセトラ確率概念 ベイズ 仮説検定 リスク分析
  • 本日のメニュー 概念的35min I.「確率」の哲学的諸概念と  リスク解釈にとっての意味 II. 仮説検定の「筋違い」さ 統計的 30min  とベイズの本質的な利点25min III.デフォルトあるいは糊代 実務的  としての事前分布の利用
  • 本日のメニュー 概念的35min I.「確率」の哲学的諸概念と  リスク解釈にとっての意味 II. 仮説検定の「筋違い」さ 統計的 30min  とベイズの本質的な利点25min III.デフォルトあるいは糊代 実務的  としての事前分布の利用
  • I.「確率」の哲学的諸概念と リスク解釈にとっての意味 1-1「確率」とは何か? 1-2 確率概念とリスクの解釈
  • I.「確率」の哲学的諸概念と リスク解釈にとっての意味 1-1「確率」とは何か? 1-2 確率概念とリスクの解釈
  • I-1.「確率」とは何か?・コインを投げてオモテが出る確率・クロロホルムによってガンになる確率・2050年までに地球の気温が2度以上上昇 する確率・人為的な温室効果ガスが温暖化の原因で ある確率 (IPCC曰く90%)・今年広島カープが優勝する確率・国環研任期付がパーマネントになる確率
  • I-1.「確率」とは何か?・コインを投げてオモテが出る確率・クロロホルムによってガンになる確率・2050年までに地球の気温が2度以上上昇 Risk = f(Effect,Probability) する確率・人為的な温室効果ガスが温暖化の原因で ある確率 (IPCC曰く90%) 発がんリスクが・今年広島カープが優勝する確率 -6 10・国環研任期付がパーマネントになる確率
  • I-1.「確率」とは何か?伝統的統計学 ベイズ統計学頻度型確率 確信度型確率
  • 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 確率の公理 コルモゴルフの確率測度の定義(公理) http://ja.wikipedia.org/wiki/確率空間より引用http://en.wikipedia.org/wiki/Image:Kolmogorov-m.jpg 第一公理 全ての事象の起こる確率は 0と1の間である 第二公理 全事象Sの起きる確率は1である AN Kolmogolov 第三公理 (1903-1987) 可算個の排反事象に対する 和の法則が成り立つ
  • 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 古典的確率概念 「場合の数の比」としての確率http://en.wikipedia.org/wiki/File:Pierre-Simon_Laplace.jpg その事柄の起こりうる 場合の数 ある事柄の 起こる確率 = 同程度に起こりうる 全体の場合の数 PS Laplace (1749-1827)
  • 古典的確率概念「場合の数の比」としての確率 1/52
  • 古典的確率概念「場合の数の比」としての確率 理由不十分の原理 http://bsoza.com/money_02.php
  • 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 頻度説「ある事柄が起こる頻度」としての確率 http://en.wikipedia.org/wiki/File:Karl_Pearson_2.jpg http://en.wikipedia.org/wiki/File:R._A._Fischer.jpg K Pearson RA Fisher (1857-1936) (1890-1962)例:コインを投げてオモテがでる確率
  • 頻度説「ある事柄が起こる頻度」としての確率 オ モ テ が p→0.5 出 た 割 N→ 合 2/5=0.4? 形而上学的跳躍 コイン投げの試行数
  • 頻度説 「ある事柄が起こる頻度」としての確率 オhttp://en.wikipedia.org/wiki/File:John_Maynard_Keynes.jpg In a long run, モ we are all dead テ が p→0.5 出 た 割 N→ 合 2/5=0.4? 形而上学的跳躍 コイン投げの試行数
  • 頻度説 頻度説は繰り返し事象にのみ適用可・2050年までに地球の気温が2度以上 上昇する確率・人為的な温室効果ガスが温暖化の原因で ある確率 (IPCC曰く90%)・今年広島カープが優勝する確率・容疑者Xが犯人である確率・コインを投げてオモテが出る確率
  • 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 傾向説 「対象に内在する傾向」としての確率http://en.wikipedia.org/wiki/File:Karl_Popper.jpg コインを投げて表がでる確率 コインの物理的性質 ウランの同位体の分裂確率 K Popper ウランの物理的性質 (1902-1994) あくまでも我々の認識作用に関わらない ものとして確率を定義
  • 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 論理説 「合理的信念の度合い」としての確率http://en.wikipedia.org/wiki/File:John_Maynard_Keynes.jpg 条件E→Xである確率が 50% E→Xの JM Kaynes 確からしさ (1983-1946) の定量的記述 「確率論」1921
  • 論理説 「合理的信念の度合い」としての確率 演繹的推論http://en.wikipedia.org/wiki/File:John_Maynard_Keynes.jpg 前提E→Xである確率が 100% 帰納的推論 JM Kaynes (1983-1946) 条件E→Xである確率が 「確率論」1921 中間的な%
  • 論理説 「合理的信念の度合い」としての確率http://en.wikipedia.org/wiki/ (条件E→Xという)File:John_Maynard_Keynes.jpg 論理的関係に 内在するもの 主観的なものでは 全くない! JM Kaynes 理由不十分の原理 (1983-1946) あるいは優れた知性による直感 「確率論」1921
  • 論理説「合理的信念の度合い」としての確率 歪んだコインの問題 オモテ・ウラ・ヨコ? http://bsoza.com/money_02.php
  • 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 個人説「個人が持つ信念の度合い」としての確率 http://sms.cam.ac.uk/institution/PHIL (条件E→Xという) 個人的な信念の度合い FP Ramsey の記述としての確率 (1903-1930)http://it.wikipedia.org/wiki/Bruno_de_Finetti 異なる個人は 異なる信念の度合いを 持ちうる B de Finetty (1906-1985)
  • 個人説「個人が持つ信念の度合い」としての確率 うろこ雲→次の日雨 画像 画像 30% 10% 70% 画像 画像 画像
  • 個人説 数値化の問題は「賭けの枠組み」で解決心理学者A Bさん 画像 pを選んで 画像 p=0.3 次の日雨→ p 1000円 個人確率not次の日雨→ (1-p) 1000円 *各種認知バイアスにも注意
  • 個人説 個人確率の適用範囲は広い・2050年までに地球の気温が2度以上 上昇する確率・人為的な温室効果ガスが温暖化の原因で ある確率・今年広島カープが優勝する確率・容疑者Xが犯人である確率・コインを投げてオモテが出る確率
  • 個人説 個人確率に数学は適用できるの? http://sms.cam.ac.uk/institution/PHIL できますとも! http://it.wikipedia.org/wiki/Bruno_de_Finettiラムジー=デ・フィネッティの定理 (Dutch book argument)「必敗の賭け」にはならない合理的な賭け比率の選び方をする限りその個人確率はコルモゴルフの確率の公理を満たす 確率論数学OK!
  • 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 間個人説「ある集団が持つ信念の度合い」としての確率 個人 集団 個人確率 間個人 確率 個人確率 個人確率 間個人 個人確率 確率
  • 間個人説「ある集団が持つ信念の度合い」としての確率 個人 集団 個人確率 間個人 人為的な温室効果ガスが温暖化の原因で  ある確率は90% (IPCC) 確率 個人確率 個人確率 間個人 個人確率 確率
  • 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 例:ボールが青である 確率 一個色を見ずにBOX 取り出す Bag 2/10
  • 例:ボールが青である 確率 一個色を見ずにBOX 取り出す Bag 2/10もう一個取り出したら青だった 1/9
  • I-Iのまとめ ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 FrequencyProbability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Degree of belief Inter-personal theory 用語法はHacking (2001)に基づく
  • I-Iのまとめ ・古典確率 ・確率の公理 ・古典確率 リスクの解釈に与える影響は? 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 FrequencyProbability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Degree of belief Inter-personal theory 用語法はHacking (2001)に基づく
  • I.「確率」の哲学的諸概念と リスク解釈にとっての意味 1-1「確率」とは何か? 1-2 確率概念とリスクの解釈
  • I-2.確率概念とリスクの解釈 単一事象 リスク認知 X 4つの例 交換可能性 情報量
  • 例をもとに考えてみる1 サイコロを1000回振ります。 1の目がでる一回あたりの確率は? 1/6頻度説 傾向説 個人説 間個人説 if rational
  • 例をもとに考えてみる2room ロシアンルーレット をやってください 画像 A 実弾は6弾中1弾のみ シリンダーは回す 頻度説 0or1 個人説 1/6 Aさんが死ぬ確率は?
  • 例をもとに考えてみる3room 実弾は6弾中1弾のみ シリンダーは固定する A→B→C→D→E→Fの順 A B C リスク評価者 D E F K頻度説 0or1 リスクは一人あたり個人説 1/6 1/6
  • 例をもとに考えてみる4 room 1/2 実弾は6弾中1弾のみ シリンダーは固定する A→B→C→D→E→Fの順メモ メモ 0 A B C 1/6 D E F K 頻度説 0or1 リスクは一人あたり 個人説 1/6 0,1/6,1/2
  • ふりかえってみる1 単一事象 ロシアンサイコロ的問題 ルーレット的問題 頻度説 頻度説 化学物質のリスクってどっち?
  • ふりかえってみる2リスク認知 交換可能性A B C リスク評価者D E F K外から見ることが「科学的」なの?
  • ふりかえってみる3 情報量 1/2メモ メモ 0 A B C 1/6 D E F K 1/6 どれが 正しい リスク評価なの?
  • 一回まとめてみる 頻度的確率 個人確率一義性 一義的 人それぞれも可情報に 依存しない 依存する 繰り返し事象にしか困る点 適用できない 非論理的でありうる リスク認知の問題まで良い点 科学的 だと思われている 扱える確率的計算 適用可 = 適用可リスク どっちが向いてるかな?
  • 1 事実上個人確率としかいいようがない 暴露の分布 感受性の分布外挿 外挿 -6 10外挿 外挿外挿 外挿外挿 外挿PRTRデータなど 試験動物の毒性試験
  • 1 事実上個人確率としかいいようがない 暴露の分布 感受性の分布外挿 外挿 -6 10外挿 外挿 計算結果としての「確率論的リスク」は 外挿外挿 専門家の合意に基づく一連の推定手順 により構成された(間)個人確率に基づく 外挿 外挿 リスクの表現だと思うPRTRデータなど 試験動物の毒性試験
  • 2 いろいろ利点があるから・繰り返し事象も非繰り返し事象もOK (特定個人のリスク評価も可能)・情報量の違いに対応可・リスク認知の問題も扱える 個人確率個人確率 間個人 個人個人確率 確率 間個人 個人確率個人 集団 確率 個人確率人はfrequencyではなくdegree of beliefで動く
  • リスク評価が 主観 確率でいいの? 私はあなたと違って 客観的に物事を 画像 見れるんです 頻度的確率(a.k.a客観確率)
  • リスク評価が 主観 確率でいいの? 客観性の高い (間)個人確率 Evidence Logic Transparency
  • I全体のまとめ確率概念は大きく分けて確信度型と頻度型の2つある頻度型確率は繰り返し事象における比率 →厳密だが、適用範囲は狭い個人確率は信念の度合い →柔軟であり、適用範囲は広い化学物質のリスク評価における確率概念はどっち?→個人確率だと私は思う
  • IIのpreview伝統的統計学 ベイズ統計学頻度型確率 確信度型確率
  • 本日のメニュー 概念的35min I.「確率」の哲学的諸概念と  リスク解釈にとっての意味 II. 仮説検定の「筋違い」さ 統計的 30min  とベイズの本質的な利点25min III.デフォルトあるいは糊代 実務的  としての事前分布の利用
  • II.仮説検定の「筋違い」さと ベイズの本質的な利点II-1 仮説検定とはII-2 仮説検定はなぜ「筋違い」かII-3 ベイズの本質的な利点
  • II.仮説検定の「筋違い」さと ベイズの本質的な利点II-1 仮説検定とはII-2 仮説検定はなぜ「筋違い」かII-3 ベイズの本質的な利点
  • そもそも統計とは 数え上げる ことにより 現象の法則性を発見する 国勢調査記述統計学 全数調査 State→statistics 部分 全体統計的推測 帰納的推論 経験科学の発展の礎
  • 頻度論的な統計的推測の枠組み 未知ではあるが母集団 固定された パラメータ値 難 し 標本抽出 推測 い 数 演 学 繹 標本 モデル (母集団は対数正規分布 するとか)
  • 仮説検定の論理構成 「2群間に差があるか?」 差がないと仮定する(帰無仮説) t検定, U検定, F検定, カイ二乗検定, etc... データから統計量Xを求める 「データから求めたX」以上に極端となるXの値が帰無仮説が正しいという仮定のもとで得られる確率pを計算 p>有意水準 p<有意水準 帰無仮説は棄却不可 帰無仮説は棄却 (差があるとはいえないと判断) (差があると 判断 )
  • 仮想例:発病率に差があるか? 発病率 暴露群 1000人中 ^ 16人発病 θ=0.01 θ=0.016 (既知) (n=1000) 暴露群もθ=0.01だと仮定する(帰無仮説) 発病者数 (r=16) が統計量 帰無仮説(θ=0.01)が正しいとき n=1000で発病者数rが16以上となる確率を計算
  • 仮想例:発病率に差があるか? 0.12 帰 無 0.10 仮 0.08 説 p<0.05 r.series の 0.06 基 ^ 0.04 で θ=0.016 の r=16 0.02 確 0.00 率 0 5 10 15 20 25 30 発病者数 r(n=1000) Index
  • 仮想例:発病率に差があるか?帰無仮説のもとでは5%以下の確率で 0.12 帰しか起こらない稀な事象が起こった 無 0.10 仮 0.08 説 p<0.05 r.series の 暴露群は有意に発病率が高い 0.06 基 ^ 0.04 で θ=0.016 の r=16 0.02 確 0.00 率 0 5 10 15 20 25 30 発病者数 r(n=1000) Index
  • ちなみに:p値の意味は? p<0.05で 帰無仮説が棄却 帰無仮説が正しい確率が 5%以下 対立仮説が正しい確率が 95%以上 帰無仮説が正しいときに (全く同じ調査方法で)今回のデータが得られる確率が5%以下
  • II.仮説検定の「筋違い」さと ベイズの本質的な利点II-1 仮説検定とはII-2 仮説検定はなぜ「筋違い」かII-3 ベイズの本質的な利点
  • デミングの批判 http://ja.wikipedia.org/wiki/ファイル:W._Edwards_Deming.jpgWE Deming (1900-1993) 品質管理の神日本復興の立役者
  • デミングの批判 http://ja.wikipedia.org/wiki/ファイル:W._Edwards_Deming.jpgWE Deming (1900-1993) 品質管理の神日本復興の立役者 実際の問題はAとB、二つの処理の違いが有意か どうかなどではない。(両者に)差異があるとす ると・・その差異がどんなにわずかなものであっ ても実験をかなりの回数くり返せば有意となる。 サルツブルグ「統計学を拓いた異才たち」より引用
  • 仮想例:発病率に差があるか? 0.12 帰 無 0.10 仮 0.08 説 p<0.05 r.series の 0.06 基 ^ 0.04 で θ=0.016 の r=16 0.02 確 0.00 率 0 5 10 15 20 25 30 発病者数 (サンプル数1000人中) Index
  • 仮想例:発病率に差があるか? 暴露群は有意に発病率が高い 0.12 帰 無 0.10 仮 0.08 説 p<0.05 r.series の 0.06 基 ^ 0.04 で θ=0.016 の r=16 0.02 確 0.00 率 0 5 10 15 20 25 30 発病者数 (サンプル数1000人中) Index
  • 仮想例:発病率に差があるか? 帰 無 0.15 p<0.05 仮 説 0.10 r.series の ^ 基 θ=0.016 で r=8 0.05 の 確 0.00 率 0 5 10 15 発病者数 (サンプル数500人中) Index
  • 仮想例:発病率に差があるか? 暴露群の発病率は有意差なし 帰 無 0.15 p<0.05 仮 説 0.10 r.series の ^ 基 θ=0.016 で r=8 0.05 の 確 0.00 率 0 5 10 15 発病者数 (サンプル数500人中) Index
  • 仮想例:発病率に差があるか? 0.012 帰 無 0.010 仮 0.008 r=1050 説 p<0.05 r.series 0.006 の 基 ^ θ=0.016 0.004 で r=1600 の 0.002 確 0.000 率 800 1000 1200 1400 1600 1800 2000 発病者数 (サンプル数100000人中) Index
  • 仮想例:発病率に差があるか? 0.012 暴露群は有意に発病率が高い 帰 無 0.010 仮 r=10500.008 説 p<0.05 r.series 0.006 の 基 ^ θ=0.016 0.004 で r=1600 の 0.002 確 0.000 率 800 1000 1200 1400 1600 1800 2000 発病者数 (サンプル数100000人中) Index
  • 有意差の意味って? 有意差 リスク ^n=1000, θ=0.16 あり あり? ^n=500, θ=0.16 なし なし?? ^ あり?n=100000, θ=0.16 あり ^ ありn=100000, θ=0.106 あり??「有意差」はリスクの指標とはならない!
  • そもそも:目的が違う 仮説検定 リスク分析 データ データ帰無仮説 vs 対立仮説 予測・制御 科学の文法架空の敵 K.Pearson 真理 実利 あるいはその近似としての 効用を最大化する 最も尤もらしい仮説 意思決定の支援
  • そもそも:目的が違うリスク解析のゴール 統計的推論の3つのフェーズ 定量的推定 バラメータ値の 定量的推定 情報量規準 仮説検定 データマイニング 探索的データ解析
  • そもそも:目的が違うリスク解析のゴール 統計的推論の3つのフェーズ 定量的推定 バラメータ値の 定量的推定 情報量規準 仮説検定 リスク分析の専門書には 仮説検定の話は殆んど全く出てこない データマイニング 探索的データ解析
  • 仮説検定の実害(1) 不毛かつ非本質的な議論の元凶の一つ 「有意差なし」と「リスクなし」の混同 0/1的リスク認識の一つの源 薬剤疫学 J nJP ama o pd mil 1()D c20:2 p h r c e ie o, 22 e 07 5 報告 特別シンポジウム 誰得? 「インフルエンザ罹患後の異常行動と薬剤疫学」 開 催 報 告「ある特定区間における有意差のあるなし」 特別シンポジウム組織委員会: 八重ゆかり(東京大学大学院疫学・予防保 学博士後期課程) 津谷喜一郎(東京大学大学院薬学系研究科医薬政策学) 大橋 靖雄(東京大学大学院医学系研究科 共 康医学専攻生物統計学)
  • 仮説検定の実害(2) 筋違いな適用が多すぎ データが正規分布に従うか? 適合度検定しよう 有意差なし 正規分布でOK! 正規分布を仮定したモデル でリスクの予測予測が目的ならモデル選択等を使って!
  • さよなら仮説検定:生態リスク ワークショプの結論: 1. 無影響濃度は毒性試験のサマリーとしては段階的に廃止していくべきである Unclassified ENV/MC/CHEM(98)18 Organisation de Coopération et de Développement Economiques OLIS : 27-Jan-1998 Organisation for Economic Co-operation and Development Dist. : 28-Jan-1998 __________________________________________________________________________________________ Or. Eng. ENVIRONMENT DIRECTORATE Unclassified ENV/MC/CHEM(98)18 CHEMICALS GROUP AND MANAGEMENT COMMITTEE 1998 Report of the OECD Workshop onStatistical Analysis of Aquatic Toxicity OECD SERIES ON TESTING AND ASSESSMENT Number 10 Report of the OECD Workshop on Statistical Analysis of Aquatic Toxicity Data
  • さよなら仮説検定:生態リスク 毒性の強さの指標:無影響濃度 有意差あり * 無影響濃度 * 対照区 *死亡率 0 4 16 64 256 1024 化学物質濃度(mg/L)
  • さよなら仮説検定:ヒト健康 EPA/630/R-94/007 February 1995 無毒性量よりもベンチマーク容量を毒性指標として使っていくべきである EPA/630/R-94/007 February 1995 THE USE OF THE BENCHMARK DOSE APPROACH IN HEALTH RISK ASSESSMENT 1995THE USE OF THE BENCHMARK DOSE APPROACH IN HEALTH RISKTHE USE OF THE BENCHMARK DOSE APPROACH IN HEALTH RISK ASSESSMENT Risk Assessment Forum U.S. Environmental Protection Agency Washington, DC 20460
  • さよなら仮説検定:保全生態学 2003
  • 信頼区間を考えよう暴露群における発病率θの90%信頼区間 type-I type-II n=500 ● n=1000 ● n=100000 ● 0.000 0.005 0.010 0.015 0.020 0.025 0.030 発病率θ
  • ちなみに:区間推定の解釈 90%信頼区間が 0.013 < θ < 0.029 θの真の値が0.013∼0.029 の間にある確率が90% 全く同じ方法で調査および 信頼区間の算出を繰り返したときに100回中90回はθの真の値がそれらの区間に含まれる わかりにくい!
  • 頻度論的な統計的推測の枠組み 未知ではあるが母集団 固定された パラメータ値 難 し 標本抽出 推測 い 数 演 学 繹 標本 モデル (母集団は対数正規分布 するとか)
  • II-2のまとめ仮説検定とリスク分析はそもそもの目的が違うので相性が悪い有意性は誤解の元になりやすい指標結論:仮説検定は使わないのが吉区間推定的/モデル選択的な方向で!頻度主義は区間的推定に向かないと思う
  • II.仮説検定の「筋違い」さと ベイズの本質的な利点II-1 仮説検定とはII-2 仮説検定はなぜ「筋違い」かII-3 ベイズの本質的な利点
  • 頻度論的な統計的推測の枠組み 未知ではあるが母集団 固定された パラメータ値 難 し 標本抽出 推測 い 数 学 標本 モデル (母集団は対数正規分布 するとか)
  • ベイズにとってパラメータとは 未知ではあるが 未知パラメータ 固定された は確率的に パラメータ値 分布する ?確 確率 率 パラメータの値 パラメータの値 頻度主義 ベイズ主義(個人確率)
  • ベイズにとってパラメータとは 未知ではあるが 未知パラメータ 固定された は確率的に パラメータ値 分布する ? 分からなさ確 確率 率 パラメータの値 パラメータの値 頻度主義 ベイズ主義(個人確率)
  • ベイズにとってパラメータとは 未知ではあるが 未知パラメータ 固定された は確率的に パラメータ値 分布する ? 全く分からない確 確率 率 パラメータの値 パラメータの値 頻度主義 ベイズ主義(個人確率)
  • ベイズにとってパラメータとは 未知ではあるが 未知パラメータ 固定された は確率的に パラメータ値 分布する ? とてもよく分かってます確 確率 率 パラメータの値 パラメータの値 頻度主義 ベイズ主義(個人確率)
  • ベイズによる統計的推測の枠組み 事前分布 事後分布確率 + データ パラメータの値 パラメータの値 ベイズの定理
  • ベイズの定理 事後分布  尤度*事前分布 f (data | param) p( param) p( param | data) = " f (data | param) p( param)dparamデータを得た後の! データを得る前の 確信の度合い 確信の度合い パラメータとデータの 適合ぐあい(モデル)
  • 仮想例:発病率の推定 暴露群 ^ 1000人中16人発病 θ=0.016 事後分布=尤度*事前分布 f (r = 16 | θ ) p(θ ) p(θ | r = 16) = ∫ f (r = 16 | θ ) p(θ )θ p(θ | r = 16) ∝ Be(16 +1,1000 −16 +1)€ 事後分布!
  • 仮想例:発病率の推定 暴露群^ 1000人中16人発病θ=0.016 100 x <- seq(0, 0.04, length=100) y <- dbeta(x,1+16,1000-16+1) plot(x, y,type="h") 事後分布 80 60y 40 20 0 0.00 0.01 0.02 0.03 0.04 発病率θ x
  • 仮想例:発病率の推定 暴露群^ 1000人中16人発病θ=0.016 100 x <- seq(0, 0.04, length=100) y <- dbeta(x,1+16,1000-16+1) plot(x, y,type="h") 事後分布 80 60y 90%信用 40 区間 20 0 0.00 0.01 0.02 0.03 0.04 発病率θ x
  • ベイズ的な区間推定の解釈 90%信用区間が 0.011 < θ < 0.024 θが0.011∼0.024の間に ある確率が90% わかりやすい!
  • ベイズとリスク分析の相性の良さ 事前分布 Probability 事後分布 100 80 1.4 Probability 1.2 60 +データ→ Effect size Effect Size y 1.0y 40 0.8 20 0.6 0.00 0.01 0.02 0.03 0.04 0 x 発病率θ 0.00 0.01 0.02 0.03 0.04 発病率θ x 常にEffect sizeとProbabilityの 情報の全体を取り扱う
  • ベイズとリスク分析の相性の良さ 事前分布 Probability 事後分布 100 80 1.4 Probability 1.2 60 +データ→ Effect size Effect Size y 1.0y 40 0.8 20 0.6 0.00 0.01 0.02 0.03 0.04 0 x 発病率θ 0.00 0.01 0.02 0.03 0.04 発病率θ x Risk = f(Effect size,Probability)
  • ベイズとリスク分析の相性の良さ 事前分布 Probability 事後分布 100 トミー 80 1.4 Probability 1.2 マツ 60 +データ画像 → Effect size Effect Size y 1.0y 40 0.8 20 0.6 0.00 0.01 0.02 0.03 0.04 0 x 発病率θ 0.00 0.01 0.02 0.03 0.04 発病率θ x ベイズとリスクの相性はばっちり Risk = f(Effect size,Probability)
  • それぞれの手法の見ているもの y 100 80 60 40 20 0 ベイズ 0.00 0.01 0.02 0.03 0.04 発病率θ x
  • それぞれの手法の見ているもの y 100 80 60 40 20 0 ベイズ 0.00 0.01 0.02 0.03 0.04 発病率θ 区間推定 x
  • それぞれの手法の見ているもの仮説検定 y 100 80 60 40 20 0 ベイズ 0.00 0.01 0.02 0.03 0.04 発病率θ 区間推定 x
  • *本質論じゃなくて実用的な話 100 80 60 y 40 20 0 0.00 0.01 0.02 0.03 0.04 発病率θ x 発病率θ Bootstrap 最尤法でも良くね?
  • 乱暴に言うと実はbootstrapとMCMCって ユーザー視点から見ると実は似てるかも ベイズ bootstrap (MCMC) データ データセットを データ 尤度と事前情報に 応じてパラメータを セット 乱数的に生成 セット 乱数的に生成 データ dd dd セット 最尤推定 100 100Probability Effect Probability Effect 80 80 60 60y y 40 40 20 20 0 0 0.00 0.01 0.02 0.03 0.04 0.00 0.01 0.02 0.03 0.04 x x パラメータの推定分布 パラメータの事後分布
  • *本質論じゃなくて実用的な話 100 80 60 y 40 20 0 0.00 0.01 0.02 0.03 0.04 発病率θ x 発病率θ Bootstrap 最尤法でも良いかも*ただし事前分布を積極的に利用しない場合に限る
  • II全体のまとめ仮説検定の枠組みはリスク分析には向かない→区間推定的/モデル選択的方向でベイズ推定は常にprobabilityとeffect size全体の情報を取り扱う→リスク分析に向く!実用上はbootstrapとベイズは大差ないかもしれない →事前分布の利用がキモ IIIへ
  • 本日のメニュー 概念的35min I.「確率」の哲学的諸概念と  リスク解釈にとっての意味 II. 仮説検定の「筋違い」さ 統計的 30min  とベイズの本質的な利点25min III.デフォルトあるいは糊代 実務的  としての事前分布の利用
  • III.デフォルトあるいは糊代として の事前分布の利用 III-1 リスク分析と事前分布 III-2 助け合いvia事前分布:階層ベイズ III-3 糊代 としての事前分布の利用
  • III.デフォルトあるいは糊代として の事前分布の利用 III-1 リスク分析と事前分布 III-2 助け合いvia事前分布:階層ベイズ III-3 糊代 としての事前分布の利用
  • 事前分布とは データを得る前のパラメータの値に 関する確信の度合いを示す 事前分布 事後分布確率 + データ パラメータの値 パラメータの値
  • 事前分布とはデータを得る前のパラメータの値に 関する確信の度合いを示す データがない場合の推定値 デフォルト値!
  • デフォルト値をベイズ的に眺める よくある リスク評価手法 データがない デフォルト値 1.0 0.8 0.6 y 1.4 0.4ベイズ解析 0.2 1.2 0.0 0.00 0.01 0.02 0.03 0.04 1.0 y x 0.8 0.6 0.00 0.01 0.02 0.03 0.04 x 事前分布 リスク分析
  • デフォルト値をベイズ的に眺める よくある リスク評価手法 データがない デフォルト値 1.0 事前分布はリスク評価において 0.8 0.6 より好ましい性質をもつ y 1.4 0.4ベイズ解析 0.2 1.2 デフォルト である 0.0 0.00 0.01 0.02 0.03 0.04 1.0 y x 0.8 0.6 0.00 0.01 0.02 0.03 0.04 x 事前分布 リスク分析
  • ちなみに:事前分布とデータの関係 事前分布 データ 事後分布 n=500 80 70 60 60 50 40 y 40 y 30 40 20 20 10 30 0 0 0.00 0.01 0.02 0.03 0.04 0.00 0.01 0.02 0.03 0.04 20y x x 10 n=10000 0 100 150 200 250 300 350 0.00 0.01 0.02 0.03 0.04 300 x 250 200 150 y y 100 50 50 0 0.00 0.01 0.02 0.03 0.04 0 x 0.00 0.01 0.02 0.03 0.04 x
  • ちなみに:事前分布とデータの関係 事前分布 データ 事後分布 n=500 80 70 60 60 データが多い場合も少ない場合も 50 40 y 40 y 30 40 20 一貫したやり方で対応できる 20 10 30 0 0 0.00 0.01 0.02 0.03 0.04 0.00 0.01 0.02 0.03 0.04 リスク分析の枠組みが構築可能 20y x x 10 n=10000 0 100 150 200 250 300 350 0.00 0.01 0.02 0.03 0.04 300 x 250 200 150 y y 100 50 50 0 0.00 0.01 0.02 0.03 0.04 0 x 0.00 0.01 0.02 0.03 0.04 x
  • 事前分布はどう決める?1 無情報分布(平らな分布) 最尤法とほぼ同等の結果が得られる2 他のものから決める ・過去の研究・知見など ・歴史的コンセンサス ・専門家へのインタビュー 猫の手も借りたいときの奥の手3 データそのものから決める 階層ベイズモデル
  • III-1のまとめ事前分布は柔軟な デフォルト である →リスク分析の枠組みと親和性が高い事前分布の決め方はいろいろある →データそのものから決める III-2へ
  • III.デフォルトあるいは糊代として の事前分布の利用 III-1 リスク分析と事前分布 III-2 助け合いvia事前分布:階層ベイズ III-3 糊代 としての事前分布の利用
  • 例:地域別発病率仮想データの解析 仮想データの作成 発病率一定 2000地域 人口は100∼10000 θ=0.0001 人の一様分布 2000地域の発病率の仮想データを 乱数的に作成
  • 例:地域別発病率仮想データの解析 0.0030 ● ● ● 発 ● 0.0020 病 ● ● z1.new ● ● 率 ● 0.0010 ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●●● ●●●●● ●● ●●● ●●●●● ● ●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●● ● ● ● ● ● ●● ● ●●●●●●●●● ● ● ●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ● ●●●●●● ● ●●● ●●●●● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●● ●●●● ● ●● ●●● ● ●● ● ●●● ●●●● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 人口 y.new
  • 例:地域別発病率仮想データの解析 0.0030 ● ● 人口が小さいほど 高リスク? ● 発 ● 0.0020 病 ● ● z1.new ● ● 率 ● 0.0010 ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●●● ●●●●● ●● ●●● ●●●●● ● ●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●● ● ● ● ● ● ●● ● ●●●●●●●●● ● ● ●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ● ●●●●●● ● ●●● ●●●●● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●● ●●●● ● ●● ●●● ● ●● ● ●●● ●●●● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 人口 y.new
  • 例:地域別発病率仮想データの解析 0.0030 p=0.002, ● ● ● 有意だ!大変だ! 発 ● 0.0020 病 ● ● z1.new ● ● 率 ● 0.0010 ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●●● ●●●●● ●● ●●● ●●●●● ● ●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●● ● ● ● ● ● ●● ● ●●●●●●●●● ● ● ●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ● ●●●●●● ● ●●● ●●●●● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●● ●●●● ● ●● ●●● ● ●● ● ●●● ●●●● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 人口 y.new
  • 例:地域別発病率仮想データの解析 0.0030 ● ● ● バイアスを避けたい! 発 ● 0.0020 病 疾病地図における ● ● z1.new ● ● 小地域問題 率 ● 0.0010 ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●●● ●●●●● ●● ●●● ●●●●● ● ●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●● ● ● ● ● ● ●● ● ●●●●●●●●● ● ● ●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ● ●●●●●● ● ●●● ●●●●● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●● ●●●● ● ●● ●●● ● ●● ● ●●● ●●●● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 人口 y.new
  • 経験ベイズ法を使ってみよう 地域ごとの発病率 θは連続的 に分布すると仮定 地域ごとの データそのもの頻度 から最尤推定 発病率 θ 事前分布 として利用
  • 経験ベイズ法を使ってみよう 地域ごとの発病率 θは連続的 に分布すると仮定 250 2000地点の 200データそのもの 150 y.temp から最尤推定 頻度 100 50 0 0.000 0.005 0.010 0.015 0.020 0.025 0.030Gamma(0.1,1115) x 発病率 θ
  • 事前分布を使って解析してみる 事前分布Gamma(0.1,11 事後分布 15) 250頻 400 200 地点ごと +のデータ 300 150度 y.temp y.temp 200 100 100 50 0 0 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.000 0.005 0.010 0.015 0.020 0.025 0.030 x x 発病率 θ ベイズの定理
  • 地域別発病率の推定結果 通常の方法 経験ベイズ推定値 0.0030 0.0030 ● ●発 ● ● 0.0020 0.0020 z1.new.eb ● ●病z1.new ● ● ● 0.0010 0.0010 ● ● ● ●率 ●● ● ● ● ●● ●● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ●● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ●● ●● ●● ● ● ● ●● ● ●● ● ●● ● ●● ● ●● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ● ●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ●● ●● ●● ●●● ●● ●● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ●● ●● ● ●● ●● ● ●● ● ● ●● ● ● ● ● ●●●●● ● ●● ● ● ●●● ●●● ●●● ●●●● ●●●●● ●● ●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ● ●●●● ●●●● ●●●● ● ●●● ● ●● ● ●●●● ●●● ●● ●●● ● ●● ● ● ●● ● ● ● ●●●● ●● ● ● ● ●● ● ● ● ● ●●●●● ● ●●●● ●●●●●● ●●●●●●●● ● ● ● ● ●● ● ● ● ●● ●● ●●● ●● ●●● ● ●●● ●●●●● ● ● ●●● ●● ● ● ●● ● ●●●● ●●●●●● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ●●●●●● ●● ● ● ●●●●● ● ●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●● 0.0000 ● ●●●●●●●●●● ●●●●●●●●●● ●●● ● ● ●●●● ●●● ● ● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●● ● ●●●●●●●● ●●●●●● ●●● ● ●●●● ●●● ● ● ●● ●● ● ●● ●●●●● ●●●●●● ●●●● ●●● ●●●●●●●●●●●●●●●●● ●● ●●●●●●●●●●●●●●●●● ● ●●● ● ● ●●● ●●● ● ●●● ● ● ● ●● ●●●●●●●● ●●●●●●●●● ●●●●●●●●●● ●●●●●●●●●● ●●●● ●●●●●●● ● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●●●●●●● ● ●● ●●● ●● ● ●●● ●●● ● ● ● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●● ●● ● ●●● ●●● ● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 0 2000 4000 6000 8000 10000 y.new y.new 人口
  • 地域別発病率の推定結果 0.01 通常の方法 経験ベイズ推定値 0.0030 0.0030 250 事前分布 ● 200 ●発 ● 150 y.temp ● 0.0020 0.0020 100 z1.new.eb ● ●病z1.new 50 ● ● 0 ● 0.0010 0.0010 ● ● ● ● 0.000 0.005 0.010 0.015 0.020 0.025 0.030率 ●● ● ● ● ●● ●● ● x ● ● ● ● ● ●● ●● ●● ● ● ● ● ●● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ●● ●● ●● ● ● ● ●● ● ●● ● ●● ● ●● ● ●● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ● ●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ●● ●● ●● ●●● ●● ●● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ●● ●● ● ●● ●● ● ●● ● ● ●● ● ● ● ● ●●●●● ● ●● ● ● ●●● ●●● ●●● ●●●● ●●●●● ●● ●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ● ●●●● ●●●● ●●●● ● ●●● ● ●● ● ●●●● ●●● ●● ●●● ● ●● ● ● ●● ● ● ● ●●●● ●● ● ● ● ●● ● ● ● ● ●●●●● ● ●●●● ●●●●●● ●●●●●●●● ● ● ● ● ●● ● ● ● ●● ●● ●●● ●● ●●● ● ●●● ●●●●● ● ● ●●● ●● ● ● ●● ● ●●●● ●●●●●● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ●●●●●● ●● ● ● ●●●●● ● ●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●● 0.0000 ● ●●●●●●●●●● ●●●●●●●●●● ●●● ● ● ●●●● ●●● ● ● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●● ● ●●●●●●●● ●●●●●● ●●● ● ●●●● ●●● ● ● ●● ●● ● ●● ●●●●● ●●●●●● ●●●● ●●● ●●●●●●●●●●●●●●●●● ●● ●●●●●●●●●●●●●●●●● ● ●●● ● ● ●●● ●●● ● ●●● ● ● ● ●● ●●●●●●●● ●●●●●●●●● ●●●●●●●●●● ●●●●●●●●●● ●●●● ●●●●●●● ● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●●●●●●● ● ●● ●●● ●● ● ●●● ●●● ● ● ● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●● ●● ● ●●● ●●● ● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 0 2000 4000 6000 8000 10000 y.new y.new 人口
  • 階層ベイズ法のご利益 発病率 θの 領域レベルでの分布地域レベルでの 地域レベルでの 地域レベルでの 発病率 θ 発病率 θ 発病率 θ 事前分布を介した データの 助け合い !
  • 実例:環境中濃度分布推定目的:地点ごとの環境中濃度分布の推定 領域レベル地点データ 地点データ 地点データ個々のモニタ 個々のモニタ 個々のモニタリングデータ リングデータ リングデータ
  • の要素が様々な段階で関与する複雑な現象を,比 実例:環境中濃度分布推定較 的 単 純 な サ プ モ デル の 階 層 的 組 み 合 わ せ を 用 い 環境中濃度推定の階層ベイズモデルて 柔 軟 に モ デル 化 で き る 有 用 な 手 法 と して 広 く 用い ら れ て き て い る。 トye・ ipr 領域レベル分布パラメータ pl 「1tr ll 1ees a 地点レベル Prmtr aaees分布パラメータ 個々の Dt aaモニタリングデータF 9 1 h d a 「 m f u ・ i r r h c l o e , v林・柏木 i . T e i 9 a o o l h e a c i a m d l 0 (2009) a s l :rnol1(reaevlibe.etn1e:xdadmy1jlrtda・alsRca11sne
  • l   1 a 0 1   1 1 9   l 】 実例:環境中濃度分布推定   i   1 1 0   1 9 (   1   1 1   名 1   2 1 9   1 1 l   i 環境中濃度の推定結果   息 Stnme() ieubrj く l   i 1 l i 1 l 9 i 1 0   1 i   推 i   1   0 1 5 1 定 i   1 9 1   i     l i 5 1 l i   9 1 0 濃 W   1 1   1 1   N   l i   1 度 I 1   1   1 1   j W 1   分 5   布 Stnme() ieubrj。 Fig.2Posteriorandpredicteddほributions. 地点番号 林・柏木 (2009) C r { e t a i n a e h w i l 1 1 , c l . r o b r o l ; n r t o s r s o n n o 1 o s a e E r r a
  • l   1 a 0 1   1 1 9   l 】 実例:環境中濃度分布推定   i   1 1 0   1 9 (   1   1 1   名 1   2 1 9   1 1 l   i 環境中濃度の推定結果   息 8datau b r j Stnme() ie 14data く l   i 1 l i 1 (ND13%) l 9 1 i 1 0   1 i   (ND100%) 推 i   1   0 1 5 1 定   1 9 i 1   i     l i 5 1 l i W   9 1 0 濃   1 1   1   N 1   l i   1 度 1 I   1   1 1   j W 1   分 5  4data 1data 布 (ND100%) (ND100%) Stnme() ieubrj。 Fig.2Posteriorandpredicteddほributions. 地点番号 林・柏木 (2009) C r { e t a i n a e h w i l 1 1 , c l . r o b r o l ; n r t o s r s o n n o 1 o s a e E r r a
  • l   1 a 0 1   1 1 9   l 】 実例:環境中濃度分布推定   i   1 1 0   1 9 (   1   1 1   名 1   2 1 9   1 1 l   i 環境中濃度の推定結果   息 8datau b r j Stnme() ie 200data 14data く l   i 1 l i 1 (ND13%) l 9 1 i 1 0   i   (ND100%) 1 in total 推 i   1   0 1 5 1 定   1 9 i 1   i     l i 5 1 l i W   9 1 0 濃   1 1   1   N 1   l i   1 度 1 I   1   1 1   j W 1   分 5  4data 1data 布 (ND100%) (ND100%) Stnme() ieubrj。 Fig.2Posteriorandpredicteddほributions. 地点番号 林・柏木 (2009) C r { e t a i n a e h w i l 1 1 , c l . r o b r o l ; n r t o s r s o n n o 1 o s a e E r r a
  • 実例:環境中濃度分布推定 事前分布を介したデータの 助け合い 領域パラメータ地点パラメータ 地点パラメータ 地点パラメータ 個々のモニタ 個々のモニタ 個々のモニタ リングデータ リングデータ リングデータ
  • III-2のまとめ 階層ベイズモデルでは データの背後に存在する構造を 組み込むことにより事前分布を介した 助け合い が可能になる
  • III.デフォルトあるいは糊代として の事前分布の利用 III-1 リスク分析と事前分布 III-2 助け合いvia事前分布:階層ベイズ III-3 糊代 としての事前分布の利用
  • リスク分析とは 事前分布
  • 個別と一般をつなぐ 事前分布を介したデータの 助け合い 領域パラメータ地点パラメータ 地点パラメータ 地点パラメータ 個々のモニタ 個々のモニタ 個々のモニタ リングデータ リングデータ リングデータ
  • 個別と一般をつなぐ 事前分布を介したデータの 助け合い 領域データp(地点パラメータ,領域パラメータ¦観測データ) p(観測データ¦地点パラメータ) p(地点パラメータ¦領域パラメータ)地点データ地点データ 地点データ 地点データ 地点データ 地点データ p(領域パラメータ)個々のモニタ 個々のモニタ 個々のモニタリングデータ リングデータ リングデータ
  • 個別と一般をつなぐ 階層ベイズモデルの一般化 一般論 個別論 個別論 個別論個々のデータ 個々のデータ 個々のデータ
  • 個別と一般をつなぐ 階層ベイズモデルの一般化 一般論p(個別パラメータ,一般パラメータ¦データ) p(データ¦個別パラメータ) p(個別パラメータ¦一般パラメータ) 個別論地点データ 個別論 個別論 個別論 個別論 個別論 p(一般パラメータ)個々のデータ 個々のデータ 個々のデータ
  • 観察とプロセスをつなぐ ベイジアンPBPKモデルプロセス 階層ベイズ 観測 データ Chu et al. (2009) in TAP
  • 観察とプロセスをつなぐ ベイジアンPBPKモデル プロセス 階層ベイズp(プロセス, パラメータ¦データ) p(データ¦プロセス,パラメータ) p(プロセス¦パラメータ) 観測 p(パラメータ) データ Chu et al. (2009) in TAP
  • 観察とプロセスをつなぐ ベイジアンPBPKモデル 分布データ 体内濃度データ プロセス 階層ベイズp(プロセス, パラメータ¦データ) p(データ¦プロセス,パラメータ) p(プロセス¦パラメータ) 観測 p(パラメータ) データ移動分散モデル 食物網モデル Chu et al. (2009) in TAP
  • 過去と未来をつなぐデータの追加による推定の逐次更新 事前分布 事後分布確 + 新しい 確率 データ 率確 + 新しい 確率 データ 率確 + 新しい 確率 データ 率
  • 異なるソースを繋ぐ異なるソースを事前分布として取り込む ある新型感染症の 日本における毒性を推定したい 事前分布 事後分布海外における 国内における 国内における新型感染症 データ + 新型感染症 データ 新型感染症の 毒性の推定値 少ない!
  • 推定の数珠つなぎ ベイジアンネットワーク風が吹く 土ぼこり 盲人 三味線 猫が減る鼠が増える 桶が齧られる 桶屋が儲かる
  • 推定の数珠つなぎベイジアンネットワークインフル タミフルエンザ 処方 異常行動
  • 推定の数珠つなぎベイジアンネットワークインフル タミフルエンザ 処方異常行動 重篤化
  • 推定の数珠つなぎ ベイジアンネットワーク ARTICLE IN PRESS J. Jaworska et al. / Regulatory Toxicology and Pharmacology xxx (2010) xxx–xxx 53.3. Bayesian networks as an operational tool of the ITS inference ramework ARTICLE IN PRESS Carcinogenic Ames試験 The conceptual ITS inference framework requires to be Regulatory Toxicology and Pharmacology xxx (2010) xxx–xxx imple- MLA試験mented through a computational tool in order to become opera- ional. We propose to use Bayesian networks, which are definedContents lists available at ScienceDirect as T1Ames T2MLAgraphical models of probabilistic relationships between variablesof interest in a decision-making context (Pearl, 1988; Heckerman Regulatory Toxicology and Pharmacologyet al., 1995; Jensen and Nielsen, 2007). A Bayesian network is a for- Fig. 2. Bayesian network of two in vitro genotoxicity tests to reason about the j o u r n a l h o m e p a g eunobservable i e r . c o m / l o c a vivo r t p h : w w w . e l s e v state of in t e / y rodent carcinogenicity. The arrows (arcs) modelmal tool that is based on the axioms of probability theory (Doyle, probabilistic causality quantified by conditional probabilities.1992). Its objective is to combine complex, and possibly conflicting, nformation by probabilistic reasoning and to generate the final re- ult as a posterior probability distribution, which, in our chemical testing under REACH: A Bayesian network Towards optimization of case, is better illustrate the useful features of Bayesian networks for he probability that a chemical compound has a particularTesting Strategies approach to Integrated property. chemical safety evaluation and ITS development, we provide in this Bayesian networks can be regarded as decision-support frame- section a simple example of a Bayesian network for two in vitro Joanna Jaworska a,*,relationships b, Tom Aldenberg c used for supporting decision-making on the in vivo activityworks because of their ability to explain causal Silke Gabbert and to tests, a erve as prediction models (CastilloSocial Sciences, Environmental Economics 2000; Resources Group, Wageningen University, P.O. Box a stylized example which is not meant to et al., 1997; Pearl, and Natural of a chemical. We use 8130, 6700 EW Wageningen, The Netherlands Modeling & Simulation Biological Systems, Procter and Gamble, Temselaan 100, 1853 Strombeek-Bever, Brussels, Belgium b Department ofKjaerulff and Madsen, 2008). Bayesian networks haveBox 1, NL-3720BA Bilthoven, Therepresent a complete ITS. Rather, we attempt to exemplify the ba- RIVM, Antonie van Leeuwenhoeklaan 9, P.O. emerged in c Netherlands he mid 1980s, and have been shown to be remarkably effective sic characteristics of Bayesian inference, and we illustrate how the Towards optimization of chemical testing under or encoding uncertain knowledgec and i n f o available and bnew a c tinference framework can support decision-making on chemical a r t i l e using a s t rdata to support decisions (Charniak, 1991; Holmes and Jain,Testing hazard(ITSs) arerisk in situations as presented in Fig. 1. on Article history: Integrated Strategies and considered tools for guiding resource efficient decision-making2008). As a result, they haveReceived 15 May widely used for more than become 2009 chemical hazard and risk management. Originating in two in vitro genotoxicity tests, the Ames test Let us assume that the mid-nineties from research initiatives on min- REACH: A Bayesian network approach to Available online xxxx imizing animal use in toxicity testing, ITS development still lacks a methodologically consistent frame- wo decades in many different fields such as, for example, work for incorporating all relevant information, for updating and reducingare potentially available to as- causal and Mouse Lymphoma Assay (MLA), uncertainty across testing earning (Steyvers et al., 2003; GopnikStrategies 2004; see Pourret for handling the carcinogenic potential of a chemical (Fig. 2). The selection Keywords: Integrated Testing et al., stages, and sess conditionally dependent evidence. This paper presents a conceptual and methodological proposal for improving ITS development. We discuss methodological shortcomings ofet al., 2008 for an overview of applications). ITS current ITS approaches, and we to be used asrequirements for ITS inputs to and optimization. network, ac- of tests, identify conceptual information development a Bayesian Integrated Testing Strategies Conceptual requirements for development Bayesian networks have Bayesian inference been frequently applied in medical First, ITS development should be based on probabilistic methods in order to quantify and update various action. This counts for the possible mode(s), or mechanism(s), of Bayesian networks uncertainties across testing stages. Second, reasoning should reflect a set of logic rules for consistentlydiagnosis and clinical decision-making (see, for example, Spiegel- probabilities of related events. important should be hypothesis-driven and should reflect constructing Quantitative Weight-of-Evidence combining illustrates the Third, inference role of expert knowledge forhalter et al., 1989; Heckerman et al., 1995; Wang et al.,causal relationships in order toinformation-theoretic approach to ITS development, the To meet these 1999; a Bayesian network.decision-making across testing stages. ‘‘ITS inference requirements, we propose an coherently guideDendukuri and Joseph, 2001; Georgiadis et al., 2003; Branscum which can In made operational by using Bayesian networks. As an illustration, we examine framework”, be Fig. 2, the direction of the arcs symbolizes probabilistic causal-
  • III-3のまとめ
  • III-3のまとめ 事前分布& 観測とプロセス 個別と一般 ベイズの定理過去と未来異なるソース 推論の数珠つなぎ
  • III全体のまとめ 事前分布はデフォルトである 事前分布は糊代である 事前分布&ベイズ解析は21世紀のリスク解析において非常に有効なツールキットを提供する
  • ふう
  • 全体をまとめます1 リスクは個人確率で捉えた ほうがよさそうだ ベイズ統計は個人確率に基づく ベイズはEffect sizeとII Probabilityの全体を常に考慮 ベイズはリスク解析と相性がとても良い 事前分布はデフォルトあるIII いは糊代である ベイズはリスク解析の実務においても 非常に有効なツールキットを提供
  • CONCLUSIONRisk+Bayes = ご清聴いただきありがとうございました