東京大学医学系研究科
      倉橋一成
   第1章
    ◦ 確率、グラフ、因果モデル入門
   確率は何を表現しているか?
    ◦ 科学的に記述できない不確実性
    ◦ 例外の部分
      わざわざ記述する必要がない場合
      モデルをシンプルにするために記述しない場合
   確率の公理(離散、ベイズの場合、確率は確信度を表す)
    1. 0≦P(A)≦1
    2. P(確実な事象)=1
    3. AとBが排反であればP(A∨B)=P(A)+P(B)
   P(A)に関して2種類の記述方法
    ◦ 積集合を用いた表現            Σi P(A,Bi)
      Bについて周辺をとる
      P(A)はAの周辺確率
    ◦ 条件付き確率を用いた表現         Σi P(A|Bi)P(Bi)
   条件付き確率に対する記述
    ◦ 伝統的な記述      P(A|B)=P(A,B)/P(B)
      P(A,B)をP(B)で基準化している
      P(A|B) は常にP(A,B)より小さくはならない
       Bである事がわかれば情報量が減るということはない
       P(B)はBが分かったときの驚きの程度(頻度論的には起こりにくさ)
    ◦ ベイズの定理      P(B|A)=P(A|B)P(B)/P(A)
      伝統的な記述を拡張した記述
      数学的には同値だが解釈に意味がある
         P(B|A) :データが得られた後の仮説の確信度(事後確率)
         P(A|B) :Bが真である場合に得られる尤度
         P(B) :仮説の事前確信度(事前確率)
         P(A) :事後確率の和が1になるための基準化定数
   独立と条件付き独立
    ◦ P(A)=P(A|B)であるときAとBは独立
    ◦ P(A|B,C)=P(A|C)のときAとBはCを与えた下での条件付き独立
      (A独立B|C)と書く場合もある
       疫学はこの書き方が多い
   サイコロの例
    ◦ サイコロを2回振って2回とも同じ値が出る確率
       事象A:2回とも同じ値が出る
       事象Bi:1回目に出た値がiである
    ◦ P(A)=Σi P(A|Bi)P(Bi)=Σi 1/6・ 1/6 =1/6
       P(A)=1/6、P(A|Bi)=1/6だからAとBiは独立
       P(A,Bi)=1/36≠0だからAとBiは排反ではない


         独立と排反は異なった概念
    条件付き確率の拡張
                                                 P(○|□)
    ◦ P(A) =P(A|B)P(B)                  不確定な事象                確定な事象
    ◦ P(A|K)=P(A|B,K)P(B|K)             (まだ起こっていない)           (もう起こった)
       新たに条件付ける際は、条件付けるもの(この場合はK)を確定
        な事象の側に入れれば良い
   連鎖公式
    ◦ P(E1,E2,E3,E4)=P(E1|E2,E3,E4)P(E2|E3,E4)P(E3|E4)P(E4)
   ベイズの定理          Hが真である場合に            仮説の事前確信度
                    データが得られる尤度


                      P(e|H) P(H)
              P(H|e)=
                         P(e)                     e:得られた証拠(データ)
                                                  H:確かめたい仮説
      データが得られた後の
      仮説の確信度                  正規化定数
                              ・P(H|e)+P(¬H|e)=1とするための基準化
                              ・ベイズ事後確率の分母
                              ・Hが多値の場合はΣi P(e|Hi)P(Hi)
    ◦ カジノの例
      隣の人が「12だ!」と叫んだとき、その人がダイスをやってるかルーレッ
       トをやってるか?
        P(12|ダイス)=1/36、P(12|ルーレット)=1/38である
        カジノ内の割合がP(ダイス)=7/10、P(ルーレット)=3/10とする
      P(ダイス|12)=(1/36*7/10)/(1/36*7/10+1/38*3/10)=0.711
        事後確率は事前確率よりわずかに大きくなっている
   用語
    ◦ 同時分布の場合根元事象が集まって点(配列)を作る
    ◦ 配列全体が確率空間(確率モデル)となる
      コインを3回投げる例
       根元事象:H or T が3個
       点(配列):HHH, HHT, …, TTT
       確率空間:配列の全体集合({HHH, HHT, …, TTT})
   ベイズの定理をオッズで表現
    ◦ ベイズの式をP(¬H|e)で割る
       P(H|e) P(e|H) P(H)
             =                      仮説Hに対して、
      P(¬H|e) P(e|¬H) P(¬H)          ・尤度比:診断的・後ろ向き
                                     ・事前オッズ:予測的・前向き
                                    な裏付け
         事後オッズ      尤度比    事前オッズ
    ◦ P(H|e)=O(H|e)/1+O(H|e)を利用すると事前オッズと尤度比で
      事後確率を計算できる
   期待値                       :E(X)   =Σx in Dx xP(x)
   条件付き期待値                   :E(X|y) =Σx in Dx xP(x|y)
    ◦ Σx in Dx (x-x’)P(x|y)を最小
      x’に対しての平均二乗誤差
    ◦ 最良推定量(←確認)
   変数変換の期待値:E[g(x)]                       =Σx in Dx g(x)P(x)
    ◦ 分散        :σx2       =E[(X-E(X))2]
      g(X)=(X-E(X))2
   同時分布関数のー:E[g(X, Y)] =Σxy in Dxy g(x,y)P(x,y)
    ◦ 共分散       :σxy       =E[(X-E(X))(Y-E(Y))]
      g(X, Y)=(X-E(X))(Y-E(Y))
    ◦ 相関係数 :ρxy     =σxy/σx σy (←行列確認)
    ◦ 回帰係数 :ρxyσx/σy=σxy/σy2     →行列:(XX)XY
   グラフォイド原理
   (Pearl and Paz, 1987, Advances in Artificial Intelligence-II, 357-363)
    ◦ 条件付き独立を(A独立B|C)と書く
       P(A|B,C)=P(A|C)
       部分集合Aから部分集合Bまでの全ての道は部分集合Cの要素
        によって切断される
    ◦ 対称性         :(X独立Y|Z)                               ⇒(Y独立X|Z)
       YからXに関する追加の情報がなければXからYに関する追加の情報は得られない
    ◦ 分解性         :(X独立YW|Z)                              ⇒(X独立Y|Z)
       2つの項目を組み合わせた情報がXと関係のない場合は、それらの項目それぞれもX
        とは関係ない
    ◦ 弱結合性 :(X独立YW|Z)                                     ⇒(X独立Y|ZW)
       Xとは関係のない情報Wが得られても、もともとXと関係ないYはXと関連をもたない
    ◦ 縮約性         :(X独立Y|Z) and (X独立W|ZY)                 ⇒(X独立YW|Z)
       Xと関係のないYが得られたあとにWがXと関係しないならば、WはYの情報を得る前に
        もXと関係がない
    ◦ 交差性         : (X独立Y|ZW) and (X独立W|ZY)⇒(X独立YW|Z)
       縮約性とほぼ同値
   因果グラフ
    ◦ V 頂点(ノード)       :確率変数
    ◦ E 辺(リンク)        :変数間になんらかの関係がある
        意味は分野によって異なる
        辺で結ばれた2つの変数は隣接する
        有向辺(矢線)、無向辺、双方向辺(交絡因子の存在を示す)
        全ての辺が矢線であれば有向グラフ
          巡回(X→Y, Y←X)していても良いが自己ループ(X→X)は認めない
          巡回のないグラフを非巡回的有向グラフ(directed acyclic graph,DAG)
           全ての頂点が高々1つしか親をもたないDAGをツリー
             全ての頂点が高々1つしか子をもたないツリーを閉鎖経路
      頂点の全ての組が連結しているグラフは完全である
    ◦ スケルトン           :グラフGから全ての辺を除いた状態
    ◦ 道               :先行する辺の頂点から始まる辺の列
      矢線の向きが同じ場合は有向道
      変数間に道があれば連結されている、なければ切断されている
    ◦ 親、子、子孫、先祖、配偶者(交絡されている変数同士)
    ◦ ルート      :親を持たない頂点
    ◦ シンク      :子を持たない頂点
   ベイジアン・ネットワーク
    ◦ 同時確率関数の簡潔な表現を円滑に行うことが主点
      無向グラフ:マルコフ・ネットワーク
      有向グラフ:ベイジアン・ネットワーク
    1. 入力情報の主観性
    2. 情報更新におけるベイズの定理への依存性
    3. 1973年のThomas Bayesのエッセイで強調されているように、
       因果に基づく推論と証拠に基づく推論の相違性
    ◦ DAGに基づく逐次的因数分解
      X1, …, Xnの同時分布を連鎖公式を使って分解する
      P(x1, …, xn)=∏j P(xj|x1, …, xj-1)
       xjはxj+1以降の変数には依存せず、x1, …, xj-1は非子孫となる
      ここでxjが非子孫の一部(PAj)以外とは独立である場合
       P(xj|x1, …, xj-1)= P(xj|PAj) → P(x1, …, xn)=∏j P(xj|PAj)
       PAj :マルコフ的親と定義
   ベイジアン・ネットワーク(DAG)作成の手順
    ◦ Xjと非子孫を分離する最小集合のPAjの各頂点から矢線


①     (X1, X2)が従属   X1からX2に矢線

② X3が{X1, X2}と独立    矢線を引かない


     ・X1がX3を分離       ・X1からX3に矢線
     ・X2がX3を分離       ・X2からX3に矢線
     ・どちらでもない        ・ 両方からX3に矢線
   スプリンクラーの例
    ◦ 季節        :春~冬の4値                            X1
    ◦ その他       :真偽の2値                             季節
      1から5に矢線が無い
        季節の効果は他の変数を
         通じて滑りやすさに影響を
         与える
                                           X2            X3
                                          スプリン
                                                         雨
      4を条件付けると5と1~3は                     クラー


       独立となる
        滑りやすさを知るためには
         濡れ具合さえ分かっていれば良い                           X4
                                                   濡れ
    ◦ 同時分布は以下のように因数分解                              具合

      P(x1,x2,x3,x4,x5)
       =P(x1)P(x2|x1)P(x3|x1)P(x4|x2,x3)P(x5|x4)
      因数分解できればDAG Gは確率Pの                          X5
       ベイジアン・ネットワークである                             滑りや
                                                    すさ
   有向分離基準
    ◦ 条件付き独立関係の調べ方(DAGの作り方)
    ◦ 定義
      道pが次のどちらかを満たすとき、道pは頂点集合Zによって有向分離
       (ブロック)されるという
        1.    道pは、ある頂点mがZに含まれるような連鎖経路(i→m→j)か分岐経路
              (i←m→j)を含む
              iとjは周辺従属しているが、mで条件づける(値が分かる)と独立になる
                季節が分かればX3とX2は独立である
        2.    道pは、mもその子孫もZに含まれないような合流経路(i→m←j)を含む
              2つの原因が共通の結果をもつ状況
              iとjは周辺独立であるが、mまたはその子孫で条件付けると、道が連結さ
               れるため従属となる(コライダーバイアス、バークソンバイアス)
                X4またはX5が分かればX3とX2は従属する
                片方を否定すれば片方の確率が高くなるため従属(関連)している
    ◦ X={X2},Y={X3},Z={X1}とすると
      ZはXとYを有向分離している(定義1)
      道X←Z→Yをブロックする(定義1)
      Zは道X2→X4←X3をブロックする(定義2)
   有向分離基準の例


            Z1
                                道①


       X         Z2         Y
                                道②

    ◦ XとYは如何なる場合も有向分離されない
     Z1で条件づけ:道①はブロックされるが道②はブロックされない
     Z2で条件づけ:道①はブロックされるが道②はブロックされない
   有向分離基準と条件付き確率の定理
       ZがXとYを有向分離している状態を(X独立Y|Z)Gと表現する
       条件付き独立は(X独立Y|Z)Pと表現する
    ◦ 定理
      1.   GとPが整合するならば、(X独立Y|Z)G⇒(X独立Y|Z)P
      2.   Gと整合するすべての確率分布において(X独立Y|Z)Pが成り立つなら
           ば、(X独立Y|Z)G
   有向分離基準の確認方法
    ◦ Lauritzen, 1990, Networks, 20: 491-505
   観察的同値性の定理
    ◦ 2つのDAGが観察的同値である⇔2つのグラフが同じスケルトンで
      あり同じv字合流を持つ
       観察的同値であるグラフはデータだけでは、どちらが正しいか(矢線の
        向き)を決定できない
       スプリンクラーの例
            X1→X2を逆にしたグラフは観察的同値である
            X2→X4を逆にしたグラフは観察的同値でない
   ベイジアン・ネットワークの推定方法の例
      1980年代初頭に開発
      新しく入力される観測値がすでに得られている事前情報や観測値と矛盾し
       ないというグラフを見つける
    ◦ メッセージ・パッシング・アーキテクチャー
      Pearl, 1982
      ツリー構造に限られる
    ◦ ジョイン・ツリー・プロパゲーション法
      Lauritzen and Spiegelhalter, 1988
      クラスター単位でのグラフを作成
      スプリンクラーの例
        {X1,X2,X3}→{X2,X3,X4}→{X4,X5}
      計算量がネットワークの大きさに対して指数的に増加
    ◦ カットセット・コンディショニング法
      Pearl, 1988
      いくつかの結果を平均化
      計算量がネットワークの大きさに対して線形に増加
    ◦ ハイブリッド法
      Schachter, 1994; Dechter, 1996
    ◦ 確率論的シミュレーション(ギブスサンプリング)
      Pearl, 1988
   因果ベイジアン・ネットワーク
    ◦ DAGは必ずしも因果関係を意味するものではないが、実際に
      使われるときは因果的解釈をしようとしている
    ◦ 利点①:因果関係に関する基本知識と観察データを結びつ
      けて意味があり、利用しやすく、信頼できる結果を得られる
     相関的な知識よりも因果的な知識の方があるかに上位
       確率的な情報を無視し、因果的な情報だけに注目する場合もある
        因果関係があっても、確率に出ない場合もあるから
          青い目の親子の例
          Tversky and Kahneman, 1980, Progress in Social Psychology, 49-72
    ◦ 利点②:得られた結果の外的、自発的変化を簡単に表現し、
      再構成が簡単に出来る
     スプリンクラーの例
       故障したスプリンクラーを表現するには、その頂点に向かう矢線をす
        べて取り除く
       雨が降ったらスプリンクラーが動かないのであれば、雨からスプリン
        クラーに矢線を加えれば良い
   因果ベイジアン・ネットワークの定義                                              P
                                                                           1
         V:変数全体
         X:介入変数                                                       2       3
         P(v):Vの確率分布
         Px(v):介入したときの確率分布                                                4
    1. Px(v)はGについてマルコフ的
    2. 「介入する」確率は1である
    3. 介入しているときの確率分布は P(v)とPx(v)で等しい                                       5
   「スプリンクラーを作動させる」介入
    ◦ 定義2:PX2=作動(X2=作動)=1
                                                               PX2=作動      1
       季節からの矢線か消える
       作動させてしまえばもはや季節に関係ない                                            2       3
    ◦ 定義3:PX2=作動(X4|X2=作動,X3)=P(X4|X2=作動,X3)
    ◦ P(x1,x2,x3,x4,x5)=P(x1)P(x2|x1)P(x3|x1)P(x4|x2,x3)P(x5|x4)
                                                                           4
    ◦ PX2=作動(x1,x3,x4,x5)=P(x1)P(x3|x1)P(x4|x2=作動,x3)P(x5|x4)

                                                                           5
   切断的因数分解
    ◦PX=x(v)=∏{i| Vi not in X}P(vi|pai)
      介入変数                             非介入変数        非介入変数の親
                                                    (介入変数を含む場合も)
    ◦ スプリンクラーの例
       PX2=作動(x1,x3,x4,x5)=P(x1)P(x3|x1)P(x4|x2=作動,x3)P(x5|x4)
      x2は確率変数ではなくなっている
   因果関係と確率関係
    ◦ 因果関係
       存在論的であり不変
       「スプリンクラーの状態は雨量に影響を与えない」
    ◦ 確率関係
       認識論的であり変化
       「スプリンクラーの状態と雨量は独立である」
         季節が分かるとスプリンクラーと雨量は独立になる
         季節が分かりさらに歩道が濡れていれば非独立になる
   因果モデル
        ◦ 準決定論的概念
         遺伝学:Wright, 1921, J of Agricultural Res, 20:557-585
         経済学:Haavelmo, 1943, Econometrica, 11:1-12
         社会科学:Duncan, 1975, Introduction to Structural Equation Models
対          因果関係は決定論的な関数方程式で記述され、確率はその方程式に観
比           測されない誤差の部分である
           Laplace, 1814の思想を表現している
             一般的な概念
             人間の直感と調和している
               量子力学の結果はLaplaceの概念による予測と矛盾する
             反事実的概念はLaplaceの概念でなければ記述できない
        ◦ 確率的概念
         ベイジアン・ネットワーク(因果モデル)の概念
         自然法則は本質的に確率的であり、決定論は便利のよい近似
          にすぎない
           現代の量子力学的な概念
   構造方程式(構造モデル、因果モデル)
      xi=fi(pai, ui), i=1,…,n
      pai:親
      ui:不特定な原因、誤差
          SEMはこの関数が線形なもの
    ◦ スプリンクラーの例
        x1=u1               =(春 or 夏 or 秋 or 冬)
        x2=f2(x1, u2)       =[(X1=春) or (X1=夏) or u2] and ¬u2’
        x3=f3(x1, u3)       =[(X1=秋) or (X1=冬) or u3] and ¬u3’
        x4=f4(x2, x3, u4)   =(x2 or x3 or u4) and ¬u4’
        x5=f5(x4, u5)       =(x4 or x5) and ¬u5’
            春と夏はスプリンクラーが作動しやすい
            u2:春でも夏でもないときに作動する不特定な原因
            u2’:季節に関係なく作動しない不特定な原因( ¬ を付けているため)
            同じ変数でも、左辺と右辺では意味が違う(後述)
    ◦ 予測・介入・反事実の3つに焦点を当てる
      反事実:現在歩道は滑りにくいがスプリンクラーは作動している。この条
       件の下で、スプリンクラーが作動していなかったら歩道は滑りやすいか
   確率的予測
    ◦ 関数因果モデルを利用する利点
    1.   因果ダイアグラムGで表現される条件付き独立関係は定常
    2.   使用パラメータが少なくて済む
    3.   観測変数間の条件付き独立関係の判断が容易になる
    ◦ 同時分布を規定すれば計算できる
   介入と因果効果
    ◦ 背景要因が行動の影響を受ける場合は介入効果の推定が困難
     対象となっている状況そのものが介入で変化
     定常的なベイジアン・ネットワークで介入を表現しても推定不可
    ◦ 関数因果モデルでは関数関係は不変であるため推定が可能
    ◦ 同時分布と因果構造によって計算する
   反事実
    ◦ 得られたデータの基づいて反事実的問題に答えられない
     直接的な検証によって答えられる問題だけに対して統計解析を用いる
      ように主張する統計学者もいる(Dawid, 2000, JASA, 407-)
    ◦ 反事実解析は実質科学的知識を精緻化し、統計データを解釈する
   反事実の定式化
    ◦ Stalnaker (1968)、Lewis (1973)が近傍世界的意味論を使って
      反事実の理論を構築
      近傍を決定する距離をどのように定義すれば良いかという課題
      Rubin (1974)、Robins (1986)らはLewisのアプローチと類似のもの
       を利用している(潜在反応アプローチ)
        本質的な知識は反事実変数どうしの確率(独立)関係で表現される
    ◦ 7章で近傍世界的意味論、潜在反応アプローチ、構造モデル
      アプローチの説明・比較
      近傍的世界論 :仮想的世界のような抽象的概念
      潜在反応モデル :未定義の基関数
      構造モデル   :仮想的世界の生成にかかわる現実的なメカニ
       ズムに依存しており、因果メカニズムとその構造に関する基本的
       な概念
    1. 確率的因果モデル(定義7.1.6)では反事実確率を計算する
       には不十分
    2. 関数因果モデルは反事実確率への数学的根拠がある
 次の3ステップで計算可能
     1. 確率P(u)(モデルの変数)を更新してP(u|e)を得る
     2. Xが関与する方程式をX=x(反事実)に置き換える
     3. 修正されたモデルでY=yの確率を計算する
      7章で説明するツインネットワークも有効な計算方法
           現実世界と反事実世界の確率伝播法
    ◦ 関数関係や省略された変数の分布を決定すれば計算できる
   ランダム化臨床試験の例
    ◦ Xが治療、Yが死亡を表す
    ◦ XとYを2値変数U1、U2を使って以下のようにモデル化する
      P(u1=1)=P(u2=1)=0.5とする
    ◦ x=u1
    ◦ y=xu2+(1-x)(1-u2)
    ◦ このとき、「治療を受けて死亡した患者が、もし治療を受けなかった
      ときの反事実確率」の算出は以下の手順で求める
     1.   治療を受けて死亡(x=y=1)をモデルに代入し、u1=u2=1を得る
     2.   このパラメータの下で反事実であるx=0を代入する
     3.   y=0を得る
    ◦ 仮想的条件の下では回復する確率は1となる
   2章      :予測
   3章~6章 :介入
   7章~10章 :反事実
   用語
    ◦ 確率パラメータ
    ◦ 統計パラメータ
    ◦ 因果パラメータ
      因果モデルに基づいて定義される量
    ◦ 統計的仮定
    ◦ 因果的仮定
      因果モデルに対する仮定・制約
      この仮定が無い限り、統計パラメータと因果パラメータを識別することは
       できない
      グレンジャー因果性(Granger, 1969)や強外生生(Engle, 1983)といった
       経済時系列モデルは因果モデルではなく統計モデルである
        因果的仮説がなければ介入や反事実効果を識別できないため
   心理的障壁
    ◦ 観察研究では検証不可な事をモデルとして形成することへの抵抗
    ◦ 新しい確率計算の概念の導入への抵抗(Cox, 1993, Statistical Science, 204-)
   第2章
    ◦ 因果関係を推測するための理論
   Hume(1700年代)の時代から観察データからどのように因果関係を
    解明できるかが議論されている
   1980年代にグラフと確率的従属性との数学的関係が脚光を浴び、形
    式的に扱うことで計算も実行可能
    ◦ Rebane and Pearl (1987)
       時間的な順序のないデータからどのように因果関係を推測できるか
    ◦ UCLAとカーネギーメロン大学
       データを用いて因果構造を記述する条件付き独立関係を部分ごとに探し、それらを
        つなぎ合わせる
       TETRAD IIプログラムに実装
    ◦ スタンフォード大学
       候補となった因果構造に割り当てられた事前確率を更新するベイジアンアプローチ
    ◦ Verma and Pearlのアプローチを紹介
   2.2節:因果モデルとその概念、帰納的ゲーム
   2.3節:極小モデルとOccamの剃刀
   2.4節:定常性
   2.5節:ICアルゴリズム
   2.6節:適切な因果関係の抽出
   2.7節:因果関係を識別する本質的な条件
   2.8節:因果関係の時間的な側面と統計的な側面
   2.9節:因果関係の自動的発見に対する論争
   因果関係に対する直感
    ◦ 一般的に時間的順序が因果関係の不可欠なものである
      以下の場合は因果推論を行うことはできない(Fisher, 1951)
        因果的に重要な要因がすべてわかっていない
        うまく操作できない変数がある
    ◦ 時間的順序がわかっていなくても因果関係を予想することは
      できる(Reichenbach, 1956, The Direction of Time)
      AとB、BとCは従属しているがAとCは独立である
        多くの人がA→B←Cと表現するであろう
      X→Y→Z、X←Y→Z、X→Y←Zを基本的な因果構造とする
        Rebane-Pearlの回復アルゴリズム
   因果構造
    ◦ 定義:DAGと変数集合Vがあるとき、このDAGをVの因果構造という
   因果モデル
    ◦ 定義:因果構造Dと、Dと整合するパラメータ集合ΘDの組M=<D, ΘD >
      を因果モデルという
    ◦ ΘD:Vの各変数に当てられた関数xi=fi(pai,ui)とuiの確率P(ui)
      PAiはXiの親、誤差Uiは互いに独立にP(ui)に従う
    ◦ 因果モデルMが構成されると同時確率分布P(M)ができる
      観測変数Vの部分集合Oを利用して同時分布P[O]がわかる
      P[O]の利用してDAGのトポロジーDを復元できるか?
   潜在構造
    ◦ 定義:変数集合Vの因果構造Dと観測変数集合O in Vの組L=<D, O>
      を潜在構造という
   モデルの優位性
    ◦ 定義:2つの潜在構造L=<D, O>とL’=<D’, O>に対して、因果構造D’が
      Dを表現できるときLはL’よりも優位であるといい、 L≤L’と書く
      L’の方がより多くの分布を表現でき、冗長な因果構造となっている
      Lの方が単純な因果構造である
    ◦ Dの任意のパラメータ集合ΘDをΘ’D’で表現できる
   Occamの剃刀
    ◦ より単純な因果構造が良い
   (a 独立 b)、(d 独立 {a, b}|c)のみがデータから得られた場合、
    次の因果構造が極小(最も優位)なものとなる
    ◦ 例
       a:風邪を引く, b:熱がある, c:くしゃみをする, d:鼻をかむ
       以下の2つの因果構造は同等
       極小性の仮定を利用しただけ(極小性原理)で、cがdの原因となっている
        ことが言える


           a       b         ※       b
               c         a       c

               d                 d
       定常性
    ◦       パラメータが変化しても独立関係は変化しない
    ◦       2つのコインを投げた結果をAとB、AとBが同じ場合は1、異
            なる場合に0となる変数をCとする
               パラメータはコインの表が出る確率
               パラメータが共に0.5のとき
                生成データから得られる独立関係
                1.   任意の2つの変数は周辺独立
                2.   第3の変数を与えたときには従属となる
                    3種類の独立関係が予想できる
                    A→B←C、 A→C←B、 B→A←Cの3つが極小因果構造となる
               パラメータが変わり、異なるデータが得られたとしてもA→C←B
                だけは極小因果構造である
                因果モデルA→C←Bは定常分布を生成している
                パラメータが0.5と0.8である場合はA→C←Bのみが極小因果構造
例1(2つのコインの例)



       a               b       a       b             a             b
               c                   c                       c

     Θ=(0.5, 0.8)のときのデータから                 Θ=(0.5, 0.5)のときのデータから
     考えられる条件付独立関係                          考えられる条件付独立関係
     →この因果構造が定常分布を生成している

例2(風邪の例)


           a               b   a       b        ・左の因果構造の方が優位
                                                →極小性原則より棄却される
                                                ・(a 独立 b)が存在する
                   c               c            →aとbの関連性がうまく相殺
                                                されるパラメータでなくてはならない
                                                ので、定常性原則より棄却される


                   d               d
   ICアルゴリズム(Inductive Causation、Verma and Pearl, 1990)
    ◦ 潜在構造を仮定しない場合の、唯一な極小因果構造(D0)と同値なク
      ラスを発見する方法
      ステップ1:(a 独立 b|Sab)となるSabをみつける
        みつからない場合はaとbを無向辺で結ぶ
      ステップ2:隣接しないaとbが共通の隣接点cをもつとき
        c in Sabの場合:矢印を加えない
        c not in Sabの場合:a→c←bとする
      ステップ3:無向辺にできるだけ向きを付ける(Meek, 1995)
          規則1:a→b―cであればa→b→cとする
          規則2:a→c→b、a―bであればa→bとする
          規則3:a―c→b、a―d→b、a―bであればa→bとする
          規則4:a―c→d、c→d→b、a―bであればa→bとする


       a        b       c           c           c

            a       b          a        b   a       d

                c                   d           b
   IC*アルゴリズム
    ◦ 潜在構造も含めた極小因果モデルを発見する方法
      修正ステップ3:できるだけ多くの矢線に*をつける
       規則1:a→c―bであればa→c * →bとする
       規則2:a * → … * → b、a―bであればa→bとする
         マーク付き矢線(→*):有向道を示す
         マークなし矢線(→):有向道もしくは潜在共通原因(a←L→b)がある
         双方向矢線:潜在共通原因(a←L→b)
         無向辺(ー):a→b、a←b、潜在共通原因(a←L→b)のどれか
       無向辺自体に向きを加えるのではなく、無向辺の端点それぞれに矢印を加
        えていく
         双方向となることもある
    ◦ スプリンクラーの例
      データから次の条件付独立を満たす集合を得る
       Sad={b, c},Sae={d}, Sbc={a}, Sbe={d}, Sce={d}

                          a                  a                  a
                     b        c         b        c      b           c
                          d                 d                   d
                                                            *
                          e                 e                   e
   潜在的原因(マークなし矢線、→)
    ◦ 以下の条件を満たす
      すべての背景(S)においてXとYは従属する
      (X 独立 Z|S)、(Z 従属 Y|S)となるZとSが存在する
   本質的原因(マーク付き矢線、 →*)
    ◦ 以下の条件のいづれかを満たす
      すべての背景においてXとYは従属し、次の条件を満たすSがある
        ZはXの潜在的原因である、(Z 従属 Y|S)、(Z 独立 Y|S∨X)
          Sだけでは従属しているが、Xを加えると独立になる
      XとYは基準1で定義された関係の推移的閉包に含まれる
   擬似相関(双方向矢線)
    ◦ 以下の条件を満たすZ1、Z2、S1、S2があるとき、XとYは擬似相関をも
      つという
      (Z1 従属 X|S1)、(Z1 独立 Y|S1)、(Z2 従属 Y|S2)、(Z2 独立 X|S2)
   時間情報を持つ本質的原因
    ◦ Xに先行するSとZが次の条件を満たす
      (Z 従属 Y|S)、(Z 独立 Y|S∨X)
   時間情報を持つ擬似相関
    ◦ XがYに先行し、XとYが背景Sにおいて従属しており、Zが次の条件を
      満たす
      (Z 独立 Y|S)、(Z 従属 X|S)
   2.8 因果関係と統計的時間
    ◦ 人間の思考では時間的な期待と統計的な期待の2つに基づいて因
      果的解釈がなされる
       Reichenbach (1956)の接続分岐経路と共通原因
   時間的時間
    ◦ 定義:経験分布Pと一致する極小因果構造の少なくとも1つと矛盾し
      ない変数順序をPの統計的時間という
       1次マルコフモデル:物理的時間と矛盾する統計的時間が得られること
        もある
       2次マルコフモデル:ICアルゴリズムを実行することで物理的時間と一致
        する統計的時間を得ることができる
         Xt=aXt-1+bYt-1+e1t
         Yt=cXt-1+dYt-1+e2t
    ◦ 多くの自然現象では、物理的時間は少なくとも1つの統計的時間と
      一致すると予想される
   トウモロコシと豚肉の値段の例(Wright, 1925)
    ◦ ICアルゴリズムでトウモロコシの値段が豚肉の値段を上げている
      (Glymour and Cooper, 1999, Computation Causation and Discovery)
   批判
    ◦ 統計的関連性から因果関係を推測することへの批判
     極小性
         極小性自体への批判は少ない
         マルコフ的構造を因果モデルと定義することに対して批判が多い
           Carwright (1995), Lemmer (1993)らが特に批判
           非マルコフモデルに対する研究(Spirtes, 1995)
           量子力学的世界ではなくマクロ的世界ではマルコフモデルで充分
     定常性
         ルベーグ測度に基づく正当性(Spirtes, 1993)
           制約が無い限り、特定のパラメータでしか成立しない因果モデルは定常で
            はない
         Aldrich (1989)の自律性の概念がもう1つの正当性
   ベイジアン・アプローチとの関連
    ◦ 事後得点の最も大きい因果ネットワークが選ばれる
       潜在変数への対処が困難
       極小性を満たすモデルが優先的に選択される
       多くのRパッケージはこのアプローチと思われる
       ICアルゴリズムを行うパッケージはbnlearn( http://www.bnlearn.com/ )
   第3章
    ◦ 因果ダイアグラムと因果効果の識別可能条件
      潜在変数がない場合:非実験データから介入効果を推定
      潜在変数がある場合:因果効果の識別問題が生じる
           因果ダイアグラムを利用して識別可能かどうか調べる
           識別可能でない場合はどのような補助実験を行えばよいか、ど
            の変数を新たに観測したら良いか判断できる
        do計算法の紹介
        構造方程式と回帰方程式の区別
        直接効果と間接効果の定義
        構造方程式とNeyman-Rubinモデルの関係
   Cochranの農業の例(Wainer, 1989, J of Educational Stat, 121-140)
    ◦   X:土壌薫蒸剤(農薬、農薬散布)
    ◦   Z:線虫の個体数(害虫)
    ◦   Z0:昨年の害虫の数(非観測変数)
    ◦   Y:オート麦の収穫量(収量)
         薫蒸は害虫の数と収量に対して直接的に影響を与えている
    ◦ 条件
         農家が薫蒸を決めるのでランダム化実験ができない
         農家はZ0に基づいて薫蒸するかどうか決める
          Z0非観測変数でありZと強い相関をもつ
          薫蒸する前後の線虫の個体数は測定できる
         薫蒸の効果は短期間である
         線虫の成長は捕食者(鳥など)の個体数に依存する
          捕食者の個体数はZ0と相関を持つ
   研究者が既に持っている仮定を因果ダイアグラムで表現する
    ◦ この仮定が正しい場合に因果効果がどうなるかを推定する
   この因果ダイアグラムはWrightのパスダイアグラムに似ている
    ◦ 1921, J of Agricultural Res, 557-585
    ◦ パスダイアグラム:正規誤差を伴う線形モデル
    ◦ 因果ダイアグラム:非線形交互作用モデル、ノンパラメトリックモデル
   XからYへの因果効果は一致推定できる
    ◦ P(y|do(x))=Σz1Σz2Σz3P(y|z2, z3, x)P(z2|z1, x) Σx’ P(z3|z1, z2, x’)P(z1, x’)
       P(y|do(x))は介入によって処理変数Xをxと固定したときに収穫量Y=yとなる確率
       全ての変数は離散型確率変数である場合
   YとZ3が交絡している場合は一致推定できない
   YとZ2が交絡している場合は一致推定できる
   Pearl and Vermaの決定関数による表現
    ◦ xi=fi(pai, ei):eは互いに独立な誤差(非観測変数)
      マルコフ的(全ての従属した変数を観測)
    ◦ xi=fi(pai, ui):uは互いに従属した非観測変数も含む
      セミマルコフ的(観測変数が{X, Y, Z1, Z2, Z3})
    ◦ 農業の例
      Z0=f0(e0), Z1=f1(Z0, e1), Z2=f2(X, Z1, e2), Z3=f3(B, Z2, e3)
      B=fB(Z0, eB), X=fX(Z0, eX), Y=fY(X, Z2, Z3, eY)
      逐次的因数分解
         P(z0, x, z1, b, z2, z3, y)=P(z0) P(x|z0) P(z1|z0) P(b|z0) P(z2|x, z1) P(z3|z2, b) P(y|x,
          z2, z3)
   因果効果
    ◦ 定義:互いに俳反な集合XとYの実現値xとする。モデルxi=fi(pai, ui)
      の左辺にXの要素が含まれる方程式を全て取り除き、それ以外の
      方程式の右辺にあるXをxと置き換えることによって得られるY=yの
      確率をP(y|do(x))とする。このとき、XからYの確率分布の空間への
      関数P(y|do(x))をXからYへの因果効果という。
      介入によって得られるグラフはXへ向かうすべての矢線を取り除いたも
       のになる
      Rosenbaum and Rubinの介入効果の定義はE(y|do(x’’))- E(y|do(x’))
   介入を“関数fiを変更する外的な力Fi”と解釈できる
    ◦ Fi={do(xi’), idle}
       P(xi|pai’)=P(xi|pai) when Fi=idle                   自然状態
                 =0      when Fi=do(xi’) and xi not= xi’   非介入状態
                 =1      when Fi=do(xi’) and xi = xi’      介入状態
    ◦ さまざまなタイプの介入を表現できる
       同時介入など
    ◦ XiがYとFiを有向分離する場合はfiが変化してもP(y|xi)は変わ
      らない
       経済指標間の因果関係(Hoover, 1990, Economics and Philosophy, 207-234)

統計的因果推論 勉強用 isseing333

  • 1.
  • 2.
    第1章 ◦ 確率、グラフ、因果モデル入門
  • 3.
    確率は何を表現しているか? ◦ 科学的に記述できない不確実性 ◦ 例外の部分  わざわざ記述する必要がない場合  モデルをシンプルにするために記述しない場合  確率の公理(離散、ベイズの場合、確率は確信度を表す) 1. 0≦P(A)≦1 2. P(確実な事象)=1 3. AとBが排反であればP(A∨B)=P(A)+P(B)  P(A)に関して2種類の記述方法 ◦ 積集合を用いた表現 Σi P(A,Bi)  Bについて周辺をとる  P(A)はAの周辺確率 ◦ 条件付き確率を用いた表現 Σi P(A|Bi)P(Bi)
  • 4.
    条件付き確率に対する記述 ◦ 伝統的な記述 P(A|B)=P(A,B)/P(B)  P(A,B)をP(B)で基準化している  P(A|B) は常にP(A,B)より小さくはならない  Bである事がわかれば情報量が減るということはない  P(B)はBが分かったときの驚きの程度(頻度論的には起こりにくさ) ◦ ベイズの定理 P(B|A)=P(A|B)P(B)/P(A)  伝統的な記述を拡張した記述  数学的には同値だが解釈に意味がある  P(B|A) :データが得られた後の仮説の確信度(事後確率)  P(A|B) :Bが真である場合に得られる尤度  P(B) :仮説の事前確信度(事前確率)  P(A) :事後確率の和が1になるための基準化定数  独立と条件付き独立 ◦ P(A)=P(A|B)であるときAとBは独立 ◦ P(A|B,C)=P(A|C)のときAとBはCを与えた下での条件付き独立  (A独立B|C)と書く場合もある  疫学はこの書き方が多い
  • 5.
    サイコロの例 ◦ サイコロを2回振って2回とも同じ値が出る確率  事象A:2回とも同じ値が出る  事象Bi:1回目に出た値がiである ◦ P(A)=Σi P(A|Bi)P(Bi)=Σi 1/6・ 1/6 =1/6  P(A)=1/6、P(A|Bi)=1/6だからAとBiは独立  P(A,Bi)=1/36≠0だからAとBiは排反ではない   独立と排反は異なった概念 条件付き確率の拡張 P(○|□) ◦ P(A) =P(A|B)P(B) 不確定な事象 確定な事象 ◦ P(A|K)=P(A|B,K)P(B|K) (まだ起こっていない) (もう起こった)  新たに条件付ける際は、条件付けるもの(この場合はK)を確定 な事象の側に入れれば良い  連鎖公式 ◦ P(E1,E2,E3,E4)=P(E1|E2,E3,E4)P(E2|E3,E4)P(E3|E4)P(E4)
  • 6.
    ベイズの定理 Hが真である場合に 仮説の事前確信度 データが得られる尤度 P(e|H) P(H) P(H|e)= P(e) e:得られた証拠(データ) H:確かめたい仮説 データが得られた後の 仮説の確信度 正規化定数 ・P(H|e)+P(¬H|e)=1とするための基準化 ・ベイズ事後確率の分母 ・Hが多値の場合はΣi P(e|Hi)P(Hi) ◦ カジノの例  隣の人が「12だ!」と叫んだとき、その人がダイスをやってるかルーレッ トをやってるか?  P(12|ダイス)=1/36、P(12|ルーレット)=1/38である  カジノ内の割合がP(ダイス)=7/10、P(ルーレット)=3/10とする  P(ダイス|12)=(1/36*7/10)/(1/36*7/10+1/38*3/10)=0.711  事後確率は事前確率よりわずかに大きくなっている
  • 7.
    用語 ◦ 同時分布の場合根元事象が集まって点(配列)を作る ◦ 配列全体が確率空間(確率モデル)となる  コインを3回投げる例  根元事象:H or T が3個  点(配列):HHH, HHT, …, TTT  確率空間:配列の全体集合({HHH, HHT, …, TTT})  ベイズの定理をオッズで表現 ◦ ベイズの式をP(¬H|e)で割る P(H|e) P(e|H) P(H) = 仮説Hに対して、 P(¬H|e) P(e|¬H) P(¬H) ・尤度比:診断的・後ろ向き ・事前オッズ:予測的・前向き な裏付け 事後オッズ 尤度比 事前オッズ ◦ P(H|e)=O(H|e)/1+O(H|e)を利用すると事前オッズと尤度比で 事後確率を計算できる
  • 8.
    期待値 :E(X) =Σx in Dx xP(x)  条件付き期待値 :E(X|y) =Σx in Dx xP(x|y) ◦ Σx in Dx (x-x’)P(x|y)を最小  x’に対しての平均二乗誤差 ◦ 最良推定量(←確認)  変数変換の期待値:E[g(x)] =Σx in Dx g(x)P(x) ◦ 分散 :σx2 =E[(X-E(X))2]  g(X)=(X-E(X))2  同時分布関数のー:E[g(X, Y)] =Σxy in Dxy g(x,y)P(x,y) ◦ 共分散 :σxy =E[(X-E(X))(Y-E(Y))]  g(X, Y)=(X-E(X))(Y-E(Y)) ◦ 相関係数 :ρxy =σxy/σx σy (←行列確認) ◦ 回帰係数 :ρxyσx/σy=σxy/σy2 →行列:(XX)XY
  • 9.
    グラフォイド原理  (Pearl and Paz, 1987, Advances in Artificial Intelligence-II, 357-363) ◦ 条件付き独立を(A独立B|C)と書く  P(A|B,C)=P(A|C)  部分集合Aから部分集合Bまでの全ての道は部分集合Cの要素 によって切断される ◦ 対称性 :(X独立Y|Z) ⇒(Y独立X|Z)  YからXに関する追加の情報がなければXからYに関する追加の情報は得られない ◦ 分解性 :(X独立YW|Z) ⇒(X独立Y|Z)  2つの項目を組み合わせた情報がXと関係のない場合は、それらの項目それぞれもX とは関係ない ◦ 弱結合性 :(X独立YW|Z) ⇒(X独立Y|ZW)  Xとは関係のない情報Wが得られても、もともとXと関係ないYはXと関連をもたない ◦ 縮約性 :(X独立Y|Z) and (X独立W|ZY) ⇒(X独立YW|Z)  Xと関係のないYが得られたあとにWがXと関係しないならば、WはYの情報を得る前に もXと関係がない ◦ 交差性 : (X独立Y|ZW) and (X独立W|ZY)⇒(X独立YW|Z)  縮約性とほぼ同値
  • 10.
    因果グラフ ◦ V 頂点(ノード) :確率変数 ◦ E 辺(リンク) :変数間になんらかの関係がある  意味は分野によって異なる  辺で結ばれた2つの変数は隣接する  有向辺(矢線)、無向辺、双方向辺(交絡因子の存在を示す)  全ての辺が矢線であれば有向グラフ  巡回(X→Y, Y←X)していても良いが自己ループ(X→X)は認めない  巡回のないグラフを非巡回的有向グラフ(directed acyclic graph,DAG)  全ての頂点が高々1つしか親をもたないDAGをツリー  全ての頂点が高々1つしか子をもたないツリーを閉鎖経路  頂点の全ての組が連結しているグラフは完全である ◦ スケルトン :グラフGから全ての辺を除いた状態 ◦ 道 :先行する辺の頂点から始まる辺の列  矢線の向きが同じ場合は有向道  変数間に道があれば連結されている、なければ切断されている ◦ 親、子、子孫、先祖、配偶者(交絡されている変数同士) ◦ ルート :親を持たない頂点 ◦ シンク :子を持たない頂点
  • 11.
    ベイジアン・ネットワーク ◦ 同時確率関数の簡潔な表現を円滑に行うことが主点  無向グラフ:マルコフ・ネットワーク  有向グラフ:ベイジアン・ネットワーク 1. 入力情報の主観性 2. 情報更新におけるベイズの定理への依存性 3. 1973年のThomas Bayesのエッセイで強調されているように、 因果に基づく推論と証拠に基づく推論の相違性 ◦ DAGに基づく逐次的因数分解  X1, …, Xnの同時分布を連鎖公式を使って分解する  P(x1, …, xn)=∏j P(xj|x1, …, xj-1)  xjはxj+1以降の変数には依存せず、x1, …, xj-1は非子孫となる  ここでxjが非子孫の一部(PAj)以外とは独立である場合  P(xj|x1, …, xj-1)= P(xj|PAj) → P(x1, …, xn)=∏j P(xj|PAj)  PAj :マルコフ的親と定義
  • 12.
    ベイジアン・ネットワーク(DAG)作成の手順 ◦ Xjと非子孫を分離する最小集合のPAjの各頂点から矢線 ① (X1, X2)が従属 X1からX2に矢線 ② X3が{X1, X2}と独立 矢線を引かない ・X1がX3を分離 ・X1からX3に矢線 ・X2がX3を分離 ・X2からX3に矢線 ・どちらでもない ・ 両方からX3に矢線
  • 13.
    スプリンクラーの例 ◦ 季節 :春~冬の4値 X1 ◦ その他 :真偽の2値 季節  1から5に矢線が無い  季節の効果は他の変数を 通じて滑りやすさに影響を 与える X2 X3 スプリン 雨  4を条件付けると5と1~3は クラー 独立となる  滑りやすさを知るためには 濡れ具合さえ分かっていれば良い X4 濡れ ◦ 同時分布は以下のように因数分解 具合  P(x1,x2,x3,x4,x5) =P(x1)P(x2|x1)P(x3|x1)P(x4|x2,x3)P(x5|x4)  因数分解できればDAG Gは確率Pの X5 ベイジアン・ネットワークである 滑りや すさ
  • 14.
    有向分離基準 ◦ 条件付き独立関係の調べ方(DAGの作り方) ◦ 定義  道pが次のどちらかを満たすとき、道pは頂点集合Zによって有向分離 (ブロック)されるという 1. 道pは、ある頂点mがZに含まれるような連鎖経路(i→m→j)か分岐経路 (i←m→j)を含む  iとjは周辺従属しているが、mで条件づける(値が分かる)と独立になる  季節が分かればX3とX2は独立である 2. 道pは、mもその子孫もZに含まれないような合流経路(i→m←j)を含む  2つの原因が共通の結果をもつ状況  iとjは周辺独立であるが、mまたはその子孫で条件付けると、道が連結さ れるため従属となる(コライダーバイアス、バークソンバイアス)  X4またはX5が分かればX3とX2は従属する  片方を否定すれば片方の確率が高くなるため従属(関連)している ◦ X={X2},Y={X3},Z={X1}とすると  ZはXとYを有向分離している(定義1)  道X←Z→Yをブロックする(定義1)  Zは道X2→X4←X3をブロックする(定義2)
  • 15.
    有向分離基準の例 Z1 道① X Z2 Y 道② ◦ XとYは如何なる場合も有向分離されない  Z1で条件づけ:道①はブロックされるが道②はブロックされない  Z2で条件づけ:道①はブロックされるが道②はブロックされない
  • 16.
    有向分離基準と条件付き確率の定理  ZがXとYを有向分離している状態を(X独立Y|Z)Gと表現する  条件付き独立は(X独立Y|Z)Pと表現する ◦ 定理 1. GとPが整合するならば、(X独立Y|Z)G⇒(X独立Y|Z)P 2. Gと整合するすべての確率分布において(X独立Y|Z)Pが成り立つなら ば、(X独立Y|Z)G  有向分離基準の確認方法 ◦ Lauritzen, 1990, Networks, 20: 491-505  観察的同値性の定理 ◦ 2つのDAGが観察的同値である⇔2つのグラフが同じスケルトンで あり同じv字合流を持つ  観察的同値であるグラフはデータだけでは、どちらが正しいか(矢線の 向き)を決定できない  スプリンクラーの例  X1→X2を逆にしたグラフは観察的同値である  X2→X4を逆にしたグラフは観察的同値でない
  • 17.
    ベイジアン・ネットワークの推定方法の例  1980年代初頭に開発  新しく入力される観測値がすでに得られている事前情報や観測値と矛盾し ないというグラフを見つける ◦ メッセージ・パッシング・アーキテクチャー  Pearl, 1982  ツリー構造に限られる ◦ ジョイン・ツリー・プロパゲーション法  Lauritzen and Spiegelhalter, 1988  クラスター単位でのグラフを作成  スプリンクラーの例  {X1,X2,X3}→{X2,X3,X4}→{X4,X5}  計算量がネットワークの大きさに対して指数的に増加 ◦ カットセット・コンディショニング法  Pearl, 1988  いくつかの結果を平均化  計算量がネットワークの大きさに対して線形に増加 ◦ ハイブリッド法  Schachter, 1994; Dechter, 1996 ◦ 確率論的シミュレーション(ギブスサンプリング)  Pearl, 1988
  • 18.
    因果ベイジアン・ネットワーク ◦ DAGは必ずしも因果関係を意味するものではないが、実際に 使われるときは因果的解釈をしようとしている ◦ 利点①:因果関係に関する基本知識と観察データを結びつ けて意味があり、利用しやすく、信頼できる結果を得られる  相関的な知識よりも因果的な知識の方があるかに上位  確率的な情報を無視し、因果的な情報だけに注目する場合もある  因果関係があっても、確率に出ない場合もあるから  青い目の親子の例  Tversky and Kahneman, 1980, Progress in Social Psychology, 49-72 ◦ 利点②:得られた結果の外的、自発的変化を簡単に表現し、 再構成が簡単に出来る  スプリンクラーの例  故障したスプリンクラーを表現するには、その頂点に向かう矢線をす べて取り除く  雨が降ったらスプリンクラーが動かないのであれば、雨からスプリン クラーに矢線を加えれば良い
  • 19.
    因果ベイジアン・ネットワークの定義 P 1  V:変数全体  X:介入変数 2 3  P(v):Vの確率分布  Px(v):介入したときの確率分布 4 1. Px(v)はGについてマルコフ的 2. 「介入する」確率は1である 3. 介入しているときの確率分布は P(v)とPx(v)で等しい 5  「スプリンクラーを作動させる」介入 ◦ 定義2:PX2=作動(X2=作動)=1 PX2=作動 1  季節からの矢線か消える  作動させてしまえばもはや季節に関係ない 2 3 ◦ 定義3:PX2=作動(X4|X2=作動,X3)=P(X4|X2=作動,X3) ◦ P(x1,x2,x3,x4,x5)=P(x1)P(x2|x1)P(x3|x1)P(x4|x2,x3)P(x5|x4) 4 ◦ PX2=作動(x1,x3,x4,x5)=P(x1)P(x3|x1)P(x4|x2=作動,x3)P(x5|x4) 5
  • 20.
    切断的因数分解 ◦PX=x(v)=∏{i| Vi not in X}P(vi|pai) 介入変数 非介入変数 非介入変数の親 (介入変数を含む場合も) ◦ スプリンクラーの例  PX2=作動(x1,x3,x4,x5)=P(x1)P(x3|x1)P(x4|x2=作動,x3)P(x5|x4)  x2は確率変数ではなくなっている  因果関係と確率関係 ◦ 因果関係  存在論的であり不変  「スプリンクラーの状態は雨量に影響を与えない」 ◦ 確率関係  認識論的であり変化  「スプリンクラーの状態と雨量は独立である」  季節が分かるとスプリンクラーと雨量は独立になる  季節が分かりさらに歩道が濡れていれば非独立になる
  • 21.
    因果モデル ◦ 準決定論的概念  遺伝学:Wright, 1921, J of Agricultural Res, 20:557-585  経済学:Haavelmo, 1943, Econometrica, 11:1-12  社会科学:Duncan, 1975, Introduction to Structural Equation Models 対  因果関係は決定論的な関数方程式で記述され、確率はその方程式に観 比 測されない誤差の部分である  Laplace, 1814の思想を表現している  一般的な概念  人間の直感と調和している  量子力学の結果はLaplaceの概念による予測と矛盾する  反事実的概念はLaplaceの概念でなければ記述できない ◦ 確率的概念  ベイジアン・ネットワーク(因果モデル)の概念  自然法則は本質的に確率的であり、決定論は便利のよい近似 にすぎない  現代の量子力学的な概念
  • 22.
    構造方程式(構造モデル、因果モデル)  xi=fi(pai, ui), i=1,…,n  pai:親  ui:不特定な原因、誤差  SEMはこの関数が線形なもの ◦ スプリンクラーの例  x1=u1 =(春 or 夏 or 秋 or 冬)  x2=f2(x1, u2) =[(X1=春) or (X1=夏) or u2] and ¬u2’  x3=f3(x1, u3) =[(X1=秋) or (X1=冬) or u3] and ¬u3’  x4=f4(x2, x3, u4) =(x2 or x3 or u4) and ¬u4’  x5=f5(x4, u5) =(x4 or x5) and ¬u5’  春と夏はスプリンクラーが作動しやすい  u2:春でも夏でもないときに作動する不特定な原因  u2’:季節に関係なく作動しない不特定な原因( ¬ を付けているため)  同じ変数でも、左辺と右辺では意味が違う(後述) ◦ 予測・介入・反事実の3つに焦点を当てる  反事実:現在歩道は滑りにくいがスプリンクラーは作動している。この条 件の下で、スプリンクラーが作動していなかったら歩道は滑りやすいか
  • 23.
    確率的予測 ◦ 関数因果モデルを利用する利点 1. 因果ダイアグラムGで表現される条件付き独立関係は定常 2. 使用パラメータが少なくて済む 3. 観測変数間の条件付き独立関係の判断が容易になる ◦ 同時分布を規定すれば計算できる  介入と因果効果 ◦ 背景要因が行動の影響を受ける場合は介入効果の推定が困難  対象となっている状況そのものが介入で変化  定常的なベイジアン・ネットワークで介入を表現しても推定不可 ◦ 関数因果モデルでは関数関係は不変であるため推定が可能 ◦ 同時分布と因果構造によって計算する  反事実 ◦ 得られたデータの基づいて反事実的問題に答えられない  直接的な検証によって答えられる問題だけに対して統計解析を用いる ように主張する統計学者もいる(Dawid, 2000, JASA, 407-) ◦ 反事実解析は実質科学的知識を精緻化し、統計データを解釈する
  • 24.
    反事実の定式化 ◦ Stalnaker (1968)、Lewis (1973)が近傍世界的意味論を使って 反事実の理論を構築  近傍を決定する距離をどのように定義すれば良いかという課題  Rubin (1974)、Robins (1986)らはLewisのアプローチと類似のもの を利用している(潜在反応アプローチ)  本質的な知識は反事実変数どうしの確率(独立)関係で表現される ◦ 7章で近傍世界的意味論、潜在反応アプローチ、構造モデル アプローチの説明・比較  近傍的世界論 :仮想的世界のような抽象的概念  潜在反応モデル :未定義の基関数  構造モデル :仮想的世界の生成にかかわる現実的なメカニ ズムに依存しており、因果メカニズムとその構造に関する基本的 な概念 1. 確率的因果モデル(定義7.1.6)では反事実確率を計算する には不十分 2. 関数因果モデルは反事実確率への数学的根拠がある
  • 25.
     次の3ステップで計算可能 1. 確率P(u)(モデルの変数)を更新してP(u|e)を得る 2. Xが関与する方程式をX=x(反事実)に置き換える 3. 修正されたモデルでY=yの確率を計算する  7章で説明するツインネットワークも有効な計算方法  現実世界と反事実世界の確率伝播法 ◦ 関数関係や省略された変数の分布を決定すれば計算できる  ランダム化臨床試験の例 ◦ Xが治療、Yが死亡を表す ◦ XとYを2値変数U1、U2を使って以下のようにモデル化する  P(u1=1)=P(u2=1)=0.5とする ◦ x=u1 ◦ y=xu2+(1-x)(1-u2) ◦ このとき、「治療を受けて死亡した患者が、もし治療を受けなかった ときの反事実確率」の算出は以下の手順で求める 1. 治療を受けて死亡(x=y=1)をモデルに代入し、u1=u2=1を得る 2. このパラメータの下で反事実であるx=0を代入する 3. y=0を得る ◦ 仮想的条件の下では回復する確率は1となる
  • 26.
    2章 :予測  3章~6章 :介入  7章~10章 :反事実  用語 ◦ 確率パラメータ ◦ 統計パラメータ ◦ 因果パラメータ  因果モデルに基づいて定義される量 ◦ 統計的仮定 ◦ 因果的仮定  因果モデルに対する仮定・制約  この仮定が無い限り、統計パラメータと因果パラメータを識別することは できない  グレンジャー因果性(Granger, 1969)や強外生生(Engle, 1983)といった 経済時系列モデルは因果モデルではなく統計モデルである  因果的仮説がなければ介入や反事実効果を識別できないため  心理的障壁 ◦ 観察研究では検証不可な事をモデルとして形成することへの抵抗 ◦ 新しい確率計算の概念の導入への抵抗(Cox, 1993, Statistical Science, 204-)
  • 27.
    第2章 ◦ 因果関係を推測するための理論
  • 28.
    Hume(1700年代)の時代から観察データからどのように因果関係を 解明できるかが議論されている  1980年代にグラフと確率的従属性との数学的関係が脚光を浴び、形 式的に扱うことで計算も実行可能 ◦ Rebane and Pearl (1987)  時間的な順序のないデータからどのように因果関係を推測できるか ◦ UCLAとカーネギーメロン大学  データを用いて因果構造を記述する条件付き独立関係を部分ごとに探し、それらを つなぎ合わせる  TETRAD IIプログラムに実装 ◦ スタンフォード大学  候補となった因果構造に割り当てられた事前確率を更新するベイジアンアプローチ ◦ Verma and Pearlのアプローチを紹介  2.2節:因果モデルとその概念、帰納的ゲーム  2.3節:極小モデルとOccamの剃刀  2.4節:定常性  2.5節:ICアルゴリズム  2.6節:適切な因果関係の抽出  2.7節:因果関係を識別する本質的な条件  2.8節:因果関係の時間的な側面と統計的な側面  2.9節:因果関係の自動的発見に対する論争
  • 29.
    因果関係に対する直感 ◦ 一般的に時間的順序が因果関係の不可欠なものである  以下の場合は因果推論を行うことはできない(Fisher, 1951)  因果的に重要な要因がすべてわかっていない  うまく操作できない変数がある ◦ 時間的順序がわかっていなくても因果関係を予想することは できる(Reichenbach, 1956, The Direction of Time)  AとB、BとCは従属しているがAとCは独立である  多くの人がA→B←Cと表現するであろう  X→Y→Z、X←Y→Z、X→Y←Zを基本的な因果構造とする  Rebane-Pearlの回復アルゴリズム
  • 30.
    因果構造 ◦ 定義:DAGと変数集合Vがあるとき、このDAGをVの因果構造という  因果モデル ◦ 定義:因果構造Dと、Dと整合するパラメータ集合ΘDの組M=<D, ΘD > を因果モデルという ◦ ΘD:Vの各変数に当てられた関数xi=fi(pai,ui)とuiの確率P(ui)  PAiはXiの親、誤差Uiは互いに独立にP(ui)に従う ◦ 因果モデルMが構成されると同時確率分布P(M)ができる  観測変数Vの部分集合Oを利用して同時分布P[O]がわかる  P[O]の利用してDAGのトポロジーDを復元できるか?  潜在構造 ◦ 定義:変数集合Vの因果構造Dと観測変数集合O in Vの組L=<D, O> を潜在構造という  モデルの優位性 ◦ 定義:2つの潜在構造L=<D, O>とL’=<D’, O>に対して、因果構造D’が Dを表現できるときLはL’よりも優位であるといい、 L≤L’と書く  L’の方がより多くの分布を表現でき、冗長な因果構造となっている  Lの方が単純な因果構造である ◦ Dの任意のパラメータ集合ΘDをΘ’D’で表現できる
  • 31.
    Occamの剃刀 ◦ より単純な因果構造が良い  (a 独立 b)、(d 独立 {a, b}|c)のみがデータから得られた場合、 次の因果構造が極小(最も優位)なものとなる ◦ 例  a:風邪を引く, b:熱がある, c:くしゃみをする, d:鼻をかむ  以下の2つの因果構造は同等  極小性の仮定を利用しただけ(極小性原理)で、cがdの原因となっている ことが言える a b ※ b c a c d d
  • 32.
    定常性 ◦ パラメータが変化しても独立関係は変化しない ◦ 2つのコインを投げた結果をAとB、AとBが同じ場合は1、異 なる場合に0となる変数をCとする  パラメータはコインの表が出る確率  パラメータが共に0.5のとき  生成データから得られる独立関係 1. 任意の2つの変数は周辺独立 2. 第3の変数を与えたときには従属となる  3種類の独立関係が予想できる  A→B←C、 A→C←B、 B→A←Cの3つが極小因果構造となる  パラメータが変わり、異なるデータが得られたとしてもA→C←B だけは極小因果構造である  因果モデルA→C←Bは定常分布を生成している  パラメータが0.5と0.8である場合はA→C←Bのみが極小因果構造
  • 33.
    例1(2つのコインの例) a b a b a b c c c Θ=(0.5, 0.8)のときのデータから Θ=(0.5, 0.5)のときのデータから 考えられる条件付独立関係 考えられる条件付独立関係 →この因果構造が定常分布を生成している 例2(風邪の例) a b a b ・左の因果構造の方が優位 →極小性原則より棄却される ・(a 独立 b)が存在する c c →aとbの関連性がうまく相殺 されるパラメータでなくてはならない ので、定常性原則より棄却される d d
  • 34.
    ICアルゴリズム(Inductive Causation、Verma and Pearl, 1990) ◦ 潜在構造を仮定しない場合の、唯一な極小因果構造(D0)と同値なク ラスを発見する方法  ステップ1:(a 独立 b|Sab)となるSabをみつける  みつからない場合はaとbを無向辺で結ぶ  ステップ2:隣接しないaとbが共通の隣接点cをもつとき  c in Sabの場合:矢印を加えない  c not in Sabの場合:a→c←bとする  ステップ3:無向辺にできるだけ向きを付ける(Meek, 1995)  規則1:a→b―cであればa→b→cとする  規則2:a→c→b、a―bであればa→bとする  規則3:a―c→b、a―d→b、a―bであればa→bとする  規則4:a―c→d、c→d→b、a―bであればa→bとする a b c c c a b a b a d c d b
  • 35.
    IC*アルゴリズム ◦ 潜在構造も含めた極小因果モデルを発見する方法  修正ステップ3:できるだけ多くの矢線に*をつける  規則1:a→c―bであればa→c * →bとする  規則2:a * → … * → b、a―bであればa→bとする  マーク付き矢線(→*):有向道を示す  マークなし矢線(→):有向道もしくは潜在共通原因(a←L→b)がある  双方向矢線:潜在共通原因(a←L→b)  無向辺(ー):a→b、a←b、潜在共通原因(a←L→b)のどれか  無向辺自体に向きを加えるのではなく、無向辺の端点それぞれに矢印を加 えていく  双方向となることもある ◦ スプリンクラーの例  データから次の条件付独立を満たす集合を得る  Sad={b, c},Sae={d}, Sbc={a}, Sbe={d}, Sce={d} a a a b c b c b c d d d * e e e
  • 36.
    潜在的原因(マークなし矢線、→) ◦ 以下の条件を満たす  すべての背景(S)においてXとYは従属する  (X 独立 Z|S)、(Z 従属 Y|S)となるZとSが存在する  本質的原因(マーク付き矢線、 →*) ◦ 以下の条件のいづれかを満たす  すべての背景においてXとYは従属し、次の条件を満たすSがある  ZはXの潜在的原因である、(Z 従属 Y|S)、(Z 独立 Y|S∨X)  Sだけでは従属しているが、Xを加えると独立になる  XとYは基準1で定義された関係の推移的閉包に含まれる  擬似相関(双方向矢線) ◦ 以下の条件を満たすZ1、Z2、S1、S2があるとき、XとYは擬似相関をも つという  (Z1 従属 X|S1)、(Z1 独立 Y|S1)、(Z2 従属 Y|S2)、(Z2 独立 X|S2)  時間情報を持つ本質的原因 ◦ Xに先行するSとZが次の条件を満たす  (Z 従属 Y|S)、(Z 独立 Y|S∨X)  時間情報を持つ擬似相関 ◦ XがYに先行し、XとYが背景Sにおいて従属しており、Zが次の条件を 満たす  (Z 独立 Y|S)、(Z 従属 X|S)
  • 37.
    2.8 因果関係と統計的時間 ◦ 人間の思考では時間的な期待と統計的な期待の2つに基づいて因 果的解釈がなされる  Reichenbach (1956)の接続分岐経路と共通原因  時間的時間 ◦ 定義:経験分布Pと一致する極小因果構造の少なくとも1つと矛盾し ない変数順序をPの統計的時間という  1次マルコフモデル:物理的時間と矛盾する統計的時間が得られること もある  2次マルコフモデル:ICアルゴリズムを実行することで物理的時間と一致 する統計的時間を得ることができる  Xt=aXt-1+bYt-1+e1t  Yt=cXt-1+dYt-1+e2t ◦ 多くの自然現象では、物理的時間は少なくとも1つの統計的時間と 一致すると予想される  トウモロコシと豚肉の値段の例(Wright, 1925) ◦ ICアルゴリズムでトウモロコシの値段が豚肉の値段を上げている (Glymour and Cooper, 1999, Computation Causation and Discovery)
  • 38.
    批判 ◦ 統計的関連性から因果関係を推測することへの批判  極小性  極小性自体への批判は少ない  マルコフ的構造を因果モデルと定義することに対して批判が多い  Carwright (1995), Lemmer (1993)らが特に批判  非マルコフモデルに対する研究(Spirtes, 1995)  量子力学的世界ではなくマクロ的世界ではマルコフモデルで充分  定常性  ルベーグ測度に基づく正当性(Spirtes, 1993)  制約が無い限り、特定のパラメータでしか成立しない因果モデルは定常で はない  Aldrich (1989)の自律性の概念がもう1つの正当性  ベイジアン・アプローチとの関連 ◦ 事後得点の最も大きい因果ネットワークが選ばれる  潜在変数への対処が困難  極小性を満たすモデルが優先的に選択される  多くのRパッケージはこのアプローチと思われる  ICアルゴリズムを行うパッケージはbnlearn( http://www.bnlearn.com/ )
  • 39.
    第3章 ◦ 因果ダイアグラムと因果効果の識別可能条件  潜在変数がない場合:非実験データから介入効果を推定  潜在変数がある場合:因果効果の識別問題が生じる  因果ダイアグラムを利用して識別可能かどうか調べる  識別可能でない場合はどのような補助実験を行えばよいか、ど の変数を新たに観測したら良いか判断できる  do計算法の紹介  構造方程式と回帰方程式の区別  直接効果と間接効果の定義  構造方程式とNeyman-Rubinモデルの関係
  • 40.
    Cochranの農業の例(Wainer, 1989, J of Educational Stat, 121-140) ◦ X:土壌薫蒸剤(農薬、農薬散布) ◦ Z:線虫の個体数(害虫) ◦ Z0:昨年の害虫の数(非観測変数) ◦ Y:オート麦の収穫量(収量)  薫蒸は害虫の数と収量に対して直接的に影響を与えている ◦ 条件  農家が薫蒸を決めるのでランダム化実験ができない  農家はZ0に基づいて薫蒸するかどうか決める  Z0非観測変数でありZと強い相関をもつ  薫蒸する前後の線虫の個体数は測定できる  薫蒸の効果は短期間である  線虫の成長は捕食者(鳥など)の個体数に依存する  捕食者の個体数はZ0と相関を持つ
  • 41.
    研究者が既に持っている仮定を因果ダイアグラムで表現する ◦ この仮定が正しい場合に因果効果がどうなるかを推定する  この因果ダイアグラムはWrightのパスダイアグラムに似ている ◦ 1921, J of Agricultural Res, 557-585 ◦ パスダイアグラム:正規誤差を伴う線形モデル ◦ 因果ダイアグラム:非線形交互作用モデル、ノンパラメトリックモデル  XからYへの因果効果は一致推定できる ◦ P(y|do(x))=Σz1Σz2Σz3P(y|z2, z3, x)P(z2|z1, x) Σx’ P(z3|z1, z2, x’)P(z1, x’)  P(y|do(x))は介入によって処理変数Xをxと固定したときに収穫量Y=yとなる確率  全ての変数は離散型確率変数である場合  YとZ3が交絡している場合は一致推定できない  YとZ2が交絡している場合は一致推定できる
  • 42.
    Pearl and Vermaの決定関数による表現 ◦ xi=fi(pai, ei):eは互いに独立な誤差(非観測変数)  マルコフ的(全ての従属した変数を観測) ◦ xi=fi(pai, ui):uは互いに従属した非観測変数も含む  セミマルコフ的(観測変数が{X, Y, Z1, Z2, Z3}) ◦ 農業の例  Z0=f0(e0), Z1=f1(Z0, e1), Z2=f2(X, Z1, e2), Z3=f3(B, Z2, e3)  B=fB(Z0, eB), X=fX(Z0, eX), Y=fY(X, Z2, Z3, eY)  逐次的因数分解  P(z0, x, z1, b, z2, z3, y)=P(z0) P(x|z0) P(z1|z0) P(b|z0) P(z2|x, z1) P(z3|z2, b) P(y|x, z2, z3)  因果効果 ◦ 定義:互いに俳反な集合XとYの実現値xとする。モデルxi=fi(pai, ui) の左辺にXの要素が含まれる方程式を全て取り除き、それ以外の 方程式の右辺にあるXをxと置き換えることによって得られるY=yの 確率をP(y|do(x))とする。このとき、XからYの確率分布の空間への 関数P(y|do(x))をXからYへの因果効果という。  介入によって得られるグラフはXへ向かうすべての矢線を取り除いたも のになる  Rosenbaum and Rubinの介入効果の定義はE(y|do(x’’))- E(y|do(x’))
  • 43.
    介入を“関数fiを変更する外的な力Fi”と解釈できる ◦ Fi={do(xi’), idle}  P(xi|pai’)=P(xi|pai) when Fi=idle 自然状態  =0 when Fi=do(xi’) and xi not= xi’ 非介入状態  =1 when Fi=do(xi’) and xi = xi’ 介入状態 ◦ さまざまなタイプの介入を表現できる  同時介入など ◦ XiがYとFiを有向分離する場合はfiが変化してもP(y|xi)は変わ らない  経済指標間の因果関係(Hoover, 1990, Economics and Philosophy, 207-234)