経営学系
統計学エンドユーザーのための
統計的因果推論
勉強会
第1回
五島 光
@hikaru1122
2016年5月28日
本⽇の概要
Ø オリエンテーション
Ø 宮川本1章
Ø 星野本1章
Ø 質問タイム&ディスカッション
2
オリエンテーション
3
本勉強会の⽬的
Ø 「相関と因果関係は違うよ」とただ⾔うだけ、
知ってるだけから⼀歩先に進む。
Ø これからベイズ統計とともにホットトピック
になるであろう統計的因果推論について学び
ながら、論⽂を読む、書く時に必要な統計分
析を⾝に付ける
Ø 質的研究も量的研究も⼤事にできる⼈になる
4
スケジュール&⽅針
Ø 1ヶ⽉に1回、宮川本と星野本を1章ずつ
Ø 五島が15〜20分ほど内容を説明。その後,
わからないこと,活⽤⽅法を話し合う
Ø 2016年12⽉までに終えたい数式の込み⼊っ
たところは⽴ち⼊りすぎない
Ø いっしょに学び合いたい(みんな⾮専⾨家)
5
みんなで勉強するメインの本
6
宮川本 星野本
副読本
7
Ø 2016年6⽉『岩波データサイエンス』vol.3
は統計的因果推論の特集号。マストバイ
その他、関連しそうな本
8
統計学エンドユーザーとしての態度
Ø 統計分析は⾃動⾞・⾃転⾞と同じ
Ø 詳しいクルマの構造がわからなくても,
交通マナーを守り、正しく運転すれば便利
Ø まちがって使えば危険
9
統計的因果推論を学ぶメリット
Ø 統計分析によって因果効果を推定し、
さらにその先に⾏ける。
Ø 原因が結果に影響を与えるプロセスの解明
Ø 結果がポジティブなものならより向上する⽅
法、ネガティブなものならより少なくする⽅
法の探求
10
社会科学の統計的因果推論の例
Ø 組織改⾰をしたら⽣産性は上がるのか?
(川上・淺⽻ 2015)
Ø 中学時代の通塾は⾼校進学にどう効果をもた
らすのか?(中澤 2013)
Ø 顧客の価値共創への関わりは顧客のQOLを⾼
めるのか?(五島 いまやってる)
11
統計的因果推論とは何か?
Ø ✕ データ分析で勝⼿に因果関係がわかる
Ø ○ 因果効果を正しく推定する
Ø 「ヘテロな現実の環境下でいかにすれば因果
関係が主張されるのか」を問う
Ø 「ある処置に効果があるか、あるとしたらそ
れはどの程度か」を測る
12
データの裏にあるストーリーが必要
Ø データだけでは因果推論はできない
Ø 「相関なくして因果関係なし」
Ø 「調査観察データを⽤いた実証
分析から導かれる因果関係については、確定
的なことを述べることがきわめて難しい」
Ø 「観察研究から因果関係の確⽴はできないと
いうのは極論であり、我々は最善を尽くす必
要がある」
13
必要な統計分析・数学の知識・⽤語
Ø 期待値(平均) 分散・共分散 相関
Ø 回帰 交絡 構造⽅程式モデリング
Ø 事象 変数 条件付き確率 独⽴
全確率の法則 同時確率 ベイズの定理
Ø 潜在反応モデル 反事実・可能世界
Ø グラフィカルモデル(モデリング)
14
宮川本 第1章
15
宮川本について
Ø グラフィカルモデリングに基づく統計的因果
推論の本
Ø 本勉強会では第6章をゴールにしたい
Ø 我々⽂系には厳しい本だけど、統計的因果推
論の基盤を固めるために有益
Ø 第1章のメインコンテンツ
回帰分析の濫⽤への警告
層別に分析するときの注意点
16
回帰分析のabuse
Ø 1)AのときにBである
(例:Aが⾼いときにBも⾼い)
2)AすればBになる
(例:Aを⾼めればBは⾼くなる)
Ø 実は1)なのに、2)のつもりで回帰分析す
るのが「濫⽤」(abuse)
17
回帰分析のabuse
Ø 因果関係を調べるときに回帰分析を使うこと
は悪くない
Ø 正しい(偏)回帰係数になっていない恐れが
問題
18
𝑌 = 𝛽$ + 𝛽& 𝑋& + 𝛽( 𝑋( + 𝜀
↑
偏回帰係数
↑
説明変数結果変数
ノイズ
回帰分析のabuse
Ø 第1営業部に新しい福利厚⽣を与え、第2営
業部は従来どおりにしたところ第1営業部の
職員満⾜度が上がった。この新しい福利厚⽣
は職員満⾜度を上げる効果があると⾔える
か?
Ø 職員満⾜度を結果変数、新しい福利厚⽣の有
無を説明変数にして分析でいいの?
Ø 職員満⾜度=切⽚+β×福利厚⽣の有無+ε
19
回帰分析のabuse
Ø 説明変数をたくさん⼊れる?
Ø 職員満⾜度=切⽚+福利厚⽣の有無+職歴+
営業成績+会話量+…いろいろ…+ε
Ø 説明変数について次の2点を疑う
①含まれるべきものが含まれてない
②含まれるべきでないものが含まれている
Ø 確率統計の概念だけでなく、因果に関する概
念が必要
20
層別分析の注意点
Ø シンプソンのパラドックス
21
出所:Pearl,	et	al.	(2016)
層別分析の注意点
Ø ①層別したときと併合したときの結果が違う
②層別することに意味がない
Ø 層別するときの適切な「交絡因⼦」を⾒つけ
ることが⼤切
Ø まちがうとセレクションバイアス(選択によ
る偏り・選択バイアス)が⽣じる
22
交絡因⼦と因果ダイアグラム
Ø 「交絡因⼦」=層別すべき変数
Ø 「因果ダイアグラム」=変量を⽮印で結んで
変量間の因果関係を表した図
Ø いまは9〜11ページで⽤語を確認すればOK
23
その他
Ø (コクラン・)マンテル・ヘンツェル検定
Ø クロス表の分析は太郎丸(2005)、藤井
(2010)が勉強になる。
Ø 統計分析をするとき、結果変数の尺度に気を
つけること。
24
星野本 第1章
25
星野本について
Ø 調査観察データは⽋測データとして考えよう
とする本
Ø テーマは3つ(サブタイトルより)だが
本勉強会では,はじめの2つを扱う
Ø よって第5章,または第6章をゴールとした
い
Ø 著者が⾶ばしてよいと書いているところは⾶
ばします。
26
調査観察研究のデータ
Ø 調査観察データ(⼀般的な社会科学のデー
タ)の扱いって難しいね!
Ø 無作為割り当てはできないし,できたとして
も不⾃然だし(⽣態学的妥当性に⽋ける)
やろうとしてもやってくれないし(不遵守)
Ø 今後登場する変数については,7ページの図
1.1が直感的でわかりやすい
Ø 共変量=宮川本で出てきた「交絡因⼦」
27
調査観察研究のデータ
Ø 多くの因果効果の推定例が載っている(11
〜16ページ)
Ø 「グラフィカルモデリングは社会科学の研究
で全く利⽤されていない」
Ø 「もし実験が⾏えたら得られるであろう,独
⽴変数の従属変数への単独効果(因果効果)
を推定する⽅法論と限界を知ろう」
28
統計的因果推論と⽋測データ
Ø 「もし実験が⾏えたら」=調査観察研究の因
果推論を⽋測データの問題として扱う
Ø 割り当てられてない側の結果を共変量を活⽤
して推定する
Ø 実際の分析では,
パラメトリック分析と
ノンパラメトリック分析の
いいとこ取りをしよう
=セミパラメトリック解析
29
統計的因果推論と⽋測データ
Ø 図1.4を参照
30
処置群のデータ ⽋測
⽋測 対照群のデータ
共変量
処置群 対象群
Ø 潜在反応モデル/反実仮想モデル(次章)
参考⽂献
Pearl, J., Glymour, M., & Jewell, N. P. (2016). "Causal Inference in Statistics: A Primer".
John Wiley & Sons.
⽯⽥浩(2012)「社会科学における因果推論の可能性」『理論と⽅法』,27(1),1-18⾴。
⼊⼭章栄(2012)『世界の経営学者はいま何を考えているのか ―知られざるビジネスの知のフロ
ンティア』,英治出版。
岩崎学(2014)「統計的因果推論の考え⽅」『現代思想』, 42(9), 86-97⾴。
川上淳之・淺⽻茂(2015)「組織改⾰は⽣産性に影響するか?」RIETI Discussion Paper Series
15-J-048。
太郎丸博(2005)『⼈⽂・社会科学のためのカテゴリカル・データ解析⼊⾨』,ナカニシヤ出版。
中澤渉(2013)「通塾が進路選択に及ぼす因果効果の異質性 ─傾向スコア・マッチングの応⽤
─」『教育社会学研究』,Vol. 92,151-174⾴。
藤井良宜(2010)『Rで学ぶデータサイエンス1 カテゴリカルデータ解析』,共⽴出版。
星野崇宏(2009)『調査観察データの統計科学: 因果推論・選択バイアス・データ融合』,岩波書
店。
宮川雅⺒(2004)『統計的因果推論 -回帰分析の新しい枠組み-』,朝倉書店。
※イラストは「いらすとや」http://www.irasutoya.com/

統計的因果推論勉強会 第1回