Successfully reported this slideshow.
Your SlideShare is downloading. ×

DataRobotを用いた要因分析 (Causal Analysis by DataRobot)

Ad

Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
DataRobotを用いた要因分析

Ad

Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
本ワークショップの概要
要因分析とは何か
● 要因分析とは?
● 要因分析の適用分野
● 擬相関
● 因果関係と介入...

Ad

Confidential. Copyright © DataRobot, Inc. - All Rights Reserved
本ワークショップの概要
因果解析
● 因果関係をモデル化するには:大方針
● 介入試験による因果関係の検証
● ラン...

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Loading in …3
×

Check these out next

1 of 73 Ad
1 of 73 Ad
Advertisement

More Related Content

Slideshows for you (18)

Advertisement

DataRobotを用いた要因分析 (Causal Analysis by DataRobot)

  1. 1. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved DataRobotを用いた要因分析
  2. 2. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 本ワークショップの概要 要因分析とは何か ● 要因分析とは? ● 要因分析の適用分野 ● 擬相関 ● 因果関係と介入効果 ● 交絡因子(共変量) ● 因果に踏み込むべきか? 要因分析のための予測モデリング ● 各手法の比較 ● DataRobotによる要因分析 ● ハンズオン#1:予測モデルの構築 ● DataRobotによる予測モデリング ○ リーダーボードでモデルの精度を確認する ○ 特徴量のインパクト ○ 特徴量ごとの作用 ○ 特徴量インパクトによる特徴量選択 ○ 特徴量選択によって多重共線性(マルチコ)に対 処する ○ 有用な特徴量について考察を行う ○ GA2Mによる交互作用の抽出
  3. 3. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 本ワークショップの概要 因果解析 ● 因果関係をモデル化するには:大方針 ● 介入試験による因果関係の検証 ● ランダム化比較試験 (Randomized Controlled Trial, RCT) ● 介入試験の制限と観察研究 ● 自然実験 ● 単純に群を分けると「選択バイアス」が生じること がある ● 因果仮説からの介入効果推定:考え方 ● 「傾向スコア」を使うことで選択バイアス問題を解 決できる ● 交絡因子の選び方 ● ハンズオン#2:傾向スコアマッチング法 ○ 特徴量セットの作成 ○ 新しい特徴量でモデリング ○ リモートワーク傾向に影響を及ぼす因子 ○ Word cloudレビュー ○ 選択バイアス検証の結果 ○ 傾向スコアの取得 ○ 傾向スコアマッチング ○ 不要な特徴量を除外しておく ○ 再モデリング ○ 傾向スコアマッチングの結果 まとめ ● 要因分析・因果解析 本日のまとめ Supporting materials 1, 2
  4. 4. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved おことわり 統計的因果推論、機械学習、統計的品質管理の分野では、要因(Cause)と同 等の意味合いで「原因」「因子」「特徴量」「説明変数」など様々な用語が使われ ています。 本セミナーでは用語を統一せず、「要因」「因子」「説明変数」「特徴量」を同じ意 味で使わせていただきます。
  5. 5. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Glossary ■ 要因 Cause ■ 説明変数 Explanatory variable ■ 特徴量 Feature ■ 結果変数 Outcome variable ■ 因子 Factor ■ 制御因子 Controllable factor ■ 誤差因子 Noise factor ■ カテゴリー変数 Categorical variable ■ 相関 Correlation ■ 擬相関 Spurious correlation ■ 因果 Cause and effect ■ 因果仮説 Causality hypothesis ■ 潜在的な結果 Potential outcome ■ 線形重回帰 Linear multiple モデル regression model ■ ロジスティック Logistic regression 回帰 ■ プロビット回帰 Probit regression ■ 一般化加法 Generalized additive モデル model ■ 決定木 Decision trees ■ ブースティング Boosting ■ 汎化性能 Generalization capability ■ 多重共線性 Multicolinearity ■ 共分散分析 Analysis of covariance ■ 絶対平均 Mean Absolute 比率誤差 Percentage Error (MAPE) ■ 自然実験 Natural experiment ■ 介入効果 Treatment effect ■ 交絡 Confounding ■ 交絡因子 Confounding factor ■ 共変量 Covariate ■ 選択バイアス Selection bias ■ 実験計画法 Design of experiments ■ ランダム化 Randomized controlled 比較試験 trial ■ 層別 Stratification ■ 層別分析 Stratified analysis ■ 傾向スコア Propensity scores ■ 偏回帰係数 Partial regression coefficient
  6. 6. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 参考文献 ● データ分析の力 因果関係に迫る思考法 (光文社新書), 伊藤 公一朗 (著) ● 岩波データサイエンス Vol.3, 岩波データサイエンス刊行委員会 (編集)
  7. 7. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 要因分析とは何か
  8. 8. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 要因分析とは? ■ 何らかの結果をもたらしている原因(要因)を特定する作業 ◆ 要因分析を行う目的は、その要因に 主体的に介入(Do)して現状を好ましい方向に変化 (改善)さ せたいから(例:売上の向上、製品不良の改善) ◆ 介入できない要因も、 予測のためには有用 売り上げ クーポン配布 今日の天気 競合の動向 … 主体的に介入 (Do)できる要因 介入できない 要因
  9. 9. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 要因分析の適用分野 分野・業界 適用課題 プロジェクト例 製造業 - プラント・機器メ ンテナンス 故障原因・不良発生原因の特定・制御 ● 客先使用装置の故障原因早期特定 ● プラントの安定稼働に寄与する重要パラメータの特定 ● 工場における歩留まり低下原因の早期特定 製造業 - 研究開発 アウトカムを望ましい状態にするために有用 なパラメータの発見 ● R&D初期段階での重要因子・重要設計パラメータの発見 ● 医薬品のQuality by Design(QbD)を実践するための重要設計・工程パラメータ 特定 ヘルスケア (医療・創薬) 新薬品・新治療法の効果検証 あるアウトカムを引き起こす因子(遺伝子・環 境因子など)の発見 ● 治験:新治療法や新薬の効果検証 ● PMDAデータベースを利用した、副作用を引き起こす原因の特定 ● 後ろ向きコホート研究による、疾患と相関のある重要曝露因子の発見 ● 前向きコホート研究による、疾患と因果のある重要曝露因子の発見 経済/社会政策研究 (計量経済学) 経済施策の効果検証 ● 商品価格が税込みと税抜きで表示された場合における購買行動変化の研究 ● 電力価格の変更が節電に繋がるかどうかのフィールド実験&研究 マーケティング アウトカムを望ましい状態にするために有用 な施策の発見または検証 ● コンバージョン率向上に寄与するeコマースサイトデザインの発見 ● 売り上げ増加に寄与するマーケティング施策の発見または検証 人事・トレーニング 採用・離職などのイベントに伴う有効施策の 発見または検証 ● 新卒1年以内の離職を防ぐのに有効な施策の発見または検証 ● 中途採用者向けに有効な教育プログラムの検証
  10. 10. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 擬相関 ■ 因果関係:原因(要因)と結果の関係 ◆ 「原因→結果」のように片向き矢印で表現 ■ 相関があっても因果があるとは限らな い ■ 擬相関:本当は影響を与え合う関係 では無いのに、交絡因子(共変量)の 影響を受けて、あたかも関係性がある ように見えていること 三振数 ホーム ラン数 相関? or 因果? 三振数 ホーム ラン数 バット スピード 因果 因果 擬相関 三振数 ホームラン数 交絡因子 (共変量)
  11. 11. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 因果関係と介入効果 介入なし群 介入あり群 ホームラン率(平均値) 介入なし群 介入あり群 ホームラン率(平均値) 空振りを増やした場合 スイングスピードを強化した場合 ■ 因果関係の大きさは介入効果によって定義される ■ ところが、同一の対象に「介入あり・なし」を同時に試すことはできない ◆ 「因果推論の根本問題」 (Holand, 1986) ■ 介入効果推定の方針:同一対象ではなく、(ランダムに分けた)群の単位で比較 介入 効果!
  12. 12. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 交絡因子(共変量) ■ 興味のある要因Xと結果変数Yの両 方に共通の要因Z(=上流に位置す る) ■ 交絡因子の影響を見落とすと、特徴 量と結果変数との関係性を見誤る可 能性がある ◆ 左の例では、交絡因子「患者年齢」を見 落とすと、投薬量が増えるほど症状が悪 くなるように見える(シンプソンのパラドッ クス) Y:症状の 悪さ X:投薬量 Z:患者年齢 症状の悪さ 投薬量 50代 70代 80代 要因 (説明変数) 結果変数 (目的変数) 交絡因子 (共変量) ??? 60代
  13. 13. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 因果に踏み込むべきか ■ 因果に踏み込むのは、施策として高コストな場合もある ◆ 介入試験の実施コスト ◆ アドバンストなデータ分析にかかるコスト ■ 相関だけであれば、解析は比較的簡単 ◆ 相関が確認できれば、ドメイン知識から因果についても推定できる場合も多い ◆ 予測だけが目的なら、要因分析までは不要な場合も多い
  14. 14. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 要因分析のための 予測モデリング
  15. 15. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 各手法の比較 手法 多変量解析 通常の機械学習 Automated ML 言語・ソフトウェア 主に統計解析ソフト Python, Rなど DataRobot 主に用いられる モデル 主には多重線形回帰 GBDT, RF, NNなどから分 析者が自分で選定 DataRobotが自動的に最適アル ゴリズムを選定 シンプルすぎて現象を十分説 明できない場合も 複雑すぎてノイズに弱い場 合も 最適なモデルが自動的に選ばれ る 解釈性 係数レベルで把握可能 変数重要度を確認できない ものも多い 全てのモデルで特徴量のインパ クト、特徴量ごとの作用を確認で きる 前処理 数値データへの変換が必要 数値データへの変換が必要 (一部アルゴリズムはカテゴ リに対応) 数値、カテゴリ、テキストいずれも 対応 検討サイクル スキルに依存するが、一般に は長期間 スキルに依存するが、一般 には長期間 誰でも比較的短時間で可能
  16. 16. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved DataRobotによる要因分析 必要に応じて特徴量 選択を行い、1の作業を 繰り返す 1. 特徴量の インパクト出力 2. 特徴量選択 3. 相関/因果の 考察 ターゲットに対する各特 徴量のインパクト(寄与 度)を求める 特徴量ごとの作用を見 て、ターゲットとの 関係性を確認する 各特徴量のインパクト が、「因果」によるもの か、「相関」しているだけ かを判別する 0. 予測モデルの 構築 予測モデルを構築し、 精度を確認する
  17. 17. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 予測モデルの構築(ハンズオン) ● エンジニアのための主にプログラミング関連のQ&Aサイト ● 今回の題材は毎年行われている調査アンケート結果の2017年版 ● 年収入を予測するモデルを構築し、その要因を調べてみる
  18. 18. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved DataRobotによる予測モデリング I. causal_analysis_1.csvをDataRobotにドラッグ&ドロップしてアップ ロードしてください。 II. Salaryをターゲットに指定し、モデリングモードをクイックに設定して開始 ボタンをクリックしてください。 III. モデルの精度が要因分析に用いるのに十分かを確認しましょう。 IV. 特徴量のインパクトと特徴量ごとの作用を確認して見ましょう。 A. インパクト上位の特徴量は要因でしょうか?それとも擬相関でしょう か?
  19. 19. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved  ターゲット を 選択 1  クイックを選 択 2  開始ボタンを クリック 3 0. 予測モデルの 構築
  20. 20. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved リーダーボードでモデルの精度を確認する 精度はMAPE:21%程度でリフト チャートからもある程度の予測ができ ていることがわかる MAPE 0. 予測モデルの 構築
  21. 21. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量のインパクト 経験年数 (YearsCodedJod, YearsProgram), 勤務先 (CompanyType, CompanySize), スキル (HaveWorkedLanguage, HaveWorkedPlatform, HaveWorkedDataBase) 教育・学歴 (FormalEducation, MajorUndergrad, EducationTypes) もらい過ぎ感 (OverPaid) リモートワーク (HomeRemote) 1. 特徴量の インパクト出力
  22. 22. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量ごとの作用 ● コーディングの業務経験、プログラミング経験ともに年収入に対してポジティブに 効いているようだ 1. 特徴量の インパクト出力
  23. 23. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量ごとの作用 ● 企業タイプは上場企業とベンチャー企業の年収入が高い傾向にある ● 企業規模は大企業の年収入が高い傾向にある 1. 特徴量の インパクト出力
  24. 24. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量インパクトによる特徴量選択 ● 因果仮説を考える際にはインパクトの高い少数の特徴量 (Vital Few Features, VFFs) に絞り込むことが有用 ● 特徴量のインパクトを元に新しい特徴量セットを作ることができる 2. 特徴量選択
  25. 25. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量インパクトによる特徴量選択 「オートパイロットを別の特徴量セットに 対して実行」で特徴量選択後のセットで モデルを再構築できる 個別のモデルごとに特徴量選択後の セットでモデルを再構築することもできる 2. 特徴量選択
  26. 26. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量インパクトによる特徴量選択 特徴量選択の単位 実行ステップ数 かかる時間 手法のメリット 特徴量選択① 単一モデル 1段階 短 簡便、早い 特徴量選択② 単一モデル 多段階 (逐次的に特徴量選 択を行う) 中 多重共線性(マルチコ) に対して効果的 特徴量選択③ オートパイロット 多段階 (逐次的に特徴量選 択を行う) 長 多重共線性(マルチコ) に対して効果的 モデルによるばらつき に対処できる 2. 特徴量選択
  27. 27. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量選択によって多重共線性(マルチコ)に対処する FEATURE_1 FEATURE_2 両方のインパクトが過 小評価される ここで特徴量選択 すると、 FEATURE_1 過小評価が解消 されてインパクト が上がる 2. 特徴量選択 相互に相関する特徴量はインパクトが過小評価されるため、「特徴量インパクト」 を見ながら逐次的な特徴量選択を行うことが多重共線性への対処に有効です!
  28. 28. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 有用な特徴量について考察を行う ● 年収入が高い人ほど、「もらい過ぎかな」と思っている 3. 相関/因果の考 察
  29. 29. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 有用な特徴量について考察を行う ● リモートワークを実施していると年収入が高い? ● リモートワークしているからといって年収入が上がるとは言えないので は? 3. 相関/因果の考 察
  30. 30. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 有用な特徴量について考察を行う ● ドメイン知識に基づいて因果の矢印の方向が推定できる場合もある。 ○ 経験年数や勤務先、スキル、教育・学歴はおそらく要因 ○ もらい過ぎ感はおそらく年収入の結果 ● リモートワークは年収入の要因だろうか(あとで検証しよう)? 年収入 経験 年数 勤務先 スキル 教育・学 歴 リモート ワーク もらい過 ぎ感 ??? 因果ダイアグラム 3. 相関/因果の考 察
  31. 31. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved GA2Mによる交互作用の抽出  Generalized Additive2 Modelを選択する 1  説明→格付表を選択する2  表のダウンロードを クリックする 3
  32. 32. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved GA2Mによる交互作用の抽出 ● GA2Mで交互作用が検出された場合、格付表で確認することができる ● ここではリモート勤務状況とコンピュータ理解度の交互作用が検出された 交互作用項を特徴量として予測モデルへ明示的に加えることで精度の向上も望めます !
  33. 33. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 因果解析
  34. 34. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 因果関係をモデル化するには:大方針 ■ 実験計画法(Design of Experiments, DOE) 意図的に介入を行って得られたデータを使ってモデル化する ■ ランダム化比較試験(Randomized Controlled Trial, RCT) 交絡因子の影響をランダム化する ■ 層別化やマッチングによる交絡因子のバイアス排除 例:傾向スコアにより層別化やマッチングを行う) ■ 交絡因子を組み込んでモデルを生成 例:傾向スコアを共変量とする共分散分析を実施 より確実に因果関係を検証できる 因果仮説を考える際、結果変数に影響を与えるVital Few Features(VFFs)に加えて、交絡 因子を見落とさない その前提で、以下の方針を組み合わせて因果仮説を検証する
  35. 35. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 介入試験による因果関係の検証 ■ 最良の方法は実際に実験を行い、介入効果を検証すること ■ しかし、同一の対象に対して介入ありの結果と介入なしの結果(=潜在的な結果) を同時に観測することはできない。 ◆ 「因果推論の根本問題」 (Holand, 1986) リモートワークをしない リモートワークをする $XXX,XXX $YYY,YYY 比較したいが…
  36. 36. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved ランダム化比較試験 (Randomized Controlled Trial, RCT) ■ そこで、介入の有無以外は公平になるような集団同士を比較する 平均$XXX,XXX 平均 $YYY,YYY 比較可能 リモートワークをしない リモートワークをする
  37. 37. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 介入試験の制限と観察研究 介入試験が常に可能ないし現実的とは限らない ■ お金も時間もかかる場合がある ■ RCTが倫理的に許されない場合もある ◆ 同程度に重篤な病気の人のうち半分だけに手術をする、というような研究はできない ◆ 結果変数がネガティブなもの (例えば副作用発生)なのに、敢えてその結果が生じる確率が高 まるような介入試験は実施できない そこで、すでに取られたデータの観察研究により因果関係の推論を試みるのが、 因果推論のアプローチ ■ 自然実験の手法により、因果に迫る!
  38. 38. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 自然実験 手法 概要 前提条件 操作変分法 介入を介してのみターゲットに影響を及ぼす 操作変数を用いる 検証したい介入操作に対する操作変 数が存在すること RD(Regression Discontinuity)デザイ ン法 介入と見做せる何らかの変化点の近傍を抽 出する 検証したい介入操作に相当するフレ 属性を有するイベントがデータ内に存 在すること 差の差法 施策の差の、介入群とコントロール群の間の 差を比較する 検証したい介入操作に相当するフレ 属性を有するイベントがデータ内に存 在すること 傾向スコア・マッチン グ法 各群の傾向スコアが公平になるようにデータ を抽出することで選択バイアスを取り除く データが交絡因子を十分にカバーし ていること データから介入試験に相当する場所(自然実験)を抽出して分析を行うアプローチです
  39. 39. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 単純に群を分けると「選択バイアス」が生じることがある ■ 介入効果の有無を知りたい要因Xが、2値をとるカテゴリー変数であるとする ◆ 例えば「既存治療法 /新治療法」「販促キャンペーンを打つ /打たない」など  Zn:店舗特性 X:店舗で販促 キャンペーン打 つ/打たない Y:店舗 売り上げ要因 Z1:地域の 人口割合 …
  40. 40. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 単純に群を分けると「選択バイアス」が生じることがある ■ 交絡因子Ziを要因Xのカテゴリー値で層別する ■ そのとき、交絡因子の値によってXの値が決まる「選択バイアス」がなければ、 Xの平均的な介入効果をフェアに推定できる 交絡因子:「店舗がある地域の60歳以上人口割合」 赤:販促キャンペーンを打った店舗1000店での分布 緑:販促キャンペーンを打たなかった店舗1000店での分布 地域の60歳以上人 口割合が低めの店 舗ではキャンペーン を打っていなかった 地域の60歳以上人口割 合が高めの店舗では キャンペーンを打ってい た キャンペーンを打つ /打たないの選 択にバイアスがあるケース キャンペーンを打つ /打たないの選 択にバイアスがないケース 60歳以上人口割合(%)60歳以上人口割合(%)
  41. 41. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 因果仮説からの介入効果推定:考え方 ■ 右上図のように、介入効果の有無を知り たい要因Xと結果Yの両方に影響を与え る(=上流に位置する)交絡因子Zが存在 するとき: ◆ Xに加えてZも取り入れた線形重回帰モデル におけるXの偏回帰係数は、Yに対するXの 介入効果とみなして良い ■ ところが、右下図のように、現実にはXと Yの両方に影響を与える交絡因子Zを数 多く考えられ、さらにZ同士にも関係性が あるかもしれない X Y Z 上流 上流 上流の交絡因子(Z)を固定化して 流れを堰き止めても、XからYへの 流れが観測される(=偏回帰係数 が0でない)ならば、Xに介入したと きにYに効果が及ぶ X Y Z4 Z3 Z2 Z1 交絡因子 要因 結果 変数 ❌ ❌
  42. 42. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 「傾向スコア」を使うことで選択バイアス問題を解決できる ■ 傾向スコア:複数の交絡因子による選択バイアスを一つにまとめた確率変数 ■ 傾向スコアの算出方法 ◆ 2値カテゴリー変数である要因 Xの一方のカテゴリー値を「 1」、他方を「0」とする ◆ 交絡因子を特徴量、 Xをターゲットとするモデル を生成する (モデルからの出力は 0~1の間の値をとる確 率値) ◆ 各行で計算されるモデル出力値 (確率値)が傾向スコアとなる ◆ 例えば医療系の論文では傾向スコア算出には ロジスティック回帰がよく使われているが、他にも プロビッ ト回帰、一般化加法モデル、ニューラルネットワーク 、決定木+ブースティング、など機械学習アルゴリズ ムも利用されている サンプリングデータから汎化性能の高いモデルを用いて傾向スコアを 精度よく予測することは、因果効果推定における重要なステップです !!
  43. 43. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 交絡因子の選び方 ■ ドメイン知識・因果仮説をフルに駆使して選ぶ ■ 何でもかんでも入れてはいけない … 「上流」のみ ◆ 要因Xと結果変数Y両方に影響を与える (時間的・物理的に上 流)と考えられる因子のみ ◆ 要因Xに対する選択バイアスがあると考えられる因子のみ ■ 交絡因子同士の多重共線性(マルチコ)は気にしなくて も良い ◆ 傾向スコアを算出する際にはモデルの予測精度のみに主眼が 置かれるので、交絡因子同士の多重共線性は考慮しなくても 大丈夫 X Y Z 上流 上流 交絡因子 要因 結果変数 Xをターゲットとする傾向スコア予測モデルの解釈性よりも、 モデルから出力される傾向スコアの予測精度そのものがポイントです !!
  44. 44. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved ハンズオン#2:傾向スコアマッチング法(is_HomeRemoteは要因か?)  右上のフォ ルダマークを クリック 1  プロジェクト を管理をクリッ ク 2
  45. 45. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 特徴量セットの作成  すべて選択をクリックし て、全ての特徴量が選択さ れた状態にする 1  Salaryと入力して検索、 SalaryとOverpaidのチェック を外す 2  新しい特徴量セットの名前 を入力して、作成をクリック する 3
  46. 46. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 新しい特徴量で再モデリング  is_HomeRemoteをター ゲットに入力する 1  モデリングモードを クイック 2  作成した特徴量セットが 選択されていることを確 認する 3  開始をクリック4
  47. 47. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved リモートワーク傾向に影響を及ぼす因子 重視している福利厚生 (ImportantBenefits), 経験したプラットフォーム (HaveWorkedPlatform), 職種 (DeveloperType) など
  48. 48. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Word cloudレビュー:ImportantBenefits
  49. 49. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Word cloudレビュー:HaveWorkedPlatform
  50. 50. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Word cloudレビュー:DeveloperTypes
  51. 51. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 選択バイアス検証の結果 リモート群 非リモート群 重視する福利厚生 リモートワーク 退職金など 経験したプラット フォーム AWS Windowsなど 開発者タイプ Web App Desktop App 各群で傾向が異なるため、傾向スコアマッチングによる補正の上で 比較するのが良さそう!
  52. 52. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 傾向スコアの取得  予測を計算→ダウンロード 1 *D&Dではなく上記の操作を行うことでout-of-foldで計算を行います
  53. 53. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 傾向スコアマッチング ● 傾向スコアの分布がリモート群と非リモート群で同等になるようにサンプリ ングを行う ● 今回は事前に傾向スコアマッチングを実施済のデータ (causal_analysis_2.csv) を準備してあるので、そちらを用いる 重なりの部分 からサンプリ ング
  54. 54. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 不要な特徴量を除外しておく  すべて選択をクリックし て、全ての特徴量が選択さ れた状態にする 1  Overpaidのチェックを外す 2   Overpaidを除いた特徴 量セットを作成する 3 ● Overpaid (もらい過ぎ感) は年収入の結果(下流)と考えられるため、モデ リングに用いる特徴量セットから外しておく
  55. 55. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 再モデリング  Salaryをターゲットに指定 する 1  モデリングモード をクイックにする 2  開始ボタンを クリック 2
  56. 56. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 傾向スコアマッチングの結果 ● リモートワーク群の年収入が1270 USDほど高い ● ただし、データセットに含まれない交絡因子の効果は傾向スコアマッ チングでは除けない点に注意が必要 ○ その場合にはその交絡因子が真の要因という可能性がある
  57. 57. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved まとめ
  58. 58. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved 要因分析・因果解析 本日のまとめ ■ DataRobotを用いると精度の高い予測モデルを簡単に作成することができ、「特徴 量のインパクト」と「特徴量ごとの作用」からターゲットに効いている特徴量(要因の 候補)を把握することができる ◆ 十分なドメイン知識があれば、ここで因果関係の推定も可能 ■ 因果関係は介入効果によって定義される ◆ ランダム化比較試験 (RCT)などの介入試験で介入効果を推定することができる ◆ 介入試験が困難な場合、データから介入試験に相当する部分を抽出し、観察研究によって因果関 係を推定することが可能 (自然実験) ■ ただし、交絡因子に関するデータも十分に取られている必要がある ■ 交絡因子の影響を調整するのに傾向スコアマッチング法などが行われる ■ DataRobotの高度なモデリング機能を利用して傾向スコアを求めることができる
  59. 59. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Supporting Materials 1 介入・実験(詳細)
  60. 60. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved 介入・実験による因果効果推定:考え方 ■ 介入効果を推定したい要因Xによる効果の「分離」をどこまで目指すか ◆ もし未知の交絡因子の影響からも分離したいのであれば、「実験の場」をランダム化させて、時間的・ 空間的にあらゆる交絡因子の影響をランダム化させるのが唯一の方法 ■ 実験の場に関するフィッシャーの3原則(R.A. Fischer, 1935) ◆ 反復(Replication), 無作為化(Randomization), 局所管理(Local Control) ■ 実験計画法(Design of Experiments: DOE):介入効果を推定したい要因Xによる 効果とそれ以外の因子による効果が混じり合わない(=交絡しない)様に実験のやり方 を工夫する方法 ■ ランダム化比較試験(Randomized Contorolled Trial, RCT)は、介入効果を推定 したい要因X以外の因子の効果をランダム化させる実験方法の一つ、と位置付けら れる
  61. 61. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved ランダム化比較試験(RCT) ■ 架空例:全国各地の店舗から乱数を使って選抜した200店舗に対して、販促キャン ペーンを打つか打たないかをサイコロ目の偶数/奇数で決め、100店舗では販促キャ ンペーンを打つ ◆ このように、介入効果を知りたい要因 Xの割付けを、完全にランダムに実施する実験のやり方を、ラン ダム化比較試験(Randamized Controlled Trial, RCT)という ■ RCTで実験を行えば、要因Xのカテゴリー群毎の結果変数の差を、シンプルに要因X による介入効果と考えることができる ◆ 上の架空例では「販促キャンペーンを実施した店舗群」と「実施しなかった店舗群」の当月売り上げ平 均値の差、など ■ 実際には、実験コストや倫理的観点から、RCTを行えない場合も多い ◆ 例えば、新しい治療法が有効と思われる難病患者に対して、その治療法を適用しない場合 がある様な実験デザインは倫理的に実施できない
  62. 62. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved 実験計画法(DOE) ■ 実験の計画 ◆ 要因(因子)を操作レバーと考える:各レバーは +/-方 向のどちらかに操作できる ◆ レバーを動かす方向の組み合わせを予め計画し、 一回の実験で全要因の操作を同時に実施する ◆ 各々の実験でレバーを動かした時の、結果変数 Yの 動きを計測する ◆ フィッシャーの3原則を適用し、実験順序はランダム 化する(シミュレーション除く ) ■ 直交表 ◆ レバーを動かす方向の組み合わせを指定する数列 ◆ この数列に基づいて実験を行えば、各要因の効果 を独立に分離して計算できる! 因果メカニズム 要因A 要因B 要因C 結果変数Y + - + - + - +方向を1, -方向を2とコード化し た直交表の例:4通りの組み合 わせでレバーを動かして、結果 変数Yの変動を計測するデザイ ンになっている (全てのレバー操作の組み合わ せは8通りになるが、半分の4 通りの実験を行えば、要因 A,B,Cの効果をそれぞれ独立に 分離できる)
  63. 63. Confidential. Copyright © DataRobot, Inc. - All Rights Reserved Supporting Materials 2 因果グラフによる因果解析
  64. 64. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved バックドア基準 ■ バックドア基準(Pearl, 1995) ◆ Fig.1のように、特徴量Xと結果変数Yを繋ぐ直接経路以外にXからYへ行ける「裏口経路」が存在する 場 合を考える ◆ 裏口経路の途中にXとY両方の上流に位置する交絡因子 Zが存在するとき、Zはバックドア基準を満たす という ◆ バックドア基準を満たす ZとXを組み込んでYとの回帰モデルを生成したときに XとYの間に関係性が認め られば、 X→Y の因果関係が存在する X Y Z XとYを結ぶ裏口経路の途中 にXとY両方の上流に位置す る交絡因子Zが存在する X Y Z Fig.2の例ではXとYを結ぶ裏口経 路が存在しない ⇨バックドア基準を満たさないの で、回帰モデルからXとYの関係性 が認められても、それが因果関係 かどうかは分からない ??? Fig.1 Fig.2 上流 上流 上流 下流
  65. 65. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved バックドア基準 ■ バックドア基準(Pearl, 1995) 続き ◆ 下図のように、特徴量 Xと結果変数Yを繋ぐ直接経路以外にXからYへ行ける裏口経路が存在する 場合 を考える ◆ 裏口経路の途中にXとY両方の下流に位置する因子Z(合流点の変数)が存在するとき、Zを回帰モデル に組み込んではいけない X Y Z XとYを結ぶ裏口経路の途中 にXとY両方の下流に位置す る因子Zが存在する Zを選択しないで回帰モデルを生成する ! XとYに関係性があっても、 Zがバックドア 基準を満たさないので因果関係かどうか は分からない 下流 ??? 上流 上流 下流
  66. 66. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved バックドア基準 ■ バックドア基準(Pearl, 1995) 続き ◆ 下図のように、特徴量 Xから結果変数Yに至る経路の途中に因子Zが存在する場合を考える ◆ このような「中間点の因子」を回帰モデルに組み込んではいけない X Y Z XからYに至る経路の途中 に因子Zが存在する??? 下流 上流 上流 下流 Zを選択しないで回帰モデルを生成する ! XとYに関係性があっても、 Zがバックドア 基準を満たさないので因果関係かどうか は分からない
  67. 67. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved バックドア基準 バックドア基準の厳密な定義:書籍「統計的因果推論」(宮川, 2004)より ■ 因果ダイアグラムGにおいて、XからYへと有向道があるとする。このとき、次の2つの条 件を満たす頂点集合Sは、(X, Y)についてバックドア基準を満たすという。 ◆ XからSの任意の要素に有向道がない ◆ 因果ダイアグラムGよりXから出る矢線を除いたグラフにおいて、 SがXとYを有向分離する 「XからYへの有向道」: YがXの下流にある 「XからSの任意の要素に有向道がない」: Xの下流の変数をモデルに加えてはいけない 「Xから出る矢線を除いたグラフ」: XからYへ行ける裏口経路 「SがXとYを有向分離する」: XからYへ行ける裏口経路の途中にSが存在する
  68. 68. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved 回帰モデルからの因果関係推定 ■ 回帰モデルに組み込んだ交絡因子が「X→Y」についてバックドア基準を満たすとき、回帰 モデルから得られた特徴量Xの偏回帰係数を、そのまま「X→Yの介入効果」とみなせる ■ シンプソンのパラドックスが生じている場合でも、結果変数Yと因果関係があるかどうか 興味のある特徴量Xについて、以下の解析により「X→Yの介入効果」をバイアスなく推定 できる ◆ バックドア基準を満たす交絡因子を組み込んで回帰モデルで解析する ◆ バックドア基準を満たす変数で層別化して、層別したデータ群ごとに回帰モデルで解析する
  69. 69. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved 因果仮説:因子間の関係性をグラフ表現 回帰モデル ■ モデルが単層的で、要因間の関係性は 分からない 要因 X1 結果 Y 要因 X2 要因 X3 要因 Xp ‥ 要因 X1 グラフィカルモデル ■ モデルが重層的で、要因間にも順序や因 果・相関関係を想定(これは自然な考え方) ■ バックドア基準を考慮した変数選択 により、回帰モデルから因果仮説を 検証できる 要因 X5 要因 X2 要因 X3 結果 Y 要因 X4
  70. 70. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved 現実は複雑 ■ 右図で(X, Y)に対してバックドア基 準を満たす交絡因子Zは? ◆ ヒント1: Xの下流のZをモデルに加えて はいけない ◆ ヒント2:Xから出る矢線を除いた時に、 Yへ至る裏口経路が存在するか ◆ ヒント3:XからYへ行ける裏口経路の途 中に交絡因子Zが存在するか X Y Z2 Z1 Z3 Z5 Z6 Z4 介入効果を推定 したい要因X 結果変数Y
  71. 71. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved 現実は複雑 ■ 右図で(X, Y)に対してバックドア基準 を満たす交絡因子Zは? ◆ Z1, Z4はXの下流に位置するのでバック ドア基準を満たさない ◆ Z5とZ6はZ1を介してしかYに行くことが できないので、裏口経路上に位置しない ため、バックドア基準を満たさない ◆ XからYへ繋がる裏口経路上には Z2, Z3 が存在し、これらはバックドア基準を満 たすので、回帰モデル作成時に組み込 むべき交絡因子である X Y Z2 Z1 Z3 Z5 Z6 Z4 介入効果を推 定したい要因X 結果変数Y
  72. 72. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved そもそもドメイン知識は完璧ではない ■ 因果仮説をしっかり形成できるほど にはドメイン知識が追いついていな いケースがほとんど ■ だが、少なくともバックドア基準を満 たす交絡因子の存在が分かってい ることは重要 ◆ 右図の例ではZ1なので、X,YにZ1を組 み込んだ回帰モデルから Xの因果効果 を推定できる ■ 未知の交絡因子についても、継続的 にそれらを明らかにして行くことは必 要 X Y Z2 Z3 Z1 介入効果を推 定したい要因X 結果変数Y 因果仮説が 不明、ある いは存在が 不明な交絡 因子の群
  73. 73. Confidential. CopYright © DataRobot, Inc. - All Rights Reserved 因果グラフによる因果解析のプロセス ■ ある程度に数が絞り込ま れたVital Few Features(VFFs)を用意 ■ ドメイン知識を元に、矢印 のない独立グラフでVFFs の大まかな順序と関係性 を表現 ■ 独立グラフに矢印を入れて 因果グラフにする 1.因果仮説の設定 独立グラフ→因果グラフ 2.交絡因子の検討→ 因果仮説のモデル化・検証 3.モデルと因子の 解釈 ■ 選択されたVFFsが本 当にYと因果関係があ ると言えるかどうか、ド メイン知識を元に検証 ■ 交絡因子の抜け漏れがない か、ドメイン知識を元に因果 グラフを検証 ■ バックドア基準を満たす交絡 因子、VFFs、結果変数Yによ る回帰モデルを生成 ■ Yと関係性の強いVFFsを確 認

×