Tokyor22 selection bias

4,820 views

Published on

0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,820
On SlideShare
0
From Embeds
0
Number of Embeds
1,673
Actions
Shares
0
Downloads
0
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

Tokyor22 selection bias

  1. 1. 選択バイアス入門 - 標本の代表性が無い事によって生じるバイアスの補正 - @yokkuns: 里 洋平 yohei0511@gmail.com 2012.04.28 第22回Tokyo.R2012年4月28日土曜日
  2. 2. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例2012年4月28日土曜日
  3. 3. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例2012年4月28日土曜日
  4. 4. 自己紹介 時系列解析や異常検知などの方法論を 実ビジネスに適用するデータマイニングエンジニア ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データマイニングエンジニア ◆ 統計解析 パターン認識 機械学 習 データマイニング NLP 金融工学 などを勉強中2012年4月28日土曜日
  5. 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました!2012年4月28日土曜日
  6. 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する2012年4月28日土曜日
  7. 7. 活動例: 市場予測 Web上の情報から市場予測2012年4月28日土曜日
  8. 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 852012年4月28日土曜日
  9. 9. 活動例: 時系列解析と異常検知 Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 3.0000 モデル構築 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1週 4/ 8週 5/ 週 5/ 週 5/ 週 5/ 週 5/ 週 6/ 週 6/ 週 6/ 週 6/ 週 7/ 週 7/ 週 7/ 週 7/ 8週 週 4 25 2 9 16 23 30 6 13 20 27 4 11 25 1 1 1 4/ 862012年4月28日土曜日
  10. 10. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 872012年4月28日土曜日
  11. 11. 活動例: データマイニングCROSS2012年4月28日土曜日
  12. 12. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例2012年4月28日土曜日
  13. 13. 標本の代表性が無い事でバイアスが生じる 既婚女性の賃金と他の変数との関係を調べる 専業主婦と就労している人では、各変数の分布が異なっている 既婚女性 0円 X万円 働いてない 働いている 年齢 年齢 教育年数 教育年数 世帯年収 世帯年収 子供 子供 大都市 大都市 仕事の経験年数 仕事の経験年数 働いているかどうかは、年齢との関係があると思われる 教育年数が高ければ一般的には働く確率が増える 世帯年収が高かったり、子供がいると働かない可能性が高くなる2012年4月28日土曜日
  14. 14. 標本の代表性が無い事でバイアスが生じる 昼間だけに給与所得の調査を行う 回答者と非回答者で給与の分布が異なる 低い 高い 回答者 非回答者 事務職でない 事務職 無職 専門職 学生等被扶養者 プライバシー意識高い 謝礼が欲しいなど など 多くのサラリーマンや医師などの専門職は回答せず 失業者や扶養されている人が回答するため、給与所得の平均が全体と比較して低くなる 学歴が高いとプライバシー意識が高く学歴と収入の相関があるとするとバイアスが起こりえる2012年4月28日土曜日
  15. 15. 単純な選択バイアスのモデル 2変量正規分布に従うy1,y2において、y2がある閾値cを超えた場 合にのみy1が観測される事象を考える2012年4月28日土曜日
  16. 16. 選択メカニズムを無視するとバイアスが生じる 観測されたy1のみを用いて推定を行うと その期待値と分散は本来のものからずれてしまう 何らかの方法でこのバイアスを補正する必要がある ◆ 観測されるy1の分布 ◆ 観測されるy1の期待値と分散2012年4月28日土曜日
  17. 17. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例2012年4月28日土曜日
  18. 18. 欠測データ 観測出来ない方のデータを欠測してると考える 因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造 因果推論 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 データ融合介入を受けない 場合の結果 欠測  対照群のデータ  購買履歴データ 市場調査データ 購買履歴調査の 購買履歴 欠測  共変量項目 共通で得られている変数  データ  市場調査の 質問紙項目 欠測  回答データ  選択バイアス 選択者 非選択者 共変量項目 共通で得られている変数  従属変数 選択者のデータ  非選択者のデータ  共変量項目 共通で得られている変数 2012年4月28日土曜日
  19. 19. 欠測の分類 ◆ 各変数レベルでの記入漏れや無回答 ◆ 打ち切りや切断 ◆ パネルデータでの脱落または摩耗 ◆ 調査や測定全体への無回答や不参加、測定不能2012年4月28日土曜日
  20. 20. 欠測のメカニズム ◆ 完全にランダムな欠測 ・欠測するかどうかはモデリングに用いている変数には依存しない ◆ ランダムな欠測 ・欠測するかどうかは、欠測値には依存せず観測値に依存する ◆ ランダムでない欠測 ・欠測するかどうかは欠測値そのものの値や観測していない他の変数 にも依存する2012年4月28日土曜日
  21. 21. 欠測データでの選択バイアスの補正 選択されるか否かをモデル化し、バイアスを補正する 欠測データによる選択バイアスの解析の表現 選択されるか否か (コントロール出来ない) 選択者 非選択者 従属変数 選択者のデータ  非選択者のデータ  選択 をモデリング 母集団の期待値を推定 共変量項目 共通で得られている変数  ・共変量や従属変数を用いて 選択 を モデリング ・選択者のデータを補正して、母集団の   期待値を推定する2012年4月28日土曜日
  22. 22. 選択メカニズムの分類 選択メカニズムは、大きく2つに分類される ・ランダムな欠測 観測値による 選択されるかどうかは、 選択 共変量などの観測値に依存する ・モデル例 ・傾向スコアモデル 選択メカニズム ・ランダムでない欠測 観測されないもの 選択されるかどうかは、 による選択 観測値以外の要因にも依存する ・モデル例 ・ヘックマンの選択モデル2012年4月28日土曜日
  23. 23. 観測値による選択 強く無視出来る割り当て条件を仮定するため 傾向スコア解析などを用いて推定出来る 例: 給与所得の調査の回答者の偏り問題 調査時不在者 調査項目 調査回答者 あるいは回答拒否者 事務職でない、無職、 事務職、専門職、 学生等被扶養者、謝礼 プライバシー意識が が欲しい、など 高い人たち 共変量項目 調査対象の様々な背景乗法2012年4月28日土曜日
  24. 24. 参考: Rで学ぶ傾向スコア解析入門 傾向スコアについては、第17回で発表したので 興味があればこちらをご覧下さい http://www.slideshare.net/yokkuns/r-93878432012年4月28日土曜日
  25. 25. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例2012年4月28日土曜日
  26. 26. ヘックマンのプロビット選択モデル 2つの変数が回帰モデルに従っているとするモデル ◆ 回帰モデル (y2が0より大きい場合のみ観測される) ◆ 選択のプロビット回帰モデル (選択方程式)2012年4月28日土曜日
  27. 27. ヘックマンのプロビット選択モデルの尤度関数 選択メカニズムを無視して行う推定の尤度関数は ρが0という特殊な状態を除き、バイアスがある◆ モデルの尤度◆ 選択メカニズムを無視して行う場合の尤度2012年4月28日土曜日
  28. 28. ヘックマンの二段階推定法 期待値を変形することで、コントロール関数を考える事が出来る (※コントロール関数: 選択バイアスの修正のために付加された項) 選択メカニズムが作用してる ことにともなう期待値の修正項2012年4月28日土曜日
  29. 29. ヘックマンの二段階推定法の手順 第1段階 ・「y1が観測されるかされないか」をダミー変数化 ・ダミー変数をx2で説明するプロビット回帰モデルからβ2の推定値<β2>を算出 ・推定値<β2> を用いて擬似的な説明変数λiを計算する 第2段階 ・y1が観測されている対象者について、yi1をxi1とλiに回帰する最小二乗推定を行う2012年4月28日土曜日
  30. 30. ヘックマンの二段階推定法の欠点 ヘックマンの二段階推定法はシンプルだが欠点も多く 数値計算が容易になった現在では利用する利点はない 1. 漸近有効性のない推定量である 2. 実際には、分散は不均一なので、最小二乗推定の前提を充たさない。 そのため、推定値の分散の式を修正する必要がある 3. もしβ2のうち定数項に対応する部分以外がゼロならばλは被験者間で共通の定数になる この時には第二段階の推定において定数項に対応する係数が2つ存在することになり、 推定が出来なくなる。 このことを考えると、β2のうち定数項に対応する部分以外の値がある程度大きな値に なる必要がある 4. 共変量に関して制約がある。具体的には、x2の中にy1と相関の無い変数が存在する必要 がある。2012年4月28日土曜日
  31. 31. プロビット選択モデル自体の問題点 1. 回帰係数の指定を誤ると推定値に大きなバイアスが生じ得る 2. 誤差の分布が2変量正規分布である事を仮定しているが、誤差の 分布仮定への頑強性がない。分布仮定のチェックも出来ない 3. 選択バイアスの補正において最も重要な母数ρの推定が不安定に なり得る2012年4月28日土曜日
  32. 32. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例2012年4月28日土曜日
  33. 33. sampleSelection パッケージ 選択バイアスを除外した推定は sampleSelectionパッケージのselection関数で実行出来る 選択方程式 回帰モデル2012年4月28日土曜日
  34. 34. Mroz87データセット Mrozによる女性の労働参加と賃金のデータ2012年4月28日土曜日
  35. 35. sampleSelectionを使ったサンプルコード 単純な最小二乗推定と、「専業主婦の賃金が観測されない」という 選択バイアスを除外した場合とで各変数の賃金への影響を比較する2012年4月28日土曜日
  36. 36. 単純な最小二乗推定の実行結果 単純な最小二乗推定による回帰では 経験年数と教育年数が賃金に影響を与えている2012年4月28日土曜日
  37. 37. ヘックマンの二段階推定の実行結果 ヘックマンの二段階推定法では、経験年数の影響は小さく 教育年数の影響が大きいくなっている 経験年数は、選択バイアスによって影響があるように見えていた2012年4月28日土曜日
  38. 38. 最尤推定の実行結果 ヘックマンの二段階推定法と同様に教育年数の影響が大きい2012年4月28日土曜日
  39. 39. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例2012年4月28日土曜日
  40. 40. 次回以降の 発表者・LTを募集しています!2012年4月28日土曜日
  41. 41. ご清聴ありがとうございました!2012年4月28日土曜日

×