More Related Content
More from Yohei Sato (14)
Tokyor22 selection bias
- 1. 選択バイアス入門
- 標本の代表性が無い事によって生じるバイアスの補正 -
@yokkuns: 里 洋平
yohei0511@gmail.com
2012.04.28 第22回Tokyo.R
2012年4月28日土曜日
- 2. AGENDA
◆ 自己紹介
◆ 選択バイアスとは
◆ 欠測データによる表現
◆ ヘックマンのプロビット選択モデル
◆ Rでの実行例
2012年4月28日土曜日
- 3. AGENDA
◆ 自己紹介
◆ 選択バイアスとは
◆ 欠測データによる表現
◆ ヘックマンのプロビット選択モデル
◆ Rでの実行例
2012年4月28日土曜日
- 4. 自己紹介
時系列解析や異常検知などの方法論を
実ビジネスに適用するデータマイニングエンジニア
◆ 名前: 里 洋平
◆ ID : yokkuns
◆ 職業:
データマイニングエンジニア
◆ 統計解析 パターン認識 機械学
習 データマイニング NLP 金融工学
などを勉強中
2012年4月28日土曜日
- 8. 活動例: 異常検知
Anomaly detection
複数時系列から異常な振る舞いを検知する
C
A
時系列のモデリング 複数時系列の異常検知 B
時系列A 時系列A
異常な振る舞い
時系列B
時系列C 時系列B 時系列C
異常な振る舞いの時系列を検出
例1:トラフィック異常検知 例2:CM効果のノイズ除去
トラフィックA ケースA
CM効果
トラフィックB ケースB
トラフィックC 調査 ケースC
異常な振る舞いをしている 異常な振る舞いをしているケースを
トラフィックの原因を調査する 除外して、CMの効果を算出する
85
2012年4月28日土曜日
- 9. 活動例: 時系列解析と異常検知
Anomaly detection
新しいデータと過去時系列モデルの乖離から異常検出
8000.0000
異常スコア推移 3.0000
モデル構築
異常値
◇例 : ARIMAモデル 2.2500
5970.7500 1.5000
0.7500
3941.5000 0
異常スコアの算出
-0.7500
◇例 : 対数損失
1912.2500 -1.5000
-2.2500
-117.0000 -3.0000
t
4/ 週
4/ 1週
4/ 8週
5/ 週
5/ 週
5/ 週
5/ 週
5/ 週
6/ 週
6/ 週
6/ 週
6/ 週
7/ 週
7/ 週
7/ 週
7/ 8週
週
4
25
2
9
16
23
30
6
13
20
27
4
11
25
1
1
1
4/
86
2012年4月28日土曜日
- 10. 活動例: 時系列解析と影響分析
TV Commercial Effects
時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
イベン
CM時系列 ト
新規
登録
CM ARPP
U
ARPU
各KPIの時系列
その他
外部
継続率
要因
ケース
87
2012年4月28日土曜日
- 12. AGENDA
◆ 自己紹介
◆ 選択バイアスとは
◆ 欠測データによる表現
◆ ヘックマンのプロビット選択モデル
◆ Rでの実行例
2012年4月28日土曜日
- 13. 標本の代表性が無い事でバイアスが生じる
既婚女性の賃金と他の変数との関係を調べる
専業主婦と就労している人では、各変数の分布が異なっている
既婚女性
0円 X万円
働いてない 働いている
年齢 年齢
教育年数 教育年数
世帯年収 世帯年収
子供 子供
大都市 大都市
仕事の経験年数 仕事の経験年数
働いているかどうかは、年齢との関係があると思われる
教育年数が高ければ一般的には働く確率が増える
世帯年収が高かったり、子供がいると働かない可能性が高くなる
2012年4月28日土曜日
- 14. 標本の代表性が無い事でバイアスが生じる
昼間だけに給与所得の調査を行う
回答者と非回答者で給与の分布が異なる
低い 高い
回答者 非回答者
事務職でない 事務職
無職 専門職
学生等被扶養者 プライバシー意識高い
謝礼が欲しいなど など
多くのサラリーマンや医師などの専門職は回答せず
失業者や扶養されている人が回答するため、給与所得の平均が全体と比較して低くなる
学歴が高いとプライバシー意識が高く学歴と収入の相関があるとするとバイアスが起こりえる
2012年4月28日土曜日
- 15. 単純な選択バイアスのモデル
2変量正規分布に従うy1,y2において、y2がある閾値cを超えた場
合にのみy1が観測される事象を考える
2012年4月28日土曜日
- 16. 選択メカニズムを無視するとバイアスが生じる
観測されたy1のみを用いて推定を行うと
その期待値と分散は本来のものからずれてしまう
何らかの方法でこのバイアスを補正する必要がある
◆ 観測されるy1の分布
◆ 観測されるy1の期待値と分散
2012年4月28日土曜日
- 17. AGENDA
◆ 自己紹介
◆ 選択バイアスとは
◆ 欠測データによる表現
◆ ヘックマンのプロビット選択モデル
◆ Rでの実行例
2012年4月28日土曜日
- 18. 欠測データ
観測出来ない方のデータを欠測してると考える
因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造
因果推論
処置群 対照群
介入を受けた
処置群のデータ 欠測
場合の結果 データ融合
介入を受けない
場合の結果
欠測 対照群のデータ 購買履歴データ 市場調査データ
購買履歴調査の
購買履歴 欠測
共変量項目 共通で得られている変数 データ
市場調査の
質問紙項目 欠測
回答データ
選択バイアス
選択者 非選択者
共変量項目 共通で得られている変数
従属変数 選択者のデータ 非選択者のデータ
共変量項目 共通で得られている変数
2012年4月28日土曜日
- 19. 欠測の分類
◆ 各変数レベルでの記入漏れや無回答
◆ 打ち切りや切断
◆ パネルデータでの脱落または摩耗
◆ 調査や測定全体への無回答や不参加、測定不能
2012年4月28日土曜日
- 20. 欠測のメカニズム
◆ 完全にランダムな欠測
・欠測するかどうかはモデリングに用いている変数には依存しない
◆ ランダムな欠測
・欠測するかどうかは、欠測値には依存せず観測値に依存する
◆ ランダムでない欠測
・欠測するかどうかは欠測値そのものの値や観測していない他の変数
にも依存する
2012年4月28日土曜日
- 21. 欠測データでの選択バイアスの補正
選択されるか否かをモデル化し、バイアスを補正する
欠測データによる選択バイアスの解析の表現
選択されるか否か
(コントロール出来ない)
選択者 非選択者
従属変数 選択者のデータ 非選択者のデータ 選択 をモデリング
母集団の期待値を推定
共変量項目 共通で得られている変数 ・共変量や従属変数を用いて 選択 を
モデリング
・選択者のデータを補正して、母集団の
期待値を推定する
2012年4月28日土曜日
- 22. 選択メカニズムの分類
選択メカニズムは、大きく2つに分類される
・ランダムな欠測
観測値による 選択されるかどうかは、
選択 共変量などの観測値に依存する
・モデル例
・傾向スコアモデル
選択メカニズム
・ランダムでない欠測
観測されないもの 選択されるかどうかは、
による選択 観測値以外の要因にも依存する
・モデル例
・ヘックマンの選択モデル
2012年4月28日土曜日
- 23. 観測値による選択
強く無視出来る割り当て条件を仮定するため
傾向スコア解析などを用いて推定出来る
例: 給与所得の調査の回答者の偏り問題
調査時不在者
調査項目 調査回答者
あるいは回答拒否者
事務職でない、無職、 事務職、専門職、
学生等被扶養者、謝礼 プライバシー意識が
が欲しい、など 高い人たち
共変量項目
調査対象の様々な背景乗法
2012年4月28日土曜日
- 24. 参考: Rで学ぶ傾向スコア解析入門
傾向スコアについては、第17回で発表したので
興味があればこちらをご覧下さい
http://www.slideshare.net/yokkuns/r-9387843
2012年4月28日土曜日
- 25. AGENDA
◆ 自己紹介
◆ 選択バイアスとは
◆ 欠測データによる表現
◆ ヘックマンのプロビット選択モデル
◆ Rでの実行例
2012年4月28日土曜日
- 26. ヘックマンのプロビット選択モデル
2つの変数が回帰モデルに従っているとするモデル
◆ 回帰モデル (y2が0より大きい場合のみ観測される)
◆ 選択のプロビット回帰モデル (選択方程式)
2012年4月28日土曜日
- 27. ヘックマンのプロビット選択モデルの尤度関数
選択メカニズムを無視して行う推定の尤度関数は
ρが0という特殊な状態を除き、バイアスがある
◆ モデルの尤度
◆ 選択メカニズムを無視して行う場合の尤度
2012年4月28日土曜日
- 28. ヘックマンの二段階推定法
期待値を変形することで、コントロール関数を考える事が出来る
(※コントロール関数: 選択バイアスの修正のために付加された項)
選択メカニズムが作用してる
ことにともなう期待値の修正項
2012年4月28日土曜日
- 29. ヘックマンの二段階推定法の手順
第1段階
・「y1が観測されるかされないか」をダミー変数化
・ダミー変数をx2で説明するプロビット回帰モデルからβ2の推定値<β2>を算出
・推定値<β2> を用いて擬似的な説明変数λiを計算する
第2段階
・y1が観測されている対象者について、yi1をxi1とλiに回帰する最小二乗推定を行う
2012年4月28日土曜日
- 30. ヘックマンの二段階推定法の欠点
ヘックマンの二段階推定法はシンプルだが欠点も多く
数値計算が容易になった現在では利用する利点はない
1. 漸近有効性のない推定量である
2. 実際には、分散は不均一なので、最小二乗推定の前提を充たさない。
そのため、推定値の分散の式を修正する必要がある
3. もしβ2のうち定数項に対応する部分以外がゼロならばλは被験者間で共通の定数になる
この時には第二段階の推定において定数項に対応する係数が2つ存在することになり、
推定が出来なくなる。
このことを考えると、β2のうち定数項に対応する部分以外の値がある程度大きな値に
なる必要がある
4. 共変量に関して制約がある。具体的には、x2の中にy1と相関の無い変数が存在する必要
がある。
2012年4月28日土曜日
- 32. AGENDA
◆ 自己紹介
◆ 選択バイアスとは
◆ 欠測データによる表現
◆ ヘックマンのプロビット選択モデル
◆ Rでの実行例
2012年4月28日土曜日
- 33. sampleSelection パッケージ
選択バイアスを除外した推定は
sampleSelectionパッケージのselection関数で実行出来る
選択方程式 回帰モデル
2012年4月28日土曜日
- 36. 単純な最小二乗推定の実行結果
単純な最小二乗推定による回帰では
経験年数と教育年数が賃金に影響を与えている
2012年4月28日土曜日
- 37. ヘックマンの二段階推定の実行結果
ヘックマンの二段階推定法では、経験年数の影響は小さく
教育年数の影響が大きいくなっている
経験年数は、選択バイアスによって影響があるように見えていた
2012年4月28日土曜日
- 38. 最尤推定の実行結果
ヘックマンの二段階推定法と同様に教育年数の影響が大きい
2012年4月28日土曜日
- 39. AGENDA
◆ 自己紹介
◆ 選択バイアスとは
◆ 欠測データによる表現
◆ ヘックマンのプロビット選択モデル
◆ Rでの実行例
2012年4月28日土曜日
- 40. 次回以降の
発表者・LTを募集しています!
2012年4月28日土曜日