Tokyor22 selection bias

選択バイアス入門
- 標本の代表性が無い事によって生じるバイアスの補正 -

@yokkuns: 里洋平
yohei0511@gmail.com
2012.04.28 第22回Tokyo.R

2012年4月28日土曜日

AGENDA

◆ 自己紹介

◆ 選択バイアスとは

◆ 欠測データによる表現

◆ ヘックマンのプロビット選択モデル

◆ Rでの実行例


自己紹介

時系列解析や異常検知などの方法論を
実ビジネスに適用するデータマイニングエンジニア

◆ 名前: 里洋平
◆ ID : yokkuns
◆ 職業:
データマイニングエンジニア
◆ 統計解析パターン認識機械学
習データマイニング NLP 金融工学
などを勉強中


活動例: 勉強会の主催・執筆

Tokyo.R主催

パッケージ本執筆しました！


活動例: 動画レコメンド

閲覧されている動画の情報を用いておすすめ動画を表示する


活動例: 市場予測

Web上の情報から市場予測


活動例: 異常検知
Anomaly detection

複数時系列から異常な振る舞いを検知する

C
A
時系列のモデリング複数時系列の異常検知 B

時系列A 時系列A

異常な振る舞い
時系列B

時系列C 時系列B 時系列C

異常な振る舞いの時系列を検出

例1:トラフィック異常検知例2:CM効果のノイズ除去

トラフィックA ケースA
CM効果
トラフィックB ケースB

トラフィックC 調査ケースC

異常な振る舞いをしている異常な振る舞いをしているケースを
トラフィックの原因を調査する除外して、CMの効果を算出する
85

活動例: 時系列解析と異常検知
Anomaly detection

新しいデータと過去時系列モデルの乖離から異常検出

8000.0000
異常スコア推移 3.0000
モデル構築
異常値
◇例 : ARIMAモデル 2.2500

5970.7500 1.5000

0.7500

3941.5000 0

異常スコアの算出
-0.7500

◇例 : 対数損失

1912.2500 -1.5000

-2.2500

-117.0000 -3.0000

t
4/ 週
4/ 1週
4/ 8週
5/ 週
5/ 週
5/ 週
5/ 週
5/ 週
6/ 週
6/ 週
6/ 週
6/ 週
7/ 週
7/ 週
7/ 週
7/ 8週
週
4

25
2
9
16
23
30
6
13
20
27
4
11

25
1
1

1
4/

86

活動例: 時系列解析と影響分析
TV Commercial Eﬀects

時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
イベン
CM時系列ト

新規
登録

CM ARPP
U

ARPU

各KPIの時系列
その他
外部
継続率
要因

ケース

87


活動例: データマイニングCROSS


標本の代表性が無い事でバイアスが生じる
既婚女性の賃金と他の変数との関係を調べる
専業主婦と就労している人では、各変数の分布が異なっている
既婚女性

0円 X万円
働いてない働いている

年齢年齢
教育年数教育年数
世帯年収世帯年収
子供子供
大都市大都市
仕事の経験年数仕事の経験年数
働いているかどうかは、年齢との関係があると思われる
教育年数が高ければ一般的には働く確率が増える
世帯年収が高かったり、子供がいると働かない可能性が高くなる


標本の代表性が無い事でバイアスが生じる
昼間だけに給与所得の調査を行う
回答者と非回答者で給与の分布が異なる

低い高い
回答者非回答者

事務職でない事務職
無職専門職
学生等被扶養者プライバシー意識高い
謝礼が欲しいなどなど

多くのサラリーマンや医師などの専門職は回答せず
失業者や扶養されている人が回答するため、給与所得の平均が全体と比較して低くなる
学歴が高いとプライバシー意識が高く学歴と収入の相関があるとするとバイアスが起こりえる


単純な選択バイアスのモデル
2変量正規分布に従うy1,y2において、y2がある閾値cを超えた場
合にのみy1が観測される事象を考える


選択メカニズムを無視するとバイアスが生じる
観測されたy1のみを用いて推定を行うと
その期待値と分散は本来のものからずれてしまう
何らかの方法でこのバイアスを補正する必要がある

◆ 観測されるy1の分布

◆ 観測されるy1の期待値と分散


欠測データ
観測出来ない方のデータを欠測してると考える
因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造

因果推論
処置群対照群

介入を受けた
処置群のデータ欠測
場合の結果データ融合
介入を受けない
場合の結果
欠測対照群のデータ購買履歴データ市場調査データ

購買履歴調査の
購買履歴欠測
共変量項目共通で得られている変数データ

市場調査の
質問紙項目欠測
回答データ
選択バイアス
選択者非選択者

共変量項目共通で得られている変数
従属変数選択者のデータ非選択者のデータ

共変量項目共通で得られている変数


欠測の分類

◆ 各変数レベルでの記入漏れや無回答

◆ 打ち切りや切断

◆ パネルデータでの脱落または摩耗

◆ 調査や測定全体への無回答や不参加、測定不能


欠測のメカニズム

◆ 完全にランダムな欠測
・欠測するかどうかはモデリングに用いている変数には依存しない

◆ ランダムな欠測
・欠測するかどうかは、欠測値には依存せず観測値に依存する

◆ ランダムでない欠測
・欠測するかどうかは欠測値そのものの値や観測していない他の変数
にも依存する


欠測データでの選択バイアスの補正

選択されるか否かをモデル化し、バイアスを補正する

欠測データによる選択バイアスの解析の表現

選択されるか否か
(コントロール出来ない)

選択者非選択者

従属変数選択者のデータ非選択者のデータ選択をモデリング
母集団の期待値を推定

共変量項目共通で得られている変数・共変量や従属変数を用いて選択を
モデリング
・選択者のデータを補正して、母集団の
期待値を推定する


選択メカニズムの分類

選択メカニズムは、大きく2つに分類される

・ランダムな欠測
観測値による選択されるかどうかは、
選択共変量などの観測値に依存する
・モデル例
・傾向スコアモデル

選択メカニズム

・ランダムでない欠測
観測されないもの選択されるかどうかは、
による選択観測値以外の要因にも依存する
・モデル例
・ヘックマンの選択モデル


観測値による選択
強く無視出来る割り当て条件を仮定するため
傾向スコア解析などを用いて推定出来る

例: 給与所得の調査の回答者の偏り問題

調査時不在者
調査項目調査回答者
あるいは回答拒否者

事務職でない、無職、事務職、専門職、
学生等被扶養者、謝礼プライバシー意識が
が欲しい、など高い人たち

共変量項目
調査対象の様々な背景乗法


参考: Rで学ぶ傾向スコア解析入門
傾向スコアについては、第17回で発表したので
興味があればこちらをご覧下さい

http://www.slideshare.net/yokkuns/r-9387843

ヘックマンのプロビット選択モデル

2つの変数が回帰モデルに従っているとするモデル

◆ 回帰モデル (y2が0より大きい場合のみ観測される)

◆ 選択のプロビット回帰モデル (選択方程式)


ヘックマンのプロビット選択モデルの尤度関数
選択メカニズムを無視して行う推定の尤度関数は
ρが0という特殊な状態を除き、バイアスがある

◆ モデルの尤度

◆ 選択メカニズムを無視して行う場合の尤度


ヘックマンの二段階推定法
期待値を変形することで、コントロール関数を考える事が出来る
（※コントロール関数: 選択バイアスの修正のために付加された項）

選択メカニズムが作用してる
ことにともなう期待値の修正項


ヘックマンの二段階推定法の手順

第１段階
・「y1が観測されるかされないか」をダミー変数化
・ダミー変数をx2で説明するプロビット回帰モデルからβ2の推定値<β2>を算出
・推定値<β2> を用いて擬似的な説明変数λiを計算する

第２段階
・y1が観測されている対象者について、yi1をxi1とλiに回帰する最小二乗推定を行う


ヘックマンの二段階推定法の欠点
ヘックマンの二段階推定法はシンプルだが欠点も多く
数値計算が容易になった現在では利用する利点はない

1. 漸近有効性のない推定量である
2. 実際には、分散は不均一なので、最小二乗推定の前提を充たさない。
そのため、推定値の分散の式を修正する必要がある
3. もしβ2のうち定数項に対応する部分以外がゼロならばλは被験者間で共通の定数になる
この時には第二段階の推定において定数項に対応する係数が２つ存在することになり、
推定が出来なくなる。
このことを考えると、β2のうち定数項に対応する部分以外の値がある程度大きな値に
なる必要がある
4. 共変量に関して制約がある。具体的には、x2の中にy1と相関の無い変数が存在する必要
がある。


プロビット選択モデル自体の問題点

1. 回帰係数の指定を誤ると推定値に大きなバイアスが生じ得る

2. 誤差の分布が2変量正規分布である事を仮定しているが、誤差の
分布仮定への頑強性がない。分布仮定のチェックも出来ない

3. 選択バイアスの補正において最も重要な母数ρの推定が不安定に
なり得る


sampleSelection パッケージ
選択バイアスを除外した推定は
sampleSelectionパッケージのselection関数で実行出来る

選択方程式回帰モデル


Mroz87データセット

Mrozによる女性の労働参加と賃金のデータ


sampleSelectionを使ったサンプルコード
単純な最小二乗推定と、「専業主婦の賃金が観測されない」という
選択バイアスを除外した場合とで各変数の賃金への影響を比較する


単純な最小二乗推定の実行結果
単純な最小二乗推定による回帰では
経験年数と教育年数が賃金に影響を与えている


ヘックマンの二段階推定の実行結果
ヘックマンの二段階推定法では、経験年数の影響は小さく
教育年数の影響が大きいくなっている
経験年数は、選択バイアスによって影響があるように見えていた


最尤推定の実行結果
ヘックマンの二段階推定法と同様に教育年数の影響が大きい


次回以降の

発表者・LTを募集しています！


ご清聴ありがとうございました！


Tokyor22 selection bias

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

More from Yohei Sato

More from Yohei Sato (14)

Tokyor22 selection bias