SlideShare a Scribd company logo
1 of 41
選択バイアス入門
                - 標本の代表性が無い事によって生じるバイアスの補正 -




                        @yokkuns: 里 洋平
                      yohei0511@gmail.com
                    2012.04.28 第22回Tokyo.R


2012年4月28日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 選択バイアスとは

      ◆ 欠測データによる表現

      ◆ ヘックマンのプロビット選択モデル

      ◆ Rでの実行例

2012年4月28日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 選択バイアスとは

      ◆ 欠測データによる表現

      ◆ ヘックマンのプロビット選択モデル

      ◆ Rでの実行例

2012年4月28日土曜日
自己紹介

             時系列解析や異常検知などの方法論を
          実ビジネスに適用するデータマイニングエンジニア



     ◆ 名前: 里 洋平
     ◆ ID : yokkuns
     ◆ 職業:
     データマイニングエンジニア
     ◆     統計解析 パターン認識 機械学
     習 データマイニング NLP 金融工学
     などを勉強中

2012年4月28日土曜日
活動例: 勉強会の主催・執筆


                   Tokyo.R主催




                パッケージ本執筆しました!




2012年4月28日土曜日
活動例: 動画レコメンド

                閲覧されている動画の情報を用いておすすめ動画を表示する




2012年4月28日土曜日
活動例: 市場予測

                Web上の情報から市場予測




2012年4月28日土曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2012年4月28日土曜日
活動例: 時系列解析と異常検知
                      Anomaly detection

                新しいデータと過去時系列モデルの乖離から異常検出


                          8000.0000
                                             異常スコア推移   3.0000
  モデル構築
                                       異常値
  ◇例 : ARIMAモデル                                        2.2500




                          5970.7500                    1.5000




                                                       0.7500




                          3941.5000                         0



  異常スコアの算出
                                                       -0.7500

   ◇例 : 対数損失

                          1912.2500                    -1.5000




                                                       -2.2500




                           -117.0000                   -3.0000


                                                t
                                   4/ 週
                                   4/ 1週
                                   4/ 8週
                                    5/ 週
                                    5/ 週
                                   5/ 週
                                   5/ 週
                                   5/ 週
                                    6/ 週
                                   6/ 週
                                   6/ 週
                                   6/ 週
                                    7/ 週
                                   7/ 週
                                   7/ 週
                                   7/ 8週
                                         週
                                       4



                                     25
                                       2
                                       9
                                     16
                                     23
                                     30
                                       6
                                     13
                                     20
                                     27
                                       4
                                     11


                                     25
                                     1
                                     1




                                     1
                                    4/




                                                                 86
2012年4月28日土曜日
活動例: 時系列解析と影響分析
                        TV Commercial Effects

                時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                   イベン
                CM時系列                               ト

                                          新規
                                          登録


                              CM                   ARPP
                                                    U




                                          ARPU

            各KPIの時系列
                                                          その他
                                                           外部
                                   継続率
                                                           要因




                                                 ケース




                                                            87

2012年4月28日土曜日
活動例: データマイニングCROSS




2012年4月28日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 選択バイアスとは

      ◆ 欠測データによる表現

      ◆ ヘックマンのプロビット選択モデル

      ◆ Rでの実行例

2012年4月28日土曜日
標本の代表性が無い事でバイアスが生じる
          既婚女性の賃金と他の変数との関係を調べる
      専業主婦と就労している人では、各変数の分布が異なっている
     既婚女性

                 0円                       X万円
                働いてない                     働いている

                    年齢                       年齢
                  教育年数                     教育年数
                  世帯年収                     世帯年収
                    子供                       子供
                   大都市                      大都市
                仕事の経験年数                  仕事の経験年数
                    働いているかどうかは、年齢との関係があると思われる
                      教育年数が高ければ一般的には働く確率が増える
                  世帯年収が高かったり、子供がいると働かない可能性が高くなる


2012年4月28日土曜日
標本の代表性が無い事でバイアスが生じる
                     昼間だけに給与所得の調査を行う
                   回答者と非回答者で給与の分布が異なる



                  低い                    高い
                  回答者                  非回答者

                  事務職でない                事務職
                    無職                  専門職
                 学生等被扶養者            プライバシー意識高い
                謝礼が欲しいなど                 など



                  多くのサラリーマンや医師などの専門職は回答せず
         失業者や扶養されている人が回答するため、給与所得の平均が全体と比較して低くなる
        学歴が高いとプライバシー意識が高く学歴と収入の相関があるとするとバイアスが起こりえる


2012年4月28日土曜日
単純な選択バイアスのモデル
    2変量正規分布に従うy1,y2において、y2がある閾値cを超えた場
          合にのみy1が観測される事象を考える




2012年4月28日土曜日
選択メカニズムを無視するとバイアスが生じる
                  観測されたy1のみを用いて推定を行うと
                その期待値と分散は本来のものからずれてしまう
                何らかの方法でこのバイアスを補正する必要がある


    ◆ 観測されるy1の分布




    ◆ 観測されるy1の期待値と分散




2012年4月28日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 選択バイアスとは

      ◆ 欠測データによる表現

      ◆ ヘックマンのプロビット選択モデル

      ◆ Rでの実行例

2012年4月28日土曜日
欠測データ
        観測出来ない方のデータを欠測してると考える
   因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造

                        因果推論
                  処置群          対照群

 介入を受けた
                処置群のデータ        欠測 
  場合の結果                                              データ融合
介入を受けない
 場合の結果
                  欠測       対照群のデータ              購買履歴データ   市場調査データ


                                               購買履歴調査の
                                       購買履歴                  欠測 
 共変量項目            共通で得られている変数                    データ 

                                                          市場調査の
                                       質問紙項目     欠測 
                                                          回答データ 
                        選択バイアス
                  選択者          非選択者

                                       共変量項目      共通で得られている変数 
  従属変数          選択者のデータ    非選択者のデータ 



 共変量項目             共通で得られている変数 



2012年4月28日土曜日
欠測の分類


  ◆ 各変数レベルでの記入漏れや無回答


  ◆ 打ち切りや切断


  ◆ パネルデータでの脱落または摩耗


  ◆ 調査や測定全体への無回答や不参加、測定不能


2012年4月28日土曜日
欠測のメカニズム


     ◆ 完全にランダムな欠測
         ・欠測するかどうかはモデリングに用いている変数には依存しない


     ◆ ランダムな欠測
         ・欠測するかどうかは、欠測値には依存せず観測値に依存する


     ◆ ランダムでない欠測
         ・欠測するかどうかは欠測値そのものの値や観測していない他の変数
            にも依存する




2012年4月28日土曜日
欠測データでの選択バイアスの補正

                選択されるか否かをモデル化し、バイアスを補正する


                         欠測データによる選択バイアスの解析の表現

                      選択されるか否か
                    (コントロール出来ない)




                   選択者        非選択者


    従属変数         選択者のデータ    非選択者のデータ       選択 をモデリング
                                          母集団の期待値を推定

   共変量項目            共通で得られている変数         ・共変量や従属変数を用いて 選択 を
                                         モデリング
                                        ・選択者のデータを補正して、母集団の  
                                         期待値を推定する


2012年4月28日土曜日
選択メカニズムの分類

                選択メカニズムは、大きく2つに分類される


                                 ・ランダムな欠測
                       観測値による     選択されるかどうかは、
                         選択       共変量などの観測値に依存する
                                 ・モデル例
                                  ・傾向スコアモデル

          選択メカニズム


                                 ・ランダムでない欠測
                      観測されないもの    選択されるかどうかは、
                        による選択     観測値以外の要因にも依存する
                                 ・モデル例
                                  ・ヘックマンの選択モデル


2012年4月28日土曜日
観測値による選択
                  強く無視出来る割り当て条件を仮定するため
                   傾向スコア解析などを用いて推定出来る


                      例: 給与所得の調査の回答者の偏り問題



                                    調査時不在者
   調査項目             調査回答者
                                  あるいは回答拒否者

                事務職でない、無職、            事務職、専門職、
                学生等被扶養者、謝礼            プライバシー意識が
                が欲しい、など               高い人たち


  共変量項目
                        調査対象の様々な背景乗法



2012年4月28日土曜日
参考: Rで学ぶ傾向スコア解析入門
                傾向スコアについては、第17回で発表したので
                   興味があればこちらをご覧下さい




 http://www.slideshare.net/yokkuns/r-9387843
2012年4月28日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 選択バイアスとは

      ◆ 欠測データによる表現

      ◆ ヘックマンのプロビット選択モデル

      ◆ Rでの実行例

2012年4月28日土曜日
ヘックマンのプロビット選択モデル

                2つの変数が回帰モデルに従っているとするモデル



 ◆ 回帰モデル (y2が0より大きい場合のみ観測される)




 ◆ 選択のプロビット回帰モデル (選択方程式)




2012年4月28日土曜日
ヘックマンのプロビット選択モデルの尤度関数
                選択メカニズムを無視して行う推定の尤度関数は
                ρが0という特殊な状態を除き、バイアスがある

◆ モデルの尤度




◆ 選択メカニズムを無視して行う場合の尤度




2012年4月28日土曜日
ヘックマンの二段階推定法
    期待値を変形することで、コントロール関数を考える事が出来る
        (※コントロール関数: 選択バイアスの修正のために付加された項)




                         選択メカニズムが作用してる
                        ことにともなう期待値の修正項


2012年4月28日土曜日
ヘックマンの二段階推定法の手順

 第1段階
  ・「y1が観測されるかされないか」をダミー変数化
  ・ダミー変数をx2で説明するプロビット回帰モデルからβ2の推定値<β2>を算出
  ・推定値<β2> を用いて擬似的な説明変数λiを計算する




 第2段階
  ・y1が観測されている対象者について、yi1をxi1とλiに回帰する最小二乗推定を行う




2012年4月28日土曜日
ヘックマンの二段階推定法の欠点
            ヘックマンの二段階推定法はシンプルだが欠点も多く
            数値計算が容易になった現在では利用する利点はない


 1. 漸近有効性のない推定量である
 2. 実際には、分散は不均一なので、最小二乗推定の前提を充たさない。
    そのため、推定値の分散の式を修正する必要がある
 3. もしβ2のうち定数項に対応する部分以外がゼロならばλは被験者間で共通の定数になる
    この時には第二段階の推定において定数項に対応する係数が2つ存在することになり、
    推定が出来なくなる。
    このことを考えると、β2のうち定数項に対応する部分以外の値がある程度大きな値に
    なる必要がある
 4. 共変量に関して制約がある。具体的には、x2の中にy1と相関の無い変数が存在する必要
    がある。




2012年4月28日土曜日
プロビット選択モデル自体の問題点


 1. 回帰係数の指定を誤ると推定値に大きなバイアスが生じ得る



 2. 誤差の分布が2変量正規分布である事を仮定しているが、誤差の
    分布仮定への頑強性がない。分布仮定のチェックも出来ない



 3. 選択バイアスの補正において最も重要な母数ρの推定が不安定に
    なり得る




2012年4月28日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 選択バイアスとは

      ◆ 欠測データによる表現

      ◆ ヘックマンのプロビット選択モデル

      ◆ Rでの実行例

2012年4月28日土曜日
sampleSelection パッケージ
                 選択バイアスを除外した推定は
      sampleSelectionパッケージのselection関数で実行出来る



                選択方程式   回帰モデル




2012年4月28日土曜日
Mroz87データセット

                Mrozによる女性の労働参加と賃金のデータ




2012年4月28日土曜日
sampleSelectionを使ったサンプルコード
          単純な最小二乗推定と、「専業主婦の賃金が観測されない」という
         選択バイアスを除外した場合とで各変数の賃金への影響を比較する




2012年4月28日土曜日
単純な最小二乗推定の実行結果
                  単純な最小二乗推定による回帰では
                経験年数と教育年数が賃金に影響を与えている




2012年4月28日土曜日
ヘックマンの二段階推定の実行結果
          ヘックマンの二段階推定法では、経験年数の影響は小さく
               教育年数の影響が大きいくなっている
         経験年数は、選択バイアスによって影響があるように見えていた




2012年4月28日土曜日
最尤推定の実行結果
          ヘックマンの二段階推定法と同様に教育年数の影響が大きい




2012年4月28日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 選択バイアスとは

      ◆ 欠測データによる表現

      ◆ ヘックマンのプロビット選択モデル

      ◆ Rでの実行例

2012年4月28日土曜日
次回以降の

     発表者・LTを募集しています!



2012年4月28日土曜日
ご清聴ありがとうございました!




2012年4月28日土曜日

More Related Content

What's hot

Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
Yohei Sato
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
takehikoihayashi
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
. .
 

What's hot (20)

統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」
 
連続変量を含む条件付相互情報量の推定
連続変量を含む条件付相互情報量の推定連続変量を含む条件付相互情報量の推定
連続変量を含む条件付相互情報量の推定
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 

Viewers also liked

時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
Yohei Sato
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
Yohei Sato
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
Yohei Sato
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
Yohei Sato
 
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Yohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
Yohei Sato
 
Tokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストTokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテスト
Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
Yohei Sato
 
Tokyor10 opening
Tokyor10 openingTokyor10 opening
Tokyor10 opening
Yohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
Yohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
Yohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
Yohei Sato
 
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Yohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
Yohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
Yohei Sato
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
Yohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
Yohei Sato
 

Viewers also liked (20)

時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
 
Ml4nlp04 1
Ml4nlp04 1Ml4nlp04 1
Ml4nlp04 1
 
Japanr01
Japanr01Japanr01
Japanr01
 
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Tokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストTokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテスト
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
Tokyor10 opening
Tokyor10 openingTokyor10 opening
Tokyor10 opening
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 

More from Yohei Sato

Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
Yohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
Yohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
Yohei Sato
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
Yohei Sato
 

More from Yohei Sato (14)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 

Tokyor22 selection bias

  • 1. 選択バイアス入門 - 標本の代表性が無い事によって生じるバイアスの補正 - @yokkuns: 里 洋平 yohei0511@gmail.com 2012.04.28 第22回Tokyo.R 2012年4月28日土曜日
  • 2. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例 2012年4月28日土曜日
  • 3. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例 2012年4月28日土曜日
  • 4. 自己紹介 時系列解析や異常検知などの方法論を 実ビジネスに適用するデータマイニングエンジニア ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データマイニングエンジニア ◆ 統計解析 パターン認識 機械学 習 データマイニング NLP 金融工学 などを勉強中 2012年4月28日土曜日
  • 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました! 2012年4月28日土曜日
  • 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する 2012年4月28日土曜日
  • 7. 活動例: 市場予測 Web上の情報から市場予測 2012年4月28日土曜日
  • 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2012年4月28日土曜日
  • 9. 活動例: 時系列解析と異常検知 Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 3.0000 モデル構築 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1週 4/ 8週 5/ 週 5/ 週 5/ 週 5/ 週 5/ 週 6/ 週 6/ 週 6/ 週 6/ 週 7/ 週 7/ 週 7/ 週 7/ 8週 週 4 25 2 9 16 23 30 6 13 20 27 4 11 25 1 1 1 4/ 86 2012年4月28日土曜日
  • 10. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2012年4月28日土曜日
  • 12. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例 2012年4月28日土曜日
  • 13. 標本の代表性が無い事でバイアスが生じる 既婚女性の賃金と他の変数との関係を調べる 専業主婦と就労している人では、各変数の分布が異なっている 既婚女性 0円 X万円 働いてない 働いている 年齢 年齢 教育年数 教育年数 世帯年収 世帯年収 子供 子供 大都市 大都市 仕事の経験年数 仕事の経験年数 働いているかどうかは、年齢との関係があると思われる 教育年数が高ければ一般的には働く確率が増える 世帯年収が高かったり、子供がいると働かない可能性が高くなる 2012年4月28日土曜日
  • 14. 標本の代表性が無い事でバイアスが生じる 昼間だけに給与所得の調査を行う 回答者と非回答者で給与の分布が異なる 低い 高い 回答者 非回答者 事務職でない 事務職 無職 専門職 学生等被扶養者 プライバシー意識高い 謝礼が欲しいなど など 多くのサラリーマンや医師などの専門職は回答せず 失業者や扶養されている人が回答するため、給与所得の平均が全体と比較して低くなる 学歴が高いとプライバシー意識が高く学歴と収入の相関があるとするとバイアスが起こりえる 2012年4月28日土曜日
  • 15. 単純な選択バイアスのモデル 2変量正規分布に従うy1,y2において、y2がある閾値cを超えた場 合にのみy1が観測される事象を考える 2012年4月28日土曜日
  • 16. 選択メカニズムを無視するとバイアスが生じる 観測されたy1のみを用いて推定を行うと その期待値と分散は本来のものからずれてしまう 何らかの方法でこのバイアスを補正する必要がある ◆ 観測されるy1の分布 ◆ 観測されるy1の期待値と分散 2012年4月28日土曜日
  • 17. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例 2012年4月28日土曜日
  • 18. 欠測データ 観測出来ない方のデータを欠測してると考える 因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造 因果推論 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 データ融合 介入を受けない 場合の結果 欠測  対照群のデータ  購買履歴データ 市場調査データ 購買履歴調査の 購買履歴 欠測  共変量項目 共通で得られている変数  データ  市場調査の 質問紙項目 欠測  回答データ  選択バイアス 選択者 非選択者 共変量項目 共通で得られている変数  従属変数 選択者のデータ  非選択者のデータ  共変量項目 共通で得られている変数  2012年4月28日土曜日
  • 19. 欠測の分類 ◆ 各変数レベルでの記入漏れや無回答 ◆ 打ち切りや切断 ◆ パネルデータでの脱落または摩耗 ◆ 調査や測定全体への無回答や不参加、測定不能 2012年4月28日土曜日
  • 20. 欠測のメカニズム ◆ 完全にランダムな欠測 ・欠測するかどうかはモデリングに用いている変数には依存しない ◆ ランダムな欠測 ・欠測するかどうかは、欠測値には依存せず観測値に依存する ◆ ランダムでない欠測 ・欠測するかどうかは欠測値そのものの値や観測していない他の変数 にも依存する 2012年4月28日土曜日
  • 21. 欠測データでの選択バイアスの補正 選択されるか否かをモデル化し、バイアスを補正する 欠測データによる選択バイアスの解析の表現 選択されるか否か (コントロール出来ない) 選択者 非選択者 従属変数 選択者のデータ  非選択者のデータ  選択 をモデリング 母集団の期待値を推定 共変量項目 共通で得られている変数  ・共変量や従属変数を用いて 選択 を モデリング ・選択者のデータを補正して、母集団の   期待値を推定する 2012年4月28日土曜日
  • 22. 選択メカニズムの分類 選択メカニズムは、大きく2つに分類される ・ランダムな欠測 観測値による 選択されるかどうかは、 選択 共変量などの観測値に依存する ・モデル例 ・傾向スコアモデル 選択メカニズム ・ランダムでない欠測 観測されないもの 選択されるかどうかは、 による選択 観測値以外の要因にも依存する ・モデル例 ・ヘックマンの選択モデル 2012年4月28日土曜日
  • 23. 観測値による選択 強く無視出来る割り当て条件を仮定するため 傾向スコア解析などを用いて推定出来る 例: 給与所得の調査の回答者の偏り問題 調査時不在者 調査項目 調査回答者 あるいは回答拒否者 事務職でない、無職、 事務職、専門職、 学生等被扶養者、謝礼 プライバシー意識が が欲しい、など 高い人たち 共変量項目 調査対象の様々な背景乗法 2012年4月28日土曜日
  • 24. 参考: Rで学ぶ傾向スコア解析入門 傾向スコアについては、第17回で発表したので 興味があればこちらをご覧下さい http://www.slideshare.net/yokkuns/r-9387843 2012年4月28日土曜日
  • 25. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例 2012年4月28日土曜日
  • 26. ヘックマンのプロビット選択モデル 2つの変数が回帰モデルに従っているとするモデル ◆ 回帰モデル (y2が0より大きい場合のみ観測される) ◆ 選択のプロビット回帰モデル (選択方程式) 2012年4月28日土曜日
  • 27. ヘックマンのプロビット選択モデルの尤度関数 選択メカニズムを無視して行う推定の尤度関数は ρが0という特殊な状態を除き、バイアスがある ◆ モデルの尤度 ◆ 選択メカニズムを無視して行う場合の尤度 2012年4月28日土曜日
  • 28. ヘックマンの二段階推定法 期待値を変形することで、コントロール関数を考える事が出来る (※コントロール関数: 選択バイアスの修正のために付加された項) 選択メカニズムが作用してる ことにともなう期待値の修正項 2012年4月28日土曜日
  • 29. ヘックマンの二段階推定法の手順 第1段階 ・「y1が観測されるかされないか」をダミー変数化 ・ダミー変数をx2で説明するプロビット回帰モデルからβ2の推定値<β2>を算出 ・推定値<β2> を用いて擬似的な説明変数λiを計算する 第2段階 ・y1が観測されている対象者について、yi1をxi1とλiに回帰する最小二乗推定を行う 2012年4月28日土曜日
  • 30. ヘックマンの二段階推定法の欠点 ヘックマンの二段階推定法はシンプルだが欠点も多く 数値計算が容易になった現在では利用する利点はない 1. 漸近有効性のない推定量である 2. 実際には、分散は不均一なので、最小二乗推定の前提を充たさない。 そのため、推定値の分散の式を修正する必要がある 3. もしβ2のうち定数項に対応する部分以外がゼロならばλは被験者間で共通の定数になる この時には第二段階の推定において定数項に対応する係数が2つ存在することになり、 推定が出来なくなる。 このことを考えると、β2のうち定数項に対応する部分以外の値がある程度大きな値に なる必要がある 4. 共変量に関して制約がある。具体的には、x2の中にy1と相関の無い変数が存在する必要 がある。 2012年4月28日土曜日
  • 31. プロビット選択モデル自体の問題点 1. 回帰係数の指定を誤ると推定値に大きなバイアスが生じ得る 2. 誤差の分布が2変量正規分布である事を仮定しているが、誤差の 分布仮定への頑強性がない。分布仮定のチェックも出来ない 3. 選択バイアスの補正において最も重要な母数ρの推定が不安定に なり得る 2012年4月28日土曜日
  • 32. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例 2012年4月28日土曜日
  • 33. sampleSelection パッケージ 選択バイアスを除外した推定は sampleSelectionパッケージのselection関数で実行出来る 選択方程式 回帰モデル 2012年4月28日土曜日
  • 34. Mroz87データセット Mrozによる女性の労働参加と賃金のデータ 2012年4月28日土曜日
  • 35. sampleSelectionを使ったサンプルコード 単純な最小二乗推定と、「専業主婦の賃金が観測されない」という 選択バイアスを除外した場合とで各変数の賃金への影響を比較する 2012年4月28日土曜日
  • 36. 単純な最小二乗推定の実行結果 単純な最小二乗推定による回帰では 経験年数と教育年数が賃金に影響を与えている 2012年4月28日土曜日
  • 37. ヘックマンの二段階推定の実行結果 ヘックマンの二段階推定法では、経験年数の影響は小さく 教育年数の影響が大きいくなっている 経験年数は、選択バイアスによって影響があるように見えていた 2012年4月28日土曜日
  • 38. 最尤推定の実行結果 ヘックマンの二段階推定法と同様に教育年数の影響が大きい 2012年4月28日土曜日
  • 39. AGENDA ◆ 自己紹介 ◆ 選択バイアスとは ◆ 欠測データによる表現 ◆ ヘックマンのプロビット選択モデル ◆ Rでの実行例 2012年4月28日土曜日
  • 40. 次回以降の 発表者・LTを募集しています! 2012年4月28日土曜日