Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

サンプリングと推定 Siとht推定量

1,630 views

Published on

  • Be the first to comment

サンプリングと推定 Siとht推定量

  1. 1. 7/20/2013 32th Tokyo.R 1 サンプリングと推定 ~ SI(単純ランダムサンプリング)と HT推定量 @tanimocchi
  2. 2. 7/20/2013 32th Tokyo.R 2 自己紹介  Twitter ID: @tanimocchi (もっちぃ)  数学科出身、博士(情報科学)  所属: タヒにかけ半導体  仕事: マーケティングなのか ブランディングなのか?  統計解析は必要! だと信じてる。  統数研「サンプリング入門と調査データの分析法」に行ってきました。  アンケート分析に着手したばかりですが (これから社内で需要ありそう)  ちなみに、Rは前々回のTokyo.Rでインストールしました。 ⇒ 今回のスライドにRのコードないです、ゴメンなさい(><)
  3. 3. 7/20/2013 32th Tokyo.R 3 本編の前に: 教えてエライ人!  学習で、データを学習データとテストデータに分けるけど、 データが超大量にあるなら、サンプリング理論から考えて、 ホールドアウト法でもおkな気がするのですが。。。  ホールドアウト法、交差確認法、ジャックナイフ法、ブートストラップ法、等  過不足なくイイ感じの学習がしたいなら、例えば層別SIで学 習データを抽出すれば十分?やはり未知のデータが問題?  層別SI:不偏性OK、推定量の分散も(SIに比べて)小さい  ホールドアウト法限定で、サンプリング手法と学習精度(AIC とか?)との関係の、既存結果とかないですか?  学習精度の理論上限は、不偏性OKで、神様的抽出確率の指定で 推定量の分散を0としたPPR(復元不等確率サンプリング)? 機械学習の経験0で、今後触れる予定も不明ですが m(_ _)m
  4. 4. 7/20/2013 32th Tokyo.R 4 母集団、標本、全ての可能な標本 母集団のある要素が、標本に入っているか、 いないかで、2通りの場合があり、これをN個 の要素について組合せて、結局 2N通り の 標本が存在。これらを「すべての可能な標本 (all possible samples)」と呼ぶ 標本抽出(サンプリング)の仕方 に応じた、母集団特性値の推定 (HT推定、HH推定など)
  5. 5. 7/20/2013 32th Tokyo.R 5 サンプリング・デザイン  全ての可能な標本(集合族) S の要素である標本 s の実現 する確率 p(s) の与え方: 0≦p(s)≦1 (s∈S)  具体的なサンプリング方法が、p(s)を定める  母集団の大きさN=2での例 標本の大きさ サンプリング・デザイン 1 2 n(s) p(s) 0 ○ 1 ○ 1 ○ ○ 2 母集団の要素 i全て可能な標本S の要素である標本s 1s 12 s  23 s  2,14 s  1sp  2sp  3sp  4sp
  6. 6. 7/20/2013 32th Tokyo.R 6 基本サンプリング  色々あるけど、今回はSIのみ!  SIの手順: 母集団の大きさ N 、標本の大きさ n と仮定  以下の作業をn回繰り返す I. 1からNの整数iを1つ決める: ex. uを[0,1)の一様乱数として、 i=floor(u×N)+1 II. i が既に抽出された母集団の要素番号ならⅠに戻る III. さもなければ、i を抽出する母集団の要素番号として記録する ⇒ [1,N]上の一様乱数を重複する事なくn個生成し、母集団から対応 する要素を抽出 非復元 復元 等確率(単純ランダム) SI SIR 不等確率(確率比例) PP PPR 系統サンプリング SY
  7. 7. 7/20/2013 32th Tokyo.R 7 不遍性って?  全ての可能な標本それぞれに対して求めた推定量の期 待値 が、母集団特性値 に一致:    ˆE ˆE  Dˆ推定量: Cˆ推定量: Aˆ推定量: Bˆ推定量:     ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値  :母集団特性値
  8. 8. 7/20/2013 32th Tokyo.R 8 推定値の分散が気になる理由  バイアス(偏り、Bias)  ‘期待値’と母集団特性値の差  不偏推定量なら  平均2乗誤差(mean square error)  不偏推定量なら       ˆˆ EBias   0ˆ Bias         22 ˆˆˆˆ  BiasVarEMSE      ˆˆ VarMSE  誤差(=分散)は出来るだけ小さい方が良い                                        2 2 22 22 ˆˆ ˆˆˆˆ2ˆ ˆˆˆˆ2ˆˆ ˆˆˆˆˆ     BiasVar BiasEBiasEEVar EEEEEEE EEEEMSE    
  9. 9. 7/20/2013 32th Tokyo.R 9 HT推定量の定義~準備  包含確率  一次の包含確率  母集団の要素 i が、実現する 標本に含まれる確率  母集団の要素 i を含む標本 s について p(s) を足し挙げて得る  二次の包含確率  母集団の要素 i と j が、同時 に実現する標本に含まれる確率  標本帰属指標  母集団の要素 i が標本 s に 含まれているかどうかを表す確率変数   is i sp        ji ji sp jis i ij        &   サンプリングデザイン      si si sIi       0 1    sIsI ii 2 i を含むsに関する和 i と j を両方含むsに関する和
  10. 10. 7/20/2013 32th Tokyo.R 10 HT推定量の定義  HT推定量(the Horvitz-Thompson estimator)は、 母集団総計 の不偏推定量を与える  標本の各y値を包含確率で割って足しこむ  包含確率がわかればすぐに算出できる   si i i HT y  ˆ  ※ どの母集団の要素も標本に含まれる可能性があると仮定!
  11. 11. 7/20/2013 32th Tokyo.R 11 HT推定量の期待値  HT推定量の期待値  母集団平均 μ の不偏推定量も直ちに作れる                        Ui Ui i Ui i i i i i i Ui i i i si i i HT y y IE y I y E y EE    ˆ 確かに不偏推定量                NN EE N HT HT HT HT ˆ ˆ ˆ ˆ           i isisSs ii spspspsIIE    01  i を含む標本 i を含まない標本
  12. 12. 7/20/2013 32th Tokyo.R 12 HT推定量の分散・分散の推定量  HT推定量の分散  HT推定量の分散の推定量 ここで、   ji Ui ji ji jiij Ui Ui i i i Uj ji ji ijHT yyy yy Var                21 ˆ   ji Ui ji ijjisi Ui i i i sj ji ji ij ij HT yyy yy                      111 ˆ 2 2     ji ji jiij ii ij            1 め、一般に算出不能母集団の要素であるた:iy 、値を算出可能標本の要素であるため:iy ※ 母集団のどの2つの要素も 標本に同時に含まれる 可能性があると仮定!
  13. 13. 7/20/2013 32th Tokyo.R 13 SIにおけるHT推定量 [1/3]  一次と二次の包含確率が解ればHT推定量を算出可能  一次の包含確率  標本の大きさが n の可能な標本数:  従って、サンプリング・デザイン  母集団のある要素 i を含む標本の数:        nsn nsn n N sp                0 1 通り      n N 通り        1 1 n N   N n n Nn N sp is i                  1 1 1  
  14. 14. 7/20/2013 32th Tokyo.R 14 SIにおけるHT推定量 [2/3]  二次の包含確率  母集団のある要素 i と j を含む標本の数: 通り        2 2 n N      1 11 2 2 &                    NN nn n Nn N sp jis ij  
  15. 15. 7/20/2013 32th Tokyo.R 15 SIにおけるHT推定量 [3/3]  HT推定量は母集団総計 の不偏推定量を与える  SIによるものである事を強調して、 と書く 統計量である標本平均 が、SIの場合に、母集団平均 のHT推定量 (不偏推定量)! y N yN N SI SI    ˆ ˆ    si i si i si i i SI yNy n N N n yy  ˆ SIˆ  y  SIˆ
  16. 16. 7/20/2013 32th Tokyo.R 16 SIにおけるHT推定量の分散  抽出率  有限母集団修正項  SIにおけるHT推定量の分散 ここで、 は母集団分散であり一般に不明。従って、その 推定量の算出が必要となる。       n fN n nNNVar SI 2 2 2 1ˆ    N n f  N nN f  1     n f nN nN Var SI 22 1ˆ           2 
  17. 17. 7/20/2013 32th Tokyo.R 17 SIにおけるHT推定量の分散の推定量  標本分散  SIにおけるHT推定量の分散の推定量      n i i yy n s 1 22 1 1       n s fN n s nNNSI 2 2 2 1ˆ      n s f n s N nN SI 22 1ˆ        
  18. 18. 7/20/2013 32th Tokyo.R 18 SIにおける標本分散の期待値  HT推定量の分散の不偏推定量 について が成り立っている。 だから、両者を等しいとおいて下記を得る 統計量である標本分散の が、SIの場合に、母集団分散 の不偏推定量!     n fNVar SI 2 2 1ˆ             n sE fN n s fNEE SI 2 2 2 2 11ˆ         SI ˆ     SISI VarE  ˆˆ     (不偏)22 sE 2 s  2 
  19. 19. 7/20/2013 32th Tokyo.R 19 で、だから何?  SIの場合、標本抽出の仕方から  母集団のどの要素も標本に含まれ、かつ  母集団のどの2つの要素も標本に同時に含まれる 可能性があるため、HT推定量の仮定を満たしており、  標本平均 が母集団平均 の  標本分散 が母集団分散 の 不偏推定量。(つまり、当り前に使ってる事実を証明!) ⇒他のサンプリング手法は、需要あればまたの機会に! サンプリング手法の「学習データとテストデータの分離」へ の影響がやはり気になる。どの方法でも、非復元ランダム 抽出、即ちSI、は当たり前に行ってるような気もするけど。 2 s  2  y 
  20. 20. 7/20/2013 32th Tokyo.R 20 Thanks a lot!

×