7/20/2013 32th Tokyo.R 1
サンプリングと推定
~ SI(単純ランダムサンプリング)と
HT推定量
@tanimocchi
7/20/2013 32th Tokyo.R 2
自己紹介
 Twitter ID: @tanimocchi
(もっちぃ)
 数学科出身、博士(情報科学)
 所属: タヒにかけ半導体
 仕事: マーケティングなのか
ブランディングなのか?
 統計解析は必要! だと信じてる。
 統数研「サンプリング入門と調査データの分析法」に行ってきました。
 アンケート分析に着手したばかりですが (これから社内で需要ありそう)
 ちなみに、Rは前々回のTokyo.Rでインストールしました。
⇒ 今回のスライドにRのコードないです、ゴメンなさい(><)
7/20/2013 32th Tokyo.R 3
本編の前に: 教えてエライ人!
 学習で、データを学習データとテストデータに分けるけど、
データが超大量にあるなら、サンプリング理論から考えて、
ホールドアウト法でもおkな気がするのですが。。。
 ホールドアウト法、交差確認法、ジャックナイフ法、ブートストラップ法、等
 過不足なくイイ感じの学習がしたいなら、例えば層別SIで学
習データを抽出すれば十分?やはり未知のデータが問題?
 層別SI:不偏性OK、推定量の分散も(SIに比べて)小さい
 ホールドアウト法限定で、サンプリング手法と学習精度(AIC
とか?)との関係の、既存結果とかないですか?
 学習精度の理論上限は、不偏性OKで、神様的抽出確率の指定で
推定量の分散を0としたPPR(復元不等確率サンプリング)?
機械学習の経験0で、今後触れる予定も不明ですが m(_ _)m
7/20/2013 32th Tokyo.R 4
母集団、標本、全ての可能な標本
母集団のある要素が、標本に入っているか、
いないかで、2通りの場合があり、これをN個
の要素について組合せて、結局 2N通り の
標本が存在。これらを「すべての可能な標本
(all possible samples)」と呼ぶ
標本抽出(サンプリング)の仕方
に応じた、母集団特性値の推定
(HT推定、HH推定など)
7/20/2013 32th Tokyo.R 5
サンプリング・デザイン
 全ての可能な標本(集合族) S の要素である標本 s の実現
する確率 p(s) の与え方: 0≦p(s)≦1 (s∈S)
 具体的なサンプリング方法が、p(s)を定める
 母集団の大きさN=2での例
標本の大きさ サンプリング・デザイン
1 2 n(s) p(s)
0
○ 1
○ 1
○ ○ 2
母集団の要素 i全て可能な標本S
の要素である標本s
1s
12 s
 23 s
 2,14 s
 1sp
 2sp
 3sp
 4sp
7/20/2013 32th Tokyo.R 6
基本サンプリング
 色々あるけど、今回はSIのみ!
 SIの手順: 母集団の大きさ N 、標本の大きさ n と仮定
 以下の作業をn回繰り返す
I. 1からNの整数iを1つ決める: ex. uを[0,1)の一様乱数として、
i=floor(u×N)+1
II. i が既に抽出された母集団の要素番号ならⅠに戻る
III. さもなければ、i を抽出する母集団の要素番号として記録する
⇒ [1,N]上の一様乱数を重複する事なくn個生成し、母集団から対応
する要素を抽出
非復元 復元
等確率(単純ランダム) SI SIR
不等確率(確率比例) PP PPR
系統サンプリング SY
7/20/2013 32th Tokyo.R 7
不遍性って?
 全ての可能な標本それぞれに対して求めた推定量の期
待値 が、母集団特性値 に一致:    ˆE ˆE 
Dˆ推定量:
Cˆ推定量:
Aˆ推定量:
Bˆ推定量:
    ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値 
:母集団特性値
7/20/2013 32th Tokyo.R 8
推定値の分散が気になる理由
 バイアス(偏り、Bias)
 ‘期待値’と母集団特性値の差
 不偏推定量なら
 平均2乗誤差(mean square error)
 不偏推定量なら
      ˆˆ EBias
  0ˆ Bias
        22
ˆˆˆˆ  BiasVarEMSE 
    ˆˆ VarMSE 
誤差(=分散)は出来るだけ小さい方が良い
          
            
          
    2
2
22
22
ˆˆ
ˆˆˆˆ2ˆ
ˆˆˆˆ2ˆˆ
ˆˆˆˆˆ




BiasVar
BiasEBiasEEVar
EEEEEEE
EEEEMSE




7/20/2013 32th Tokyo.R 9
HT推定量の定義~準備
 包含確率
 一次の包含確率
 母集団の要素 i が、実現する
標本に含まれる確率
 母集団の要素 i を含む標本 s について p(s) を足し挙げて得る
 二次の包含確率
 母集団の要素 i と j が、同時
に実現する標本に含まれる確率
 標本帰属指標
 母集団の要素 i が標本 s に
含まれているかどうかを表す確率変数
 
is
i sp


 
 
 ji
ji
sp
jis
i
ij







&


サンプリングデザイン
 
 
 si
si
sIi






0
1
   sIsI ii 2
i を含むsに関する和
i と j を両方含むsに関する和
7/20/2013 32th Tokyo.R 10
HT推定量の定義
 HT推定量(the Horvitz-Thompson estimator)は、
母集団総計 の不偏推定量を与える
 標本の各y値を包含確率で割って足しこむ
 包含確率がわかればすぐに算出できる


si i
i
HT
y

ˆ

※ どの母集団の要素も標本に含まれる可能性があると仮定!
7/20/2013 32th Tokyo.R 11
HT推定量の期待値
 HT推定量の期待値
 母集団平均 μ の不偏推定量も直ちに作れる
 
  

 















Ui Ui
i
Ui
i
i
i
i
i
i
Ui
i
i
i
si i
i
HT
y
y
IE
y
I
y
E
y
EE



ˆ
確かに不偏推定量
  












NN
EE
N
HT
HT
HT
HT
ˆ
ˆ
ˆ
ˆ
          i
isisSs
ii spspspsIIE   
01

i を含む標本 i を含まない標本
7/20/2013 32th Tokyo.R 12
HT推定量の分散・分散の推定量
 HT推定量の分散
 HT推定量の分散の推定量
ここで、
  ji
Ui ji ji
jiij
Ui Ui
i
i
i
Uj ji
ji
ijHT yyy
yy
Var     









 21
ˆ
  ji
Ui ji ijjisi Ui
i
i
i
sj ji
ji
ij
ij
HT yyy
yy
    
















111
ˆ 2
2
  
 ji
ji
jiij
ii
ij











1
め、一般に算出不能母集団の要素であるた:iy
、値を算出可能標本の要素であるため:iy
※ 母集団のどの2つの要素も
標本に同時に含まれる
可能性があると仮定!
7/20/2013 32th Tokyo.R 13
SIにおけるHT推定量 [1/3]
 一次と二次の包含確率が解ればHT推定量を算出可能
 一次の包含確率
 標本の大きさが n の可能な標本数:
 従って、サンプリング・デザイン
 母集団のある要素 i を含む標本の数:
 
  
  nsn
nsn
n
N
sp















0
1
通り





n
N
通り







1
1
n
N
 
N
n
n
Nn
N
sp
is
i 














 
1
1
1


7/20/2013 32th Tokyo.R 14
SIにおけるHT推定量 [2/3]
 二次の包含確率
 母集団のある要素 i と j を含む標本の数:
通り







2
2
n
N
   
 1
11
2
2
& 
















  NN
nn
n
Nn
N
sp
jis
ij


7/20/2013 32th Tokyo.R 15
SIにおけるHT推定量 [3/3]
 HT推定量は母集団総計 の不偏推定量を与える
 SIによるものである事を強調して、 と書く
統計量である標本平均 が、SIの場合に、母集団平均
のHT推定量 (不偏推定量)!
y
N
yN
N
SI
SI 


ˆ
ˆ
 

si
i
si
i
si i
i
SI yNy
n
N
N
n
yy

ˆ
SIˆ

y 
SIˆ
7/20/2013 32th Tokyo.R 16
SIにおけるHT推定量の分散
 抽出率
 有限母集団修正項
 SIにおけるHT推定量の分散
ここで、 は母集団分散であり一般に不明。従って、その
推定量の算出が必要となる。
     
n
fN
n
nNNVar SI
2
2
2
1ˆ

 
N
n
f 
N
nN
f

1
   
n
f
nN
nN
Var SI
22
1ˆ

 




 

2

7/20/2013 32th Tokyo.R 17
SIにおけるHT推定量の分散の推定量
 標本分散
 SIにおけるHT推定量の分散の推定量
 



n
i
i yy
n
s
1
22
1
1
     
n
s
fN
n
s
nNNSI
2
2
2
1ˆ 
   
n
s
f
n
s
N
nN
SI
22
1ˆ 




 

7/20/2013 32th Tokyo.R 18
SIにおける標本分散の期待値
 HT推定量の分散の不偏推定量 について
が成り立っている。
だから、両者を等しいとおいて下記を得る
統計量である標本分散の が、SIの場合に、母集団分散
の不偏推定量!
   
n
fNVar SI
2
2
1ˆ

 
        
n
sE
fN
n
s
fNEE SI
2
2
2
2
11ˆ 






 SI ˆ
    SISI VarE  ˆˆ 
   (不偏)22
sE
2
s
 2

7/20/2013 32th Tokyo.R 19
で、だから何?
 SIの場合、標本抽出の仕方から
 母集団のどの要素も標本に含まれ、かつ
 母集団のどの2つの要素も標本に同時に含まれる
可能性があるため、HT推定量の仮定を満たしており、
 標本平均 が母集団平均 の
 標本分散 が母集団分散 の
不偏推定量。(つまり、当り前に使ってる事実を証明!)
⇒他のサンプリング手法は、需要あればまたの機会に!
サンプリング手法の「学習データとテストデータの分離」へ
の影響がやはり気になる。どの方法でも、非復元ランダム
抽出、即ちSI、は当たり前に行ってるような気もするけど。
2
s  2

y 
7/20/2013 32th Tokyo.R 20
Thanks a lot!

サンプリングと推定 Siとht推定量

  • 1.
    7/20/2013 32th Tokyo.R1 サンプリングと推定 ~ SI(単純ランダムサンプリング)と HT推定量 @tanimocchi
  • 2.
    7/20/2013 32th Tokyo.R2 自己紹介  Twitter ID: @tanimocchi (もっちぃ)  数学科出身、博士(情報科学)  所属: タヒにかけ半導体  仕事: マーケティングなのか ブランディングなのか?  統計解析は必要! だと信じてる。  統数研「サンプリング入門と調査データの分析法」に行ってきました。  アンケート分析に着手したばかりですが (これから社内で需要ありそう)  ちなみに、Rは前々回のTokyo.Rでインストールしました。 ⇒ 今回のスライドにRのコードないです、ゴメンなさい(><)
  • 3.
    7/20/2013 32th Tokyo.R3 本編の前に: 教えてエライ人!  学習で、データを学習データとテストデータに分けるけど、 データが超大量にあるなら、サンプリング理論から考えて、 ホールドアウト法でもおkな気がするのですが。。。  ホールドアウト法、交差確認法、ジャックナイフ法、ブートストラップ法、等  過不足なくイイ感じの学習がしたいなら、例えば層別SIで学 習データを抽出すれば十分?やはり未知のデータが問題?  層別SI:不偏性OK、推定量の分散も(SIに比べて)小さい  ホールドアウト法限定で、サンプリング手法と学習精度(AIC とか?)との関係の、既存結果とかないですか?  学習精度の理論上限は、不偏性OKで、神様的抽出確率の指定で 推定量の分散を0としたPPR(復元不等確率サンプリング)? 機械学習の経験0で、今後触れる予定も不明ですが m(_ _)m
  • 4.
    7/20/2013 32th Tokyo.R4 母集団、標本、全ての可能な標本 母集団のある要素が、標本に入っているか、 いないかで、2通りの場合があり、これをN個 の要素について組合せて、結局 2N通り の 標本が存在。これらを「すべての可能な標本 (all possible samples)」と呼ぶ 標本抽出(サンプリング)の仕方 に応じた、母集団特性値の推定 (HT推定、HH推定など)
  • 5.
    7/20/2013 32th Tokyo.R5 サンプリング・デザイン  全ての可能な標本(集合族) S の要素である標本 s の実現 する確率 p(s) の与え方: 0≦p(s)≦1 (s∈S)  具体的なサンプリング方法が、p(s)を定める  母集団の大きさN=2での例 標本の大きさ サンプリング・デザイン 1 2 n(s) p(s) 0 ○ 1 ○ 1 ○ ○ 2 母集団の要素 i全て可能な標本S の要素である標本s 1s 12 s  23 s  2,14 s  1sp  2sp  3sp  4sp
  • 6.
    7/20/2013 32th Tokyo.R6 基本サンプリング  色々あるけど、今回はSIのみ!  SIの手順: 母集団の大きさ N 、標本の大きさ n と仮定  以下の作業をn回繰り返す I. 1からNの整数iを1つ決める: ex. uを[0,1)の一様乱数として、 i=floor(u×N)+1 II. i が既に抽出された母集団の要素番号ならⅠに戻る III. さもなければ、i を抽出する母集団の要素番号として記録する ⇒ [1,N]上の一様乱数を重複する事なくn個生成し、母集団から対応 する要素を抽出 非復元 復元 等確率(単純ランダム) SI SIR 不等確率(確率比例) PP PPR 系統サンプリング SY
  • 7.
    7/20/2013 32th Tokyo.R7 不遍性って?  全ての可能な標本それぞれに対して求めた推定量の期 待値 が、母集団特性値 に一致:    ˆE ˆE  Dˆ推定量: Cˆ推定量: Aˆ推定量: Bˆ推定量:     ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値  :母集団特性値
  • 8.
    7/20/2013 32th Tokyo.R8 推定値の分散が気になる理由  バイアス(偏り、Bias)  ‘期待値’と母集団特性値の差  不偏推定量なら  平均2乗誤差(mean square error)  不偏推定量なら       ˆˆ EBias   0ˆ Bias         22 ˆˆˆˆ  BiasVarEMSE      ˆˆ VarMSE  誤差(=分散)は出来るだけ小さい方が良い                                        2 2 22 22 ˆˆ ˆˆˆˆ2ˆ ˆˆˆˆ2ˆˆ ˆˆˆˆˆ     BiasVar BiasEBiasEEVar EEEEEEE EEEEMSE    
  • 9.
    7/20/2013 32th Tokyo.R9 HT推定量の定義~準備  包含確率  一次の包含確率  母集団の要素 i が、実現する 標本に含まれる確率  母集団の要素 i を含む標本 s について p(s) を足し挙げて得る  二次の包含確率  母集団の要素 i と j が、同時 に実現する標本に含まれる確率  標本帰属指標  母集団の要素 i が標本 s に 含まれているかどうかを表す確率変数   is i sp        ji ji sp jis i ij        &   サンプリングデザイン      si si sIi       0 1    sIsI ii 2 i を含むsに関する和 i と j を両方含むsに関する和
  • 10.
    7/20/2013 32th Tokyo.R10 HT推定量の定義  HT推定量(the Horvitz-Thompson estimator)は、 母集団総計 の不偏推定量を与える  標本の各y値を包含確率で割って足しこむ  包含確率がわかればすぐに算出できる   si i i HT y  ˆ  ※ どの母集団の要素も標本に含まれる可能性があると仮定!
  • 11.
    7/20/2013 32th Tokyo.R11 HT推定量の期待値  HT推定量の期待値  母集団平均 μ の不偏推定量も直ちに作れる                        Ui Ui i Ui i i i i i i Ui i i i si i i HT y y IE y I y E y EE    ˆ 確かに不偏推定量                NN EE N HT HT HT HT ˆ ˆ ˆ ˆ           i isisSs ii spspspsIIE    01  i を含む標本 i を含まない標本
  • 12.
    7/20/2013 32th Tokyo.R12 HT推定量の分散・分散の推定量  HT推定量の分散  HT推定量の分散の推定量 ここで、   ji Ui ji ji jiij Ui Ui i i i Uj ji ji ijHT yyy yy Var                21 ˆ   ji Ui ji ijjisi Ui i i i sj ji ji ij ij HT yyy yy                      111 ˆ 2 2     ji ji jiij ii ij            1 め、一般に算出不能母集団の要素であるた:iy 、値を算出可能標本の要素であるため:iy ※ 母集団のどの2つの要素も 標本に同時に含まれる 可能性があると仮定!
  • 13.
    7/20/2013 32th Tokyo.R13 SIにおけるHT推定量 [1/3]  一次と二次の包含確率が解ればHT推定量を算出可能  一次の包含確率  標本の大きさが n の可能な標本数:  従って、サンプリング・デザイン  母集団のある要素 i を含む標本の数:        nsn nsn n N sp                0 1 通り      n N 通り        1 1 n N   N n n Nn N sp is i                  1 1 1  
  • 14.
    7/20/2013 32th Tokyo.R14 SIにおけるHT推定量 [2/3]  二次の包含確率  母集団のある要素 i と j を含む標本の数: 通り        2 2 n N      1 11 2 2 &                    NN nn n Nn N sp jis ij  
  • 15.
    7/20/2013 32th Tokyo.R15 SIにおけるHT推定量 [3/3]  HT推定量は母集団総計 の不偏推定量を与える  SIによるものである事を強調して、 と書く 統計量である標本平均 が、SIの場合に、母集団平均 のHT推定量 (不偏推定量)! y N yN N SI SI    ˆ ˆ    si i si i si i i SI yNy n N N n yy  ˆ SIˆ  y  SIˆ
  • 16.
    7/20/2013 32th Tokyo.R16 SIにおけるHT推定量の分散  抽出率  有限母集団修正項  SIにおけるHT推定量の分散 ここで、 は母集団分散であり一般に不明。従って、その 推定量の算出が必要となる。       n fN n nNNVar SI 2 2 2 1ˆ    N n f  N nN f  1     n f nN nN Var SI 22 1ˆ           2 
  • 17.
    7/20/2013 32th Tokyo.R17 SIにおけるHT推定量の分散の推定量  標本分散  SIにおけるHT推定量の分散の推定量      n i i yy n s 1 22 1 1       n s fN n s nNNSI 2 2 2 1ˆ      n s f n s N nN SI 22 1ˆ        
  • 18.
    7/20/2013 32th Tokyo.R18 SIにおける標本分散の期待値  HT推定量の分散の不偏推定量 について が成り立っている。 だから、両者を等しいとおいて下記を得る 統計量である標本分散の が、SIの場合に、母集団分散 の不偏推定量!     n fNVar SI 2 2 1ˆ             n sE fN n s fNEE SI 2 2 2 2 11ˆ         SI ˆ     SISI VarE  ˆˆ     (不偏)22 sE 2 s  2 
  • 19.
    7/20/2013 32th Tokyo.R19 で、だから何?  SIの場合、標本抽出の仕方から  母集団のどの要素も標本に含まれ、かつ  母集団のどの2つの要素も標本に同時に含まれる 可能性があるため、HT推定量の仮定を満たしており、  標本平均 が母集団平均 の  標本分散 が母集団分散 の 不偏推定量。(つまり、当り前に使ってる事実を証明!) ⇒他のサンプリング手法は、需要あればまたの機会に! サンプリング手法の「学習データとテストデータの分離」へ の影響がやはり気になる。どの方法でも、非復元ランダム 抽出、即ちSI、は当たり前に行ってるような気もするけど。 2 s  2  y 
  • 20.
    7/20/2013 32th Tokyo.R20 Thanks a lot!