SlideShare a Scribd company logo
1 of 20
Download to read offline
7/20/2013 32th Tokyo.R 1
サンプリングと推定
~ SI(単純ランダムサンプリング)と
HT推定量
@tanimocchi
7/20/2013 32th Tokyo.R 2
自己紹介
 Twitter ID: @tanimocchi
(もっちぃ)
 数学科出身、博士(情報科学)
 所属: タヒにかけ半導体
 仕事: マーケティングなのか
ブランディングなのか?
 統計解析は必要! だと信じてる。
 統数研「サンプリング入門と調査データの分析法」に行ってきました。
 アンケート分析に着手したばかりですが (これから社内で需要ありそう)
 ちなみに、Rは前々回のTokyo.Rでインストールしました。
⇒ 今回のスライドにRのコードないです、ゴメンなさい(><)
7/20/2013 32th Tokyo.R 3
本編の前に: 教えてエライ人!
 学習で、データを学習データとテストデータに分けるけど、
データが超大量にあるなら、サンプリング理論から考えて、
ホールドアウト法でもおkな気がするのですが。。。
 ホールドアウト法、交差確認法、ジャックナイフ法、ブートストラップ法、等
 過不足なくイイ感じの学習がしたいなら、例えば層別SIで学
習データを抽出すれば十分?やはり未知のデータが問題?
 層別SI:不偏性OK、推定量の分散も(SIに比べて)小さい
 ホールドアウト法限定で、サンプリング手法と学習精度(AIC
とか?)との関係の、既存結果とかないですか?
 学習精度の理論上限は、不偏性OKで、神様的抽出確率の指定で
推定量の分散を0としたPPR(復元不等確率サンプリング)?
機械学習の経験0で、今後触れる予定も不明ですが m(_ _)m
7/20/2013 32th Tokyo.R 4
母集団、標本、全ての可能な標本
母集団のある要素が、標本に入っているか、
いないかで、2通りの場合があり、これをN個
の要素について組合せて、結局 2N通り の
標本が存在。これらを「すべての可能な標本
(all possible samples)」と呼ぶ
標本抽出(サンプリング)の仕方
に応じた、母集団特性値の推定
(HT推定、HH推定など)
7/20/2013 32th Tokyo.R 5
サンプリング・デザイン
 全ての可能な標本(集合族) S の要素である標本 s の実現
する確率 p(s) の与え方: 0≦p(s)≦1 (s∈S)
 具体的なサンプリング方法が、p(s)を定める
 母集団の大きさN=2での例
標本の大きさ サンプリング・デザイン
1 2 n(s) p(s)
0
○ 1
○ 1
○ ○ 2
母集団の要素 i全て可能な標本S
の要素である標本s
1s
12 s
 23 s
 2,14 s
 1sp
 2sp
 3sp
 4sp
7/20/2013 32th Tokyo.R 6
基本サンプリング
 色々あるけど、今回はSIのみ!
 SIの手順: 母集団の大きさ N 、標本の大きさ n と仮定
 以下の作業をn回繰り返す
I. 1からNの整数iを1つ決める: ex. uを[0,1)の一様乱数として、
i=floor(u×N)+1
II. i が既に抽出された母集団の要素番号ならⅠに戻る
III. さもなければ、i を抽出する母集団の要素番号として記録する
⇒ [1,N]上の一様乱数を重複する事なくn個生成し、母集団から対応
する要素を抽出
非復元 復元
等確率(単純ランダム) SI SIR
不等確率(確率比例) PP PPR
系統サンプリング SY
7/20/2013 32th Tokyo.R 7
不遍性って?
 全ての可能な標本それぞれに対して求めた推定量の期
待値 が、母集団特性値 に一致:    ˆE ˆE 
Dˆ推定量:
Cˆ推定量:
Aˆ推定量:
Bˆ推定量:
    ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値 
:母集団特性値
7/20/2013 32th Tokyo.R 8
推定値の分散が気になる理由
 バイアス(偏り、Bias)
 ‘期待値’と母集団特性値の差
 不偏推定量なら
 平均2乗誤差(mean square error)
 不偏推定量なら
      ˆˆ EBias
  0ˆ Bias
        22
ˆˆˆˆ  BiasVarEMSE 
    ˆˆ VarMSE 
誤差(=分散)は出来るだけ小さい方が良い
          
            
          
    2
2
22
22
ˆˆ
ˆˆˆˆ2ˆ
ˆˆˆˆ2ˆˆ
ˆˆˆˆˆ




BiasVar
BiasEBiasEEVar
EEEEEEE
EEEEMSE




7/20/2013 32th Tokyo.R 9
HT推定量の定義~準備
 包含確率
 一次の包含確率
 母集団の要素 i が、実現する
標本に含まれる確率
 母集団の要素 i を含む標本 s について p(s) を足し挙げて得る
 二次の包含確率
 母集団の要素 i と j が、同時
に実現する標本に含まれる確率
 標本帰属指標
 母集団の要素 i が標本 s に
含まれているかどうかを表す確率変数
 
is
i sp


 
 
 ji
ji
sp
jis
i
ij







&


サンプリングデザイン
 
 
 si
si
sIi






0
1
   sIsI ii 2
i を含むsに関する和
i と j を両方含むsに関する和
7/20/2013 32th Tokyo.R 10
HT推定量の定義
 HT推定量(the Horvitz-Thompson estimator)は、
母集団総計 の不偏推定量を与える
 標本の各y値を包含確率で割って足しこむ
 包含確率がわかればすぐに算出できる


si i
i
HT
y

ˆ

※ どの母集団の要素も標本に含まれる可能性があると仮定!
7/20/2013 32th Tokyo.R 11
HT推定量の期待値
 HT推定量の期待値
 母集団平均 μ の不偏推定量も直ちに作れる
 
  

 















Ui Ui
i
Ui
i
i
i
i
i
i
Ui
i
i
i
si i
i
HT
y
y
IE
y
I
y
E
y
EE



ˆ
確かに不偏推定量
  












NN
EE
N
HT
HT
HT
HT
ˆ
ˆ
ˆ
ˆ
          i
isisSs
ii spspspsIIE   
01

i を含む標本 i を含まない標本
7/20/2013 32th Tokyo.R 12
HT推定量の分散・分散の推定量
 HT推定量の分散
 HT推定量の分散の推定量
ここで、
  ji
Ui ji ji
jiij
Ui Ui
i
i
i
Uj ji
ji
ijHT yyy
yy
Var     









 21
ˆ
  ji
Ui ji ijjisi Ui
i
i
i
sj ji
ji
ij
ij
HT yyy
yy
    
















111
ˆ 2
2
  
 ji
ji
jiij
ii
ij











1
め、一般に算出不能母集団の要素であるた:iy
、値を算出可能標本の要素であるため:iy
※ 母集団のどの2つの要素も
標本に同時に含まれる
可能性があると仮定!
7/20/2013 32th Tokyo.R 13
SIにおけるHT推定量 [1/3]
 一次と二次の包含確率が解ればHT推定量を算出可能
 一次の包含確率
 標本の大きさが n の可能な標本数:
 従って、サンプリング・デザイン
 母集団のある要素 i を含む標本の数:
 
  
  nsn
nsn
n
N
sp















0
1
通り





n
N
通り







1
1
n
N
 
N
n
n
Nn
N
sp
is
i 














 
1
1
1


7/20/2013 32th Tokyo.R 14
SIにおけるHT推定量 [2/3]
 二次の包含確率
 母集団のある要素 i と j を含む標本の数:
通り







2
2
n
N
   
 1
11
2
2
& 
















  NN
nn
n
Nn
N
sp
jis
ij


7/20/2013 32th Tokyo.R 15
SIにおけるHT推定量 [3/3]
 HT推定量は母集団総計 の不偏推定量を与える
 SIによるものである事を強調して、 と書く
統計量である標本平均 が、SIの場合に、母集団平均
のHT推定量 (不偏推定量)!
y
N
yN
N
SI
SI 


ˆ
ˆ
 

si
i
si
i
si i
i
SI yNy
n
N
N
n
yy

ˆ
SIˆ

y 
SIˆ
7/20/2013 32th Tokyo.R 16
SIにおけるHT推定量の分散
 抽出率
 有限母集団修正項
 SIにおけるHT推定量の分散
ここで、 は母集団分散であり一般に不明。従って、その
推定量の算出が必要となる。
     
n
fN
n
nNNVar SI
2
2
2
1ˆ

 
N
n
f 
N
nN
f

1
   
n
f
nN
nN
Var SI
22
1ˆ

 




 

2

7/20/2013 32th Tokyo.R 17
SIにおけるHT推定量の分散の推定量
 標本分散
 SIにおけるHT推定量の分散の推定量
 



n
i
i yy
n
s
1
22
1
1
     
n
s
fN
n
s
nNNSI
2
2
2
1ˆ 
   
n
s
f
n
s
N
nN
SI
22
1ˆ 




 

7/20/2013 32th Tokyo.R 18
SIにおける標本分散の期待値
 HT推定量の分散の不偏推定量 について
が成り立っている。
だから、両者を等しいとおいて下記を得る
統計量である標本分散の が、SIの場合に、母集団分散
の不偏推定量!
   
n
fNVar SI
2
2
1ˆ

 
        
n
sE
fN
n
s
fNEE SI
2
2
2
2
11ˆ 






 SI ˆ
    SISI VarE  ˆˆ 
   (不偏)22
sE
2
s
 2

7/20/2013 32th Tokyo.R 19
で、だから何?
 SIの場合、標本抽出の仕方から
 母集団のどの要素も標本に含まれ、かつ
 母集団のどの2つの要素も標本に同時に含まれる
可能性があるため、HT推定量の仮定を満たしており、
 標本平均 が母集団平均 の
 標本分散 が母集団分散 の
不偏推定量。(つまり、当り前に使ってる事実を証明!)
⇒他のサンプリング手法は、需要あればまたの機会に!
サンプリング手法の「学習データとテストデータの分離」へ
の影響がやはり気になる。どの方法でも、非復元ランダム
抽出、即ちSI、は当たり前に行ってるような気もするけど。
2
s  2

y 
7/20/2013 32th Tokyo.R 20
Thanks a lot!

More Related Content

What's hot

Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Katsuya Ito
 
ZDD基礎
ZDD基礎ZDD基礎
ZDD基礎reew2n
 
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから Ichigaku Takigawa
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRMLKatsuya Ito
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333Issei Kurahashi
 
連続変量を含む条件付相互情報量の推定
連続変量を含む条件付相互情報量の推定連続変量を含む条件付相互情報量の推定
連続変量を含む条件付相互情報量の推定Joe Suzuki
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
情報幾何 勉強会資料0
情報幾何 勉強会資料0情報幾何 勉強会資料0
情報幾何 勉強会資料0S Ishikasa
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布Junya Saito
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)Hidetoshi Matsui
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random ForestSatoshi Kato
 
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について考司 小杉
 
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)Hideo Hirose
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章Kota Matsui
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法zakktakk
 
2015年因果フェススライド
2015年因果フェススライド2015年因果フェススライド
2015年因果フェススライドJun Otsuka
 

What's hot (20)

Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
 
ZDD基礎
ZDD基礎ZDD基礎
ZDD基礎
 
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 
連続変量を含む条件付相互情報量の推定
連続変量を含む条件付相互情報量の推定連続変量を含む条件付相互情報量の推定
連続変量を含む条件付相互情報量の推定
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
情報幾何 勉強会資料0
情報幾何 勉強会資料0情報幾何 勉強会資料0
情報幾何 勉強会資料0
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random Forest
 
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について
 
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
 
2015年因果フェススライド
2015年因果フェススライド2015年因果フェススライド
2015年因果フェススライド
 

Viewers also liked

相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性もT T
 
Google Prediction APIを使う前に知っておきたい統計のはなし
Google Prediction APIを使う前に知っておきたい統計のはなしGoogle Prediction APIを使う前に知っておきたい統計のはなし
Google Prediction APIを使う前に知っておきたい統計のはなしpinmarch_t Tada
 
統計学基礎
統計学基礎統計学基礎
統計学基礎Yuka Ezura
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎Ken'ichi Matsui
 
推定と標本抽出
推定と標本抽出推定と標本抽出
推定と標本抽出山津 貴之
 
Pyladies tokyo 2nd anniversary LT
Pyladies tokyo 2nd anniversary LTPyladies tokyo 2nd anniversary LT
Pyladies tokyo 2nd anniversary LTdrillan
 
Stapy#17LT
Stapy#17LTStapy#17LT
Stapy#17LTdrillan
 
PyCon JP 2016 Talk#024 en
PyCon JP 2016 Talk#024 enPyCon JP 2016 Talk#024 en
PyCon JP 2016 Talk#024 endrillan
 
Pynyumon#4lt
Pynyumon#4ltPynyumon#4lt
Pynyumon#4ltdrillan
 
Pynyumon03 LT
Pynyumon03 LTPynyumon03 LT
Pynyumon03 LTdrillan
 
PyData.Tokyo Meetup #11 LT
PyData.Tokyo Meetup #11 LTPyData.Tokyo Meetup #11 LT
PyData.Tokyo Meetup #11 LTdrillan
 
第10章後半「ブースティングと加法的木」
第10章後半「ブースティングと加法的木」第10章後半「ブースティングと加法的木」
第10章後半「ブースティングと加法的木」T T
 
関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフPaweł Rusin
 
PyCon JP 2016 Talk#024 ja
 PyCon JP 2016 Talk#024 ja PyCon JP 2016 Talk#024 ja
PyCon JP 2016 Talk#024 jadrillan
 
GmailとPythonでイベント管理
GmailとPythonでイベント管理GmailとPythonでイベント管理
GmailとPythonでイベント管理drillan
 
続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」T T
 
基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料at grandpa
 
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理Ken'ichi Matsui
 
WindowsでPython
WindowsでPythonWindowsでPython
WindowsでPythondrillan
 
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】schoowebcampus
 

Viewers also liked (20)

相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も相関係数と決定係数~回帰係数とその不偏性も
相関係数と決定係数~回帰係数とその不偏性も
 
Google Prediction APIを使う前に知っておきたい統計のはなし
Google Prediction APIを使う前に知っておきたい統計のはなしGoogle Prediction APIを使う前に知っておきたい統計のはなし
Google Prediction APIを使う前に知っておきたい統計のはなし
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 
推定と標本抽出
推定と標本抽出推定と標本抽出
推定と標本抽出
 
Pyladies tokyo 2nd anniversary LT
Pyladies tokyo 2nd anniversary LTPyladies tokyo 2nd anniversary LT
Pyladies tokyo 2nd anniversary LT
 
Stapy#17LT
Stapy#17LTStapy#17LT
Stapy#17LT
 
PyCon JP 2016 Talk#024 en
PyCon JP 2016 Talk#024 enPyCon JP 2016 Talk#024 en
PyCon JP 2016 Talk#024 en
 
Pynyumon#4lt
Pynyumon#4ltPynyumon#4lt
Pynyumon#4lt
 
Pynyumon03 LT
Pynyumon03 LTPynyumon03 LT
Pynyumon03 LT
 
PyData.Tokyo Meetup #11 LT
PyData.Tokyo Meetup #11 LTPyData.Tokyo Meetup #11 LT
PyData.Tokyo Meetup #11 LT
 
第10章後半「ブースティングと加法的木」
第10章後半「ブースティングと加法的木」第10章後半「ブースティングと加法的木」
第10章後半「ブースティングと加法的木」
 
関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ
 
PyCon JP 2016 Talk#024 ja
 PyCon JP 2016 Talk#024 ja PyCon JP 2016 Talk#024 ja
PyCon JP 2016 Talk#024 ja
 
GmailとPythonでイベント管理
GmailとPythonでイベント管理GmailとPythonでイベント管理
GmailとPythonでイベント管理
 
続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」
 
基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料
 
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
 
WindowsでPython
WindowsでPythonWindowsでPython
WindowsでPython
 
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編】
 

More from T T

A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...T T
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
第5章glmの尤度比検定と検定の非対称性 前編
第5章glmの尤度比検定と検定の非対称性 前編第5章glmの尤度比検定と検定の非対称性 前編
第5章glmの尤度比検定と検定の非対称性 前編T T
 
がうす・まるこふ の定理とかそのへん
がうす・まるこふ の定理とかそのへんがうす・まるこふ の定理とかそのへん
がうす・まるこふ の定理とかそのへんT T
 
Optimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire AnalysisOptimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire AnalysisT T
 
Software Foundation:形式的証明と非形式的証明
Software Foundation:形式的証明と非形式的証明Software Foundation:形式的証明と非形式的証明
Software Foundation:形式的証明と非形式的証明T T
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半T T
 

More from T T (7)

A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...A Study of the Learnability of Relational Properties - Model Counting Meets M...
A Study of the Learnability of Relational Properties - Model Counting Meets M...
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
第5章glmの尤度比検定と検定の非対称性 前編
第5章glmの尤度比検定と検定の非対称性 前編第5章glmの尤度比検定と検定の非対称性 前編
第5章glmの尤度比検定と検定の非対称性 前編
 
がうす・まるこふ の定理とかそのへん
がうす・まるこふ の定理とかそのへんがうす・まるこふ の定理とかそのへん
がうす・まるこふ の定理とかそのへん
 
Optimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire AnalysisOptimizing AIC in Questionnaire Analysis
Optimizing AIC in Questionnaire Analysis
 
Software Foundation:形式的証明と非形式的証明
Software Foundation:形式的証明と非形式的証明Software Foundation:形式的証明と非形式的証明
Software Foundation:形式的証明と非形式的証明
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半
 

サンプリングと推定 Siとht推定量

  • 1. 7/20/2013 32th Tokyo.R 1 サンプリングと推定 ~ SI(単純ランダムサンプリング)と HT推定量 @tanimocchi
  • 2. 7/20/2013 32th Tokyo.R 2 自己紹介  Twitter ID: @tanimocchi (もっちぃ)  数学科出身、博士(情報科学)  所属: タヒにかけ半導体  仕事: マーケティングなのか ブランディングなのか?  統計解析は必要! だと信じてる。  統数研「サンプリング入門と調査データの分析法」に行ってきました。  アンケート分析に着手したばかりですが (これから社内で需要ありそう)  ちなみに、Rは前々回のTokyo.Rでインストールしました。 ⇒ 今回のスライドにRのコードないです、ゴメンなさい(><)
  • 3. 7/20/2013 32th Tokyo.R 3 本編の前に: 教えてエライ人!  学習で、データを学習データとテストデータに分けるけど、 データが超大量にあるなら、サンプリング理論から考えて、 ホールドアウト法でもおkな気がするのですが。。。  ホールドアウト法、交差確認法、ジャックナイフ法、ブートストラップ法、等  過不足なくイイ感じの学習がしたいなら、例えば層別SIで学 習データを抽出すれば十分?やはり未知のデータが問題?  層別SI:不偏性OK、推定量の分散も(SIに比べて)小さい  ホールドアウト法限定で、サンプリング手法と学習精度(AIC とか?)との関係の、既存結果とかないですか?  学習精度の理論上限は、不偏性OKで、神様的抽出確率の指定で 推定量の分散を0としたPPR(復元不等確率サンプリング)? 機械学習の経験0で、今後触れる予定も不明ですが m(_ _)m
  • 4. 7/20/2013 32th Tokyo.R 4 母集団、標本、全ての可能な標本 母集団のある要素が、標本に入っているか、 いないかで、2通りの場合があり、これをN個 の要素について組合せて、結局 2N通り の 標本が存在。これらを「すべての可能な標本 (all possible samples)」と呼ぶ 標本抽出(サンプリング)の仕方 に応じた、母集団特性値の推定 (HT推定、HH推定など)
  • 5. 7/20/2013 32th Tokyo.R 5 サンプリング・デザイン  全ての可能な標本(集合族) S の要素である標本 s の実現 する確率 p(s) の与え方: 0≦p(s)≦1 (s∈S)  具体的なサンプリング方法が、p(s)を定める  母集団の大きさN=2での例 標本の大きさ サンプリング・デザイン 1 2 n(s) p(s) 0 ○ 1 ○ 1 ○ ○ 2 母集団の要素 i全て可能な標本S の要素である標本s 1s 12 s  23 s  2,14 s  1sp  2sp  3sp  4sp
  • 6. 7/20/2013 32th Tokyo.R 6 基本サンプリング  色々あるけど、今回はSIのみ!  SIの手順: 母集団の大きさ N 、標本の大きさ n と仮定  以下の作業をn回繰り返す I. 1からNの整数iを1つ決める: ex. uを[0,1)の一様乱数として、 i=floor(u×N)+1 II. i が既に抽出された母集団の要素番号ならⅠに戻る III. さもなければ、i を抽出する母集団の要素番号として記録する ⇒ [1,N]上の一様乱数を重複する事なくn個生成し、母集団から対応 する要素を抽出 非復元 復元 等確率(単純ランダム) SI SIR 不等確率(確率比例) PP PPR 系統サンプリング SY
  • 7. 7/20/2013 32th Tokyo.R 7 不遍性って?  全ての可能な標本それぞれに対して求めた推定量の期 待値 が、母集団特性値 に一致:    ˆE ˆE  Dˆ推定量: Cˆ推定量: Aˆ推定量: Bˆ推定量:     ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値  :母集団特性値
  • 8. 7/20/2013 32th Tokyo.R 8 推定値の分散が気になる理由  バイアス(偏り、Bias)  ‘期待値’と母集団特性値の差  不偏推定量なら  平均2乗誤差(mean square error)  不偏推定量なら       ˆˆ EBias   0ˆ Bias         22 ˆˆˆˆ  BiasVarEMSE      ˆˆ VarMSE  誤差(=分散)は出来るだけ小さい方が良い                                        2 2 22 22 ˆˆ ˆˆˆˆ2ˆ ˆˆˆˆ2ˆˆ ˆˆˆˆˆ     BiasVar BiasEBiasEEVar EEEEEEE EEEEMSE    
  • 9. 7/20/2013 32th Tokyo.R 9 HT推定量の定義~準備  包含確率  一次の包含確率  母集団の要素 i が、実現する 標本に含まれる確率  母集団の要素 i を含む標本 s について p(s) を足し挙げて得る  二次の包含確率  母集団の要素 i と j が、同時 に実現する標本に含まれる確率  標本帰属指標  母集団の要素 i が標本 s に 含まれているかどうかを表す確率変数   is i sp        ji ji sp jis i ij        &   サンプリングデザイン      si si sIi       0 1    sIsI ii 2 i を含むsに関する和 i と j を両方含むsに関する和
  • 10. 7/20/2013 32th Tokyo.R 10 HT推定量の定義  HT推定量(the Horvitz-Thompson estimator)は、 母集団総計 の不偏推定量を与える  標本の各y値を包含確率で割って足しこむ  包含確率がわかればすぐに算出できる   si i i HT y  ˆ  ※ どの母集団の要素も標本に含まれる可能性があると仮定!
  • 11. 7/20/2013 32th Tokyo.R 11 HT推定量の期待値  HT推定量の期待値  母集団平均 μ の不偏推定量も直ちに作れる                        Ui Ui i Ui i i i i i i Ui i i i si i i HT y y IE y I y E y EE    ˆ 確かに不偏推定量                NN EE N HT HT HT HT ˆ ˆ ˆ ˆ           i isisSs ii spspspsIIE    01  i を含む標本 i を含まない標本
  • 12. 7/20/2013 32th Tokyo.R 12 HT推定量の分散・分散の推定量  HT推定量の分散  HT推定量の分散の推定量 ここで、   ji Ui ji ji jiij Ui Ui i i i Uj ji ji ijHT yyy yy Var                21 ˆ   ji Ui ji ijjisi Ui i i i sj ji ji ij ij HT yyy yy                      111 ˆ 2 2     ji ji jiij ii ij            1 め、一般に算出不能母集団の要素であるた:iy 、値を算出可能標本の要素であるため:iy ※ 母集団のどの2つの要素も 標本に同時に含まれる 可能性があると仮定!
  • 13. 7/20/2013 32th Tokyo.R 13 SIにおけるHT推定量 [1/3]  一次と二次の包含確率が解ればHT推定量を算出可能  一次の包含確率  標本の大きさが n の可能な標本数:  従って、サンプリング・デザイン  母集団のある要素 i を含む標本の数:        nsn nsn n N sp                0 1 通り      n N 通り        1 1 n N   N n n Nn N sp is i                  1 1 1  
  • 14. 7/20/2013 32th Tokyo.R 14 SIにおけるHT推定量 [2/3]  二次の包含確率  母集団のある要素 i と j を含む標本の数: 通り        2 2 n N      1 11 2 2 &                    NN nn n Nn N sp jis ij  
  • 15. 7/20/2013 32th Tokyo.R 15 SIにおけるHT推定量 [3/3]  HT推定量は母集団総計 の不偏推定量を与える  SIによるものである事を強調して、 と書く 統計量である標本平均 が、SIの場合に、母集団平均 のHT推定量 (不偏推定量)! y N yN N SI SI    ˆ ˆ    si i si i si i i SI yNy n N N n yy  ˆ SIˆ  y  SIˆ
  • 16. 7/20/2013 32th Tokyo.R 16 SIにおけるHT推定量の分散  抽出率  有限母集団修正項  SIにおけるHT推定量の分散 ここで、 は母集団分散であり一般に不明。従って、その 推定量の算出が必要となる。       n fN n nNNVar SI 2 2 2 1ˆ    N n f  N nN f  1     n f nN nN Var SI 22 1ˆ           2 
  • 17. 7/20/2013 32th Tokyo.R 17 SIにおけるHT推定量の分散の推定量  標本分散  SIにおけるHT推定量の分散の推定量      n i i yy n s 1 22 1 1       n s fN n s nNNSI 2 2 2 1ˆ      n s f n s N nN SI 22 1ˆ        
  • 18. 7/20/2013 32th Tokyo.R 18 SIにおける標本分散の期待値  HT推定量の分散の不偏推定量 について が成り立っている。 だから、両者を等しいとおいて下記を得る 統計量である標本分散の が、SIの場合に、母集団分散 の不偏推定量!     n fNVar SI 2 2 1ˆ             n sE fN n s fNEE SI 2 2 2 2 11ˆ         SI ˆ     SISI VarE  ˆˆ     (不偏)22 sE 2 s  2 
  • 19. 7/20/2013 32th Tokyo.R 19 で、だから何?  SIの場合、標本抽出の仕方から  母集団のどの要素も標本に含まれ、かつ  母集団のどの2つの要素も標本に同時に含まれる 可能性があるため、HT推定量の仮定を満たしており、  標本平均 が母集団平均 の  標本分散 が母集団分散 の 不偏推定量。(つまり、当り前に使ってる事実を証明!) ⇒他のサンプリング手法は、需要あればまたの機会に! サンプリング手法の「学習データとテストデータの分離」へ の影響がやはり気になる。どの方法でも、非復元ランダム 抽出、即ちSI、は当たり前に行ってるような気もするけど。 2 s  2  y 
  • 20. 7/20/2013 32th Tokyo.R 20 Thanks a lot!