推定と標本抽出
~小さいデータで精度よく~
やまつ
はじめに
Rと私
R歴約1年
卒論(社会調査法について)を書くのに使い始めた
SPSSからの乗り換え
今回の発表の元ネタ
ブログ 社会学者の研究メモ
「サンプリングについてのひとつのお話」
http://d.hatena.ne.jp/jtsutsui/20110411/1302482023
「Rによるやさしい統計学」
第4章:母集団と標本
発表の流れ
1. 統計的推定について
1. 「推定」とは
2. 「推定のよさ」とは
2. Rを使ったシミュレーションよる標本抽出法の比較
1. 単純無作為抽出法
2. 多段抽出法
3. 層化抽出法
「推定」とは
(統計的)推定:母集団の特性(=母数)を標本の特性(=推定値)から推測する
母集団の例:日本人全体、この場にいる人たち
母数の例:政党支持率、身長と体重の相関係数
標本抽出
推定
推定値 分析母数
母集団 標本
標本の分布
推定値は分布する
標本抽出
分析
(平均の)
推定値
=173
推定値
=170
推定値
=168
母数(平均)=170
推定値は平均や分散をもつ
例:「標本の平均」の平均
母集団の分布
「平均の推定値」の分布
よい推定とは
社会学者の研究メモ
「サンプリングについてのひとつのお話」に加筆して引用
1.バイアス=母数と推定値の平均の差
2.偶然の誤差=推定値の分散
推定値の平均と分散から推
定のよさが分かる
円の真ん中が母数
黒丸一つ一つが推定値
いろいろな標本抽出法
単純無作為抽出:母集団から個人を直接抽出する(完全にランダム)
多段抽出:母集団をグループ分けし、 ランダムにいくつかグループを選び、
そこからランダムに個人を抽出
層化抽出:母集団をグループ分け(層化)し、母集団の各グループの割合に標本の
それが等しくなるように、各グループからランダムに個人を抽出
以下、それぞれの標本抽出に基づく推定値のよさを、その平均と分散から評価する
シミュレーションの準備
1組から10組まで、各クラス40人、全体で400人のある学年。
番号の若いクラスほど、成績が悪い傾向がある。
40人を標本調査することで、この学年のテストの点の平均(=母数)を知りたい。
単純無作為抽出
平均の推定値の分散≒母集団の分散/標本サイズ
=平均の推定値の分散の理論値
40人選んで、平均の推定値を求めることを、10000回繰り返す
山の中心が平均、裾の広さが分散を表す
多段抽出
単純無作為抽出の4.156756より大きい
ランダムに4つのクラスを選び、各
クラスからランダムに10人選ぶ
層化抽出
単純無作為抽出の4.156756より小さい
各グループから4人ずつランダムに抽出
母集団における1組の割合40/400
=標本における1組の割合4/40
標本抽出法を比べる1
平均はどれも母数にかなり近い
分散は 多段抽出>単純無作為抽出>層化抽出
≒
𝜎2
𝑛
=理論値
標本抽出法を比べる2
① 推定値のよさは平均と分散から評価できる
② 「標本の平均」の平均は
単純無作為抽出=多段抽出=層化抽出=母集団の平均
③ 「標本の平均」の分散は
多段抽出>単純無作為抽出>層化抽出
①、②、③から、推定のよさは
多段抽出<単純無作為抽出<層化抽出
層化抽出の優位性1
つまり、
単純無作為抽出が常に最善ではない
今回のシミュレーションの場合
単純無作為抽出の標本の平均の分散は層化抽出の
約1.8倍
単純無作為抽出の標本の平均の分散は なので、
分散を1/1.8にするには標本サイズnが1.8倍必要
⇒層化抽出が標本サイズを約半分に節約している
𝜎2
𝑛
単純無作為抽出は標本サイズを1.8倍にして
やっと層化抽出と同じ精度
層化抽出が有効である条件
① 母集団における各層(グループ)の割合がわかっている
例:ある学年における各クラスの割合
② 標本抽出枠(名簿)に層のデータが含まれる
例:学年名簿に所属クラスが記されている
③ 層ごとに母数が異なる(⇒理由は後述)
例:クラスごとにテストの平均得点が異なる
①、または②が満たされないとき次善の策として単純無作為抽出がとられる
③が満たされないとき、層化抽出の精度は単純無作為抽出と同じ
標本抽出法を比べる3
標本抽出法 推定値の平均 推定値の分散 調査コスト
単純無作為抽出 ◯
母数と同じ
△
普通
計算しやすい
△
調査対象が散らばる
多段抽出 △
(割当てをうまくやれば)
母数と同じ
×
層ごとに母数が異なる
ほど大きくなりやすい
計算しづらい
◯
グループごとに調査対
象がまとまる
層化抽出 △
(割当てをうまくやれば)
母数と同じ
◯
層ごとに母数が異なる
ほど小さくなりやすい
計算しづらい
×
調査対象が散らばる
層の割り当てにコストが
かかる
層化抽出の優位性2
単純無作為抽出の場合
①標本平均の分散=母分散/標本サイズ
②母分散=母集団の偏差平方和/母集団のサイズ
③母集団の偏差平方和=郡内平方和+群間平方和 #平方和分解
①に②、③を代入
④標本平均の分散=(郡内平方和+群間平方和)/母集団のサイズ/標本サイズ
層化抽出の場合
⑤標本平均の分散=∑(i組の分散×i組のサイズ)/母集団のサイズ/標本サイズ #①と加重平均
⑥郡内平方和= ∑(i組の分散×i組のサイズ)
⑤に⑥を代入
⑦標本平均の分散=群内平方和/母集団のサイズ/標本サイズ
単純無作為抽出と層化抽出の差
標本平均の分散の差=④ー⑦=群間平方和/母集団のサイズ/標本サイズ
層ごとに平均(母数)が異なるほど、層化抽出の効果が大きい
層化抽出の優位性3
おわりに
1.単純無作為抽出が常に最善ではない
既知の情報を意図的に揃えれば、小さいデータで精度のよい推定が可能
2.普通の検定、推定は単純無作為抽出された標本の話
多段抽出、層化抽出された標本の場合の計算は複雑(誤差の独立性)
3.Rで簡単にシミュレーションができる
統計学の理解に役立つ(数式にもとづく理論値の正しさを確認できる)
「割当て」や「重み付け」などは省略しました
⇒より詳しく、正確な話は「サンプリングについてのひとつのお話」で検索

推定と標本抽出