Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.
株式会社ウフル
下野寿之 Data Scientist
なぜ40個のサンプルで調査をするのか
― 数値例からの考察

はじめに
問題：何サンプルあれば全体傾向を議論できるか？
サンプル数は十分といえるのか？
アンケート総数 = ?

サンプルサイズの算出の試み
1. 全体傾向が過半数であることを確認したい
2. 10%の確率で起きる現象を2回以上確認したい
3. 偏差値65以上のサンプルを1個以上見つけたい
4. 全10カテゴリからサンプルを各1個以上見つけたい
5. 2変量に相関があることを確認したい
いくつかの例題で検討してみる。
さらに、確率90%以上で確認可能な計画を立てたい
問題：何サンプルあれば全体傾向を議論できるか？

各人が3:2の確率で賛成票と
反対票を投じる時に多数決で
賛成が決まる可能性を90%
確保するために必要な人数は
41人。
※ 投票者全員がそれぞれ独立に、ある決まった確率で賛成票または反対票のどちらかを投票して、
多数決をとる状況を考えている。(賛成反対が同数の場合はさいころの目の偶奇で決めるとする。)
1. 全体傾向が過半数であることを確認したい
全体傾向では多数派であっても、ある
確率で過半数に達しない場合がある！
賛成６０％
反対４０％
全体傾向
多数派が過半数多数派が少数派に見える
90.3%9.7%

2. 10%の確率で起きる現象を2回以上確認したい
1回あたり10%しか起きない現
象を 90%以上の確率で2回以上
観察する計画を立てたい。
その他９０％
発生１０％
2回以上確認
90.5%
9.5%
発生確率
標本発生回数
最低限必要な観察回数は38回

3. 偏差値65以上のサンプルを1個以上見つけたい
偏差値65以上のサンプルを1個でも90%以上の確率で見つけるには、
34個のサンプルの探索が必要。
6
▶ いろんな観測値の分布は、ガウス分布で近似できることが多い。たとえば多数の人の身
長や体重の分布はガウス分布で近似できる。ガウス分布の形は上図のような形になる。(こ
のグラフの場合は、平均μ は 0 , 標準偏差σは 1 になるように調整してある。)
▶ “偏差値” にたとえると μ + 1.5σ が 65 に相当する。それ以上の値を取る割合は
6.68% である。
偏差値65以上
サンプル数を34個確保すれば、
この領域のサンプルが見つか
る可能性が90%に達する。

均等に重複なく存在する10カ
テゴリから無作為にサンプル
を採集する場合に、全てのカ
テゴリから少なくとも1サンプ
ル以上を90%以上の確率で採
集するために必要なサンプル
数は44サンプル。
4. 全10カテゴリからサンプルを各1個以上見つけたい
確率
サンプル採集数
全10カテゴリから全てのカテゴリのサンプルを採集できる確率

※ 相関係数0.5程度の現象は、同一年
齢同性の親子の身長、プロ野球の
各チームの年間総得点と総失点と
年間順位の3変数の間などに現れる。
5. 2変量に相関があることを確認したい
8
2変量間の母相関係数が0.5の場合に、検出力90%で有意水準5%
の無相関の検定(両側)を, 行うための必要標本サイズは37以上。
母相関係数0.5を持つ分布
(2次元ガウス分布) 青丸は37個の標本例
ρ = 0.5
N ≧ 37
※ データと現実の変数の関係こそ重要で、
相関係数を考えることは有力な手段であ
るが、それを測定するためには、意外と
多数のサンプルの観測が必要。人はなぜ
現実から関係性をうまく読み取るのかに
ついては、さらなる深い考察が必要。

1. 60%の優勢を判定 → 41人
2. 10%の未知の現象の見逃しを防ぐなら → 38例
3. 偏差値65以上の逸脱したケースを探すなら → 34例
4. 全10カテゴリを全て集めたい → 44サンプル
5. 2変量に相関があるかどうか検定したい → 37例
[まとめ] 90%以上の確率で正しい結果を
得るために必要な調査量
9
少なくとも40サンプル程度は観察が必要

補足1: 20と40を比較する場合
10
90%の確率で実現できること
80%の確率で実現できること
サンプルの大きさ → 10 20 40 80
何%の現象を複数回捉えられるか 33.7 %超 18.1 %超 9.4 %超 4.8 %超
過半数であることを正しく多数決で結果を出す 69.9 %超 64.2 %超 60.1 %超 57.1 %超
何色シールなら全部揃えられるか 3 色以下 5 色以下 9 色以下 16 色以下
集めたサンプルの中の平均からの最大逸脱 1.26 σ超 1.60 σ超 1.91 σ超 2.19 σ超
無相関検定(両側,5%)棄却に必要な母相関係数 ρ≧ 0.83 ρ≧ 0.65 ρ≧ 0.49 ρ≧ 0.36
サンプルの大きさ → 10 20 40 80
何%の現象を複数回捉えられるか 27.1 %超 14.2 %超 7.3 %超 3.7 %超
過半数であることを正しく多数決で結果を出す 63.4 %超 59.4 %超 56.7 %超 54.7 %超
何色シールなら全部揃えられるか 3 色以下 6 色以下 10 色以下 18 色以下
集めたサンプルの中の平均からの最大逸脱 1.44 σ超 1.77 σ超 2.06 σ超 2.33 σ超
無相関検定(両側,5%)棄却に必要な母相関係数 ρ≧ 0.77 ρ≧ 0.59 ρ≧ 0.43 ρ≧ 0.31

補足2: 集めたサンプルからある1変量の範囲を知りたい
11
20回の観察をしたとしても意外と結果の分布の揺らぎは大きい。
値の範囲について精度良く把握するには、40回は必要と考えられる。
下の4個のグラフは、それぞれ観察回数を10回・20回・40回・100回と決めた場合に、15回ずつ値
の”分布”をシュミレートしたものである。(観察した分布から推測した平均と標準偏差を表す長方形
を重ねてある。)

Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Recommended

Recommended

More Related Content

More from Toshiyuki Shimono

More from Toshiyuki Shimono (20)

Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Editor's Notes