More Related Content
More from Toshiyuki Shimono (20)
Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察
- 1. Copyright © 2014 Uhuru Corporation, All Right Reserved.
株式会社ウフル
下野 寿之 Data Scientist
なぜ40個のサンプルで調査をするのか
― 数値例からの考察
- 2. Copyright © 2014 Uhuru Corporation, All Right Reserved.
はじめに
問題:何サンプルあれば全体傾向を議論できるか?
サンプル数は十分といえるのか?
アンケート総数 = ?
- 3. Copyright © 2014 Uhuru Corporation, All Right Reserved.
サンプルサイズの算出の試み
1. 全体傾向が過半数であることを確認したい
2. 10%の確率で起きる現象を2回以上確認したい
3. 偏差値65以上のサンプルを1個以上見つけたい
4. 全10カテゴリからサンプルを各1個以上見つけたい
5. 2変量に相関があることを確認したい
いくつかの例題で検討してみる。
さらに、確率90%以上で確認可能な計画を立てたい
問題:何サンプルあれば全体傾向を議論できるか?
- 4. Copyright © 2014 Uhuru Corporation, All Right Reserved.
各人が3:2の確率で賛成票と
反対票を投じる時に多数決で
賛成が決まる可能性を90%
確保するために必要な人数は
41人。
※ 投票者全員がそれぞれ独立に、ある決まった確率で賛成票または反対票のどちらかを投票して、
多数決をとる状況を考えている。(賛成反対が同数の場合はさいころの目の偶奇で決めるとする。)
1. 全体傾向が過半数であることを確認したい
全体傾向では多数派であっても、ある
確率で過半数に達しない場合がある!
賛成60%
反対40%
全体傾向
多数派が過半数多数派が少数派に見える
90.3%9.7%
- 5. Copyright © 2014 Uhuru Corporation, All Right Reserved.
2. 10%の確率で起きる現象を2回以上確認したい
1回あたり10%しか起きない現
象を 90%以上の確率で2回以上
観察する計画を立てたい。
その他90%
発生10%
2回以上確認
90.5%
9.5%
発生確率
標本発生回数
最低限必要な観察回数は38回
- 6. Copyright © 2014 Uhuru Corporation, All Right Reserved.
3. 偏差値65以上のサンプルを1個以上見つけたい
偏差値65以上のサンプルを1個でも90%以上の確率で見つけるには、
34個のサンプルの探索が必要。
6
▶ いろんな観測値の分布は、ガウス分布で近似できることが多い。たとえば多数の人の身
長や体重の分布はガウス分布で近似できる。ガウス分布の形は上図のような形になる。(こ
のグラフの場合は、平均μ は 0 , 標準偏差σは 1 になるように調整してある。)
▶ “偏差値” にたとえると μ + 1.5σ が 65 に相当する。それ以上の値を取る割合は
6.68% である。
偏差値65以上
サンプル数を34個確保すれば、
この領域のサンプルが見つか
る可能性が90%に達する。
- 7. Copyright © 2014 Uhuru Corporation, All Right Reserved.
均等に重複なく存在する10カ
テゴリから無作為にサンプル
を採集する場合に、全てのカ
テゴリから少なくとも1サンプ
ル以上を90%以上の確率で採
集するために必要なサンプル
数は44サンプル。
4. 全10カテゴリからサンプルを各1個以上見つけたい
確率
サンプル採集数
全10カテゴリから全てのカテゴリのサンプルを採集できる確率
- 8. Copyright © 2014 Uhuru Corporation, All Right Reserved.
※ 相関係数0.5程度の現象は、同一年
齢同性の親子の身長、プロ野球の
各チームの年間総得点と総失点と
年間順位の3変数の間などに現れる。
5. 2変量に相関があることを確認したい
8
2変量間の母相関係数が0.5の場合に、検出力90%で有意水準5%
の無相関の検定(両側)を, 行うための必要標本サイズは37以上。
母相関係数0.5を持つ分布
(2次元ガウス分布) 青丸は37個の標本例
ρ = 0.5
N ≧ 37
※ データと現実の変数の関係こそ重要で、
相関係数を考えることは有力な手段であ
るが、それを測定するためには、意外と
多数のサンプルの観測が必要。人はなぜ
現実から関係性をうまく読み取るのかに
ついては、さらなる深い考察が必要。
- 9. Copyright © 2014 Uhuru Corporation, All Right Reserved.
1. 60%の優勢を判定 → 41人
2. 10%の未知の現象の見逃しを防ぐなら → 38例
3. 偏差値65以上の逸脱したケースを探すなら → 34例
4. 全10カテゴリを全て集めたい → 44サンプル
5. 2変量に相関があるかどうか検定したい → 37例
[まとめ] 90%以上の確率で正しい結果を
得るために必要な調査量
9
少なくとも40サンプル程度は観察が必要
- 10. Copyright © 2014 Uhuru Corporation, All Right Reserved.
補足1: 20と40を比較する場合
10
90%の確率で実現できること
80%の確率で実現できること
サンプルの大きさ → 10 20 40 80
何%の現象を複数回捉えられるか 33.7 %超 18.1 %超 9.4 %超 4.8 %超
過半数であることを正しく多数決で結果を出す 69.9 %超 64.2 %超 60.1 %超 57.1 %超
何色シールなら全部揃えられるか 3 色以下 5 色以下 9 色以下 16 色以下
集めたサンプルの中の平均からの最大逸脱 1.26 σ超 1.60 σ超 1.91 σ超 2.19 σ超
無相関検定(両側,5%)棄却に必要な母相関係数 ρ≧ 0.83 ρ≧ 0.65 ρ≧ 0.49 ρ≧ 0.36
サンプルの大きさ → 10 20 40 80
何%の現象を複数回捉えられるか 27.1 %超 14.2 %超 7.3 %超 3.7 %超
過半数であることを正しく多数決で結果を出す 63.4 %超 59.4 %超 56.7 %超 54.7 %超
何色シールなら全部揃えられるか 3 色以下 6 色以下 10 色以下 18 色以下
集めたサンプルの中の平均からの最大逸脱 1.44 σ超 1.77 σ超 2.06 σ超 2.33 σ超
無相関検定(両側,5%)棄却に必要な母相関係数 ρ≧ 0.77 ρ≧ 0.59 ρ≧ 0.43 ρ≧ 0.31
- 11. Copyright © 2014 Uhuru Corporation, All Right Reserved.
補足2: 集めたサンプルからある1変量の範囲を知りたい
11
20回の観察をしたとしても意外と結果の分布の揺らぎは大きい。
値の範囲について精度良く把握するには、40回は必要と考えられる。
下の4個のグラフは、それぞれ観察回数を10回・20回・40回・100回と決めた場合に、15回ずつ値
の”分布”をシュミレートしたものである。(観察した分布から推測した平均と標準偏差を表す長方形
を重ねてある。)
Editor's Notes
- 補足すると「20ではなくて40にする訳」の方がもっと正確にこのスライドの作成意図を表しています。
- (1)
表示されている27%,65%が四捨五入であれば
分母の数になりうるのは、小さい数から順に 26, 37, 40, 48, 49, 51, 53 である。
(表示されている27%,65%が百分率整数切り捨てであれば
分母の数になりうるのは、小さい数から順に 29, 43, 44, 47 のようである。要確認)
(2)
prob=0.5 の 二項分布を考えると
26中7以下になる確率は 1.447.. % 点
26中17以上は 8.431.. % 点
29中8以下になる確率は 1.205.. % 点
29中19以上になる確率は 6.802.. % 点
上記は、R言語の pbinom ですぐ計算が出来る。
ただし、以上を超、以下を未満と混同しないよう注意を要する。
(3)
以下は、R言語の prop.test で計算したが、本当は binom.test で計算すべし。
四捨五入でつじつまが合う、最小の分母を持つもの :
7/26=0.2692.. → 95%信頼区間は[0.1235.. , 0.4805..]
→ 99%信頼区間は[0.09907.. , 0.5402..]
⇒ 有意水準1%だと過半数でないことは棄却できない。
17/26=0.65384.. → 95%信頼区間は[0.44.. , 0.82..] ⇒有意水準5%で過半数でないことは棄却できない。
この場合 26人中17人だと、
切り捨てでつじつまが合う、最小の分母を持つもの :
8/29=0.2758.. → 95%信頼区間は[0.13.. , 0.47..]
→ 99%信頼区間は[0.10.. , 0.53..]
19/29=0.65517.. → 95%信頼区間は[0.45.. , 0.81..] ⇒有意水準5%で過半数でないことは棄却できない。
ただし、上記は、帰無仮説を prob=0.5 と決めた。(両側になっている。)
- (1)
R言語の pbinom コマンドを信用して計算すると、
60% = 50% + 10% なら 41人 で多数決が正しい可能性を90%以上確保できる。
51% = 50% + 1% なら 4105人 で多数決が正しい可能性を90%以上確保できる。
50.1% = 50% + 0.1% なら 41万0593人 で多数決が正しい可能性を90%以上確保できる。
50.01% = 50% + 0.1% なら 4105万9359人 で多数決が正しい可能性を90%以上確保できる。
41という数を簡単に算出する方法は R言語で、 以下のコマンドを使う。
k<-10; while ( pbinom(k/2,k+1,0.6)>.1) k<-k+2 ; k+1
(2) 90%を99%に変更すると、
66.666.. % = 2/3 ならば 47人で多数決が正しい可能性を99%以上確保できる。
60% なら 133 回 (41回よりも 約3.3倍に増えている。2倍では済まない。)
51% なら 1万3527回
- 多数派がどちらであるか見極めたい独占割合が丁度50%にどれだけ近いかの
2乗に反比例して、必要最少人数が増加する。
正解可能性を90%を99%に増やすと 3.3倍に増えたが、その増分は、
90%を99%に変えた場合、99%を99.9%に変えた場合、99.9%を99.99%に変えた場合の
それぞれの差分にはほぼ等しい。
3.3倍に増えたしまった簡単な理由は、 pbinom(0,1, 0.6)=0.4 や pbinom(1,3,0.6)=0.352 がほぼ0.5に等しくて、
この0.5を0.1や0.01, 0.001 に減らしていくことは、
この1.0を0.1や0.01, 0.001 に減らしていくように指数関数的に等間隔ではないことに由来する。
(3) 偶数人で多数決を取る場合に、票の数が同数でならば50%の確率でどちらかに決めるというルールを
採用している。そうすると、その偶数より1小さい奇数の人数で、多数決を取るのと等価になる。
(あくまで、各人、他の人に影響されることはないと、独立性の仮定をしている。)
- (1)
出現回数が 1回につき 1/Dの現象は Dの 3.8897..倍の観察をすれば、2個以上の観察可能性を90%確保できる。
この 3.8897.. は exp(c)/(1+c) = 10 の解である。
この観察可能性を 99%, 99.9% にしたければ、 さらに 約1.7倍 約2.4倍 が必要。(exp(c)/(1+c)=100, 1000 を解く)
(2)
「2回では偶然かもしれないから、3回は確認したい」と思ったら、 3.88.. の代わりに 5.3233.. を用いる。
これは exp(c)/ (1+c+c^2/2) =10 の解である。)
-
(1)
偏差値65(μ+1.5σ) を 偏差値70(μ+2σ) に変更したら、丁度101回が必要となる。
log(.1)/log(pnorm(1.5))
→ 33.30156
log(.1)/log(pnorm(2))
→ 100.0562
(2) 区間[μ-2σ, μ+2σ]の外にあるものを1個でも 90%の可能性で見つけたいなら
丁度50個で良い。
log(.1)/log(pnorm(2)*2-1) → 49.44574
- (1)
90%以上なら44個
99%以上なら66個
(2)
44 という数字は下記の式で算出できる。
C<-10; B<-0.9; -log(1-B^(1/C))*C
→ 45.582..
(差が多くの場合いつでも2以下で済むかどうかは数学的に気になるところである。)
(3)
なお、上記のグラフはモンテカルロシュミレーションで各確率の算出を
99%信頼区間をプロットする方法で作成した。
- 相関は偽相関があったり因果の関係の議論があって難しいが、それ以前に無相関ではないかということはとても重要。ところが、それを見分けるには、6-7個サンプルを見れば十分という訳では無い。意外と多数のサンプルの観察が必要となる。
- このスライドで母相関係数の算出については、母相関係数を 0.01刻みで動かしながら
それぞれ4万回検定を繰り返し、帰無仮説が棄却された回数から 99%信頼区間を構成して
それが 90% または 80%のそれぞれをきちんと実現できている母相関係数を採用した。
下限についてはさらに少し下がる可能性がある。
R言語の pwr パッケージを試したが、近似が正確であるかについて分からないので
上記の方法を採用した。それでも値はほぼ一致した。