Your SlideShare is downloading. ×
標本抽出でなぜn=40なのかについてのある考察
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

標本抽出で なぜn=40なのか についてのある考察

455
views

Published on

見逃しをしないため、また平均や標準偏差を実用的な精度で把握するためには、n=20程度では不足で、n=40くらいが妥当ということを説明する意図で作成しました。

見逃しをしないため、また平均や標準偏差を実用的な精度で把握するためには、n=20程度では不足で、n=40くらいが妥当ということを説明する意図で作成しました。

Published in: Education

2 Comments
5 Likes
Statistics
Notes
No Downloads
Views
Total Views
455
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
13
Comments
2
Likes
5
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 標本数が40または100が 望ましい場合についての ある考察 2014-07-27 TS. 同じ分布に従う独立な多数の標本を一体何個とりだせば、 検出力 1- β = 90% で、得たいもの、見てみたいものを取り出すことが 出来るか、さまざまな例を紹介します。 一応、統計学は知らない人向けに作った資料ですが、統計学が分かっていれ ば、最初の方は読み飛ばして気になるところを読んでも、意味がよく分かると 思います。 R言語のコマンドを記載することにより、やや複雑な数式を用いた計算がが必 要な場面でも、若干の値の変更により即座に得たい値を算出できます。
  • 2. 標本抽出について • 全体の性質を把握するには、適切なサンプリング が必要 • ランキング方式など別方式は、見えて来る性質が実用 上問題を起こす程度に偏ることが多い。 • 「偏ったサンプルを取り出すほどなら、 n=3の方が本質を理解出来る。」(統計学者テューキー) • 無作為抽出はさまざまな統計値を(抽出を繰り返すこと で)偏りなく抽出することができる。 • 調査対象の件数が莫大でも、必要な精度に対して、n はほとんど変わらない。(1000で40なら1億・1兆でも40)
  • 3. 統計もしくは標本抽出の理解に 必要な概念 • 平均(μ ミュー) ← 合計を個数で割った値 • 標準偏差(σ シグマ) 分散(σ2) ← “各値が平均からどれだけ揺らぐか” ← `各値と平均の差の2乗の合計÷個数’ が σ2 • 確率分布 ← 「それぞれの値の出現確率」のこと • 二項分布 ← 確率pで”当たる”ことをn回試して結果的に何 回当たるかの 分布 • 超幾何分布 ← N個の玉が入った壺の中の内、 赤玉がm個入っていた場合に、 n回拾い出した内の赤玉の個数の分布 • ガウス分布 ← μ と σ が固定された時のある自然な分布
  • 4. 二項分布の例 出現確率pが決まっていて も、n=10回試したからと言っ て、出現回数は確率的にし か決まらない。 3割(p=0.3)の出現確率で10 回試しても、1回しか現れな い確率は12%(右上グラフのオレ ンジ色)ある。 二項分布についての公式 平均値 = n × p 分散 σ2 = n ×p × (1-p) ※ グラフ中のNは n と見なすこと。 この文書の他の部分との整合性のため
  • 5. 超幾何分布と二項分布の違い • 二項分布(n,p) 平均 = np 分散 = n × p × (1-p) • 超幾何分布(N,m,n) 平均 = N (m/n) 分散 = n× m/N × (N-m)/N × (N-n)/(N-1) 超幾何分布の m/N を 二項分布のp と見なすと、 Nがnよりも何倍も大きい場合、 2つの分布はほぼ等しくなる。 ※ ここから n=3~ 40程度、N=1000~ を考えるので、 超幾何分布のことは忘れて、二項分布で考えて良い。
  • 6. 見逃しはどうして発生するか ~ 二項分布からの考察 知っている現象は1つでも発見して、その例を詳しく見たい。 未知の現象は2回以上見ないと、普通は気付かない。 そんな現象は3回以上目撃しないと何かの偶然と思い込むこともある。 では、全部で何回の観察が、未知の現象の探索に必要とするのだろうか・・?
  • 7. 20回または40回の観察で得られるもの 未知の現象は、複数回観察しないと見逃してしまう、と仮定する。 20回観察して “見逃してしまう” 確率は 1回当たり 25% の確率で発生する現象は 2.43..% 1回当たり 15% の確率で発生する現象は 17.5..% 1回当たり 10% の確率で発生する現象は 39.1..% 1回当たり 5% の確率で発生する現象は 73.5..% 40回観察して “見逃してしまう” 確率は 1回当たり 25% の確率で発生する現象は 0.014..% 1回当たり 15% の確率で発生する現象は 1.21..% 1回当たり 10% の確率で発生する現象は 8.04..% ← 1回当たり 5% の確率で発生する現象は 39.9..%
  • 8. 一定の出現確率の現象を90%以上の 確率で1回でも観察するための条件 • 出現確率 1/2 の現象は、4回以上の観察が必要 • 出現確率 1/3 の現象は、6回以上の観察が必要 • 出現確率 1/4 の現象は、9回以上の観察が必要 • 出現確率 1/10 の現象は、22回以上の観察が必要 ← • 出現確率 1/20 の現象は、45回以上の観察が必要 • 出現確率 1/50 の現象は、114回以上の観察が必要 • 出現確率 1/100 の現象は、230回以上の観察が必要 • 出現確率 1/1000 の現象は、2302回以上の観察が必要 ☞ 出現確率が1回につき 1/Dの現象は、Dの2倍半の回数の観察を重ねれば、 90%以上の確率(確実さ)で、その現象に出会うことが出来る。 この観察必要回数は log(10)×D = 2.30258..× D と近似できる。 ☞ 確実さを 99%以上・99.9%以上にしたければ、さらにその2倍・3倍にすると良い。
  • 9. 一定の出現確率の現象を90%以上の 確率で2回以上観察するための条件 • 出現確率 1/2 の現象は、7回以上の観察が必要 • 出現確率 1/3 の現象は、11回以上の観察が必要 • 出現確率 1/4 の現象は、15回以上の観察が必要 • 出現確率 1/10 の現象は、38回以上の観察が必要 ← • 出現確率 1/20 の現象は、77回以上の観察が必要 • 出現確率 1/50 の現象は、194回以上の観察が必要 • 出現確率 1/100 の現象は、388回以上の観察が必要 • 出現確率 1/1000 の現象は、3889回以上の観察が必要 ☞ 出現確率が1回につき 1/Dの現象は、Dの4倍の回数の観察を重ねれば、 90%以上の確率(確実さ)で、その現象に2回以上出会うことが出来る。 この観察必要回数は 3.8897..× D と近似できる。(係数 3.88.. は exp(k)/(1+k)=10の解) ☞ 確実さを 99%以上・99.9%以上にしたければ、さらにその1.7倍・2.4倍にすると良い。
  • 10. 一定の出現確率の現象を90%以上の 確率で3回以上観察するための条件 • 出現確率 1/2 の現象は、9回以上の観察が必要 • 出現確率 1/3 の現象は、15回以上の観察が必要 • 出現確率 1/4 の現象は、20回以上の観察が必要 • 出現確率 1/10 の現象は、52回以上の観察が必要 • 出現確率 1/20 の現象は、105回以上の観察が必要 • 出現確率 1/50 の現象は、265回以上の観察が必要 • 出現確率 1/100 の現象は、531回以上の観察が必要 • 出現確率 1/1000 の現象は、5321回以上の観察が必要 ☞ 出現確率が1回につき 1/Dの現象は、Dの5倍半の回数の観察を重ねれば、 90%以上の確率(確実さ)で、その現象に2回以上出会うことが出来る。 この観察必要回数は 5.3233..× D と近似できる。(係数 5.32.. は exp(k)/(1+k+k2/2)=10の解)
  • 11. ある結論: 標本数20と40の比較 • 採集した標本数が20だと、 90%の確率で標本中2個以上検出できる現象は 出現確率が18.1%以上であることが必要。 90%の確率で標本中3個以上検出できる現象は 出現確率が30.4%以上であることが必要。 • 採集した標本数が20だと、 90%の確率で標本中2個以上検出できる現象は 出現確率が9.38%以上であることが必要。 90%の確率で標本中3個以上検出できる現象は 出現確率が15.9%以上であることが必要。 つまり、十分な検出力(90%)で出現頻度10%程度の未知の現象を探索するには、 N=20では足りない。しかし、N=40であれば、上記の通り十分である。1回あたり出 現確率1/10で2個以上, 1/6で3個以上の出現個数を90%の確率で確保できる。 ここで算出に使ったR言語のコマンドの例 : uniroot(function(p){pbinom(3,40,p)-0.1},c(0,1))$root
  • 12. (参考) Rule of Three 3の法則 95%以上の確率で1回以上観察するための条件 • 出現確率 1/2 の現象は、5回以上の観察が必要 • 出現確率 1/3 の現象は、8回以上の観察が必要 • 出現確率 1/4 の現象は、11回以上の観察が必要 • 出現確率 1/10 の現象は、29回以上の観察が必要 • 出現確率 1/20 の現象は、59回以上の観察が必要 • 出現確率 1/50 の現象は、149回以上の観察が必要 • 出現確率 1/100 の現象は、299回以上の観察が必要 • 出現確率 1/1000 の現象は、2995回以上の観察が必要 ☞ 出現確率が1回につき 1/Dの現象は、Dのほぼ3倍の回数の観察を重ねれば、 95%以上の確率で、その現象に会うことが出来る。 ☞ 係数の3は -log(0.05) = 2.99573.. または exp(-3) = 1/20.0855.. に由来する。 ☞ http://en.wikipedia.org/wiki/Rule_of_three_(statistics) を参照 ☞ 2 ≦ D ≦ 118 ならば その必要回数は丁度 3×D -1 である。 ☞下記のようなR言語のコマンドで上記の値は求まる。 K=100;M=1;{N=1;while(pbinom(M-1,N,1/K)>0.05){N<-N+1};N} → 299
  • 13. 分布をつかむのに必要な 観察数についての考察 では、平均や標準偏差を 推定したいと思った時に、高い確 率で精度良く求めるには、何回の観察が必要だろうか。
  • 14. ガウス分布 • 多くの現象で現れる数の分布は、ガウス分布で近似できる。こ のガウス分布は、平均μと分散σ2が与えられると形が決まる。
  • 15. 推定した μ と σ はどれだけ揺らぐか? • 平均の推定値と標準偏差の推定値を 2個ずつ接触した長方形で表している。
  • 16. ガウス分布から μ+2σ以上の値を 90%の確実さで得るために 必要な観察回数は101回 R言語で下記のように計算する : log(0.1)/log(pnorm(c(1, 1.5, 2) ) → 13.3 33.3 100.1 (ある値(上記の場合はμ+1σ, μ+1.5σ, μ+2σ)以上の観測値を 90%の確率で得るために必要な観察回数を算出している。) 逆に、ある回数(10, 20, 40, 100)観測したときに90%の確率で zスコアで下記以上の値が得られる。 qnorm((0.1)^(1/c(10,20,40,100))) → 0.822 1.233 1.590 2.000
  • 17. μ+1σ及びμ+2σ以上の値を 90%の確実さでK個以上得るのに 必要なガウス乱数の必要生成個数について R言語で下記のように計算する : > for(M in 1:12){N=2;while(pbinom(M-1,N,pnorm(1,,,F))>0.1){N<-N+1};cat(N, " ")} 14 24 32 41 49 57 65 72 80 87 95 102 > for(M in 1:12){N=2;while(pbinom(M-1,N,pnorm(2,,,F))>0.1){N<-N+1};cat(N, " ")} 101 170 233 292 350 406 461 516 569 622 675 727
  • 18. 平均 μ からの逸脱が 1σ及び 2σ以上の値を 90%の確実さでK個以上得るのに 必要なガウス乱数の必要生成個数について R言語で下記のように計算する : > for(M in 1:12){N=2;while(pbinom(M-1,N,2*pnorm(1,,,F))>0.1){N<-N+1};cat(N, " ")} 7 11 15 20 24 27 31 35 39 42 46 50 > for(M in 1:12){N=2;while(pbinom(M-1,N,2*pnorm(2,,,F))>0.1){N<-N+1};cat(N, " ")} 50 85 116 145 174 202 230 257 284 310 336 362 上記から結論例 : 20個のガウス乱数を生成すると、90%以上の確率で、 [ μ – 1σ , μ + 1σ ] の 区間外の値を 4 個得ることが出来る。 [ μ – 2σ , μ + 2σ ] の区間の外にある乱数を1個でも90%の確率で 得るには、丁度50個のガウス乱数生成を要する。
  • 19. この節での結論 • 変数の分布の範囲を大雑把に把握するために : 観察回数が10回や20回では、未知の変数の分布の範囲を大雑 把に求めるにしても不足気味のようである。40回ないし100回くら いあると良さそうである。 • やや異常に大きな値を経験するために: ある同じガウス分布に従う独立な変数を40回観察をすること で、μ+1.6σ以上の値を約90%の確実さで得ることができる。丁 度50回の観察をすることで、90%の確実さで[μ-2σ, μ+2σ]の外の 値を得ることができる。100回の観察をすることで、μ+2σ以上 の値を約90%の確実さで得ることができる。
  • 20. まとめ
  • 21. 主張 • サンプリングをランダムにしないと、”偏り”が発生 して、さまざまな弊害(見逃しや稀少現象の大量補 足)などが起こる。 • 何かの現象を捉えるには、40回程度の観察が必 要で、20回程度では足りないことがある。 • しかし、人間(観察者/分析者)の主観による記憶は 数百の事例をきちんと記憶することは困難なので、 40回程度が妥当とも考えられる。