Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

最低6回は見よ

1,056 views

Published on

中央値の95%信頼区間を作るには6個の標本サイズが必要である。

--
分布の形を仮定できないときは、6回はちゃんと観察しましょうという話。分布の形が分かっていれば、ほんの1,2回の観察でも意味あるかも知れませんが。 ただし、本文書は「95%信頼区間」の考え方を採用しています。仮定としてはかなり強すぎるかもれませんし、人によっては弱すぎるかもしれません。 (本文書の仮定が自然なのか不自然なのかについては、本文書作成者は判断を一旦保留します。理屈が分かって、日常の中に使う分にはなんら問題はないと、考えています。)

Published in: Data & Analytics
  • Be the first to comment

最低6回は見よ

  1. 1. — 6個,13個,72個のサンプルによる分位点の信頼区間の構成 — 2015-03-09 TS 分布の形を仮定できないときは、6回はちゃんと観察しましょうという 話。分布の形が分かっていれば、ほんの1,2回の観察でも意味あるかも知れま せんが。 ただし、本文書は「95%信頼区間」の考え方を採用しています。仮定としてはか なり強すぎるかもれませんし、人によっては弱すぎるかもしれません。 (本文書の仮定が自然なのか不自然なのかについては、本文書作成者は判断を一旦保留します。理 屈が分かって、日常の中に使う分にはなんら問題はないと、考えています。) 中央値の95%信頼区間を作るには 6個の標本サイズが必要である
  2. 2. 初めのことわり書き • “独立同分布”かつ”分布の形を仮定しない” サンプ ルを得た場合に分位点をどう構成するかについて の話です。 • 非常に簡単な仮定で話をしますが、暗黙にやや高 度な統計学の知識を要求します。 • 書いてあることは、理解出来れば日常や社会生活 に容易に適用できるはずです。 • しかし、適用の仕方を間違うと、全く的外れな結末 になるので、気をつけてください。
  3. 3. 分位点の信頼区間の構成 一般論
  4. 4. 1. 母分位点の順序統計量の考察 ▶ ある母分布DからN点を(独立同分布を仮定して)サンプルとして取得したとする。 ▶ その観測値を小さい順に並べ x(1), x(2), …,x(N) とした場合に、 母分布の下側 P点 Q が区間 [x(m),x(m+1) )に含まれる場合の確率はいくらだろうか? ▶ ただし、便宜上、x(0):=-∞ , x(N+1):=+∞とする。 • 母分布 D は未知であるとする。P は既知だが、Q は未知である。 • 母分布Dはポイントマスは無いと仮定してある(サンプル中に全く同じ値が複 数出現する確率をゼロにするため)。 もしくは、小さなεの値を設定し、[-ε,+ε]の一様乱数を観測値に足し算をして ポイントマスを無くす。 → M の値を Q∈ [x(m),x(m+1) ) の場合に m であると定義する(一意に定まる)。 すると、Mの値の分布は、二項分布 Binom(N,P) に従う。 → N,Pが決まっているときに各Mの値を取る確率は R言語で dbinom( M , N , P) で計算できる。
  5. 5. 2. 信頼区間の構成について あるパラメータに値を設定した前提で、観測値から得られる統計量が 下側2.5%点未満か下側97.5%点超の値を取る場合に有意と定義す る。そして、観測値を得た場合に、有意にならない前提を与えるパラ メータの値の集合が、パラメータの95%信頼区間であると定義する。 • 有意となる条件を「2.5%点以下もしくは97.5%点以上」とする定義は、条件としてはや や甘い。実用上難点があるので、本文書では採用しない。 • R言語で M1<-qbinom( 1/40,N,P,TRUE ) ; M2<-qbinom( 1/40,N,P,FALSE ) とする。 • Mを統計量、Qをパラメータとする。 すると、Qの95%信頼区間は [x(M1) , x(M2 + 1 ) ]
  6. 6. 分位点の信頼区間の構成 〜 具体的な数値例 〜
  7. 7. N ≧ 6 で、母中央値の95%信頼区間を構成できる。 • N=6,7,8の場合は、N個の観測値の最小値と最大値が、 母中央値の95%信頼区間となる。 • N=9,10,11 の場合は、N個の観測値の最小値と最大値をひとつずつ消去 した残りの値の最小値と最大値が、母中央値の95%信頼区間の下限と 上限となる。 • N≦5の場合は、母中央値の信頼区間は構成できない(もしくは区間(- ∞,+∞)と表される。 • 不動産屋さんなどを見るときは、物件を6件は見た方が良いと言える(?)。 そうしないと、中央値すら信頼区間を構成不可能だから。 6 7 8
  8. 8. N ≧ 13 で、母四分位値の95%信頼区間を構成できる。 • N=13〜19の場合に、下側母四分位値の95%信頼区間の下限は、観測値の最小 値に一致する。 • N=13,14,15,16,17,18,19のそれぞれの場合に、下側母四分位値の95%信頼区間 の上限は、観測値の下から7,8,8,9,9,9,10番目となる。 • N=13,15,17,19の場合に、下側母四分位値の95%信頼区間の上限は、観測値の 中央値に一致する。 • N≦12の場合は、母四分位値の95%信頼区間は構成できない。(もしくは±∞を区 間の端に含む。) 13 19
  9. 9. N≧72 で母分布の5%点の 95%信頼区間を構成できる。 • N=71だと母分布の下側5%点が全ての観測 値より小さい確率は 0.0262 ≧ 0.025 となって しまう。 • N=72の場合は、観測値の最小から1番目と9 番目を信頼区間の境界とすれば良い。 11番目と26番目の間が 下側25%点の信頼区間 28番目と45番目の間が 下側50%点(中央値)の信頼区間 1番目と9番目の間が 下側5%点の信頼区間 上から6番目と19番目の 間が上側1/6点の信頼区間 図はN=72の場合
  10. 10. 参考事項
  11. 11. N=2,3 だとどうなるか? あるパラメータに値を設定した前提で、観測値から得られる統計量が下側 100α/2%点未満か下側100(1-α/2)%点超の値を取る場合に有意水準αで有 意。観測値を得た場合に、有意にならない前提を与えるパラメータの値の集 合が、パラメータの100(1-α/2)%信頼区間であると定義する。 日常生活の中では、未知/未経験の現象が発生した場合、それを何度も確かめたり、 何人もの人に類似の経験が無いか聞いて回ることは、普通はしないことが多い。 (N=6もサンプルを集めることは少なく、N=2,3で済ますことが多いだろう。) N回の観測の最小値xMINと最大値xMAXを用いることで、下記のことが可能。 N=2回の観測の場合は、母中央値の 50%信頼区間は [xMIN, xMAX] である。 N=3回の観測の場合は、母中央値の 75%信頼区間は [xMIN, xMAX] である。 N=4回の観測の場合は、母中央値の 87.5%信頼区間は [xMIN, xMAX] である。 N=5回の観測の場合は、母中央値の 93.75%信頼区間は [xMIN, xMAX] である。 N=2回の観測の場合は、母下側84.2%点の 95%信頼区間が [−∞, xMAX] である。 N=3回の観測の場合は、母下側70.7%点の 95%信頼区間が[−∞, xMAX] である。 N=4回の観測の場合は、母下側60.2%点の 95%信頼区間が[−∞, xMAX] である。 N=5回の観測の場合は、母下側52.1%点の 95%信頼区間が[−∞, xMAX] である。
  12. 12. N=6で、母中央値の信頼区間を今までに説明し た方法と、t検定による方法で構成して比較する。 各長方形の、x座標範囲とy座標範囲は次の方法で作った。 標準正規分布に従う乱数6個を生成し、t検定の方法で母平均(=母中央値)の95%信頼区間を 求めることと、その6個の値の最小値と最大値で信頼区間を求めた。それを20回繰り返した。各 長方形を見てみると、2個の区間はあまり大きく異ならないことが分かる。
  13. 13. 数値はどうやって得たかについて • 一変数の方程式を数値的に解く場合には、uniroot を用いている。
  14. 14. その他考えたいこと
  15. 15. 考えたいこと(1) • サンプルの最小値または最大値を使った、信 頼限界を用いると、ハッキング(現実での悪意 を持った操作)に対して脆弱な可能性がある ように思われる。2番目か3番目の最小値また は最大値を用いるようにしたいようにも思わ れる。それについても考察したい。 • 世の中で多くの会社が、見積もりを2-3個の業 者で済ませることについての妥当性について、 検討したい。
  16. 16. 考えたいこと(2) • 本文書の考え方が、何かパラドックスを生み出 す可能性がある。(一般的に確立した考え方では ないと、本文書作成者は考えるため。) • そのような事例を収集し、考察を加えることで、 統計学の理論のさらなる洗練を導くことが期待 できるかも知れない。 • さらに別の隠れた意図としては、本当は人間の 直感が、意外と偏見に支配されやすいことを示 す例の一端を示したかった。(今回はあまり達成 できず。)
  17. 17. 考えたいこと(2) • 境界に端点を含めるか否かについて – この文書について、不等号にイコールが付くか否 か、境界が端点を含むか否かについては、再検 討を要する。 – R言語の qbinomのような ”q+離散分布” の形の 関数の不連続点での振る舞いについては、再検 討を要する。(当面策は 3e-16 を加減する。str(.Machine)を参照) – ただし、実際の数値計算をする際は、おそらく問 題が起こる可能性はとても小さい。それでも、理 論構築の上では、よく調べる必要がある。

×