Wilson score interval を
使った信頼区間の応用
株式会社 VOYAGE GROUP
中野智文
言語と統計2017
背景
• 二項分布
• ベルヌーイ試行による分布
• ベルヌーイ試行の例:コインを投げた
後の表裏
• 二項分布の例:n回コインを投げて表がな
何回出るか
• その応用
• コーパス中の語彙の頻度
• Web広告のクリックの頻度
応用:コーパス語彙の頻度
• 専門英語における特徴語を抽出
• 特徴語のスコア
• MIスコア、tスコア、対数尤度など
• 上記のスコアの性質:
• 一般的なコーパスでは低頻度(低出現
率)の語彙が専門的なコーパスで相対的
に高出現率で出現するものが特徴的と判
断される。
応用における問題点
• 先の特徴スコアにおいて、低頻度であるの
で、1回出現の有無により大きな影響がある。
• 例:
• 一般コーパスと比べ専門コーパスの出現
率が10倍だった
• 一般コーパス(10億語)中100語のものが、
専門コーパス(100万語)中、1語出現。
検定による解決
• 例
• tスコア、尤度比検定
• 性質
• 独立性検定なので、独立でない可能性が
高ければ高いほど(語彙の頻度が大きい
ほど)スコアが高い
• 結果
• つまらない語彙(the, if, be動詞など)ばか
りが上位となる
信頼区間で考えたい
信頼区間とは
• ある信頼水準(例:95%)で母平均がその区間
にある。
• 区間の小さい端点を信頼下限、大きい端点を
信頼上限とよぶ
二項分布の信頼区間
▼信頼上限信頼下限▼
出現確率
信頼区間を使った応用
• 専門コーパスの出
現率の信頼下限/
一般コーパスの出
現率の信頼上限
• 有意にx倍出現して
いる
専門コーパス
の出現率
一般コーパス
の出現率
0
信頼区間を使った応用
• オーバーラップして
いる場合は有意な
違いがないとして
扱わない
専門コーパス
の出現率
一般コーパス
の出現率
0
信頼区間を使った応用
• 専門コーパスの出
現率の信頼上限/
一般コーパスの出
現率の信頼下限
• 有意にx倍出現して
いる(負の場合)
一般コーパス
の出現率
専門コーパス
の出現率
0
信頼区間を求める方法(二種類)
• Wald法
• Wilson score interaval (score法)
Wald法
• 標本平均と標本分散から信頼区間を求めて
いる
• 標本平均:標本の平均
• 標本分散:標本平均からの分散
• 母平均から求まる分散から正しい信頼区間
は求まるので、標本分散から求めた信頼区
間は不正確(信頼できない)
Wald 法のいいわけ
• 中心極限定理により…
• コーパスのサイズが大きくなると、標本平
均と標本分散は母平均と分散に近づく
• ただし二項分布の場合は母平均が0.5に
近いとき
• 我々が扱うのは母平均が0に近い時
標本平均0、標本分散0
• 信頼区間は0±0です!
• 信頼区間がないということは、0%以外あり
えないということですが、これは正しい信頼
区間ですか?(正しくないですよね)
• すなわち標本数が100万だったとしても
中心極限定理は適用できません
Wilson (score)の考え方
• ある母平均を仮定したとき、標本平均が起
こりうる信頼区間を偏差(母平均による分散
の二乗根)と正規分布のzを使って表す。
• 母平均と実際の標本平均との差が上記信
頼区間からはみ出るかどうか
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれておら
ず、仮説はNG!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれており、
仮説はOK!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれており、
仮説はOK!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれており、
仮説はOK!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれており、
仮説はOK!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれておらず、
仮説はNG!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
• 両端がぎりぎりのときの母平均(仮説)を見れ
ば良い。
• 次の2つが一致する母平均(仮説)を求める
• 母平均(仮説)と本当の標本平均との差の
二乗
• 母平均(仮説)と標本平均の信頼区間の
両端との差の二乗
以上まとめると
• 母平均と標本平均の信頼区間の差:
• 母平均と標本平均との差:
• 二乗が一致するとき:
Wilson score interval
• 標本分散を使っているWald法に比べ正確。
• 境界値のみを計算しているので、(累積)密
度関数が必要なく、二乗根と四則演算が出
来れば計算ができる。
• SQLなどで実行可能。
特徴語の例をWilsonで計算
• 10億で、100語
• (8.22e-8, 1.22e-7)
• 100万で、1語
• (1.77e-7, 5.66e-6)
• 1.77e-7/1.22e-7=1.45倍
• 10倍と比べると
10倍にしてみる
• 10億で、1,000語
• (9.40e-7,1.06e-6)
• 100万で、10語
• (5.43e-6,1.84e-5)
• 5.43e-6/1.06e-6=5.11倍
100倍にしてみる
• 10億で、10,000語
• (9.80e-6,1.02e-5)
• 100万で、100語
• (8.22e-5,0.000122)
• 8.22e-5/1.02e-5=8.06倍
• 徐々に10倍に近づいてきた
まとめ
• 頻度(出現率)が低い応用が多々ある
• 語彙、特に特徴語
• 標本分散は信頼区間を求めるのに不正確
• 標本分散が母平均を使った分散に近づ
いていない
• 結果Wald法は不正確
• Wilson score interval:
• 母平均と分散を仮定することで解決
• 計算も容易
QA
• Q1)信頼区間をどのように応用していくのか
• A2)スライドにあった特徴語を抽出する例あ
ります。またMIスコア内の確率を信頼上限、
信頼下限に置き換えて使う。
• Q2)Exact 法より正しいとあるのですが、そう
いった文献がありますか?
• A2)Agresti 1998など。応用によっては保守
的な方がよい場合があったりするので、応
用依存にはなると思います。

Wilson score intervalを使った信頼区間の応用

Editor's Notes

  • #9 https://gist.github.com/gizmaa/7214002
  • #25 (\hat{p}-p)^2 & = z^2\sigma^2 \\ & = z^2 \frac{p(1-p)}{n} \\