Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Wilson score intervalを使った信頼区間の応用

1,767 views

Published on

統計数理研究所言語系共同研究グループ合同発表会「言語と統計2017」での発表資料です。

Published in: Science
  • Be the first to comment

Wilson score intervalを使った信頼区間の応用

  1. 1. Wilson score interval を 使った信頼区間の応用 株式会社 VOYAGE GROUP 中野智文 言語と統計2017
  2. 2. 背景 • 二項分布 • ベルヌーイ試行による分布 • ベルヌーイ試行の例:コインを投げた 後の表裏 • 二項分布の例:n回コインを投げて表がな 何回出るか • その応用 • コーパス中の語彙の頻度 • Web広告のクリックの頻度
  3. 3. 応用:コーパス語彙の頻度 • 専門英語における特徴語を抽出 • 特徴語のスコア • MIスコア、tスコア、対数尤度など • 上記のスコアの性質: • 一般的なコーパスでは低頻度(低出現 率)の語彙が専門的なコーパスで相対的 に高出現率で出現するものが特徴的と判 断される。
  4. 4. 応用における問題点 • 先の特徴スコアにおいて、低頻度であるの で、1回出現の有無により大きな影響がある。 • 例: • 一般コーパスと比べ専門コーパスの出現 率が10倍だった • 一般コーパス(10億語)中100語のものが、 専門コーパス(100万語)中、1語出現。
  5. 5. 検定による解決 • 例 • tスコア、尤度比検定 • 性質 • 独立性検定なので、独立でない可能性が 高ければ高いほど(語彙の頻度が大きい ほど)スコアが高い • 結果 • つまらない語彙(the, if, be動詞など)ばか りが上位となる
  6. 6. 信頼区間で考えたい
  7. 7. 信頼区間とは • ある信頼水準(例:95%)で母平均がその区間 にある。 • 区間の小さい端点を信頼下限、大きい端点を 信頼上限とよぶ
  8. 8. 二項分布の信頼区間 ▼信頼上限信頼下限▼ 出現確率
  9. 9. 信頼区間を使った応用 • 専門コーパスの出 現率の信頼下限/ 一般コーパスの出 現率の信頼上限 • 有意にx倍出現して いる 専門コーパス の出現率 一般コーパス の出現率 0
  10. 10. 信頼区間を使った応用 • オーバーラップして いる場合は有意な 違いがないとして 扱わない 専門コーパス の出現率 一般コーパス の出現率 0
  11. 11. 信頼区間を使った応用 • 専門コーパスの出 現率の信頼上限/ 一般コーパスの出 現率の信頼下限 • 有意にx倍出現して いる(負の場合) 一般コーパス の出現率 専門コーパス の出現率 0
  12. 12. 信頼区間を求める方法(二種類) • Wald法 • Wilson score interaval (score法)
  13. 13. Wald法 • 標本平均と標本分散から信頼区間を求めて いる • 標本平均:標本の平均 • 標本分散:標本平均からの分散 • 母平均から求まる分散から正しい信頼区間 は求まるので、標本分散から求めた信頼区 間は不正確(信頼できない)
  14. 14. Wald 法のいいわけ • 中心極限定理により… • コーパスのサイズが大きくなると、標本平 均と標本分散は母平均と分散に近づく • ただし二項分布の場合は母平均が0.5に 近いとき • 我々が扱うのは母平均が0に近い時
  15. 15. 標本平均0、標本分散0 • 信頼区間は0±0です! • 信頼区間がないということは、0%以外あり えないということですが、これは正しい信頼 区間ですか?(正しくないですよね) • すなわち標本数が100万だったとしても 中心極限定理は適用できません
  16. 16. Wilson (score)の考え方 • ある母平均を仮定したとき、標本平均が起 こりうる信頼区間を偏差(母平均による分散 の二乗根)と正規分布のzを使って表す。 • 母平均と実際の標本平均との差が上記信 頼区間からはみ出るかどうか
  17. 17. イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれておら ず、仮説はNG! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
  18. 18. イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
  19. 19. イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
  20. 20. イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
  21. 21. イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
  22. 22. イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれておらず、 仮説はNG! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
  23. 23. • 両端がぎりぎりのときの母平均(仮説)を見れ ば良い。 • 次の2つが一致する母平均(仮説)を求める • 母平均(仮説)と本当の標本平均との差の 二乗 • 母平均(仮説)と標本平均の信頼区間の 両端との差の二乗
  24. 24. 以上まとめると • 母平均と標本平均の信頼区間の差: • 母平均と標本平均との差: • 二乗が一致するとき:
  25. 25. Wilson score interval • 標本分散を使っているWald法に比べ正確。 • 境界値のみを計算しているので、(累積)密 度関数が必要なく、二乗根と四則演算が出 来れば計算ができる。 • SQLなどで実行可能。
  26. 26. 特徴語の例をWilsonで計算 • 10億で、100語 • (8.22e-8, 1.22e-7) • 100万で、1語 • (1.77e-7, 5.66e-6) • 1.77e-7/1.22e-7=1.45倍 • 10倍と比べると
  27. 27. 10倍にしてみる • 10億で、1,000語 • (9.40e-7,1.06e-6) • 100万で、10語 • (5.43e-6,1.84e-5) • 5.43e-6/1.06e-6=5.11倍
  28. 28. 100倍にしてみる • 10億で、10,000語 • (9.80e-6,1.02e-5) • 100万で、100語 • (8.22e-5,0.000122) • 8.22e-5/1.02e-5=8.06倍 • 徐々に10倍に近づいてきた
  29. 29. まとめ • 頻度(出現率)が低い応用が多々ある • 語彙、特に特徴語 • 標本分散は信頼区間を求めるのに不正確 • 標本分散が母平均を使った分散に近づ いていない • 結果Wald法は不正確 • Wilson score interval: • 母平均と分散を仮定することで解決 • 計算も容易
  30. 30. QA • Q1)信頼区間をどのように応用していくのか • A2)スライドにあった特徴語を抽出する例あ ります。またMIスコア内の確率を信頼上限、 信頼下限に置き換えて使う。 • Q2)Exact 法より正しいとあるのですが、そう いった文献がありますか? • A2)Agresti 1998など。応用によっては保守 的な方がよい場合があったりするので、応 用依存にはなると思います。

×