Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
智文 中野
PPTX, PDF
5,087 views
Wilson score intervalを使った信頼区間の応用
統計数理研究所言語系共同研究グループ合同発表会「言語と統計2017」での発表資料です。
Science
◦
Read more
1
Save
Share
Embed
Embed presentation
Download
Downloaded 18 times
1
/ 30
2
/ 30
3
/ 30
4
/ 30
5
/ 30
6
/ 30
7
/ 30
8
/ 30
9
/ 30
10
/ 30
11
/ 30
12
/ 30
13
/ 30
14
/ 30
15
/ 30
16
/ 30
17
/ 30
18
/ 30
19
/ 30
20
/ 30
21
/ 30
22
/ 30
23
/ 30
Most read
24
/ 30
Most read
25
/ 30
26
/ 30
27
/ 30
28
/ 30
29
/ 30
30
/ 30
Most read
More Related Content
PDF
傾向スコアの概念とその実践
by
Yasuyuki Okumura
PDF
階層モデルの分散パラメータの事前分布について
by
hoxo_m
PDF
第4回DARM勉強会 (多母集団同時分析)
by
Masaru Tokuoka
PDF
傾向スコア:その概念とRによる実装
by
takehikoihayashi
PPTX
ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜
by
智文 中野
PDF
非劣性試験の入門
by
Yasuyuki Okumura
PPTX
15分でわかる(範囲の)ベイズ統計学
by
Ken'ichi Matsui
PDF
Rで階層ベイズモデル
by
Yohei Sato
傾向スコアの概念とその実践
by
Yasuyuki Okumura
階層モデルの分散パラメータの事前分布について
by
hoxo_m
第4回DARM勉強会 (多母集団同時分析)
by
Masaru Tokuoka
傾向スコア:その概念とRによる実装
by
takehikoihayashi
ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜
by
智文 中野
非劣性試験の入門
by
Yasuyuki Okumura
15分でわかる(範囲の)ベイズ統計学
by
Ken'ichi Matsui
Rで階層ベイズモデル
by
Yohei Sato
What's hot
PDF
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
by
Masaru Tokuoka
PDF
第4回DARM勉強会 (構造方程式モデリング)
by
Yoshitake Takebayashi
PPTX
マルチレベルモデル講習会 理論編
by
Hiroshi Shimizu
PDF
関数データ解析の概要とその方法
by
Hidetoshi Matsui
PDF
比例ハザードモデルはとってもtricky!
by
takehikoihayashi
PPTX
分割時系列解析(ITS)の入門
by
Koichiro Gibo
PPTX
統計分析
by
大貴 末廣
PDF
媒介分析について
by
Hiroshi Shimizu
PDF
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
by
Yasuyuki Okumura
PDF
計量経済学と 機械学習の交差点入り口 (公開用)
by
Shota Yasui
PDF
Stan超初心者入門
by
Hiroshi Shimizu
PPTX
STARD2015に学ぶ「診断精度の分析」の書き方
by
Yoshitake Takebayashi
PPTX
項目反応理論による尺度運用
by
Yoshitake Takebayashi
PDF
質的変数の相関・因子分析
by
Mitsuo Shimohata
PPTX
ベイズモデリングで見る因子分析
by
Shushi Namba
PDF
はじパタ8章 svm
by
tetsuro ito
PPTX
MCMCでマルチレベルモデル
by
Hiroshi Shimizu
PDF
多重代入法の書き方 公開用
by
Koichiro Gibo
PDF
『バックドア基準の入門』@統数研研究集会
by
takehikoihayashi
PDF
2値分類・多クラス分類
by
t dev
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
by
Masaru Tokuoka
第4回DARM勉強会 (構造方程式モデリング)
by
Yoshitake Takebayashi
マルチレベルモデル講習会 理論編
by
Hiroshi Shimizu
関数データ解析の概要とその方法
by
Hidetoshi Matsui
比例ハザードモデルはとってもtricky!
by
takehikoihayashi
分割時系列解析(ITS)の入門
by
Koichiro Gibo
統計分析
by
大貴 末廣
媒介分析について
by
Hiroshi Shimizu
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
by
Yasuyuki Okumura
計量経済学と 機械学習の交差点入り口 (公開用)
by
Shota Yasui
Stan超初心者入門
by
Hiroshi Shimizu
STARD2015に学ぶ「診断精度の分析」の書き方
by
Yoshitake Takebayashi
項目反応理論による尺度運用
by
Yoshitake Takebayashi
質的変数の相関・因子分析
by
Mitsuo Shimohata
ベイズモデリングで見る因子分析
by
Shushi Namba
はじパタ8章 svm
by
tetsuro ito
MCMCでマルチレベルモデル
by
Hiroshi Shimizu
多重代入法の書き方 公開用
by
Koichiro Gibo
『バックドア基準の入門』@統数研研究集会
by
takehikoihayashi
2値分類・多クラス分類
by
t dev
Viewers also liked
PPTX
6章 最適腕識別とA/Bテスト
by
智文 中野
PPTX
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
by
智文 中野
PPTX
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
by
智文 中野
PPTX
ノンパラメトリックベイズ4章クラスタリング
by
智文 中野
PDF
p5.js について
by
reona396
PDF
MLaPP 5章 「ベイズ統計学」
by
moterech
PPTX
異常検知と変化検知 7章方向データの異常検知
by
智文 中野
PPTX
Sano tokyowebmining 201625_v04
by
Masakazu Sano
PPTX
Predictive Content: Boost Your Engagement with AI
by
Marketo
PPTX
imercury 若手VCのための知財戦略勉強会_20170329
by
Kan Otani
PDF
APIdays Australia 2017 TOI #APIdaysAU
by
Tatsuo Kudo
PDF
CDNによるInternet支配の現状とICNの可能性
by
J-Stream Inc.
PDF
画像認識モデルを作るための鉄板レシピ
by
Takahiro Kubo
PPTX
What to Upload to SlideShare
by
Slideshare
PDF
Getting Started With SlideShare
by
Slideshare
6章 最適腕識別とA/Bテスト
by
智文 中野
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
by
智文 中野
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
by
智文 中野
ノンパラメトリックベイズ4章クラスタリング
by
智文 中野
p5.js について
by
reona396
MLaPP 5章 「ベイズ統計学」
by
moterech
異常検知と変化検知 7章方向データの異常検知
by
智文 中野
Sano tokyowebmining 201625_v04
by
Masakazu Sano
Predictive Content: Boost Your Engagement with AI
by
Marketo
imercury 若手VCのための知財戦略勉強会_20170329
by
Kan Otani
APIdays Australia 2017 TOI #APIdaysAU
by
Tatsuo Kudo
CDNによるInternet支配の現状とICNの可能性
by
J-Stream Inc.
画像認識モデルを作るための鉄板レシピ
by
Takahiro Kubo
What to Upload to SlideShare
by
Slideshare
Getting Started With SlideShare
by
Slideshare
Similar to Wilson score intervalを使った信頼区間の応用
PPTX
Darm3(samplesize)
by
Yoshitake Takebayashi
PDF
NL20161222invited
by
Tetsuya Sakai
PDF
第4回スキル養成講座 講義スライド
by
keiodig
PDF
統計学基礎
by
Yuka Ezura
PDF
第5回スキル養成講座 講義スライド
by
keiodig
PDF
統計処理環境Rで学ぶ言語研究のための統計入門
by
corpusling
Darm3(samplesize)
by
Yoshitake Takebayashi
NL20161222invited
by
Tetsuya Sakai
第4回スキル養成講座 講義スライド
by
keiodig
統計学基礎
by
Yuka Ezura
第5回スキル養成講座 講義スライド
by
keiodig
統計処理環境Rで学ぶ言語研究のための統計入門
by
corpusling
Wilson score intervalを使った信頼区間の応用
1.
Wilson score interval
を 使った信頼区間の応用 株式会社 VOYAGE GROUP 中野智文 言語と統計2017
2.
背景 • 二項分布 • ベルヌーイ試行による分布 •
ベルヌーイ試行の例:コインを投げた 後の表裏 • 二項分布の例:n回コインを投げて表がな 何回出るか • その応用 • コーパス中の語彙の頻度 • Web広告のクリックの頻度
3.
応用:コーパス語彙の頻度 • 専門英語における特徴語を抽出 • 特徴語のスコア •
MIスコア、tスコア、対数尤度など • 上記のスコアの性質: • 一般的なコーパスでは低頻度(低出現 率)の語彙が専門的なコーパスで相対的 に高出現率で出現するものが特徴的と判 断される。
4.
応用における問題点 • 先の特徴スコアにおいて、低頻度であるの で、1回出現の有無により大きな影響がある。 • 例: •
一般コーパスと比べ専門コーパスの出現 率が10倍だった • 一般コーパス(10億語)中100語のものが、 専門コーパス(100万語)中、1語出現。
5.
検定による解決 • 例 • tスコア、尤度比検定 •
性質 • 独立性検定なので、独立でない可能性が 高ければ高いほど(語彙の頻度が大きい ほど)スコアが高い • 結果 • つまらない語彙(the, if, be動詞など)ばか りが上位となる
6.
信頼区間で考えたい
7.
信頼区間とは • ある信頼水準(例:95%)で母平均がその区間 にある。 • 区間の小さい端点を信頼下限、大きい端点を 信頼上限とよぶ
8.
二項分布の信頼区間 ▼信頼上限信頼下限▼ 出現確率
9.
信頼区間を使った応用 • 専門コーパスの出 現率の信頼下限/ 一般コーパスの出 現率の信頼上限 • 有意にx倍出現して いる 専門コーパス の出現率 一般コーパス の出現率 0
10.
信頼区間を使った応用 • オーバーラップして いる場合は有意な 違いがないとして 扱わない 専門コーパス の出現率 一般コーパス の出現率 0
11.
信頼区間を使った応用 • 専門コーパスの出 現率の信頼上限/ 一般コーパスの出 現率の信頼下限 • 有意にx倍出現して いる(負の場合) 一般コーパス の出現率 専門コーパス の出現率 0
12.
信頼区間を求める方法(二種類) • Wald法 • Wilson
score interaval (score法)
13.
Wald法 • 標本平均と標本分散から信頼区間を求めて いる • 標本平均:標本の平均 •
標本分散:標本平均からの分散 • 母平均から求まる分散から正しい信頼区間 は求まるので、標本分散から求めた信頼区 間は不正確(信頼できない)
14.
Wald 法のいいわけ • 中心極限定理により… •
コーパスのサイズが大きくなると、標本平 均と標本分散は母平均と分散に近づく • ただし二項分布の場合は母平均が0.5に 近いとき • 我々が扱うのは母平均が0に近い時
15.
標本平均0、標本分散0 • 信頼区間は0±0です! • 信頼区間がないということは、0%以外あり えないということですが、これは正しい信頼 区間ですか?(正しくないですよね) •
すなわち標本数が100万だったとしても 中心極限定理は適用できません
16.
Wilson (score)の考え方 • ある母平均を仮定したとき、標本平均が起 こりうる信頼区間を偏差(母平均による分散 の二乗根)と正規分布のzを使って表す。 •
母平均と実際の標本平均との差が上記信 頼区間からはみ出るかどうか
17.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれておら ず、仮説はNG! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
18.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
19.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
20.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
21.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
22.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれておらず、 仮説はNG! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
23.
• 両端がぎりぎりのときの母平均(仮説)を見れ ば良い。 • 次の2つが一致する母平均(仮説)を求める •
母平均(仮説)と本当の標本平均との差の 二乗 • 母平均(仮説)と標本平均の信頼区間の 両端との差の二乗
24.
以上まとめると • 母平均と標本平均の信頼区間の差: • 母平均と標本平均との差: •
二乗が一致するとき:
25.
Wilson score interval •
標本分散を使っているWald法に比べ正確。 • 境界値のみを計算しているので、(累積)密 度関数が必要なく、二乗根と四則演算が出 来れば計算ができる。 • SQLなどで実行可能。
26.
特徴語の例をWilsonで計算 • 10億で、100語 • (8.22e-8,
1.22e-7) • 100万で、1語 • (1.77e-7, 5.66e-6) • 1.77e-7/1.22e-7=1.45倍 • 10倍と比べると
27.
10倍にしてみる • 10億で、1,000語 • (9.40e-7,1.06e-6) •
100万で、10語 • (5.43e-6,1.84e-5) • 5.43e-6/1.06e-6=5.11倍
28.
100倍にしてみる • 10億で、10,000語 • (9.80e-6,1.02e-5) •
100万で、100語 • (8.22e-5,0.000122) • 8.22e-5/1.02e-5=8.06倍 • 徐々に10倍に近づいてきた
29.
まとめ • 頻度(出現率)が低い応用が多々ある • 語彙、特に特徴語 •
標本分散は信頼区間を求めるのに不正確 • 標本分散が母平均を使った分散に近づ いていない • 結果Wald法は不正確 • Wilson score interval: • 母平均と分散を仮定することで解決 • 計算も容易
30.
QA • Q1)信頼区間をどのように応用していくのか • A2)スライドにあった特徴語を抽出する例あ ります。またMIスコア内の確率を信頼上限、 信頼下限に置き換えて使う。 •
Q2)Exact 法より正しいとあるのですが、そう いった文献がありますか? • A2)Agresti 1998など。応用によっては保守 的な方がよい場合があったりするので、応 用依存にはなると思います。
Editor's Notes
#9
https://gist.github.com/gizmaa/7214002
#25
(\hat{p}-p)^2 & = z^2\sigma^2 \\ & = z^2 \frac{p(1-p)}{n} \\
Download