Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

NL20161222invited

5,815 views

Published on

invited talk at IPSJ SIGNL (Dec 22, 2016)

Published in: Technology
  • Be the first to comment

NL20161222invited

  1. 1. 評価実験の設計と 論文での結果報告: きちんとやっていますか? 酒井 哲也 (早稲田大学) @tetsuyasakai December 22, 2016@IPSJ SIGNL 229
  2. 2. 講演概要 1. 自己紹介・バックグラウンド 2. 本の露骨な宣伝 3. 古典的統計学: 誤解・限界・結果の報告の仕方 4. 初期データから適切なサンプルサイズの評価用データを設計する 5. 論文を読んでより適切なサンプルサイズの実験を設計する 6. まとめ
  3. 3. 自己紹介・バックグラウンド (1) • 在英経験6.5年 子供の頃 ロンドン 5年 2000-2001 英ケンブリッジ大学 1.5年 (Karen Sparck Jones + Stephen Robertsonに師事) • 在中経験4.5年 2009-2013 Microsoft Research Asia (北京) • 2000年に論文ドクター取得 (早稲田大学 平澤茂一先生) • 企業経験約20年 • 2013年9月より大学教員 「帰国中年」 VSL = The Virtual Sakai Lab RSL = The Real Sakai Lab sakailab.com
  4. 4. 自己紹介・バックグラウンド (2) • 帰国中年なので、なんとなく機械翻訳の仕事をしたいと思い、 (株)東芝 研究開発センターの自然言語処理グループに予約配属。 • 入社してみたら、何故か情報検索のグループに。あれっ • (株)ニューズウォッチ(当時)のための情報フィルタリングシステムの 開発・評価を担当。博士論文はこの仕事をまとめたもの。 • 英ケンブリッジ大から戻ったのち、東芝を辞めて何故か(株)ニューズ ウォッチ(当時)に転職、自然言語処理研究室長。 http://kotochu.fresheye.com/ を考案。
  5. 5. 自己紹介・バックグラウンド (3) • 東芝時代からNTCIRのタスクに毎年参加 (1999~)。 • いつのまにかタスクオーガナイザ • いつのまにかジェネラルチェア with 神門典子先生 (NTCIR創始者) +Charles L.A. Clarke • NTCIRの経験を通じ、システムの適切な評価方法について興味をも つようになった。 • 評価方法の研究は地味だが、「メタな研究」であり極めて重要。 もし研究コミュニティが不適切な評価方法を採用していたら、 そこでの研究は全部無駄になるかも!?
  6. 6. 自己紹介・バックグラウンド (4) • 現在の活動 - NTCIR general co-chair - Information Retrieval Journal (Springer) editor-in-chief (with Charles L.A. Clarke and Arjen de Vries) - 早稲田大学 情報理工学科 教授 - 早稲田大学 情報企画部 副部長 - NII 客員教授 - ACM SIGIR 2017 general co-chair (with 神門典子先生 + 上保秀夫先生) http://www.cs.waseda.ac.jp/faculty/
  7. 7. SIGIR 日本初上陸! ご投稿・ご支援・ご参加を! http://sigir.org/sigir2017/ Full paper 締切まであとひと月ちょい
  8. 8. 講演概要 1. 自己紹介・バックグラウンド 2. 本の露骨な宣伝 3. 古典的統計学: 誤解・限界・結果の報告の仕方 4. 初期データから適切なサンプルサイズの評価用データを設計する 5. 論文を読んでより適切なサンプルサイズの実験を設計する 6. まとめ
  9. 9. 学生曰く「高い」
  10. 10. 1950年代ごろから始まった 図書館の本の「検索」の話など。 評価実験の黎明期 “The proof of the pudding is in the eating.” Google translate (as of Nov 29, 2016): 「プディングの証拠は食べている」
  11. 11. 「適合率」はrelevance ratioの訳語。 「精度」はprecisionの訳語。 Relevance ratioは後にprecisionと 呼ばれるようになった。
  12. 12. 正解データが不完全な場合 のランクつきリストの評価 [Sakai07SIGIR]
  13. 13. 適合性と多様性を考慮した ウェブサーチエンジンの評価指標 [Sakai+11SIGIR][Sakai13IRJ]
  14. 14. テキスト中のナゲットの 位置情報を活用した 評価指標 [Sakai+11CIKM] [Sakai+13SIGIR]
  15. 15. 本日さらっと カバーするトピック [Sakai06SIGIR]
  16. 16. 本日さらっと カバーするトピック
  17. 17. 本日さらっと カバーするトピック [Sakai16IRJ]
  18. 18. 複雑な評価指標が、 より直観的で単純な評価指標と どれくらい挙動が似ているか調べる [Sakai12WWW]
  19. 19. 今日の話は以下の話ともoverlapあり [Sakai16SIGIR] Sakai, T.: Statistical Significance, Power, and Sample Sizes: A Systematic Review of SIGIR and TOIS, 2006-2015, Proceedings of ACM SIGIR 2016, pp.5-14, 2016. http://www.slideshare.net/TetsuyaSakai/sigir2016 [Sakai16ICTIRtutorial] Sakai, T.: Topic Set Size Design and Power Analysis in Practice (Tutorial Abstract), ACM ICTIR 2016, pp.9-10, 2016. http://www.slideshare.net/TetsuyaSakai/ictir2016tutorial-65845256 (スライド200ページ!)
  20. 20. 講演概要 1. 自己紹介・バックグラウンド 2. 本の露骨な宣伝 3. 古典的統計学: 誤解・限界・結果の報告の仕方 4. 初期データから適切なサンプルサイズの評価用データを設計する 5. 論文を読んでより適切なサンプルサイズの実験を設計する 6. まとめ
  21. 21. 評価実験でよくやること: 平均値の比較 (1) • 評価データを使ってm個のシステムを比較する。 • 各システムのn個の評価値 (例えば再現率) の平均を論文中の表に 載せる。nは例えば評価データ中のトピック (クエリ) の数。 システム 平均再現率 提案システム 0.501 従来システム 0.489 システム 平均再現率 提案システム 0.501 従来システム1 0.489 従来システム2 0.461 m = 2 m = 3
  22. 22. 評価実験でよくやること: 平均値の比較 (2) • 評価データを使ってm個のシステムを比較する。 • 各システムのn個の評価値 (例えば再現率) の平均を論文中の表に 載せる。nは例えば評価データ中のトピック (クエリ) の数。 システム 平均再現率 提案システム 0.501 従来システム 0.489 システム 平均再現率 提案システム 0.501 従来システム1 0.489 従来システム2 0.461 m = 2 m = 3 この差って 意味あるの?
  23. 23. 標本と母集団 • 表で示した平均再現率は、たまたま手元にあったn個のデータ (この集合を標本、サンプルという) に基づく標本平均。 • 別の標本を採れば、また別の標本平均が得られる。 • 本当に知りたいのは、標本の背後にある 母集団の平均に差があるかどうか。 • 標本平均は標本を採るたびに違う 確率変数。 • 古典的統計学では母平均は定数。 ランダムサンプリング を仮定 cf. Bayes統計学
  24. 24. 平均値の比較のための(パラメトリックな) 統計的検定 システム 平均再現率 提案システム 0.501 従来システム 0.489 システム 平均再現率 提案システム 0.501 従来システム1 0.489 従来システム2 0.461 m = 2 m = 3 この差って 意味あるの? • 対応がある場合のt検定 • 2標本t検定 (Student, Welch [Sakai16SIGIRshort] ) • 繰り返しのない二元配置分散分析 (two-way ANOVA without replication) • 一元配置分散分析 (one-way ANOVA) 母集団が、パラメタ (母平均、母分散など) をもつ 正規分布などの分布に従うと仮定するもの 拡張
  25. 25. 平均値の差の検定の原理 (1) • 帰無仮説H0 :とりあえず母平均が等しいと仮定 • データから検定統計量を計算する。もしH0が正しいなら、検定統計 量 (例: t0) はある分布 (例: t分布) に従うことが知られている。 • 上記分布の確率密度関数のもとで、得られた検定統計量もしくはそ れよりもさらに珍しい値が得られる確率 (p-value) を求める。 • P-valueが小さい ⇒ 極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っ ていないのでは、つまりH0 が正しいと仮定したことが間違いなので は、と考え H0 を棄却する (たぶん母平均は等しくない)。 検定統計量
  26. 26. 平均値の差の検定の原理 (2) • 帰無仮説H0 :とりあえず母平均が等しいと仮定 • データから検定統計量を計算する。もしH0が正しいなら、検定統計 量 (例: t0) はある分布 (例: t分布) に従うことが知られている。 • 上記分布の確率密度関数のもとで、得られた検定統計量もしくはそ れよりもさらに珍しい値が得られる確率 (p-value) を求める。 • P-valueが小さい ⇒ 極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っ ていないのでは、つまりH0 が正しいと仮定したことが間違いなので は、と考え H0 を棄却する (たぶん母平均は等しくない)。 p-value
  27. 27. 平均値の差の検定の原理 (3) • 帰無仮説H0 :とりあえず母平均が等しいと仮定 • データから検定統計量を計算する。もしH0が正しいなら、検定統計 量 (例: t0) はある分布 (例: t分布) に従うことが知られている。 • 上記分布の確率密度関数のもとで、得られた検定統計量もしくはそ れよりもさらに珍しい値が得られる確率 (p-value) を求める。 • P-valueが小さい ⇒ 極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っ ていないのでは、つまりH0 が正しいと仮定したことが間違いなので は、と考え H0 を棄却する (たぶん母平均は等しくない)。 α/2 α/2
  28. 28. あわて者α、ぼんやり者β、検出力 H0 採択 H0 棄却 H0 は正しい (母平均は等しい) 正しい結論 (1-α) 第1種の誤り α H0 は正しくない (母平均は等しくない) 第2種の誤り β 正しい結論 (1-β) 検出力: 本当に差がある ときに差があると いえる確率 真 実 われわれの決断 あわて者 ぼんやり者 α, βは問題に即して決定されるべきだが、一般的なのはα=5%, β=20% (第1種の誤りが第2種の誤りより4倍深刻であるという設定) [Cohen88]
  29. 29. 対応がある場合のt検定 (1) システム 平均再現率 提案システム 0.501 従来システム 0.489 システム 平均再現率 提案システム 0.501 従来システム1 0.489 従来システム2 0.461 m = 2 m = 3 この差って 意味あるの? • 対応がある場合のt検定 • 2標本t検定 (Student, Welch [Sakai16SIGIRshort] ) • 繰り返しのない二元配置分散分析 (two-way ANOVA without replication) • 一元配置分散分析 (one-way ANOVA) 拡張
  30. 30. 対応がある場合のt検定 (2) スコア: 0.32 スコア: 0.28 スコア: 0.67 スコア: 0.69 スコア: 0.46 スコア: 0.39 システムB システムG
  31. 31. 例えば検索システムX, Yにn個のトピック (クエリ) を与え、検索結果の 再現率の値 を得たとする。 トピック毎の差の標本平均をもとに、母平均を議論したい。 前提: は独立で このとき 対応がある場合のt検定 (3)
  32. 32. ⇒ ⇒ ⇒ は の不偏推定量、すなわち 自由度n-1のt分布。 自由度はVの「精度」 対応がある場合のt検定 (4) 母分散は不明なので 標本分散で代用
  33. 33. 帰無仮説H0 と対立仮説H1 さきほどの議論より なので が正しければ のはず。 システムX, Yの母平均は等しい 両側検定の場合 対応がある場合のt検定 (5) 0 test statistic t0 p-value
  34. 34. 帰無仮説H0 と対立仮説H1 が正しければ のはず。 P-value <= α なら (⇔ なら) そんなt0 は極端すぎる、 おそらくt(n-1)に 従ってはいない、 H0 を棄却! 対応がある場合のt検定 (6) test statistic t0critical t value t(n-1; α) α/2 α/2 0
  35. 35. 対応がある場合のt検定 (7) test statistic t0critical t value t(n-1; α) α/2 α/2 0 MS Excelでt検定をやるには (TTESTという関数もあるけれど…): P-value = TDIST(|t0|, n-1, 2) = T.DIST.2T(|t0|, n-1) <= α のときH0 を棄却。 (⇔ = TINV(α, n-1) = T.INV.2T(α, n-1) のときH0 を棄却。) 詳しくは [Sakai16ICTIRtutorial]
  36. 36. 母平均の差の信頼区間 (1) t検定の前提より ⇒ critical t value t(n-1; α) α/2 α/2 0 t obeys t(n-1)
  37. 37. 母平均の差の信頼区間 (2) t検定の前提より ⇒ ⇒ ここで . よって母平均の差の95%信頼区間(CI)は Margin of Error 異なる標本から異なる信頼区間が得られる。このうち95%が真の母平均 (定数) を捉えている
  38. 38. 一元配置分散分析 (1) システム 平均再現率 提案システム 0.501 従来システム 0.489 システム 平均再現率 提案システム 0.501 従来システム1 0.489 従来システム2 0.461 m = 2 m = 3 この差って 意味あるの? • 対応がある場合のt検定 • 2標本t検定 (Student, Welch [Sakai16SIGIRshort] ) • 繰り返しのない二元配置分散分析 (two-way ANOVA without replication) • 一元配置分散分析 (one-way ANOVA) 拡張
  39. 39. 一元配置分散分析 (2) スコア: 0.32 スコア: 0.46 スコア: 0.78 スコア: 0.25 スコア: 0.58 スコア: 0.61 スコア: 0.23 スコア: 0.44 スコア: 0.33 スコア: 0.88 システムB システムG システムY
  40. 40. 一元配置分散分析 (3) System Observed scores 1 x11, x12, … , x1n 2 x21, x22, … , x1n 3 x31, x32, … , x3n i=1, … , m j=1, … , n : i番目のシステムのj番目のスコア 前提: は独立で 言い換えると とおくと となる。 母集団の全平均 i番目のシステム効果 等分散性 μ a1 a2 a3 am ...
  41. 41. 帰無仮説H0 と対立仮説H1 : ゼロでないシステム効果がひとつ以上ある とおくと が成り立つ。 一元配置分散分析 (4) システム母平均は 全て等しい スコアと 全平均の差 システム平均と 全平均の差 スコアと システム平均の差 標本の全平均 標本のシステム平均
  42. 42. 同様に ST = SA + SE が成り立つ! System Observed scores 1 x11, x12, … , x1n 2 x21, x22, … , x1n 3 x31, x32, … , x3n 一元配置分散分析 (5) 全変動 システム間 変動 システム内 変動
  43. 43. ST = SA + SE に関する前提のもとでは (a) ⇒ (b) . ⇒ H0 (ai = 0 for 1 <= i <= m) が真なら φE =m(n-1) φA =m-1 φT =mn-1 = φA + φE 自由度: 平方和の精度 一元配置分散分析 (6) 詳しくは [Nagata03] カイ2乗分布
  44. 44. ST = SA + SE φT = φA + φE [H0のもとで] ⇒ しつこいけど H0 のもとで システム間変動が システム内変動に比べて どれくらい大きいか見ている 一元配置分散分析 (7) φE = m(n-1) φA = m-1 F分布: 2つの自由度をパラメタにもつ
  45. 45. 一元配置分散分析 (8) m=3,n=10 m=5, n=10 m=20, n=10 帰無仮説H0 と対立仮説H1 :ゼロでないシステム効果がひとつ以上ある 検定統計量: P-value <= α なら (⇔ F0 >= F(φA,φE;α) なら) H0 を棄却。 Critical F value F(φA,φE;α) F0 α 0 φE = m(n-1) φA = m-1
  46. 46. 平方和 自由度 不偏分散 F0 システム 間 SA φA = m-1 VA = SA/φA = SA/(m-1) VA/VE = m(n-1)SA (m-1)SE システム 内 SE φE = m(n-1) VE = SE/φE = SE/m(n-1) 合計 ST φT = mn-1 MS Excelの場合 P-value = F.DIST.RT(F0,φA,φE) <= α のときH0 を棄却 (⇔ F0 >= F(φA,φE;α) = F.INV.RT(φA,φE,α) のときH0 を棄却) 一元配置分散分析 (9) nがシステムによって 異なる場合 φE = (全スコア数) – m.
  47. 47. 一元配置分散分析 (10) P-value = F.DIST.RT(F0,φA,φE) <= α のときH0 を棄却 H0 を棄却したということは 「ゼロでないシステム効果がひとつ以上ある」 と結論づけたことになるが、 …どのシステムが違うの?
  48. 48. ランダム化Tukey HSD 検定 • 分散分析で有意差が得られても、「m個のシステムの少なくともどれ か1つがなんか違う」ということしかわからず、そのあとにさらなる検 定が必要! • n x m の評価値行列があり、最初から全システム対の平均値の差に 興味があるのなら、ANOVAはすっとばして (例えば) ランダム化Tukey HSD 検定をすればよい。t検定を何度も繰り返すのは一般にはNG! • http://research.nii.ac.jp/ntcir/tools/discpower-en.html に行列を食べ させれば全システム対のp-valueが簡単に得られる。 • 詳細は [Sakai15book] 正規性・等分散性などの仮定必要ナシ!
  49. 49. よくある間違い ×「P-valueは、帰無仮説が正しくない確率である」 ×「信頼区間の95%とは、確率的に動く母数がその範囲内に落ちる確 率である」
  50. 50. 古典的検定は70年代から「炎上」している [Johnson99] • Deming (1975) commented that the reason students have problems understanding hypothesis tests is that they may be trying to think. • Carver (1978) recommended that statistical significance testing should be eliminated; it is not only useless, it is also harmful because it is interpreted to mean something else. • Cohen (1994:997) noted that statistical testing of the null hypothesis "does not tell us what we want to know, and we so much want to know what we want to know that, out of desperation, we nevertheless believe that it does!"
  51. 51. 何がいけないのか (1) • 通常、研究者が知りたいのはP(H|D)。だが、古典的検定では P(D|H)的なもの=p-value しか得られない。 (Bayes統計学の話はまた別の機会に) • P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論 ⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論 • 例えp-valueをきちんと報告してもまだ不充分! p-value = f( サンプルサイズ, 効果量 ) 効果量が大きくなると ⇒ p-valueは小さくなるが サンプルサイズを大きくしても ⇒ p-valueを小さくできる H: Hypothesis, D: Data どんな実験でも、サンプルサイズを大きくすれば有意差は出る
  52. 52. 何がいけないのか (2) • 通常、研究者が知りたいのはP(H|D)。だが、古典的検定では P(D|H)的なもの=p-value しか得られない。 (Bayes統計学の話はまた別の機会に) • P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論 ⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論 • 例えp-valueをきちんと報告してもまだ不充分! p-value = f( サンプルサイズ, 効果量 ) 効果量が大きくなると ⇒ p-valueは小さくなるが サンプルサイズを大きくしても ⇒ p-valueを小さくできる H: Hypothesis, D: Data どんな実験でも、サンプルサイズを大きくすれば有意差は出る
  53. 53. 何がいけないのか (3) • 通常、研究者が知りたいのはP(H|D)。だが、古典的検定では P(D|H)的なもの=p-value しか得られない。 (Bayes統計学の話はまた別の機会に) • P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論 ⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論 • 例えp-valueをきちんと報告してもまだ不十分! p-value = f( サンプルサイズ, 効果量 ) 効果量が大きくなると ⇒ p-valueは小さくなるが サンプルサイズを大きくしても ⇒ p-valueを小さくできる H: Hypothesis, D: Data どんな実験でも、サンプルサイズを大きくすれば有意差は出る
  54. 54. 対応のあるt検定の場合の効果量 “サンプルサイズ=n, システムX,Yの差の平均 =AAA, 差の不偏分散V=BBB, p-value=CCC, 効果量 = DDD, 差の95%CI [EEE,FFF]” のようになるべく詳しく報告すべし! サンプルサイズ (対応のあるスコア対の数) 効果量 2つのシステムの差は、差の標準偏差いくつぶんか (これをp-valueと共に報告すれば、サンプルサイズに 直接左右されない本質的な差の大きさを議論できる) 分散分析の効果量については [Sakai16ICTIRtutorial] 古典的統計学を 受け入れるなら
  55. 55. 情報検索研究コミュニティはちゃんと報告しているか(1) [Sakai16SIGIR]
  56. 56. 情報検索研究コミュニティはちゃんと報告しているか(2) [Sakai16SIGIR]
  57. 57. 情報検索研究コミュニティはちゃんと報告しているか(3) [Sakai16SIGIR]
  58. 58. 講演概要 1. 自己紹介・バックグラウンド 2. 本の露骨な宣伝 3. 古典的統計学: 誤解・限界・結果の報告の仕方 4. 初期データから適切なサンプルサイズの評価用データを設計する 5. 論文を読んでより適切なサンプルサイズの実験を設計する 6. まとめ
  59. 59. 例えばこんなテストコレクションを作りたいとき 検索対象とする 文書コレクション トピック 適合性判定 (適合・非適合文書) トピック 適合性判定 (適合・非適合文書) トピック 適合性判定 (適合・非適合文書) : :nは いくつに すべき? n個のトピックについてシステム評価値を平均する。 このトピック集合は母集団からのサンプルであると見なす。
  60. 60. トピック数設計 [Sakai16IRJ] 前提とする統計的手法 必要な入力 対応のあるt検定 α (第1種の誤り確率), β (第2種の誤り確率), minDt ((1-β)%検出力を保証する最小のシステム母平均差) (システム間差の分散の推定値) 一元配置分散分析 α (第1種の誤り確率), β (第2種の誤り確率), m (分散分析で一度に比較するシステム数), minD ((1-β)%検出力を保証する最小のシステム母平均範囲), (各システムの分散の推定値。等分散性を仮定) 差の信頼区間 α (第1種の誤り確率), δ (信頼区間幅の上限), (システム間差の分散の推定値) [Nagata03] をテストコレクションに 適用しただけ 最高のシステムと 最低のシステムの 母平均差 とするのが簡単
  61. 61. http://www.f.waseda.jp/tetsuya/tools.html にあるExcelファイルで簡単 に計算できる 例えば一元配置分散分析でm=3システムの比較を想定する 場合。α=5%とし, = 0.25 なる評価指標のもとで 最高・最低システムの母平均差がminD=0.5以上のとき 検出力80% (β=20%) を保証するトピック数nは? : n=20でOK!
  62. 62. なぜそうなるのか? 概要 (1) 分散分析の手順より、H0 を棄却する確率は常に ここで、H0 が真なら F0 はF分布に従う。 一方、H0 が偽なら F0 は非心F分布に従う。 α 0
  63. 63. なぜそうなるのか? 概要 (2) 分散分析の手順より、H0 を棄却する確率は常に H0 採択 H0 棄却 H0 は正しい (母平均は等しい) 正しい結論 (1-α) 第1種の誤り α H0 は正しくない (母平均は等しくない) 第2種の誤り β 正しい結論 (1-β) 真 実 われわれの決断 H0 が真⇒ F0 はF分布に従い、 上記確率がまさにα。
  64. 64. なぜそうなるのか? 概要 (3) 分散分析の手順より、H0 を棄却する確率は常に H0 採択 H0 棄却 H0 は正しい (母平均は等しい) 正しい結論 (1-α) 第1種の誤り α H0 は正しくない (母平均は等しくない) 第2種の誤り β 正しい結論 (1-β) 真 実 われわれの決断 H0 が偽⇒ F0 は非心F分布に従い、 上記確率は検出力(1-β)。
  65. 65. なぜそうなるのか? 概要 (4) 分散分析の手順より、H0 が偽のとき、検出力は 非心F分布はφA, φEの他にパラメタλをもつ。 上記検出力はn, m, Δより近似的に求めることができる。 非心F分布に従う 分散を単位とし てシステム効果 を図った効果量 の一種
  66. 66. なぜそうなるのか? 概要 (5) ここで と定義すると Δ >= minΔ が成り立つ。 つまり検出力(1-β)を保証するための最高・最低システム間の差minD を定めてもΔは一意には定まらないが、最悪の場合minΔとなる。 よって最悪の場合のサンプルサイズは 自由度φA を用いて近似できる これは近似値なのでnとminΔを検出力の式に代入し、求める検出力が達成されることを 確認する。必要に応じnをincrement (Excelが自動でやってくれる)。
  67. 67. システム分散 の推定方法 (1) • 試験的なデータからスコアの行列を作っておき、これより分散分析 のVE を計算する。これはシステム母分散 の不偏推定量。 • 試験的なデータが複数ある場合 (例えば類似の既存テストコレクショ ンが複数ある場合)、各データCから得られた分散をプールする。 • 試験的なデータは小規模でOK。以後、完成したテストコレクションか ら新たなVE を計算して推定精度を高めていけばよい
  68. 68. • = DEVSQ(A1:A20) + DEVSQ(B1:B20) + DEVSQ(C1:C20) = 0.650834 φE = m(n-1) = 3(20-1)= 57 = = VE = SE / φE = 0.011 0.4695 0.3732 0.3575 0.2813 0.3783 0.2435 0.3914 0.3868 0.3167 0.6884 0.5896 0.6024 0.6121 0.4725 0.4766 0.3266 0.233 0.2429 0.5605 0.4328 0.4066 0.5916 0.5073 0.4707 0.4385 0.3889 0.3384 0.5821 0.5551 0.4597 0.2871 0.3274 0.2769 0.5186 0.5066 0.4066 0.5188 0.5198 0.3859 0.5019 0.4981 0.4568 0.4702 0.3878 0.3437 0.329 0.4387 0.2649 0.4758 0.4946 0.4045 0.3028 0.34 0.3253 0.3752 0.4895 0.3205 0.2796 0.2335 0.224 A 20 topics B C システム分散 の推定方法 (2)
  69. 69. トピック数設計適用事例 (1) NTCIR-12 最大のタスク: 中国語サブタスクに 44システムが参加
  70. 70. トピック数設計適用事例 (2) 次回タスクで分散がnG@1 と同程度の(正規分布に従うと見なしてよい)評価指標を使うなら: ・n=120とすればm=20, minD=0.20のシステム比較において80%検出力(5%有意水準)を保証 ・n= 90とすればm=10, minD=0.20のシステム比較において80%検出力(5%有意水準)を保証 次回のタスクに向けて テストコレクションの 設計を改善できる! 決定したnの統計的 意義を説明できる!
  71. 71. 一般に • 有意水準α • 検出力 (1-β) • 効果量 • サンプルサイズn のうち3つを決めると残りの1つが定まる[Ellis10]。 小さい効果について調べたいなら大きなサンプルが必要!
  72. 72. 講演概要 1. 自己紹介・バックグラウンド 2. 本の露骨な宣伝 3. 古典的統計学: 誤解・限界・結果の報告の仕方 4. 初期データから適切なサンプルサイズの評価用データを設計する 5. 論文を読んでより適切なサンプルサイズの実験を設計する 6. まとめ
  73. 73. ちゃんとした論文ならば 以下の記述があるはず: • どの検定手法を使ったか • サンプルサイズ • 検定統計量 and/or p-value 以上より • 標本効果量 • 論文における実験の検出力 • 検出力(1-β)を達成するために必要なサンプルサイズ がRのpwrライブラリを使うと簡単に求められる[Toyoda09]。
  74. 74. https://waseda.box.com/SIGIR2016PACK [Sakai16SIGIR] [Toyoda09] で提供されているRスクリプトを少し書き換えたもの future.sample.pairedt 対応のあるt検定用 future.sample.unpairedt 対応のないt検定用 future.sample.1wayanova 一元配置分散分析用 future.sample.2waynorep 繰り返しのない二元配置分散分析 future.sample.2wayanova2 二元配置分散分析用
  75. 75. future.sample.pairedt 使用例 SIGIR 2012 のある論文にこう書いてある: “t(27)=0.953 with (two-sided) paired t-test” ⇒ t = 0.953, n = 28 (φ = n-1 = 27) [Sakai16SIGIR] 分析結果Excelファイル270行目より サンプルサイズが小さいため検出力が小さい 本質的な差を見逃す確率が極めて高く、実験の意義が小さい この実験の効果量で検出力80%を達成するに 必要なサンプルサイズ 効果量
  76. 76. future.sample.1wayanova 使用例 φA = m-1, φE = m(n-1) SIGIR 2008 のある論文にこう書いてある: “m=3 groups, n=12 subjects per group, F(2, 33)=1.284 with (one-way) ANOVA” (φA = m-1 = 2, φE = m(n-1) = 3*(12-1) = 33) [Sakai16SIGIR] 分析結果Excelファイル616行目より サンプルサイズが小さいため検出力が小さい 本質的な差を見逃す確率が極めて高く、実験の意義が小さい この実験の効果量で検出力80%を達成するに 必要なサンプルサイズ 効果量の 一種
  77. 77. 検出力が極端に低い論文、極端に高い論文 (1) [Sakai16SIGIR] サンプルサイズ比 (Sample Size Ratio) = 実験で用いたサンプルサイズn/検出力(1-β)に必要なサンプルサイズn’ SSR が大 ⇔ 検出力が極端に高い (必要以上にリソースを使っている) SSR が小 ⇔ 検出力が極端に低い (検出したい差を検出できない可能性が 高い) 前述の過去10年間のSIGIR+TOIS論文のうちt検定 or 分散分析を用いており、 かつ必要な情報をきちんと報告している133件の論文に対しRスクリプトを 適用 (t検定106件; 分散分析27件)
  78. 78. 検出力が極端に低い論文、極端に高い論文 (2) [Sakai16SIGIR]
  79. 79. 検索エンジン会社によるpersonalisationの論文。対応のあるt検定で t=16.00, n=5,352,460, 効果量=0.007, 検出力=1 検出力80%を達成するためのサンプルサイズn’=164,107 効果量は非常に小さい (が大量ユーザを扱う会社にとっては意味があるかも) 検出力が極端に低い論文、極端に高い論文 (3) [Sakai16SIGIR] 大企業はデータをふんだんに使った実験ができるが、p-valueより効果量を議論すべき。
  80. 80. 検出力が極端に低い論文、極端に高い論文 (4) [Sakai16SIGIR]
  81. 81. 商用social media applicationのデータによる一元配置分散分析。 F=243.42, m=3, グループ毎のサンプルサイズn=2551, 検出力=1, 検出力80%を達成するためのサンプルサイズn’=52 検出力が極端に低い論文、極端に高い論文 (5) [Sakai16SIGIR]
  82. 82. 講演概要 1. 自己紹介・バックグラウンド 2. 本の露骨な宣伝 3. 古典的統計学: 誤解・限界・結果の報告の仕方 4. 初期データから適切なサンプルサイズの評価用データを設計する 5. 論文を読んでより適切なサンプルサイズの実験を設計する 6. まとめ
  83. 83. とどのつまり • 評価方法を理解し、正しい評価をしよう ×みんなが使ってるから、よくわかってないけど自分もこの評価方法を使う ○自分の研究目的にあった評価方法を選んで、もしくは設計して使う • 古典的統計学を使って結果の分析をするのであれば - 評価データのサンプルサイズについて検討しよう - 論文を書くときは p-value、効果量、信頼区間などを適切に報告しよう - 過去の文献をもとに、適切な検出力の実験を設計しよう • 研究コミュニティ全体が上記のような習慣をつければ、個々の成果 が有機的につながり大きな知見となる cf. Bayes統計学
  84. 84. 学生さんには高いかも知れませんが、先生に お願いすれば研究室でn冊購入してくださるはず (n >> 1)
  85. 85. Springerから本を出します Laboratory Experiments in Information Retrieval: Sample Sizes, Effect Sizes, and Statistical Power 2017年中に書きあげます。たぶん
  86. 86. 謝辞+文献 • 永田靖先生 (早稲田大学) に はサンプルサイズの設計につ いて個人的にいろいろ教えて いただきました。 • 豊田秀樹先生(早稲田大学) には[Sakai16SIGIR]の発表に 伴い、「検定力分析入門」のR のコードを流用して配布する 許可をいただきました。 • 大変ありがとうございました!
  87. 87. 文献(酒井) [Sakai06SIGIR] Sakai, T.: Evaluating Evaluation Metrics based on the Bootstrap, ACM SIGIR 2006, pp.525-532. [Sakai07SIGIR] Sakai, T.: Alternatives to Bpref, ACM SIGIR 2007, pp.71-78, July 2007. [Sakai+11CIKM] Sakai, T., Kato, M.P. and Song, Y.-I.: Click the Search Button and Be Happy: Evaluating Direct and Immediate Information Access, ACM CIKM 2011, pp.621-630. [Sakai+11SIGIR] Sakai, T. and Song, R., Evaluating Diversified Search Results Using Per-Intent Graded Relevance, ACM SIGIR 2011, pp.1043-1052. [Sakai12WWW] Sakai, T.: Evaluation with Informational and Navigational Intents, WWW 2012, pp.499-508. [Sakai13IRJ] Sakai, T. and Song, R.: Diversified Search Evaluation: Lessons from the NTCIR-9 INTENT Task, Information Retrieval, 16(4), pp.504-529, Springer, 2013. [Sakai+13SIGIR] Sakai, T., Dou, Z.: Summaries, Ranked Retrieval and Sessions: A Unified Framework for Information Access Evaluation, ACM SIGIR 2013, pp.473-482. [Sakai15book] 酒井哲也: 情報アクセス評価方法論: 検索エンジンの進歩のために, コロナ社, 2015. [Sakai16IRJ] Sakai, T.: Topic Set Size Design, Information Retrieval Journal, 19(3), pp. 256-283, Springer, 2016. http://link.springer.com/content/pdf/10.1007%2Fs10791-015-9273-z.pdf (open access) [Sakai16SIGIR] Sakai, T.: Statistical Significance, Power, and Sample Sizes: A Systematic Review of SIGIR and TOIS, 2006-2015, ACM SIGIR 2016, pp.5-14. [Sakai16SIGIRshort] Sakai, T.: Two Sample T-tests for IR Evaluation: Student or Welch?, Proceedings of ACM SIGIR 2016, pp.1045-1048. [Sakai16ICTIRtutorial] Sakai, T.: Topic Set Size Design and Power Analysis in Practice (Tutorial Abstract), ACM ICTIR 2016, pp.9-10.
  88. 88. 文献(その他) [Cohen88] Cohen. J.: Statistical Power Analysis for the Behavioral Sciences (Second Edition), Psychology Press, 1988. [Ellis10] Ellis, P. D.: The Essential Guide to Effect Sizes, Cambridge, 2010. [Johnson99] Johnson, D. H.: The Insignificance of Statistical Significance Testing, Journal of Wildlife Management, 63(3), 1999. [永田03] 永田靖: サンプルサイズの決め方, 朝倉書店, 2003. [豊田09] 豊田秀樹: 検定力分析入門, 東京図書, 2009.

×