Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Way of Experiment & Evaluation

2,296 views

Published on

Machine Learning for Natural Language Processing

Way of Experiment & Evaluation

  1. 1. Machine Learning for Natural Language Processing - Way of Experiment & Evaluation – Meiji UniversitySeminar 2 B3 Tatsuya Coike Web : lanevok.com pp. 162-178 2012.10.11 (Thu)
  2. 2. Way of Experiment & Evaluation 2Outline• 1. 実験 (Experiment) 準備/データセット/データの種類/交差検定/ クラスとラベル/分類問題• 2. 評価 (Evaluation) 分類正解率/適合性/精度と再現率/統合/ 多値分類/正例と不例/マクロ,マイクロ平均• 3. 検定 (Statistical Test) 統計的検定/考え方/p値の計算方法
  3. 3. Way of Experiment & Evaluation 3 1. Experiment
  4. 4. Way of Experiment & Evaluation 41.1 実験 の 準備実験プログラムとデータの入手• WEKA (Data Mining with Open Source Machine Learning Software in Java)• README (Input Format)• Data Set (p.185)
  5. 5. Way of Experiment & Evaluation 51.2 データセット• 事例 (Instance)• Data Set の 事例数 (= Data Size) ※ データサイズ ≠ データ数 分類 新聞 Wikipedia 事例数 3 データ数 2 記事 (Data Size) Data Set A Data Set B 図 1.2 データサイズとデータ数
  6. 6. Way of Experiment & Evaluation 61.3 データ の 種類• 訓練データ (Training Data) … モデルなどの学習に用いる• 評価データ (Test Data) … 分類できたかの評価に用いる• 開発データ (Development Data) … 定数決定の為のデータ ・Naive Bayes Classifier の事前確率 α ・Support Vector Machine (SVM) C
  7. 7. Way of Experiment & Evaluation 71.4 交差検定 実験→• Cross-Validation Data Set A1 評価 訓練 訓練 Data Set A2 訓練 評価 訓練 分割 Data Set A Data Set A3 訓練 訓練 評価 図 1.4 交差検定
  8. 8. Way of Experiment & Evaluation 81.5 クラス と ラベル 赤 赤でない 赤 Class O 青 Class X Class R 分類 Class B 不明 分類 黒 Class Eりんご Class K りんご 赤 Data Set A 青 Data Set B 図 1.5.1 クラス 図 1.5.2 ラベル
  9. 9. Way of Experiment & Evaluation 91.6 分類二値分類問題 と 多値分類問題 Class > 2 Class = 2• Class 多クラスデータセット 二値クラスデータセット (Multi-Class Dataset) (Binary-Class Dataset) Label > 1 Class = 1• Label 複数ラベルデータセット 単一ラベルデータセット (Multi-Label Dataset) (Single-Label Dataset)
  10. 10. Way of Experiment & Evaluation 10 2. Evaluation
  11. 11. Way of Experiment & Evaluation 112.1 分類正解率• Classification Accuracy• 単に 「正解率」 とも (正解した評価事例数) 分類正解率 =      (2.1) (評価事例総数)
  12. 12. Way of Experiment & Evaluation 122.2 適合性• 適合性 (Relevance) 客観的に見て、適合するものを結果として得られたか• 完全性 … 漏れなく結果が得られているか• 正確性 … 適合するものだけ結果が得られているか
  13. 13. Way of Experiment & Evaluation 13 𝒅2.3 精度 と 再現率 𝒃 𝒂 𝒄二値分類の評価指標 𝑎 予測できた属する数• 精度 (Precision) = = (2.3.1) 𝑎+𝑏 属すると予測した総数 𝑎 属すると予測した数• 再現率 (Recall) = = (2.3.2) 𝑎+𝑐 属する総数• 分割表 (Contingency Table) 表 2.3 分割表 C に属する C に属さない C であると予測 𝑎 𝑏 C でないと予測 𝑐 𝑑
  14. 14. Way of Experiment & Evaluation 142.4 精度 と 再現率 の 統合• 精度 と 再現率 は トレードオフの関係• 𝐹尺度 (𝐹値) (F-Measure) … 調和平均 (逆数の平均の逆数) 2 × (精度) × (再現率) 𝐹=       2.4 (精度) + (再現率) 2×0.9×0.5Example : A (0.9 , 0.5) = = 0.64 0.9+0.5 2×0.8×0.6 (精度 , 再現率) B (0.8 , 0.6) = = 0.69 0.8+0.6
  15. 15. Way of Experiment & Evaluation 152.5 よく使われる 評価指標• 再現率 / 精度 break-even ポイント (Recall / Precision Break-Even Point) → 精度と再現率が一致する点• 11点平均精度 図 2.5 再現率-精度グラフ (Eleven Point Average Precision) → 再現率が 0.0 , 0.1 , … , 0.9 , 1.0 となる11点における 精度を計算し、算術平均を取る ※補間が必要
  16. 16. Way of Experiment & Evaluation 162.6 多値分類問題 の 評価• 分類正解率 (cf. 2.1) りんご 赤 青複数ラベル の扱い 1. 複数のラベルが すべて予測 できた → 正解 (厳しい) 2. 複数のラベルのうち 一つでも予測 できた → 正解 (甘い)
  17. 17. Way of Experiment & Evaluation 172.7 二値分類 での 多値分類問題 d c b 𝐶1 𝐶2 𝐶3 𝑎 ① ② ③ Data Set X 𝐶1 𝐶2 𝐶3 図 2.7 多クラス二値分類
  18. 18. Way of Experiment & Evaluation 182.8 正例 と 負例• 二値分類問題 そのクラスに属する事例 → 正例 上記以外の事例 → 負例 → クラス数分の分類器を構築 → 実験結果の統合 表 2.8 訓練データ 正クラス 正例 負例 C1 𝒂, 𝒃 𝒄, 𝒅 C2 𝒂, 𝒄 𝒃, 𝒅 C3 𝒅 𝒂, 𝒃, 𝒄
  19. 19. Way of Experiment & Evaluation 192.9 マクロ平均 と マイクロ平均• マクロ平均 (Macro Average) → 評価指標の算術平均 𝑓1 +𝑓2 +𝑓3Example : 各クラスの 𝐹値 を求めて → (2.9) 3• マイクロ平均 (Micro Average) → 分割表を統合し評価 表 4.3 統合した分割表 各クラスに属する 属さない 各クラスであると予測 𝑎1 + 𝑎2 + 𝑎3 𝑏1 + 𝑏2 + 𝑏3 そうでないと予測 𝑐1 + 𝑐2 + 𝑐3 𝑑1 + 𝑑2 + 𝑑3
  20. 20. Way of Experiment & Evaluation 202.10 分類正解率 での 平均• 分類正解率 の マクロ平均 1 𝐶1 正解数 𝐶2 正解数 𝐶3 正解数𝐴𝑐 𝑚𝑎 = + +   (2.10.1) 3 𝐶1 総数 𝐶2 総数 𝐶3 総数• 分類正解率 の マイクロ平均 𝐶1 正解数 + 𝐶2 正解数 + 𝐶3 正解数 𝐴𝑐 𝑚𝑖 =    (2.10.2) 𝐶1 総数 + 𝐶2 総数 + 𝐶3 総数
  21. 21. Way of Experiment & Evaluation 212.11 平均 の 使い分け• マクロ平均 (Macro Average) 各データセットの大きさを無視して平等に扱う• マイクロ平均 (Micro Average) 各データセットの大きさを考慮し、 小さなデータセットの影響は少なくする 「𝐹値」 「分類正解率」 の どちらでも計算可
  22. 22. Way of Experiment & Evaluation 22 3. Statistical Test
  23. 23. Way of Experiment & Evaluation 233.1 統計的検定 とは New新しい手法の提案をする場合、 0.73 0.82 「既存手法の評価指標の値」 「提案手法の評価指標の値」 を比較する。実験結果をどの程度信頼してよいか判定。→ 統計的検定 (Statistical Test)
  24. 24. Way of Experiment & Evaluation 243.2 統計的検定 の 考え方• 帰無仮説 (Null Hypothesis) … 否定したい仮説 「二つの手法の評価指標が同じ確率分布に従う」• 𝑝値 (𝑝-value) … 帰無仮説が成り立つとしたときの確率• 有意水準 (Significance Level) 𝑝値が一定値より低い → 非常に稀な結果 → 仮説× 慣習的に 0.05 , 0.01 を使用
  25. 25. Way of Experiment & Evaluation 253.3 p値 の 計算方法• 符号検定 (Sign Test) 結果の差が良いか定義できない場合 分類正解率の検定で使われることが多い• ウィルコクソンの符号付順位和検定 (Wilcoxon’s Signed Rank ST) 結果の差が定義できる場合 → 良さの点数が存在• t - 検定 (t-Test) 正規分布に従っていると考えられる場合 →代表値間に差があるか
  26. 26. Way of Experiment & Evaluation 26まとめ• 評価指標の向上が何に起因しているか• 提案手法において、ある工夫をした際 「工夫したもの」「工夫していないもの」を それ以外の部分は同じにして比較する• その問題における最先端の手法と比較をする• 言語処理での「素性」 機械学習での「特徴」 が持つ意味を明確にする
  27. 27. Thank you for your listening. - Way of Experiment & Evaluation –
  28. 28. Way of Experiment & Evaluation 284.1 Key Words□ データセット □ 𝐹値□ 事例 (数) □ break-even ポイント□ 訓練データ □ 11点平均精度□ 評価データ □ 正例□ 開発データ □ 負例□ 交差検定 □ マクロ平均□ クラス □ マイクロ平均□ ラベル □ 統計的検定□ 二値分類 □ 帰無仮説□ 多値分類 □ 𝑝値□ 分類正解率 □ 有意水準□ 精度 □ 符号検定□ 再現率 □ ウィルコクソンの符号付順位和検定□ 分割表 □ t - 検定
  29. 29. Way of Experiment & Evaluation 294.2 参考 (1)表2.3 について その他の 評価指標• フォールアウト (Fallout) … 再現率の代わりで使用もする 𝑏 𝐹=           (4.2.1) 𝑏+ 𝑑• 一般性 (Generality) 𝑎 𝐹=       (4.2.2) 𝑎+ 𝑏+ 𝑐+ 𝑑
  30. 30. Way of Experiment & Evaluation 304.2 参考 (2)• 𝐹尺度 (𝐹値) (F-Measure) 式 2.4 補足 1 𝐹=       4.2.3 1 1 𝛼 + 1− 𝛼 再現率 精度 ※ α は 再現率と精度の重視比重を表すパラメータ 1[関連] 𝛼= 4.2.4 𝛽2 +1 ※ 𝛽 は 再現率に対して 精度を何倍重視 するか
  31. 31. Way of Experiment & Evaluation 314.2 参考 (3)• 補間精度 (cf. 2.5) 11点平均精度 - 補間 補足 精度 𝑃 𝑃(𝑥) = max 𝑃𝑖 4.2.5 𝑥 ≤ 𝑅𝑖 𝑝(𝑥) 𝑥 𝑅 再現率 図4.2 補間精度

×