Way of Experiment & Evaluation

Machine Learning
for Natural Language Processing

- Way of Experiment & Evaluation –

Meiji University
Seminar 2 B3 Tatsuya Coike
Web : lanevok.com
pp. 162-178
2012.10.11 (Thu)

Way of Experiment & Evaluation 2

Outline

• 1. 実験 (Experiment)
準備/データセット/データの種類/交差検定/
クラスとラベル/分類問題

• 2. 評価 (Evaluation)
分類正解率/適合性/精度と再現率/統合/
多値分類/正例と不例/マクロ,マイクロ平均

• 3. 検定 (Statistical Test)
統計的検定/考え方/p値の計算方法


1. Experiment


1.1 実験の準備

実験プログラムとデータの入手

• WEKA (Data Mining with Open Source
Machine Learning Software in Java)

• README (Input Format)

• Data Set (p.185)


1.2 データセット

• 事例 (Instance)
• Data Set の事例数 (= Data Size)

※ データサイズ ≠ データ数分類

新聞 Wikipedia 事例数３
データ数２
記事 (Data Size)
Data Set A
Data Set B
図 1.2 データサイズとデータ数


1.3 データの種類

• 訓練データ (Training Data) … モデルなどの学習に用いる

• 評価データ (Test Data) … 分類できたかの評価に用いる

• 開発データ (Development Data) … 定数決定の為のデータ

・Naive Bayes Classifier の事前確率 α
・Support Vector Machine (SVM) C


1.4 交差検定
実験→
• Cross-Validation

Data Set A1 評価訓練訓練

Data Set A2 訓練評価訓練

分割

Data Set A
Data Set A3 訓練訓練評価

図 1.4 交差検定


1.5 クラスとラベル
赤
赤でない
赤
Class O
青
Class X Class R
分類
Class B
不明
分類
黒
Class E
りんご Class K
りんご赤
Data Set A
青
Data Set B
図 1.5.1 クラス
図 1.5.2 ラベル


1.6 分類

二値分類問題と多値分類問題

Class > 2 Class = 2
• Class 多クラスデータセット二値クラスデータセット
(Multi-Class Dataset) (Binary-Class Dataset)

Label > 1 Class = 1
• Label 複数ラベルデータセット単一ラベルデータセット
(Multi-Label Dataset) (Single-Label Dataset)


2. Evaluation


2.1 分類正解率

• Classification Accuracy

• 単に「正解率」とも

(正解した評価事例数)
分類正解率 = 　　　　　(2.1)
(評価事例総数)


2.2 適合性

• 適合性 (Relevance)

客観的に見て、適合するものを結果として得られたか

• 完全性 … 漏れなく結果が得られているか

• 正確性 … 適合するものだけ結果が得られているか


𝒅
2.3 精度と再現率
𝒃 𝒂 𝒄

二値分類の評価指標
𝑎 予測できた属する数
• 精度 (Precision) = = (2.3.1)
𝑎+𝑏 属すると予測した総数
𝑎 属すると予測した数
• 再現率 (Recall) = = (2.3.2)
𝑎+𝑐 属する総数

• 分割表 (Contingency Table)
表 2.3 分割表
C に属する C に属さない
C であると予測 𝑎 𝑏
C でないと予測 𝑐 𝑑


2.4 精度と再現率の統合

• 精度と再現率はトレードオフの関係

• 𝐹尺度 (𝐹値) (F-Measure) … 調和平均 (逆数の平均の逆数)

2 × (精度) × (再現率)
𝐹= 　　　　　 2.4
(精度) + (再現率)

2×0.9×0.5
Example : A (0.9 , 0.5) = = 0.64
0.9+0.5
2×0.8×0.6
(精度 , 再現率) B (0.8 , 0.6) = = 0.69
0.8+0.6


2.5 よく使われる評価指標

• 再現率 / 精度 break-even ポイント
(Recall / Precision Break-Even Point)

→ 精度と再現率が一致する点

• １１点平均精度図 2.5 再現率-精度グラフ
(Eleven Point Average Precision)

→ 再現率が 0.0 , 0.1 , … , 0.9 , 1.0 となる１１点における
精度を計算し、算術平均を取る ※補間が必要


2.6 多値分類問題の評価

• 分類正解率 (cf. 2.1)

りんご赤
青
複数ラベルの扱い

1. 複数のラベルがすべて予測できた → 正解 (厳しい)
2. 複数のラベルのうち一つでも予測できた → 正解 (甘い)


2.7 二値分類での多値分類問題

d
c
b 𝐶1 𝐶2 𝐶3

𝑎
① ② ③
Data Set X

𝐶1 𝐶2 𝐶3

図 2.7 多クラス二値分類


2.8 正例と負例

• 二値分類問題

そのクラスに属する事例 → 正例
上記以外の事例 → 負例

→ クラス数分の分類器を構築 → 実験結果の統合

表 2.8 訓練データ
正クラス正例負例
C1 𝒂, 𝒃 𝒄, 𝒅
C2 𝒂, 𝒄 𝒃, 𝒅
C3 𝒅 𝒂, 𝒃, 𝒄


2.9 マクロ平均とマイクロ平均

• マクロ平均 (Macro Average) → 評価指標の算術平均

𝑓1 +𝑓2 +𝑓3
Example : 各クラスの 𝐹値を求めて → (2.9)
3

• マイクロ平均 (Micro Average) → 分割表を統合し評価

表 4.3 統合した分割表

各クラスに属する属さない
各クラスであると予測 𝑎1 + 𝑎2 + 𝑎3 𝑏1 + 𝑏2 + 𝑏3
そうでないと予測 𝑐1 + 𝑐2 + 𝑐3 𝑑1 + 𝑑2 + 𝑑3


2.10 分類正解率での平均

• 分類正解率のマクロ平均

1 𝐶1 正解数 𝐶2 正解数 𝐶3 正解数
𝐴𝑐 𝑚𝑎 = + + 　　(2.10.1)
3 𝐶1 総数 𝐶2 総数 𝐶3 総数

• 分類正解率のマイクロ平均

𝐶1 正解数 + 𝐶2 正解数 + 𝐶3 正解数
𝐴𝑐 𝑚𝑖 = 　　　(2.10.2)
𝐶1 総数 + 𝐶2 総数 + 𝐶3 総数


2.11 平均の使い分け

• マクロ平均 (Macro Average)

各データセットの大きさを無視して平等に扱う

• マイクロ平均 (Micro Average)

各データセットの大きさを考慮し、
小さなデータセットの影響は少なくする

「𝐹値」「分類正解率」のどちらでも計算可


3. Statistical Test


3.1 統計的検定とは
New

新しい手法の提案をする場合、
0.73 0.82

「既存手法の評価指標の値」
「提案手法の評価指標の値」を比較する。

実験結果をどの程度信頼してよいか判定。

→ 統計的検定 (Statistical Test)


3.2 統計的検定の考え方

• 帰無仮説 (Null Hypothesis) … 否定したい仮説

「二つの手法の評価指標が同じ確率分布に従う」

• 𝑝値 (𝑝-value) … 帰無仮説が成り立つとしたときの確率

• 有意水準 (Significance Level)

𝑝値が一定値より低い → 非常に稀な結果 → 仮説×

慣習的に 0.05 , 0.01 を使用


3.3 p値の計算方法

• 符号検定 (Sign Test)
結果の差が良いか定義できない場合
分類正解率の検定で使われることが多い

• ウィルコクソンの符号付順位和検定
(Wilcoxon’s Signed Rank ST)
結果の差が定義できる場合 → 良さの点数が存在

• t - 検定 (t-Test)
正規分布に従っていると考えられる場合
→代表値間に差があるか


まとめ

• 評価指標の向上が何に起因しているか

• 提案手法において、ある工夫をした際
「工夫したもの」「工夫していないもの」を
それ以外の部分は同じにして比較する

• その問題における最先端の手法と比較をする

• 言語処理での「素性」
機械学習での「特徴」が持つ意味を明確にする

Thank you for your listening.

- Way of Experiment & Evaluation –


4.1 Key Words
□ データセット □ 𝐹値
□ 事例 (数) □ break-even ポイント
□ 訓練データ □ １１点平均精度
□ 評価データ □ 正例
□ 開発データ □ 負例
□ 交差検定 □ マクロ平均
□ クラス □ マイクロ平均
□ ラベル □ 統計的検定
□ 二値分類 □ 帰無仮説
□ 多値分類 □ 𝑝値
□ 分類正解率 □ 有意水準
□ 精度 □ 符号検定
□ 再現率 □ ウィルコクソンの符号付順位和検定
□ 分割表 □ t - 検定


4.2 参考 (1)

表2.3 についてその他の評価指標

• フォールアウト (Fallout) … 再現率の代わりで使用もする

𝑏
𝐹= 　　　　　　　　　　(4.2.1)
𝑏+ 𝑑

• 一般性 (Generality)

𝑎
𝐹= 　　　　　　(4.2.2)
𝑎+ 𝑏+ 𝑐+ 𝑑


4.2 参考 (2)

• 𝐹尺度 (𝐹値) (F-Measure) 式 2.4 補足

1
𝐹= 　　　　　 4.2.3
1 1
𝛼 + 1− 𝛼
再現率精度

※ α は再現率と精度の重視比重を表すパラメータ

1
[関連] 𝛼= 4.2.4
𝛽2 +1

※ 𝛽 は再現率に対して精度を何倍重視するか


4.2 参考 (3)

• 補間精度 (cf. 2.5) １１点平均精度 - 補間補足
精度
𝑃

𝑃(𝑥) = max 𝑃𝑖 4.2.5
𝑥 ≤ 𝑅𝑖

𝑝(𝑥)

𝑥 𝑅
再現率
図4.2 補間精度

Way of Experiment & Evaluation

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (16)

More from Tatsuya Coike

More from Tatsuya Coike (6)

Way of Experiment & Evaluation