More Related Content Similar to 正則化による尤度比推定法を応用した多値分類器の改良 Similar to 正則化による尤度比推定法を応用した多値分類器の改良 (20) 正則化による尤度比推定法を応用した多値分類器の改良4. ⚫ Universal-set Naïve Bayes 分類器(UNB)[Komiya:13]
⚫ 本研究:UNBで使用される尤度比推定法に着目
推定法:それぞれの確率を相対頻度で求めて比を取ること
× 低頻度から推定される 𝑟 𝑥 を過大推定する(後で例を示す)
⇒ 少数派クラスに対する分類スコアを過度に大きくし、
⇒ 多数のインスタンスをそのクラスへと誤分類してしまう
補集合を利用した分類器
3
𝑟 𝑤𝑘, 𝑐 =
𝑝 𝑤𝑘 𝑐
𝑝 𝑤𝑘 ҧ
𝑐
𝑟 𝑥 =
𝑝nu 𝑥
𝑝de 𝑥
尤度比
推定対象:
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
𝑟 𝑤𝑘, 𝑐
※ deは尤度比の分母、nuは分子を
※ 表す添え字
5. ⚫ 確率を相対頻度 Ƹ
𝑝∗ 𝑥 で求め、その比を取ること
𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た、離散要素 𝑥 の頻度
⚫ σ𝑥 𝑓de 𝑥 = 107
, 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104
, 𝑓nu 𝑥a = 100
尤度比の素朴な推定法 𝑟MLE 𝑥
4
𝑟MLE 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
Ƹ
𝑝de 𝑥a =
𝑓de 𝑥a
σ𝑥 𝑓de 𝑥
=
2000
107
= 2 × 10−4
Ƹ
𝑝nu 𝑥a =
𝑓nu 𝑥a
σ𝑥 𝑓nu 𝑥
=
100
104
= 10−2
6. ⚫ 確率を相対頻度 Ƹ
𝑝∗ 𝑥 で求め、その比を取ること
𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た 𝑥 の頻度
⚫ σ𝑥 𝑓de 𝑥 = 107
, 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104
, 𝑓nu 𝑥a = 100
尤度比の素朴な推定法 𝑟MLE 𝑥
4
𝑟MLE 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
Ƹ
𝑝de 𝑥a =
𝑓de 𝑥a
σ𝑥 𝑓de 𝑥
=
2000
107
= 2 × 10−4
Ƹ
𝑝nu 𝑥a =
𝑓nu 𝑥a
σ𝑥 𝑓nu 𝑥
=
100
104
= 10−2
7. ⚫ 確率を相対頻度 Ƹ
𝑝∗ 𝑥 で求め、その比を取ること
𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た 𝑥 の頻度
⚫ σ𝑥 𝑓de 𝑥 = 107
, 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104
, 𝑓nu 𝑥a = 100
尤度比の素朴な推定法 𝑟MLE 𝑥
4
𝑟MLE 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
𝑟MLE 𝑥a =
Ƹ
𝑝nu 𝑥a
Ƹ
𝑝de 𝑥a
=
10−2
2 × 10−4
= 50
8. ⚫ 要素 𝑥b と 𝑥c についても推定値 𝑟MLE 𝑥 を計算
⚫ 低頻度に対する推定値を過度に高く見積もる
𝑓∗ 𝑥a と 𝑓∗ 𝑥b は大差あるが、要素 𝑥a と 𝑥b の推定値は50と等しい
⇒ 頻度差を推定値に反映したい
素朴な推定法の問題点 (1/2)
5
𝑥
頻度
𝑟MLE 𝑥
𝑥
𝑓de 𝑥 𝑓de 𝑥
𝑥
𝑓nu 𝑥 𝑓nu 𝑥
𝑥a 107 2000 104 100 50
𝑥b 107 20 104 1 50
𝑥c 107 20 104 2 100
偶然かも…
大差
9. ⚫ 要素 𝑥b と 𝑥c についても推定値 𝑟MLE 𝑥 を計算
⚫ 低頻度に対する推定値は変動が大きく不安定
𝑓nu 𝑥b と 𝑓nu 𝑥c の差は1だが、推定値は50と100で大きく変動
⇒ 低頻度に対する推定値をロバストにしたい
素朴な推定法の問題点 (2/2)
6
𝑥
頻度
𝑟MLE 𝑥
𝑥
𝑓de 𝑥 𝑓de 𝑥
𝑥
𝑓nu 𝑥 𝑓nu 𝑥
𝑥a 107 2000 104 100 50
𝑥b 107 20 104 1 50
𝑥c 107 20 104 2 100
差1
大きく変動
10. ⚫ 推定モデルと尤度比の真値との二乗誤差を最小にする定式化
正則化パラメータ 𝜆 ≥ 0 が推定値を低め(保守的)に見積もる
𝜆 が大きいほど推定値が保守的に見積もられる
我々の先行研究:
正則化を導入した尤度比推定法 [菊地:19]
7
Ƹ
𝑟 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥 + 𝜆
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
𝑥
頻度
𝑟MLE 𝑥 Ƹ
𝑟 𝑥
𝑥
𝑓de 𝑥 𝑓de 𝑥
𝑥
𝑓
nu 𝑥 𝑓
nu 𝑥
𝑥a 107 2000 104 100 50 47.6
𝑥b 107 20 104 1 50 8.3
𝑥c 107 20 104 2 100 16.7
※ Ƹ
𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5
11. ⚫ 正則化パラメータ 𝜆 により、低頻度に起因する問題を緩和
頻度の差を推定値に反映できる
低頻度に対する推定値をロバストにできる
先行研究 [菊地:19] の利点 (1/2)
Ƹ
𝑟 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥 + 𝜆
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
𝑥
頻度
𝑟MLE 𝑥 Ƹ
𝑟 𝑥
𝑥
𝑓de 𝑥 𝑓de 𝑥
𝑥
𝑓
nu 𝑥 𝑓
nu 𝑥
𝑥a 107 2000 104 100 50 47.6
𝑥b 107 20 104 1 50 8.3
𝑥c 107 20 104 2 100 16.7
※ Ƹ
𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5
8
12. ⚫ 正則化パラメータ 𝜆 により、低頻度に起因する問題を緩和
頻度の差を推定値に反映できる
低頻度に対する推定値をロバストにできる
先行研究 [菊地:19] の利点 (2/2)
Ƹ
𝑟 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥 + 𝜆
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
𝑥
頻度
𝑟MLE 𝑥 Ƹ
𝑟 𝑥
𝑥
𝑓de 𝑥 𝑓de 𝑥
𝑥
𝑓
nu 𝑥 𝑓
nu 𝑥
𝑥a 107 2000 104 100 50 47.6
𝑥b 107 20 104 1 50 8.3
𝑥c 107 20 104 2 100 16.7
※ Ƹ
𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5
9
14. ⚫ UNBの尤度比推定に 正則化による推定法 を用いる
⚫ クラスごとの正則化パラメータ 𝝀 = 𝜆𝑐 𝑐 ∈ 𝐶 を導入
少数派クラスの 𝜆𝑐 を大きな値とし、尤度比の過大推定を抑制
何らかの基準(例:Macro-F1)を最適化する値の組み合わせを探索
⚫ 尤度比の積がゼロになることを防ぐため補正頻度を使用
𝑓 𝑤𝑘, 𝑐 = 0 でも尤度比の積がゼロにならない
提案する分類器
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
𝑝 𝑤𝑘 𝑐
𝑝 𝑤𝑘 ҧ
𝑐 + 𝜆𝑐
𝑝 𝑤𝑘 𝑐 =
𝑓 𝑤𝑘, 𝑐 + 1
σ𝑤𝑘
𝑓 𝑤𝑘, 𝑐 + 2
𝑝 𝑤𝑘 ҧ
𝑐 =
𝑓 𝑤𝑘, ҧ
𝑐 + 1
σ𝑤𝑘
𝑓 𝑤𝑘, ҧ
𝑐 + 2
11
15. ⚫ 次の最適化問題を解くことで、最適値 𝝀′
= 𝜆𝑐
′
𝑐 ∈ 𝐶 を求める
Mクラスの分類問題を想定
MLCは提案する分類器
𝜆𝑐 ∈ 𝝀 が取る値の候補 Θ = 10−9, 10−8, ⋯ , 10−1
目的関数 𝐽 は Macro-F1 とし、開発データを分類することで算出
⚫ 𝝀′
を得るために差分進化法を利用(詳しい設定は論文を参照)
貪欲法や局所探索法といった、他の近似アルゴリズムも利用可能
正則化パラメータの決定方法
𝝀′
= argmax
𝝀∈ΘM
𝐽 MLC, 𝝀
𝜆𝑐
′ はクラス 𝑐 に対する正則化パラメータの最適値
12
16. ⚫ 目的:不均衡データの分類に対する提案手法の有効性を確認
⚫ 実験内容:文脈の7クラス分類
英文コーパスで固有表現の左にある文脈(単語10-gram)を、
どの固有表現のものか適切に分類する
7種類の固有表現:地名、組織名、日付、金、人名、%、時間
⚫ なぜこの実験か?
1. N-gram の次数 N が大きいと低頻度を多く扱う
2. 文脈の出現頻度が固有表現により大きく異なる(不均衡データ)
3. 正解が一意に定まるため、性能を定量的に評価できる
評価実験の概要
13
17. ⚫ ウォール・ストリート・ジャーナルコーパスの1987年版から作成
1. Stanford Named Entity Recognizer でコーパスに固有表現タグを付与
2. コーパスから記事をランダムに選択して、訓練・開発・評価用に分配
(訓練用に10,000記事、開発・評価用にそれぞれ1,000記事を分配)
3. 記事集合から文脈(単語10-gram)を抽出し、訓練・開発・評価データとする
⚫ 訓練データのインスタンス数(横軸:固有表現、縦軸:文脈の総頻度)
実験で使用するデータ
60,320
91,892
34,731 37,849
59,502
17,902
840
0
20,000
40,000
60,000
80,000
100,000
地名 組織名 日付 金 人名 % 時間
極端な
少数派クラス
多数派クラス
14
18. 1.分類器の訓練
訓練データの単語10-gram 𝑦 = 𝑤1, 𝑤2, ⋯ , 𝑤10 について頻度を数え上げる
𝑓 𝑤𝑘, 𝑐 :単語 𝑤𝑘 が固有表現 𝑐 の文脈として現れる頻度
𝑓 𝑤𝑘, ҧ
𝑐 :単語 𝑤𝑘 が 𝑐 以外の文脈として現れる頻度
2.提案手法:正則化パラメータの最適値 𝜆𝑐
′ ∈ 𝝀′ の決定
最適値の探索に差分進化法を利用
開発データを評価データとみなし分類を行い、Macro-F1が最大となる値の
組み合わせを探索する
3.インスタンス(10-gram)の分類
提案手法:手順2で求めた最適値 𝝀′ を使用
評価データにある全ての10-gramについて、どの固有表現の文脈かを分類
分類の手順
15
19. ⚫ Naïve Bayes 分類器(NB)
𝑝 𝑤𝑘 𝑐 の推定にはラプラススムージングを使用
⚫ Universal-set Naïve Bayes 分類器(UNB)
𝑝 ∙ は相対頻度の分母に2、分子に1を足した確率推定量*
提案手法に対する比較手法
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐 ෑ
𝑘=1
𝑛
𝑝 𝑤𝑘 𝑐
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
𝑟MLE 𝑤𝑘, 𝑐 𝑟MLE 𝑤𝑘, 𝑐 =
𝑝 𝑤𝑘 𝑐
𝑝 𝑤𝑘 ҧ
𝑐
* 尤度比をなす確率の推定に通常のスムージング法を用いると分類性能が悪化
𝜆𝑐 がない
16
20. ⚫ クラスごとの分類性能(UNBと提案手法)
各クラスの再現率 R𝑐、適合率 P𝑐、F1値 F𝑐
⚫ タスク全体での分類性能
マクロ平均:再現率、適合率、F1値
マイクロ平均:正解率
分類器の評価指標
17
予測
Negative Positive
正解
Negative TN𝑐 FP𝑐
Positive FN𝑐 TP𝑐
R𝑐 =
TP𝑐
TP𝑐 + FN𝑐
, P𝑐 =
TP𝑐
TP𝑐 + FP𝑐
, F𝑐 =
2P𝑐 ∙ R𝑐
P𝑐 + R𝑐
σ𝑐∈𝐶 R𝑐
𝐶
例)再現率のマクロ平均
Amicro =
σ𝑐∈𝐶 TP𝑐
𝑛𝑖𝑛𝑠𝑡
※ 𝑛𝑖𝑛𝑠𝑡 は評価データ中の全インスタンス数
21. ⚫ マクロ平均とマイクロ平均
値は高いほど良い
UNB:F1値と正解率がNBよりもはるかに低い
⇒ 補集合を用いているが、不均衡データを正確に分類できない
タスク全体での性能比較 (1/2)
分類器
マクロ平均 マイクロ平均
再現率 適合率 F1値 正解率
NB 0.546 0.510 0.483 0.529
UNB 0.299 0.713 0.241 0.160
提案手法 0.522 0.678 0.540 0.626
18
22. ⚫ マクロ平均とマイクロ平均
値は高いほど良い
提案手法:F1値、正解率が最良
提案手法とUNBの差異は正則化パラメータの有無のみ
⇒ 正則化パラメータが不均衡データの分類に有効なことを示唆
タスク全体での性能比較 (2/2)
分類器
マクロ平均 マイクロ平均
再現率 適合率 F1値 正解率
NB 0.546 0.510 0.483 0.529
UNB 0.299 0.713 0.241 0.160
提案手法 0.522 0.678 0.540 0.626
19
24. ⚫ 差分進化法を用いて正則化パラメータを設定
少数派クラスに大きい値が設定された
⇒ 少数派クラスの分類スコアが低めになり、分類されにくくなる
正則化パラメータの最適値 𝜆𝑐
′
クラス 𝜆𝑐
′
地名 10−6
組織名 10−9
日付 10−5
金 10−5
人名 10−5
% 10−4
時間 10−3
60,320
91,892
34,731 37,849
59,502
17,902
840
0
20,000
40,000
60,000
80,000
100,000
地名 組織名 日付 金 人名 % 時間
多数派クラス
少数派
クラス
訓練データのインスタンス数(再掲)
21
26. ⚫ 不均衡データに対処できる新しい分類器の提案
UNB + 正則化による尤度比推定法(我々の先行研究)
正則化パラメータにより、少数派クラスに対する分類スコアの
不当な高まりを防ぐ
⚫ 実験:固有表現の出現文脈を分類
UNBは多数の文脈を少数派クラスへ誤分類(Macro-F1:0.241)
提案手法は少数派クラスへの誤分類を抑制(Macro-F1:0.540)
※ 補集合を用いる他の分類器との比較、均衡データによる実験も行った
⚫ 少数派クラスの分類性能を向上させたい
正則化パラメータの最適化方法を変更、少数派クラスの性能を重視
例:Cost-Sensitive Learning
まとめ
23
27. ⚫ UNB
[Komiya:13] K. Komiya, Y. Ito, and Y. Kotani.
New naive bayes methods using data from all classes.
International Journal of Advanced Intelligence, Vol. 5, No. 1, pp. 1–12, 2013.
⚫ 正則化による尤度比推定法
[菊地:19] 菊地真人, 川上賢十, 吉田光男, 梅村恭司.
観測頻度に基づくゆう度比の保守的な直接推定.
電子情報通信学会論文誌D, Vol. J102-D, No. 4, pp. 289–301, 2019.
参考文献
24
29. ⚫ 分類問題:データを適切なカテゴリへと自動的に振り分ける問題
⚫ Naïve Bayes 分類器(NB)
𝑦 = 𝑤1, 𝑤2, ⋯ , 𝑤𝑛 は 𝑛 個の文字や単語からなるインスタンス
𝑐 ∈ 𝐶 はクラス(分類先)
Ƹ
𝑐 𝑦 は 𝑦 が属すると分類器が予測したクラス
Naïve Bayes分類器
1
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐 ෑ
𝑘=1
𝑛
𝑝 𝑤𝑘 𝑐
実装が容易で、クラス間のインスタンス数が均衡な場合に良好な分類性能
(分類対象)
しかし、実世界にあるデータの多くは不均衡データ
30. ⚫ NBの欠点:不均衡データをうまく分類できない
少数派クラスからは、少ない情報(低い頻度)しか得られない
⚫ Universal-set Naïve Bayes 分類器(UNB)
[Komiya:13]
補集合 ҧ
𝑐:クラス 𝑐 に属さない 𝑦 の集合
訓練に用いるデータ量が増える
NBの欠点と補集合の利用
2
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
尤度比の推定量:
Ƹ
𝑝 𝑤𝑘 𝑐
Ƹ
𝑝 𝑤𝑘 ҧ
𝑐
Ƹ
𝑝 𝑤𝑘 𝑐 =
𝑓 𝑤𝑘, 𝑐
σ𝑤𝑘
𝑓 𝑤𝑘, 𝑐
Ƹ
𝑝 𝑤𝑘 ҧ
𝑐 =
𝑓 𝑤𝑘, ҧ
𝑐
σ𝑤𝑘
𝑓 𝑤𝑘, ҧ
𝑐
低頻度から計算される推定値を過度に高く見積もる
𝑐 に含まれる
𝑤𝑘 の頻度
少数派クラスの分類スコアが高まり、多くの 𝑦 をそのクラスへ誤分類
31. ⚫ UNBの尤度比推定に 正則化による推定法(我々の先行研究) を用いる
真の尤度比との二乗誤差を最小化する枠組み
⚫ クラスごとの正則化パラメータ 𝝀 = 𝜆𝑐 𝑐 ∈ 𝐶 を導入
少数派クラスの 𝜆𝑐 を大きな値とし、尤度比の過大推定を抑制
Macro-F1を最大化する値の組み合わせを探索(開発データを使用)
⚫ 尤度比の積がゼロになることを防ぐため補正頻度を使用
提案する分類器
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
𝑝 𝑤𝑘 𝑐
𝑝 𝑤𝑘 ҧ
𝑐 + 𝜆𝑐
𝑝 𝑤𝑘 𝑐 =
𝑓 𝑤𝑘, 𝑐 + 1
σ𝑤𝑘
𝑓 𝑤𝑘, 𝑐 + 2
𝑝 𝑤𝑘 ҧ
𝑐 =
𝑓 𝑤𝑘, ҧ
𝑐 + 1
σ𝑤𝑘
𝑓 𝑤𝑘, ҧ
𝑐 + 2
3
[菊地:19]
32. ⚫ 実験内容:文脈の7クラス分類
英文コーパスで固有表現の左にある文脈 𝑦(単語10-gram)を、
どの固有表現のものか分類する
⚫ 訓練データの各クラスサイズと正則化パラメータの値の関係
評価実験
60,320
91,892
34,731 37,849
59,502
17,902
840
0
20,000
40,000
60,000
80,000
100,000
地名 組織名 日付 金 人名 % 時間
極端な
少数派クラス
多数派クラス
クラス 𝜆𝑐
地名 10−6
組織名 10−9
日付 10−5
金 10−5
人名 10−5
% 10−4
時間 10−3
訓練用の10,000記事に含まれる各文脈の総頻度
4
34. ⚫ 不均衡データに対処できる新しい分類器の提案
UNB + 正則化による尤度比推定法(我々の先行研究)
正則化パラメータにより、少数派クラスに対する分類スコアの
不当な高まりを防ぐ
⚫ 実験:固有表現の出現文脈を分類
UNBは多数の文脈を少数派クラスへ誤分類
提案手法は少数派クラスへの誤分類を抑制
※ 補集合を用いる他の分類器との比較、均衡データによる実験も行った
⚫ 少数派クラスの分類性能を向上させたい
正則化パラメータの最適化方法を変更、少数派クラスの性能を重視
例:Cost-Sensitive Learning
まとめ
6