SlideShare a Scribd company logo
1 of 34
Download to read offline
正則化による尤度比推定法を応用した
多値分類器の改良
0
DEIM Forum 2022 K31-2 (day3 p40)
菊地真人, 大囿忠親
名古屋工業大学大学院 情報工学専攻
⚫ 分類問題:データを適切なカテゴリへと自動的に振り分ける問題
 インスタンス(分類対象)の分類先であるクラスが
3つ以上ある場合は多値分類と呼ばれる
⚫ Naïve Bayes 分類器(NB)
 𝑦 = 𝑤1, 𝑤2, ⋯ , 𝑤𝑛 は 𝑛 個の文字や単語からなるインスタンス
 𝐶 はクラス変数、𝑐 ∈ 𝐶 はクラス
 Ƹ
𝑐 𝑦 は 𝑦 が属すると分類器が予測したクラス
Naïve Bayes分類器
1
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐 ෑ
𝑘=1
𝑛
𝑝 𝑤𝑘 𝑐
実装が容易で、クラス間のインスタンス数が均衡な場合に良好な分類性能
しかし、実世界にあるデータの多くは不均衡データ
⚫ NBの欠点:不均衡データをうまく分類できない
 クラス間のインスタンス数に大きな差がある場合、分類性能が
大きく低下してしまう
 少数派クラスからは、少ない情報(低い頻度)しか得られない
⚫ 対策:補集合 ҧ
𝑐 の利用
 訓練に使用するデータ量が増え、クラス間の不均衡さも低減
NBの欠点と補集合の利用
2
0
20
40
60
c1 c2 c3 c4
インスタンス数
クラス
0
20
40
60
c1 c2 c3 c4
インスタンス数
補集合
ҧ
𝑐:𝑐 以外に属する
インスタンスの集合
10 10
20
40
𝑐1 𝑐2 𝑐3 𝑐4 ҧ
𝑐1 ҧ
𝑐2 ҧ
𝑐3 ҧ
𝑐4
70 70
60
40
⚫ Universal-set Naïve Bayes 分類器(UNB)[Komiya:13]
⚫ 本研究:UNBで使用される尤度比推定法に着目
 推定法:それぞれの確率を相対頻度で求めて比を取ること
× 低頻度から推定される 𝑟 𝑥 を過大推定する(後で例を示す)
⇒ 少数派クラスに対する分類スコアを過度に大きくし、
⇒ 多数のインスタンスをそのクラスへと誤分類してしまう
補集合を利用した分類器
3
𝑟 𝑤𝑘, 𝑐 =
𝑝 𝑤𝑘 𝑐
𝑝 𝑤𝑘 ҧ
𝑐
𝑟 𝑥 =
𝑝nu 𝑥
𝑝de 𝑥
尤度比
推定対象:
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
𝑟 𝑤𝑘, 𝑐
※ deは尤度比の分母、nuは分子を
※ 表す添え字
⚫ 確率を相対頻度 Ƹ
𝑝∗ 𝑥 で求め、その比を取ること
 𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た、離散要素 𝑥 の頻度
⚫ σ𝑥 𝑓de 𝑥 = 107
, 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104
, 𝑓nu 𝑥a = 100
尤度比の素朴な推定法 𝑟MLE 𝑥
4
𝑟MLE 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
Ƹ
𝑝de 𝑥a =
𝑓de 𝑥a
σ𝑥 𝑓de 𝑥
=
2000
107
= 2 × 10−4
Ƹ
𝑝nu 𝑥a =
𝑓nu 𝑥a
σ𝑥 𝑓nu 𝑥
=
100
104
= 10−2
⚫ 確率を相対頻度 Ƹ
𝑝∗ 𝑥 で求め、その比を取ること
 𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た 𝑥 の頻度
⚫ σ𝑥 𝑓de 𝑥 = 107
, 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104
, 𝑓nu 𝑥a = 100
尤度比の素朴な推定法 𝑟MLE 𝑥
4
𝑟MLE 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
Ƹ
𝑝de 𝑥a =
𝑓de 𝑥a
σ𝑥 𝑓de 𝑥
=
2000
107
= 2 × 10−4
Ƹ
𝑝nu 𝑥a =
𝑓nu 𝑥a
σ𝑥 𝑓nu 𝑥
=
100
104
= 10−2
⚫ 確率を相対頻度 Ƹ
𝑝∗ 𝑥 で求め、その比を取ること
 𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た 𝑥 の頻度
⚫ σ𝑥 𝑓de 𝑥 = 107
, 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104
, 𝑓nu 𝑥a = 100
尤度比の素朴な推定法 𝑟MLE 𝑥
4
𝑟MLE 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
𝑟MLE 𝑥a =
Ƹ
𝑝nu 𝑥a
Ƹ
𝑝de 𝑥a
=
10−2
2 × 10−4
= 50
⚫ 要素 𝑥b と 𝑥c についても推定値 𝑟MLE 𝑥 を計算
⚫ 低頻度に対する推定値を過度に高く見積もる
 𝑓∗ 𝑥a と 𝑓∗ 𝑥b は大差あるが、要素 𝑥a と 𝑥b の推定値は50と等しい
⇒ 頻度差を推定値に反映したい
素朴な推定法の問題点 (1/2)
5
𝑥
頻度
𝑟MLE 𝑥
෍
𝑥
𝑓de 𝑥 𝑓de 𝑥 ෍
𝑥
𝑓nu 𝑥 𝑓nu 𝑥
𝑥a 107 2000 104 100 50
𝑥b 107 20 104 1 50
𝑥c 107 20 104 2 100
偶然かも…
大差
⚫ 要素 𝑥b と 𝑥c についても推定値 𝑟MLE 𝑥 を計算
⚫ 低頻度に対する推定値は変動が大きく不安定
 𝑓nu 𝑥b と 𝑓nu 𝑥c の差は1だが、推定値は50と100で大きく変動
⇒ 低頻度に対する推定値をロバストにしたい
素朴な推定法の問題点 (2/2)
6
𝑥
頻度
𝑟MLE 𝑥
෍
𝑥
𝑓de 𝑥 𝑓de 𝑥 ෍
𝑥
𝑓nu 𝑥 𝑓nu 𝑥
𝑥a 107 2000 104 100 50
𝑥b 107 20 104 1 50
𝑥c 107 20 104 2 100
差1
大きく変動
⚫ 推定モデルと尤度比の真値との二乗誤差を最小にする定式化
 正則化パラメータ 𝜆 ≥ 0 が推定値を低め(保守的)に見積もる
 𝜆 が大きいほど推定値が保守的に見積もられる
我々の先行研究:
正則化を導入した尤度比推定法 [菊地:19]
7
Ƹ
𝑟 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥 + 𝜆
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
𝑥
頻度
𝑟MLE 𝑥 Ƹ
𝑟 𝑥
෍
𝑥
𝑓de 𝑥 𝑓de 𝑥 ෍
𝑥
𝑓
nu 𝑥 𝑓
nu 𝑥
𝑥a 107 2000 104 100 50 47.6
𝑥b 107 20 104 1 50 8.3
𝑥c 107 20 104 2 100 16.7
※ Ƹ
𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5
⚫ 正則化パラメータ 𝜆 により、低頻度に起因する問題を緩和
 頻度の差を推定値に反映できる
 低頻度に対する推定値をロバストにできる
先行研究 [菊地:19] の利点 (1/2)
Ƹ
𝑟 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥 + 𝜆
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
𝑥
頻度
𝑟MLE 𝑥 Ƹ
𝑟 𝑥
෍
𝑥
𝑓de 𝑥 𝑓de 𝑥 ෍
𝑥
𝑓
nu 𝑥 𝑓
nu 𝑥
𝑥a 107 2000 104 100 50 47.6
𝑥b 107 20 104 1 50 8.3
𝑥c 107 20 104 2 100 16.7
※ Ƹ
𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5
8
⚫ 正則化パラメータ 𝜆 により、低頻度に起因する問題を緩和
 頻度の差を推定値に反映できる
 低頻度に対する推定値をロバストにできる
先行研究 [菊地:19] の利点 (2/2)
Ƹ
𝑟 𝑥 =
Ƹ
𝑝nu 𝑥
Ƹ
𝑝de 𝑥 + 𝜆
Ƹ
𝑝∗ 𝑥 =
𝑓∗ 𝑥
σ𝑥 𝑓∗ 𝑥
, ∗∈ de, nu
𝑥
頻度
𝑟MLE 𝑥 Ƹ
𝑟 𝑥
෍
𝑥
𝑓de 𝑥 𝑓de 𝑥 ෍
𝑥
𝑓
nu 𝑥 𝑓
nu 𝑥
𝑥a 107 2000 104 100 50 47.6
𝑥b 107 20 104 1 50 8.3
𝑥c 107 20 104 2 100 16.7
※ Ƹ
𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5
9
⚫ 不均衡データに対処できる新しい分類器の提案
⚫ コーパスから抽出した「固有表現*の出現文脈」を分類する実験
 UNB:
大量の文脈を少数派クラスへ誤分類し、NBよりも低い分類性能
 提案する分類器:
正則化で分類スコアを制御し、少数派クラスへの誤分類を抑制
本研究の貢献
UNB [Komiya:13]
◎ 補集合を利用
× 尤度比の推定法に問題あり
⇒ 低頻度へ過大な推定値
✓ 低頻度による過大推定を抑制
✓ 低頻度へ安定な推定値を提供
正則化による
尤度比推定法 [菊地:19]
+
* 人名や地名といった、特定種類の固有名詞
10
⚫ UNBの尤度比推定に 正則化による推定法 を用いる
⚫ クラスごとの正則化パラメータ 𝝀 = 𝜆𝑐 𝑐 ∈ 𝐶 を導入
 少数派クラスの 𝜆𝑐 を大きな値とし、尤度比の過大推定を抑制
 何らかの基準(例:Macro-F1)を最適化する値の組み合わせを探索
⚫ 尤度比の積がゼロになることを防ぐため補正頻度を使用
 𝑓 𝑤𝑘, 𝑐 = 0 でも尤度比の積がゼロにならない
提案する分類器
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
෤
𝑝 𝑤𝑘 𝑐
෤
𝑝 𝑤𝑘 ҧ
𝑐 + 𝜆𝑐
෤
𝑝 𝑤𝑘 𝑐 =
𝑓 𝑤𝑘, 𝑐 + 1
σ𝑤𝑘
𝑓 𝑤𝑘, 𝑐 + 2
෤
𝑝 𝑤𝑘 ҧ
𝑐 =
𝑓 𝑤𝑘, ҧ
𝑐 + 1
σ𝑤𝑘
𝑓 𝑤𝑘, ҧ
𝑐 + 2
11
⚫ 次の最適化問題を解くことで、最適値 𝝀′
= 𝜆𝑐
′
𝑐 ∈ 𝐶 を求める
 Mクラスの分類問題を想定
 MLCは提案する分類器
 𝜆𝑐 ∈ 𝝀 が取る値の候補 Θ = 10−9, 10−8, ⋯ , 10−1
 目的関数 𝐽 は Macro-F1 とし、開発データを分類することで算出
⚫ 𝝀′
を得るために差分進化法を利用(詳しい設定は論文を参照)
 貪欲法や局所探索法といった、他の近似アルゴリズムも利用可能
正則化パラメータの決定方法
𝝀′
= argmax
𝝀∈ΘM
𝐽 MLC, 𝝀
𝜆𝑐
′ はクラス 𝑐 に対する正則化パラメータの最適値
12
⚫ 目的:不均衡データの分類に対する提案手法の有効性を確認
⚫ 実験内容:文脈の7クラス分類
 英文コーパスで固有表現の左にある文脈(単語10-gram)を、
どの固有表現のものか適切に分類する
 7種類の固有表現:地名、組織名、日付、金、人名、%、時間
⚫ なぜこの実験か?
1. N-gram の次数 N が大きいと低頻度を多く扱う
2. 文脈の出現頻度が固有表現により大きく異なる(不均衡データ)
3. 正解が一意に定まるため、性能を定量的に評価できる
評価実験の概要
13
⚫ ウォール・ストリート・ジャーナルコーパスの1987年版から作成
1. Stanford Named Entity Recognizer でコーパスに固有表現タグを付与
2. コーパスから記事をランダムに選択して、訓練・開発・評価用に分配
(訓練用に10,000記事、開発・評価用にそれぞれ1,000記事を分配)
3. 記事集合から文脈(単語10-gram)を抽出し、訓練・開発・評価データとする
⚫ 訓練データのインスタンス数(横軸:固有表現、縦軸:文脈の総頻度)
実験で使用するデータ
60,320
91,892
34,731 37,849
59,502
17,902
840
0
20,000
40,000
60,000
80,000
100,000
地名 組織名 日付 金 人名 % 時間
極端な
少数派クラス
多数派クラス
14
1.分類器の訓練
 訓練データの単語10-gram 𝑦 = 𝑤1, 𝑤2, ⋯ , 𝑤10 について頻度を数え上げる
𝑓 𝑤𝑘, 𝑐 :単語 𝑤𝑘 が固有表現 𝑐 の文脈として現れる頻度
𝑓 𝑤𝑘, ҧ
𝑐 :単語 𝑤𝑘 が 𝑐 以外の文脈として現れる頻度
2.提案手法:正則化パラメータの最適値 𝜆𝑐
′ ∈ 𝝀′ の決定
 最適値の探索に差分進化法を利用
 開発データを評価データとみなし分類を行い、Macro-F1が最大となる値の
組み合わせを探索する
3.インスタンス(10-gram)の分類
 提案手法:手順2で求めた最適値 𝝀′ を使用
 評価データにある全ての10-gramについて、どの固有表現の文脈かを分類
分類の手順
15
⚫ Naïve Bayes 分類器(NB)
 𝑝 𝑤𝑘 𝑐 の推定にはラプラススムージングを使用
⚫ Universal-set Naïve Bayes 分類器(UNB)
 ෤
𝑝 ∙ は相対頻度の分母に2、分子に1を足した確率推定量*
提案手法に対する比較手法
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐 ෑ
𝑘=1
𝑛
𝑝 𝑤𝑘 𝑐
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
𝑟MLE 𝑤𝑘, 𝑐 𝑟MLE 𝑤𝑘, 𝑐 =
෤
𝑝 𝑤𝑘 𝑐
෤
𝑝 𝑤𝑘 ҧ
𝑐
* 尤度比をなす確率の推定に通常のスムージング法を用いると分類性能が悪化
𝜆𝑐 がない
16
⚫ クラスごとの分類性能(UNBと提案手法)
 各クラスの再現率 R𝑐、適合率 P𝑐、F1値 F𝑐
⚫ タスク全体での分類性能
 マクロ平均:再現率、適合率、F1値
 マイクロ平均:正解率
分類器の評価指標
17
予測
Negative Positive
正解
Negative TN𝑐 FP𝑐
Positive FN𝑐 TP𝑐
R𝑐 =
TP𝑐
TP𝑐 + FN𝑐
, P𝑐 =
TP𝑐
TP𝑐 + FP𝑐
, F𝑐 =
2P𝑐 ∙ R𝑐
P𝑐 + R𝑐
σ𝑐∈𝐶 R𝑐
𝐶
例)再現率のマクロ平均
Amicro =
σ𝑐∈𝐶 TP𝑐
𝑛𝑖𝑛𝑠𝑡
※ 𝑛𝑖𝑛𝑠𝑡 は評価データ中の全インスタンス数
⚫ マクロ平均とマイクロ平均
 値は高いほど良い
 UNB:F1値と正解率がNBよりもはるかに低い
⇒ 補集合を用いているが、不均衡データを正確に分類できない
タスク全体での性能比較 (1/2)
分類器
マクロ平均 マイクロ平均
再現率 適合率 F1値 正解率
NB 0.546 0.510 0.483 0.529
UNB 0.299 0.713 0.241 0.160
提案手法 0.522 0.678 0.540 0.626
18
⚫ マクロ平均とマイクロ平均
 値は高いほど良い
 提案手法:F1値、正解率が最良
 提案手法とUNBの差異は正則化パラメータの有無のみ
⇒ 正則化パラメータが不均衡データの分類に有効なことを示唆
タスク全体での性能比較 (2/2)
分類器
マクロ平均 マイクロ平均
再現率 適合率 F1値 正解率
NB 0.546 0.510 0.483 0.529
UNB 0.299 0.713 0.241 0.160
提案手法 0.522 0.678 0.540 0.626
19
⚫ 少数派クラスの影響により、ほとんどのクラスで分類性能が悪い
クラスごとの分類性能(UNB)
0
0.2
0.4
0.6
0.8
1
地名 組織名 日付 金 人名 % 時間
再現率 適合率 F1値
悪
良
少数派クラス:
多数の誤分類
他のクラス:
ごく少数しか分類されず、再現率とF1値が低い
20
⚫ 差分進化法を用いて正則化パラメータを設定
 少数派クラスに大きい値が設定された
⇒ 少数派クラスの分類スコアが低めになり、分類されにくくなる
正則化パラメータの最適値 𝜆𝑐
′
クラス 𝜆𝑐
′
地名 10−6
組織名 10−9
日付 10−5
金 10−5
人名 10−5
% 10−4
時間 10−3
60,320
91,892
34,731 37,849
59,502
17,902
840
0
20,000
40,000
60,000
80,000
100,000
地名 組織名 日付 金 人名 % 時間
多数派クラス
少数派
クラス
訓練データのインスタンス数(再掲)
21
⚫ 正則化パラメータの導入で全クラスのF1値が向上
クラスごとの分類性能(提案手法)
0
0.2
0.4
0.6
0.8
1
地名 組織名 日付 金 人名 % 時間
再現率 適合率 F1値
悪
良
少数派クラス:
確度の高いものだけ分類
他のクラス:
再現率と適合率のバランスが取れている
22
⚫ 不均衡データに対処できる新しい分類器の提案
 UNB + 正則化による尤度比推定法(我々の先行研究)
 正則化パラメータにより、少数派クラスに対する分類スコアの
不当な高まりを防ぐ
⚫ 実験:固有表現の出現文脈を分類
 UNBは多数の文脈を少数派クラスへ誤分類(Macro-F1:0.241)
 提案手法は少数派クラスへの誤分類を抑制(Macro-F1:0.540)
※ 補集合を用いる他の分類器との比較、均衡データによる実験も行った
⚫ 少数派クラスの分類性能を向上させたい
 正則化パラメータの最適化方法を変更、少数派クラスの性能を重視
 例:Cost-Sensitive Learning
まとめ
23
⚫ UNB
 [Komiya:13] K. Komiya, Y. Ito, and Y. Kotani.
New naive bayes methods using data from all classes.
International Journal of Advanced Intelligence, Vol. 5, No. 1, pp. 1–12, 2013.
⚫ 正則化による尤度比推定法
 [菊地:19] 菊地真人, 川上賢十, 吉田光男, 梅村恭司.
観測頻度に基づくゆう度比の保守的な直接推定.
電子情報通信学会論文誌D, Vol. J102-D, No. 4, pp. 289–301, 2019.
参考文献
24
正則化による尤度比推定法を応用した
多値分類器の改良
0
DEIM Forum 2022 K31-2 (day3 p40)
菊地真人, 大囿忠親
名古屋工業大学大学院 情報工学専攻
発表資料短縮版
⚫ 分類問題:データを適切なカテゴリへと自動的に振り分ける問題
⚫ Naïve Bayes 分類器(NB)
 𝑦 = 𝑤1, 𝑤2, ⋯ , 𝑤𝑛 は 𝑛 個の文字や単語からなるインスタンス
 𝑐 ∈ 𝐶 はクラス(分類先)
 Ƹ
𝑐 𝑦 は 𝑦 が属すると分類器が予測したクラス
Naïve Bayes分類器
1
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐 ෑ
𝑘=1
𝑛
𝑝 𝑤𝑘 𝑐
実装が容易で、クラス間のインスタンス数が均衡な場合に良好な分類性能
(分類対象)
しかし、実世界にあるデータの多くは不均衡データ
⚫ NBの欠点:不均衡データをうまく分類できない
 少数派クラスからは、少ない情報(低い頻度)しか得られない
⚫ Universal-set Naïve Bayes 分類器(UNB)
[Komiya:13]
 補集合 ҧ
𝑐:クラス 𝑐 に属さない 𝑦 の集合
 訓練に用いるデータ量が増える
NBの欠点と補集合の利用
2
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
尤度比の推定量:
Ƹ
𝑝 𝑤𝑘 𝑐
Ƹ
𝑝 𝑤𝑘 ҧ
𝑐
Ƹ
𝑝 𝑤𝑘 𝑐 =
𝑓 𝑤𝑘, 𝑐
σ𝑤𝑘
𝑓 𝑤𝑘, 𝑐
Ƹ
𝑝 𝑤𝑘 ҧ
𝑐 =
𝑓 𝑤𝑘, ҧ
𝑐
σ𝑤𝑘
𝑓 𝑤𝑘, ҧ
𝑐
低頻度から計算される推定値を過度に高く見積もる
𝑐 に含まれる
𝑤𝑘 の頻度
少数派クラスの分類スコアが高まり、多くの 𝑦 をそのクラスへ誤分類
⚫ UNBの尤度比推定に 正則化による推定法(我々の先行研究) を用いる
 真の尤度比との二乗誤差を最小化する枠組み
⚫ クラスごとの正則化パラメータ 𝝀 = 𝜆𝑐 𝑐 ∈ 𝐶 を導入
 少数派クラスの 𝜆𝑐 を大きな値とし、尤度比の過大推定を抑制
 Macro-F1を最大化する値の組み合わせを探索(開発データを使用)
⚫ 尤度比の積がゼロになることを防ぐため補正頻度を使用
提案する分類器
Ƹ
𝑐 𝑦 = argmax
𝑐∈𝐶
𝑝 𝑐
𝑝 ҧ
𝑐
ෑ
𝑘=1
𝑛
෤
𝑝 𝑤𝑘 𝑐
෤
𝑝 𝑤𝑘 ҧ
𝑐 + 𝜆𝑐
෤
𝑝 𝑤𝑘 𝑐 =
𝑓 𝑤𝑘, 𝑐 + 1
σ𝑤𝑘
𝑓 𝑤𝑘, 𝑐 + 2
෤
𝑝 𝑤𝑘 ҧ
𝑐 =
𝑓 𝑤𝑘, ҧ
𝑐 + 1
σ𝑤𝑘
𝑓 𝑤𝑘, ҧ
𝑐 + 2
3
[菊地:19]
⚫ 実験内容:文脈の7クラス分類
 英文コーパスで固有表現の左にある文脈 𝑦(単語10-gram)を、
どの固有表現のものか分類する
⚫ 訓練データの各クラスサイズと正則化パラメータの値の関係
評価実験
60,320
91,892
34,731 37,849
59,502
17,902
840
0
20,000
40,000
60,000
80,000
100,000
地名 組織名 日付 金 人名 % 時間
極端な
少数派クラス
多数派クラス
クラス 𝜆𝑐
地名 10−6
組織名 10−9
日付 10−5
金 10−5
人名 10−5
% 10−4
時間 10−3
訓練用の10,000記事に含まれる各文脈の総頻度
4
⚫ 評価用の1,000記事に含まれる文脈を分類
 UNB:少数派クラスへ多くの文脈を誤分類、全体的にF1値が低い
 提案手法:自信のない少数派クラスへ確度の高い文脈のみを分類
⇒ 全クラスでF1値が向上
実験結果 UNB vs. 提案手法
0
0.5
1
地名 組織名 日付 金 人名 % 時間
0
0.5
1
地名 組織名 日付 金 人名 % 時間
再現率 適合率 F1値
5
⚫ 不均衡データに対処できる新しい分類器の提案
 UNB + 正則化による尤度比推定法(我々の先行研究)
 正則化パラメータにより、少数派クラスに対する分類スコアの
不当な高まりを防ぐ
⚫ 実験:固有表現の出現文脈を分類
 UNBは多数の文脈を少数派クラスへ誤分類
 提案手法は少数派クラスへの誤分類を抑制
※ 補集合を用いる他の分類器との比較、均衡データによる実験も行った
⚫ 少数派クラスの分類性能を向上させたい
 正則化パラメータの最適化方法を変更、少数派クラスの性能を重視
 例:Cost-Sensitive Learning
まとめ
6

More Related Content

What's hot

ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシンHirotaka Hachiya
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング大貴 末廣
 
Rm20150520 6key
Rm20150520 6keyRm20150520 6key
Rm20150520 6keyyouwatari
 
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Yosuke Shinya
 
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎Seiichi Uchida
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
要因計画データに対するベイズ推定アプローチ
要因計画データに対するベイズ推定アプローチ要因計画データに対するベイズ推定アプローチ
要因計画データに対するベイズ推定アプローチTakashi Yamane
 

What's hot (9)

ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
 
Rm20150520 6key
Rm20150520 6keyRm20150520 6key
Rm20150520 6key
 
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
 
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
要因計画データに対するベイズ推定アプローチ
要因計画データに対するベイズ推定アプローチ要因計画データに対するベイズ推定アプローチ
要因計画データに対するベイズ推定アプローチ
 

Similar to 正則化による尤度比推定法を応用した多値分類器の改良

効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析aa_aa_aa
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2Ryoma Nakagawa
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習Hirotaka Hachiya
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析Hirotaka Hachiya
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定Hiroshi Nakagawa
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析Hirotaka Hachiya
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdfkeiodig
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersSatoshi Hara
 
深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①Shohei Miyashita
 
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~Kensuke Otsuki
 

Similar to 正則化による尤度比推定法を応用した多値分類器の改良 (20)

効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
Darm3(samplesize)
Darm3(samplesize)Darm3(samplesize)
Darm3(samplesize)
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
 
Rゼミ 3
Rゼミ 3Rゼミ 3
Rゼミ 3
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
 
深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①
 
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
 

正則化による尤度比推定法を応用した多値分類器の改良

  • 1. 正則化による尤度比推定法を応用した 多値分類器の改良 0 DEIM Forum 2022 K31-2 (day3 p40) 菊地真人, 大囿忠親 名古屋工業大学大学院 情報工学専攻
  • 2. ⚫ 分類問題:データを適切なカテゴリへと自動的に振り分ける問題  インスタンス(分類対象)の分類先であるクラスが 3つ以上ある場合は多値分類と呼ばれる ⚫ Naïve Bayes 分類器(NB)  𝑦 = 𝑤1, 𝑤2, ⋯ , 𝑤𝑛 は 𝑛 個の文字や単語からなるインスタンス  𝐶 はクラス変数、𝑐 ∈ 𝐶 はクラス  Ƹ 𝑐 𝑦 は 𝑦 が属すると分類器が予測したクラス Naïve Bayes分類器 1 Ƹ 𝑐 𝑦 = argmax 𝑐∈𝐶 𝑝 𝑐 ෑ 𝑘=1 𝑛 𝑝 𝑤𝑘 𝑐 実装が容易で、クラス間のインスタンス数が均衡な場合に良好な分類性能 しかし、実世界にあるデータの多くは不均衡データ
  • 3. ⚫ NBの欠点:不均衡データをうまく分類できない  クラス間のインスタンス数に大きな差がある場合、分類性能が 大きく低下してしまう  少数派クラスからは、少ない情報(低い頻度)しか得られない ⚫ 対策:補集合 ҧ 𝑐 の利用  訓練に使用するデータ量が増え、クラス間の不均衡さも低減 NBの欠点と補集合の利用 2 0 20 40 60 c1 c2 c3 c4 インスタンス数 クラス 0 20 40 60 c1 c2 c3 c4 インスタンス数 補集合 ҧ 𝑐:𝑐 以外に属する インスタンスの集合 10 10 20 40 𝑐1 𝑐2 𝑐3 𝑐4 ҧ 𝑐1 ҧ 𝑐2 ҧ 𝑐3 ҧ 𝑐4 70 70 60 40
  • 4. ⚫ Universal-set Naïve Bayes 分類器(UNB)[Komiya:13] ⚫ 本研究:UNBで使用される尤度比推定法に着目  推定法:それぞれの確率を相対頻度で求めて比を取ること × 低頻度から推定される 𝑟 𝑥 を過大推定する(後で例を示す) ⇒ 少数派クラスに対する分類スコアを過度に大きくし、 ⇒ 多数のインスタンスをそのクラスへと誤分類してしまう 補集合を利用した分類器 3 𝑟 𝑤𝑘, 𝑐 = 𝑝 𝑤𝑘 𝑐 𝑝 𝑤𝑘 ҧ 𝑐 𝑟 𝑥 = 𝑝nu 𝑥 𝑝de 𝑥 尤度比 推定対象: Ƹ 𝑐 𝑦 = argmax 𝑐∈𝐶 𝑝 𝑐 𝑝 ҧ 𝑐 ෑ 𝑘=1 𝑛 𝑟 𝑤𝑘, 𝑐 ※ deは尤度比の分母、nuは分子を ※ 表す添え字
  • 5. ⚫ 確率を相対頻度 Ƹ 𝑝∗ 𝑥 で求め、その比を取ること  𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た、離散要素 𝑥 の頻度 ⚫ σ𝑥 𝑓de 𝑥 = 107 , 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104 , 𝑓nu 𝑥a = 100 尤度比の素朴な推定法 𝑟MLE 𝑥 4 𝑟MLE 𝑥 = Ƹ 𝑝nu 𝑥 Ƹ 𝑝de 𝑥 Ƹ 𝑝∗ 𝑥 = 𝑓∗ 𝑥 σ𝑥 𝑓∗ 𝑥 , ∗∈ de, nu Ƹ 𝑝de 𝑥a = 𝑓de 𝑥a σ𝑥 𝑓de 𝑥 = 2000 107 = 2 × 10−4 Ƹ 𝑝nu 𝑥a = 𝑓nu 𝑥a σ𝑥 𝑓nu 𝑥 = 100 104 = 10−2
  • 6. ⚫ 確率を相対頻度 Ƹ 𝑝∗ 𝑥 で求め、その比を取ること  𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た 𝑥 の頻度 ⚫ σ𝑥 𝑓de 𝑥 = 107 , 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104 , 𝑓nu 𝑥a = 100 尤度比の素朴な推定法 𝑟MLE 𝑥 4 𝑟MLE 𝑥 = Ƹ 𝑝nu 𝑥 Ƹ 𝑝de 𝑥 Ƹ 𝑝∗ 𝑥 = 𝑓∗ 𝑥 σ𝑥 𝑓∗ 𝑥 , ∗∈ de, nu Ƹ 𝑝de 𝑥a = 𝑓de 𝑥a σ𝑥 𝑓de 𝑥 = 2000 107 = 2 × 10−4 Ƹ 𝑝nu 𝑥a = 𝑓nu 𝑥a σ𝑥 𝑓nu 𝑥 = 100 104 = 10−2
  • 7. ⚫ 確率を相対頻度 Ƹ 𝑝∗ 𝑥 で求め、その比を取ること  𝑓∗ 𝑥 は確率分布 𝑝∗ 𝑥 から得た 𝑥 の頻度 ⚫ σ𝑥 𝑓de 𝑥 = 107 , 𝑓de 𝑥a = 2000, σ𝑥 𝑓nu 𝑥 = 104 , 𝑓nu 𝑥a = 100 尤度比の素朴な推定法 𝑟MLE 𝑥 4 𝑟MLE 𝑥 = Ƹ 𝑝nu 𝑥 Ƹ 𝑝de 𝑥 Ƹ 𝑝∗ 𝑥 = 𝑓∗ 𝑥 σ𝑥 𝑓∗ 𝑥 , ∗∈ de, nu 𝑟MLE 𝑥a = Ƹ 𝑝nu 𝑥a Ƹ 𝑝de 𝑥a = 10−2 2 × 10−4 = 50
  • 8. ⚫ 要素 𝑥b と 𝑥c についても推定値 𝑟MLE 𝑥 を計算 ⚫ 低頻度に対する推定値を過度に高く見積もる  𝑓∗ 𝑥a と 𝑓∗ 𝑥b は大差あるが、要素 𝑥a と 𝑥b の推定値は50と等しい ⇒ 頻度差を推定値に反映したい 素朴な推定法の問題点 (1/2) 5 𝑥 頻度 𝑟MLE 𝑥 ෍ 𝑥 𝑓de 𝑥 𝑓de 𝑥 ෍ 𝑥 𝑓nu 𝑥 𝑓nu 𝑥 𝑥a 107 2000 104 100 50 𝑥b 107 20 104 1 50 𝑥c 107 20 104 2 100 偶然かも… 大差
  • 9. ⚫ 要素 𝑥b と 𝑥c についても推定値 𝑟MLE 𝑥 を計算 ⚫ 低頻度に対する推定値は変動が大きく不安定  𝑓nu 𝑥b と 𝑓nu 𝑥c の差は1だが、推定値は50と100で大きく変動 ⇒ 低頻度に対する推定値をロバストにしたい 素朴な推定法の問題点 (2/2) 6 𝑥 頻度 𝑟MLE 𝑥 ෍ 𝑥 𝑓de 𝑥 𝑓de 𝑥 ෍ 𝑥 𝑓nu 𝑥 𝑓nu 𝑥 𝑥a 107 2000 104 100 50 𝑥b 107 20 104 1 50 𝑥c 107 20 104 2 100 差1 大きく変動
  • 10. ⚫ 推定モデルと尤度比の真値との二乗誤差を最小にする定式化  正則化パラメータ 𝜆 ≥ 0 が推定値を低め(保守的)に見積もる  𝜆 が大きいほど推定値が保守的に見積もられる 我々の先行研究: 正則化を導入した尤度比推定法 [菊地:19] 7 Ƹ 𝑟 𝑥 = Ƹ 𝑝nu 𝑥 Ƹ 𝑝de 𝑥 + 𝜆 Ƹ 𝑝∗ 𝑥 = 𝑓∗ 𝑥 σ𝑥 𝑓∗ 𝑥 , ∗∈ de, nu 𝑥 頻度 𝑟MLE 𝑥 Ƹ 𝑟 𝑥 ෍ 𝑥 𝑓de 𝑥 𝑓de 𝑥 ෍ 𝑥 𝑓 nu 𝑥 𝑓 nu 𝑥 𝑥a 107 2000 104 100 50 47.6 𝑥b 107 20 104 1 50 8.3 𝑥c 107 20 104 2 100 16.7 ※ Ƹ 𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5
  • 11. ⚫ 正則化パラメータ 𝜆 により、低頻度に起因する問題を緩和  頻度の差を推定値に反映できる  低頻度に対する推定値をロバストにできる 先行研究 [菊地:19] の利点 (1/2) Ƹ 𝑟 𝑥 = Ƹ 𝑝nu 𝑥 Ƹ 𝑝de 𝑥 + 𝜆 Ƹ 𝑝∗ 𝑥 = 𝑓∗ 𝑥 σ𝑥 𝑓∗ 𝑥 , ∗∈ de, nu 𝑥 頻度 𝑟MLE 𝑥 Ƹ 𝑟 𝑥 ෍ 𝑥 𝑓de 𝑥 𝑓de 𝑥 ෍ 𝑥 𝑓 nu 𝑥 𝑓 nu 𝑥 𝑥a 107 2000 104 100 50 47.6 𝑥b 107 20 104 1 50 8.3 𝑥c 107 20 104 2 100 16.7 ※ Ƹ 𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5 8
  • 12. ⚫ 正則化パラメータ 𝜆 により、低頻度に起因する問題を緩和  頻度の差を推定値に反映できる  低頻度に対する推定値をロバストにできる 先行研究 [菊地:19] の利点 (2/2) Ƹ 𝑟 𝑥 = Ƹ 𝑝nu 𝑥 Ƹ 𝑝de 𝑥 + 𝜆 Ƹ 𝑝∗ 𝑥 = 𝑓∗ 𝑥 σ𝑥 𝑓∗ 𝑥 , ∗∈ de, nu 𝑥 頻度 𝑟MLE 𝑥 Ƹ 𝑟 𝑥 ෍ 𝑥 𝑓de 𝑥 𝑓de 𝑥 ෍ 𝑥 𝑓 nu 𝑥 𝑓 nu 𝑥 𝑥a 107 2000 104 100 50 47.6 𝑥b 107 20 104 1 50 8.3 𝑥c 107 20 104 2 100 16.7 ※ Ƹ 𝑟 𝑥 の正則化パラメータ 𝜆 = 10−5 9
  • 13. ⚫ 不均衡データに対処できる新しい分類器の提案 ⚫ コーパスから抽出した「固有表現*の出現文脈」を分類する実験  UNB: 大量の文脈を少数派クラスへ誤分類し、NBよりも低い分類性能  提案する分類器: 正則化で分類スコアを制御し、少数派クラスへの誤分類を抑制 本研究の貢献 UNB [Komiya:13] ◎ 補集合を利用 × 尤度比の推定法に問題あり ⇒ 低頻度へ過大な推定値 ✓ 低頻度による過大推定を抑制 ✓ 低頻度へ安定な推定値を提供 正則化による 尤度比推定法 [菊地:19] + * 人名や地名といった、特定種類の固有名詞 10
  • 14. ⚫ UNBの尤度比推定に 正則化による推定法 を用いる ⚫ クラスごとの正則化パラメータ 𝝀 = 𝜆𝑐 𝑐 ∈ 𝐶 を導入  少数派クラスの 𝜆𝑐 を大きな値とし、尤度比の過大推定を抑制  何らかの基準(例:Macro-F1)を最適化する値の組み合わせを探索 ⚫ 尤度比の積がゼロになることを防ぐため補正頻度を使用  𝑓 𝑤𝑘, 𝑐 = 0 でも尤度比の積がゼロにならない 提案する分類器 Ƹ 𝑐 𝑦 = argmax 𝑐∈𝐶 𝑝 𝑐 𝑝 ҧ 𝑐 ෑ 𝑘=1 𝑛 ෤ 𝑝 𝑤𝑘 𝑐 ෤ 𝑝 𝑤𝑘 ҧ 𝑐 + 𝜆𝑐 ෤ 𝑝 𝑤𝑘 𝑐 = 𝑓 𝑤𝑘, 𝑐 + 1 σ𝑤𝑘 𝑓 𝑤𝑘, 𝑐 + 2 ෤ 𝑝 𝑤𝑘 ҧ 𝑐 = 𝑓 𝑤𝑘, ҧ 𝑐 + 1 σ𝑤𝑘 𝑓 𝑤𝑘, ҧ 𝑐 + 2 11
  • 15. ⚫ 次の最適化問題を解くことで、最適値 𝝀′ = 𝜆𝑐 ′ 𝑐 ∈ 𝐶 を求める  Mクラスの分類問題を想定  MLCは提案する分類器  𝜆𝑐 ∈ 𝝀 が取る値の候補 Θ = 10−9, 10−8, ⋯ , 10−1  目的関数 𝐽 は Macro-F1 とし、開発データを分類することで算出 ⚫ 𝝀′ を得るために差分進化法を利用(詳しい設定は論文を参照)  貪欲法や局所探索法といった、他の近似アルゴリズムも利用可能 正則化パラメータの決定方法 𝝀′ = argmax 𝝀∈ΘM 𝐽 MLC, 𝝀 𝜆𝑐 ′ はクラス 𝑐 に対する正則化パラメータの最適値 12
  • 16. ⚫ 目的:不均衡データの分類に対する提案手法の有効性を確認 ⚫ 実験内容:文脈の7クラス分類  英文コーパスで固有表現の左にある文脈(単語10-gram)を、 どの固有表現のものか適切に分類する  7種類の固有表現:地名、組織名、日付、金、人名、%、時間 ⚫ なぜこの実験か? 1. N-gram の次数 N が大きいと低頻度を多く扱う 2. 文脈の出現頻度が固有表現により大きく異なる(不均衡データ) 3. 正解が一意に定まるため、性能を定量的に評価できる 評価実験の概要 13
  • 17. ⚫ ウォール・ストリート・ジャーナルコーパスの1987年版から作成 1. Stanford Named Entity Recognizer でコーパスに固有表現タグを付与 2. コーパスから記事をランダムに選択して、訓練・開発・評価用に分配 (訓練用に10,000記事、開発・評価用にそれぞれ1,000記事を分配) 3. 記事集合から文脈(単語10-gram)を抽出し、訓練・開発・評価データとする ⚫ 訓練データのインスタンス数(横軸:固有表現、縦軸:文脈の総頻度) 実験で使用するデータ 60,320 91,892 34,731 37,849 59,502 17,902 840 0 20,000 40,000 60,000 80,000 100,000 地名 組織名 日付 金 人名 % 時間 極端な 少数派クラス 多数派クラス 14
  • 18. 1.分類器の訓練  訓練データの単語10-gram 𝑦 = 𝑤1, 𝑤2, ⋯ , 𝑤10 について頻度を数え上げる 𝑓 𝑤𝑘, 𝑐 :単語 𝑤𝑘 が固有表現 𝑐 の文脈として現れる頻度 𝑓 𝑤𝑘, ҧ 𝑐 :単語 𝑤𝑘 が 𝑐 以外の文脈として現れる頻度 2.提案手法:正則化パラメータの最適値 𝜆𝑐 ′ ∈ 𝝀′ の決定  最適値の探索に差分進化法を利用  開発データを評価データとみなし分類を行い、Macro-F1が最大となる値の 組み合わせを探索する 3.インスタンス(10-gram)の分類  提案手法:手順2で求めた最適値 𝝀′ を使用  評価データにある全ての10-gramについて、どの固有表現の文脈かを分類 分類の手順 15
  • 19. ⚫ Naïve Bayes 分類器(NB)  𝑝 𝑤𝑘 𝑐 の推定にはラプラススムージングを使用 ⚫ Universal-set Naïve Bayes 分類器(UNB)  ෤ 𝑝 ∙ は相対頻度の分母に2、分子に1を足した確率推定量* 提案手法に対する比較手法 Ƹ 𝑐 𝑦 = argmax 𝑐∈𝐶 𝑝 𝑐 ෑ 𝑘=1 𝑛 𝑝 𝑤𝑘 𝑐 Ƹ 𝑐 𝑦 = argmax 𝑐∈𝐶 𝑝 𝑐 𝑝 ҧ 𝑐 ෑ 𝑘=1 𝑛 𝑟MLE 𝑤𝑘, 𝑐 𝑟MLE 𝑤𝑘, 𝑐 = ෤ 𝑝 𝑤𝑘 𝑐 ෤ 𝑝 𝑤𝑘 ҧ 𝑐 * 尤度比をなす確率の推定に通常のスムージング法を用いると分類性能が悪化 𝜆𝑐 がない 16
  • 20. ⚫ クラスごとの分類性能(UNBと提案手法)  各クラスの再現率 R𝑐、適合率 P𝑐、F1値 F𝑐 ⚫ タスク全体での分類性能  マクロ平均:再現率、適合率、F1値  マイクロ平均:正解率 分類器の評価指標 17 予測 Negative Positive 正解 Negative TN𝑐 FP𝑐 Positive FN𝑐 TP𝑐 R𝑐 = TP𝑐 TP𝑐 + FN𝑐 , P𝑐 = TP𝑐 TP𝑐 + FP𝑐 , F𝑐 = 2P𝑐 ∙ R𝑐 P𝑐 + R𝑐 σ𝑐∈𝐶 R𝑐 𝐶 例)再現率のマクロ平均 Amicro = σ𝑐∈𝐶 TP𝑐 𝑛𝑖𝑛𝑠𝑡 ※ 𝑛𝑖𝑛𝑠𝑡 は評価データ中の全インスタンス数
  • 21. ⚫ マクロ平均とマイクロ平均  値は高いほど良い  UNB:F1値と正解率がNBよりもはるかに低い ⇒ 補集合を用いているが、不均衡データを正確に分類できない タスク全体での性能比較 (1/2) 分類器 マクロ平均 マイクロ平均 再現率 適合率 F1値 正解率 NB 0.546 0.510 0.483 0.529 UNB 0.299 0.713 0.241 0.160 提案手法 0.522 0.678 0.540 0.626 18
  • 22. ⚫ マクロ平均とマイクロ平均  値は高いほど良い  提案手法:F1値、正解率が最良  提案手法とUNBの差異は正則化パラメータの有無のみ ⇒ 正則化パラメータが不均衡データの分類に有効なことを示唆 タスク全体での性能比較 (2/2) 分類器 マクロ平均 マイクロ平均 再現率 適合率 F1値 正解率 NB 0.546 0.510 0.483 0.529 UNB 0.299 0.713 0.241 0.160 提案手法 0.522 0.678 0.540 0.626 19
  • 23. ⚫ 少数派クラスの影響により、ほとんどのクラスで分類性能が悪い クラスごとの分類性能(UNB) 0 0.2 0.4 0.6 0.8 1 地名 組織名 日付 金 人名 % 時間 再現率 適合率 F1値 悪 良 少数派クラス: 多数の誤分類 他のクラス: ごく少数しか分類されず、再現率とF1値が低い 20
  • 24. ⚫ 差分進化法を用いて正則化パラメータを設定  少数派クラスに大きい値が設定された ⇒ 少数派クラスの分類スコアが低めになり、分類されにくくなる 正則化パラメータの最適値 𝜆𝑐 ′ クラス 𝜆𝑐 ′ 地名 10−6 組織名 10−9 日付 10−5 金 10−5 人名 10−5 % 10−4 時間 10−3 60,320 91,892 34,731 37,849 59,502 17,902 840 0 20,000 40,000 60,000 80,000 100,000 地名 組織名 日付 金 人名 % 時間 多数派クラス 少数派 クラス 訓練データのインスタンス数(再掲) 21
  • 25. ⚫ 正則化パラメータの導入で全クラスのF1値が向上 クラスごとの分類性能(提案手法) 0 0.2 0.4 0.6 0.8 1 地名 組織名 日付 金 人名 % 時間 再現率 適合率 F1値 悪 良 少数派クラス: 確度の高いものだけ分類 他のクラス: 再現率と適合率のバランスが取れている 22
  • 26. ⚫ 不均衡データに対処できる新しい分類器の提案  UNB + 正則化による尤度比推定法(我々の先行研究)  正則化パラメータにより、少数派クラスに対する分類スコアの 不当な高まりを防ぐ ⚫ 実験:固有表現の出現文脈を分類  UNBは多数の文脈を少数派クラスへ誤分類(Macro-F1:0.241)  提案手法は少数派クラスへの誤分類を抑制(Macro-F1:0.540) ※ 補集合を用いる他の分類器との比較、均衡データによる実験も行った ⚫ 少数派クラスの分類性能を向上させたい  正則化パラメータの最適化方法を変更、少数派クラスの性能を重視  例:Cost-Sensitive Learning まとめ 23
  • 27. ⚫ UNB  [Komiya:13] K. Komiya, Y. Ito, and Y. Kotani. New naive bayes methods using data from all classes. International Journal of Advanced Intelligence, Vol. 5, No. 1, pp. 1–12, 2013. ⚫ 正則化による尤度比推定法  [菊地:19] 菊地真人, 川上賢十, 吉田光男, 梅村恭司. 観測頻度に基づくゆう度比の保守的な直接推定. 電子情報通信学会論文誌D, Vol. J102-D, No. 4, pp. 289–301, 2019. 参考文献 24
  • 28. 正則化による尤度比推定法を応用した 多値分類器の改良 0 DEIM Forum 2022 K31-2 (day3 p40) 菊地真人, 大囿忠親 名古屋工業大学大学院 情報工学専攻 発表資料短縮版
  • 29. ⚫ 分類問題:データを適切なカテゴリへと自動的に振り分ける問題 ⚫ Naïve Bayes 分類器(NB)  𝑦 = 𝑤1, 𝑤2, ⋯ , 𝑤𝑛 は 𝑛 個の文字や単語からなるインスタンス  𝑐 ∈ 𝐶 はクラス(分類先)  Ƹ 𝑐 𝑦 は 𝑦 が属すると分類器が予測したクラス Naïve Bayes分類器 1 Ƹ 𝑐 𝑦 = argmax 𝑐∈𝐶 𝑝 𝑐 ෑ 𝑘=1 𝑛 𝑝 𝑤𝑘 𝑐 実装が容易で、クラス間のインスタンス数が均衡な場合に良好な分類性能 (分類対象) しかし、実世界にあるデータの多くは不均衡データ
  • 30. ⚫ NBの欠点:不均衡データをうまく分類できない  少数派クラスからは、少ない情報(低い頻度)しか得られない ⚫ Universal-set Naïve Bayes 分類器(UNB) [Komiya:13]  補集合 ҧ 𝑐:クラス 𝑐 に属さない 𝑦 の集合  訓練に用いるデータ量が増える NBの欠点と補集合の利用 2 Ƹ 𝑐 𝑦 = argmax 𝑐∈𝐶 𝑝 𝑐 𝑝 ҧ 𝑐 ෑ 𝑘=1 𝑛 尤度比の推定量: Ƹ 𝑝 𝑤𝑘 𝑐 Ƹ 𝑝 𝑤𝑘 ҧ 𝑐 Ƹ 𝑝 𝑤𝑘 𝑐 = 𝑓 𝑤𝑘, 𝑐 σ𝑤𝑘 𝑓 𝑤𝑘, 𝑐 Ƹ 𝑝 𝑤𝑘 ҧ 𝑐 = 𝑓 𝑤𝑘, ҧ 𝑐 σ𝑤𝑘 𝑓 𝑤𝑘, ҧ 𝑐 低頻度から計算される推定値を過度に高く見積もる 𝑐 に含まれる 𝑤𝑘 の頻度 少数派クラスの分類スコアが高まり、多くの 𝑦 をそのクラスへ誤分類
  • 31. ⚫ UNBの尤度比推定に 正則化による推定法(我々の先行研究) を用いる  真の尤度比との二乗誤差を最小化する枠組み ⚫ クラスごとの正則化パラメータ 𝝀 = 𝜆𝑐 𝑐 ∈ 𝐶 を導入  少数派クラスの 𝜆𝑐 を大きな値とし、尤度比の過大推定を抑制  Macro-F1を最大化する値の組み合わせを探索(開発データを使用) ⚫ 尤度比の積がゼロになることを防ぐため補正頻度を使用 提案する分類器 Ƹ 𝑐 𝑦 = argmax 𝑐∈𝐶 𝑝 𝑐 𝑝 ҧ 𝑐 ෑ 𝑘=1 𝑛 ෤ 𝑝 𝑤𝑘 𝑐 ෤ 𝑝 𝑤𝑘 ҧ 𝑐 + 𝜆𝑐 ෤ 𝑝 𝑤𝑘 𝑐 = 𝑓 𝑤𝑘, 𝑐 + 1 σ𝑤𝑘 𝑓 𝑤𝑘, 𝑐 + 2 ෤ 𝑝 𝑤𝑘 ҧ 𝑐 = 𝑓 𝑤𝑘, ҧ 𝑐 + 1 σ𝑤𝑘 𝑓 𝑤𝑘, ҧ 𝑐 + 2 3 [菊地:19]
  • 32. ⚫ 実験内容:文脈の7クラス分類  英文コーパスで固有表現の左にある文脈 𝑦(単語10-gram)を、 どの固有表現のものか分類する ⚫ 訓練データの各クラスサイズと正則化パラメータの値の関係 評価実験 60,320 91,892 34,731 37,849 59,502 17,902 840 0 20,000 40,000 60,000 80,000 100,000 地名 組織名 日付 金 人名 % 時間 極端な 少数派クラス 多数派クラス クラス 𝜆𝑐 地名 10−6 組織名 10−9 日付 10−5 金 10−5 人名 10−5 % 10−4 時間 10−3 訓練用の10,000記事に含まれる各文脈の総頻度 4
  • 33. ⚫ 評価用の1,000記事に含まれる文脈を分類  UNB:少数派クラスへ多くの文脈を誤分類、全体的にF1値が低い  提案手法:自信のない少数派クラスへ確度の高い文脈のみを分類 ⇒ 全クラスでF1値が向上 実験結果 UNB vs. 提案手法 0 0.5 1 地名 組織名 日付 金 人名 % 時間 0 0.5 1 地名 組織名 日付 金 人名 % 時間 再現率 適合率 F1値 5
  • 34. ⚫ 不均衡データに対処できる新しい分類器の提案  UNB + 正則化による尤度比推定法(我々の先行研究)  正則化パラメータにより、少数派クラスに対する分類スコアの 不当な高まりを防ぐ ⚫ 実験:固有表現の出現文脈を分類  UNBは多数の文脈を少数派クラスへ誤分類  提案手法は少数派クラスへの誤分類を抑制 ※ 補集合を用いる他の分類器との比較、均衡データによる実験も行った ⚫ 少数派クラスの分類性能を向上させたい  正則化パラメータの最適化方法を変更、少数派クラスの性能を重視  例:Cost-Sensitive Learning まとめ 6