Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings

Trainable Calibration Measures For
Neural Networks From Kernel Mean
Embeddings
北海道大学情報科学研究科
調和系工学研究室
修士2年吉田
2019年7月26日論文紹介ゼミ
1

論文情報
• タイトル
- Trainable Calibration Measures For Neural Networks From
Kernel Mean Embeddings
• 著者
- Aviral Kunmar, Sunita Sarawagi, Ujjwal Jain
• Department of Computer Science and Engineering, IIT
Bombay, Mumbai, India
• 掲載
- ICML2018
• 内容
- ディープニューラルネットワークは出力値の較正が不十分
- カーネル埋め込みによる訓練可能な較正基準であるMMCEを提案
• コード
- https://github.com/aviralkumar2907/MMCE
• （実験のコード）
2

背景
• ディープニューラルネットの出力値は較正が不十分
- On Calibration of Modern Neural Networks
• Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger
• ICML2017
3
（左）
LeNet(1998)：5層
（右）
ResNet(2016)：110層
Accuracyは高いが
自信過剰(over-confidence)

問題設定
• 多クラス分類モデル
- ニューラルネット(パラメータ𝜃,入力𝑥)の予測する確率分布
- ニューラルネットの予測ラベル
- correctness score
- confidence score
• もし正しく較正されているなら
- 𝑟𝑖 = 𝛼の時𝑐𝑖 = 1となる確率は𝛼
• 例：𝑟 = 0.7の予測が100個あったら、その内70個が正解
- 式で表すと
4
𝑃 𝜃,𝑫 𝑟, 𝑐 ：𝑟, 𝑐の分布

較正の誤差
• ECE (Expected Calibration Error)
- データサンプル𝐷~𝑃 𝜃,𝑫のECEを推定するために
𝑟の範囲[0,1]を𝐵個のビンに等分割
• 較正誤差項(CE)を追加して最適化
- 上記のECEは不連続すぎて使えない
- 本論文ではKernel Mean Embeddingsを用いたMMCEを提案
5

カーネル法
• データを高次元の特徴空間に写像する方法
- 再生核ヒルベルト空間（RKHS）を用いると
特徴ベクトルの内積がカーネル関数によって計算可能
• 𝜙(𝑥), 𝜙(𝑦) = 𝑘(𝑥, 𝑦)
6
𝜙: Ω → 𝐻
特徴写像
Ω
元の空間
𝐻
特徴空間
𝑥
𝜙(𝑥)
𝜙 𝑥 = 𝑘 ・, 𝑥
𝑘:カーネル関数（参考）
カーネル法入門１．カーネル法へのイントロダクション（accessed 2019-0726）
https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_1intro.pdf
カーネル法正定値カーネルを用いたデータ解析（accessed 2019-0726）
https://www.ism.ac.jp/~fukumizu/ISM_lecture_2004/Lecture2004_kernel_method.pdf

Kernel Mean Embeddings
• カーネル平均
- 特性的なカーネル関数によるカーネル平均は分布の全モーメントの
情報をもつ
- 分布間の距離の計算に利用可能
• MMD(Maximum Mean Discrepancy)
7
（参考）
潜在分布のカーネル埋め込みによる異種データ間マッチング（accessed 2019-0726）
https://www.jstage.jst.go.jp/article/pjsai/JSAI2015/0/JSAI2015_2F11/_pdf/-char/ja
2標本問題の新展開~古典的手法からカーネル法まで~（accessed 2019-0726）
https://qiita.com/yuchi_m/items/7132b426d848dc81ad9f#%E6%AD%A3%E5%AE%9A%E5%80%A4%E3%82%AB%E3%83%BC%E3%83%8

MMCE (Maximum Mean Calibration Error)
• 学習可能な較正誤差の提案(MMCE)
- Maximum Mean Calibration Error
較正誤差の平均の上界
- サンプリングによる推定
- カーネル関数による計算
• 論文中の実験ではLaplacian kernelを使用
8

MMCE (Maximum Mean Calibration Error)
• ニューラルネットのミニバッチ学習
- バッチサイズは100くらいあれば十分
• MMCEの重みづけ
- 𝑐 = 0となるインスタンスが少ない
9

Why Does MMCE work?
• MMCE
- インスタンスのペアを比較
• NLL
- インスタンスに対して個別に機能
10

Why Does MMCE work?
• （例：式9の3項目に注目）
- 次のインスタンスのペアを考える
• 高い信頼度(0.99)で誤分類されたインスタンス
• 信頼度ほぼ1で正しく分類されたインスタンス(𝜒)
- NLL
• 𝜒のconfidenceをより上げるように働く（自信過剰）
- MMCE(3項目)
• 𝜒のconfidenceを下げるように働く
11

Why Does MMCE work?
• MMCEとBaseline(普通の)に対するTest NLLについて
- BaselineはMMCEより簡単に過学習
• MMCEはバッチ内に正しく分類された例と誤分類された例が
混ざってる場合に最も効果的
- training accuracyが100%の時は意味ない
12

実験
• データセット
- CIFAR-10
• 画像分類（10クラス）
- CIFAR-100
• 100クラス
- CaltechBirds 200
• 画像分類（imagenetの鳥、200クラス）
- 20 Newsgroups
• ニュース記事分類（20クラス）
- IMDB reviews
• 映画レビューの感情分類
- UC Irvine Human Activity Recognition(HAR)
• 6人の電話対応の行動分類
• 時系列データ
- Stanford Sentiment Treebank(SST)
• 映画のレビューの感情分析
13

実験
• モデル（公開されてるモデルを使用）
- 画像分類(CIFAR-10, 100, Caltech Birds 200)
• Resnet
- https://github.com/tensorflow/models/tree/master/official/resnet
- https://github.com/tensorflow/models/tree/master/research/resnet
- https://github.com/visipedia/tf_classification
- 20 Newsgroups
• global pooling Convolutional Network
- https://github.com/keras-
team/keras/blob/master/examples/pretrained_word_embed
dings.py
- IMDB reviews
• hierarchical attention networks
- https://github.com/ilivans/tf-rnn-attention
- UCI HAR
• LSTM
- https://github.com/guillaume-chevalier/LSTM-Human-Activity-
Recognition
- SST
• TreeLSTM
- https://github.com/nicolaspi/treelstm 14
batch size：defaultが128以下の場合128に
（例外としてSSTは25のまま）

実験
• 比較する手法
- Baseline
• NLLで最適化したモデル
- Baseline+T
• temperature scaling（先行研究）
- 温度Tで出力を矯正
- MMCE, MMCEm, MMCE+T
• 提案手法とその派生
- Entropy penalty（先行研究）
• over-confidenceを減らすためにentropy-penaltyを正則化項と
して追加
- Kernel regression（Nadaraya-Watson）
• CEとして式(12)を使用
15𝑃(c = 1|r) のNadaraya-Watson推定量

先行研究
• Temperature Scaling
- On Calibration of Modern Neural Networks
• Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger
• ICML2017
- 確率を事後修正 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(
𝑥
𝑇
)
• Entropy Penalty
- Regularizing Neural Networks by Penalizing Confident Output
Distributions
• Gabriel Pereyra, George Tucker, Jan Chorowski, Łukasz Kaiser,
Geoffrey Hinton
• ICLR2017
• どちらも較正誤差を改善させるが、高confidenceの予測を減らす
16

実験
• 評価（低いほど良い）
- ECE（B=20）
- Brier Score
- NLL
17

実験結果 Baseline と MMCE(提案手法)
• Accuracyを落とすことなくECEを改善
18

• Brier Score, NLLについても同様
19

• baselineモデルをMMCEでfine-tuning
- ゼロからの学習ほどではないがECEを改善
20

実験結果 Temperature scaling(TS)との比較
• 表には無いがAccuracyは変化なし
• BaselineとMMCEともにtemperature scalingでECEが改善
• 全体的にMMCE+Tがベスト
21

• reliability plot
- 完璧な較正が出来ている場合、破線(y=x)に接する
• Baselineは自信過剰
• TSはBaselineの自信過剰を大幅に修正
22
TSが修正しすぎ

• CS99：𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 0.99となる予測の集合
- |CS99|: 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 0.99の割合[%]
• 先行研究の手法は高confidenceの予測を減らす
- Acc: Accuracy[%]
• 較正が正しいならCS99のAccuracyは99%以上となる
• Accuracyが99を超えてる場合|CSS99|が大きい方が良い
23
自信過剰なBaselineは
• |CS99|が大きい
• Accは99%を下回る
TSはCSS99のAccを99%以上にする
|CSS99|を大きく下げる
MMCEは|CS99|
が比較的高い

実験結果 Entropy penalty
• Entropy penalty
- ECEは改善されている
- |CS99|が大幅に減少
24

実験結果 Kernel Regression
• Kernel Regression
- 較正の改善には効果なし
- 損失関数の分母にカーネル関数があるのが問題？
• MMCEは分子のみ
25

実験結果 MMCEの重みづけについて
• 重み付けなし(MMCEm)
• 重みづけしたMMCEの方が良い較正
26

実験結果較正項の重み(𝜆)の調整
• 提案手法（MMCE）は𝜆の変化に堅牢
- accuracyも同様
27

実験結果計算効率
• 1エポック当たりの計算時間
- NVIDIA Titan X GPU
- Baselineに対するオーバーヘッドが10%を超えることは無い
28

まとめ
• 学習可能な較正誤差(MMCE)を提案
- 信頼度の高い予測を最大限に維持する
- 較正誤差を最小限に抑える
- 高速に学習可能（オーバーヘッド10％以下）
29

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings

Similar to Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (9)

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings