[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data

ICLR 2021
https://openreview.net/forum?id=rC8sJ4i6kaH
Daiki Tanaka
Theoretical Analysis of Self-Training
with Deep Networks on Unlabeled Data

● self-training: 予め作ったモデルを使って、ラベルなしデータに擬似ラベルを付与して、新しいモデ
ルをトレーニングする方法
● self-trainingは、semi-supervised learningやunsupervised domain adaptationで用いら
れ、真のラベルに対する汎化性能が向上することが知られている
● contribution：既存研究では、線形なモデルや、母集団がガウシアンの場合には理論保証を与え
ているが、現実的なDNNの設定では理論保証がなかった。この研究では、データの分布にいくつ
かの現実的な仮定を置いた上で、 self-trainingによって得られるモデルの誤差について理論保証
を与えた。
概要

● private test datasetに擬似ラベルを付与し、追加の訓練データとして利用することで private
test datasetに対する汎化性能を向上させる試みがある (pseudo-labelingと呼ばれる)
a. Devデータでモデル1を作る
b. モデル1を使ってTestデータに対して推論を行い、確信度の高いデータに対して擬似ラベルを
割り振る
c. Devデータと上記で作った擬似ラベル付き Testデータを混ぜて新しいモデル 2を作る
d. モデル2を使ってTestデータの推論を行う
● 真のラベルを利用してないのに何で汎化性能が上がるのか？
self-trainingの例：
kaggleでしばしば見かける、semi-supervised learning的な方法

● 入力データの空間：X (画像だと思ってください)
● 入力データの分布：P
● Kクラス分類問題を考える：真のラベルはG*(x) in {1, 2, …,K}で与えられる
● P_i：クラスiのデータの分布 P_i(x) = P(x | y=i)
● モデルG: x → [K]　データをK個のクラスのいずれかに分類するモデル
準備：

● あるデータxについて、近傍データの集合を以下のように定義：
● それをデータの集合に拡張したもの：
N(S) := union_{x in S} {N(x)}
● N(S)はデータ集合Sの”近く”にあるデータの集合
準備：あるデータの”近傍”の定義
画像xに軽いdata augmentationをかけて得られるデータ集合

● 「クラスiのデータ分布P_iが(a,c)-expansionである」とはP_i(V) < aを満たす全てのV
subset Xについて、以下が成り立つこと。
● 全てのiについて(a,c)-expansionが成り立つ時、Pは(a,c)-expansionである、とする。
定義：expansion性
“あるクラスのデータ分布で、発生確率の低いデータの周辺には発生確率が大き
いデータがある”
Vの近くのデータ集合

● 我々が入手できるもの：
○ ラベルなしデータの集合：X_{unlabeled}
○ G_{pl}：擬似ラベルを付与するモデル
■ ラベル付きのデータで予め訓練したモデル
● やること：X_{unlabeled}に対して、G_{pl}を使って擬似ラベルを付与し、それらを使って新しいモデルを作る。新しい
モデルのX_{unlabeled}に対する性能は元のモデル G_{pl} と比較してどうか？
→ある仮定のもとで、新しいモデルは元のモデルよりも良い性能となることが示される
● ここで、G_{pl}がうまく擬似ラベルを付与できなかったデータの集合を以下のように定義：
semi-supervised learningでのself-trainigについて考える
真のラベル
擬似ラベル

を、定義する。(擬似ラベル付与が失敗するデータの発生確率のラベルごとの最悪ケース )
< 1/3であることと、 > 3について、Pが( , )-expansionであることを仮定する。
“擬似ラベル付与に失敗するデータの近傍には、正しいラベルのデータ分布において発生確率の高い
データがある”
データに対する仮定1：expansion性

expansion性
赤いところ：M(G_{pl})
擬似ラベルで「猫」を付与できなかった画像緑：その周りにはより猫っぽい画像がいる

● モデルGが、(data augmentationなどで)変換された近傍のデータに対して予測先を変えてしまう
度合いを以下のlossで測ることにする (VAT [Miyato+, 2017]など、「近傍データに対するモデル出
力の一貫性を要求する正則化項」はこの lossの例になっている)
● このlossを使って、ある小さな muについて以下が成り立つことを仮定する
気持ち：「“近くのデータ”が異なるクラスに属するデータの割合」がある値で抑えられる
データに対する仮定2：separation性
各クラスのデータの分布はある程度固まっている
真のラベルを返す人

● 以下の目的関数でモデル Gの訓練を行う：
● 仮定1と仮定2が成り立つ時、上記を最小化するモデル hat{G}の、真のラベル間との誤差を上から
抑えることができる (cはexpansion性の強さを表す定数 )
定理4.3
「擬似ラベルだけを使って訓練したモデルは元のモデルよりも性能が良い」ことを主張している
擬似ラベルを教師として用いた 0-1
誤差
近傍データに対して一貫した予測をするようにする
正則化項
1未満元のモデルの誤差

● 比較する目的関数
○ Source only: source domainを使って作ったモデルをそのまま target domainで使う
○ PL Only: target domainに対する擬似ラベルだけを使って作ったモデル (①だけ)
○ PL + VAT: VATをinput consistency正則化項として導入 (①と②)
○ PL + VAT+ AMO + MinEnt: ①と②に加えてさらにできることを全部入り
○ VAT+ AMO + MinEnt: 擬似ラベルによる訓練 (①)を抜いて影響度を確認する
● 利用できるもの：
○ ソースドメインデータで訓練したモデル (擬似ラベル付与モデル )
○ ラベルなしターゲットドメインデータ
● 評価
○ ターゲットドメインデータと、その真のラベルを用いて分類誤差を評価する
実験：unsupervised domain adaptation
ラベル付きsource domainのデータで訓練したモデルと、ラベルなし Target domainのデータを使
い、定理4.3の正当性を示す
① ②

PL+VAT(①+②)はSource onlyやPL only(①)よリも高精度となっていて、定理 4.3の目的関数の正当性
を裏付けている
実験：unsupervised domain adaptationの結果
① ②

● データに対して現実的な仮定 (expansion性・separation性)をすることで、self-trainingによって
得られるモデルの誤差について分析を行った
● 擬似ラベルを用いて、 input consistency正則化つきself-trianingを行うことで、汎化性能を向上
させることができることを示した
結論

[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Daiki Tanaka

More from Daiki Tanaka (13)

[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data