SlideShare a Scribd company logo
1 of 14
Download to read offline
ICLR 2021
https://openreview.net/forum?id=rC8sJ4i6kaH
Daiki Tanaka
Theoretical Analysis of Self-Training
with Deep Networks on Unlabeled Data
● self-training: 予め作ったモデルを使って、ラベルなしデータに擬似ラベルを付与して、新しいモデ
ルをトレーニングする方法
● self-trainingは、semi-supervised learningやunsupervised domain adaptationで用いら
れ、真のラベルに対する汎化性能が向上することが知られている
● contribution:既存研究では、線形なモデルや、母集団がガウシアンの場合には理論保証を与え
ているが、現実的なDNNの設定では理論保証がなかった。この研究では、データの分布にいくつ
かの現実的な仮定を置いた上で、 self-trainingによって得られるモデルの誤差について理論保証
を与えた。
概要
● private test datasetに擬似ラベルを付与し、追加の訓練データとして利用することで private
test datasetに対する汎化性能を向上させる試みがある (pseudo-labelingと呼ばれる)
a. Devデータでモデル1を作る
b. モデル1を使ってTestデータに対して推論を行い、確信度の高いデータに対して擬似ラベル を
割り振る
c. Devデータと上記で作った擬似ラベル付き Testデータを混ぜて新しいモデル 2を作る
d. モデル2を使ってTestデータの推論を行う
● 真のラベルを利用してないのに何で汎化性能が上がるのか?
self-trainingの例:
kaggleでしばしば見かける、semi-supervised learning的な方法
● 入力データの空間:X (画像だと思ってください)
● 入力データの分布:P
● Kクラス分類問題を考える:真のラベルはG*(x) in {1, 2, …,K}で与えられる
● P_i:クラスiのデータの分布 P_i(x) = P(x | y=i)
● モデルG: x → [K] データをK個のクラスのいずれかに分類するモデル
準備:
● あるデータxについて、近傍データの集合を以下のように定義:
● それをデータの集合に拡張したもの:
N(S) := union_{x in S} {N(x)}
● N(S)はデータ集合Sの”近く”にあるデータの集合
準備:あるデータの”近傍”の定義
画像xに軽いdata augmentationをかけて得られるデータ集合
● 「クラスiのデータ分布P_iが(a,c)-expansionである」とはP_i(V) < aを満たす全てのV
subset Xについて、以下が成り立つこと。
● 全てのiについて(a,c)-expansionが成り立つ時、Pは(a,c)-expansionである、とする。
定義:expansion性
“あるクラスのデータ分布で、発生確率の低いデータの周辺には発生確率が大き
いデータがある”
Vの近くのデータ集合
● 我々が入手できるもの:
○ ラベルなしデータの集合:X_{unlabeled}
○ G_{pl}:擬似ラベルを付与するモデル
■ ラベル付きのデータで予め訓練したモデル
● やること:X_{unlabeled}に対して、G_{pl}を使って擬似ラベルを付与し、それらを使って新しいモデルを作る。新しい
モデルのX_{unlabeled}に対する性能は元のモデル G_{pl} と比較してどうか?
→ある仮定のもとで、新しいモデルは元のモデルよりも良い性能となることが示される
● ここで、G_{pl}がうまく擬似ラベルを付与できなかったデータの集合を以下のように定義:
semi-supervised learningでのself-trainigについて考える
真のラベル
擬似ラベル
を、定義する。(擬似ラベル付与が失敗するデータの発生確率のラベルごとの最悪ケース )
< 1/3であることと、 > 3について、Pが( , )-expansionであることを仮定する。
“擬似ラベル付与に失敗するデータの近傍には、正しいラベルのデータ分布において発生確率の高い
データがある”
データに対する仮定1:expansion性
expansion性
赤いところ:M(G_{pl})
擬似ラベルで「猫」を付与できなかった画像 緑:その周りにはより猫っぽい画像がいる
● モデルGが、(data augmentationなどで)変換された近傍のデータに対して予測先を変えてしまう
度合いを以下のlossで測ることにする (VAT [Miyato+, 2017]など、「近傍データに対するモデル 出
力の一貫性を要求する正則化項」はこの lossの例になっている)
● このlossを使って、ある小さな muについて以下が成り立つことを仮定する
気持ち:「“近くのデータ”が異なるクラスに属するデータの割合」がある値で抑えられる
データに対する仮定2:separation性
各クラスのデータの分布はある程度固まっている
真のラベルを返す人
● 以下の目的関数でモデル Gの訓練を行う:
● 仮定1と仮定2が成り立つ時、上記を最小化するモデル hat{G}の、真のラベル間との誤差を上から
抑えることができる (cはexpansion性の強さを表す定数 )
定理4.3
「擬似ラベルだけを使って訓練したモデルは元のモデルよりも性能が良い」ことを主張している
擬似ラベルを教師として用いた 0-1
誤差
近傍データに対して一貫した予測をするようにする
正則化項
1未満 元のモデルの誤差
● 比較する目的関数
○ Source only: source domainを使って作ったモデルをそのまま target domainで使う
○ PL Only: target domainに対する擬似ラベルだけを使って作ったモデル (①だけ)
○ PL + VAT: VATをinput consistency正則化項として導入 (①と②)
○ PL + VAT+ AMO + MinEnt: ①と②に加えてさらにできることを全部入り
○ VAT+ AMO + MinEnt: 擬似ラベルによる訓練 (①)を抜いて影響度を確認する
● 利用できるもの:
○ ソースドメインデータで訓練したモデル (擬似ラベル付与モデル )
○ ラベルなしターゲットドメインデータ
● 評価
○ ターゲットドメインデータと、その真のラベルを用いて分類誤差を評価する
実験:unsupervised domain adaptation
ラベル付きsource domainのデータで訓練したモデルと、ラベルなし Target domainのデータを使
い、定理4.3の正当性を示す
① ②
PL+VAT(①+②)はSource onlyやPL only(①)よリも高精度となっていて、定理 4.3の目的関数の正当性
を裏付けている
実験:unsupervised domain adaptationの結果
① ②
● データに対して現実的な仮定 (expansion性・separation性)をすることで、self-trainingによって
得られるモデルの誤差について分析を行った
● 擬似ラベルを用いて、 input consistency正則化つきself-trianingを行うことで、汎化性能を向上
させることができることを示した
結論

More Related Content

What's hot

Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfPaper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfYusuke Fujimoto
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningharmonylab
 
Learning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularizationLearning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularization周平 合田
 
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networkscvpaper. challenge
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networksharmonylab
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)cvpaper. challenge
 
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy LearningDiscriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy LearningTomoyasuOkada
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...harmonylab
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networksharmonylab
 
論文紹介 Amortized bayesian meta learning
論文紹介 Amortized bayesian meta learning論文紹介 Amortized bayesian meta learning
論文紹介 Amortized bayesian meta learningXiangze
 
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例Takayoshi Yamashita
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016cvpaper. challenge
 
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakitomoaki0705
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 西岡 賢一郎
 
ReviewNet_161122
ReviewNet_161122ReviewNet_161122
ReviewNet_161122shima o
 
Tokyo.r girls#3 network
Tokyo.r girls#3 network Tokyo.r girls#3 network
Tokyo.r girls#3 network Sachiko Hirata
 
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaGetting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaTaisuke Oe
 

What's hot (20)

Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfPaper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
 
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
 
Learning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularizationLearning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularization
 
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy LearningDiscriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
 
論文紹介 Amortized bayesian meta learning
論文紹介 Amortized bayesian meta learning論文紹介 Amortized bayesian meta learning
論文紹介 Amortized bayesian meta learning
 
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
 
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
 
ReviewNet_161122
ReviewNet_161122ReviewNet_161122
ReviewNet_161122
 
Tokyo.r girls#3 network
Tokyo.r girls#3 network Tokyo.r girls#3 network
Tokyo.r girls#3 network
 
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaGetting Started with Deep Learning using Scala
Getting Started with Deep Learning using Scala
 
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
 

More from Daiki Tanaka

カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論Daiki Tanaka
 
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal InferenceDaiki Tanaka
 
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...Daiki Tanaka
 
Selective inference
Selective inferenceSelective inference
Selective inferenceDaiki Tanaka
 
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]Daiki Tanaka
 
オンライン学習 : Online learning
オンライン学習 : Online learningオンライン学習 : Online learning
オンライン学習 : Online learningDaiki Tanaka
 
[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You NeedDaiki Tanaka
 
Local Outlier Detection with Interpretation
Local Outlier Detection with InterpretationLocal Outlier Detection with Interpretation
Local Outlier Detection with InterpretationDaiki Tanaka
 
Interpretability of machine learning
Interpretability of machine learningInterpretability of machine learning
Interpretability of machine learningDaiki Tanaka
 
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...Daiki Tanaka
 
The Limits of Popularity-Based Recommendations, and the Role of Social Ties
The Limits of Popularity-Based Recommendations, and the Role of Social TiesThe Limits of Popularity-Based Recommendations, and the Role of Social Ties
The Limits of Popularity-Based Recommendations, and the Role of Social TiesDaiki Tanaka
 
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...Daiki Tanaka
 
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series DataToeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series DataDaiki Tanaka
 

More from Daiki Tanaka (13)

カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論
 
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
 
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
 
Selective inference
Selective inferenceSelective inference
Selective inference
 
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
 
オンライン学習 : Online learning
オンライン学習 : Online learningオンライン学習 : Online learning
オンライン学習 : Online learning
 
[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need
 
Local Outlier Detection with Interpretation
Local Outlier Detection with InterpretationLocal Outlier Detection with Interpretation
Local Outlier Detection with Interpretation
 
Interpretability of machine learning
Interpretability of machine learningInterpretability of machine learning
Interpretability of machine learning
 
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
 
The Limits of Popularity-Based Recommendations, and the Role of Social Ties
The Limits of Popularity-Based Recommendations, and the Role of Social TiesThe Limits of Popularity-Based Recommendations, and the Role of Social Ties
The Limits of Popularity-Based Recommendations, and the Role of Social Ties
 
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
 
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series DataToeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
 

[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data