SlideShare a Scribd company logo
Rademacher Complexity
for Adversarially Robust Generalization
Yin, Ramchandran, and Bartlett
Masahiro Kato
Sept. 27th, 2019 @Bread Seminar
※論文の線形モデルに関する部分は省略します.
※若干慌てて作ったので間違っているかもしれません
1
問題設定
n 特徴空間:𝒳 ⊆ ℝ$.
n ラベル空間:𝒴.
n 𝒳×𝒴上の未知の分布:𝒟.
n 仮説クラス:ℱ ⊆ 𝒱 𝒳. 𝒱 𝒳は𝒳から𝒱の関数を表し,𝒱は𝒴と異なっていてもよい.
n 損失関数:ℓ: 𝒱×𝒴 → 0, 𝐵 .
n 母集団リスク:𝑅 𝑓 ≔ 𝔼 5,6 ∈𝒟 ℓ 𝑓 𝑥 , 𝑦 .
n 経験リスク:𝑅: 𝑓 ≔
;
:
∑=>;
:
ℓ 𝑓 𝑥= , 𝑦= .
n 攻撃はℓ?ノルムに限定.𝑥の𝜖近傍を𝔹5
? 𝜖 で表す.
• 𝐴CDE 𝑥 ≔ arg max
5K∈𝔹L
M N
ℓ 𝑓 𝑥O , 𝑦 .
2
(復習)経験ラデマッハ複雑度
n 任意の関数クラスℋ ⊆ ℝ 𝒵に対して,サイズ𝑛のサンプル𝒮 = 𝑧;, 𝑧V, … , 𝑧: を所与とすると,経
験ラデマッハ複雑度は以下のように定義される:
ℛ 𝒮 ℋ ≔
1
𝑛
sup
]∈ℋ
^
=>;
:
𝜎=ℎ(𝑧=)
ここで,𝜎;, … , 𝜎:はi.i.d.なラデマッハ確率変数であり,ℙ 𝜎= = 1 = ℙ 𝜎= = −1 =
;
V
である.
n 直観的な解釈:
• 2値判別で判別器sign 𝑔 𝑧= を用いて𝑥=のラベル𝜎= ∈ +1, −1 を予測することを考える.
• 𝜎= 𝑔 𝑧= > 0なら予測は正しい.
• 𝜎= 𝑔 𝑧= が大きな値をとるとき,𝑔 ∈ 𝒢によってデータ(𝑧=, 𝜎=)が十分によく学習されていると考
えることができる.
n ラデマッハ複雑度は仮設集合ℋの複雑さを測ることに使える.
3
(復習)経験リスクの収束率
n 一様大数の法則について説明する.
Theorem 1. 損失ℓ 𝑓 𝑥 , 𝑦 の範囲を 0, 𝐵 とする.任意の𝛿 ∈ 0,1 に対して少なくとも確率
1 − 𝛿で,全ての関数𝑓 ∈ ℱに対して,以下が成り立つ.
𝑅 𝑓 ≤ 𝑅: 𝑓 + 2𝐵ℛ 𝒮 ℓℱ + 3𝐵
log
2
𝛿
2𝑛
.
4
敵対的学習の設定への拡張
n この論文ではℓ?ノルムの敵対的攻撃に限定する.
n 学習モデルは𝑛個の確率分布𝒟からi.i.d.に引かれたサンプルへのアクセスを有している.
n 学習が終わった後に学習によって得られた関数𝑓が敵対者に明かされる.
n 敵対者は損失を最大化できるようにℓ?ノルムで抑えられる球の範囲内でサンプル𝑥に摂
動を加えることができる.
n 学習の目標は以下の敵対的母集団リスクを最小化することである.
q𝑅 𝑓 ≔ 𝔼 5,6 ∼𝒟 max
5K∈𝔹L
M N
ℓ 𝑓(𝑥O , 𝑦) .
5
敵対的学習
n 敵対的母集団リスクを最小化する自然な方法として以下の経験敵対的母集団リスクを最
小化する方法が考えられる.
q𝑅: 𝑓 ≔
1
𝑛
^
=>;
:
max
5s
K 𝔹Ls
M N
ℓ 𝑓 𝑥=
O
, 𝑦= .
このリスクの最小化は敵対的学習と呼ばれている.
n 敵対的損失:qℓ 𝑓 𝑥 , 𝑦 ≔ max
𝔹L
M N
ℓ 𝑓 𝑥 , 𝑦
n 敵対的損失の関数クラスqℓℱ ⊆ 0, 𝐵 𝒳×𝒴:qℓℱ ≔ qℓ 𝑓 𝑥 , 𝑦 ∶ 𝑓 ∈ ℱ .
n qℓ 𝑓(𝑥 , 𝑦)の範囲は 0, 𝐵 のままなので,次の結果を得ることができる.
6
敵対的学習の汎化誤差上界
n 敵対的母集団損失qℓ 𝑓(𝑥 , 𝑦)の範囲は 0, 𝐵 のままなので,母集団リスクのラデマッハ複雑
度の議論を適用して以下の系を用いることができる.
Corollary 1. 任意の𝛿 ∈ 0,1 に対して,少なくとも確率1 − 𝛿で全ての関数𝑓 ∈ ℱに対して,
以下が成り立つ.
q𝑅 𝑓 ≤ q𝑅: 𝑓 + 2𝐵ℛ 𝒮
qℓℱ + 3𝐵
log
2
𝛿
2𝑛
.
したがって,ラデマッハ複雑度は敵対的学習においても汎化誤差の上界の導出に役立つ.
7
ニューラル・ネットワーク
n ReLU活性化関数のもとでのFeed forward型ニューラルネットワークを考える.
n 仮説クラスℱのそれぞれの関数𝑓が行列の列𝑊 = 𝑊;, 𝑊V, … , 𝑊v でパラメタライズされて
いるとする.すなわち, 𝑓 ≡ 𝑓x.
• 𝑊] ∈ ℝ$y×$yz{.
• 𝜌 ⋅ : ReLU関数.すなわち,𝑡 ∈ ℝに対して,𝜌 𝑡 = max 𝑡, 0 .
n 以上のノーテーションのもとで関数は以下のように表される.
• Kクラス多値分類の場合は𝑓x 𝑥 : ℝ$ → ℝ•.
• 二値分類の場合は特別に𝑓x 𝑥 : ℝ$ → ℝ.
損失関数は,ℓ 𝑓x 𝑥 , 𝑦 = 𝜙 𝑦𝑓x 𝑥 .
ただし,𝜙は𝐿‚リプシッツ連続な関数𝜙: ℝ → 0, 𝐵 .
8
ラデマッハ複雑度の⽐較
n 以下では,敵対的攻撃のない状況下ではラデマッハ複雑度が入力の次元𝑑に対して対数で
抑えられるのに対して,敵対的攻撃のもとではおそらく次元𝑑に対して2乗根でしか抑え
られないことを示す.
9
攻撃のない⼆値NNのラデマッハ複雑度
n 二値分類を考える.
• 𝒮 = 𝑥=, 𝑦= =>;
:
∈ 𝒳× −1, +1 :をi.i.d.な訓練データとする.
• 𝑋 ≔ 𝑥;, 𝑥V, ⋯ , 𝑥: ∈ ℝ$×:
• 𝑑†‡ˆ = max 𝑑, 𝑑;, 𝑑V, … , 𝑑v
Theorem 5. 以下のニューラルネットワークを用いた仮説クラスを考える.
ℱ = 𝑓x 𝑥 : 𝑊 = 𝑊;, 𝑊V, … , 𝑊v , 𝑊] ‰ ≤ 𝑠], 𝑊]
‹
V,;
≤ 𝑏], ℎ ∈ 𝐿 ⊆ ℝ 𝒳
このとき,
10
攻撃のある⼆値NNのラデマッハ複雑度
n 二値分類に対して,
qℓ 𝑓x 𝑥 , 𝑦 = max
5K∈𝔹L
M(N)
ℓ 𝑓x 𝑥O , 𝑦 = 𝜙 min
5K∈𝔹L
M(N)
𝑦𝑓x(𝑥O) ,
かつ,𝜙(⋅)はリプシッツ連続であるので,以下の関数クラスを考える.
n この時,以下のラデマッハ複雑度の下界が得られる.
Theorem 6. 定数𝑐 > 0に対して,
ℛ 𝒮
qℱ ≥ 𝑐𝑟
1
𝑛
𝑋 • + 𝜖
𝑑
𝑛
.
n 攻撃のない時にlog 𝑑で抑えられたものの下界が 𝑑になる.
11
NNの汎化誤差上界を得る難しさ
n ニューラルネットワークに対しては,例えその隠れ層が一層しかなくても,特定のデー
タ点(𝑥, 𝑦)の,敵対的損失qℓ 𝑓x(𝑥 , 𝑦) = max
5K∈𝔹L
M N
ℓ 𝑓x(𝑥O , 𝑦)を計算することは困難.
n 近年の研究では,多項式時間で計算できるqℓ 𝑓x(𝑥 , 𝑦)の上界の発見が行われている.
その結果に基づいて,qℓ 𝑓x(𝑥 , 𝑦)を代理敵対的損失‘ℓ 𝑓x 𝑥 , 𝑦 で置き換える.
• ‘ℓ 𝑓x 𝑥 , 𝑦 ≥ qℓ 𝑓x(𝑥 , 𝑦) ∀𝑥, 𝑦, 𝑊.
n 代理敵対的損失の上界が意味のあるものであるためには,代理敵対的損失自体が敵対的
損失に十分近いものでなければならない.
• 代理的損失の例:SDP緩和とLP緩和
n 代理損失を用いた時の汎化誤差上界を抑えなくてはならない.
12
変動のバウンド
n Kクラス分類ReLU活性化関数一層隠れ層NNのSDP緩和代理損失の性質を考える.
• 𝑓x 𝑥 = 𝑊V 𝜌(𝑊; 𝑥).
• 𝑊Vの𝑘番目の列を𝑤V,•とする.
n Raghunathan et al. (2018)より以下の結果が得られる.
Theorem 7. For any (𝑥, 𝑦), 𝑊;, 𝑊V, and 𝑦O ≠ 𝑦,
where 𝑄 𝑣, 𝑊 ≔
13
Certified Defense
n ネットワークとテストデータを所与として,エラーがある一定の値を超える攻撃が存在
しないことを保証するための半正定値緩和に基づく手法.
n 敵対的学習は損失の最悪時の下界を最小化するものと考えることができる.
n 実際には最悪時(敵対的サンプル)を正しく計算できる訳ではないので,評価がゆるく
なったりする.
n ニューラルネットワークを用いた時の損失の最悪時の上界の計算を行うことで,下界が
不正確になることや,敵対的サンプルの正確な計算などに伴う問題を回避できる.
n この上界により特定の攻撃を防ぐことを保証できるようになる.
n 上界の計算にはNP困難な計算を伴う線形近似が必要になるが,この計算を半正定値
(SDP)緩和で近似する.
14
SDP緩和代理敵対的損失の上下界
Lemma 1. 代理敵対的損失を以下のように定義する.
このとき,
15
マージン損失の上界
n 敵対的学習における汎化のマージン損失のバウンドを導出する.
Theorem 8. ニューラルネットワークに基づく以下の仮説のクラスを考える.
任意の𝛾 > 0に対して,少なくとも確率1 − 𝛿で,全ての𝑓x ⋅ ∈ ℱに以下の関係が成り立つ.
16
結論
n 敵対的環境下の損失の敵対的学習の汎化誤差をラデマッハ複雑度で抑えることができた.
n ニューラルネットークのラデマッハ複雑度は,通常時には入力の次元の対数で抑えられ
るが,敵対的学習のもとでは少なくとも次元の2乗根に比例する.
n ニューラルネットワークでは,正確な敵対的サンプルを計算できないので,何らかの近
似が必要になる.
n SDP緩和のもとでの代理損失の上界を出すことができた.
17
Reference
n Yin, Ramchandran, and Bartlett, Rademacher Complexity for Adversarially Robust
Generalization, ICML 2019.
n Bartlett and Mendelson, Rademacher and Gaussian Complexities: Risk Bounds and
Structural Results, Journal of Machine Learning Research 2002.
n Raghunathan, Steinhardt, and Liang, Certified Defenses against Adversarial Examples,
ICLR 2018.
n 金森敬文「統計的学習理論」2015年
18

More Related Content

What's hot

スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
irrrrr
 

What's hot (20)

凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
A3C解説
A3C解説A3C解説
A3C解説
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 

More from Masa Kato

適時開示制度
適時開示制度適時開示制度
適時開示制度
Masa Kato
 

More from Masa Kato (13)

効率的反実仮想学習
効率的反実仮想学習効率的反実仮想学習
効率的反実仮想学習
 
最適腕識別と多重検定
最適腕識別と多重検定最適腕識別と多重検定
最適腕識別と多重検定
 
Validating Causal Inference Models via Influence Functions
Validating Causal Inference Modelsvia Influence FunctionsValidating Causal Inference Modelsvia Influence Functions
Validating Causal Inference Models via Influence Functions
 
Jamieson_Jain2018
Jamieson_Jain2018Jamieson_Jain2018
Jamieson_Jain2018
 
マルコフ転換モデル:導入編
マルコフ転換モデル:導入編マルコフ転換モデル:導入編
マルコフ転換モデル:導入編
 
経済学のための並列分散処理2
経済学のための並列分散処理2経済学のための並列分散処理2
経済学のための並列分散処理2
 
経済学のための並列分散処理1
経済学のための並列分散処理1経済学のための並列分散処理1
経済学のための並列分散処理1
 
Koh_Liang_ICML2017
Koh_Liang_ICML2017Koh_Liang_ICML2017
Koh_Liang_ICML2017
 
Neural netorksmatching
Neural netorksmatchingNeural netorksmatching
Neural netorksmatching
 
米国のインサイダー取引規制
米国のインサイダー取引規制米国のインサイダー取引規制
米国のインサイダー取引規制
 
Risk based approaches to asset allocation chap0102
Risk based approaches to asset allocation chap0102Risk based approaches to asset allocation chap0102
Risk based approaches to asset allocation chap0102
 
適時開示制度
適時開示制度適時開示制度
適時開示制度
 
Experimental games
Experimental games Experimental games
Experimental games
 

敵対的学習に対するラデマッハ複雑度