敵対的学習に対するラデマッハ複雑度

Rademacher Complexity
for Adversarially Robust Generalization
Yin, Ramchandran, and Bartlett
Masahiro Kato
Sept. 27th, 2019 @Bread Seminar
※論文の線形モデルに関する部分は省略します．
※若干慌てて作ったので間違っているかもしれません
1

問題設定
n 特徴空間：𝒳 ⊆ ℝ$.
n ラベル空間：𝒴.
n 𝒳×𝒴上の未知の分布：𝒟.
n 仮説クラス：ℱ ⊆ 𝒱 𝒳． 𝒱 𝒳は𝒳から𝒱の関数を表し，𝒱は𝒴と異なっていてもよい．
n 損失関数：ℓ: 𝒱×𝒴 → 0, 𝐵 .
n 母集団リスク：𝑅 𝑓 ≔ 𝔼 5,6 ∈𝒟 ℓ 𝑓 𝑥 , 𝑦 .
n 経験リスク：𝑅: 𝑓 ≔
;
:
∑=>;
:
ℓ 𝑓 𝑥= , 𝑦= .
n 攻撃はℓ?ノルムに限定．𝑥の𝜖近傍を𝔹5
? 𝜖 で表す．
• 𝐴CDE 𝑥 ≔ arg max
5K∈𝔹L
M N
ℓ 𝑓 𝑥O , 𝑦 .
2

（復習）経験ラデマッハ複雑度
n 任意の関数クラスℋ ⊆ ℝ 𝒵に対して，サイズ𝑛のサンプル𝒮 = 𝑧;, 𝑧V, … , 𝑧: を所与とすると，経
験ラデマッハ複雑度は以下のように定義される：
ℛ 𝒮 ℋ ≔
1
𝑛
sup
]∈ℋ
^
=>;
:
𝜎=ℎ(𝑧=)
ここで，𝜎;, … , 𝜎:はi.i.d.なラデマッハ確率変数であり，ℙ 𝜎= = 1 = ℙ 𝜎= = −1 =
;
V
である．
n 直観的な解釈：
• 2値判別で判別器sign 𝑔 𝑧= を用いて𝑥=のラベル𝜎= ∈ +1, −1 を予測することを考える.
• 𝜎= 𝑔 𝑧= > 0なら予測は正しい．
• 𝜎= 𝑔 𝑧= が大きな値をとるとき，𝑔 ∈ 𝒢によってデータ(𝑧=, 𝜎=)が十分によく学習されていると考
えることができる．
n ラデマッハ複雑度は仮設集合ℋの複雑さを測ることに使える．
3

（復習）経験リスクの収束率
n 一様大数の法則について説明する．
Theorem 1. 損失ℓ 𝑓 𝑥 , 𝑦 の範囲を 0, 𝐵 とする．任意の𝛿 ∈ 0,1 に対して少なくとも確率
1 − 𝛿で，全ての関数𝑓 ∈ ℱに対して，以下が成り立つ．
𝑅 𝑓 ≤ 𝑅: 𝑓 + 2𝐵ℛ 𝒮 ℓℱ + 3𝐵
log
2
𝛿
2𝑛
.
4

敵対的学習の設定への拡張
n この論文ではℓ?ノルムの敵対的攻撃に限定する．
n 学習モデルは𝑛個の確率分布𝒟からi.i.d.に引かれたサンプルへのアクセスを有している．
n 学習が終わった後に学習によって得られた関数𝑓が敵対者に明かされる．
n 敵対者は損失を最大化できるようにℓ?ノルムで抑えられる球の範囲内でサンプル𝑥に摂
動を加えることができる．
n 学習の目標は以下の敵対的母集団リスクを最小化することである．
q𝑅 𝑓 ≔ 𝔼 5,6 ∼𝒟 max
5K∈𝔹L
M N
ℓ 𝑓(𝑥O , 𝑦) .
5

敵対的学習
n 敵対的母集団リスクを最小化する自然な方法として以下の経験敵対的母集団リスクを最
小化する方法が考えられる．
q𝑅: 𝑓 ≔
1
𝑛
^
=>;
:
max
5s
K 𝔹Ls
M N
ℓ 𝑓 𝑥=
O
, 𝑦= .
このリスクの最小化は敵対的学習と呼ばれている．
n 敵対的損失：qℓ 𝑓 𝑥 , 𝑦 ≔ max
𝔹L
M N
ℓ 𝑓 𝑥 , 𝑦
n 敵対的損失の関数クラスqℓℱ ⊆ 0, 𝐵 𝒳×𝒴：qℓℱ ≔ qℓ 𝑓 𝑥 , 𝑦 ∶ 𝑓 ∈ ℱ .
n qℓ 𝑓(𝑥 , 𝑦)の範囲は 0, 𝐵 のままなので，次の結果を得ることができる．
6

敵対的学習の汎化誤差上界
n 敵対的母集団損失qℓ 𝑓(𝑥 , 𝑦)の範囲は 0, 𝐵 のままなので，母集団リスクのラデマッハ複雑
度の議論を適用して以下の系を用いることができる．
Corollary 1. 任意の𝛿 ∈ 0,1 に対して，少なくとも確率1 − 𝛿で全ての関数𝑓 ∈ ℱに対して，
以下が成り立つ．
q𝑅 𝑓 ≤ q𝑅: 𝑓 + 2𝐵ℛ 𝒮
qℓℱ + 3𝐵
log
2
𝛿
2𝑛
.
したがって，ラデマッハ複雑度は敵対的学習においても汎化誤差の上界の導出に役立つ．
7

ニューラル・ネットワーク
n ReLU活性化関数のもとでのFeed forward型ニューラルネットワークを考える．
n 仮説クラスℱのそれぞれの関数𝑓が行列の列𝑊 = 𝑊;, 𝑊V, … , 𝑊v でパラメタライズされて
いるとする．すなわち， 𝑓 ≡ 𝑓x．
• 𝑊] ∈ ℝ$y×$yz{．
• 𝜌 ⋅ : ReLU関数．すなわち，𝑡 ∈ ℝに対して，𝜌 𝑡 = max 𝑡, 0 .
n 以上のノーテーションのもとで関数は以下のように表される．
• Kクラス多値分類の場合は𝑓x 𝑥 : ℝ$ → ℝ•.
• 二値分類の場合は特別に𝑓x 𝑥 : ℝ$ → ℝ.
損失関数は，ℓ 𝑓x 𝑥 , 𝑦 = 𝜙 𝑦𝑓x 𝑥 .
ただし，𝜙は𝐿‚リプシッツ連続な関数𝜙: ℝ → 0, 𝐵 .
8

ラデマッハ複雑度の⽐較
n 以下では，敵対的攻撃のない状況下ではラデマッハ複雑度が入力の次元𝑑に対して対数で
抑えられるのに対して，敵対的攻撃のもとではおそらく次元𝑑に対して2乗根でしか抑え
られないことを示す．
9

攻撃のない⼆値NNのラデマッハ複雑度
n 二値分類を考える．
• 𝒮 = 𝑥=, 𝑦= =>;
:
∈ 𝒳× −1, +1 :をi.i.d.な訓練データとする．
• 𝑋 ≔ 𝑥;, 𝑥V, ⋯ , 𝑥: ∈ ℝ$×:
• 𝑑†‡ˆ = max 𝑑, 𝑑;, 𝑑V, … , 𝑑v
Theorem 5. 以下のニューラルネットワークを用いた仮説クラスを考える．
ℱ = 𝑓x 𝑥 : 𝑊 = 𝑊;, 𝑊V, … , 𝑊v , 𝑊] ‰ ≤ 𝑠], 𝑊]
‹
V,;
≤ 𝑏], ℎ ∈ 𝐿 ⊆ ℝ 𝒳
このとき，
10

攻撃のある⼆値NNのラデマッハ複雑度
n 二値分類に対して，
qℓ 𝑓x 𝑥 , 𝑦 = max
5K∈𝔹L
M(N)
ℓ 𝑓x 𝑥O , 𝑦 = 𝜙 min
5K∈𝔹L
M(N)
𝑦𝑓x(𝑥O) ,
かつ，𝜙(⋅)はリプシッツ連続であるので，以下の関数クラスを考える．
n この時，以下のラデマッハ複雑度の下界が得られる．
Theorem 6. 定数𝑐 > 0に対して，
ℛ 𝒮
qℱ ≥ 𝑐𝑟
1
𝑛
𝑋 • + 𝜖
𝑑
𝑛
.
n 攻撃のない時にlog 𝑑で抑えられたものの下界が 𝑑になる．
11

NNの汎化誤差上界を得る難しさ
n ニューラルネットワークに対しては，例えその隠れ層が一層しかなくても，特定のデー
タ点(𝑥, 𝑦)の，敵対的損失qℓ 𝑓x(𝑥 , 𝑦) = max
5K∈𝔹L
M N
ℓ 𝑓x(𝑥O , 𝑦)を計算することは困難．
n 近年の研究では，多項式時間で計算できるqℓ 𝑓x(𝑥 , 𝑦)の上界の発見が行われている．
その結果に基づいて，qℓ 𝑓x(𝑥 , 𝑦)を代理敵対的損失‘ℓ 𝑓x 𝑥 , 𝑦 で置き換える．
• ‘ℓ 𝑓x 𝑥 , 𝑦 ≥ qℓ 𝑓x(𝑥 , 𝑦) ∀𝑥, 𝑦, 𝑊.
n 代理敵対的損失の上界が意味のあるものであるためには，代理敵対的損失自体が敵対的
損失に十分近いものでなければならない．
• 代理的損失の例：SDP緩和とLP緩和
n 代理損失を用いた時の汎化誤差上界を抑えなくてはならない．
12

変動のバウンド
n Kクラス分類ReLU活性化関数一層隠れ層NNのSDP緩和代理損失の性質を考える．
• 𝑓x 𝑥 = 𝑊V 𝜌(𝑊; 𝑥).
• 𝑊Vの𝑘番目の列を𝑤V,•とする．
n Raghunathan et al. (2018)より以下の結果が得られる．
Theorem 7. For any (𝑥, 𝑦), 𝑊;, 𝑊V, and 𝑦O ≠ 𝑦,
where 𝑄 𝑣, 𝑊 ≔
13

Certified Defense
n ネットワークとテストデータを所与として，エラーがある一定の値を超える攻撃が存在
しないことを保証するための半正定値緩和に基づく手法．
n 敵対的学習は損失の最悪時の下界を最小化するものと考えることができる．
n 実際には最悪時（敵対的サンプル）を正しく計算できる訳ではないので，評価がゆるく
なったりする．
n ニューラルネットワークを用いた時の損失の最悪時の上界の計算を行うことで，下界が
不正確になることや，敵対的サンプルの正確な計算などに伴う問題を回避できる．
n この上界により特定の攻撃を防ぐことを保証できるようになる．
n 上界の計算にはNP困難な計算を伴う線形近似が必要になるが，この計算を半正定値
（SDP）緩和で近似する．
14

SDP緩和代理敵対的損失の上下界
Lemma 1. 代理敵対的損失を以下のように定義する．
このとき，
15

マージン損失の上界
n 敵対的学習における汎化のマージン損失のバウンドを導出する．
Theorem 8. ニューラルネットワークに基づく以下の仮説のクラスを考える．
任意の𝛾 > 0に対して，少なくとも確率1 − 𝛿で，全ての𝑓x ⋅ ∈ ℱに以下の関係が成り立つ．
16

結論
n 敵対的環境下の損失の敵対的学習の汎化誤差をラデマッハ複雑度で抑えることができた．
n ニューラルネットークのラデマッハ複雑度は，通常時には入力の次元の対数で抑えられ
るが，敵対的学習のもとでは少なくとも次元の2乗根に比例する．
n ニューラルネットワークでは，正確な敵対的サンプルを計算できないので，何らかの近
似が必要になる．
n SDP緩和のもとでの代理損失の上界を出すことができた．
17

Reference
n Yin, Ramchandran, and Bartlett, Rademacher Complexity for Adversarially Robust
Generalization, ICML 2019.
n Bartlett and Mendelson, Rademacher and Gaussian Complexities: Risk Bounds and
Structural Results, Journal of Machine Learning Research 2002.
n Raghunathan, Steinhardt, and Liang, Certified Defenses against Adversarial Examples,
ICLR 2018.
n 金森敬文「統計的学習理論」2015年
18

敵対的学習に対するラデマッハ複雑度

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Masa Kato

More from Masa Kato (13)

敵対的学習に対するラデマッハ複雑度