文献紹介：Why do deep convolutional networks generalize so poorly to small image transformations?

!"#$%&$%''($)&*+&,-./&*0,$
*'.1&234$5'*'20,/6'$4&$(&&2,#$
.&$470,,$/705'$.20*48&270./&*49
!"#$%&'!()*#+,'-#.$'/0.11,'23456789
大谷碧生（名工大玉木研）
英語論文紹介6768:88:89

概要
nこれまでの;<<についての考え
• 畳み込みアーキテクチャのため，小さな画像変換には影響を受けない
n最近
• 入力画像の小さな変換やリスケールがネットワークの予測を大きく変えてしまう
n論文の内容
• 上記の効果を系統的に定量化
• 帰納的バイアスが不変性を達成するのに十分でない理由を調査
• 畳み込みアーキテクチャ
• データ拡張

最新の!""における不変性の欠如の定量化
n関連研究
• ;<<が小さな画像の変換に対して不変性を持たないことに関する研究
=!()*#+'>'/0.11,'#$?.@678AB,'=C&D1E$%FG,'#$?.@678HB,'=I"#&D,'#$?.@6789B
n上記で示された例がどれほど典型的なものであったのか定量化実験の設定
• ネットワーク
• J0$#1
• KLL8M,'501<0EN7,'O&P0QE.%&501<0EK6
• R+E%$P"
• KLL8M,'501<0EN7,'S0&10<0E868
• データセット
• OF#D0<0Eテストセット
• T種類のプロトコルから摂動を付与
• 感度測定
• R'=U%QV8'P"#&D0B,'F0#&'#W1%*)E0'P"#&D0

プロトコル
8X ;$%Q
• 元の画像からランダムな正方形を選択し，その正方形を66TY66Tにリサイズ
• 8ピクセルの平行移動によって8枚目の画像と異なる２枚目の画像を生成
6X CFW0ZZ.&D
• 画像をダウンスケールし，アスペクト比を維持したまま最小寸法を877にし，66TY66T
の画像内のランダムな位置に埋め込み，残りの部分を黒のピクセルで埋める
• 埋め込み位置を8ピクセルずらし２枚目の画像を生成
[X 50Q0#E'E"0'0FW0ZZ.&D'0YQ0$.F0&E
• 埋め込み実験を繰り返す
• インペインティング・アルゴリズムを使用して画像の残りの部分を埋める
TX OZ0&E.P#*'E%'E"0'10P%&Z'Q$%E%P%*
• 埋め込み位置を固定したまま，埋め込み画像のサイズを8ピクセルだけ変更

結果
n考察
• 予測が変わる確率は最大[7
• 現代のネットワークの脆さを表現
プロトコル：;$%Q'=D.E")WB

!""はデータ拡張から不変であることを学習しないのか
n考察
• ネットワークが期待するサイズと大きく
異なる場合，予測が低下
Azulay, Weiss
Hourglass
Average correlation to 10 nearest neighbours
Pig
Banana
0 1
n考察
• 学習時の画像と高い知覚的類似性を
持つ場合，Rはゼロに近づく
• [つのネットワークにおいてRの推移
が類似
類似性
高い
類似性
低い

考えられる解決策
n最近の;<<はシフト不変ではなく，入力画像が8ピクセルずれただけでネットワークの
出力が大幅に変化する
n[つの可能な解決策
• !&E.#*.#1.&D
• ;<<でぼかしをかけることを具現化する方法を提案 =I"#&D,'#$?.@6789B
• O&P$0#10Z'S#E#'!)DF0&E#E.%&
• 変換不変性の欠如の対する解決策として提案 =C&D1E$%FG,'#$?.@678HB
• 50Z)P.&D'1)W1#FQ*.&D
• !*.#1.&D'#$E.]#PE1を低減する最も簡単な方法
nデータセット
• OF#D0<0E'=!&E.#*.#1.&DB
• ;O^!587（それ以外）

結果
n!&E.#*.#1.&D
• !&E.#*.#1.&Dの効果は比較的小さい
• アンチエイリアス化されたネットワーク
は，元のネットワークと同様の典型性
の依存がある元のネットワーク
アンチエイリアス化
されたネットワーク
プロトコル：!"#$

結果
nO&P$0#10Z'S#E#'!)DF0&E#E.%&
• 考察
• データ拡張は学習時に使用された
のと同じプロトコルで得られた画像
の変換不変性を高める
n50Z)P.&D'1)W1#FQ*.&D
• サブサンプリングなしで;<<を学習す
ると，高い精度が得られる
• 小さな画像の場合可能
!"#$%&'の
画像サイズ

まとめ
n;<<において小さな画像変換による影響を定量的に評価
• 予測が変わる確率は最大[7
• データ拡張から不変性を学習する可能性はない
• 学習時に見た典型的な画像と視覚的に類似した画像に対してのみ不変
• シフト不変に対する解決策
• !&E.#*.#1.&D
• O&P$0#10Z'S#E#'!)DF0&E#E.%&
• 50Z)P.&D'1)W1#FQ*.&D

#$%&'(&')&$*
nW.&VN（ラプラシアン・ピラミッドで使われる標準的なフィルター）を使用
(Zhang, arXiv2019)

文献紹介：Why do deep convolutional networks generalize so poorly to small image transformations?

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Toru Tamaki

More from Toru Tamaki (20)

文献紹介：Why do deep convolutional networks generalize so poorly to small image transformations?