残差接続の特性とその理論的証明

残差接続の特性とその理論的証明
1

I. モチベーション
[20] による損失関数の形状に関する実験的な研究で、残差接続の有無によって、形状が異なることが報告されている。残差接
続有りの場合は、損失関数の形状に平坦性 (凸性) を与える一方で、学習を安定させかつ、良い汎化性能を示すことが確認さ
れた。
2

II. 目的と戦略
● 目的
Skip Connectionが ① 学習の安定性及び、② 損失関数の形状に対する平坦性を与える現象を機能バイアスとして定義
する。
● 戦略
学習の安定性
パラメータの初期化手法に非依存な動的等長性が実現されることを、入出力ヤコビアンの特異値の遷移をパラメータの
統計値を利用した漸化式を使用して示す。
損失関数の形状に対する平坦性
ネットワーク全体とそこで使用される特徴量抽出器の損失を分離し全体の損失とすることで、両損失の差分を改善項と
して導入することで、損失関数の凸性を証明する。
3

III. 動的等長性に対するスペクトル解析
入出力のヤコビ行列 (の特異値の2乗平均 ) をパラメータ、バイアスの統計値 (分散) を
使用した解析 [15]
値に対する変動を小さくするような
パラメータの初期化手法と活性化関数
の評価で入出力ヤコビアンを評価
漸化式の在り方が重要
4

残差接続を適応した場合の漸化式 [21]
小さい変動で値が推移
5

残差接続を適応した場合の漸化式 [21]
ガウス分布での初期化では値の変動が激
しく、Kaiming初期化と矛盾が生じ、[20]で
発生した現象を説明できていない。
6

残差接続を適応した場合の漸化式 [Kinjo, 2021]
7

IV. 局所的最小値、大域的最小値及び損失関数の凸性に対する理論証明 [Kinjo, 2021]
8
前提 (Assumption)
出力で損失が微分可能であること
準備 (Preliminary)
学習したい特徴量抽出器
残差関数
残差接続

9
前提 (Assumption)
出力で損失が微分可能であること
準備 (Preliminary)
学習したい特徴量抽出器
残差関数
残差接続
理論 (Theorem)
学習したい特徴量抽出器の損失はネットワーク全体の損失より大きい
補題 (Lemma)
残差関数は特徴抽出機とターゲットとの誤差を学習 [114]
が微分可能な場合のみに対して微分を要請

10
損失の上界・下界 (Upper- / Lower-Bound)
i. それぞれの① 学習損失は、その② 期待損失の下
界より大きい。
ii. ③ ネットワーク全体の損失は、④ 特徴量抽出器
の期待損失の下界より小さい
i. ii.
理論 (Theorem)
学習したい特徴量抽出器の損失はネットワーク全体の損失より大きい
補題 (Lemma)
残差関数は特徴抽出機とターゲットとの誤差を学習 [114]
が微分可能な場合のみに対して微分を要請

11
損失の上界・下界 (Upper- / Lower-Bound)
i. それぞれの① 学習損失は、その② 期待損失の下
界より大きい。
ii. ③ ネットワーク全体の損失は、④ 特徴量抽出器
の期待損失の下界より小さい
i. ii.
損失関数の形状に対する凸性
ネットワーク全体の局所的
最小値は、特徴量抽出器の
大域的最小値以下

表記について
i. 特徴量抽出器
ii. 変換演算子
iii. 入力に対する変換処理
iv. プーリング処理
v. 同変性
vi. 不変性
vii. 残差関数
viii. 残差接続
ix. 特徴量抽出器に対する損失
x. 特徴量抽出器に対する汎化誤差の下界
xi. ネットワークに対する損失
xii. ネットワークに対する汎化誤差の下界
xiii. 全体の損失
xiv. 全体の汎化誤差
12

残差接続の特性とその理論的証明

Recommended

Recommended

More Related Content

Featured

Featured (20)

残差接続の特性とその理論的証明