More Related Content
Similar to ResNetの仕組み (20)
ResNetの仕組み
- 8. 勾配消失問題とは? (2)
前ページの勾配のうちノード1に着目します。
ノード1:
𝜕𝐶
𝜕𝑏1
=𝜎′(𝑧1) × 𝑤2 × 𝜎′(𝑧2) × 𝑤3 × 𝜎′(𝑧3) × 𝑤4 × 𝜎′(𝑧4) ×
𝜕𝐶
𝜕𝑎4
特に注目すべきは赤字部です。これは活性化関数を微分したものですが、活性化
関数の微分は値が常に1以下であることが知られています。
とりわけ活性化関数としてよく用いられるシグモイド関数の導関数に関しては、
値が常に0.25以下であることも知られています。
すなわち𝜎′
𝑧 ≦ 1、特にシグモイド関数においては𝜎′
𝑧 ≦ 0.25といえます。
上式では4層のパーセプトロンであるため活性化関数の微分値が4回掛け合わされ
ますが、100層のパーセプトロンであれば100回掛け合わされる事になります。
その結果、極端に長いニューラルネットワークの入力層に近いノードでは、勾配
が非常に小さい値に収束する事となります。これが勾配消失です。
複雑なモデルにおいても同様の事が起こります。 8
- 15. 派生研究 (1)
• 100層を超えるResNetは学習に数週間を要する。改善できない
か?
⇒深い層ではdeep pathが0に近い値を出力することが知られている。
Gao(2016)らの論文ではそれを利用し、深い層において一定確率で
deep pathを無視し、shortcut connectionを素通りするようなモデ
ルを作成。精度を下げることなく25%程度の時間短縮に成功(Deep
Networks with Stochastic Depth)。
• 層を深くするのでなく、畳み込み時のフィルタの数を増やして
ネットワークを広くする事で性能を上げられないか?
⇒Sergeyらの論文によると、ネットワークを広げる事によって僅か
16層程度のモデルでも既存のResNetの性能を出す事が可能に。
層数も少なくできるので学習時間の削減にも成功(Wide ResNet)。
15
- 16. 派生研究 (2)
• Deep path内のバッチ正規化や畳み込み層の順序の考察。
⇒右図の青枠が従来のモデルだが、Kaimingらの論文に
よると赤枠で描かれているモデルの方が性能が高い。
合流後のReLUは不要。一般にResidual
Networksというと現在はこれを指します。
• その他、構造を改造する案が多数あるようです。
16
- 17. 参考論文等
• He, Kaiming, et al. "Deep Residual Learning for Image Recognition." arXiv preprint
arXiv:1512.03385 (2015)
• Veit, Andreas, et al. “Residual Networks Behave Like Ensembles of Relatively Shallow
Networks.” arXiv preprint arXiv:1605.006431 (2016)
• Huang, Gao, et al. "Deep networks with stochastic depth." arXiv preprint
arXiv:1603.09382 (2016)
• Zagoruyko & Komodakis “Wide Residual Networks.” arXiv preprint arXiv:1605.07146
(2016)
• He, Kaiming, et al. "Identity mappings in deep residual networks." arXiv preprint
arXiv:1603.05027 (2016)
17