Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Global optimality in neural network training

1,621 views

Published on

CVPR2017のオーラル発表論文
Global optimality in neural network training

Published in: Technology
  • Be the first to comment

Global optimality in neural network training

  1. 1. 2017/8/19 CV @ CVPR2017
  2. 2. • • • • • • • • •
  3. 3. • • • Shallow or Deep? Good Bad Local minima Global minima
  4. 4. • • •
  5. 5.
  6. 6. • 𝐿 𝜙 𝜃 𝑓 𝑤 = ' 𝐿 𝑦), 𝜙 𝑥); 𝑤 ) + 𝜃 𝑤 • • • 𝑓 𝑾 = 𝐿 𝒀, 𝝓 𝑾 + 𝜃 𝑾
  7. 7. • • 𝑓 𝛼𝑾 = 𝐿 𝒀, 𝛼3 𝝓 𝑾 + 𝛼3 𝜃 𝑾 , ( 𝛼 > 0 )
  8. 8. • • ℎ 𝛼𝑾 = 𝛼ℎ 𝑾 • ℎ 𝛼𝑾 = 𝛼3ℎ 𝑾 • 𝛼 > 0 • • Local minima 0 W f
  9. 9. • • 𝒚 = 𝑾𝒙 𝑾 ∈ ℝ<=×<? • 𝑾 𝛼 𝛼 • • 𝒙 𝑾 𝟏 𝑾 𝟐 𝑾 𝟑 𝑾 𝟒 𝑾 𝟏 𝒙 𝑾 𝟐∘𝟏 𝒙 𝑾 𝟑∘𝟐∘𝟏 𝒙 𝑾 𝟒∘𝟑∘𝟐∘𝟏 𝒙 𝛼𝑾 𝟏 𝛼𝑾 𝟐 𝛼𝑾 𝟑 𝛼𝑾 𝟒 𝛼 𝟒 𝑾 𝟒∘𝟑∘𝟐∘𝟏 𝒙 𝛼𝑾 𝟏 𝒙 𝛼E 𝑾 𝟐∘𝟏 𝒙 𝛼F 𝑾 𝟑∘𝟐∘𝟏 𝒙
  10. 10. • • 0 𝛼𝑤G 𝛼𝑤E 𝛼𝑤F 𝛼𝑧 max 𝛼𝑧, 0 max 𝛼𝑧G, 𝛼𝑧E, 𝛼𝑧F, 𝛼𝑧L 𝛼をそのまま通す (正斉次性を崩す加 減算などが無い)
  11. 11. • • • • • • •
  12. 12. IN Conv + ReLU Conv + ReLU Linear Max Pool Out 𝛼𝑾 𝟏 𝛼𝑾 𝟐 𝛼𝑾 𝟑𝒙 𝜙 𝛼𝑾 = 𝛼𝑾 𝟑 𝑀𝑃 𝜑 𝛼𝑾 𝟐 ∗ 𝜑 𝛼𝑾 𝟏 ∗ 𝒙 = 𝛼F 𝑾 𝟑 𝑀𝑃 𝜑 𝑾 𝟐 ∗ 𝜑 𝑾 𝟏 ∗ 𝒙 = 𝛼F 𝜙 𝑾
  13. 13. • • • 𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏 Q E + 𝑾 𝟐 Q E + 𝑾 𝟑 Q E + 𝑾 𝟒 Q E 𝜃 𝛼𝑾 𝟏, 𝛼𝑾 𝟐, 𝛼𝑾 𝟑, 𝛼𝑾 𝟒 = 𝛼E 𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 𝜙 𝛼𝑾 𝟏, 𝛼𝑾 𝟐, 𝛼𝑾 𝟑, 𝛼𝑾 𝟒 = 𝛼L 𝜙 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 正斉次性を満たさないため、局所解を持つ 正則化項: ネットワーク:
  14. 14. • 𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏 𝑾 𝟐 𝑾 𝟑 𝑾 𝟒 𝜃 𝑾 𝟏, 𝑾 𝟐, 𝑾 𝟑, 𝑾 𝟒 = 𝑾 𝟏 Q L + 𝑾 𝟐 Q L + 𝑾 𝟑 Q L + 𝑾 𝟒 Q L or 𝜃 𝛼𝑾 = 𝛼R 𝜃 𝑾 𝜙 𝛼𝑾 = 𝛼R 𝜙 𝑾
  15. 15. • • • • •
  16. 16. • ≥ • 𝜖が微小になると、左辺が無視できる。 • ネットワークの次数が正則化項の次数より大きい 𝑝 > 𝑝V こととする • 右辺は正則化項なのでW≠0のとき、ゼロより大きい
  17. 17. • > 0 W=0から少しでもズレるとfの値は大きくなる ネットワーク項の次数>正則化項の次数のとき、 W=0は局所解
  18. 18. • • •
  19. 19. • • サブネットワーク入りの局所解の一つが、サブネット を削ったネットワークの大域最適になる(後述) r個のネットワークを並列に接続
  20. 20. • • 𝜱 𝛼𝑾 𝟏, … , 𝛼𝑾 𝑲 = ' 𝜙 𝛼𝑾 𝒓 G, … , 𝛼𝑾 𝒓 R 𝜣 𝛼𝑾G, … , 𝛼𝑾R = 𝛼R 𝜣 𝑾G, … , 𝑾L = ∑ 𝛼R 𝜙 𝑾 𝒓 G, … , 𝑾 𝒓 R = 𝛼R 𝜱 𝑾G, … , 𝑾R 正則化項も同様に・・・ ネットワーク項の冗長化
  21. 21. • • 𝜱 𝑿 𝑾 • 𝑾 • 𝑾 𝛀 𝝓,𝜽 𝑿 ≡ inf 𝒓∈ℕg inf 𝑾 𝟏,…,𝑾 𝑲 ' 𝜃 𝑾𝒊 𝟏 , … , 𝑾𝒊 𝑲 )iG , s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿
  22. 22. 𝑾 𝜱 𝜱 = 𝑿(緑線) 中心に近づくほど 𝑾 が小さいものとする 𝜱 = 𝑿を満たす𝑾候補 正則化ロスが最も低い𝑾 𝛀 𝝓,𝜽 𝑿 ≡ inf 𝒓∈ℕg inf 𝑾 𝟏,…,𝑾 𝑲 ' 𝜃 𝑾𝒊 𝟏 , … , 𝑾𝒊 𝑲 )iG , s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿 𝑾 = 𝟎(赤線)
  23. 23. • • • ただし、Ωはinf項のために直接評価で きないので、このままでは解けない 𝛀 𝝓,𝜽 𝑿 ≡ inf 𝒓∈ℕg inf 𝑾 𝟏,…,𝑾 𝑲 ' 𝜃 𝑾𝒊 𝟏 , … , 𝑾𝒊 𝑲 )iG , s. t. 𝜱 𝑾G, … , 𝑾R = 𝑿 min n 𝐹 𝑿 ≡ 𝐿 𝒀, 𝑿 + 𝜆Ωr,s 𝑿
  24. 24. • 式変形 min n 𝐹 𝑿 ≡ 𝐿 𝒀, 𝑿 + 𝜆Ωr,s 𝑿 𝐿 𝒀, 𝝓 𝑾 + 𝜆 ' 𝜃 𝑾𝒊 𝟏 , … , 𝑾𝒊 𝑲 )iG 凸問題
  25. 25. • • •
  26. 26. W0
  27. 27. 局所解を2つ持つ W0 W1
  28. 28. 重みパラメータゼロ(W1=0) の面に偶然局所解があったとする W0 W1
  29. 29. 当然、サブネットを減らしW0だけにしも局所解
  30. 30. • • •
  31. 31. • • • • •
  32. 32. • • • • •
  33. 33. • • •
  34. 34. • • • • •
  35. 35. 1.適当な局所解Wを見つける ※十分な数のrがあれば𝛽が計算可能 2.∑ 𝛽) 𝜙 𝑾) = 0 )iG を満たす𝛽を計算する 3.𝑅) 𝛾 = 1 + 𝛾𝛽) G x⁄ 𝑊)として、 𝛾を0から1に動かす 4.その時の、𝑊 = 𝑅 1 も局所解であり、かつWの一つ がゼロになっている! ※ 𝛾 =0の時、元々の局所解W ただし min 𝛽) = −1
  36. 36. • • • •
  37. 37. • • • • •

×