Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

岡谷貴之「深層学習」の解説

1,025 views

Published on

This slide share explain the book 'Shinsou-Gakushuu' written by Takayuki Okatani. You can learn clearly section 4.4.2, 4.4.3, 3.6.6 using this.

Published in: Technology
  • Be the first to comment

岡谷貴之「深層学習」の解説

  1. 1. 岡谷貴之「深層学習」(講談社) を勝手に解説 株式会社ウェブファーマー 大政孝充
  2. 2. 内容 4.4.2 順伝播と逆伝播の行列計算(後半) 3.6.5 モーメンタム 4.4.3 勾配の差分近似計算 を解説
  3. 3. 4.4.2 順伝播と逆伝播の行列計算(後半) 目標:それぞれの行列計算式がこれまでの成分 計算に対応することを示す
  4. 4. まず(4.15)式が(4.12)式に対応することを示す の各成分が となればいい
  5. 5. まず、それぞれの行列を確認 (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  6. 6. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  7. 7. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  8. 8. l+1層のΔは (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  9. 9. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  10. 10. Wの転置行列は (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  11. 11. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  12. 12. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  13. 13. (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : : djn (l) = f ' ujn (l) ( ) wkj (l+1) dkn (l+1) k å djn (l) = djn (l+1) wkj (l+1) f ' ujn (l) ( )( )k å f ’ はkに無関係なので Σの中に入れる 一致 ここに注目
  14. 14. 次に の各成分が ¶W(l) = 1 N D(l) Z(l-1)T ¶b(l) = 1 N D(l) 1N T ì í ï ï î ï ï となることを示す
  15. 15. ¶W(l) = 1 N D(l) Z(l-1)T ¶b(l) = 1 N D(l) 1N T ì í ï ï î ï ï (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : :
  16. 16. ¶W(l) = 1 N D(l) Z(l-1)T ¶b(l) = 1 N D(l) 1N T ì í ï ï î ï ï (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : : 一致
  17. 17. ¶W(l) = 1 N D(l) Z(l-1)T ¶b(l) = 1 N D(l) 1N T ì í ï ï î ï ï (l+1) 1 (l)(l-1) 1 1 i j k :: : : : : KJI : : : : 一致
  18. 18. 最後に求めた勾配からWとbを更新する この更新量で DW(l) = -e¶W(l) Db(l) = -e¶b(l) ì í ï îï と更新 W(l) ¬W(l) +DW(l) b(l) ¬ b(l) +Db(l) ì í ï îï
  19. 19. 3.6.5 モメンタム モメンタム(勢い)・・・重みの修正量がこれまでの勢 いに引っ張られる
  20. 20. モメンタムが無い場合・・・・ このような w – Eの関係の場合、 更新の度に谷底を挟んで行き来 し、収束しない t−1 の更新量 −0.5 t の更新量 +0.5 E w
  21. 21. モメンタムを使う そこで前回の更新料を反映させ れば、谷底に落ちるだろう t−1 の更新量 −0.5 t の更新量 +0.5+μ・(−0.5) E w 前回の更新量
  22. 22. モメンタムの式 Dw(l,t) = m·Dw(l,t-1) -eÑEt 今回の更新量 Dw(l,t) = -eÑEt モメンタム無し: 今回誤差逆伝播によ り求めた値 モメンタム有り: 前回の更新量 掛け率(0.5〜0.9)
  23. 23. モメンタムの式を行列で書くと Dw(l,t) = m·Dw(l,t-1) -eÑEt 成分表示: DW(l,t) = mDW(l,t-1) -e¶W(l,t) Db(l,t) = mDb(l,t-1) -e¶b(l,t) ì í ï îï 行列表示:
  24. 24. さらに重み減衰を加えると DW(l,t) = mDW(l,t-1) -e ¶W(l,t) + lW(l,t) ( ) Db(l,t) = mDb(l,t-1) -e¶b(l,t) ì í ï îï DW(l,t) = mDW(l,t-1) -e¶W(l,t) Db(l,t) = mDb(l,t-1) -e¶b(l,t) ì í ï îï 重み減衰な部分
  25. 25. 4.4.3 勾配の差分近似計算 勾配の計算は複雑だけど、プログラム は合ってるかな? 近似計算で確かめる
  26. 26. 差分近似計算とは・・・ εがそこそこ小さいと、大 体成り立つだろう 微分の 定義:
  27. 27. そのまま順伝播させて計 算できる wにεを加えた後、順伝播 させて計算できる すぐ計算できる 近似に向いてる
  28. 28. εをどの値にするか・・・・ この差が小さくないと近似にならない εを小さくすると打ち切り誤差は小さくなる が、丸め誤差が増大する ¶E ¶w
  29. 29. 打ち切り誤差・・・面倒なので1変数にして考える E w+e( ) をテイラー展開して 理論式と近似式との差は 打ち切り誤差
  30. 30. 丸め誤差・・・ 計算機イプシロンを として E w+e( )- E w( ) e - E' w( ) 丸め誤差は ここもE(w)・ くらい ec ec ここでE(w)・ くらいec 2E w( )ec e
  31. 31. 打ち切り誤差と丸め誤差からトータル誤差の最 小値を求める 誤差 ε 丸め誤差 打ち切り誤差 トータル誤差 eT = 1 2 E'' w( )e + 2E w( )ec e ® min 丸め誤差打ち切り誤差トータル誤差
  32. 32. deT de = d de 1 2 E'' w( )e + 2E w( )ec e æ è ç ö ø ÷= 0 とすると、 1 2 E'' w( )- 2E w( )ec e2 = 0 e = 2 ec E w( ) E'' w( ) e = 2 ec w ??? (p53の式)

×