More Related Content
Similar to 卒業研究 角島康太郎 (20)
卒業研究 角島康太郎
- 8. 従来研究
畳み込みニューラルネットワーク(CNN)[1]
・入力信号の特徴の抽出、圧縮をする層を追加
[1] LeCun, Y.Bottou, L., Bengio, Y., and Haffner, P
.: Gradient-based Learning Applied t
Document Recognition, Pro-ceedings of the IEEE, vol.86, No11, pp.2278-
2324(1998).
- 9. 従来研究
ResNet[4]
2015年優勝モデル
畳み込み後の処理F(X)+入力Xを次の層に渡す
ResidualUnitを重ねることで深い構造を実現
[4]Szegedy,C.,Liu,W.,Jia,y.,Sermanet,P.,Reed,S,E.,Anguelov,D.,Erhan,D.,Vanhou
cke,V.,and Rebinovich,A.: Going Deeper with Convolutions,in CVPR,pp.1-
9(2015)
Editor's Notes
- これから、深層学習における層削除と再学習による高速化について計算知能研究室の角島康太郎が説明します。
- 目次はこのようになっています。
- 近年はインターネットの出現やスマートフォンの登場によりビックデータ時代の到来。1990年からのコンピュータの性能の爆発的発達により、AIが沢山のデータから自ら学ぶ、機械学習、深層学習が注目され、第3次AIブームが来ました。
- 近年、画像認識分野において畳み込みニューラルネットワークが使われている。
2012年の画像の認識精度を競う大会で1位を取ったAlexNetがきっかけ、2位と精度で10%近差がありました。
- この後の大会もAlexNetをもとに層を深くすることによって精度改善をしていきました。
- 深層学習モデルが大きくなるにつれて、計算コストが増加していき、学習と予測にかかる時間が膨大に増加しました。
近年は日常生活の物にインターネットが関わるIoT製品が増え、少ない計算リソースでの機械が増えて行きました。
以上の点から計算コストの削減が必要となっております。
- 全結合層は一般的なニューラルネットワークであり、入力層、隠れ層、出力層で構成されています。
隠れ層を増やすことで層を深くしていき。
学習は出力層から入力層にかけてデルタを計算する誤差逆伝番法で学習します。
- 畳み込みニューラルネットワークは先ほど説明した全結合層に行く前に入力信号の特徴を抽出、圧縮する畳み込み層、プーリング層を繰り返し行い、
その出力信号を
入力信号として全結合層に行きます。
- ResNetは2015年の優勝モデルResidual Unitと呼ばれるブロック複数重ねることで深い構造を実現しました。
リジデュアルユニット
Residual Unitではある処理の出力FXをを次の層に渡す渡すだけでなく、入力Xをショートカットし、FX+Xを次の層に渡します。
これにより深いネットワークでも効率的な学習が可能になりました。
- 井田らはレイヤー数を完全に削除しつつ、精度の劣化を抑える手法を提案しました。
ResNetにResidual Unitごとに重要度パラメータを追加し、重要度が低いResidual Unitを削除し、
再学習することによって深層学習モデルを小さくします。これらにより、計算時間の削減と再学習による、認識精度低下の抑制ができました。
ですが、全結合層の層削除はなく、層削除した際の削除される重みが有効に使われていないなどの問題点がありました。
- そこで私は全結合層での層削除、及び重みを有効活用し重み融合を提案しましす。
提案手法のアルゴリズムはスライドのように
学習を行い、決めといたエポック数に達した時に各層の重要度を計算し、
一番重要の層を削除し、重み融合を行い、再学習します。
これにより、層削除による計算時間の削減。
重み融合による再学習時の精度低下の抑制を目指しました。
- 重要度計算の説明です。
重要度の計算にIMPORTANT配列を追加し各層の重要度を計算しました。
各層の重要度はノードの出力値を合計しノード数で割り、各層のノードの平均値を重要度にしました。
- 重み融合は層削除した、前後の重みを繋げ新たな重みを作りました。
アルファは重み学習率です。
- 実験環境の説明です。
訓練データとテストデータの両方の正解率を測定しました。
20エポックで学習し、5エポック目で提案手法の層削除及び重み融合しました。
20回平均でデータをとり、層削除あり重み融合なし、層削除ありで重み融合あり、層削除なしで比較実験を行いました。
重み学習率は0.1に設定しました。
- 実験環境1の説明です。
画像データセットにはMNISTを使いました。
MNISTは0~9までのグレースケールの手書き数字の画像データセットです。
画像サイズは28*28*1で
訓練データは2000個、テストデータが500個で回しました。
深層学習モデルに全8層の全結合層で行いました。
- 実験環境1の結果です。
重み融合ありとなしで最終的な精度が変わりました。
重み融合ありの方が最終的な認識精度が高かったです。
下のグラフは各エポック数ごとの学習精度の推移です。
点線が学習時精度で実線がテスト時精度です。
図を見たところ、5エポックまでは認識精度にずれはありませんでしたが、
層削除した後は互いに認識精度の低下がありましたが、重み融合ありの方が再学習後の認識精度の上がりが
よいのがわかります。
- 次は実験環境2です。
画像データセットにCIFAR10を使いました。
CIFAR10は10種類の物体カラー画像データセットです。
画像サイズは32*32*3で
訓練データ10000個、テストデータ4000個で行いました。
深層学習モデルにはCNNを使いました。
層削除ありとなしで比較実験を行いました。
- 点線が学習時精度で、実線がテスト時精度です。
赤色が提案手法なんですが、学習時精度は層削除なしよりも精度が低かったですが、
テスト時精度は高かったので過学習を抑え、汎化学習が向上しました。
- こちらは学習、推論が終わった時の経過時間の比較です。
また、計算時間においても層削除することにより計算コストが削減され、短縮出来ました。
- 考察です。
重み融合により削除される重みを有効活用することができ、再学習による認識精度低下を抑制できました。
過学習が抑制され汎化学習精度が向上しました。
層削除することによる計算コストが削減され学習推論の高速化ができました。
- まとめです。
今回層削除と重み融合を提案しました。
重み融合による再学習の認識精度低下の抑制
層削除することによる学習推論の高速化
汎化学習の向上ができました。
- 実験環境1の結果です。
重み融合ありとなしで最終的な精度が変わりました。
重み融合ありの方が最終的な認識精度が高かったです。
- 実験環境1の結果です。
重み融合ありとなしで最終的な精度が変わりました。
重み融合ありの方が最終的な認識精度が高かったです。
こちらは各エポック数ごとの学習精度の推移です。
実線が重み融合ありで点線が重み融合なしです。
図を見たところ、5エポックまでは認識精度にずれはありませんでしたが、
層削除した後は互いに認識精度の低下がありましたが、重み融合ありの方が再学習後の認識精度の上がりが
よいのがわかります。