SlideShare a Scribd company logo
1 of 22
深層学習における層削除と
再学習による高速化
Speeding up for Deep Learning via
Layer Erasure and Re-tranig
日本大学 生産工学部
数理情報工学科 メディアデザインコース
計算知能研究室 77035 角島康太郎
目次
1.研究背景
2.従来研究
3.提案手法
4.実験環境
5.実験結果
6.実行画面
7.考察
8.まとめ
研究背景
ビックデータ コンピュータの
爆発的発達
深層学習
第3次AIブーム
研究背景
画像認識分野において、畳み込みニューラル
ネットワーク(CNN)が使われている
2012年の画像の認識精度を競う大会で
1位を取った深層学習モデルAlexNet[2]
2位と圧倒的精度差!
1位83.5% 2位73.8%
[2]Krizhevsky,A.,Sutskever,I.,and Hinton,G.E.:Im-ageNet
Classificationwith Deep Convolutional Neural Networks,in
NeurIPS,pp.1097—1105(2012)
研究背景
畳み込みニューラルネットワーク
・画像認識分野において高い精度
・層を深くすることによって精度の改善
0.28
0.26
0.16
0.12
0.07
0.036
0.03
0.023
2010 2011 2012 2013 2014 2015 2016 2017
AlexNet
VGGNet
GoogleN
et
ResNet
19層
22層
152層
8層
研究背景
問題点
・計算コストの増加
・学習と予測の時間が増加
・近年のIoT時代の到来に伴い、少ない計算リ
ソースでの機械が増えてきている。
・以上の点から計算コストの削減が必要!!
従来研究
全結合層
・順伝番型ネットワーク
・入力層、隠れ層、出力層で構成
従来研究
畳み込みニューラルネットワーク(CNN)[1]
・入力信号の特徴の抽出、圧縮をする層を追加
[1] LeCun, Y.Bottou, L., Bengio, Y., and Haffner, P
.: Gradient-based Learning Applied t
Document Recognition, Pro-ceedings of the IEEE, vol.86, No11, pp.2278-
2324(1998).
従来研究
ResNet[4]
2015年優勝モデル
畳み込み後の処理F(X)+入力Xを次の層に渡す
ResidualUnitを重ねることで深い構造を実現
[4]Szegedy,C.,Liu,W.,Jia,y.,Sermanet,P.,Reed,S,E.,Anguelov,D.,Erhan,D.,Vanhou
cke,V.,and Rebinovich,A.: Going Deeper with Convolutions,in CVPR,pp.1-
9(2015)
従来研究
井田らのレイヤー数を削除する手法[5]
ResNetからResidual Unitを
削除するResidual Unitを特定する
Residual Unitの重要度を表す変数を導入
Residual Unit削減による計算時間の削減
再学習による認識精度低下の抑制
全結合層の層削除がない
削除される重みが使われない
[5]井田 安俊、藤原 靖宏 層の削除と再学習によるResNetのモデル圧縮
人工知能学会論文誌 35巻(2020)3号
提案手法
全結合層の層削除
層の削除により、
計算時間の削減
重み融合による、
再学習時の精度低化
の抑制
提案手法:重要度計算
Important[]:層ごとの重要度
各層のノードの出力値を合計しノード数で割る
Important[lay]=
1
𝑛𝑜𝑑𝑒
𝑛=0
𝑛𝑜𝑑𝑒
𝑂𝑢𝑡𝑛
𝑙𝑎𝑦
提案手法:重み融合
𝑤𝑘𝑖 = 𝑤𝑗𝑖 + 𝛼(1/𝑗𝑛𝑜𝑑𝑒
𝑗=0
𝑗𝑛𝑜𝑑𝑒
𝑤𝑘𝑗)
𝛼:重み学習率
実験環境
訓練データとテストデータ両方の正解率を測定
20エポック学習
5エポック目で層削除
20回平均
層削除し重み融合なし、層削除し提案手法によ
る重み融合、層削除なしで比較実験
重み融合学習率は0.1に設定
実験環境1
画像データセット:MNIST[6]
MNISTは10の分類クラスを持つ画像データ
画像サイズは28 × 28 × 1
訓練データ2000個
テストデータ500個
深層学習モデル 全8層の全結合層
[6]THE MNIST DATABASE of handwritten digits URL:
http://yann.lecun.com/exdb/mnist/ 最終更新日2021/02/11
実験結果
提案手法の重み融合により精度の上昇
再学習からの精度の低下を抑えられている。
学習時精度 テスト時精度
重み融合無 0.9322 0.8282
重み融合有 0.9406 0.8356
実験環境2
画像データセット:CIFAR-10[7]
10種類の物体カラー写真の画像データセット
画像サイズは32 × 32 × 3
訓練データ10000個
テストデータ4000個
深層学習モデル CNN
[7] The CIFAR-10 dataset
URL:https://www.cs.toronto.edu/~kriz/cifar.html 最終
更新日2021/02/11
実験結果
提案手法では、テスト時精度が向上
過学習を抑え、汎化学習が向上
層削除行っ
たため
認識精度が
低下
している
学習時精度 テスト時精度
層削除なし 0.43321 0.3329
層削除あり 0.40664 0.3466
実験結果
時間の短縮
層削除することで
学習、推論の計算時間の短縮が確認
経過時間
層削除なし 7403.2
層削除あり 7122.8
実行画面
考察
重み融合により削除される重みを有効活用する
ことにより再学習の認識精度低下の抑制
過学習が抑制され汎化学習精度が向上
層削除することによる計算コストが削減され
学習・推論の高速化
まとめ
層削除と重み融合を提案
認識精度低下の抑制
学習・推論の高速化
汎化学習の向上

More Related Content

What's hot

11.0003www.iiste.org call for paper.survey on wireless intelligent video surv...
11.0003www.iiste.org call for paper.survey on wireless intelligent video surv...11.0003www.iiste.org call for paper.survey on wireless intelligent video surv...
11.0003www.iiste.org call for paper.survey on wireless intelligent video surv...
Alexander Decker
 
A robust watermarking algorithm based on image normalization and dc coefficients
A robust watermarking algorithm based on image normalization and dc coefficientsA robust watermarking algorithm based on image normalization and dc coefficients
A robust watermarking algorithm based on image normalization and dc coefficients
Harshal Ladhe
 
IJCER (www.ijceronline.com) International Journal of computational Engineerin...
IJCER (www.ijceronline.com) International Journal of computational Engineerin...IJCER (www.ijceronline.com) International Journal of computational Engineerin...
IJCER (www.ijceronline.com) International Journal of computational Engineerin...
ijceronline
 

What's hot (19)

3.survey on wireless intelligent video surveillance system using moving objec...
3.survey on wireless intelligent video surveillance system using moving objec...3.survey on wireless intelligent video surveillance system using moving objec...
3.survey on wireless intelligent video surveillance system using moving objec...
 
11.0003www.iiste.org call for paper.survey on wireless intelligent video surv...
11.0003www.iiste.org call for paper.survey on wireless intelligent video surv...11.0003www.iiste.org call for paper.survey on wireless intelligent video surv...
11.0003www.iiste.org call for paper.survey on wireless intelligent video surv...
 
323462348
323462348323462348
323462348
 
A robust watermarking algorithm based on image normalization and dc coefficients
A robust watermarking algorithm based on image normalization and dc coefficientsA robust watermarking algorithm based on image normalization and dc coefficients
A robust watermarking algorithm based on image normalization and dc coefficients
 
IJCER (www.ijceronline.com) International Journal of computational Engineerin...
IJCER (www.ijceronline.com) International Journal of computational Engineerin...IJCER (www.ijceronline.com) International Journal of computational Engineerin...
IJCER (www.ijceronline.com) International Journal of computational Engineerin...
 
Secure IoT Systems Monitor Framework using Probabilistic Image Encryption
Secure IoT Systems Monitor Framework using Probabilistic Image EncryptionSecure IoT Systems Monitor Framework using Probabilistic Image Encryption
Secure IoT Systems Monitor Framework using Probabilistic Image Encryption
 
IRJET- A Survey on Medical Image Interpretation for Predicting Pneumonia
IRJET- A Survey on Medical Image Interpretation for Predicting PneumoniaIRJET- A Survey on Medical Image Interpretation for Predicting Pneumonia
IRJET- A Survey on Medical Image Interpretation for Predicting Pneumonia
 
Matlab Digital Image Processing titles 2014-15 from Brainstorm Innovation
Matlab Digital Image Processing titles 2014-15 from Brainstorm InnovationMatlab Digital Image Processing titles 2014-15 from Brainstorm Innovation
Matlab Digital Image Processing titles 2014-15 from Brainstorm Innovation
 
IRJET - An Robust and Dynamic Fire Detection Method using Convolutional N...
IRJET -  	  An Robust and Dynamic Fire Detection Method using Convolutional N...IRJET -  	  An Robust and Dynamic Fire Detection Method using Convolutional N...
IRJET - An Robust and Dynamic Fire Detection Method using Convolutional N...
 
Top 10 neural networks
Top 10 neural networksTop 10 neural networks
Top 10 neural networks
 
Post-Segmentation Approach for Lossless Region of Interest Coding
Post-Segmentation Approach for Lossless Region of Interest CodingPost-Segmentation Approach for Lossless Region of Interest Coding
Post-Segmentation Approach for Lossless Region of Interest Coding
 
THE EFFECT OF PHYSICAL BASED FEATURES FOR RECOGNITION OF RECAPTURED IMAGES
THE EFFECT OF PHYSICAL BASED FEATURES FOR RECOGNITION OF RECAPTURED IMAGESTHE EFFECT OF PHYSICAL BASED FEATURES FOR RECOGNITION OF RECAPTURED IMAGES
THE EFFECT OF PHYSICAL BASED FEATURES FOR RECOGNITION OF RECAPTURED IMAGES
 
IRJET- Reversible Image Data Hiding in an Encrypted Domain with High Level of...
IRJET- Reversible Image Data Hiding in an Encrypted Domain with High Level of...IRJET- Reversible Image Data Hiding in an Encrypted Domain with High Level of...
IRJET- Reversible Image Data Hiding in an Encrypted Domain with High Level of...
 
A DCT-BASED TOTAL JND PROFILE FORSPATIO-TEMPORAL AND FOVEATED MASKING EFFECTS
A DCT-BASED TOTAL JND PROFILE FORSPATIO-TEMPORAL AND FOVEATED MASKING EFFECTSA DCT-BASED TOTAL JND PROFILE FORSPATIO-TEMPORAL AND FOVEATED MASKING EFFECTS
A DCT-BASED TOTAL JND PROFILE FORSPATIO-TEMPORAL AND FOVEATED MASKING EFFECTS
 
Satellite Image Classification with Deep Learning Survey
Satellite Image Classification with Deep Learning SurveySatellite Image Classification with Deep Learning Survey
Satellite Image Classification with Deep Learning Survey
 
93202101
9320210193202101
93202101
 
Weeds detection efficiency through different convolutional neural networks te...
Weeds detection efficiency through different convolutional neural networks te...Weeds detection efficiency through different convolutional neural networks te...
Weeds detection efficiency through different convolutional neural networks te...
 
TOP 5 Most View Article From Academia in 2019
TOP 5 Most View Article From Academia in 2019TOP 5 Most View Article From Academia in 2019
TOP 5 Most View Article From Academia in 2019
 
Single image haze removal
Single image haze removalSingle image haze removal
Single image haze removal
 

Similar to 卒業研究 角島康太郎

Broadcasting Forensics Using Machine Learning Approaches
Broadcasting Forensics Using Machine Learning ApproachesBroadcasting Forensics Using Machine Learning Approaches
Broadcasting Forensics Using Machine Learning Approaches
ijtsrd
 
Application To Monitor And Manage People In Crowded Places Using Neural Networks
Application To Monitor And Manage People In Crowded Places Using Neural NetworksApplication To Monitor And Manage People In Crowded Places Using Neural Networks
Application To Monitor And Manage People In Crowded Places Using Neural Networks
IJSRED
 

Similar to 卒業研究 角島康太郎 (20)

The deep learning technology on coco framework
The deep learning technology on coco frameworkThe deep learning technology on coco framework
The deep learning technology on coco framework
 
323462348
323462348323462348
323462348
 
From Pixels to Understanding: Deep Learning's Impact on Image Classification ...
From Pixels to Understanding: Deep Learning's Impact on Image Classification ...From Pixels to Understanding: Deep Learning's Impact on Image Classification ...
From Pixels to Understanding: Deep Learning's Impact on Image Classification ...
 
Broadcasting Forensics Using Machine Learning Approaches
Broadcasting Forensics Using Machine Learning ApproachesBroadcasting Forensics Using Machine Learning Approaches
Broadcasting Forensics Using Machine Learning Approaches
 
UNSUPERVISED LEARNING MODELS OF INVARIANT FEATURES IN IMAGES: RECENT DEVELOPM...
UNSUPERVISED LEARNING MODELS OF INVARIANT FEATURES IN IMAGES: RECENT DEVELOPM...UNSUPERVISED LEARNING MODELS OF INVARIANT FEATURES IN IMAGES: RECENT DEVELOPM...
UNSUPERVISED LEARNING MODELS OF INVARIANT FEATURES IN IMAGES: RECENT DEVELOPM...
 
UNSUPERVISED LEARNING MODELS OF INVARIANT FEATURES IN IMAGES: RECENT DEVELOPM...
UNSUPERVISED LEARNING MODELS OF INVARIANT FEATURES IN IMAGES: RECENT DEVELOPM...UNSUPERVISED LEARNING MODELS OF INVARIANT FEATURES IN IMAGES: RECENT DEVELOPM...
UNSUPERVISED LEARNING MODELS OF INVARIANT FEATURES IN IMAGES: RECENT DEVELOPM...
 
Unsupervised learning models of invariant features in images: Recent developm...
Unsupervised learning models of invariant features in images: Recent developm...Unsupervised learning models of invariant features in images: Recent developm...
Unsupervised learning models of invariant features in images: Recent developm...
 
A Neural Network Approach to Deep-Fake Video Detection
A Neural Network Approach to Deep-Fake Video DetectionA Neural Network Approach to Deep-Fake Video Detection
A Neural Network Approach to Deep-Fake Video Detection
 
Image classification using convolutional neural network
Image classification using convolutional neural networkImage classification using convolutional neural network
Image classification using convolutional neural network
 
IRJET- Deep Learning Techniques for Object Detection
IRJET-  	  Deep Learning Techniques for Object DetectionIRJET-  	  Deep Learning Techniques for Object Detection
IRJET- Deep Learning Techniques for Object Detection
 
Application To Monitor And Manage People In Crowded Places Using Neural Networks
Application To Monitor And Manage People In Crowded Places Using Neural NetworksApplication To Monitor And Manage People In Crowded Places Using Neural Networks
Application To Monitor And Manage People In Crowded Places Using Neural Networks
 
Image Forgery Detection Using Deep Neural Network
Image Forgery Detection Using Deep Neural NetworkImage Forgery Detection Using Deep Neural Network
Image Forgery Detection Using Deep Neural Network
 
Introduction to Deep learning
Introduction to Deep learningIntroduction to Deep learning
Introduction to Deep learning
 
Neural Architectures for Still Images - Xavier Giro- UPC Barcelona 2019
Neural Architectures for Still Images - Xavier Giro- UPC Barcelona 2019Neural Architectures for Still Images - Xavier Giro- UPC Barcelona 2019
Neural Architectures for Still Images - Xavier Giro- UPC Barcelona 2019
 
Efficient content-based image retrieval using integrated dual deep convoluti...
Efficient content-based image retrieval using integrated dual  deep convoluti...Efficient content-based image retrieval using integrated dual  deep convoluti...
Efficient content-based image retrieval using integrated dual deep convoluti...
 
Image Steganography: An Inevitable Need for Data Security, Authors: Sneh Rach...
Image Steganography: An Inevitable Need for Data Security, Authors: Sneh Rach...Image Steganography: An Inevitable Need for Data Security, Authors: Sneh Rach...
Image Steganography: An Inevitable Need for Data Security, Authors: Sneh Rach...
 
Closing, Course Offer 17/18 & Homework (D5 2017 UPC Deep Learning for Compute...
Closing, Course Offer 17/18 & Homework (D5 2017 UPC Deep Learning for Compute...Closing, Course Offer 17/18 & Homework (D5 2017 UPC Deep Learning for Compute...
Closing, Course Offer 17/18 & Homework (D5 2017 UPC Deep Learning for Compute...
 
RECOGNITION OF CDNA MICROARRAY IMAGE USING FEEDFORWARD ARTIFICIAL NEURAL NETWORK
RECOGNITION OF CDNA MICROARRAY IMAGE USING FEEDFORWARD ARTIFICIAL NEURAL NETWORKRECOGNITION OF CDNA MICROARRAY IMAGE USING FEEDFORWARD ARTIFICIAL NEURAL NETWORK
RECOGNITION OF CDNA MICROARRAY IMAGE USING FEEDFORWARD ARTIFICIAL NEURAL NETWORK
 
A NOVEL BIOMETRIC APPROACH FOR AUTHENTICATION IN PERVASIVE COMPUTING ENVIRONM...
A NOVEL BIOMETRIC APPROACH FOR AUTHENTICATION IN PERVASIVE COMPUTING ENVIRONM...A NOVEL BIOMETRIC APPROACH FOR AUTHENTICATION IN PERVASIVE COMPUTING ENVIRONM...
A NOVEL BIOMETRIC APPROACH FOR AUTHENTICATION IN PERVASIVE COMPUTING ENVIRONM...
 
Advanced Computational Intelligence: An International Journal (ACII)
Advanced Computational Intelligence: An International Journal (ACII)Advanced Computational Intelligence: An International Journal (ACII)
Advanced Computational Intelligence: An International Journal (ACII)
 

Recently uploaded

Microsoft BitLocker Bypass Attack Method.pdf
Microsoft BitLocker Bypass Attack Method.pdfMicrosoft BitLocker Bypass Attack Method.pdf
Microsoft BitLocker Bypass Attack Method.pdf
Overkill Security
 
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptxHarnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
FIDO Alliance
 
TrustArc Webinar - Unified Trust Center for Privacy, Security, Compliance, an...
TrustArc Webinar - Unified Trust Center for Privacy, Security, Compliance, an...TrustArc Webinar - Unified Trust Center for Privacy, Security, Compliance, an...
TrustArc Webinar - Unified Trust Center for Privacy, Security, Compliance, an...
TrustArc
 

Recently uploaded (20)

Continuing Bonds Through AI: A Hermeneutic Reflection on Thanabots
Continuing Bonds Through AI: A Hermeneutic Reflection on ThanabotsContinuing Bonds Through AI: A Hermeneutic Reflection on Thanabots
Continuing Bonds Through AI: A Hermeneutic Reflection on Thanabots
 
Generative AI Use Cases and Applications.pdf
Generative AI Use Cases and Applications.pdfGenerative AI Use Cases and Applications.pdf
Generative AI Use Cases and Applications.pdf
 
Overview of Hyperledger Foundation
Overview of Hyperledger FoundationOverview of Hyperledger Foundation
Overview of Hyperledger Foundation
 
Vector Search @ sw2con for slideshare.pptx
Vector Search @ sw2con for slideshare.pptxVector Search @ sw2con for slideshare.pptx
Vector Search @ sw2con for slideshare.pptx
 
2024 May Patch Tuesday
2024 May Patch Tuesday2024 May Patch Tuesday
2024 May Patch Tuesday
 
ChatGPT and Beyond - Elevating DevOps Productivity
ChatGPT and Beyond - Elevating DevOps ProductivityChatGPT and Beyond - Elevating DevOps Productivity
ChatGPT and Beyond - Elevating DevOps Productivity
 
JohnPollard-hybrid-app-RailsConf2024.pptx
JohnPollard-hybrid-app-RailsConf2024.pptxJohnPollard-hybrid-app-RailsConf2024.pptx
JohnPollard-hybrid-app-RailsConf2024.pptx
 
WebRTC and SIP not just audio and video @ OpenSIPS 2024
WebRTC and SIP not just audio and video @ OpenSIPS 2024WebRTC and SIP not just audio and video @ OpenSIPS 2024
WebRTC and SIP not just audio and video @ OpenSIPS 2024
 
Portal Kombat : extension du réseau de propagande russe
Portal Kombat : extension du réseau de propagande russePortal Kombat : extension du réseau de propagande russe
Portal Kombat : extension du réseau de propagande russe
 
AI mind or machine power point presentation
AI mind or machine power point presentationAI mind or machine power point presentation
AI mind or machine power point presentation
 
Observability Concepts EVERY Developer Should Know (DevOpsDays Seattle)
Observability Concepts EVERY Developer Should Know (DevOpsDays Seattle)Observability Concepts EVERY Developer Should Know (DevOpsDays Seattle)
Observability Concepts EVERY Developer Should Know (DevOpsDays Seattle)
 
Microsoft BitLocker Bypass Attack Method.pdf
Microsoft BitLocker Bypass Attack Method.pdfMicrosoft BitLocker Bypass Attack Method.pdf
Microsoft BitLocker Bypass Attack Method.pdf
 
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptxHarnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
 
Working together SRE & Platform Engineering
Working together SRE & Platform EngineeringWorking together SRE & Platform Engineering
Working together SRE & Platform Engineering
 
Event-Driven Architecture Masterclass: Challenges in Stream Processing
Event-Driven Architecture Masterclass: Challenges in Stream ProcessingEvent-Driven Architecture Masterclass: Challenges in Stream Processing
Event-Driven Architecture Masterclass: Challenges in Stream Processing
 
TrustArc Webinar - Unified Trust Center for Privacy, Security, Compliance, an...
TrustArc Webinar - Unified Trust Center for Privacy, Security, Compliance, an...TrustArc Webinar - Unified Trust Center for Privacy, Security, Compliance, an...
TrustArc Webinar - Unified Trust Center for Privacy, Security, Compliance, an...
 
Simplifying Mobile A11y Presentation.pptx
Simplifying Mobile A11y Presentation.pptxSimplifying Mobile A11y Presentation.pptx
Simplifying Mobile A11y Presentation.pptx
 
Introduction to FIDO Authentication and Passkeys.pptx
Introduction to FIDO Authentication and Passkeys.pptxIntroduction to FIDO Authentication and Passkeys.pptx
Introduction to FIDO Authentication and Passkeys.pptx
 
AI in Action: Real World Use Cases by Anitaraj
AI in Action: Real World Use Cases by AnitarajAI in Action: Real World Use Cases by Anitaraj
AI in Action: Real World Use Cases by Anitaraj
 
Event-Driven Architecture Masterclass: Engineering a Robust, High-performance...
Event-Driven Architecture Masterclass: Engineering a Robust, High-performance...Event-Driven Architecture Masterclass: Engineering a Robust, High-performance...
Event-Driven Architecture Masterclass: Engineering a Robust, High-performance...
 

卒業研究 角島康太郎

Editor's Notes

  1. これから、深層学習における層削除と再学習による高速化について計算知能研究室の角島康太郎が説明します。
  2. 目次はこのようになっています。
  3. 近年はインターネットの出現やスマートフォンの登場によりビックデータ時代の到来。1990年からのコンピュータの性能の爆発的発達により、AIが沢山のデータから自ら学ぶ、機械学習、深層学習が注目され、第3次AIブームが来ました。
  4. 近年、画像認識分野において畳み込みニューラルネットワークが使われている。 2012年の画像の認識精度を競う大会で1位を取ったAlexNetがきっかけ、2位と精度で10%近差がありました。
  5. この後の大会もAlexNetをもとに層を深くすることによって精度改善をしていきました。
  6. 深層学習モデルが大きくなるにつれて、計算コストが増加していき、学習と予測にかかる時間が膨大に増加しました。 近年は日常生活の物にインターネットが関わるIoT製品が増え、少ない計算リソースでの機械が増えて行きました。 以上の点から計算コストの削減が必要となっております。
  7. 全結合層は一般的なニューラルネットワークであり、入力層、隠れ層、出力層で構成されています。 隠れ層を増やすことで層を深くしていき。 学習は出力層から入力層にかけてデルタを計算する誤差逆伝番法で学習します。
  8. 畳み込みニューラルネットワークは先ほど説明した全結合層に行く前に入力信号の特徴を抽出、圧縮する畳み込み層、プーリング層を繰り返し行い、 その出力信号を 入力信号として全結合層に行きます。
  9. ResNetは2015年の優勝モデルResidual Unitと呼ばれるブロック複数重ねることで深い構造を実現しました。 リジデュアルユニット Residual Unitではある処理の出力FXをを次の層に渡す渡すだけでなく、入力Xをショートカットし、FX+Xを次の層に渡します。 これにより深いネットワークでも効率的な学習が可能になりました。
  10. 井田らはレイヤー数を完全に削除しつつ、精度の劣化を抑える手法を提案しました。 ResNetにResidual Unitごとに重要度パラメータを追加し、重要度が低いResidual Unitを削除し、 再学習することによって深層学習モデルを小さくします。これらにより、計算時間の削減と再学習による、認識精度低下の抑制ができました。 ですが、全結合層の層削除はなく、層削除した際の削除される重みが有効に使われていないなどの問題点がありました。
  11. そこで私は全結合層での層削除、及び重みを有効活用し重み融合を提案しましす。 提案手法のアルゴリズムはスライドのように 学習を行い、決めといたエポック数に達した時に各層の重要度を計算し、 一番重要の層を削除し、重み融合を行い、再学習します。 これにより、層削除による計算時間の削減。 重み融合による再学習時の精度低下の抑制を目指しました。
  12. 重要度計算の説明です。 重要度の計算にIMPORTANT配列を追加し各層の重要度を計算しました。 各層の重要度はノードの出力値を合計しノード数で割り、各層のノードの平均値を重要度にしました。
  13. 重み融合は層削除した、前後の重みを繋げ新たな重みを作りました。 アルファは重み学習率です。
  14. 実験環境の説明です。 訓練データとテストデータの両方の正解率を測定しました。 20エポックで学習し、5エポック目で提案手法の層削除及び重み融合しました。 20回平均でデータをとり、層削除あり重み融合なし、層削除ありで重み融合あり、層削除なしで比較実験を行いました。 重み学習率は0.1に設定しました。
  15. 実験環境1の説明です。 画像データセットにはMNISTを使いました。 MNISTは0~9までのグレースケールの手書き数字の画像データセットです。 画像サイズは28*28*1で 訓練データは2000個、テストデータが500個で回しました。 深層学習モデルに全8層の全結合層で行いました。
  16. 実験環境1の結果です。 重み融合ありとなしで最終的な精度が変わりました。 重み融合ありの方が最終的な認識精度が高かったです。 下のグラフは各エポック数ごとの学習精度の推移です。 点線が学習時精度で実線がテスト時精度です。 図を見たところ、5エポックまでは認識精度にずれはありませんでしたが、 層削除した後は互いに認識精度の低下がありましたが、重み融合ありの方が再学習後の認識精度の上がりが よいのがわかります。
  17. 次は実験環境2です。 画像データセットにCIFAR10を使いました。 CIFAR10は10種類の物体カラー画像データセットです。 画像サイズは32*32*3で 訓練データ10000個、テストデータ4000個で行いました。 深層学習モデルにはCNNを使いました。 層削除ありとなしで比較実験を行いました。
  18. 点線が学習時精度で、実線がテスト時精度です。 赤色が提案手法なんですが、学習時精度は層削除なしよりも精度が低かったですが、 テスト時精度は高かったので過学習を抑え、汎化学習が向上しました。
  19. こちらは学習、推論が終わった時の経過時間の比較です。 また、計算時間においても層削除することにより計算コストが削減され、短縮出来ました。
  20. 考察です。 重み融合により削除される重みを有効活用することができ、再学習による認識精度低下を抑制できました。 過学習が抑制され汎化学習精度が向上しました。 層削除することによる計算コストが削減され学習推論の高速化ができました。
  21. まとめです。 今回層削除と重み融合を提案しました。 重み融合による再学習の認識精度低下の抑制 層削除することによる学習推論の高速化 汎化学習の向上ができました。
  22. 実験環境1の結果です。 重み融合ありとなしで最終的な精度が変わりました。 重み融合ありの方が最終的な認識精度が高かったです。
  23. 実験環境1の結果です。 重み融合ありとなしで最終的な精度が変わりました。 重み融合ありの方が最終的な認識精度が高かったです。 こちらは各エポック数ごとの学習精度の推移です。 実線が重み融合ありで点線が重み融合なしです。 図を見たところ、5エポックまでは認識精度にずれはありませんでしたが、 層削除した後は互いに認識精度の低下がありましたが、重み融合ありの方が再学習後の認識精度の上がりが よいのがわかります。