More Related Content Similar to 画像の圧縮・復元モデルと認識モデルのEnd-to-End学習 (20) 画像の圧縮・復元モデルと認識モデルのEnd-to-End学習7. • Recurrent Neural Network(RNN)を用いた再帰型オートエンコーダを採用
• 画像をモデルに入力し復元画像を出力
• 入力画像と復元画像の差分画像を再びモデルに入力し,差分画像の復元画像を出力
• 得られた複数の復元画像を合成することで,最終的に入力画像に近い画像として復元
圧縮・復元モデルの概要
7
G.Toderici,et al.“Full resolution image compression with recurrent neural networks”, CVPR, 2017.
Encoder Decoder
Binarizer
Encoder Decoder
Binarizer
復元画像 𝒙𝟐
入力画像 𝒙 復元画像 𝒙𝟏
Encoder Decoder
Binarizer
復元画像 𝒙𝟐
復元画像 𝒙𝟑
Encoder Decoder
Binarizer
13. 提案手法の損失関数
• 提案手法の損失関数を定義
• は2つの損失の重みを調整するハイパーパラメータ 0.6)
• 上記の損失関数を用いた2つの最適化方法を提案
• 同時最適化
• 圧縮・復元モデルと認識モデルを同時にファインチューニング
• 交互最適化
• Generative Adversarial Nets(GAN)のように2つのモデルを交互にファインチューニング
13
圧縮・復元モデルの損失 認識モデルの損失
I.Goodfellow,et al.“Generative adversarial nets”, NIPS, 2014.
17. 評価実験:概要
• 10クラスの画像分類タスク
• 4つのモデルを比較
• 未圧縮モデル:未圧縮画像を用いて認識モデルを学習
• 個別最適化モデル(従来法):圧縮・復元モデルを学習後,その出力で認識モデルを最適化
• 同時最適化モデル:圧縮・復元モデルと認識モデルを同時に最適化
• 交互最適化モデル:圧縮・復元モデルと認識モデルを交互に最適化
• 評価内容
• 分類精度
• 未圧縮画像と圧縮・復元画像のPeak signal-to-noise ratio(PSNR)
17
高瀬俊希 等, “エッジコンピューティングのための圧縮画像認識”, ビジョン技術の実利用ワークショップ, 2022.
18. データセット
• ImageNetの派生形であるImageNetteを使用
• 10クラスで構成
• 学習用画像9,469枚,評価用画像3,925枚
18
tench
French horn
church
chain saw
cassette
player
English springer
gas gump garbage truck golf ball
parechute
J. Howard, and S. Gugger, “Fastai: A layered api for deep learning”, Information, 2020.
19. • 事前学習時のハイパーパラメータ
• 圧縮・復元モデル
• 認識モデル
• timmライブラリで提供されているものを使用
• ファインチューニング時のハイパーパラメータ
• 同時最適化
• 交互最適化
ハイパーパラメータ
19
学習率
オプティマイザ
バッチサイズ
エポック数
データセット
5e-4
Adam
512
500
CIFAR-10
学習率
オプティマイザ
バッチサイズ
エポック数
データセット
2e-4
Adam
32
50
ImageNette
学習率
(認識モデル)
学習率
(圧縮・復元モデル)
オプティマイザ
バッチサイズ
エポック数
データセット
2e-5
2e-4
Adam
32
50
ImageNette