画像の圧縮・復元モデルと認識モデルのEnd-to-End学習

画像の圧縮・復元モデルと
認識モデルのEnd-to-End学習
柴田蓮山内悠嗣
2024年3月5日
動的画像処理実利用ワークショップ2024
OS3-3，IS3-3
中部大学

研究背景
2
• エッジコンピューティングを活用したサービスが拡大
• デバイス付近に設置したエッジサーバで処理を分散する高速かつ低遅延なネットワーク技術
• 画像認識システムは，デバイスの性能に依存しない高度な画像処理が利用可能
• しかし，大容量の画像を通信すると通信速度の低下などの問題が発生
• 例えば，スマートフォンで撮影した画像は約2.5[MB]，4,000枚通信した場合の通信量は約10[GB]
デバイスエッジサーバ
画像データ
認識結果
加工データ
クラウドサーバ

• 圧縮したデータを通信することでネットワークへの負荷を減らす手法を提案
• 深層学習による圧縮・復元を行うことで約95％のデータ容量を削減を実現
従来法
3
デバイス
Encoder
高瀬俊希等, “エッジコンピューティングのための圧縮画像認識”, ビジョン技術の実利用ワークショップ, 2022.
Binarizer
エッジサーバ
圧縮データ
認識結果
画像認識
Decoder

従来法の課題
• 圧縮・復元した画像にはテクスチャ情報の欠落やノイズの散見を確認
• このような画像を認識に用いた場合，認識精度が低下してしまう
4
従来法
1.2[kB]
JPEG
1.7[kB]
未圧縮画像
120.7[kB]
提案手法
1.2[kB]

提案手法
• 研究の目的
• 圧縮・復元した画像を用いた画像認識精度の低下を抑制
• アプローチ
• 画像の圧縮・復元モデルと認識モデルをEnd-to-Endで学習
• 画像の認識に有効な情報の欠落やノイズの発生を防ぎ，認識精度の低下を抑制
• 既存の認識モデルをそのまま適用可能
• 従来法と同等の高い圧縮性能を保持
5

提案手法のネットワークの概要
• 画像の圧縮・復元モデルと認識モデルを直列に結合
6
圧縮・復元モデル認識モデル
認識結果
ResNet50
Decoder
Encoder
通信
入力画像
圧縮・復元モデルの説明

• Recurrent Neural Network(RNN)を用いた再帰型オートエンコーダを採用
• 画像をモデルに入力し復元画像を出力
• 入力画像と復元画像の差分画像を再びモデルに入力し，差分画像の復元画像を出力
• 得られた複数の復元画像を合成することで，最終的に入力画像に近い画像として復元
圧縮・復元モデルの概要
7
G.Toderici,et al.“Full resolution image compression with recurrent neural networks”, CVPR, 2017.
Encoder Decoder
Binarizer
Encoder Decoder
Binarizer
復元画像 𝒙𝟐
入力画像 𝒙 復元画像 𝒙𝟏
Encoder Decoder
Binarizer
復元画像 𝒙𝟑
Encoder Decoder
Binarizer

• Encoder，Binarizerによる画像の圧縮
• Binarizerによるバイナリ変換およびエントロピー符号化により，高い圧縮率を実現
• バイナリ変換による二値化を平均化することで情報の損失を補う
• 符号化に使用するビット数を最小化するため，コードのエントロピーを最大化
Binarizerの処理
8
離散値
Encoder Binarizer
連続値
入力画像特徴抽出量子化処理
エントロピー
符号化
バイナリ
コード
バイナリ変換
特徴マップ
二値化符号化圧縮

• 入力画像と圧縮・復元画像の平均絶対誤差を使用
圧縮・復元モデルの損失関数
9
G.Toderici,et al.“Full resolution image compression with recurrent neural networks”, CVPR, 2017.
:RNNの繰り返し回数
:入力画像
:復元画像
Encoder Decoder
Binarizer
Encoder Decoder
Binarizer
入力画像 𝒙 復元画像 𝒙𝟏

圧縮・復元モデルの出力画像
• 繰り返し回数が多いほど，出力される画像は入力画像に近づく
• 最大で約99％のデータ容量(通信量)を削減可能
• 繰り返し回数を制御することで，出力画像の画像品質を変更できる
10
未圧縮画像繰り返し1回繰り返し4回
繰り返し3回
繰り返し2回
120.7[kB] 2.7[kB]
2.0[kB]
1.2[kB] 3.5[kB]
4.1[MB] 2.8[kB]
2.0[kB]
1.2[kB] 3.6[kB]

認識モデルの説明
• 画像の圧縮・復元モデルと認識モデルを直列に結合
11
認識結果
ResNet50
Decoder
Encoder
通信
入力画像

認識モデルの概要と損失関数
• 50層で構成される画像認識ネットワークResNet50を採用
• 残差ブロック構造を導入することで，勾配消失問題を解決したCNN
• 損失計算には，入力画像に対する交差エントロピー誤差を使用
• ただし，本研究では圧縮・復元モデルの出力を認識に用いるため下記のように表される
K.He,et al.“Deep residual learning for image recognition”, CVPR, 2016.
12
:認識モデル
:予測の確率分布
:正解ラベルの確率分布
:圧縮・復元画像

提案手法の損失関数
• 提案手法の損失関数を定義
• は2つの損失の重みを調整するハイパーパラメータ 0.6)
• 上記の損失関数を用いた2つの最適化方法を提案
• 同時最適化
• 圧縮・復元モデルと認識モデルを同時にファインチューニング
• 交互最適化
• Generative Adversarial Nets(GAN)のように2つのモデルを交互にファインチューニング
13
圧縮・復元モデルの損失認識モデルの損失
I.Goodfellow,et al.“Generative adversarial nets”, NIPS, 2014.

同時最適化
• 個々に事前学習した圧縮・復元モデルと認識モデルを結合して同時に最適化
• ただし，モデルが大きく複雑な場合，局所的な最適解に陥ることが報告されている
14
認識結果
ResNet50
Decoder
Encoder
通信
入力画像
T. Glasmachers, “Limits of end-to-end learning”, Proceedings of Machine Learning Researchs, 2017.
:Trainable

交互最適化
15
圧縮・復元モデル
認識結果
Decoder
Encoder
通信
入力画像
:Frozen
:Trainable
認識モデル
ResNet50
• GANのように2つのモデルを交互に最適化
• 圧縮・復元モデルの最適化時は，第2項を固定し，第1項のみを最適化

交互最適化
16
圧縮・復元モデル
認識結果
Decoder
Encoder
通信
入力画像
:Frozen
:Trainable
認識モデル
ResNet50
• GANのように2つのモデルを交互に最適化
• 認識モデルの最適化時は，第1項を固定し，第2項のみを最適化

評価実験:概要
• 10クラスの画像分類タスク
• 4つのモデルを比較
• 未圧縮モデル:未圧縮画像を用いて認識モデルを学習
• 個別最適化モデル(従来法):圧縮・復元モデルを学習後，その出力で認識モデルを最適化
• 同時最適化モデル:圧縮・復元モデルと認識モデルを同時に最適化
• 交互最適化モデル:圧縮・復元モデルと認識モデルを交互に最適化
• 評価内容
• 分類精度
• 未圧縮画像と圧縮・復元画像のPeak signal-to-noise ratio(PSNR)
17
高瀬俊希等, “エッジコンピューティングのための圧縮画像認識”, ビジョン技術の実利用ワークショップ, 2022.

データセット
• ImageNetの派生形であるImageNetteを使用
• 10クラスで構成
• 学習用画像9,469枚，評価用画像3,925枚
18
tench
French horn
church
chain saw
cassette
player
English springer
gas gump garbage truck golf ball
parechute
J. Howard, and S. Gugger, “Fastai: A layered api for deep learning”, Information, 2020.

• 事前学習時のハイパーパラメータ
• 圧縮・復元モデル
• 認識モデル
• timmライブラリで提供されているものを使用
• ファインチューニング時のハイパーパラメータ
• 同時最適化
• 交互最適化
ハイパーパラメータ
19
学習率
オプティマイザ
バッチサイズ
エポック数
データセット
5e-4
Adam
512
500
CIFAR-10
学習率
バッチサイズ
エポック数
データセット
2e-4
Adam
32
50
ImageNette
学習率
(認識モデル)
学習率
(圧縮・復元モデル)
バッチサイズ
エポック数
データセット
2e-5
2e-4
Adam
32
50
ImageNette

評価実験:平均分類精度
20
• 繰り返し1回の時，提案手法は個別最適化モデルに比べて分類精度が約3%向上
• データ通信量は、未圧縮モデルと比べ約99％削減
繰り返し回数ごとの各手法の平均認識精度[%]と平均データ通信量[kB]
未圧縮モデルの平均データ通信量は118.2kB

評価実験:平均分類精度
21
繰り返し回数ごとの各手法の平均認識精度[%]と平均データ通信量[kB]
• 繰り返し回数が多くなるほど、データ通信量の増加するが分類精度が向上
• 未圧縮モデルと同等の精度を得られる
未圧縮モデルの平均データ通信量は118.2kB

評価実験:PSNRによる類似度の計測
• PSNRは2枚の画像の類似度を計測する評価指標
• 値が高いほど未圧縮画像との類似度が高いことを示す
[dB]
• 全繰り返し回数において提案手法は，個別最適化モデル(従来法)より高い
• 交互最適化は同時最適化よりも高いPSNRが得られた
22
10
9
8
7
6
5
4
3
2
1
繰り返し回数
28.1
27.8
27.5
27.2
26.7
26.1
25.5
24.5
23.1
20.2
個別最適化
28.6
28.3
28.0
27.7
27.2
26.7
26.0
25.1
23.9
21.6
同時最適化
28.8
28.5
28.2
27.8
27.4
26.9
26.2
25.3
24.1
21.9
交互最適化
繰り返し回数ごとの各手法における平均 PSNR[dB]

各手法の圧縮・復元画像
23
未圧縮画像個別最適化交互最適化
同時最適化
• 提案手法は，個別最適化で散見されるノイズが抑制され未圧縮に近い画像を復元

各手法の圧縮・復元画像
24
未圧縮画像個別最適化交互最適化
同時最適化
• 提案手法は，個別最適化で散見されるノイズが抑制され未圧縮に近い画像を復元

各手法における判断根拠の可視化
• Grad-CAMで繰り返し1回の画像を認識モデルに入力した際の注視領域
• 提案手法は，高精度な未圧縮モデルに近い注視領域を獲得
R.R.Selvaraju,et al.“Grad-cam: Visual explanations from deep networks via gradient-based localization”, ICCV, 2017
25
未圧縮モデル個別最適化同時最適化交互最適化

まとめ
• 圧縮・復元した画像を用いた画像認識精度の低下を抑制
• 圧縮・復元モデルと認識モデルのEnd-to-End学習
• 画像圧縮・復元する際に認識モデルを考慮
• 未圧縮画像を通信する場合と比較し，最大で約99％のデータ通信量を削減可能
• 繰り返し1回の画像を認識に用いた際，提案手法は従来法に比べ分類精度が約3％向上
• 未圧縮画像と圧縮・復元画像の類似度比較において提案手法は，従来法より高い値を示した
• 今後の予定
• 本アプローチに適した画像の圧縮・復元モデルを検討
26

画像の圧縮・復元モデルと認識モデルのEnd-to-End学習

Recommended

Recommended

More Related Content

Similar to 画像の圧縮・復元モデルと認識モデルのEnd-to-End学習

Similar to 画像の圧縮・復元モデルと認識モデルのEnd-to-End学習 (20)

More from MILab

More from MILab (10)

Recently uploaded

Recently uploaded (7)

画像の圧縮・復元モデルと認識モデルのEnd-to-End学習