SlideShare a Scribd company logo
1 of 26
Download to read offline
画像の圧縮・復元モデルと
認識モデルのEnd-to-End学習
柴田蓮 山内悠嗣
2024年3月5日
動的画像処理実利用ワークショップ2024
OS3-3,IS3-3
中部大学
研究背景
2
• エッジコンピューティングを活用したサービスが拡大
• デバイス付近に設置したエッジサーバで処理を分散する高速かつ低遅延なネットワーク技術
• 画像認識システムは,デバイスの性能に依存しない高度な画像処理が利用可能
• しかし,大容量の画像を通信すると通信速度の低下などの問題が発生
• 例えば,スマートフォンで撮影した画像は約2.5[MB],4,000枚通信した場合の通信量は約10[GB]
デバイス エッジサーバ
画像データ
認識結果
加工データ
クラウドサーバ
• 圧縮したデータを通信することでネットワークへの負荷を減らす手法を提案
• 深層学習による圧縮・復元を行うことで約95%のデータ容量を削減を実現
従来法
3
デバイス
Encoder
高瀬俊希 等, “エッジコンピューティングのための圧縮画像認識”, ビジョン技術の実利用ワークショップ, 2022.
Binarizer
エッジサーバ
圧縮データ
認識結果
画像認識
Decoder
従来法の課題
• 圧縮・復元した画像にはテクスチャ情報の欠落やノイズの散見を確認
• このような画像を認識に用いた場合,認識精度が低下してしまう
4
従来法
1.2[kB]
JPEG
1.7[kB]
未圧縮画像
120.7[kB]
提案手法
1.2[kB]
提案手法
• 研究の目的
• 圧縮・復元した画像を用いた画像認識精度の低下を抑制
• アプローチ
• 画像の圧縮・復元モデルと認識モデルをEnd-to-Endで学習
• 画像の認識に有効な情報の欠落やノイズの発生を防ぎ,認識精度の低下を抑制
• 既存の認識モデルをそのまま適用可能
• 従来法と同等の高い圧縮性能を保持
5
提案手法のネットワークの概要
• 画像の圧縮・復元モデルと認識モデルを直列に結合
6
圧縮・復元モデル 認識モデル
認識結果
ResNet50
Decoder
Encoder
通信
入力画像
圧縮・復元モデルの説明
• Recurrent Neural Network(RNN)を用いた再帰型オートエンコーダを採用
• 画像をモデルに入力し復元画像を出力
• 入力画像と復元画像の差分画像を再びモデルに入力し,差分画像の復元画像を出力
• 得られた複数の復元画像を合成することで,最終的に入力画像に近い画像として復元
圧縮・復元モデルの概要
7
G.Toderici,et al.“Full resolution image compression with recurrent neural networks”, CVPR, 2017.
Encoder Decoder
Binarizer
Encoder Decoder
Binarizer
復元画像 𝒙𝟐
入力画像 𝒙 復元画像 𝒙𝟏
Encoder Decoder
Binarizer
復元画像 𝒙𝟐
復元画像 𝒙𝟑
Encoder Decoder
Binarizer
• Encoder,Binarizerによる画像の圧縮
• Binarizerによるバイナリ変換およびエントロピー符号化により,高い圧縮率を実現
• バイナリ変換による二値化を平均化することで情報の損失を補う
• 符号化に使用するビット数を最小化するため,コードのエントロピーを最大化
Binarizerの処理
8
離散値
Encoder Binarizer
連続値
入力画像 特徴抽出 量子化処理
エントロピー
符号化
バイナリ
コード
バイナリ変換
特徴マップ
二値化 符号化圧縮
• 入力画像と圧縮・復元画像の平均絶対誤差を使用
圧縮・復元モデルの損失関数
9
G.Toderici,et al.“Full resolution image compression with recurrent neural networks”, CVPR, 2017.
:RNNの繰り返し回数
:入力画像
:復元画像
Encoder Decoder
Binarizer
Encoder Decoder
Binarizer
復元画像 𝒙𝟐
入力画像 𝒙 復元画像 𝒙𝟏
圧縮・復元モデルの出力画像
• 繰り返し回数が多いほど,出力される画像は入力画像に近づく
• 最大で約99%のデータ容量(通信量)を削減可能
• 繰り返し回数を制御することで,出力画像の画像品質を変更できる
10
未圧縮画像 繰り返し1回 繰り返し4回
繰り返し3回
繰り返し2回
120.7[kB] 2.7[kB]
2.0[kB]
1.2[kB] 3.5[kB]
4.1[MB] 2.8[kB]
2.0[kB]
1.2[kB] 3.6[kB]
認識モデルの説明
• 画像の圧縮・復元モデルと認識モデルを直列に結合
11
圧縮・復元モデル 認識モデル
認識結果
ResNet50
Decoder
Encoder
通信
入力画像
認識モデルの概要と損失関数
• 50層で構成される画像認識ネットワークResNet50を採用
• 残差ブロック構造を導入することで,勾配消失問題を解決したCNN
• 損失計算には,入力画像に対する交差エントロピー誤差を使用
• ただし,本研究では圧縮・復元モデルの出力を認識に用いるため下記のように表される
K.He,et al.“Deep residual learning for image recognition”, CVPR, 2016.
12
:認識モデル
:予測の確率分布
:正解ラベルの確率分布
:圧縮・復元画像
提案手法の損失関数
• 提案手法の損失関数を定義
• は2つの損失の重みを調整するハイパーパラメータ 0.6)
• 上記の損失関数を用いた2つの最適化方法を提案
• 同時最適化
• 圧縮・復元モデルと認識モデルを同時にファインチューニング
• 交互最適化
• Generative Adversarial Nets(GAN)のように2つのモデルを交互にファインチューニング
13
圧縮・復元モデルの損失 認識モデルの損失
I.Goodfellow,et al.“Generative adversarial nets”, NIPS, 2014.
同時最適化
• 個々に事前学習した圧縮・復元モデルと認識モデルを結合して同時に最適化
• ただし,モデルが大きく複雑な場合,局所的な最適解に陥ることが報告されている
14
圧縮・復元モデル 認識モデル
認識結果
ResNet50
Decoder
Encoder
通信
入力画像
T. Glasmachers, “Limits of end-to-end learning”, Proceedings of Machine Learning Researchs, 2017.
:Trainable
交互最適化
15
圧縮・復元モデル
認識結果
Decoder
Encoder
通信
入力画像
:Frozen
:Trainable
認識モデル
ResNet50
• GANのように2つのモデルを交互に最適化
• 圧縮・復元モデルの最適化時は,第2項を固定し,第1項のみを最適化
交互最適化
16
圧縮・復元モデル
認識結果
Decoder
Encoder
通信
入力画像
:Frozen
:Trainable
認識モデル
ResNet50
• GANのように2つのモデルを交互に最適化
• 認識モデルの最適化時は,第1項を固定し,第2項のみを最適化
評価実験:概要
• 10クラスの画像分類タスク
• 4つのモデルを比較
• 未圧縮モデル:未圧縮画像を用いて認識モデルを学習
• 個別最適化モデル(従来法):圧縮・復元モデルを学習後,その出力で認識モデルを最適化
• 同時最適化モデル:圧縮・復元モデルと認識モデルを同時に最適化
• 交互最適化モデル:圧縮・復元モデルと認識モデルを交互に最適化
• 評価内容
• 分類精度
• 未圧縮画像と圧縮・復元画像のPeak signal-to-noise ratio(PSNR)
17
高瀬俊希 等, “エッジコンピューティングのための圧縮画像認識”, ビジョン技術の実利用ワークショップ, 2022.
データセット
• ImageNetの派生形であるImageNetteを使用
• 10クラスで構成
• 学習用画像9,469枚,評価用画像3,925枚
18
tench
French horn
church
chain saw
cassette
player
English springer
gas gump garbage truck golf ball
parechute
J. Howard, and S. Gugger, “Fastai: A layered api for deep learning”, Information, 2020.
• 事前学習時のハイパーパラメータ
• 圧縮・復元モデル
• 認識モデル
• timmライブラリで提供されているものを使用
• ファインチューニング時のハイパーパラメータ
• 同時最適化
• 交互最適化
ハイパーパラメータ
19
学習率
オプティマイザ
バッチサイズ
エポック数
データセット
5e-4
Adam
512
500
CIFAR-10
学習率
オプティマイザ
バッチサイズ
エポック数
データセット
2e-4
Adam
32
50
ImageNette
学習率
(認識モデル)
学習率
(圧縮・復元モデル)
オプティマイザ
バッチサイズ
エポック数
データセット
2e-5
2e-4
Adam
32
50
ImageNette
評価実験:平均分類精度
20
• 繰り返し1回の時,提案手法は個別最適化モデルに比べて分類精度が約3%向上
• データ通信量は、未圧縮モデルと比べ約99%削減
繰り返し回数ごとの各手法の平均認識精度[%]と平均データ通信量[kB]
未圧縮モデルの平均データ通信量は118.2kB
評価実験:平均分類精度
21
繰り返し回数ごとの各手法の平均認識精度[%]と平均データ通信量[kB]
• 繰り返し回数が多くなるほど、データ通信量の増加するが分類精度が向上
• 未圧縮モデルと同等の精度を得られる
未圧縮モデルの平均データ通信量は118.2kB
評価実験:PSNRによる類似度の計測
• PSNRは2枚の画像の類似度を計測する評価指標
• 値が高いほど未圧縮画像との類似度が高いことを示す
[dB]
• 全繰り返し回数において提案手法は,個別最適化モデル(従来法)より高い
• 交互最適化は同時最適化よりも高いPSNRが得られた
22
10
9
8
7
6
5
4
3
2
1
繰り返し回数
28.1
27.8
27.5
27.2
26.7
26.1
25.5
24.5
23.1
20.2
個別最適化
28.6
28.3
28.0
27.7
27.2
26.7
26.0
25.1
23.9
21.6
同時最適化
28.8
28.5
28.2
27.8
27.4
26.9
26.2
25.3
24.1
21.9
交互最適化
繰り返し回数ごとの各手法における平均 PSNR[dB]
各手法の圧縮・復元画像
23
未圧縮画像 個別最適化 交互最適化
同時最適化
• 提案手法は,個別最適化で散見されるノイズが抑制され未圧縮に近い画像を復元
各手法の圧縮・復元画像
24
未圧縮画像 個別最適化 交互最適化
同時最適化
• 提案手法は,個別最適化で散見されるノイズが抑制され未圧縮に近い画像を復元
各手法における判断根拠の可視化
• Grad-CAMで繰り返し1回の画像を認識モデルに入力した際の注視領域
• 提案手法は,高精度な未圧縮モデルに近い注視領域を獲得
R.R.Selvaraju,et al.“Grad-cam: Visual explanations from deep networks via gradient-based localization”, ICCV, 2017
25
未圧縮モデル 個別最適化 同時最適化 交互最適化
まとめ
• 圧縮・復元した画像を用いた画像認識精度の低下を抑制
• 圧縮・復元モデルと認識モデルのEnd-to-End学習
• 画像圧縮・復元する際に認識モデルを考慮
• 未圧縮画像を通信する場合と比較し,最大で約99%のデータ通信量を削減可能
• 繰り返し1回の画像を認識に用いた際,提案手法は従来法に比べ分類精度が約3%向上
• 未圧縮画像と圧縮・復元画像の類似度比較において提案手法は,従来法より高い値を示した
• 今後の予定
• 本アプローチに適した画像の圧縮・復元モデルを検討
26

More Related Content

Similar to 画像の圧縮・復元モデルと認識モデルのEnd-to-End学習

20130817 windows azure最新情報(福井)
20130817 windows azure最新情報(福井)20130817 windows azure最新情報(福井)
20130817 windows azure最新情報(福井)
Hirano Kazunori
 
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
Takaaki Sawa
 
Microsoft Azure超超入門_20140412
Microsoft Azure超超入門_20140412Microsoft Azure超超入門_20140412
Microsoft Azure超超入門_20140412
Sayaka Shimada
 
【Build 記念】Windows Azure 最新情報 ~2013 年上半期の総括~ > 「Windows Azure 最新情報」
【Build 記念】Windows Azure 最新情報 ~2013 年上半期の総括~ > 「Windows Azure 最新情報」【Build 記念】Windows Azure 最新情報 ~2013 年上半期の総括~ > 「Windows Azure 最新情報」
【Build 記念】Windows Azure 最新情報 ~2013 年上半期の総括~ > 「Windows Azure 最新情報」
Naoki (Neo) SATO
 
Data center
Data centerData center
Data center
jaceks
 

Similar to 画像の圧縮・復元モデルと認識モデルのEnd-to-End学習 (20)

ClouDoc intro_jpn_20170111
ClouDoc intro_jpn_20170111ClouDoc intro_jpn_20170111
ClouDoc intro_jpn_20170111
 
仮想化時代のBCP 今できることと将来できること
仮想化時代のBCP 今できることと将来できること仮想化時代のBCP 今できることと将来できること
仮想化時代のBCP 今できることと将来できること
 
20130817 windows azure最新情報(福井)
20130817 windows azure最新情報(福井)20130817 windows azure最新情報(福井)
20130817 windows azure最新情報(福井)
 
クラウドデザイン パターンに見る クラウドファーストな アプリケーション設計 Data Management編
クラウドデザイン パターンに見るクラウドファーストなアプリケーション設計 Data Management編クラウドデザイン パターンに見るクラウドファーストなアプリケーション設計 Data Management編
クラウドデザイン パターンに見る クラウドファーストな アプリケーション設計 Data Management編
 
ディペンダブルなクラウドコンピューティング基盤を目指して
ディペンダブルなクラウドコンピューティング基盤を目指してディペンダブルなクラウドコンピューティング基盤を目指して
ディペンダブルなクラウドコンピューティング基盤を目指して
 
Dicomo 2013, デスクトップ画像共有システムのための、トーナメントアルゴリズムを使った負荷分散機構
Dicomo 2013, デスクトップ画像共有システムのための、トーナメントアルゴリズムを使った負荷分散機構Dicomo 2013, デスクトップ画像共有システムのための、トーナメントアルゴリズムを使った負荷分散機構
Dicomo 2013, デスクトップ画像共有システムのための、トーナメントアルゴリズムを使った負荷分散機構
 
Telecom Infra Projectの取り組み -光伝送におけるハードとソフトの分離-
Telecom Infra Projectの取り組み -光伝送におけるハードとソフトの分離-Telecom Infra Projectの取り組み -光伝送におけるハードとソフトの分離-
Telecom Infra Projectの取り組み -光伝送におけるハードとソフトの分離-
 
高速ネットワーク技術と周辺動向(特別講義)
高速ネットワーク技術と周辺動向(特別講義)高速ネットワーク技術と周辺動向(特別講義)
高速ネットワーク技術と周辺動向(特別講義)
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
 
第2章アーキテクチャ
第2章アーキテクチャ第2章アーキテクチャ
第2章アーキテクチャ
 
ClouDoc intro_jpn_20161012
ClouDoc intro_jpn_20161012ClouDoc intro_jpn_20161012
ClouDoc intro_jpn_20161012
 
【HinemosWorld2014】A1-3_01_NTT Comのグローバルクラウド戦略とHinemosとの連携について
【HinemosWorld2014】A1-3_01_NTT Comのグローバルクラウド戦略とHinemosとの連携について【HinemosWorld2014】A1-3_01_NTT Comのグローバルクラウド戦略とHinemosとの連携について
【HinemosWorld2014】A1-3_01_NTT Comのグローバルクラウド戦略とHinemosとの連携について
 
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
リアルタイム性に厳しいアプリケーションに対する通信遅延を考慮した実装と通信遅延を抑えるための研究
 
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded SystemsFastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
 
将来のネットワークインフラに関する研究会 | 次世代通信サービスに求められる機能とSORACOMの取り組み
将来のネットワークインフラに関する研究会 | 次世代通信サービスに求められる機能とSORACOMの取り組み将来のネットワークインフラに関する研究会 | 次世代通信サービスに求められる機能とSORACOMの取り組み
将来のネットワークインフラに関する研究会 | 次世代通信サービスに求められる機能とSORACOMの取り組み
 
Amazon Web Services 最新事例集
Amazon Web Services 最新事例集Amazon Web Services 最新事例集
Amazon Web Services 最新事例集
 
08 kameda
08 kameda08 kameda
08 kameda
 
Microsoft Azure超超入門_20140412
Microsoft Azure超超入門_20140412Microsoft Azure超超入門_20140412
Microsoft Azure超超入門_20140412
 
【Build 記念】Windows Azure 最新情報 ~2013 年上半期の総括~ > 「Windows Azure 最新情報」
【Build 記念】Windows Azure 最新情報 ~2013 年上半期の総括~ > 「Windows Azure 最新情報」【Build 記念】Windows Azure 最新情報 ~2013 年上半期の総括~ > 「Windows Azure 最新情報」
【Build 記念】Windows Azure 最新情報 ~2013 年上半期の総括~ > 「Windows Azure 最新情報」
 
Data center
Data centerData center
Data center
 

More from MILab

More from MILab (10)

画像の圧縮・復元モデルと認識モデルのEnd-to-End学習
画像の圧縮・復元モデルと認識モデルのEnd-to-End学習画像の圧縮・復元モデルと認識モデルのEnd-to-End学習
画像の圧縮・復元モデルと認識モデルのEnd-to-End学習
 
変形ARマーカの高速かつ高精度な姿勢推定
変形ARマーカの高速かつ高精度な姿勢推定変形ARマーカの高速かつ高精度な姿勢推定
変形ARマーカの高速かつ高精度な姿勢推定
 
自己教師あり学習を導入したWavelet Vision TransformerによるDeepfake検出の高精度化
自己教師あり学習を導入したWavelet Vision TransformerによるDeepfake検出の高精度化自己教師あり学習を導入したWavelet Vision TransformerによるDeepfake検出の高精度化
自己教師あり学習を導入したWavelet Vision TransformerによるDeepfake検出の高精度化
 
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
 
動的環境における動作計画のための C-space の予測
動的環境における動作計画のための C-space の予測動的環境における動作計画のための C-space の予測
動的環境における動作計画のための C-space の予測
 
人の姿勢予測に基づいた協働ロボットの動作計画
人の姿勢予測に基づいた協働ロボットの動作計画人の姿勢予測に基づいた協働ロボットの動作計画
人の姿勢予測に基づいた協働ロボットの動作計画
 
時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習
 
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
 
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
 
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
 

Recently uploaded

The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
 

Recently uploaded (7)

ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 

画像の圧縮・復元モデルと認識モデルのEnd-to-End学習