画像の圧縮・復元モデルと認識モデルのEnd-to-End学習
IS3-3 柴田 蓮,山内 悠嗣 (中部大学)
研究背景,目的
圧縮・復元した画像を用いた画像認識タスクは
未圧縮の画像を用いた場合と比較して認識精度が低下
1.認識精度[%]とデータ通信量[kB]
2.PSNR[dB]による画像の類似度比較
今後の展望
圧縮・復元モデル:RNNに基づく再帰型オートエンコーダ[1]
:ResNet50[2]
認識モデル
• 入力画像と復元画像の差分画像を再びネットワークへ入力
圧縮・復元モデルと認識モデルを直列に結合した構成
𝐿 = 𝐿 + 𝜆𝐿
提案手法
実験概要
認識モデルの損失
圧縮・復元モデルの損失
• 本アプローチに適した画像の圧縮・復元モデルを検討する
[1] G.Toderici,et al.“Full resolution image compression with recurrent neural networks”, CVPR, 2017.
[2] K.He,et al.“Deep residual learning for image recognition”, CVPR, 2016.
[3] I.Goodfellow,et al.“Generative adversarial nets”, NIPS, 2014.
画像を圧縮する際に一部の情報が削減され,
ノイズの発生や認識に寄与する情報が欠落することが原因
• 繰り返し回数が多いほど,入力に近い画像を出力
𝐿 = 𝑥 − 𝑥
𝐿 = −𝑝(𝑅(𝑥 )) log 𝑞(𝑅(𝑥 ))
同時最適化
交互最適化
• 2つのモデルを同時に最適化することで認識モデルを考慮した
画像の圧縮・復元が可能となる
• ただし,モデルが大きく複雑な場合,局所最適解に陥りやすい
• Generative adversarial nets[3]のように交互に最適化
• 圧縮・復元モデルを最適化する際には
損失関数の第2項を固定し,第1項のみを最適化
• 認識モデルを最適化する際には
損失関数の第1項を固定し,第2項のみを最適化
• 未圧縮モデル:未圧縮画像で認識モデルを学習
• 個別最適化モデル:圧縮・復元モデルと認識モデルを個々に学習
• 同時最適化モデル:圧縮・復元モデルと認識モデルを同時に学習
• 交互最適化モデル:圧縮・復元モデルと認識モデルを交互に学習
比較手法
実験結果
• 未圧縮画像と各手法の圧縮・復元画像のPSNRを計算
3.各手法の圧縮・復元画像と判断根拠の可視化画像
未圧縮 同時最適化 交互最適化
個別最適化
𝜆は重み調整用のハイパーパラメータ
• 損失関数:入力画像と復元画像の平均絶対誤差
• 損失関数:交差エントロピー誤差
提案手法の損失関数
提案手法の最適化方法
タスク
• 10クラスの画像分類
圧縮・復元した画像を用いた画像認識精度が向上
圧縮・復元モデルと認識モデルのEnd-to-End学習により
圧縮・復元画像を用いた画像認識精度の低下の抑制を目指す
• 未圧縮モデルの平均データ通信量は118.2kB
• 値が高いほど,類似度が高いことを示す
𝑅 :認識モデル
𝑞 :予測ラベルの確率分布
𝑝 :正解ラベルの確率分布
𝑥 :復元画像
𝑇:RNNの繰り返し回数
𝑥 :入力画像
𝑥 :復元画像

画像の圧縮・復元モデルと認識モデルのEnd-to-End学習

  • 1.
    画像の圧縮・復元モデルと認識モデルのEnd-to-End学習 IS3-3 柴田 蓮,山内悠嗣 (中部大学) 研究背景,目的 圧縮・復元した画像を用いた画像認識タスクは 未圧縮の画像を用いた場合と比較して認識精度が低下 1.認識精度[%]とデータ通信量[kB] 2.PSNR[dB]による画像の類似度比較 今後の展望 圧縮・復元モデル:RNNに基づく再帰型オートエンコーダ[1] :ResNet50[2] 認識モデル • 入力画像と復元画像の差分画像を再びネットワークへ入力 圧縮・復元モデルと認識モデルを直列に結合した構成 𝐿 = 𝐿 + 𝜆𝐿 提案手法 実験概要 認識モデルの損失 圧縮・復元モデルの損失 • 本アプローチに適した画像の圧縮・復元モデルを検討する [1] G.Toderici,et al.“Full resolution image compression with recurrent neural networks”, CVPR, 2017. [2] K.He,et al.“Deep residual learning for image recognition”, CVPR, 2016. [3] I.Goodfellow,et al.“Generative adversarial nets”, NIPS, 2014. 画像を圧縮する際に一部の情報が削減され, ノイズの発生や認識に寄与する情報が欠落することが原因 • 繰り返し回数が多いほど,入力に近い画像を出力 𝐿 = 𝑥 − 𝑥 𝐿 = −𝑝(𝑅(𝑥 )) log 𝑞(𝑅(𝑥 )) 同時最適化 交互最適化 • 2つのモデルを同時に最適化することで認識モデルを考慮した 画像の圧縮・復元が可能となる • ただし,モデルが大きく複雑な場合,局所最適解に陥りやすい • Generative adversarial nets[3]のように交互に最適化 • 圧縮・復元モデルを最適化する際には 損失関数の第2項を固定し,第1項のみを最適化 • 認識モデルを最適化する際には 損失関数の第1項を固定し,第2項のみを最適化 • 未圧縮モデル:未圧縮画像で認識モデルを学習 • 個別最適化モデル:圧縮・復元モデルと認識モデルを個々に学習 • 同時最適化モデル:圧縮・復元モデルと認識モデルを同時に学習 • 交互最適化モデル:圧縮・復元モデルと認識モデルを交互に学習 比較手法 実験結果 • 未圧縮画像と各手法の圧縮・復元画像のPSNRを計算 3.各手法の圧縮・復元画像と判断根拠の可視化画像 未圧縮 同時最適化 交互最適化 個別最適化 𝜆は重み調整用のハイパーパラメータ • 損失関数:入力画像と復元画像の平均絶対誤差 • 損失関数:交差エントロピー誤差 提案手法の損失関数 提案手法の最適化方法 タスク • 10クラスの画像分類 圧縮・復元した画像を用いた画像認識精度が向上 圧縮・復元モデルと認識モデルのEnd-to-End学習により 圧縮・復元画像を用いた画像認識精度の低下の抑制を目指す • 未圧縮モデルの平均データ通信量は118.2kB • 値が高いほど,類似度が高いことを示す 𝑅 :認識モデル 𝑞 :予測ラベルの確率分布 𝑝 :正解ラベルの確率分布 𝑥 :復元画像 𝑇:RNNの繰り返し回数 𝑥 :入力画像 𝑥 :復元画像