SlideShare a Scribd company logo
1 of 75
Download to read offline
深層画像圧縮から
AIの生成モデルへ
2021年11月16日
富士通株式会社 人工知能研究所
中川 章
Copy right 2021 FUJITSU LIMITED
PCSJ / IMPS 2021
自己紹介
◼中川 章, 博士(工学)
富士通株式会社 人工知能研究所 准フェロー
◼専門分野:情報理論に基づいた映像符号化、AI理論
◼研究開発の経歴
◼ 1991年 東京大学電子工学科修士課程卒業、同年富士通研究所に入社。
◼ 映像符号化分野の研究、国際標準、及び映像符号化 LSI・放送機器等の開発に従事。
◼ 2019年より人工知能研究に従事、情報通信理論をベースにしたAIの研究を開始。
◼ 受賞等
◼ 電子情報通信学会フェロー
◼ 紫綬褒章 / 文部科学大臣表彰 / 市村産業賞 / 日本ITU協会賞 /
◼ 米国エミー賞(技術部門、開発技術の受賞) / 米SMPTE 論文賞 等
Copyright 2021 FUJITSU LIMITED
今日の発表
1
背景
Copy right 2021 FUJITSU LIMITED
◼ 現在の画像符号化技術は情報通信理論の集大成、今では生活に不可欠に!
◼ 近年、Deep Learningを用いた深層画像圧縮が提案され、MS-SSIM等の任意の
評価尺度で高性能を達成。
Minnen et.al.,“Joint Autoregressive and Hierarchical Priorsfor Learned Image
Compression,” https://arxiv.org/pdf/1809.02736.pdf より引用
JPEG 深層画像圧縮 CVPR CLIC2019 Leader Board
我々の提案方式は
MS-SSIM指標で
惜しくも 2位・3位
深層画像圧縮は、情報通信理論と何等かの関係があるはず!
深層画像圧縮コンテスト
https://www.itu.int/rec/T-REC-H.264
https://www.itu.int/rec/T-REC-H.265
https://www.itu.int/rec/T-REC-H.266
http://clic.compression.cc/2019/results/?sort=msssim
動画像符号化
国際標準
2
今回の発表内容:
情報通信理論に基づく深層画像圧縮とVAEの理論解明
Copy right 2021 FUJITSU LIMITED
Encoder
Decoder
Data Reconstructed Data
任意の距離計量Gx(MSEやSSIM)の元での
Rate-Distortion 最適化
エンコード
高次元空間
デコード
低次元の等長空間
両空間での距離が等しい
i.e. |x1-x2|2
= |y1-y2|2
x1
y1
y2
𝒑 𝒚
𝒑(𝒙)
確率密度が等しい 𝒑 𝒙 = 𝒑 𝒚
x2
定量的なデータ解析を可能に
エントロピー
最小表現
定量的な
説明変数
深層画像圧縮とVAEは、距離空間での
『等長埋め込み』 となることを理論解明
𝝏𝒙
𝝏𝒚𝒋
𝑻
𝑮𝒙
𝝏𝒙
𝝏𝒚𝒌
= 𝜹𝒋𝒌
3
◼ 等長埋め込みの導入により 潜在空間での定量的なデータ解析や取扱が可能となり、
深層画像圧縮と VAE等の生成的AIモデルの両分野で 応用が可能に
等長埋め込みの特徴により定量的な解析が可能に
Copy right 2021 FUJITSU LIMITED
確率分布推定 教師無し異常検知
データの確率密度の
定量評価が可能に 従来のState-of-the-art
を超える異常検出性能
潜在変数の各次元の分散と
画像の変化量が高い相関
単一モデル+任意量子化器
でレート制御が可能に
可変レート符号化
潜在変数の各次元の
重要度の評価
深層画像圧縮 VAE等の生成的AIモデルでの定量分析
4
機械学習系のトップカンファレンス ICMLでの採択
Copy right 2021 FUJITSU LIMITED
◼ Quantitative Understanding of VAE as a No-linearly Scaled
Isometric Embedding
◼ 中川 章, 加藤 圭造(富士通)
鈴木 大慈 准教授(東大、理研)
◼ 幅広く活用が進む 生成モデル “VAE” の理論的特性を完全に明らかに。
非線形なマッピングにより 『等長埋め込み』 となることを示した。
◼ さらにVAEを用いた定量的な解析手法も示した。
◼ Rate-Distortion Guided Autoencoder for Isometric
Embedding in Euclidean Latent Space
◼ 加藤 圭造, 周 静, 佐々木 智丈, 中川 章(富士通研究所)
◼ 深層画像圧縮等のRD最適化されたAutoencoder は 『等長埋め込み』
となることを理論的・定量的に示し、同時にデータの定量評価を可能とした。
◼ 略称“RaDOGAGA” (Rate-Distortion Optimization Guided
Autoencoder for Generative Analysis)
https://arxiv.org/abs/2007.15190
https://proceedings.mlr.press/v139/nakagawa21a.html
https://arxiv.org/abs/1910.04329
http://proceedings.mlr.press/v119/kato20a.html
ICML 2020&2021で発表
(機械学習分野のトップカンファレンス)
5
本日の発表
Copy right 2021 FUJITSU LIMITED
◼発表の概要:
◼ 生成的AIモデルの解説
◼ 画像符号化の基礎となるレート歪理論の解説
◼ レート歪最適化に基づく生成的AIモデルの等長埋め込み理論。
◼ 等長埋め込みの定量性を生かした画像圧縮やデータ解析への応用。
◼ 情報通信理論を活かした今後のAIの方向性について(ディスカッション)。
◼資料について:
調子に乗って、ご発表資料で多数の内容を盛りこみすぎました😅。
すこし駆け足でご説明します。
⇒ ご興味のある方は資料をダウンロードしてください。
一方の分野のみ詳しい方々にも
ご理解頂けるように、それぞれの
基礎理論から ご説明します
Google検索で
6
生成的AIモデルの解説
Copy right 2021 FUJITSU LIMITED
7
Copy right 2021 FUJITSU LIMITED
◼ 背景:識別アプローチの発展と課題
◼ 識別モデルとは大量の教師データから
識別ルールを学習するアプローチ
◼ タスク毎のデータ準備やモデル作成が必須であり
導入までの期間・コストが膨大に
◼ 動向:生成型DLによる研究の発展
◼ 大量の学習データのみから、データの確率分布や
最小説明変数を自動獲得
◼ 獲得済の生成ルールと 少数の教師データから
複数のタスクでの認識モデル構築が可能に
◼ Deep Learningを活用した画像・言語の
生成型DLの研究が発展
背景・動向
分析対象毎の
識別ルール
分析対象毎の
大量の教師データ
境界を学習
識別アプローチ
データのみ
データ本来の
分布・確率を獲得
生成型DL
犬 猫
犬 猫
通信アクセス
データ
医療データ
大量教師無しデータ と
少量教師データ で学習
不正アクセス
検知
異常症例
発見
正常分布との
違いを分析
8
識別モデルと生成モデルの違い
Copy right 2021 FUJITSU LIMITED
◼ 前提:データ x を N クラスの Ci に分類する
◼ 識別モデル
◼ データ x が各クラスに属する確率 p(Ci | x) を学習。
◼ 各 x に対し、 p(Ci | x) が最大のクラスを求めること
で、クラス間の境界が求まる。
◼ 生成モデル
◼ 各Ci に対し、x の生成規則や潜在変数、xの
存在確率 p(x|Ci )等を学習してタスクに適用。
◼ 例えば p(x|Ci ) から p(Ci | x) ∝ p(x|Ci )・
p(Ci ) を評価すれば、クラス分類も可能となる。
識別モデル
生成モデル
クラスの境界線を求める
データ生成規則(変数、確率分布)を求める
確率
変数
一般に生成モデルの方が複雑だが、正しく学習
できれば汎用性・再利用性が高い。
9
◼低次元化して解析するために有用な生成モデルの要件
◼確率分布
➢ データの確率分布を明示的に獲得可能なこと。
◼潜在空間・潜在変数の獲得
➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ)
➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。
◼サンプリング(デコード)
➢ 潜在空間からサンプリングし、実空間のデータにデコードできること
➢ サンプリングデータの分布がデータ分布に一致すること
Copy right 2021 FUJITSU LIMITED
生成モデルが提供する有用な特徴
マッピング(エンコード)
高次元の実空間データ
(犬画像などのドメイン)
サンプリング(デコード)
両空間の確率分布の定量的関係
低次元の説明変数(潜在空間)
両空間での距離の定量的関係
D(X1,X2) = |Z1-Z2|2
Z1
Z2
X1
X2
10
生成モデルの役割①:確率分布の獲得
◼ 確率分布の獲得の一般的な定式化
◼ データ分布 p(x)をよく再現し、かつ を満たす確率モデル pθ(x) のパラメータθ を導出。
◼ 確率分布獲得の主な方法
① pθ(x) の対数のサンプル平均最大化(対数尤度最大化) ⇒ 殆どの手法(VAE、EBM、FLO、 ・・・)
② JSダイバージェンス最小化 (GAN/詳細は後述)
Copy right 2021 FUJITSU LIMITED
対数尤度のサンプル平均
対数尤度を最大化するモデルパラメータ θ を求めると𝐷KL 𝑝 𝒙 ||𝑝𝜃 𝒙 が0となり pθ(x) = p(x) となる。
GANは暗に p(x)とpθ(x) のJSダイバージェンスを最小化するθ を求めている
ここでKLダイバージェンス ≥0 は p(x) = q(x) で最小値ゼロになる。
ここでJSダイバージェンス ≥ 0 は
p(x) = q(x) で最小値ゼロになる。
確率の第二の公理
定数(エントロピー×ー1) KLダイバージェンス
11
Copy right 2021 FUJITSU LIMITED
生成モデルの役割②:潜在変数の獲得
◼ 多様体仮説
◼ 「現実世界の高次元データは本質的には低次元であり、
説明変数は低次元の曲面にマッピング可能」 (曲面を多様体という)
◼ 『潜在変数』 の獲得:
データを構成する低次元の説明変数を獲得し、データの説明や 学習を容易に!
現実世界の大量の顔データ
多様体仮説
獲得した潜在変数を変化させた映像
Large-scale CelebFacesAttributes(CelebA) Dataset
https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
z0: 背景の色
z1: 顔の向き
z2: 髪の色
z3: 表情
Quantitative understanding of VAE as a Non-linearly Scaled Isometric Embedding
https://arxiv.org/abs/2007.15190
説明変数
低次元の潜在的な
説明変数の獲得
(VAE等)
12
生成モデルの役割③:サンプリング
◼ サンプリングとは
① 学習モデルから学習対象のドメインに属するデータを人工的に生成すること。
② 生成データの確率分布は元のドメインの確率分布と一致すること。
◼ 潜在変数空間から直接サンプリングするもの(VAE、GAN等)と、
マルコフサンプリング等でデータを生成するもの(EBM等)がある (後述)。
Copy right 2021 FUJITSU LIMITED
学習した猫画像の分布 pθ(x) 元データ分布 p (x) に一致した猫画像を生成
x ~ pθ(x) に従って
サンプリング
13
生成モデルの種類
◼ Variational Autoencoder (VAE)
◼ データを低次元に変換してサンプリングを可能とする生成モデル
“Auto-Encoding Variational Bayes,” https://arxiv.org/abs/1312.6114
◼ Generative Adversarial Nets (GAN)
◼ Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競わせて学習
“Generative Adversarial Nets,” https://arxiv.org/abs/1406.2661
◼ Energy Based Model (EBM)
◼ 統計力学のアナロジーで確率をエネルギーモデルに置き換えて学習。
例えば “Implicit Generation and Modeling with Energy Based Models,” https://arxiv.org/abs/1903.08689
◼ その他
◼ FLOW、Diffusion Modelなど・・・
Copy right 2021 FUJITSU LIMITED
14
Copy right 2021 FUJITSU LIMITED
従来の生成モデル①:Variational Autoencoder (VAE)
◼ 利点
◼ 現実データを低次元の空間(潜在変数空間)にマッピングできる。
◼ 潜在空間でサンプリングし、デコードすると学習ドメインのデータが生成できる(確率保証は無し)。
◼ 欠点
◼ 従来研究では潜在空間と実空間の関係が不明確であり定量評価に使えない
サンプリング画像
データ
x~p(x)
Large-scale CelebFacesAttributes(CelebA) Dataset
https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
潜在変数 z ~p(z)
にマッピング
予め決めた分布
(事前分布)
サンプリング/デコード
されたデータ ො
𝐱
エンコーダ
(パラメータφ)
デコーダ
(パラメータθ)
サンプリング
データの低次元潜在変数を獲得し、サンプリングを可能とする生成モデル
15
Copy right 2021 FUJITSU LIMITED
従来の生成モデル①:VAEの学習方法
◼ 対数尤度の下限値を最大化するエン
コーダ・デコーダパラメータ θ,φ を学習
◼ 学習の手順
①潜在変数 z は固定の事前分布(N(z; 0, 1) 等)とする。
②エンコーダ fφ(x)ではデータ x に対する z の条件付き確率
qφ(z|x) = N(z; μ, σ) のパラメータ μ, σ を求める。
③pφ(z|x)からz をサンプリングし、デコーダ gθ(z)で ො
𝑥 を得る。
④全xに対し予め決めた距離分布pD (x|ො
𝑥)の対数尤度と、
-βDKL(pφ(z|x) || p(z)) の最適トレードオフ条件を学習。
ここでpD (x|ො
𝑥) が分散1の正規分布の場合には、
対数尤度log pD (x|ො
𝑥)は二乗誤差の -1/2倍となる。
x
p(x)
①固定の事前分布
p(z) = N(z; 0, 1)
x
データ空間 x 潜在空間 z
下限値(変分下限という)を最大化
再構成尤度(大きく) KLダイバージェンス(小さく)
対数尤度
+ Const.
エンコード
σ
μ
qφ(z|x) = N(z; μ, σ)
② z の x による条件付き
確率分布を求める
μ, σ = fφ(x)
log pD (x|ො
𝑥)を大きく
⇒ x と ො
𝑥 を近づける
⇒ σ を0に近づける
⇒ 分布幅を小さく
④最適な
トレードオフ
を求める
DKL(pφ(z|x) || p(z))を小さく
⇒ pφ(z|x) と p(z)を近づける
⇒ μを0に、σ を1に近づける
⇒ 分布幅を大きく
予め決めた距離分布
(正規分布、ベルヌーイ分布等)
pθ(x|z) = pD (x|ො
𝑥)
デコード
③pφ(z|x) からz
をサンプリング
z
ො
𝑥
ො
𝑥 = gθ(z)
16
◼ 特徴
◼ 利点:生成されるデータの品質が高い。
◼ 欠点:潜在空間へのマッピングやデータ分布解析ができない。
◼ 学習方法
◼ 一様乱数 z からGenerator Gθ(z) でデータxgを生成。
そして、Discriminator Dφ(xg) が騙されるようGθ(z)を学習。
◼ Discriminator Dφ(xg) に0.5の確率で学習データxか生成デー
タxgを入力し、正しく識別できるようにDφ(xg)を学習。
ここで、 p(x)とpg(x)を学習データ及び生成データの分布、D*
(x) を
最適化されたDφ(x)とすると、 D*
(x) = p(x)/(p(x)+pg(x)) 、ロスは
となり p(x)=pg(x) で最小となる
Copy right 2021 FUJITSU LIMITED
従来の生成モデル②:Generative Adversarial Netwok
(GAN)
Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競合学習
Karras et.al.,“Progressive Growing of GANsfor Improved Quality,
Stability, and Variation,” https://arxiv.org/abs/1710.10196
高品質な画像を生成(NVIDIA)
一様乱数
z ~p(z)
xg=Gθ(z)
xg ~pg(xg )
Dφ (x) or
Dφ (xg)
Generator:
Discriminator を
騙すデータを生成
Discriminator:
Generatorが生成
したデータか識別
学習データ
ⅹ~p(x)
判定結果
1:学習データ
0:生成データ
GANの原理
17
Copy right 2021 FUJITSU LIMITED
従来の生成モデル③:Energy-Based Model(EBM)
統計力学のアナロジーを活用して、確率をエネルギーモデルに置き換えて学習
◼ 概要
◼ データ 𝑥 の「エネルギー関数モデル」 𝐸𝜃(𝑥)を導入。統計力学では確率は『エネルギーの指数の逆数』に比
例することから、このアナロジーで確率を次のように表現する。
𝑝𝜃 𝑥 =
exp −𝐸𝜃 𝑥
‫׬‬ exp −𝐸𝜃 𝑥′ d𝑥′
(分母は確率正規化のための「分配関数」)
◼ 対数尤度の平均 𝐿𝜃 = 𝐸𝑝 𝑥 log 𝑝𝜃 𝑥 を最大化するために θ で微分すると、シンプルな次式を得る。
d𝐿𝜃
d𝜃
= −𝐸𝑝 𝑥
𝑑𝐸𝜃 𝑥
𝑑𝜃
+ 𝐸𝑝𝜃 𝑥′
𝑑𝐸𝜃 𝑥′
𝑑𝜃
⇒ この微分値を用いて 対数尤度を最大化する𝜃を求める。
◼ 「ランジュバン MCMC法」という反復サンプリングで高品質なサンプリングが可能
◼ 特徴
◼ 利点:Simpleな定式化で、確率密度推定や
高品質なサンプリングが可能
◼ 欠点:潜在変数が無いため、説明性がない
Zhao et.al., “Learning Energy-Based GenerativeModelsvia Coarse-to-Fine
Expanding andSampling,” https://openreview.net/forum?id=aD1_5zowqV
階層的なEBM
のサンプリング
高品質なサンプリング画像
18
◼低次元化して解析するために有用な生成モデルの要件
◼確率分布
➢ データの確率分布を明示的に獲得可能なこと。
◼潜在空間・潜在変数の獲得
➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ)
➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。
◼サンプリング(デコード)
➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること
Copyright 2021 FUJITSU LIMITED
各生成モデルの特徴のまとめ
データ確率分布の
明示的な獲得
潜在空間・潜在変数の獲得 サンプリング
エンコード 潜在空間の定量性 サンプリング
VAE × ○ × 〇
GAN × × × ○
EBM 〇 × × 〇
すべての要件を満たす満点のモデルはない
19
画像符号化の基礎となるレート歪理論の解説
Copy right 2021 FUJITSU LIMITED
20
Copyright 2021 FUJITSU LIMITED
静止画像の変換符号化の基本原理
① 画像の画素間の相関を取り除くため、DCT/KLTなどの直交変換を行う。
② エントロピー削減のために、誤差を許容して量子化を行う。
① 量子化されたデータに最適な符号を割り当てるエントロピー符号化を行う。
直交変換
(DCT/KLT 等)
エントロピー符号化
圧縮データ
L= D + β・R を最小化する
復号誤差D 情報量 R
量子化
逆直交変換 エントロピー符号化
逆量子化
原画像
復号画像
21
最適な符号化条件(次ページ以降でそれぞれ説明)
◼ 符号化における符号量と誤差の最適トレードオフ条件は下記の通り。
Copy right 2021 FUJITSU LIMITED
直交変換
(DCT/KLT 等)
エントロピー符号化
圧縮データ
L = D + β・R が最小になる
復号誤差D 情報量 R
量子化
原画像
σ2
σ2
λ0
λ1
信号を無相関化する正規
直交変換KLT/DCT適用
⇒ 符号化利得最大化
変換データの全次元に対し、
同一誤差を許容する量子化
⇒ レート・歪最適化
量子化データの出現確率と
同一の確率情報で符号化
⇒ KLダイバージェンス最小化
シンボル確率 Pqk 推定確率 Qqk
平均符号長 Σk
Pqk
(-log Qqk
)
(最小条件は Qqk
= Pqk)
Pqk 符号長:-log Qqk
j1
λj
j2
d = β / 2
λj の降順に
並べた次元 j
λj < d
λj ≥ d
KLT
①直交変換 ②量子化 ③エントロピー符号化
次に、ガウス分布の場合に各ステップの理論モデルを説明します
𝒙 𝒚 𝒒𝒌
22
Copy right 2021 FUJITSU LIMITED
前提となる画素分布のモデル
◼ 画素分布のモデル化
◼ 座標 i の画素の値 xi は分散σ2
の
ガウス分布に従う。
◼ xi と xj の共分散は画素間距離の
指数関数に従う ( ρ < 1 )。
◼ 画像圧縮を行わない場合、一画素あたりのエントロピー(微分エントロピー)
h(xi)は以下の通りとなる
各画素の値 xi 画素間の距離 d=|i-j|
各画素値の分布 画素間の共分散
画素
23
◼ 次のように N 画素単位にまとめて符号化する(ブロックと呼ぶ)
◼ N 画素単位の共分散行列 Σx と x の確率分布次は通り
Copy right 2021 FUJITSU LIMITED
直交変換のモデル化①:共分散行列の導出
画素のエントロピーを減らすためにブロック単位で変換符号化
σ2
σ2
24
◼ 共分散行列 Σx の正規化固有ベクトルからなる変換行列 P と 固有値 λj を導出。
ρ<1でΣx は正定値対称行列なので、Pは正規直交行列、 λj は 0 以上の実数となる。
◼ Pで x を変換したN次元ベクトルを y とする。Parsevalの等式によりノルム保存。
,
◼ y の共分散行列は、 Σx の固有値 λj の対角行列となる
Copy right 2021 FUJITSU LIMITED
直交変換のモデル化②:相関を取り除く直交変換の導出
P による変換は統計の分野では主成分分析
(PCA)、情報圧縮ではカルーネン・レーベ変換
(KLT)と呼ばれるが、両者は同一のもの。
変換前後で現信号や符号化誤差を保存
25
◼ y の確率分布は、分散が λj となる各次元 yj の
互いに独立な正規分布の積で表すことができる。
ここで直交変換後の共分散行列のトレース保存則により が成立。
◼ y に変換後の画素当たりエントロピーは、変換前の各画素のエントロピーより小
さくなる。このエントロピー減少分を符号化利得と呼ぶ。
Copy right 2021 FUJITSU LIMITED
直交変換のモデル化③:符号化利得の導出
λ0
λ1
相加・相乗平均の関係により、カッコの中は必ず1以上
符号化利得
p(y)はp(x)の軸を回転させたものに等しい
𝜎2
=
1
𝑁
෍
𝑗=0
𝑁−1
𝜆𝑗
26
ご参考:KLT と DCTの関係
Copy right 2021 FUJITSU LIMITED
◼ 動画像国際標準で用いられる離散コサイン変換(DCT)は次のように導出される
◼ 𝜎2 = 1のとき𝜌 = 1 − 𝜖 とすると
共分散行列Σxは、右式のように
行列HとVを用いて近似できる。
◼ ρ⇒1 の極限のHの固有値は7重に縮退して一意には求まらない。しかしVを摂動とした
摂動法でΣxの固有値と固有ベクトルを近似すると、次のように縮退が解ける(N=8の例)。
この0次の固有ベクトル (ρ→1/ε → 0の極限) がDCT Ⅱ 基底と正確に一致する。
H V
𝑗 = 0: 𝜆0 ≃ 8   − 21𝜖,
𝑗 ≥ 1: 𝜆𝑗 ≃ 0  +
𝜖
2 sin2 𝑗
8
𝜋
P = + ε・
固有値 固有ベクトル
DCTⅡ基底と完全一致 V による摂動成分
V による摂動成分
Hの固有値
27
量子化のモデル化①:線形量子化のモデル化
Copy right 2021 FUJITSU LIMITED
◼ 線形量子化では、信号 y を量子化器 T 毎に量子化代表値 qk に置き換える。
◼ qk に置き換わる信号の量子化誤差 nk の分布 pn(y) 、エントロピー h(n)、
誤差分散 は次の通り。
誤差分布の
エントロピー:
誤差分布の
分散:
0 T/2
-T/2
1/T
誤差の確率分布 pn(y)
誤差の
確率分布:
28
量子化のモデル化②:線形量子化の情報量と誤差
Copy right 2021 FUJITSU LIMITED
◼ y の分散より量子化器 T が十分に大きい場合、 量子化値の情報量は y と 誤差の
両エントロピーの差分、量子化誤差は誤差の分散となる。
◼ y の分散が量子化器 T より小さい場合、量子化値の情報量は0、量子化誤差は
y の分散となる。ここで y の平均は 0 とした。
量子化値の
情報量
各量子化値の
確率
量子化誤差
量子化値の
確率・情報量
量子化誤差
y
情報量は
y と誤差分布の
エントロピー差分 誤差分布の
分散と同一
y の分散と同一
情報量は0
29
言っていることは 実は simple
Copy right 2021 FUJITSU LIMITED
0 T/2
-T/2
1/T
y の分散より量子化器 T が大きい場合
y の分散が量子化器 T より小さい場合
0 T/2
-T/2
1/T
yの分布
誤差分布
yの分布
誤差分布
両エントロピーの
差分が符号化
すべき情報量
誤差のエントロピー
yのエントロピー
情報を符号化す
る必要がないため
情報量はゼロ
誤差のエントロピー
yのエントロピー
yは必ず量子化
されるため、誤差
分布の分散が
符号化誤差
誤差の分散
yの分散
一つの量子化代表
値に収まるため、
符号化誤差は
yの分散
誤差の分散
yの分散
量子化誤差 量子化値の情報量
すべてのyの値
が一つの量子化
代表値に収まる
yの分散が大きく
必ずデータが
量子化される
30
量子化のモデル化③:情報量と誤差の理論定式化
◼ 分散 σs
2
の正規分布信号 s を量子化する。許容ノイズ n は分散 σn
2
の
分布の中でエントロピーが最大となる正規分布を用いる。
◼ この時、量子化後の情報量 I(s;n) と誤差Dは次の通りとなる。
◼ 信号がノイズより大きい時( : ):
◼ 信号がノイズより小さい時( ):
◼ まとめると 次式となる。ここでI(s;n)はDの下凸関数となる。
Copy right 2021 FUJITSU LIMITED
理想量子化後の情報量と量子化誤差の理論定式化(線形量子化とのアナロジー)
情報量は信号とノイズの
両エントロピーの差分、
誤差は許容誤差分散
情報量は0、
誤差は信号の分散と同一
正規分布は分散一定条件でエントロピーが最大。
I(s;n)
D
31
◼ 直交変換ブロックの各次元 j において、分散(=固有値)を λj 、許容ノイズを σnj
2
とする。
前頁の式を各次元に適用・積算して、次式のブロック毎の情報量R、誤差Dを得る。
◼ 定数 βの元でL=D+β・Rを最小化する各次元の σnj
2
の最適値は?(レート・歪最適化)
⇒ Lj=dj+β・rj, L=Σ Lj として Lj は σnj
2
にのみ依存。各Lj を最小化する σnj
2
が最適解。
Copy right 2021 FUJITSU LIMITED
量子化のモデル化④:直交変換ブロックの最適量子化
曲線 𝑑𝑗 𝜎𝑛𝑗
2 , 𝑟
𝑗 𝜎𝑛𝑗
2
と Lj=dj+β・rj は
で次の接点
を持ち、 Lj が最小となる。
λj ≧ β / 2 となる次元
rj
dj
Lj=dj+β・rj
曲線 𝑑𝑗 𝜎𝑛𝑗
2
, 𝑟𝑗 𝜎𝑛𝑗
2
と Lj=dj+β・rj は
σnj
2
≦ λj で接点がないため、
Lj の最小値は端点の
で得られる。
rj
dj
Lj=dj+β・rj
(λj, 0)
λj < β / 2 となる次元
32
量子化のモデル化⑤:レートと歪の関係性導出
◼ 前頁の結果より、 L=D+β・Rの最小化条件は、
全次元に同一誤差 β/2 を許容した場合となる。
◼ この最適条件下において、ブロック単位の情報量と
誤差は、d=β/2 として下記の d のパラメトリック関数
R(d) 及び D(d) となる。
◼ d=β/2 を動かすと、ブロックを直交変換・量子化
した場合の情報量と歪の関係(RD曲線)を得る。
ここで、RD曲線は下に凸関数となる。
Copy right 2021 FUJITSU LIMITED
j1
λj
j2
d = β / 2
λj の降順に
並べた次元 j
各次元 j の情報量と誤差の導出
λj < d
RD曲線(dのパラメトリック関数)
λj ≥ d
( R(β2/2), D(β2/2) )
R
D
( R(β1/2), D(β1/2) )
d ⇒ 大
d ⇒ 小
L=D+β1 R
L=D+β2 R
重要:後から出てきます!
33
エントロピー符号化のモデル化
◼ 線形量子化後の k 番目のシンボル発生確率を Pqk とし、
そのシンボルの推定確率を Qqk とする。
◼ 各シンボルの理想的なエントロピー符号長は –log Qqk となる。
◼ Pqk の情報量をR、平均符号量をRcode とする。
◼ 平均符号量 Rcodeは Pqk
= Qqkの時に最小値 R となる。
Copy right 2021 FUJITSU LIMITED
シンボル確率 Pq
k 推定確率 Qq
k
平均符号長 Σk Pqk (-log Qqk)
⇒ 最小条件は Qqk = Pqk
Pqk 符号長:-log Qqk
KLダイバージェンス
34
◼L=D+βR を最小化する最適符号化条件は下記の通り。
最適な符号化条件のまとめ
Copy right 2021 FUJITSU LIMITED
直交変換
(DCT/KLT 等)
エントロピー符号化
圧縮データ
L = D + β・R が最小になる
復号誤差D 情報量 R
量子化
原画像 σ2
σ2
λ0
λ1
信号を無相関化する正規
直交変換KLT/DCT適用
⇒ 符号化利得最大化
変換データの全次元に同一
誤差 β/2 を許容する量子化
⇒ レート・歪最適化
量子化データの出現確率と
同一の確率情報で符号化
⇒ KLダイバージェンス最小化
シンボル確率 Pqk 推定確率 Qqk
平均符号長 Σk
Pqk
(-log Qqk
)
(最小条件は Qqk
= Pqk)
Pqk 符号長:-log Qqk
j1
λj
j2
d = β / 2
λj の降順に
並べた次元 j
λj < d
λj ≥ d
KLT
①直交変換 ②量子化 ③エントロピー符号化
再掲
𝒙 𝒚 𝒒𝒌
35
レート歪最適化に基づく深層画像圧縮と
生成的AIモデルの等長埋め込み理論
Copyright 2021 FUJITSU LIMITED
36
深層画像圧縮とは?
◼ Balle らにより、Deep Learningとレート歪最適化
による深層画像圧縮が提案された。
◼ MS-SSIM等の任意の評価尺度で最高性能を達成。
Copy right 2021 FUJITSU LIMITED
圧縮画像、グラフとも、Minnen et.al, “Joint Autoregressive and Hierarchical Priors for Learned
Image Compression,” https://arxiv.org/abs/1809.02736 より引用
JPEG 深層画像圧縮
37
深層画像圧縮の原理の概要
Copy right 2021 FUJITSU LIMITED
エンコーダ
fφ(x)
デコーダ
gθ(z)
画像𝑥
潜在変数 𝒛
ො
𝑥
D(𝑥, ො
𝑥)
𝝐~𝑢(ε)
+
②量子化を模した
一様ノイズを印加
⑤ パラメトリックな確率分布pψ(z)
からෝ
z の符号長 R を求める
レートRと歪Dを
求める
z
σ
pψ (z)
①エンコード
ො
z=z+ε
③デコード
④所定のメトリクス
(MSE/SSIM等)
で誤差Dを計算
R
D
L=D+β1・R
L=D+β2・R
(R1, D1)
O
(R2, D2)
最適化
最適化
β を変えて様々なRD条件
でのネットワークを求める
深層学習からなるエンコーダ・デコーダ・確率分布推定器の
ネットワークで、画像符号化した際のレートR、歪 Dを求める。
β を与えて、L=D+βR を最小化する
ネットワークパラメータを求める。
さらなる詳細は次ページで
38
深層画像圧縮の原理詳細
◼ 学習時:レート歪最適化
① エンコーダ fφ(x)で画像を潜在変数z に変換。
② z に量子化器1相当の一様ノイズを加え ො
z を得る。
③ ො
z からデコーダ gθ( Ƹ
𝑧)で復号画像 ො
𝑥 を生成。
④ 所定のメトリクスで誤差D=D(𝑥, ො
𝑥)を計算
⑤ パラメトリックな確率分布pψ(z)から量子化データの
符号量相当 を計算
⑥ ラグランジュ係数βを導入してL=D+βRを最小化
する学習パラメータ φ, θ, ψを導出。
◼ 符号化時
① エンコーダ fφ(x)で画像を潜在変数z に変換。
② z を q=round (z) で整数に量子化(量子化器1)。
③ pψ(z)からq の符号量 を用 計算
④ q を符号量 Rq でエントロピー符号化。
Copy right 2021 FUJITSU LIMITED
エンコーダ
fφ(x)
デコーダ
gθ(z)
画像𝑥
潜在変数 𝒛
ො
𝑥
D(𝑥, ො
𝑥)
𝝐~𝑢(ε)
+
②量子化を模した
一様ノイズを印加
⑤ パラメトリックな確率分布pψ(z)
からෝ
z の符号長 R を求める
⑥L=D+βR を最小化
する学習パラメータ
φ, θ, ψ を導出
エンコーダ
fφ(x)
画像𝑥
潜在変数 z
②整数に
量子化
z
σ
pψ (z)
①エンコード ③デコード
④所定のメトリクス
(MSE/SSIM等)
で誤差Dを計算
q
σ
pψ (z)
④エントロピー
符号化
③ pψ(z)から qの符号長Rqを求める
量子化値 q
圧縮
データ
符号長 Rq
①エンコード
ො
z = 𝑧 + 𝜖,
𝐸 𝜖2
= 𝜎𝑛
2
(定数)
39
深層学習の最適条件で何が起こっているか?
Copy right 2021 FUJITSU LIMITED
パラメトリックなエン
コーダで潜在変数に
変換
変換データの全次元に
対し、固定量子化器
で量子化
パラメトリックな確率モデルで
量子化シンボルの出現確
率を推定し符号長を導出
未知分布データと任意
のメトリクスに対して
L=D+β R を最小化
深層画像
圧縮
①変換 ②量子化 ③エントロピー符号化 ④レート・歪の関係
原信号を無相関化
する正規直交変換
(KLT/PCA)の適用
変換データの全次元に
対し、同一誤差 β/2 を
許容する量子化
量子化データの出現確率と
同一の出現確率から量子
化シンボルの符号長を導出
従来の静止
画像符号化
符号化利得最大化 レート・歪最適化 DKL最小化
ガウス分布・指数相関
に対して、MSE計量で
L=D+β R が最小に
レート・歪最適
変換 エントロピー符号化
圧縮データ
L = D + β・R
復号誤差D 情報量 R
量子化
原画像
最適パラメータ
を学習
メトリクスとデータが定義する 『リーマン多様体』 に対して、潜在変数の
ユークリッド空間は等長であり、かつ、上記3つを最適化することを導出
符号化利得最大化 レート・歪最適化 DKL最小化
40
Copy right 2021 FUJITSU LIMITED
◼ レート歪理論(画像・音声圧縮の基礎):
ガウス分布データをDCT/KLTなどの正規直交変換等と一様量子化を行うと、
二乗誤差のメトリクスのもとで、RDOコスト L=D+βR が最小に。
◼ 今回ご導出した 『等長埋め込み』の理論概要:
任意のデータ・計量でRDO コスト L=D+βR を最小化すると、その計量ベクトル空間に対して
等張な潜在空間が獲得される (微小の正規直交変換が全空間に滑らかにつながったもの) 。
理論の大まかなイメージ
次元削減 量子化・
エントロピー符号化
レート・歪の最適化
従来のレート
歪理論
【条件】
ガウス分布データに対し、
DCT/KLT等の正規
直交変換で次元削減
【条件】
均等量子化とエントロ
ピー符号化。
【結果】
MSEの計量で
L=D+βR が
最小となる
今回導出した
等長埋め込み
の理論
【結果】
任意分布のデータに
対し、計量に対する
等長空間で次元削減
【条件】
均等量子化と、パラメト
リック確率分布に基づく
エントロピー符号化。
【条件】
任意の計量で
L=D+βRを
最小化する学習
任意の分布・計量へ
レート歪理論の適用
範囲を拡張
着想
41
リーマン多様体の概要 (数学的に厳密ではありません)
◼ 計量テンソルによる広義の内積の定義(線形代数的な定義)
◼ 正定値の計量テンソル行列G を用いて、ベクトル v, w の内積 <v, w>は次式で定義する。
<v, w> = v G w (「行列Gが正定値」とは あらゆる v≠0 で v G v > 0)
◼ ユークリッド空間ではG は単位行列 I となり、 <v, w> = v I w = v ・ w より狭義の内積
(ドット積)となる。
◼ リーマン多様体
◼ 多様体上の各点x において計量テンソルGx が与えられ、x 近傍の
多様体上の二つの微小ベクトル(正しくは接ベクトル) v, wの 内積 が
<v, w>x = v Gx w で定義される。
⇒ ざっくり言えば、データセットと計量(内積)のペア
◼ 実世界の画像セットとSSIMのペアもリーマン多様体とみなせる。
Copy right 2021 FUJITSU LIMITED
x1
v1 Gx1 w1
x2
x3
v3 Gx3 w3
v2 Gx2 w2
42
リーマン多様体の計量テンソルとしてのSSIM計量
◼ SSIMとは主観評価に近い画像評価指標。左上座標(h, v)で指定されるN×N領域
において、原画 x と復号画像 y の間のSSIM計量は下記で与えられる。
ここでμx と μy は x, y の領域内の平均、 σx
2
とσy
2
は x, y の領域内の分散をしめす。
◼ Y = x + δx とすると、SSIMは下記で近似できる。
ここで 、 、 とすると
学習コスト 1-SSIM は、原画 x 毎に定義される上記計量テンソル G(h, v)x を用いて
と表現できる。
Copy right 2021 FUJITSU LIMITED
⇒ 画像データセットとSSIM計量を合わせてリーマン多様体とみなせる。
43
Binary Cross Entropy や MSE の計量テンソル
Copy right 2021 FUJITSU LIMITED
◼ VAEの原論文でMNIST学習に用いられているBinary Cross Entropyの定義は
次のとおり。
とすると、 が成立する。ここで計量テンソル
は、次の通りとなる。
◼ Gaussian
とすると、
となり、計量テンソル は単位行列 I にを を乗じた となる。
定数
詳細な式展開にご興味のある方は論文をご覧ください
44
埋め込みと等長性の概要説明 (注:数学的に厳密な説明ではない)
Copy right 2021 FUJITSU LIMITED
xB1 vB1 GxB1 wB1
xB2
xB3
vB3 GxB3 wB3
vB2 GxB2 wB2
xA2
xA3
vA1 GxA1 wA1
vA3 GxA3 wA3
vA2 GxA2 wA2
xA1
リーマン多様体A リーマン多様体B
埋め込み: AからBへの滑らかな単射
xA1 → xB1, xA2 → xB2, xA3 → xB3, ・・
等長性:接ベクトルの内積を保存
vA1 GxA1 wA1 = vB1 GxB1 wB1,
vA2 GxA2 wA2 = vB2 GxB2 wB2,
vA3 GxA3 wA3 = vB3 GxB3 wB3 , ・・・・
◼ 埋め込みとは、リーマン多様体Aから多様体Bへの滑らかな単射(マッピング)
◼ 等長性とは、埋め込み後に、両多様体の対応点において、点周辺の多様体上の二つ
の微小変異(正確には接ベクトル)の内積を保存するもの。
⇒ 等長性を示す埋め込みを 『等長埋め込み』 という
45
Copy right 2021 FUJITSU LIMITED
等長性で距離や確率密度は等しくなる (注:厳密な説明ではない)
◼ 等長な多様体A,B 同士では2つのデータ間の距離は等しい
◼ 両多様体で微小変位同士の内積を保存するため、対応する線素のL2ノルムも等しい。
𝑑𝑠𝐴
2 = 𝑑𝑥𝐴
𝑇
𝐺𝐴𝑑𝑥𝐴 = 𝑑𝑥𝐵
𝑇
𝐺𝐵𝑑𝑥𝐵 = 𝑑𝑠𝐵
2
◼ 線素の積分で距離が定義されるため、両多様体で二つの対応点間の距離は等しい
(厳密に議論するには測地線という概念の導入が必要です)
◼ 等長な多様体A,B 同士では対応点の確率密度は等しい
◼ 両多様体の体積要素は等長性により等しい。
𝑑𝑣𝐴 = 𝑑𝑣𝐵
◼ 確率密度と体積要素の積(体積要素中のサンプル数に相当) は写像前後でも不変
𝑝𝐴(𝑥𝐴)𝑑𝑣𝐴 = 𝑝𝐵(𝑥𝐵)𝑑𝑣𝐵
◼ よって、両多様体上で対応点同士の確率密度は等しい
𝑝𝐴(𝑥𝐴) = 𝑝𝐵(𝑥𝐵)
46
Copy right 2021 FUJITSU LIMITED
等長埋め込みの例
◼ DCTやKLTなどの正規直交変換
◼ 正規直交変換は、変換前後のユークリッド空間同士で狭義の内積(ドット積)を保存する。
⇒ 正規直交変換はユークリッド距離を計量とした等長埋め込みの一種。
◼ 極座標とユークリッド空間
◼ 極座標(𝑟,𝜃)とユークリッド空間の積分要素の変換からユークリッド距離を表す計量テンソル
𝐺polarは下記のように求められる。
𝑑𝑥, 𝑑𝑦 𝑇 = 𝑅 𝑑𝑟,𝑑𝜃 𝑇
、ここで 𝑅 =
cos(𝜃) 𝑟 sin(𝜃)
−sin(𝜃) 𝑟 cos(𝜃)
⇒ 𝐺𝑝𝑜𝑙𝑎𝑟 = 𝑅𝑇 𝑅 =
1 0
0 𝑟2
⇒ ユークリッド空間(計量テンソルが単位行列 𝐼 ) からなるリーマン多様体は、極座標データ
(𝑟,𝜃) と 𝐺𝑝𝑜𝑙𝑎𝑟 計量テンソルからなるリーマン多様体に等長埋め込みが可能に。
当然ながら、逆方向の等長埋め込みも可。
47
◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。
◼ 学習時の量子化誤差の分散を𝜎𝑛
2
とする。深層画像圧縮の 𝐿 = 𝐷 + 𝛽𝑅 を最小化
すると、潜在空間を 𝛽/2𝜎𝑛
2倍スケールしたものは下記特徴を持つことを証明。
① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」 埋め込みしたもの。
⇒ 理論的に 「ほぼ等長に」 を 「等長に」 に近づける方法は後述。
② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。
③ 潜在変数のパラメトリックな確率密度は実データの確率密度と等しくなる。
Copy right 2021 FUJITSU LIMITED
深層画像圧縮が獲得しているもの
データ空間 潜在空間
SSIM 計量等に基づく
グリッドはデータ座標系
では曲がっている
• SSIM等の計量をユークリッド
空間に等長に埋めこみ
• 量子化誤差は𝛽/2に
• パラメトリックに求めた確率
密度はデータ空間と同じ
𝛽/2𝜎𝑛
2倍に
スケール
ユークリッドの等長な潜在空間
エンコーダ
量子化器1では
𝜎𝑛
2
= 1/12
48
Copy right 2021 FUJITSU LIMITED
深層画像圧縮が獲得しているもの
ユークリッド空間のガウス分布で定式化されていたレート歪理論を、
任意のデータ分布や計量に対して拡張したもの。
◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。
◼ 学習時の量子化誤差の分散を𝜎𝑛
2
とする。深層画像圧縮の 𝐿 = 𝐷 + 𝛽𝑅 を最小化
すると、潜在空間を 𝛽/2𝜎𝑛
2倍スケールしたものは下記特徴を持つことを証明。
① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」 埋め込みしたもの。
⇒ 理論的に 「ほぼ等長に」 を 「等長に」 に近づける方法は後述。
② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。
③ 潜在変数のパラメトリックな確率密度は実データの確率密度と等しくなる。
49
等長性の証明の流れ
Copy right 2021 FUJITSU LIMITED
エンコーダ
fφ(x)
デコーダ
gθ(z)
画像𝑥
潜在変数 𝒛
ො
𝑥
D(𝑥, ො
𝑥)
𝝐~𝑢(ε)
+
②量子化を模した
一様ノイズを印加
⑤ パラメトリックな確率分布pψ(z)
からෝ
z の符号長 R を求める
z
σ
pψ (z)
①エンコード
ො
z = 𝑧 + 𝜖, 𝐸 𝜖2 = 𝜎𝑛
2(定数)
③デコード
④所定のメトリクス
(MSE/SSIM等)
で誤差Dを計算
𝐷 ≃ σ𝑗𝜎𝑛
2
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑗
2
を小さく
⇒ z 空間を拡大
展開・近似
⑥L=D+βR を最小化
する学習パラメータ
φ, θ, ψ を導出
確率モデル𝑷𝝍(𝒛)の最適条件
エンコーダ𝒇𝝓(𝒙)・デコーダ
𝒈𝜽(𝒛)の最適条件
𝑅 ≃ − log
𝜕𝒙
𝜕𝒛
を小さく
⇒ z 空間を縮小
展開・近似
𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 を小さく
⇒ 𝑝𝜓 𝑧 = 𝑝 𝑧 が最適
展開・近似
𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑘
= 𝛽/2𝜎𝑛
2𝛿𝑗𝑘
で z 空間のスケールがバランス
𝒚 は 𝒙 の𝑮𝒙による計量ベクトル空間に対して等長
𝝏𝒙
𝝏𝒚𝒋
𝑻
𝑮𝒙
𝝏𝒙
𝝏𝒚𝒌
= 𝜹𝒋𝒌、かつPosteriorの分散は定数
𝜷
𝟐
dyj/𝑑𝑧𝑗 = 𝛽/2𝜎𝑛
2 を満たす 𝒚 を導入
𝑥 = 𝑔𝜃(𝑓𝜙(𝑥))
と仮定
50
ご参考: 証明のアウトライン:まず1次元の場合
◼ まず、データ、潜在変数が共に1次元として、P39の条件での考察
◼ P39 の条件に加え、デコーダはエンコーダの逆関数 𝑥 = 𝑔𝜃(𝑓𝜙(𝑥))と仮定。また、潜在空間の線形量子化
器を𝑇とすると量子化誤差の分散は𝜎𝑛
2 = 𝑇2/12となる。計量を𝐺𝑥として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。
◼ 𝑥の確率分布を𝑝(𝑥)とすると 𝑧 = 𝑓𝜙(𝑥) で 𝑧の確率密度は𝑝 𝑧 = 𝑝 𝑥
𝑑𝑥
𝑑𝑧
。これを用い、符号量𝑅は
𝑅 = 𝐸𝑝 𝑥 − log න
𝑧−𝑇/2
𝑧+𝑇/2
𝑝𝜓 𝑧 𝑑𝑧 ≃ 𝐸𝑝 𝑥 −log 𝑝𝜓 𝑧 𝑇 = 𝐸𝑝 𝑥 − log 𝑝 𝑥
𝑑𝑥
𝑑𝑧
+ 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − log 𝑇
◼ 計量を𝐺𝑥とする。𝑔𝜃 𝑧 + 𝜖 ≃ 𝑥 + 𝜖
𝑑𝑥
𝑑𝑧
を用いると誤差は下記で求められる。
𝐷 𝑥, Ƹ
𝑥 = 𝐸𝑝 𝜖 𝑥 − Ƹ
𝑥 𝐺𝑥 𝑥 − Ƹ
𝑥 ≃ 𝜎𝑛
2
𝐺𝑥
𝑑𝑥
𝑑𝑧
2
◼ 目的関数は下記のようになる。𝐷𝐾𝐿(⋅)は理想的なパラメトリック確率モデル 𝑝𝜓 𝑧 = 𝑝 𝑧 の基で0となる。
𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛
2𝐺𝑥
𝑑𝑥
𝑑𝑧
2
− 𝛽log
𝑑𝑥
𝑑𝑧
+ 𝛽𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log𝑝 𝑥 − 𝛽 log 𝑇
◼ エンコーダ・デコーダ最小化条件は[・]の中を
𝑑𝑥
𝑑𝑧
で微分すると 𝐺𝑥
𝑑𝑥
𝑑𝑧
2
= 𝛽/2𝜎𝑛
2
。ここでdy/𝑑𝑧 = 𝛽/2𝜎𝑛
2 なる
𝑦を導入すると 𝐺𝑥 𝑑𝑥2 = 𝑑𝑦2
となり、𝐺𝑥の計量ベクトル空間と、𝑦のEuclid空間は等長となる。
また、 𝑦 空間の誤差は𝜎𝑛
2
をスケーリングして 𝜎𝑛
2 𝑑𝑦/𝑑𝑧 2 = 𝛽/2 と定数になる。
Copy right 2021 FUJITSU LIMITED
𝜓次第で0にできる データやTに依存する定数
51
ご参考:証明のアウトライン:N次元の場合
◼ N次元データの場合P39の条件での考察
◼ データ 𝒙 = (𝑥0,⋯ ,𝑥𝑖,⋯ ,𝑥𝑁−1), 潜在変数 𝒛 = (𝑧0,⋯ ,𝑧𝑗,⋯ ,𝑧𝑁−1) とする。前頁と同じ条件で、計量
を𝐺𝑥として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。
◼ 1次元と同様の式展開で、N次元データの目的関数は下記のようになる。
𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛
2 ෍
𝑗
𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑗
− 𝛽  log det
𝜕𝒙
𝜕𝒛
+ 𝛽 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 − 𝑁 𝛽 log 𝑇
𝐷𝐾𝐿 ⋅ は理想的なパラメトリック確率モデルで 𝑝𝜓 𝑧 = 𝑝 𝑧 となると最小化され0となる。
◼ エンコーダ・デコーダ最小化条件は[・]の中を
𝜕𝒙
𝜕𝑧𝑗
で微分し、右から
𝜕𝒙
𝜕𝑧𝑘
をかけると
𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑘
= 𝛽/2𝜎𝑛
2
𝛿
𝑗𝑘と
なる。ここでd𝑦𝑗/𝑑𝑧𝑗 = 𝛽/2𝜎𝑛
2
なる𝑦𝑗を導入すると
𝜕𝒙
𝜕𝑦𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑦𝑘
= 𝛿𝑗𝑘 となり、
𝜕𝒙
𝜕𝑦𝑗
は𝐺𝑥の計量ベクトル空
間で正規直交となる。
◼ 𝑑𝒙(1)
= σ𝑗
𝜕𝒙
𝜕𝑦𝑗
𝑑𝑦𝑗
(1)
, 𝑑𝒙(2)
= σ𝑗
𝜕𝒙
𝜕𝑦𝑗
𝑑𝑦𝑗
(2)
とすると、 𝑑𝒙 1 𝑇
𝐺𝑥 𝑑𝒙 2
= σ𝑗 𝑑𝑦𝑗
1
𝑑𝑦𝑗
2
= 𝑑𝒚 1 𝑇
⋅ 𝑑𝒚 2
となり
𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となる。
◼ また、 𝑦 空間の各次元の誤差は𝜎𝑛
2
をスケーリングして 𝜎𝑛
2 𝑑𝑦𝑗/𝑑𝑧𝑗
2
= 𝛽/2 と定数になる。
Copy right 2021 FUJITSU LIMITED
𝜓次第で0にできる データやTに依存する定数
52
𝐿 = 𝐷 + 𝛽𝑅
Copy right 2021 FUJITSU LIMITED
深層画像圧縮が 『完全な等長でない』 理論上の理由
◼ 今回の証明では、 𝑥 = 𝑔𝜃(𝑓𝜙(𝑥))、すなわち、デコーダは
エンコーダの逆関数と仮定。
◼ しかし、実際にはノイズ 𝜷/𝟐 に対するウィーナフィルタと
ほぼ同じ挙動を示し、逆関数とならない。
⇒ 完全な等長性は失われる。
◼ 例: 1次元データ 𝑥 ∼ 𝑁 0, 𝜎𝑥
2
を 深層画像圧縮で
𝐿 = 𝐷 + 𝛽𝑅 のコストで学習した場合。
◼ 𝑔𝜃(𝑓𝜙(𝑥)) は ノイズ 𝜖 ∼ 𝑁 0,𝛽/2 を加えたあとに
ウィーナフィルタをかけた結果とほぼ等価となる。
෬
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 ≃
𝜎𝑥
2
𝜎𝑥
2+𝛽/2
𝑥 ≠ 𝑥
◼ 両者のMSE平均は 𝐸 𝑥 − ෬
𝑥 2 ≃ 𝛽/2 2/𝜎𝑥
2 > 0 となり、
完全な逆関数にはならない。
+
𝝐 ∼
  𝑵 𝟎, 𝜷/𝟐
ウィーナフィルタ
෬
𝑥 =
𝜎𝑥
2
𝜎𝑥
2+𝛽/2
𝑥
𝑓𝜙 𝑥
𝑔𝜃 𝑧
෬
𝑥
𝑥 ∼ 𝑁 0,𝜎𝑥
2
෬
𝑥 ∼ 𝑁 0,
𝜎𝑥
4
𝜎𝑥
2 + 𝛽/2
𝑥
等
価
𝑧
53
Copy right 2021 FUJITSU LIMITED
等長性を高める方法
◼ 再構成誤差の分析
◼ ො
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 として次式成立。
𝐷 𝑥, ෬
𝑥 ≃ 𝐷 ො
𝑥, ෬
𝑥 + 𝐷 𝑥, ෬
𝑥
◼ よって 𝐷 𝑥, ෬
𝑥 と𝐷 ො
𝑥, ෬
𝑥 のトレードオフの結果、
ウィーナフィルタ的な挙動をしめす。
◼ 等長性を高める方法: ෬
𝑥 ≃ 𝑥 の促進
◼ 𝐷 𝑥,𝑥 + 𝛿𝑥 = 𝛿𝑥𝑇𝐺𝑥𝛿𝑥 は𝛿𝑥=0で微分値が0。
◼ 𝐷(⋅,⋅)より0付近で急峻なロス𝐷2(⋅,⋅)を準備
(MSEの対数やL1/L2 ロスなど)
◼ 𝐷 𝑥, ෬
𝑥 を𝐷2 𝑥, ෬
𝑥 に置き換えて学習
𝐿 = 𝐷 + 𝛽𝐷 ො
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥
⇒ 𝒙 ≃ ෭
𝒙 が促進され等長性が高まる
𝒙
𝒛
෭
𝒙
𝐷2(𝒙, ෭
𝒙)
ෝ
𝒙
D(෕
𝒙, ෭
𝒙)
𝝐~𝑁(0,𝜎) + 𝑔𝜃(𝒛 + 𝝐)
この等長性を高めたモデルをRaDOGAGAと命名
(Rate-Distortion Optimization Guided Autoencoder for Generative Analysis)
𝐷 𝑥, ෬
𝑥 𝐷2 𝑥, ෬
𝑥
𝐿 = 𝐷 + 𝛽𝐷 ො
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥
𝐷 𝑥, ෬
𝑥 ≃ 𝐷 ො
𝑥, ෬
𝑥 + 𝐷 𝑥, ෬
𝑥
D2(・) はD(・)よりも ෬
𝑥 ≃ 𝑥 付近で微分が
急峻な『MSEの対数』や L1などを使う
置き換え
新しい再構成誤差で学習
෬
𝑥 = 𝑥 ෬
𝑥 = 𝑥
54
VAEの解明
◼ 多くの研究者がVAEの解明にチャレンジ
◼ Rolinek et.al. “Variational Autoencoders Pursue PCADirections (by Accident)”
VAEのヤコビアンの各ベクトルは直交していることを証明。
◼ Locatello et.al, “Challenging Common Assumptions in the Unsupervised
Learning of Disentangled Representations”
VAEがDisentangle表現を獲得するには帰納バイアスが必要なことを証明
しかし、VAEの定量的な性質は未解明のまま
◼ 我々はVAEの理論的な解明に成功
⇒ 実は深層画像圧縮と、限りなく近かった!
Copy right 2021 FUJITSU LIMITED
55
Copy right 2021 FUJITSU LIMITED
VAEと RaDOGAGA / 深層画像圧縮は ベースは同じ!
Method 事前分布 事後分布(ノイズ) 最適化コスト 等長空間へのマッピング
VAE 固定の事前分布。
原論文は正規分
布 N(0,1)
エンコーダで正規分布の事後
分布の平均𝝁𝒋と分散𝝈𝒋
𝟐
を各
データ、次元 j 毎に学習
𝐿 = 𝐷 + 𝛽𝑅を最適化
潜在空間をデータ・次元毎
に異なる 𝜷/𝟐𝝈𝒋
𝟐
倍の
スケーリングで等長に
深層画像
圧縮
パラメトリックな
事前分布を学習
エンコードの結果に全データ・
次元共通の固定分散𝝈𝒏
𝟐
の
事後分布の誤差を加えたもの。
潜在空間を全データ・次元
で共通の定数 𝜷/𝟐𝝈𝒏
𝟐倍
のスケーリングで等長に
最適化時の固定パラメータと学習するパラメータが相補的なだけ!
VAEの潜在変数の事前・事後分布と等長空間との関係
VAE
潜在変数の確率分布
は固定の事前分布
(正規分布が一般的)
誤差分布(事後分布):学習で獲得
x
z
ヤコビ行列は
直交・非正規
誤差分布(事後分布): β/2の固定分散
y
深層画像圧縮の等長空間
x
ヤコビ行列は
正規直交
潜在変数の確率分布は
データ分布に等しい
𝜕𝑦𝑗
𝜕𝑧𝑗
=
Τ
𝛽 2
𝜎𝑗 𝑥
でスケーリング
すると深層画像圧縮相当に
56
VAE の潜在空間も等長空間へマッピング可能!
Copy right 2021 FUJITSU LIMITED
𝒚 ∈ 𝑌
𝒙 ∈ 𝑋
ෝ
𝒚 ∈ ෠
𝑌
ෝ
𝒙 ∈ ෠
𝑋
𝝁 𝒙 𝒛
𝑁 0,𝝈 𝒙
𝟐
+
+
𝑁 0, Τ
(𝛽 2) 𝑰
𝜕𝑦𝑗
𝜕𝜇𝑗(𝑥)
=
Τ
𝛽 2
𝜎𝑗 𝑥
暗黙的な
等長埋め込み
VAE
となる変数 y を導入
等長性
入力データxの
確率分布 P(x)
潜在変数の事前確率分布 P(z)。
両空間での2点間の
距離は等しい
D(x(1)
, x(2)
) = | y(1)
–y(2)
|2
深層画像圧縮/RaDOGAGA
と同様に、潜在空間を 𝜷/𝟐𝝈𝒋
𝟐
倍
スケーリングすると、計量ベクトル
空間に等長な空間が得られる。
同様に、等長空間での事後分
布の分散も固定値(β/2) となる。
↓
よって、RaDOGAGAや深層画像
圧縮同様に、得られた等長空間に
おいて、データの定量的な分析が
可能に。
yの確率分布 P(y)は
P(x)に等しい
𝝏𝒙
𝝏𝒚𝒋
𝑻
𝑮𝒙
𝝏𝒙
𝝏𝒚𝒌
= 𝜹𝒋𝒌
57
Copy right 2021 FUJITSU LIMITED
証明概要:VAEも深層画像圧縮と同じコストに帰着
◼VAEは変分下限 𝐸𝑝 𝑥 𝐸𝑞𝜙 𝑧 𝑥 log𝑝𝜃 𝑥 𝑧 − 𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 の最大化を行う。
◼これまでと類似の議論から第一項の再構成誤差 は計量テンソル𝐺𝑥を用いて下記のように近似可能。
log 𝑝𝜃 𝑥 𝑧 = log𝑝𝐷 𝑥 ො
𝑥 = −𝐷 𝑥, ො
𝑥 ≃ 𝐸𝑝 𝜖 𝑥 − ො
𝑥 𝐺𝑥 𝑥 − ො
𝑥 = ෍
𝑗
𝜎𝑗
2 𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑗
◼事後分布のσが小さい時 𝑁 𝑧; 𝜇,𝜎2
はδ関数 𝛿 𝑧 − 𝜇 に近似でき、これにより第二項は次式で展開可能
𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 = − ‫׬‬𝑁 𝑧; 𝜇, 𝜎2 log 𝑝 𝑧 𝑑𝑧 + ‫׬‬ 𝑁 𝑧;𝜇,𝜎2 log 𝑁 𝑧;𝜇,𝜎2 𝑑𝑧 ≃ −𝑝 𝝁 − σ𝑗
1
2
log 2𝜋𝑒𝜎𝑗
2
,よって
𝐸𝑝 𝑥 𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 ≃ 𝐸𝑝 𝑥 −𝑞 𝑧 + −𝑝 𝑧 + 𝑞 𝑧 − ෍
𝑗
1
2
log 2𝜋𝑒𝜎𝑗
2
= 𝐸𝑝 𝑥 −𝑝 𝑥 det
𝜕𝑥
𝜕𝑧
+ 𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍
𝑗
1
2
log 2𝜋𝑒𝜎𝑗
2
◼上記よりVAEコスト(変分下限×-1)は深層画像圧縮とほぼ同じ式となる。違いは𝜎𝑗が可変か固定かのみ。
𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 ෍
𝑗
𝜎𝑗
2 𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑗
− 𝛽 log det
𝜕𝒙
𝜕𝒛
+ 𝛽𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍
𝑗
𝛽
2
log 2𝜋𝑒𝜎𝑗
2
− 𝛽𝐸𝑝 𝑥 log𝑝 𝑥
◼最小化条件は深層画像圧縮同様に
𝝏𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑘
= 𝛽/2𝜎𝑗
2
𝛿𝑗𝑘。ここでd𝑦𝑗/𝑑𝑧𝑗 = 𝛽/2𝜎𝑗
2
なる𝑦𝑗を導入すると
深層画像圧縮同様に𝐺𝑥の計量ベクトル空間と、𝑦のEuclid空間は等長となり、誤差はβ/2となる。
58
◼低次元化して解析するために有用な生成モデルの要件
◼確率分布
➢ データの確率分布を明示的に獲得可能なこと。
◼潜在空間・潜在変数の獲得
➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ)
➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。
◼サンプリング(デコード)
➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること
Copyright 2021 FUJITSU LIMITED
各生成モデルの特徴のまとめ
データ確率分布の
明示的な獲得
潜在空間・潜在変数の獲得 サンプリング
エンコード 潜在空間の定量性 サンプリング
VAE ×→○ ○ ×→○ 〇
GAN × × × ○
EBM 〇 × × 〇
RaDOGAGA ○ ○ ○ ○
再掲+追記
RaDOGAGAと
VAEは満点に!
59
等長埋め込みの定量性を生かした
画像圧縮やデータ解析への応用
Copy right 2021 FUJITSU LIMITED
60
理論の評価と応用
◼ 等長性の評価
◼ 単一モデル+可変量子化による深層画像圧縮のレート制御
◼ データの分布獲得と確率密度推定
◼ 教師無し異常検知
◼ 重要な説明変数の推定
Copy right 2021 FUJITSU LIMITED
61
Copy right 2021 FUJITSU LIMITED
実データでの等長性の評価
◼ ”RaDOGAGA” で両空間の内積を評価
◼ VAE で 偏微分ノルム 𝜕𝒙/𝜕𝑦𝑗
2
を評価
• 潜在空間で二つの微小変位𝑑𝒚 1 , 𝑑𝒚 2 を
ランダム生成
• デコードしてデータ空間の𝑑𝒙 1 , 𝑑𝒙 2 を計算
• 等長空間とデータ空間の内積 𝑑𝒚 1 ⋅ 𝑑𝒚 2 及び
𝑑𝒙 1
𝑇
𝐺𝑥 𝑑𝒙 2 をプロットして等長性を評価
⇒ 異なるデータ・計量で高い相関性、等長性を示す
• 潜在空間で第 j 次元のみ微小量 𝜖 、他の次元は
0 の微小変位 𝑑𝒛 j = (0, ⋯,𝜖, ⋯) を生成。
• 𝜕𝒙/𝜕𝑦𝑗
2
≃
2𝜎𝑗
2
𝛽
𝐷 𝑔𝜃 𝒛 + 𝑑𝒛 j ,𝑔𝜃 𝒛 /𝜖2 の
左辺を各次元で評価。等長性より理論値は1。
⇒ 異なるデータ・計量で、データ空間と等長空間との
偏微分ノルムが全次元で1に近く、等長性を示す
データ:CelebA
計量 :SSIM
データ:MNIST
計量 : Binary Cross
Entropy
ノルムが全次元でほぼ1を示す
潜在変数の次元 潜在変数の次元
データ:CelebA
計量 :SSIM
データ:MNIST
計量 : Binary Cross
Entropy
等長空間の内積
データ空間の内積
データ空間の内積
両空間の内積に高い相関性
62
Copy right 2021 FUJITSU LIMITED
可変量子化による深層画像圧縮のレート制御
◼ 従来の深層画像圧縮の課題
◼ ターゲットのレート毎にβを変えてL=D+βRで学習。
⇒ レート毎に異なる複数のモデルが必要に。
◼ βに依存するモデルのウィナーフィルタ的挙動が原因と推定
◼ 提案手法:等長空間における可変量子化
◼ ො
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 , 𝐷2 𝑥, ෬
𝑥 = log||𝑥 − ෬
𝑥||2
2
として 𝐿 = 𝐷 + 𝛽𝐷 ො
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥 で学習
⇒ 計量空間に対して等長性の高い潜在空間を獲得
◼ 上記モデルの潜在空間で、任意の量子化器 𝑇 を用いて
オフセット付量子化 𝑞 = sign 𝑧 floor 𝑍 /𝑇+ offset , Ƹ
𝑧 = 𝑞𝑇
⇒ ウィナーフィルタ的な効果を補う (H.264 JMと同様)
◼ 結果:単一モデル+オフセット付の可変量子化で、
従来のレート毎の複数モデルと同等性能を達成
𝐿 = 𝐷 + 𝛽𝐷 ො
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥
計量空間と等長性の高い潜在空間獲得
0 T 2T 4T
3T
-T
-2T
-4T -3T
0 1 2 4
3
-1
-2
-4 -3
単一モデル+任意量子化器でオフセット付
の線形量子化 (H.264のJM相当)
SSIM及びPSNRにおいて
従来のレート毎モデルと
同等の性能を達成
Offset=0.45で
従来技術とほぼ同等
Jing Zhou, Akira Nakagawa, Keizo Kato, Sihan Wen, KimihikoKazui, Zhiming Tan, “Variable Rate Image Compression Method with Dead-zoneQuantizer,”
https://openaccess.thecvf.com/content_CVPRW_2020/papers/w7/Zhou_Variable_Rate_Image_Compression_Method_With_Dead
-Zone_Quantizer_CVPRW_2020_paper.pdf
63
確率密度の推定 (VAE / RaDOGAGA共通)
◼ 計量テンソル𝐺𝑥の計量ベクトル空間での入力データの
確率密度を𝑝𝐺𝑥
(𝑥)、等長空間の確率密度を𝑝(𝑦)、
潜在空間の確率密度を𝑝(𝑧)とすると、これまでの議論
より、次の関係がある。
◼ 入力空間座標の確率密度を𝑝(𝑥)とすると、計量ベクトル
空間の確率密度𝑃𝐺𝑥
(𝑥)とは次の関係がある。
◼ よって、潜在空間の確率分布から、入力空間座標の
確率分布𝑝 𝑥 は次の式で導出可能となる。
Copy right 2021 FUJITSU LIMITED
入力空間
𝑝 𝑥
計量ベクトル空間
𝑝𝐺𝑥
𝑥
潜在空間 𝑝 𝑧
𝒑𝑮𝒙
𝒙 = 𝒑 𝒚 =
     𝒑 𝒛 ෑ
𝒋
(𝝈𝒋/ 𝜷/𝟐)
𝒑 𝒙 =
      𝒑𝑮𝒙
𝒙 𝐝𝐞𝐭 𝑮𝒙
𝑝𝐺𝑥
𝑥 = 𝑝 𝑦 = 𝑝 𝑧 det
𝜕𝑧
𝜕𝑦
= 𝑝 𝑧 ෑ
𝑗
(𝜎𝑗/ 𝛽/2)
𝑝 𝑥 = 𝑝𝐺𝑥
𝑥 det𝐺𝑥
𝑝 𝑥 = 𝑝 𝑧 det 𝐺𝑥 ς𝑗(𝜎𝑗/ 𝛽/2)
64
Copy right 2020 FUJITSU LABORATORIES LTD.
RaDOGAGAによる確率分布の推定
Input source
従来技術 (DAGMM)
P(x)
(High)
(Low)
実験条件
•従来技術 DAGMMと
提案技術RaDOGAGAで
上記3次元データを学習。
•データの確率密度(横軸)と
その推定値(縦軸)をプロット
◼ RaDOGAGAでデータの確率密度推定を評価、理論の正しさを検証
RaDOGAGA (Ours)
確率推定ができていない
D2は二乗誤差
高い予測精度だが若干のズレ
⇒ 等長性が若干失われている
高い予測精度
⇒ 等長性の向上
D2は二乗誤差の対数(より急峻)
評価結果
𝐿 = 𝐷 + 𝛽𝐷 ො
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥 を最小化
DAGMM: Zong et.al, “Deep Autoencoding Gaussian Mixture Model for Unsupervised
Anomaly Detection,” https://sites.cs.ucsb.edu/~bzong/doc/iclr18-dagmm.pdf
65
Copy right 2021 FUJITSU LIMITED
VAEによる確率密度の推定
実験条件
• 上記分布をもつ3次元データ s1, s2, s3
から多次元データ xを作成。
• xの生成確率p(x) は以下で与えられる
p(x) = p(s1) p(s2) p(s3)
• 非線形の計量 Gx を用いてVAEで学習
• 各データの実際の確率と推定確率をプロット
結果
◼ VAEでデータの確率密度推定の評価を行い、理論の正しさを検証
等長空間での推定確率
データ確率と推定確率の
相関はとても高い
(相関係数 R=0.910)
𝑝 𝑧 det 𝐺𝑥 ς𝑗(𝜎𝑗/ 𝛽/2)
事前分布
データ確率と事前分布
(Prior)の確率の相関は低い
(相関係数 R=0.434)
𝑝 𝑧
p(x)
p(x)
66
教師無し異常検知
◼ RaDOGAGA/VAEの確率密度推定を教師無しの異常検知タスクに適用
⇒ F1で従来のSOTAを超える性能を達成。
Copy right 2021 FUJITSU LIMITED
異常検知のベンチマーク用データセット
• KDDCup/KDDCup-rev
通信アクセスデータ(データマイニング分野
の国際学会Knowledge Discovery
and Data Mining (KDD) が配布)
• Thyroid/Arrythmia
甲状腺数値データ、不整脈データ(カリ
フォルニア大学アーヴァイン校が配布)
67
潜在変数の重要度推定(VAE)
推定分散値で全次元をソートすると、画像変化の大きさ順になる。
⇒ 推定分散値は各次元の重要度(PCAの分散相当)を表す。
等長な潜在変数の各次元の重要度の評価
Copy right 2021 FUJITSU LIMITED
◼ 等張な潜在変数の各次元の分散は、
PCA同様に次元の重要度を示す。
◼ VAEでは、各次元の事後分布の分
散𝜎𝑗
2
を用いて、その次元の等長潜在
変数 𝑦𝑗 の分散は、次式で推定可能。
𝑉𝑎𝑟 𝑦𝑗 ≃
𝛽
2
𝐸𝑝(𝒙)[𝜎𝑗 𝒙
−2
]
◼ CelebA学習後、推定分散値で各
次元をソート。各次元の潜在変数を
一定割合ずつ変化させ、デコードした
画像の変化度合は推定分散値と
高い相関を示す。
潜在変数の分散
(各次元の重要度)
68
Copy right 2021 FUJITSU LIMITED
VAE / RaDOGAGAの選択基準の考察
入力データx
の分布p (x)
VAE
RaDOGAGA
Priorに
マッピング
等長空間に
マッピング
𝝏𝒚𝒋
𝝏𝒛𝒋
=
Τ
𝜷 𝟐
𝝈𝒋 𝒙
が橋渡し
Pros:Priorとσから簡単に入力データの確
率密度を推定できるので、モデル設計が簡単
Cons:潜在空間全体の分布を評価・分析
するためには、微分dyj/dzj を繋ぎ合わせて等
長空間を求める必要があり、データの分布に
よっては分析が困難(特に多峰分布)。
Pros:潜在空間が等長なので、潜在空間の
分布から入力データ特徴を直接的に分析可能
Cons:潜在空間のパラメトリックな確率分布
の選択など、モデル設計が若干難しい
入力と同確率 目的に応じて使い分けが可能。
両者のハイブリッドも有効。
z ~ N(0, I)
p (x) ≒ pθ (y)
69
情報通信理論を活かした
今後のAIの方向性について
Copy right 2021 FUJITSU LIMITED
70
符号化の階層モデルとAI
◼ 1980年代に、原島先生により、『知的画像符号化』や『知的通信』が提唱された。
◼ 提唱された符号化の階層モデルとAI技術の関係
1. 波形符号化:信号波形情報を伝送
⇒ 深層画像圧縮
2. 分析合成符号化:画像のパラメータを伝送
⇒ GAN、VAEなどの生成モデル
3. 認識符号化:画像の要素を認識・伝送
⇒ Faster RCNN/DETR等の物体検出や、
SimCLR/BYOL等の教師無し表現学習
4. 知的符号化:画像の概念を伝送
⇒ CLIP/VilBERTなどのマルチモーダル学習
Copy right 2021 FUJITSU LIMITED
引用元:原島博、『知的画像符号化と知的通信』、
テレビジョン学会誌 1988 年 42 巻 6 号 p. 519-525
https://www.jstage.jst.go.jp/article/itej1978/42/6/42_6_519/_pdf/-char/ja
最先端の深層学習技術と深い関係性
71
画像の教師なし表現学習とその課題
Copy right 2021 FUJITSU LIMITED
Chen et.al., “Exploring Simple Siamese Representation Learning,”
https://arxiv.org/pdf/2011.10566.pdf より引用
Jing et.al., “Understanding Dimensional Collapse in Contrastive Self-
supervised Learning,” https://arxiv.org/pdf/2110.09348.pdf より引用
SimCLR、BYOL、SimSiamなど、大量の
画像から、データ自身が持っている表現を
教師無しで学習する手法の提案
• 獲得した潜在空間の定量的な解釈が困難。
• Dimensional Collapseという、潜在空間
自体が縮んでしまう現象が問題に。
課題:
レート歪最適化を取り入れれば
これらの課題が解決できるのでは?
72
◼ 最新の生成的AIモデルにレート歪最適化のエッセンスを取り入れることにより、
データからパラメータ・構造・記号・意味などが自動的に表出できるかも。
⇒ 生成的AIの究極形としての知的通信の実現
◼ 実際には、各データに適した学習モデルや計量の選択、そして、効率的かつ
安定な大規模学習技術など課題は山積。解決に向け、ぜひ挑戦したい。
情報通信理論を生かしたAI研究の方向性の私案
Copy right 2021 FUJITSU LIMITED
Image Language
Graph
Encoder
Decoder
Image Language
Graph
最新の生成的AIに情報通信理論をプラス
現実世界データ 再構成された現実世界データ
レート歪の最適化により
定量的な潜在変数が自動表出
意味・概念
構造・記号
パラメータ
73
Thank you
Copy right 2021 FUJITSU LIMITED

More Related Content

What's hot

【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...Deep Learning JP
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
[DL輪読会]Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep...
[DL輪読会]Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep...[DL輪読会]Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep...
[DL輪読会]Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep...Deep Learning JP
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習Naoya Chiba
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural imagesDeep Learning JP
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編順也 山口
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNETomoki Hayashi
 
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...Deep Learning JP
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
Neural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFNNeural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFNemakryo
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedShuntaro Ohno
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Shuntaro Ohno
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
高1から始める人工知能(AI)
高1から始める人工知能(AI)高1から始める人工知能(AI)
高1から始める人工知能(AI)MasanoriSuganuma
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksDeep Learning JP
 

What's hot (20)

Point net
Point netPoint net
Point net
 
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
[DL輪読会]Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep...
[DL輪読会]Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep...[DL輪読会]Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep...
[DL輪読会]Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep...
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
 
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
Neural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFNNeural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFN
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guided
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
高1から始める人工知能(AI)
高1から始める人工知能(AI)高1から始める人工知能(AI)
高1から始める人工知能(AI)
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 

Similar to PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)

OpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネルOpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネルTakashi Yoshinaga
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesKento Doi
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知Hideo Terada
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
深層生成モデルによるメディア生成
深層生成モデルによるメディア生成深層生成モデルによるメディア生成
深層生成モデルによるメディア生成kame_hirokazu
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組みYoshitaka Ushiku
 
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日Kitsukawa Yuki
 
Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介
Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介
Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介Tsukasa Takagi
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームTakuya Azumi
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
Embedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksYusuke Uchida
 

Similar to PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明) (20)

OpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネルOpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネル
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
深層生成モデルによるメディア生成
深層生成モデルによるメディア生成深層生成モデルによるメディア生成
深層生成モデルによるメディア生成
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
 
Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介
Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介
Learning Semantic Representations for Unsupervised Domain Adaptation 論文紹介
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
How good is my GAN?
How good is my GAN?How good is my GAN?
How good is my GAN?
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
Embedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural Networks
 

PCSJ/IMPS2021 講演資料:深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)

  • 2. 自己紹介 ◼中川 章, 博士(工学) 富士通株式会社 人工知能研究所 准フェロー ◼専門分野:情報理論に基づいた映像符号化、AI理論 ◼研究開発の経歴 ◼ 1991年 東京大学電子工学科修士課程卒業、同年富士通研究所に入社。 ◼ 映像符号化分野の研究、国際標準、及び映像符号化 LSI・放送機器等の開発に従事。 ◼ 2019年より人工知能研究に従事、情報通信理論をベースにしたAIの研究を開始。 ◼ 受賞等 ◼ 電子情報通信学会フェロー ◼ 紫綬褒章 / 文部科学大臣表彰 / 市村産業賞 / 日本ITU協会賞 / ◼ 米国エミー賞(技術部門、開発技術の受賞) / 米SMPTE 論文賞 等 Copyright 2021 FUJITSU LIMITED 今日の発表 1
  • 3. 背景 Copy right 2021 FUJITSU LIMITED ◼ 現在の画像符号化技術は情報通信理論の集大成、今では生活に不可欠に! ◼ 近年、Deep Learningを用いた深層画像圧縮が提案され、MS-SSIM等の任意の 評価尺度で高性能を達成。 Minnen et.al.,“Joint Autoregressive and Hierarchical Priorsfor Learned Image Compression,” https://arxiv.org/pdf/1809.02736.pdf より引用 JPEG 深層画像圧縮 CVPR CLIC2019 Leader Board 我々の提案方式は MS-SSIM指標で 惜しくも 2位・3位 深層画像圧縮は、情報通信理論と何等かの関係があるはず! 深層画像圧縮コンテスト https://www.itu.int/rec/T-REC-H.264 https://www.itu.int/rec/T-REC-H.265 https://www.itu.int/rec/T-REC-H.266 http://clic.compression.cc/2019/results/?sort=msssim 動画像符号化 国際標準 2
  • 4. 今回の発表内容: 情報通信理論に基づく深層画像圧縮とVAEの理論解明 Copy right 2021 FUJITSU LIMITED Encoder Decoder Data Reconstructed Data 任意の距離計量Gx(MSEやSSIM)の元での Rate-Distortion 最適化 エンコード 高次元空間 デコード 低次元の等長空間 両空間での距離が等しい i.e. |x1-x2|2 = |y1-y2|2 x1 y1 y2 𝒑 𝒚 𝒑(𝒙) 確率密度が等しい 𝒑 𝒙 = 𝒑 𝒚 x2 定量的なデータ解析を可能に エントロピー 最小表現 定量的な 説明変数 深層画像圧縮とVAEは、距離空間での 『等長埋め込み』 となることを理論解明 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌 3
  • 5. ◼ 等長埋め込みの導入により 潜在空間での定量的なデータ解析や取扱が可能となり、 深層画像圧縮と VAE等の生成的AIモデルの両分野で 応用が可能に 等長埋め込みの特徴により定量的な解析が可能に Copy right 2021 FUJITSU LIMITED 確率分布推定 教師無し異常検知 データの確率密度の 定量評価が可能に 従来のState-of-the-art を超える異常検出性能 潜在変数の各次元の分散と 画像の変化量が高い相関 単一モデル+任意量子化器 でレート制御が可能に 可変レート符号化 潜在変数の各次元の 重要度の評価 深層画像圧縮 VAE等の生成的AIモデルでの定量分析 4
  • 6. 機械学習系のトップカンファレンス ICMLでの採択 Copy right 2021 FUJITSU LIMITED ◼ Quantitative Understanding of VAE as a No-linearly Scaled Isometric Embedding ◼ 中川 章, 加藤 圭造(富士通) 鈴木 大慈 准教授(東大、理研) ◼ 幅広く活用が進む 生成モデル “VAE” の理論的特性を完全に明らかに。 非線形なマッピングにより 『等長埋め込み』 となることを示した。 ◼ さらにVAEを用いた定量的な解析手法も示した。 ◼ Rate-Distortion Guided Autoencoder for Isometric Embedding in Euclidean Latent Space ◼ 加藤 圭造, 周 静, 佐々木 智丈, 中川 章(富士通研究所) ◼ 深層画像圧縮等のRD最適化されたAutoencoder は 『等長埋め込み』 となることを理論的・定量的に示し、同時にデータの定量評価を可能とした。 ◼ 略称“RaDOGAGA” (Rate-Distortion Optimization Guided Autoencoder for Generative Analysis) https://arxiv.org/abs/2007.15190 https://proceedings.mlr.press/v139/nakagawa21a.html https://arxiv.org/abs/1910.04329 http://proceedings.mlr.press/v119/kato20a.html ICML 2020&2021で発表 (機械学習分野のトップカンファレンス) 5
  • 7. 本日の発表 Copy right 2021 FUJITSU LIMITED ◼発表の概要: ◼ 生成的AIモデルの解説 ◼ 画像符号化の基礎となるレート歪理論の解説 ◼ レート歪最適化に基づく生成的AIモデルの等長埋め込み理論。 ◼ 等長埋め込みの定量性を生かした画像圧縮やデータ解析への応用。 ◼ 情報通信理論を活かした今後のAIの方向性について(ディスカッション)。 ◼資料について: 調子に乗って、ご発表資料で多数の内容を盛りこみすぎました😅。 すこし駆け足でご説明します。 ⇒ ご興味のある方は資料をダウンロードしてください。 一方の分野のみ詳しい方々にも ご理解頂けるように、それぞれの 基礎理論から ご説明します Google検索で 6
  • 9. Copy right 2021 FUJITSU LIMITED ◼ 背景:識別アプローチの発展と課題 ◼ 識別モデルとは大量の教師データから 識別ルールを学習するアプローチ ◼ タスク毎のデータ準備やモデル作成が必須であり 導入までの期間・コストが膨大に ◼ 動向:生成型DLによる研究の発展 ◼ 大量の学習データのみから、データの確率分布や 最小説明変数を自動獲得 ◼ 獲得済の生成ルールと 少数の教師データから 複数のタスクでの認識モデル構築が可能に ◼ Deep Learningを活用した画像・言語の 生成型DLの研究が発展 背景・動向 分析対象毎の 識別ルール 分析対象毎の 大量の教師データ 境界を学習 識別アプローチ データのみ データ本来の 分布・確率を獲得 生成型DL 犬 猫 犬 猫 通信アクセス データ 医療データ 大量教師無しデータ と 少量教師データ で学習 不正アクセス 検知 異常症例 発見 正常分布との 違いを分析 8
  • 10. 識別モデルと生成モデルの違い Copy right 2021 FUJITSU LIMITED ◼ 前提:データ x を N クラスの Ci に分類する ◼ 識別モデル ◼ データ x が各クラスに属する確率 p(Ci | x) を学習。 ◼ 各 x に対し、 p(Ci | x) が最大のクラスを求めること で、クラス間の境界が求まる。 ◼ 生成モデル ◼ 各Ci に対し、x の生成規則や潜在変数、xの 存在確率 p(x|Ci )等を学習してタスクに適用。 ◼ 例えば p(x|Ci ) から p(Ci | x) ∝ p(x|Ci )・ p(Ci ) を評価すれば、クラス分類も可能となる。 識別モデル 生成モデル クラスの境界線を求める データ生成規則(変数、確率分布)を求める 確率 変数 一般に生成モデルの方が複雑だが、正しく学習 できれば汎用性・再利用性が高い。 9
  • 11. ◼低次元化して解析するために有用な生成モデルの要件 ◼確率分布 ➢ データの確率分布を明示的に獲得可能なこと。 ◼潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ) ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード) ➢ 潜在空間からサンプリングし、実空間のデータにデコードできること ➢ サンプリングデータの分布がデータ分布に一致すること Copy right 2021 FUJITSU LIMITED 生成モデルが提供する有用な特徴 マッピング(エンコード) 高次元の実空間データ (犬画像などのドメイン) サンプリング(デコード) 両空間の確率分布の定量的関係 低次元の説明変数(潜在空間) 両空間での距離の定量的関係 D(X1,X2) = |Z1-Z2|2 Z1 Z2 X1 X2 10
  • 12. 生成モデルの役割①:確率分布の獲得 ◼ 確率分布の獲得の一般的な定式化 ◼ データ分布 p(x)をよく再現し、かつ を満たす確率モデル pθ(x) のパラメータθ を導出。 ◼ 確率分布獲得の主な方法 ① pθ(x) の対数のサンプル平均最大化(対数尤度最大化) ⇒ 殆どの手法(VAE、EBM、FLO、 ・・・) ② JSダイバージェンス最小化 (GAN/詳細は後述) Copy right 2021 FUJITSU LIMITED 対数尤度のサンプル平均 対数尤度を最大化するモデルパラメータ θ を求めると𝐷KL 𝑝 𝒙 ||𝑝𝜃 𝒙 が0となり pθ(x) = p(x) となる。 GANは暗に p(x)とpθ(x) のJSダイバージェンスを最小化するθ を求めている ここでKLダイバージェンス ≥0 は p(x) = q(x) で最小値ゼロになる。 ここでJSダイバージェンス ≥ 0 は p(x) = q(x) で最小値ゼロになる。 確率の第二の公理 定数(エントロピー×ー1) KLダイバージェンス 11
  • 13. Copy right 2021 FUJITSU LIMITED 生成モデルの役割②:潜在変数の獲得 ◼ 多様体仮説 ◼ 「現実世界の高次元データは本質的には低次元であり、 説明変数は低次元の曲面にマッピング可能」 (曲面を多様体という) ◼ 『潜在変数』 の獲得: データを構成する低次元の説明変数を獲得し、データの説明や 学習を容易に! 現実世界の大量の顔データ 多様体仮説 獲得した潜在変数を変化させた映像 Large-scale CelebFacesAttributes(CelebA) Dataset https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html z0: 背景の色 z1: 顔の向き z2: 髪の色 z3: 表情 Quantitative understanding of VAE as a Non-linearly Scaled Isometric Embedding https://arxiv.org/abs/2007.15190 説明変数 低次元の潜在的な 説明変数の獲得 (VAE等) 12
  • 14. 生成モデルの役割③:サンプリング ◼ サンプリングとは ① 学習モデルから学習対象のドメインに属するデータを人工的に生成すること。 ② 生成データの確率分布は元のドメインの確率分布と一致すること。 ◼ 潜在変数空間から直接サンプリングするもの(VAE、GAN等)と、 マルコフサンプリング等でデータを生成するもの(EBM等)がある (後述)。 Copy right 2021 FUJITSU LIMITED 学習した猫画像の分布 pθ(x) 元データ分布 p (x) に一致した猫画像を生成 x ~ pθ(x) に従って サンプリング 13
  • 15. 生成モデルの種類 ◼ Variational Autoencoder (VAE) ◼ データを低次元に変換してサンプリングを可能とする生成モデル “Auto-Encoding Variational Bayes,” https://arxiv.org/abs/1312.6114 ◼ Generative Adversarial Nets (GAN) ◼ Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競わせて学習 “Generative Adversarial Nets,” https://arxiv.org/abs/1406.2661 ◼ Energy Based Model (EBM) ◼ 統計力学のアナロジーで確率をエネルギーモデルに置き換えて学習。 例えば “Implicit Generation and Modeling with Energy Based Models,” https://arxiv.org/abs/1903.08689 ◼ その他 ◼ FLOW、Diffusion Modelなど・・・ Copy right 2021 FUJITSU LIMITED 14
  • 16. Copy right 2021 FUJITSU LIMITED 従来の生成モデル①:Variational Autoencoder (VAE) ◼ 利点 ◼ 現実データを低次元の空間(潜在変数空間)にマッピングできる。 ◼ 潜在空間でサンプリングし、デコードすると学習ドメインのデータが生成できる(確率保証は無し)。 ◼ 欠点 ◼ 従来研究では潜在空間と実空間の関係が不明確であり定量評価に使えない サンプリング画像 データ x~p(x) Large-scale CelebFacesAttributes(CelebA) Dataset https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html 潜在変数 z ~p(z) にマッピング 予め決めた分布 (事前分布) サンプリング/デコード されたデータ ො 𝐱 エンコーダ (パラメータφ) デコーダ (パラメータθ) サンプリング データの低次元潜在変数を獲得し、サンプリングを可能とする生成モデル 15
  • 17. Copy right 2021 FUJITSU LIMITED 従来の生成モデル①:VAEの学習方法 ◼ 対数尤度の下限値を最大化するエン コーダ・デコーダパラメータ θ,φ を学習 ◼ 学習の手順 ①潜在変数 z は固定の事前分布(N(z; 0, 1) 等)とする。 ②エンコーダ fφ(x)ではデータ x に対する z の条件付き確率 qφ(z|x) = N(z; μ, σ) のパラメータ μ, σ を求める。 ③pφ(z|x)からz をサンプリングし、デコーダ gθ(z)で ො 𝑥 を得る。 ④全xに対し予め決めた距離分布pD (x|ො 𝑥)の対数尤度と、 -βDKL(pφ(z|x) || p(z)) の最適トレードオフ条件を学習。 ここでpD (x|ො 𝑥) が分散1の正規分布の場合には、 対数尤度log pD (x|ො 𝑥)は二乗誤差の -1/2倍となる。 x p(x) ①固定の事前分布 p(z) = N(z; 0, 1) x データ空間 x 潜在空間 z 下限値(変分下限という)を最大化 再構成尤度(大きく) KLダイバージェンス(小さく) 対数尤度 + Const. エンコード σ μ qφ(z|x) = N(z; μ, σ) ② z の x による条件付き 確率分布を求める μ, σ = fφ(x) log pD (x|ො 𝑥)を大きく ⇒ x と ො 𝑥 を近づける ⇒ σ を0に近づける ⇒ 分布幅を小さく ④最適な トレードオフ を求める DKL(pφ(z|x) || p(z))を小さく ⇒ pφ(z|x) と p(z)を近づける ⇒ μを0に、σ を1に近づける ⇒ 分布幅を大きく 予め決めた距離分布 (正規分布、ベルヌーイ分布等) pθ(x|z) = pD (x|ො 𝑥) デコード ③pφ(z|x) からz をサンプリング z ො 𝑥 ො 𝑥 = gθ(z) 16
  • 18. ◼ 特徴 ◼ 利点:生成されるデータの品質が高い。 ◼ 欠点:潜在空間へのマッピングやデータ分布解析ができない。 ◼ 学習方法 ◼ 一様乱数 z からGenerator Gθ(z) でデータxgを生成。 そして、Discriminator Dφ(xg) が騙されるようGθ(z)を学習。 ◼ Discriminator Dφ(xg) に0.5の確率で学習データxか生成デー タxgを入力し、正しく識別できるようにDφ(xg)を学習。 ここで、 p(x)とpg(x)を学習データ及び生成データの分布、D* (x) を 最適化されたDφ(x)とすると、 D* (x) = p(x)/(p(x)+pg(x)) 、ロスは となり p(x)=pg(x) で最小となる Copy right 2021 FUJITSU LIMITED 従来の生成モデル②:Generative Adversarial Netwok (GAN) Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競合学習 Karras et.al.,“Progressive Growing of GANsfor Improved Quality, Stability, and Variation,” https://arxiv.org/abs/1710.10196 高品質な画像を生成(NVIDIA) 一様乱数 z ~p(z) xg=Gθ(z) xg ~pg(xg ) Dφ (x) or Dφ (xg) Generator: Discriminator を 騙すデータを生成 Discriminator: Generatorが生成 したデータか識別 学習データ ⅹ~p(x) 判定結果 1:学習データ 0:生成データ GANの原理 17
  • 19. Copy right 2021 FUJITSU LIMITED 従来の生成モデル③:Energy-Based Model(EBM) 統計力学のアナロジーを活用して、確率をエネルギーモデルに置き換えて学習 ◼ 概要 ◼ データ 𝑥 の「エネルギー関数モデル」 𝐸𝜃(𝑥)を導入。統計力学では確率は『エネルギーの指数の逆数』に比 例することから、このアナロジーで確率を次のように表現する。 𝑝𝜃 𝑥 = exp −𝐸𝜃 𝑥 ‫׬‬ exp −𝐸𝜃 𝑥′ d𝑥′ (分母は確率正規化のための「分配関数」) ◼ 対数尤度の平均 𝐿𝜃 = 𝐸𝑝 𝑥 log 𝑝𝜃 𝑥 を最大化するために θ で微分すると、シンプルな次式を得る。 d𝐿𝜃 d𝜃 = −𝐸𝑝 𝑥 𝑑𝐸𝜃 𝑥 𝑑𝜃 + 𝐸𝑝𝜃 𝑥′ 𝑑𝐸𝜃 𝑥′ 𝑑𝜃 ⇒ この微分値を用いて 対数尤度を最大化する𝜃を求める。 ◼ 「ランジュバン MCMC法」という反復サンプリングで高品質なサンプリングが可能 ◼ 特徴 ◼ 利点:Simpleな定式化で、確率密度推定や 高品質なサンプリングが可能 ◼ 欠点:潜在変数が無いため、説明性がない Zhao et.al., “Learning Energy-Based GenerativeModelsvia Coarse-to-Fine Expanding andSampling,” https://openreview.net/forum?id=aD1_5zowqV 階層的なEBM のサンプリング 高品質なサンプリング画像 18
  • 20. ◼低次元化して解析するために有用な生成モデルの要件 ◼確率分布 ➢ データの確率分布を明示的に獲得可能なこと。 ◼潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ) ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード) ➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること Copyright 2021 FUJITSU LIMITED 各生成モデルの特徴のまとめ データ確率分布の 明示的な獲得 潜在空間・潜在変数の獲得 サンプリング エンコード 潜在空間の定量性 サンプリング VAE × ○ × 〇 GAN × × × ○ EBM 〇 × × 〇 すべての要件を満たす満点のモデルはない 19
  • 22. Copyright 2021 FUJITSU LIMITED 静止画像の変換符号化の基本原理 ① 画像の画素間の相関を取り除くため、DCT/KLTなどの直交変換を行う。 ② エントロピー削減のために、誤差を許容して量子化を行う。 ① 量子化されたデータに最適な符号を割り当てるエントロピー符号化を行う。 直交変換 (DCT/KLT 等) エントロピー符号化 圧縮データ L= D + β・R を最小化する 復号誤差D 情報量 R 量子化 逆直交変換 エントロピー符号化 逆量子化 原画像 復号画像 21
  • 23. 最適な符号化条件(次ページ以降でそれぞれ説明) ◼ 符号化における符号量と誤差の最適トレードオフ条件は下記の通り。 Copy right 2021 FUJITSU LIMITED 直交変換 (DCT/KLT 等) エントロピー符号化 圧縮データ L = D + β・R が最小になる 復号誤差D 情報量 R 量子化 原画像 σ2 σ2 λ0 λ1 信号を無相関化する正規 直交変換KLT/DCT適用 ⇒ 符号化利得最大化 変換データの全次元に対し、 同一誤差を許容する量子化 ⇒ レート・歪最適化 量子化データの出現確率と 同一の確率情報で符号化 ⇒ KLダイバージェンス最小化 シンボル確率 Pqk 推定確率 Qqk 平均符号長 Σk Pqk (-log Qqk ) (最小条件は Qqk = Pqk) Pqk 符号長:-log Qqk j1 λj j2 d = β / 2 λj の降順に 並べた次元 j λj < d λj ≥ d KLT ①直交変換 ②量子化 ③エントロピー符号化 次に、ガウス分布の場合に各ステップの理論モデルを説明します 𝒙 𝒚 𝒒𝒌 22
  • 24. Copy right 2021 FUJITSU LIMITED 前提となる画素分布のモデル ◼ 画素分布のモデル化 ◼ 座標 i の画素の値 xi は分散σ2 の ガウス分布に従う。 ◼ xi と xj の共分散は画素間距離の 指数関数に従う ( ρ < 1 )。 ◼ 画像圧縮を行わない場合、一画素あたりのエントロピー(微分エントロピー) h(xi)は以下の通りとなる 各画素の値 xi 画素間の距離 d=|i-j| 各画素値の分布 画素間の共分散 画素 23
  • 25. ◼ 次のように N 画素単位にまとめて符号化する(ブロックと呼ぶ) ◼ N 画素単位の共分散行列 Σx と x の確率分布次は通り Copy right 2021 FUJITSU LIMITED 直交変換のモデル化①:共分散行列の導出 画素のエントロピーを減らすためにブロック単位で変換符号化 σ2 σ2 24
  • 26. ◼ 共分散行列 Σx の正規化固有ベクトルからなる変換行列 P と 固有値 λj を導出。 ρ<1でΣx は正定値対称行列なので、Pは正規直交行列、 λj は 0 以上の実数となる。 ◼ Pで x を変換したN次元ベクトルを y とする。Parsevalの等式によりノルム保存。 , ◼ y の共分散行列は、 Σx の固有値 λj の対角行列となる Copy right 2021 FUJITSU LIMITED 直交変換のモデル化②:相関を取り除く直交変換の導出 P による変換は統計の分野では主成分分析 (PCA)、情報圧縮ではカルーネン・レーベ変換 (KLT)と呼ばれるが、両者は同一のもの。 変換前後で現信号や符号化誤差を保存 25
  • 27. ◼ y の確率分布は、分散が λj となる各次元 yj の 互いに独立な正規分布の積で表すことができる。 ここで直交変換後の共分散行列のトレース保存則により が成立。 ◼ y に変換後の画素当たりエントロピーは、変換前の各画素のエントロピーより小 さくなる。このエントロピー減少分を符号化利得と呼ぶ。 Copy right 2021 FUJITSU LIMITED 直交変換のモデル化③:符号化利得の導出 λ0 λ1 相加・相乗平均の関係により、カッコの中は必ず1以上 符号化利得 p(y)はp(x)の軸を回転させたものに等しい 𝜎2 = 1 𝑁 ෍ 𝑗=0 𝑁−1 𝜆𝑗 26
  • 28. ご参考:KLT と DCTの関係 Copy right 2021 FUJITSU LIMITED ◼ 動画像国際標準で用いられる離散コサイン変換(DCT)は次のように導出される ◼ 𝜎2 = 1のとき𝜌 = 1 − 𝜖 とすると 共分散行列Σxは、右式のように 行列HとVを用いて近似できる。 ◼ ρ⇒1 の極限のHの固有値は7重に縮退して一意には求まらない。しかしVを摂動とした 摂動法でΣxの固有値と固有ベクトルを近似すると、次のように縮退が解ける(N=8の例)。 この0次の固有ベクトル (ρ→1/ε → 0の極限) がDCT Ⅱ 基底と正確に一致する。 H V 𝑗 = 0: 𝜆0 ≃ 8   − 21𝜖, 𝑗 ≥ 1: 𝜆𝑗 ≃ 0  + 𝜖 2 sin2 𝑗 8 𝜋 P = + ε・ 固有値 固有ベクトル DCTⅡ基底と完全一致 V による摂動成分 V による摂動成分 Hの固有値 27
  • 29. 量子化のモデル化①:線形量子化のモデル化 Copy right 2021 FUJITSU LIMITED ◼ 線形量子化では、信号 y を量子化器 T 毎に量子化代表値 qk に置き換える。 ◼ qk に置き換わる信号の量子化誤差 nk の分布 pn(y) 、エントロピー h(n)、 誤差分散 は次の通り。 誤差分布の エントロピー: 誤差分布の 分散: 0 T/2 -T/2 1/T 誤差の確率分布 pn(y) 誤差の 確率分布: 28
  • 30. 量子化のモデル化②:線形量子化の情報量と誤差 Copy right 2021 FUJITSU LIMITED ◼ y の分散より量子化器 T が十分に大きい場合、 量子化値の情報量は y と 誤差の 両エントロピーの差分、量子化誤差は誤差の分散となる。 ◼ y の分散が量子化器 T より小さい場合、量子化値の情報量は0、量子化誤差は y の分散となる。ここで y の平均は 0 とした。 量子化値の 情報量 各量子化値の 確率 量子化誤差 量子化値の 確率・情報量 量子化誤差 y 情報量は y と誤差分布の エントロピー差分 誤差分布の 分散と同一 y の分散と同一 情報量は0 29
  • 31. 言っていることは 実は simple Copy right 2021 FUJITSU LIMITED 0 T/2 -T/2 1/T y の分散より量子化器 T が大きい場合 y の分散が量子化器 T より小さい場合 0 T/2 -T/2 1/T yの分布 誤差分布 yの分布 誤差分布 両エントロピーの 差分が符号化 すべき情報量 誤差のエントロピー yのエントロピー 情報を符号化す る必要がないため 情報量はゼロ 誤差のエントロピー yのエントロピー yは必ず量子化 されるため、誤差 分布の分散が 符号化誤差 誤差の分散 yの分散 一つの量子化代表 値に収まるため、 符号化誤差は yの分散 誤差の分散 yの分散 量子化誤差 量子化値の情報量 すべてのyの値 が一つの量子化 代表値に収まる yの分散が大きく 必ずデータが 量子化される 30
  • 32. 量子化のモデル化③:情報量と誤差の理論定式化 ◼ 分散 σs 2 の正規分布信号 s を量子化する。許容ノイズ n は分散 σn 2 の 分布の中でエントロピーが最大となる正規分布を用いる。 ◼ この時、量子化後の情報量 I(s;n) と誤差Dは次の通りとなる。 ◼ 信号がノイズより大きい時( : ): ◼ 信号がノイズより小さい時( ): ◼ まとめると 次式となる。ここでI(s;n)はDの下凸関数となる。 Copy right 2021 FUJITSU LIMITED 理想量子化後の情報量と量子化誤差の理論定式化(線形量子化とのアナロジー) 情報量は信号とノイズの 両エントロピーの差分、 誤差は許容誤差分散 情報量は0、 誤差は信号の分散と同一 正規分布は分散一定条件でエントロピーが最大。 I(s;n) D 31
  • 33. ◼ 直交変換ブロックの各次元 j において、分散(=固有値)を λj 、許容ノイズを σnj 2 とする。 前頁の式を各次元に適用・積算して、次式のブロック毎の情報量R、誤差Dを得る。 ◼ 定数 βの元でL=D+β・Rを最小化する各次元の σnj 2 の最適値は?(レート・歪最適化) ⇒ Lj=dj+β・rj, L=Σ Lj として Lj は σnj 2 にのみ依存。各Lj を最小化する σnj 2 が最適解。 Copy right 2021 FUJITSU LIMITED 量子化のモデル化④:直交変換ブロックの最適量子化 曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟 𝑗 𝜎𝑛𝑗 2 と Lj=dj+β・rj は で次の接点 を持ち、 Lj が最小となる。 λj ≧ β / 2 となる次元 rj dj Lj=dj+β・rj 曲線 𝑑𝑗 𝜎𝑛𝑗 2 , 𝑟𝑗 𝜎𝑛𝑗 2 と Lj=dj+β・rj は σnj 2 ≦ λj で接点がないため、 Lj の最小値は端点の で得られる。 rj dj Lj=dj+β・rj (λj, 0) λj < β / 2 となる次元 32
  • 34. 量子化のモデル化⑤:レートと歪の関係性導出 ◼ 前頁の結果より、 L=D+β・Rの最小化条件は、 全次元に同一誤差 β/2 を許容した場合となる。 ◼ この最適条件下において、ブロック単位の情報量と 誤差は、d=β/2 として下記の d のパラメトリック関数 R(d) 及び D(d) となる。 ◼ d=β/2 を動かすと、ブロックを直交変換・量子化 した場合の情報量と歪の関係(RD曲線)を得る。 ここで、RD曲線は下に凸関数となる。 Copy right 2021 FUJITSU LIMITED j1 λj j2 d = β / 2 λj の降順に 並べた次元 j 各次元 j の情報量と誤差の導出 λj < d RD曲線(dのパラメトリック関数) λj ≥ d ( R(β2/2), D(β2/2) ) R D ( R(β1/2), D(β1/2) ) d ⇒ 大 d ⇒ 小 L=D+β1 R L=D+β2 R 重要:後から出てきます! 33
  • 35. エントロピー符号化のモデル化 ◼ 線形量子化後の k 番目のシンボル発生確率を Pqk とし、 そのシンボルの推定確率を Qqk とする。 ◼ 各シンボルの理想的なエントロピー符号長は –log Qqk となる。 ◼ Pqk の情報量をR、平均符号量をRcode とする。 ◼ 平均符号量 Rcodeは Pqk = Qqkの時に最小値 R となる。 Copy right 2021 FUJITSU LIMITED シンボル確率 Pq k 推定確率 Qq k 平均符号長 Σk Pqk (-log Qqk) ⇒ 最小条件は Qqk = Pqk Pqk 符号長:-log Qqk KLダイバージェンス 34
  • 36. ◼L=D+βR を最小化する最適符号化条件は下記の通り。 最適な符号化条件のまとめ Copy right 2021 FUJITSU LIMITED 直交変換 (DCT/KLT 等) エントロピー符号化 圧縮データ L = D + β・R が最小になる 復号誤差D 情報量 R 量子化 原画像 σ2 σ2 λ0 λ1 信号を無相関化する正規 直交変換KLT/DCT適用 ⇒ 符号化利得最大化 変換データの全次元に同一 誤差 β/2 を許容する量子化 ⇒ レート・歪最適化 量子化データの出現確率と 同一の確率情報で符号化 ⇒ KLダイバージェンス最小化 シンボル確率 Pqk 推定確率 Qqk 平均符号長 Σk Pqk (-log Qqk ) (最小条件は Qqk = Pqk) Pqk 符号長:-log Qqk j1 λj j2 d = β / 2 λj の降順に 並べた次元 j λj < d λj ≥ d KLT ①直交変換 ②量子化 ③エントロピー符号化 再掲 𝒙 𝒚 𝒒𝒌 35
  • 38. 深層画像圧縮とは? ◼ Balle らにより、Deep Learningとレート歪最適化 による深層画像圧縮が提案された。 ◼ MS-SSIM等の任意の評価尺度で最高性能を達成。 Copy right 2021 FUJITSU LIMITED 圧縮画像、グラフとも、Minnen et.al, “Joint Autoregressive and Hierarchical Priors for Learned Image Compression,” https://arxiv.org/abs/1809.02736 より引用 JPEG 深層画像圧縮 37
  • 39. 深層画像圧縮の原理の概要 Copy right 2021 FUJITSU LIMITED エンコーダ fφ(x) デコーダ gθ(z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した 一様ノイズを印加 ⑤ パラメトリックな確率分布pψ(z) からෝ z の符号長 R を求める レートRと歪Dを 求める z σ pψ (z) ①エンコード ො z=z+ε ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 R D L=D+β1・R L=D+β2・R (R1, D1) O (R2, D2) 最適化 最適化 β を変えて様々なRD条件 でのネットワークを求める 深層学習からなるエンコーダ・デコーダ・確率分布推定器の ネットワークで、画像符号化した際のレートR、歪 Dを求める。 β を与えて、L=D+βR を最小化する ネットワークパラメータを求める。 さらなる詳細は次ページで 38
  • 40. 深層画像圧縮の原理詳細 ◼ 学習時:レート歪最適化 ① エンコーダ fφ(x)で画像を潜在変数z に変換。 ② z に量子化器1相当の一様ノイズを加え ො z を得る。 ③ ො z からデコーダ gθ( Ƹ 𝑧)で復号画像 ො 𝑥 を生成。 ④ 所定のメトリクスで誤差D=D(𝑥, ො 𝑥)を計算 ⑤ パラメトリックな確率分布pψ(z)から量子化データの 符号量相当 を計算 ⑥ ラグランジュ係数βを導入してL=D+βRを最小化 する学習パラメータ φ, θ, ψを導出。 ◼ 符号化時 ① エンコーダ fφ(x)で画像を潜在変数z に変換。 ② z を q=round (z) で整数に量子化(量子化器1)。 ③ pψ(z)からq の符号量 を用 計算 ④ q を符号量 Rq でエントロピー符号化。 Copy right 2021 FUJITSU LIMITED エンコーダ fφ(x) デコーダ gθ(z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した 一様ノイズを印加 ⑤ パラメトリックな確率分布pψ(z) からෝ z の符号長 R を求める ⑥L=D+βR を最小化 する学習パラメータ φ, θ, ψ を導出 エンコーダ fφ(x) 画像𝑥 潜在変数 z ②整数に 量子化 z σ pψ (z) ①エンコード ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 q σ pψ (z) ④エントロピー 符号化 ③ pψ(z)から qの符号長Rqを求める 量子化値 q 圧縮 データ 符号長 Rq ①エンコード ො z = 𝑧 + 𝜖, 𝐸 𝜖2 = 𝜎𝑛 2 (定数) 39
  • 41. 深層学習の最適条件で何が起こっているか? Copy right 2021 FUJITSU LIMITED パラメトリックなエン コーダで潜在変数に 変換 変換データの全次元に 対し、固定量子化器 で量子化 パラメトリックな確率モデルで 量子化シンボルの出現確 率を推定し符号長を導出 未知分布データと任意 のメトリクスに対して L=D+β R を最小化 深層画像 圧縮 ①変換 ②量子化 ③エントロピー符号化 ④レート・歪の関係 原信号を無相関化 する正規直交変換 (KLT/PCA)の適用 変換データの全次元に 対し、同一誤差 β/2 を 許容する量子化 量子化データの出現確率と 同一の出現確率から量子 化シンボルの符号長を導出 従来の静止 画像符号化 符号化利得最大化 レート・歪最適化 DKL最小化 ガウス分布・指数相関 に対して、MSE計量で L=D+β R が最小に レート・歪最適 変換 エントロピー符号化 圧縮データ L = D + β・R 復号誤差D 情報量 R 量子化 原画像 最適パラメータ を学習 メトリクスとデータが定義する 『リーマン多様体』 に対して、潜在変数の ユークリッド空間は等長であり、かつ、上記3つを最適化することを導出 符号化利得最大化 レート・歪最適化 DKL最小化 40
  • 42. Copy right 2021 FUJITSU LIMITED ◼ レート歪理論(画像・音声圧縮の基礎): ガウス分布データをDCT/KLTなどの正規直交変換等と一様量子化を行うと、 二乗誤差のメトリクスのもとで、RDOコスト L=D+βR が最小に。 ◼ 今回ご導出した 『等長埋め込み』の理論概要: 任意のデータ・計量でRDO コスト L=D+βR を最小化すると、その計量ベクトル空間に対して 等張な潜在空間が獲得される (微小の正規直交変換が全空間に滑らかにつながったもの) 。 理論の大まかなイメージ 次元削減 量子化・ エントロピー符号化 レート・歪の最適化 従来のレート 歪理論 【条件】 ガウス分布データに対し、 DCT/KLT等の正規 直交変換で次元削減 【条件】 均等量子化とエントロ ピー符号化。 【結果】 MSEの計量で L=D+βR が 最小となる 今回導出した 等長埋め込み の理論 【結果】 任意分布のデータに 対し、計量に対する 等長空間で次元削減 【条件】 均等量子化と、パラメト リック確率分布に基づく エントロピー符号化。 【条件】 任意の計量で L=D+βRを 最小化する学習 任意の分布・計量へ レート歪理論の適用 範囲を拡張 着想 41
  • 43. リーマン多様体の概要 (数学的に厳密ではありません) ◼ 計量テンソルによる広義の内積の定義(線形代数的な定義) ◼ 正定値の計量テンソル行列G を用いて、ベクトル v, w の内積 <v, w>は次式で定義する。 <v, w> = v G w (「行列Gが正定値」とは あらゆる v≠0 で v G v > 0) ◼ ユークリッド空間ではG は単位行列 I となり、 <v, w> = v I w = v ・ w より狭義の内積 (ドット積)となる。 ◼ リーマン多様体 ◼ 多様体上の各点x において計量テンソルGx が与えられ、x 近傍の 多様体上の二つの微小ベクトル(正しくは接ベクトル) v, wの 内積 が <v, w>x = v Gx w で定義される。 ⇒ ざっくり言えば、データセットと計量(内積)のペア ◼ 実世界の画像セットとSSIMのペアもリーマン多様体とみなせる。 Copy right 2021 FUJITSU LIMITED x1 v1 Gx1 w1 x2 x3 v3 Gx3 w3 v2 Gx2 w2 42
  • 44. リーマン多様体の計量テンソルとしてのSSIM計量 ◼ SSIMとは主観評価に近い画像評価指標。左上座標(h, v)で指定されるN×N領域 において、原画 x と復号画像 y の間のSSIM計量は下記で与えられる。 ここでμx と μy は x, y の領域内の平均、 σx 2 とσy 2 は x, y の領域内の分散をしめす。 ◼ Y = x + δx とすると、SSIMは下記で近似できる。 ここで 、 、 とすると 学習コスト 1-SSIM は、原画 x 毎に定義される上記計量テンソル G(h, v)x を用いて と表現できる。 Copy right 2021 FUJITSU LIMITED ⇒ 画像データセットとSSIM計量を合わせてリーマン多様体とみなせる。 43
  • 45. Binary Cross Entropy や MSE の計量テンソル Copy right 2021 FUJITSU LIMITED ◼ VAEの原論文でMNIST学習に用いられているBinary Cross Entropyの定義は 次のとおり。 とすると、 が成立する。ここで計量テンソル は、次の通りとなる。 ◼ Gaussian とすると、 となり、計量テンソル は単位行列 I にを を乗じた となる。 定数 詳細な式展開にご興味のある方は論文をご覧ください 44
  • 46. 埋め込みと等長性の概要説明 (注:数学的に厳密な説明ではない) Copy right 2021 FUJITSU LIMITED xB1 vB1 GxB1 wB1 xB2 xB3 vB3 GxB3 wB3 vB2 GxB2 wB2 xA2 xA3 vA1 GxA1 wA1 vA3 GxA3 wA3 vA2 GxA2 wA2 xA1 リーマン多様体A リーマン多様体B 埋め込み: AからBへの滑らかな単射 xA1 → xB1, xA2 → xB2, xA3 → xB3, ・・ 等長性:接ベクトルの内積を保存 vA1 GxA1 wA1 = vB1 GxB1 wB1, vA2 GxA2 wA2 = vB2 GxB2 wB2, vA3 GxA3 wA3 = vB3 GxB3 wB3 , ・・・・ ◼ 埋め込みとは、リーマン多様体Aから多様体Bへの滑らかな単射(マッピング) ◼ 等長性とは、埋め込み後に、両多様体の対応点において、点周辺の多様体上の二つ の微小変異(正確には接ベクトル)の内積を保存するもの。 ⇒ 等長性を示す埋め込みを 『等長埋め込み』 という 45
  • 47. Copy right 2021 FUJITSU LIMITED 等長性で距離や確率密度は等しくなる (注:厳密な説明ではない) ◼ 等長な多様体A,B 同士では2つのデータ間の距離は等しい ◼ 両多様体で微小変位同士の内積を保存するため、対応する線素のL2ノルムも等しい。 𝑑𝑠𝐴 2 = 𝑑𝑥𝐴 𝑇 𝐺𝐴𝑑𝑥𝐴 = 𝑑𝑥𝐵 𝑇 𝐺𝐵𝑑𝑥𝐵 = 𝑑𝑠𝐵 2 ◼ 線素の積分で距離が定義されるため、両多様体で二つの対応点間の距離は等しい (厳密に議論するには測地線という概念の導入が必要です) ◼ 等長な多様体A,B 同士では対応点の確率密度は等しい ◼ 両多様体の体積要素は等長性により等しい。 𝑑𝑣𝐴 = 𝑑𝑣𝐵 ◼ 確率密度と体積要素の積(体積要素中のサンプル数に相当) は写像前後でも不変 𝑝𝐴(𝑥𝐴)𝑑𝑣𝐴 = 𝑝𝐵(𝑥𝐵)𝑑𝑣𝐵 ◼ よって、両多様体上で対応点同士の確率密度は等しい 𝑝𝐴(𝑥𝐴) = 𝑝𝐵(𝑥𝐵) 46
  • 48. Copy right 2021 FUJITSU LIMITED 等長埋め込みの例 ◼ DCTやKLTなどの正規直交変換 ◼ 正規直交変換は、変換前後のユークリッド空間同士で狭義の内積(ドット積)を保存する。 ⇒ 正規直交変換はユークリッド距離を計量とした等長埋め込みの一種。 ◼ 極座標とユークリッド空間 ◼ 極座標(𝑟,𝜃)とユークリッド空間の積分要素の変換からユークリッド距離を表す計量テンソル 𝐺polarは下記のように求められる。 𝑑𝑥, 𝑑𝑦 𝑇 = 𝑅 𝑑𝑟,𝑑𝜃 𝑇 、ここで 𝑅 = cos(𝜃) 𝑟 sin(𝜃) −sin(𝜃) 𝑟 cos(𝜃) ⇒ 𝐺𝑝𝑜𝑙𝑎𝑟 = 𝑅𝑇 𝑅 = 1 0 0 𝑟2 ⇒ ユークリッド空間(計量テンソルが単位行列 𝐼 ) からなるリーマン多様体は、極座標データ (𝑟,𝜃) と 𝐺𝑝𝑜𝑙𝑎𝑟 計量テンソルからなるリーマン多様体に等長埋め込みが可能に。 当然ながら、逆方向の等長埋め込みも可。 47
  • 49. ◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。 ◼ 学習時の量子化誤差の分散を𝜎𝑛 2 とする。深層画像圧縮の 𝐿 = 𝐷 + 𝛽𝑅 を最小化 すると、潜在空間を 𝛽/2𝜎𝑛 2倍スケールしたものは下記特徴を持つことを証明。 ① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」 埋め込みしたもの。 ⇒ 理論的に 「ほぼ等長に」 を 「等長に」 に近づける方法は後述。 ② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。 ③ 潜在変数のパラメトリックな確率密度は実データの確率密度と等しくなる。 Copy right 2021 FUJITSU LIMITED 深層画像圧縮が獲得しているもの データ空間 潜在空間 SSIM 計量等に基づく グリッドはデータ座標系 では曲がっている • SSIM等の計量をユークリッド 空間に等長に埋めこみ • 量子化誤差は𝛽/2に • パラメトリックに求めた確率 密度はデータ空間と同じ 𝛽/2𝜎𝑛 2倍に スケール ユークリッドの等長な潜在空間 エンコーダ 量子化器1では 𝜎𝑛 2 = 1/12 48
  • 50. Copy right 2021 FUJITSU LIMITED 深層画像圧縮が獲得しているもの ユークリッド空間のガウス分布で定式化されていたレート歪理論を、 任意のデータ分布や計量に対して拡張したもの。 ◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。 ◼ 学習時の量子化誤差の分散を𝜎𝑛 2 とする。深層画像圧縮の 𝐿 = 𝐷 + 𝛽𝑅 を最小化 すると、潜在空間を 𝛽/2𝜎𝑛 2倍スケールしたものは下記特徴を持つことを証明。 ① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」 埋め込みしたもの。 ⇒ 理論的に 「ほぼ等長に」 を 「等長に」 に近づける方法は後述。 ② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。 ③ 潜在変数のパラメトリックな確率密度は実データの確率密度と等しくなる。 49
  • 51. 等長性の証明の流れ Copy right 2021 FUJITSU LIMITED エンコーダ fφ(x) デコーダ gθ(z) 画像𝑥 潜在変数 𝒛 ො 𝑥 D(𝑥, ො 𝑥) 𝝐~𝑢(ε) + ②量子化を模した 一様ノイズを印加 ⑤ パラメトリックな確率分布pψ(z) からෝ z の符号長 R を求める z σ pψ (z) ①エンコード ො z = 𝑧 + 𝜖, 𝐸 𝜖2 = 𝜎𝑛 2(定数) ③デコード ④所定のメトリクス (MSE/SSIM等) で誤差Dを計算 𝐷 ≃ σ𝑗𝜎𝑛 2 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 2 を小さく ⇒ z 空間を拡大 展開・近似 ⑥L=D+βR を最小化 する学習パラメータ φ, θ, ψ を導出 確率モデル𝑷𝝍(𝒛)の最適条件 エンコーダ𝒇𝝓(𝒙)・デコーダ 𝒈𝜽(𝒛)の最適条件 𝑅 ≃ − log 𝜕𝒙 𝜕𝒛 を小さく ⇒ z 空間を縮小 展開・近似 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 を小さく ⇒ 𝑝𝜓 𝑧 = 𝑝 𝑧 が最適 展開・近似 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑛 2𝛿𝑗𝑘 で z 空間のスケールがバランス 𝒚 は 𝒙 の𝑮𝒙による計量ベクトル空間に対して等長 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌、かつPosteriorの分散は定数 𝜷 𝟐 dyj/𝑑𝑧𝑗 = 𝛽/2𝜎𝑛 2 を満たす 𝒚 を導入 𝑥 = 𝑔𝜃(𝑓𝜙(𝑥)) と仮定 50
  • 52. ご参考: 証明のアウトライン:まず1次元の場合 ◼ まず、データ、潜在変数が共に1次元として、P39の条件での考察 ◼ P39 の条件に加え、デコーダはエンコーダの逆関数 𝑥 = 𝑔𝜃(𝑓𝜙(𝑥))と仮定。また、潜在空間の線形量子化 器を𝑇とすると量子化誤差の分散は𝜎𝑛 2 = 𝑇2/12となる。計量を𝐺𝑥として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。 ◼ 𝑥の確率分布を𝑝(𝑥)とすると 𝑧 = 𝑓𝜙(𝑥) で 𝑧の確率密度は𝑝 𝑧 = 𝑝 𝑥 𝑑𝑥 𝑑𝑧 。これを用い、符号量𝑅は 𝑅 = 𝐸𝑝 𝑥 − log න 𝑧−𝑇/2 𝑧+𝑇/2 𝑝𝜓 𝑧 𝑑𝑧 ≃ 𝐸𝑝 𝑥 −log 𝑝𝜓 𝑧 𝑇 = 𝐸𝑝 𝑥 − log 𝑝 𝑥 𝑑𝑥 𝑑𝑧 + 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − log 𝑇 ◼ 計量を𝐺𝑥とする。𝑔𝜃 𝑧 + 𝜖 ≃ 𝑥 + 𝜖 𝑑𝑥 𝑑𝑧 を用いると誤差は下記で求められる。 𝐷 𝑥, Ƹ 𝑥 = 𝐸𝑝 𝜖 𝑥 − Ƹ 𝑥 𝐺𝑥 𝑥 − Ƹ 𝑥 ≃ 𝜎𝑛 2 𝐺𝑥 𝑑𝑥 𝑑𝑧 2 ◼ 目的関数は下記のようになる。𝐷𝐾𝐿(⋅)は理想的なパラメトリック確率モデル 𝑝𝜓 𝑧 = 𝑝 𝑧 の基で0となる。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛 2𝐺𝑥 𝑑𝑥 𝑑𝑧 2 − 𝛽log 𝑑𝑥 𝑑𝑧 + 𝛽𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log𝑝 𝑥 − 𝛽 log 𝑇 ◼ エンコーダ・デコーダ最小化条件は[・]の中を 𝑑𝑥 𝑑𝑧 で微分すると 𝐺𝑥 𝑑𝑥 𝑑𝑧 2 = 𝛽/2𝜎𝑛 2 。ここでdy/𝑑𝑧 = 𝛽/2𝜎𝑛 2 なる 𝑦を導入すると 𝐺𝑥 𝑑𝑥2 = 𝑑𝑦2 となり、𝐺𝑥の計量ベクトル空間と、𝑦のEuclid空間は等長となる。 また、 𝑦 空間の誤差は𝜎𝑛 2 をスケーリングして 𝜎𝑛 2 𝑑𝑦/𝑑𝑧 2 = 𝛽/2 と定数になる。 Copy right 2021 FUJITSU LIMITED 𝜓次第で0にできる データやTに依存する定数 51
  • 53. ご参考:証明のアウトライン:N次元の場合 ◼ N次元データの場合P39の条件での考察 ◼ データ 𝒙 = (𝑥0,⋯ ,𝑥𝑖,⋯ ,𝑥𝑁−1), 潜在変数 𝒛 = (𝑧0,⋯ ,𝑧𝑗,⋯ ,𝑧𝑁−1) とする。前頁と同じ条件で、計量 を𝐺𝑥として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。 ◼ 1次元と同様の式展開で、N次元データの目的関数は下記のようになる。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛 2 ෍ 𝑗 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 − 𝛽  log det 𝜕𝒙 𝜕𝒛 + 𝛽 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 − 𝑁 𝛽 log 𝑇 𝐷𝐾𝐿 ⋅ は理想的なパラメトリック確率モデルで 𝑝𝜓 𝑧 = 𝑝 𝑧 となると最小化され0となる。 ◼ エンコーダ・デコーダ最小化条件は[・]の中を 𝜕𝒙 𝜕𝑧𝑗 で微分し、右から 𝜕𝒙 𝜕𝑧𝑘 をかけると 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑛 2 𝛿 𝑗𝑘と なる。ここでd𝑦𝑗/𝑑𝑧𝑗 = 𝛽/2𝜎𝑛 2 なる𝑦𝑗を導入すると 𝜕𝒙 𝜕𝑦𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑦𝑘 = 𝛿𝑗𝑘 となり、 𝜕𝒙 𝜕𝑦𝑗 は𝐺𝑥の計量ベクトル空 間で正規直交となる。 ◼ 𝑑𝒙(1) = σ𝑗 𝜕𝒙 𝜕𝑦𝑗 𝑑𝑦𝑗 (1) , 𝑑𝒙(2) = σ𝑗 𝜕𝒙 𝜕𝑦𝑗 𝑑𝑦𝑗 (2) とすると、 𝑑𝒙 1 𝑇 𝐺𝑥 𝑑𝒙 2 = σ𝑗 𝑑𝑦𝑗 1 𝑑𝑦𝑗 2 = 𝑑𝒚 1 𝑇 ⋅ 𝑑𝒚 2 となり 𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となる。 ◼ また、 𝑦 空間の各次元の誤差は𝜎𝑛 2 をスケーリングして 𝜎𝑛 2 𝑑𝑦𝑗/𝑑𝑧𝑗 2 = 𝛽/2 と定数になる。 Copy right 2021 FUJITSU LIMITED 𝜓次第で0にできる データやTに依存する定数 52
  • 54. 𝐿 = 𝐷 + 𝛽𝑅 Copy right 2021 FUJITSU LIMITED 深層画像圧縮が 『完全な等長でない』 理論上の理由 ◼ 今回の証明では、 𝑥 = 𝑔𝜃(𝑓𝜙(𝑥))、すなわち、デコーダは エンコーダの逆関数と仮定。 ◼ しかし、実際にはノイズ 𝜷/𝟐 に対するウィーナフィルタと ほぼ同じ挙動を示し、逆関数とならない。 ⇒ 完全な等長性は失われる。 ◼ 例: 1次元データ 𝑥 ∼ 𝑁 0, 𝜎𝑥 2 を 深層画像圧縮で 𝐿 = 𝐷 + 𝛽𝑅 のコストで学習した場合。 ◼ 𝑔𝜃(𝑓𝜙(𝑥)) は ノイズ 𝜖 ∼ 𝑁 0,𝛽/2 を加えたあとに ウィーナフィルタをかけた結果とほぼ等価となる。 ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 ≃ 𝜎𝑥 2 𝜎𝑥 2+𝛽/2 𝑥 ≠ 𝑥 ◼ 両者のMSE平均は 𝐸 𝑥 − ෬ 𝑥 2 ≃ 𝛽/2 2/𝜎𝑥 2 > 0 となり、 完全な逆関数にはならない。 + 𝝐 ∼   𝑵 𝟎, 𝜷/𝟐 ウィーナフィルタ ෬ 𝑥 = 𝜎𝑥 2 𝜎𝑥 2+𝛽/2 𝑥 𝑓𝜙 𝑥 𝑔𝜃 𝑧 ෬ 𝑥 𝑥 ∼ 𝑁 0,𝜎𝑥 2 ෬ 𝑥 ∼ 𝑁 0, 𝜎𝑥 4 𝜎𝑥 2 + 𝛽/2 𝑥 等 価 𝑧 53
  • 55. Copy right 2021 FUJITSU LIMITED 等長性を高める方法 ◼ 再構成誤差の分析 ◼ ො 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 として次式成立。 𝐷 𝑥, ෬ 𝑥 ≃ 𝐷 ො 𝑥, ෬ 𝑥 + 𝐷 𝑥, ෬ 𝑥 ◼ よって 𝐷 𝑥, ෬ 𝑥 と𝐷 ො 𝑥, ෬ 𝑥 のトレードオフの結果、 ウィーナフィルタ的な挙動をしめす。 ◼ 等長性を高める方法: ෬ 𝑥 ≃ 𝑥 の促進 ◼ 𝐷 𝑥,𝑥 + 𝛿𝑥 = 𝛿𝑥𝑇𝐺𝑥𝛿𝑥 は𝛿𝑥=0で微分値が0。 ◼ 𝐷(⋅,⋅)より0付近で急峻なロス𝐷2(⋅,⋅)を準備 (MSEの対数やL1/L2 ロスなど) ◼ 𝐷 𝑥, ෬ 𝑥 を𝐷2 𝑥, ෬ 𝑥 に置き換えて学習 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 ⇒ 𝒙 ≃ ෭ 𝒙 が促進され等長性が高まる 𝒙 𝒛 ෭ 𝒙 𝐷2(𝒙, ෭ 𝒙) ෝ 𝒙 D(෕ 𝒙, ෭ 𝒙) 𝝐~𝑁(0,𝜎) + 𝑔𝜃(𝒛 + 𝝐) この等長性を高めたモデルをRaDOGAGAと命名 (Rate-Distortion Optimization Guided Autoencoder for Generative Analysis) 𝐷 𝑥, ෬ 𝑥 𝐷2 𝑥, ෬ 𝑥 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 𝐷 𝑥, ෬ 𝑥 ≃ 𝐷 ො 𝑥, ෬ 𝑥 + 𝐷 𝑥, ෬ 𝑥 D2(・) はD(・)よりも ෬ 𝑥 ≃ 𝑥 付近で微分が 急峻な『MSEの対数』や L1などを使う 置き換え 新しい再構成誤差で学習 ෬ 𝑥 = 𝑥 ෬ 𝑥 = 𝑥 54
  • 56. VAEの解明 ◼ 多くの研究者がVAEの解明にチャレンジ ◼ Rolinek et.al. “Variational Autoencoders Pursue PCADirections (by Accident)” VAEのヤコビアンの各ベクトルは直交していることを証明。 ◼ Locatello et.al, “Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations” VAEがDisentangle表現を獲得するには帰納バイアスが必要なことを証明 しかし、VAEの定量的な性質は未解明のまま ◼ 我々はVAEの理論的な解明に成功 ⇒ 実は深層画像圧縮と、限りなく近かった! Copy right 2021 FUJITSU LIMITED 55
  • 57. Copy right 2021 FUJITSU LIMITED VAEと RaDOGAGA / 深層画像圧縮は ベースは同じ! Method 事前分布 事後分布(ノイズ) 最適化コスト 等長空間へのマッピング VAE 固定の事前分布。 原論文は正規分 布 N(0,1) エンコーダで正規分布の事後 分布の平均𝝁𝒋と分散𝝈𝒋 𝟐 を各 データ、次元 j 毎に学習 𝐿 = 𝐷 + 𝛽𝑅を最適化 潜在空間をデータ・次元毎 に異なる 𝜷/𝟐𝝈𝒋 𝟐 倍の スケーリングで等長に 深層画像 圧縮 パラメトリックな 事前分布を学習 エンコードの結果に全データ・ 次元共通の固定分散𝝈𝒏 𝟐 の 事後分布の誤差を加えたもの。 潜在空間を全データ・次元 で共通の定数 𝜷/𝟐𝝈𝒏 𝟐倍 のスケーリングで等長に 最適化時の固定パラメータと学習するパラメータが相補的なだけ! VAEの潜在変数の事前・事後分布と等長空間との関係 VAE 潜在変数の確率分布 は固定の事前分布 (正規分布が一般的) 誤差分布(事後分布):学習で獲得 x z ヤコビ行列は 直交・非正規 誤差分布(事後分布): β/2の固定分散 y 深層画像圧縮の等長空間 x ヤコビ行列は 正規直交 潜在変数の確率分布は データ分布に等しい 𝜕𝑦𝑗 𝜕𝑧𝑗 = Τ 𝛽 2 𝜎𝑗 𝑥 でスケーリング すると深層画像圧縮相当に 56
  • 58. VAE の潜在空間も等長空間へマッピング可能! Copy right 2021 FUJITSU LIMITED 𝒚 ∈ 𝑌 𝒙 ∈ 𝑋 ෝ 𝒚 ∈ ෠ 𝑌 ෝ 𝒙 ∈ ෠ 𝑋 𝝁 𝒙 𝒛 𝑁 0,𝝈 𝒙 𝟐 + + 𝑁 0, Τ (𝛽 2) 𝑰 𝜕𝑦𝑗 𝜕𝜇𝑗(𝑥) = Τ 𝛽 2 𝜎𝑗 𝑥 暗黙的な 等長埋め込み VAE となる変数 y を導入 等長性 入力データxの 確率分布 P(x) 潜在変数の事前確率分布 P(z)。 両空間での2点間の 距離は等しい D(x(1) , x(2) ) = | y(1) –y(2) |2 深層画像圧縮/RaDOGAGA と同様に、潜在空間を 𝜷/𝟐𝝈𝒋 𝟐 倍 スケーリングすると、計量ベクトル 空間に等長な空間が得られる。 同様に、等長空間での事後分 布の分散も固定値(β/2) となる。 ↓ よって、RaDOGAGAや深層画像 圧縮同様に、得られた等長空間に おいて、データの定量的な分析が 可能に。 yの確率分布 P(y)は P(x)に等しい 𝝏𝒙 𝝏𝒚𝒋 𝑻 𝑮𝒙 𝝏𝒙 𝝏𝒚𝒌 = 𝜹𝒋𝒌 57
  • 59. Copy right 2021 FUJITSU LIMITED 証明概要:VAEも深層画像圧縮と同じコストに帰着 ◼VAEは変分下限 𝐸𝑝 𝑥 𝐸𝑞𝜙 𝑧 𝑥 log𝑝𝜃 𝑥 𝑧 − 𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 の最大化を行う。 ◼これまでと類似の議論から第一項の再構成誤差 は計量テンソル𝐺𝑥を用いて下記のように近似可能。 log 𝑝𝜃 𝑥 𝑧 = log𝑝𝐷 𝑥 ො 𝑥 = −𝐷 𝑥, ො 𝑥 ≃ 𝐸𝑝 𝜖 𝑥 − ො 𝑥 𝐺𝑥 𝑥 − ො 𝑥 = ෍ 𝑗 𝜎𝑗 2 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 ◼事後分布のσが小さい時 𝑁 𝑧; 𝜇,𝜎2 はδ関数 𝛿 𝑧 − 𝜇 に近似でき、これにより第二項は次式で展開可能 𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 = − ‫׬‬𝑁 𝑧; 𝜇, 𝜎2 log 𝑝 𝑧 𝑑𝑧 + ‫׬‬ 𝑁 𝑧;𝜇,𝜎2 log 𝑁 𝑧;𝜇,𝜎2 𝑑𝑧 ≃ −𝑝 𝝁 − σ𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2 ,よって 𝐸𝑝 𝑥 𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 ≃ 𝐸𝑝 𝑥 −𝑞 𝑧 + −𝑝 𝑧 + 𝑞 𝑧 − ෍ 𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2 = 𝐸𝑝 𝑥 −𝑝 𝑥 det 𝜕𝑥 𝜕𝑧 + 𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍ 𝑗 1 2 log 2𝜋𝑒𝜎𝑗 2 ◼上記よりVAEコスト(変分下限×-1)は深層画像圧縮とほぼ同じ式となる。違いは𝜎𝑗が可変か固定かのみ。 𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 ෍ 𝑗 𝜎𝑗 2 𝜕𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑗 − 𝛽 log det 𝜕𝒙 𝜕𝒛 + 𝛽𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍ 𝑗 𝛽 2 log 2𝜋𝑒𝜎𝑗 2 − 𝛽𝐸𝑝 𝑥 log𝑝 𝑥 ◼最小化条件は深層画像圧縮同様に 𝝏𝒙 𝜕𝑧𝑗 𝑇 𝐺𝑥 𝜕𝒙 𝜕𝑧𝑘 = 𝛽/2𝜎𝑗 2 𝛿𝑗𝑘。ここでd𝑦𝑗/𝑑𝑧𝑗 = 𝛽/2𝜎𝑗 2 なる𝑦𝑗を導入すると 深層画像圧縮同様に𝐺𝑥の計量ベクトル空間と、𝑦のEuclid空間は等長となり、誤差はβ/2となる。 58
  • 60. ◼低次元化して解析するために有用な生成モデルの要件 ◼確率分布 ➢ データの確率分布を明示的に獲得可能なこと。 ◼潜在空間・潜在変数の獲得 ➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること(埋めこみ) ➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。 ◼サンプリング(デコード) ➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること Copyright 2021 FUJITSU LIMITED 各生成モデルの特徴のまとめ データ確率分布の 明示的な獲得 潜在空間・潜在変数の獲得 サンプリング エンコード 潜在空間の定量性 サンプリング VAE ×→○ ○ ×→○ 〇 GAN × × × ○ EBM 〇 × × 〇 RaDOGAGA ○ ○ ○ ○ 再掲+追記 RaDOGAGAと VAEは満点に! 59
  • 62. 理論の評価と応用 ◼ 等長性の評価 ◼ 単一モデル+可変量子化による深層画像圧縮のレート制御 ◼ データの分布獲得と確率密度推定 ◼ 教師無し異常検知 ◼ 重要な説明変数の推定 Copy right 2021 FUJITSU LIMITED 61
  • 63. Copy right 2021 FUJITSU LIMITED 実データでの等長性の評価 ◼ ”RaDOGAGA” で両空間の内積を評価 ◼ VAE で 偏微分ノルム 𝜕𝒙/𝜕𝑦𝑗 2 を評価 • 潜在空間で二つの微小変位𝑑𝒚 1 , 𝑑𝒚 2 を ランダム生成 • デコードしてデータ空間の𝑑𝒙 1 , 𝑑𝒙 2 を計算 • 等長空間とデータ空間の内積 𝑑𝒚 1 ⋅ 𝑑𝒚 2 及び 𝑑𝒙 1 𝑇 𝐺𝑥 𝑑𝒙 2 をプロットして等長性を評価 ⇒ 異なるデータ・計量で高い相関性、等長性を示す • 潜在空間で第 j 次元のみ微小量 𝜖 、他の次元は 0 の微小変位 𝑑𝒛 j = (0, ⋯,𝜖, ⋯) を生成。 • 𝜕𝒙/𝜕𝑦𝑗 2 ≃ 2𝜎𝑗 2 𝛽 𝐷 𝑔𝜃 𝒛 + 𝑑𝒛 j ,𝑔𝜃 𝒛 /𝜖2 の 左辺を各次元で評価。等長性より理論値は1。 ⇒ 異なるデータ・計量で、データ空間と等長空間との 偏微分ノルムが全次元で1に近く、等長性を示す データ:CelebA 計量 :SSIM データ:MNIST 計量 : Binary Cross Entropy ノルムが全次元でほぼ1を示す 潜在変数の次元 潜在変数の次元 データ:CelebA 計量 :SSIM データ:MNIST 計量 : Binary Cross Entropy 等長空間の内積 データ空間の内積 データ空間の内積 両空間の内積に高い相関性 62
  • 64. Copy right 2021 FUJITSU LIMITED 可変量子化による深層画像圧縮のレート制御 ◼ 従来の深層画像圧縮の課題 ◼ ターゲットのレート毎にβを変えてL=D+βRで学習。 ⇒ レート毎に異なる複数のモデルが必要に。 ◼ βに依存するモデルのウィナーフィルタ的挙動が原因と推定 ◼ 提案手法:等長空間における可変量子化 ◼ ො 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬ 𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 , 𝐷2 𝑥, ෬ 𝑥 = log||𝑥 − ෬ 𝑥||2 2 として 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 で学習 ⇒ 計量空間に対して等長性の高い潜在空間を獲得 ◼ 上記モデルの潜在空間で、任意の量子化器 𝑇 を用いて オフセット付量子化 𝑞 = sign 𝑧 floor 𝑍 /𝑇+ offset , Ƹ 𝑧 = 𝑞𝑇 ⇒ ウィナーフィルタ的な効果を補う (H.264 JMと同様) ◼ 結果:単一モデル+オフセット付の可変量子化で、 従来のレート毎の複数モデルと同等性能を達成 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 計量空間と等長性の高い潜在空間獲得 0 T 2T 4T 3T -T -2T -4T -3T 0 1 2 4 3 -1 -2 -4 -3 単一モデル+任意量子化器でオフセット付 の線形量子化 (H.264のJM相当) SSIM及びPSNRにおいて 従来のレート毎モデルと 同等の性能を達成 Offset=0.45で 従来技術とほぼ同等 Jing Zhou, Akira Nakagawa, Keizo Kato, Sihan Wen, KimihikoKazui, Zhiming Tan, “Variable Rate Image Compression Method with Dead-zoneQuantizer,” https://openaccess.thecvf.com/content_CVPRW_2020/papers/w7/Zhou_Variable_Rate_Image_Compression_Method_With_Dead -Zone_Quantizer_CVPRW_2020_paper.pdf 63
  • 65. 確率密度の推定 (VAE / RaDOGAGA共通) ◼ 計量テンソル𝐺𝑥の計量ベクトル空間での入力データの 確率密度を𝑝𝐺𝑥 (𝑥)、等長空間の確率密度を𝑝(𝑦)、 潜在空間の確率密度を𝑝(𝑧)とすると、これまでの議論 より、次の関係がある。 ◼ 入力空間座標の確率密度を𝑝(𝑥)とすると、計量ベクトル 空間の確率密度𝑃𝐺𝑥 (𝑥)とは次の関係がある。 ◼ よって、潜在空間の確率分布から、入力空間座標の 確率分布𝑝 𝑥 は次の式で導出可能となる。 Copy right 2021 FUJITSU LIMITED 入力空間 𝑝 𝑥 計量ベクトル空間 𝑝𝐺𝑥 𝑥 潜在空間 𝑝 𝑧 𝒑𝑮𝒙 𝒙 = 𝒑 𝒚 =      𝒑 𝒛 ෑ 𝒋 (𝝈𝒋/ 𝜷/𝟐) 𝒑 𝒙 =       𝒑𝑮𝒙 𝒙 𝐝𝐞𝐭 𝑮𝒙 𝑝𝐺𝑥 𝑥 = 𝑝 𝑦 = 𝑝 𝑧 det 𝜕𝑧 𝜕𝑦 = 𝑝 𝑧 ෑ 𝑗 (𝜎𝑗/ 𝛽/2) 𝑝 𝑥 = 𝑝𝐺𝑥 𝑥 det𝐺𝑥 𝑝 𝑥 = 𝑝 𝑧 det 𝐺𝑥 ς𝑗(𝜎𝑗/ 𝛽/2) 64
  • 66. Copy right 2020 FUJITSU LABORATORIES LTD. RaDOGAGAによる確率分布の推定 Input source 従来技術 (DAGMM) P(x) (High) (Low) 実験条件 •従来技術 DAGMMと 提案技術RaDOGAGAで 上記3次元データを学習。 •データの確率密度(横軸)と その推定値(縦軸)をプロット ◼ RaDOGAGAでデータの確率密度推定を評価、理論の正しさを検証 RaDOGAGA (Ours) 確率推定ができていない D2は二乗誤差 高い予測精度だが若干のズレ ⇒ 等長性が若干失われている 高い予測精度 ⇒ 等長性の向上 D2は二乗誤差の対数(より急峻) 評価結果 𝐿 = 𝐷 + 𝛽𝐷 ො 𝑥, ෬ 𝑥 + 𝛾𝐷2 𝑥, ෬ 𝑥 を最小化 DAGMM: Zong et.al, “Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection,” https://sites.cs.ucsb.edu/~bzong/doc/iclr18-dagmm.pdf 65
  • 67. Copy right 2021 FUJITSU LIMITED VAEによる確率密度の推定 実験条件 • 上記分布をもつ3次元データ s1, s2, s3 から多次元データ xを作成。 • xの生成確率p(x) は以下で与えられる p(x) = p(s1) p(s2) p(s3) • 非線形の計量 Gx を用いてVAEで学習 • 各データの実際の確率と推定確率をプロット 結果 ◼ VAEでデータの確率密度推定の評価を行い、理論の正しさを検証 等長空間での推定確率 データ確率と推定確率の 相関はとても高い (相関係数 R=0.910) 𝑝 𝑧 det 𝐺𝑥 ς𝑗(𝜎𝑗/ 𝛽/2) 事前分布 データ確率と事前分布 (Prior)の確率の相関は低い (相関係数 R=0.434) 𝑝 𝑧 p(x) p(x) 66
  • 68. 教師無し異常検知 ◼ RaDOGAGA/VAEの確率密度推定を教師無しの異常検知タスクに適用 ⇒ F1で従来のSOTAを超える性能を達成。 Copy right 2021 FUJITSU LIMITED 異常検知のベンチマーク用データセット • KDDCup/KDDCup-rev 通信アクセスデータ(データマイニング分野 の国際学会Knowledge Discovery and Data Mining (KDD) が配布) • Thyroid/Arrythmia 甲状腺数値データ、不整脈データ(カリ フォルニア大学アーヴァイン校が配布) 67
  • 69. 潜在変数の重要度推定(VAE) 推定分散値で全次元をソートすると、画像変化の大きさ順になる。 ⇒ 推定分散値は各次元の重要度(PCAの分散相当)を表す。 等長な潜在変数の各次元の重要度の評価 Copy right 2021 FUJITSU LIMITED ◼ 等張な潜在変数の各次元の分散は、 PCA同様に次元の重要度を示す。 ◼ VAEでは、各次元の事後分布の分 散𝜎𝑗 2 を用いて、その次元の等長潜在 変数 𝑦𝑗 の分散は、次式で推定可能。 𝑉𝑎𝑟 𝑦𝑗 ≃ 𝛽 2 𝐸𝑝(𝒙)[𝜎𝑗 𝒙 −2 ] ◼ CelebA学習後、推定分散値で各 次元をソート。各次元の潜在変数を 一定割合ずつ変化させ、デコードした 画像の変化度合は推定分散値と 高い相関を示す。 潜在変数の分散 (各次元の重要度) 68
  • 70. Copy right 2021 FUJITSU LIMITED VAE / RaDOGAGAの選択基準の考察 入力データx の分布p (x) VAE RaDOGAGA Priorに マッピング 等長空間に マッピング 𝝏𝒚𝒋 𝝏𝒛𝒋 = Τ 𝜷 𝟐 𝝈𝒋 𝒙 が橋渡し Pros:Priorとσから簡単に入力データの確 率密度を推定できるので、モデル設計が簡単 Cons:潜在空間全体の分布を評価・分析 するためには、微分dyj/dzj を繋ぎ合わせて等 長空間を求める必要があり、データの分布に よっては分析が困難(特に多峰分布)。 Pros:潜在空間が等長なので、潜在空間の 分布から入力データ特徴を直接的に分析可能 Cons:潜在空間のパラメトリックな確率分布 の選択など、モデル設計が若干難しい 入力と同確率 目的に応じて使い分けが可能。 両者のハイブリッドも有効。 z ~ N(0, I) p (x) ≒ pθ (y) 69
  • 72. 符号化の階層モデルとAI ◼ 1980年代に、原島先生により、『知的画像符号化』や『知的通信』が提唱された。 ◼ 提唱された符号化の階層モデルとAI技術の関係 1. 波形符号化:信号波形情報を伝送 ⇒ 深層画像圧縮 2. 分析合成符号化:画像のパラメータを伝送 ⇒ GAN、VAEなどの生成モデル 3. 認識符号化:画像の要素を認識・伝送 ⇒ Faster RCNN/DETR等の物体検出や、 SimCLR/BYOL等の教師無し表現学習 4. 知的符号化:画像の概念を伝送 ⇒ CLIP/VilBERTなどのマルチモーダル学習 Copy right 2021 FUJITSU LIMITED 引用元:原島博、『知的画像符号化と知的通信』、 テレビジョン学会誌 1988 年 42 巻 6 号 p. 519-525 https://www.jstage.jst.go.jp/article/itej1978/42/6/42_6_519/_pdf/-char/ja 最先端の深層学習技術と深い関係性 71
  • 73. 画像の教師なし表現学習とその課題 Copy right 2021 FUJITSU LIMITED Chen et.al., “Exploring Simple Siamese Representation Learning,” https://arxiv.org/pdf/2011.10566.pdf より引用 Jing et.al., “Understanding Dimensional Collapse in Contrastive Self- supervised Learning,” https://arxiv.org/pdf/2110.09348.pdf より引用 SimCLR、BYOL、SimSiamなど、大量の 画像から、データ自身が持っている表現を 教師無しで学習する手法の提案 • 獲得した潜在空間の定量的な解釈が困難。 • Dimensional Collapseという、潜在空間 自体が縮んでしまう現象が問題に。 課題: レート歪最適化を取り入れれば これらの課題が解決できるのでは? 72
  • 74. ◼ 最新の生成的AIモデルにレート歪最適化のエッセンスを取り入れることにより、 データからパラメータ・構造・記号・意味などが自動的に表出できるかも。 ⇒ 生成的AIの究極形としての知的通信の実現 ◼ 実際には、各データに適した学習モデルや計量の選択、そして、効率的かつ 安定な大規模学習技術など課題は山積。解決に向け、ぜひ挑戦したい。 情報通信理論を生かしたAI研究の方向性の私案 Copy right 2021 FUJITSU LIMITED Image Language Graph Encoder Decoder Image Language Graph 最新の生成的AIに情報通信理論をプラス 現実世界データ 再構成された現実世界データ レート歪の最適化により 定量的な潜在変数が自動表出 意味・概念 構造・記号 パラメータ 73
  • 75. Thank you Copy right 2021 FUJITSU LIMITED