PCSJ/IMPS2021 講演資料：深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)

深層画像圧縮から
AIの生成モデルへ
2021年11月16日
富士通株式会社人工知能研究所
中川章
Copy right 2021 FUJITSU LIMITED
PCSJ / IMPS 2021

自己紹介
◼中川章, 博士(工学)
富士通株式会社人工知能研究所准フェロー
◼専門分野：情報理論に基づいた映像符号化、AI理論
◼研究開発の経歴
◼ 1991年東京大学電子工学科修士課程卒業、同年富士通研究所に入社。
◼ 映像符号化分野の研究、国際標準、及び映像符号化 LSI・放送機器等の開発に従事。
◼ 2019年より人工知能研究に従事、情報通信理論をベースにしたAIの研究を開始。
◼ 受賞等
◼ 電子情報通信学会フェロー
◼ 紫綬褒章／文部科学大臣表彰／市村産業賞／日本ITU協会賞／
◼ 米国エミー賞(技術部門、開発技術の受賞) ／米SMPTE 論文賞等
Copyright 2021 FUJITSU LIMITED
今日の発表
1

背景
◼ 現在の画像符号化技術は情報通信理論の集大成、今では生活に不可欠に！
◼ 近年、Deep Learningを用いた深層画像圧縮が提案され、MS-SSIM等の任意の
評価尺度で高性能を達成。
Minnen et.al.,“Joint Autoregressive and Hierarchical Priorsfor Learned Image
Compression,” https://arxiv.org/pdf/1809.02736.pdf より引用
JPEG 深層画像圧縮 CVPR CLIC2019 Leader Board
我々の提案方式は
MS-SSIM指標で
惜しくも 2位・3位
深層画像圧縮は、情報通信理論と何等かの関係があるはず！
深層画像圧縮コンテスト
https://www.itu.int/rec/T-REC-H.264
http://clic.compression.cc/2019/results/?sort=msssim
動画像符号化
国際標準
2

今回の発表内容：
情報通信理論に基づく深層画像圧縮とVAEの理論解明
Encoder
Decoder
Data Reconstructed Data
任意の距離計量Gx(MSEやSSIM)の元での
Rate-Distortion 最適化
エンコード
高次元空間
デコード
低次元の等長空間
両空間での距離が等しい
i.e. |x1-x2|2
= |y1-y2|2
x1
y1
y2
𝒑 𝒚
𝒑(𝒙)
確率密度が等しい 𝒑 𝒙 = 𝒑 𝒚
x2
定量的なデータ解析を可能に
エントロピー
最小表現
定量的な
説明変数
深層画像圧縮とVAEは、距離空間での
『等長埋め込み』となることを理論解明
𝝏𝒙
𝝏𝒚𝒋
𝑻
𝑮𝒙
𝝏𝒙
𝝏𝒚𝒌
= 𝜹𝒋𝒌
3

◼ 等長埋め込みの導入により潜在空間での定量的なデータ解析や取扱が可能となり、
深層画像圧縮と VAE等の生成的AIモデルの両分野で応用が可能に
等長埋め込みの特徴により定量的な解析が可能に
確率分布推定教師無し異常検知
データの確率密度の
定量評価が可能に従来のState-of-the-art
を超える異常検出性能
潜在変数の各次元の分散と
画像の変化量が高い相関
単一モデル＋任意量子化器
でレート制御が可能に
可変レート符号化
潜在変数の各次元の
重要度の評価
深層画像圧縮 VAE等の生成的AIモデルでの定量分析
4

機械学習系のトップカンファレンス ICMLでの採択
◼ Quantitative Understanding of VAE as a No-linearly Scaled
Isometric Embedding
◼ 中川章, 加藤圭造（富士通）
鈴木大慈准教授（東大、理研）
◼ 幅広く活用が進む生成モデル “VAE” の理論的特性を完全に明らかに。
非線形なマッピングにより『等長埋め込み』となることを示した。
◼ さらにVAEを用いた定量的な解析手法も示した。
◼ Rate-Distortion Guided Autoencoder for Isometric
Embedding in Euclidean Latent Space
◼ 加藤圭造, 周静, 佐々木智丈, 中川章（富士通研究所）
◼ 深層画像圧縮等のRD最適化されたAutoencoder は『等長埋め込み』
となることを理論的・定量的に示し、同時にデータの定量評価を可能とした。
◼ 略称“RaDOGAGA” (Rate-Distortion Optimization Guided
Autoencoder for Generative Analysis)
https://arxiv.org/abs/2007.15190
https://proceedings.mlr.press/v139/nakagawa21a.html
http://proceedings.mlr.press/v119/kato20a.html
ICML 2020＆2021で発表
(機械学習分野のトップカンファレンス)
5

本日の発表
◼発表の概要：
◼ 生成的AIモデルの解説
◼ 画像符号化の基礎となるレート歪理論の解説
◼ レート歪最適化に基づく生成的AIモデルの等長埋め込み理論。
◼ 等長埋め込みの定量性を生かした画像圧縮やデータ解析への応用。
◼ 情報通信理論を活かした今後のAIの方向性について（ディスカッション）。
◼資料について:
調子に乗って、ご発表資料で多数の内容を盛りこみすぎました😅。
すこし駆け足でご説明します。
⇒ ご興味のある方は資料をダウンロードしてください。
一方の分野のみ詳しい方々にも
ご理解頂けるように、それぞれの
基礎理論からご説明します
Google検索で
6

生成的AIモデルの解説
7

◼ 背景：識別アプローチの発展と課題
◼ 識別モデルとは大量の教師データから
識別ルールを学習するアプローチ
◼ タスク毎のデータ準備やモデル作成が必須であり
導入までの期間・コストが膨大に
◼ 動向：生成型DLによる研究の発展
◼ 大量の学習データのみから、データの確率分布や
最小説明変数を自動獲得
◼ 獲得済の生成ルールと少数の教師データから
複数のタスクでの認識モデル構築が可能に
◼ Deep Learningを活用した画像・言語の
生成型DLの研究が発展
背景・動向
分析対象毎の
識別ルール
分析対象毎の
大量の教師データ
境界を学習
識別アプローチ
データのみ
データ本来の
分布・確率を獲得
生成型DL
犬猫
犬猫
通信アクセス
データ
医療データ
大量教師無しデータと
少量教師データで学習
不正アクセス
検知
異常症例
発見
正常分布との
違いを分析
8

識別モデルと生成モデルの違い
◼ 前提：データ x を N クラスの Ci に分類する
◼ 識別モデル
◼ データ x が各クラスに属する確率 p(Ci | x) を学習。
◼ 各 x に対し、 p(Ci | x) が最大のクラスを求めること
で、クラス間の境界が求まる。
◼ 生成モデル
◼ 各Ci に対し、x の生成規則や潜在変数、xの
存在確率 p(x|Ci )等を学習してタスクに適用。
◼ 例えば p(x|Ci ) から p(Ci | x) ∝ p(x|Ci )・
p(Ci ) を評価すれば、クラス分類も可能となる。
識別モデル
生成モデル
クラスの境界線を求める
データ生成規則(変数、確率分布)を求める
確率
変数
一般に生成モデルの方が複雑だが、正しく学習
できれば汎用性・再利用性が高い。
9

◼低次元化して解析するために有用な生成モデルの要件
◼確率分布
➢ データの確率分布を明示的に獲得可能なこと。
◼潜在空間・潜在変数の獲得
➢ 各データをエンコーダで低次元の潜在空間の変数に対応付けられること（埋めこみ）
➢ データ空間と潜在空間において、対応する二点距離や確率分布などが定量的に関係づけられること。
◼サンプリング(デコード)
➢ 潜在空間からサンプリングし、実空間のデータにデコードできること
➢ サンプリングデータの分布がデータ分布に一致すること
生成モデルが提供する有用な特徴
マッピング(エンコード)
高次元の実空間データ
(犬画像などのドメイン)
サンプリング(デコード)
両空間の確率分布の定量的関係
低次元の説明変数(潜在空間)
両空間での距離の定量的関係
D(Ｘ1,Ｘ2) = |Z1-Z2|2
Z1
Z2
Ｘ1
Ｘ2
10

生成モデルの役割①：確率分布の獲得
◼ 確率分布の獲得の一般的な定式化
◼ データ分布 p(x)をよく再現し、かつを満たす確率モデル pθ(x) のパラメータθ を導出。
◼ 確率分布獲得の主な方法
① pθ(x) の対数のサンプル平均最大化(対数尤度最大化) ⇒ 殆どの手法(VAE、EBM、FLO、・・・）
② JSダイバージェンス最小化 (GAN／詳細は後述)
対数尤度のサンプル平均
対数尤度を最大化するモデルパラメータ θ を求めると𝐷KL 𝑝 𝒙 ||𝑝𝜃 𝒙 が0となり pθ(x) = p(x) となる。
GANは暗に p(x)とpθ(x) のJSダイバージェンスを最小化するθ を求めている
ここでKLダイバージェンス ≥0 は p(x) = q(x) で最小値ゼロになる。
ここでJSダイバージェンス ≥ 0 は
p(x) = q(x) で最小値ゼロになる。
確率の第二の公理
定数(エントロピー×ｰ1) KLダイバージェンス
11

生成モデルの役割②：潜在変数の獲得
◼ 多様体仮説
◼ 「現実世界の高次元データは本質的には低次元であり、
説明変数は低次元の曲面にマッピング可能」 (曲面を多様体という)
◼ 『潜在変数』の獲得：
データを構成する低次元の説明変数を獲得し、データの説明や学習を容易に！
現実世界の大量の顔データ
多様体仮説
獲得した潜在変数を変化させた映像
Large-scale CelebFacesAttributes(CelebA) Dataset
https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
z0: 背景の色
z1: 顔の向き
z2: 髪の色
z3: 表情
Quantitative understanding of VAE as a Non-linearly Scaled Isometric Embedding
説明変数
低次元の潜在的な
説明変数の獲得
(VAE等)
12

生成モデルの役割③：サンプリング
◼ サンプリングとは
① 学習モデルから学習対象のドメインに属するデータを人工的に生成すること。
② 生成データの確率分布は元のドメインの確率分布と一致すること。
◼ 潜在変数空間から直接サンプリングするもの(VAE、GAN等)と、
マルコフサンプリング等でデータを生成するもの(EBM等)がある (後述)。
学習した猫画像の分布 pθ(x) 元データ分布 p (x) に一致した猫画像を生成
x ~ pθ(x) に従って
サンプリング
13

生成モデルの種類
◼ Variational Autoencoder (VAE)
◼ データを低次元に変換してサンプリングを可能とする生成モデル
“Auto-Encoding Variational Bayes,” https://arxiv.org/abs/1312.6114
◼ Generative Adversarial Nets (GAN)
◼ Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競わせて学習
“Generative Adversarial Nets,” https://arxiv.org/abs/1406.2661
◼ Energy Based Model (EBM)
◼ 統計力学のアナロジーで確率をエネルギーモデルに置き換えて学習。
例えば “Implicit Generation and Modeling with Energy Based Models,” https://arxiv.org/abs/1903.08689
◼ その他
◼ FLOW、Diffusion Modelなど・・・
14

従来の生成モデル①：Variational Autoencoder (VAE)
◼ 利点
◼ 現実データを低次元の空間(潜在変数空間)にマッピングできる。
◼ 潜在空間でサンプリングし、デコードすると学習ドメインのデータが生成できる(確率保証は無し)。
◼ 欠点
◼ 従来研究では潜在空間と実空間の関係が不明確であり定量評価に使えない
サンプリング画像
データ
x~p(x)
Large-scale CelebFacesAttributes(CelebA) Dataset
https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
潜在変数 z ~p(z)
にマッピング
予め決めた分布
(事前分布)
サンプリング／デコード
されたデータ ො
𝐱
エンコーダ
(パラメータφ)
デコーダ
(パラメータθ)
サンプリング
データの低次元潜在変数を獲得し、サンプリングを可能とする生成モデル
15

従来の生成モデル①：VAEの学習方法
◼ 対数尤度の下限値を最大化するエン
コーダ・デコーダパラメータ θ,φ を学習
◼ 学習の手順
①潜在変数 z は固定の事前分布(N(z; 0, 1) 等)とする。
②エンコーダ fφ(x)ではデータ x に対する z の条件付き確率
qφ(z|x) = N(z; μ, σ) のパラメータ μ, σ を求める。
③pφ(z|x)からz をサンプリングし、デコーダ gθ(z)で ො
𝑥 を得る。
④全xに対し予め決めた距離分布pD (x|ො
𝑥)の対数尤度と、
-βDKL(pφ(z|x) || p(z)) の最適トレードオフ条件を学習。
ここでpD (x|ො
𝑥) が分散1の正規分布の場合には、
対数尤度log pD (x|ො
𝑥)は二乗誤差の -1/2倍となる。
x
p(x)
①固定の事前分布
p(z) = N(z; 0, 1)
x
データ空間 x 潜在空間 z
下限値(変分下限という)を最大化
再構成尤度(大きく） KLダイバージェンス(小さく)
対数尤度
+ Const.
エンコード
σ
μ
qφ(z|x) = N(z; μ, σ)
② z の x による条件付き
確率分布を求める
μ, σ = fφ(x)
log pD (x|ො
𝑥)を大きく
⇒ x と ො
𝑥 を近づける
⇒ σ を0に近づける
⇒ 分布幅を小さく
④最適な
トレードオフ
を求める
DKL(pφ(z|x) || p(z))を小さく
⇒ pφ(z|x) と p(z)を近づける
⇒ μを0に、σ を1に近づける
⇒ 分布幅を大きく
予め決めた距離分布
(正規分布、ベルヌーイ分布等)
pθ(x|z) = pD (x|ො
𝑥)
デコード
③pφ(z|x) からz
をサンプリング
z
ො
𝑥
ො
𝑥 = gθ(z)
16

◼ 特徴
◼ 利点：生成されるデータの品質が高い。
◼ 欠点：潜在空間へのマッピングやデータ分布解析ができない。
◼ 学習方法
◼ 一様乱数 z からGenerator Gθ(z) でデータxgを生成。
そして、Discriminator Dφ(xg) が騙されるようGθ(z)を学習。
◼ Discriminator Dφ(xg) に0.5の確率で学習データxか生成デー
タxgを入力し、正しく識別できるようにDφ(xg)を学習。
ここで、 p(x)とpg(x)を学習データ及び生成データの分布、D*
(x) を
最適化されたDφ(x)とすると、 D*
(x) = p(x)／(p(x)+pg(x)) 、ロスは
となり p(x)=pg(x) で最小となる
従来の生成モデル②：Generative Adversarial Netwok
(GAN)
Generatorで生成(サンプリング)したデータと実データとをDiscriminatorで競合学習
Karras et.al.,“Progressive Growing of GANsfor Improved Quality,
Stability, and Variation,” https://arxiv.org/abs/1710.10196
高品質な画像を生成(NVIDIA)
一様乱数
z ~p(z)
xg=Gθ(z)
xg ~pg(xg )
Dφ (x) or
Dφ (xg)
Generator:
Discriminator を
騙すデータを生成
Discriminator:
Generatorが生成
したデータか識別
学習データ
ⅹ~p(x)
判定結果
1:学習データ
0:生成データ
GANの原理
17

従来の生成モデル③：Energy-Based Model(EBM）
統計力学のアナロジーを活用して、確率をエネルギーモデルに置き換えて学習
◼ 概要
◼ データ 𝑥 の「エネルギー関数モデル」 𝐸𝜃(𝑥)を導入。統計力学では確率は『エネルギーの指数の逆数』に比
例することから、このアナロジーで確率を次のように表現する。
𝑝𝜃 𝑥 =
exp −𝐸𝜃 𝑥
‫׬‬ exp −𝐸𝜃 𝑥′ d𝑥′
（分母は確率正規化のための「分配関数」）
◼ 対数尤度の平均 𝐿𝜃 = 𝐸𝑝 𝑥 log 𝑝𝜃 𝑥 を最大化するために θ で微分すると、シンプルな次式を得る。
d𝐿𝜃
d𝜃
= −𝐸𝑝 𝑥
𝑑𝐸𝜃 𝑥
𝑑𝜃
+ 𝐸𝑝𝜃 𝑥′
𝑑𝐸𝜃 𝑥′
𝑑𝜃
⇒ この微分値を用いて対数尤度を最大化する𝜃を求める。
◼ 「ランジュバン MCMC法」という反復サンプリングで高品質なサンプリングが可能
◼ 特徴
◼ 利点：Simpleな定式化で、確率密度推定や
高品質なサンプリングが可能
◼ 欠点：潜在変数が無いため、説明性がない
Zhao et.al., “Learning Energy-Based GenerativeModelsvia Coarse-to-Fine
Expanding andSampling,” https://openreview.net/forum?id=aD1_5zowqV
階層的なEBM
のサンプリング
高品質なサンプリング画像
18

◼確率分布
➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること
各生成モデルの特徴のまとめ
データ確率分布の
明示的な獲得
潜在空間・潜在変数の獲得サンプリング
エンコード潜在空間の定量性サンプリング
VAE × ○ × 〇
GAN × × × ○
EBM 〇 × × 〇
すべての要件を満たす満点のモデルはない
19

画像符号化の基礎となるレート歪理論の解説
20

静止画像の変換符号化の基本原理
① 画像の画素間の相関を取り除くため、DCT／KLTなどの直交変換を行う。
② エントロピー削減のために、誤差を許容して量子化を行う。
① 量子化されたデータに最適な符号を割り当てるエントロピー符号化を行う。
直交変換
(DCT／KLT 等）
エントロピー符号化
圧縮データ
L= D + β・R を最小化する
復号誤差D 情報量 R
量子化
逆直交変換エントロピー符号化
逆量子化
原画像
復号画像
21

最適な符号化条件（次ページ以降でそれぞれ説明)
◼ 符号化における符号量と誤差の最適トレードオフ条件は下記の通り。
直交変換
(DCT／KLT 等）
圧縮データ
L = D + β・R が最小になる
量子化
原画像
σ2
σ2
λ0
λ1
信号を無相関化する正規
直交変換KLT／DCT適用
⇒ 符号化利得最大化
変換データの全次元に対し、
同一誤差を許容する量子化
⇒ レート・歪最適化
量子化データの出現確率と
同一の確率情報で符号化
⇒ KLダイバージェンス最小化
シンボル確率 Pqk 推定確率 Qqk
平均符号長 Σk
Pqk
(-log Qqk
)
（最小条件は Qqk
= Pqk)
Pqk 符号長：-log Qqk
j1
λj
j2
d = β / 2
λj の降順に
並べた次元 j
λj < d
λj ≥ d
KLT
①直交変換 ②量子化 ③エントロピー符号化
次に、ガウス分布の場合に各ステップの理論モデルを説明します
𝒙 𝒚 𝒒𝒌
22

前提となる画素分布のモデル
◼ 画素分布のモデル化
◼ 座標 i の画素の値 xi は分散σ2
の
ガウス分布に従う。
◼ xi と xj の共分散は画素間距離の
指数関数に従う ( ρ < 1 )。
◼ 画像圧縮を行わない場合、一画素あたりのエントロピー（微分エントロピー）
h(xi)は以下の通りとなる
各画素の値 xi 画素間の距離 d=|i-j|
各画素値の分布画素間の共分散
画素
23

◼ 次のように N 画素単位にまとめて符号化する(ブロックと呼ぶ)
◼ N 画素単位の共分散行列 Σx と x の確率分布次は通り
直交変換のモデル化①：共分散行列の導出
画素のエントロピーを減らすためにブロック単位で変換符号化
σ2
σ2
24

◼ 共分散行列 Σx の正規化固有ベクトルからなる変換行列 P と固有値 λj を導出。
ρ<1でΣx は正定値対称行列なので、Pは正規直交行列、 λj は 0 以上の実数となる。
◼ Pで x を変換したN次元ベクトルを y とする。Parsevalの等式によりノルム保存。
，
◼ y の共分散行列は、 Σx の固有値 λj の対角行列となる
直交変換のモデル化②：相関を取り除く直交変換の導出
P による変換は統計の分野では主成分分析
(PCA)、情報圧縮ではカルーネン・レーベ変換
(KLT)と呼ばれるが、両者は同一のもの。
変換前後で現信号や符号化誤差を保存
25

◼ y の確率分布は、分散が λj となる各次元 yj の
互いに独立な正規分布の積で表すことができる。
ここで直交変換後の共分散行列のトレース保存則によりが成立。
◼ y に変換後の画素当たりエントロピーは、変換前の各画素のエントロピーより小
さくなる。このエントロピー減少分を符号化利得と呼ぶ。
直交変換のモデル化③：符号化利得の導出
λ0
λ1
相加・相乗平均の関係により、カッコの中は必ず1以上
符号化利得
p(y)はp(x)の軸を回転させたものに等しい
𝜎2
=
1
𝑁
෍
𝑗=0
𝑁−1
𝜆𝑗
26

ご参考：KLT と DCTの関係
◼ 動画像国際標準で用いられる離散コサイン変換(DCT)は次のように導出される
◼ 𝜎2 = 1のとき𝜌 = 1 − 𝜖 とすると
共分散行列Σxは、右式のように
行列HとVを用いて近似できる。
◼ ρ⇒1 の極限のHの固有値は7重に縮退して一意には求まらない。しかしVを摂動とした
摂動法でΣxの固有値と固有ベクトルを近似すると、次のように縮退が解ける(N=8の例)。
この０次の固有ベクトル (ρ→1／ε → 0の極限) がDCT Ⅱ 基底と正確に一致する。
H V
𝑗 = 0: 𝜆0 ≃ 8 − 21𝜖,
𝑗 ≥ 1: 𝜆𝑗 ≃ 0 +
𝜖
2 sin2 𝑗
8
𝜋
P = + ε・
固有値固有ベクトル
DCTⅡ基底と完全一致 V による摂動成分
V による摂動成分
Hの固有値
27

量子化のモデル化①：線形量子化のモデル化
◼ 線形量子化では、信号 y を量子化器 T 毎に量子化代表値 qk に置き換える。
◼ qk に置き換わる信号の量子化誤差 nk の分布 pn(y) 、エントロピー h(n)、
誤差分散は次の通り。
誤差分布の
エントロピー：
誤差分布の
分散：
0 T/2
-T/2
1/T
誤差の確率分布 pn(y)
誤差の
確率分布：
28

量子化のモデル化②：線形量子化の情報量と誤差
◼ y の分散より量子化器 T が十分に大きい場合、量子化値の情報量は y と誤差の
両エントロピーの差分、量子化誤差は誤差の分散となる。
◼ y の分散が量子化器 T より小さい場合、量子化値の情報量は０、量子化誤差は
y の分散となる。ここで y の平均は 0 とした。
量子化値の
情報量
各量子化値の
確率
量子化誤差
量子化値の
確率・情報量
量子化誤差
y
情報量は
y と誤差分布の
エントロピー差分誤差分布の
分散と同一
y の分散と同一
情報量は０
29

言っていることは実は simple
0 T/2
-T/2
1/T
y の分散より量子化器 T が大きい場合
y の分散が量子化器 T より小さい場合
0 T/2
-T/2
1/T
yの分布
誤差分布
yの分布
誤差分布
両エントロピーの
差分が符号化
すべき情報量
誤差のエントロピー
yのエントロピー
情報を符号化す
る必要がないため
情報量はゼロ
誤差のエントロピー
yのエントロピー
yは必ず量子化
されるため、誤差
分布の分散が
符号化誤差
誤差の分散
yの分散
一つの量子化代表
値に収まるため、
符号化誤差は
yの分散
誤差の分散
yの分散
量子化誤差量子化値の情報量
すべてのyの値
が一つの量子化
代表値に収まる
yの分散が大きく
必ずデータが
量子化される
30

量子化のモデル化③：情報量と誤差の理論定式化
◼ 分散 σs
2
の正規分布信号 s を量子化する。許容ノイズ n は分散 σn
2
の
分布の中でエントロピーが最大となる正規分布を用いる。
◼ この時、量子化後の情報量 I(s;n) と誤差Dは次の通りとなる。
◼ 信号がノイズより大きい時( ： ):
◼ 信号がノイズより小さい時( )：
◼ まとめると次式となる。ここでI(s;n)はDの下凸関数となる。
理想量子化後の情報量と量子化誤差の理論定式化（線形量子化とのアナロジー）
情報量は信号とノイズの
両エントロピーの差分、
誤差は許容誤差分散
情報量は0、
誤差は信号の分散と同一
正規分布は分散一定条件でエントロピーが最大。
I(s;n)
D
31

◼ 直交変換ブロックの各次元 j において、分散(=固有値)を λj 、許容ノイズを σnj
2
とする。
前頁の式を各次元に適用・積算して、次式のブロック毎の情報量R、誤差Dを得る。
◼ 定数 βの元でL=D+β・Rを最小化する各次元の σnj
2
の最適値は？(レート・歪最適化)
⇒ Lj=dj+β・rj, L=Σ Lj として Lj は σnj
2
にのみ依存。各Lj を最小化する σnj
2
が最適解。
量子化のモデル化④：直交変換ブロックの最適量子化
曲線 𝑑𝑗 𝜎𝑛𝑗
2 , 𝑟
𝑗 𝜎𝑛𝑗
2
と Lj=dj+β・rj は
で次の接点
を持ち、 Lj が最小となる。
λj ≧ β / 2 となる次元
rj
dj
Lj=dj+β・rj
曲線 𝑑𝑗 𝜎𝑛𝑗
2
, 𝑟𝑗 𝜎𝑛𝑗
2
と Lj=dj+β・rj は
σnj
2
≦ λj で接点がないため、
Lj の最小値は端点の
で得られる。
rj
dj
Lj=dj+β・rj
(λj, 0)
λj ＜ β / 2 となる次元
32

量子化のモデル化⑤：レートと歪の関係性導出
◼ 前頁の結果より、 L=D+β・Rの最小化条件は、
全次元に同一誤差 β/2 を許容した場合となる。
◼ この最適条件下において、ブロック単位の情報量と
誤差は、d=β/2 として下記の d のパラメトリック関数
R(d) 及び D(d) となる。
◼ d=β/2 を動かすと、ブロックを直交変換・量子化
した場合の情報量と歪の関係(RD曲線)を得る。
ここで、RD曲線は下に凸関数となる。
j1
λj
j2
d = β / 2
λj の降順に
並べた次元 j
各次元 j の情報量と誤差の導出
λj < d
RD曲線(dのパラメトリック関数)
λj ≥ d
( R(β2/2), D(β2/2) )
R
D
( R(β1/2), D(β1/2) )
d ⇒ 大
d ⇒ 小
L=D+β1 R
L=D+β2 R
重要：後から出てきます！
33

エントロピー符号化のモデル化
◼ 線形量子化後の k 番目のシンボル発生確率を Pqk とし、
そのシンボルの推定確率を Qqk とする。
◼ 各シンボルの理想的なエントロピー符号長は –log Qqk となる。
◼ Pqk の情報量をR、平均符号量をRcode とする。
◼ 平均符号量 Rcodeは Pqk
= Qqkの時に最小値 R となる。
シンボル確率 Pq
k 推定確率 Qq
k
平均符号長 Σk Pqk (-log Qqk)
⇒ 最小条件は Qqk = Pqk
KLダイバージェンス
34

◼L=D+βR を最小化する最適符号化条件は下記の通り。
最適な符号化条件のまとめ
直交変換
(DCT／KLT 等）
圧縮データ
L = D + β・R が最小になる
量子化
原画像 σ2
σ2
λ0
λ1
信号を無相関化する正規
直交変換KLT／DCT適用
⇒ 符号化利得最大化
変換データの全次元に同一
誤差 β/2 を許容する量子化
⇒ レート・歪最適化
同一の確率情報で符号化
⇒ KLダイバージェンス最小化
シンボル確率 Pqk 推定確率 Qqk
平均符号長 Σk
Pqk
(-log Qqk
)
（最小条件は Qqk
= Pqk)
j1
λj
j2
d = β / 2
λj の降順に
並べた次元 j
λj < d
λj ≥ d
KLT
①直交変換 ②量子化 ③エントロピー符号化
再掲
𝒙 𝒚 𝒒𝒌
35

レート歪最適化に基づく深層画像圧縮と
生成的AIモデルの等長埋め込み理論
36

深層画像圧縮とは？
◼ Balle らにより、Deep Learningとレート歪最適化
による深層画像圧縮が提案された。
◼ MS-SSIM等の任意の評価尺度で最高性能を達成。
圧縮画像、グラフとも、Minnen et.al, “Joint Autoregressive and Hierarchical Priors for Learned
Image Compression,” https://arxiv.org/abs/1809.02736 より引用
JPEG 深層画像圧縮
37

深層画像圧縮の原理の概要
エンコーダ
fφ(x)
デコーダ
gθ(z)
画像𝑥
潜在変数 𝒛
ො
𝑥
D(𝑥, ො
𝑥)
𝝐~𝑢(ε)
+
②量子化を模した
一様ノイズを印加
⑤ パラメトリックな確率分布pψ(z)
からෝ
z の符号長 R を求める
レートRと歪Dを
求める
z
σ
pψ (z)
①エンコード
ො
z=z+ε
③デコード
④所定のメトリクス
(MSE/SSIM等)
で誤差Dを計算
R
D
L=D+β1･R
L=D+β2･R
(R1, D1)
O
(R2, D2)
最適化
最適化
β を変えて様々なRD条件
でのネットワークを求める
深層学習からなるエンコーダ・デコーダ・確率分布推定器の
ネットワークで、画像符号化した際のレートR、歪 Dを求める。
β を与えて、L=D＋βR を最小化する
ネットワークパラメータを求める。
さらなる詳細は次ページで
38

深層画像圧縮の原理詳細
◼ 学習時：レート歪最適化
① エンコーダ fφ(x)で画像を潜在変数z に変換。
② z に量子化器１相当の一様ノイズを加え ො
z を得る。
③ ො
z からデコーダ gθ( Ƹ
𝑧)で復号画像 ො
𝑥 を生成。
④ 所定のメトリクスで誤差D=D(𝑥, ො
𝑥)を計算
⑤ パラメトリックな確率分布pψ(z)から量子化データの
符号量相当を計算
⑥ ラグランジュ係数βを導入してL=D+βRを最小化
する学習パラメータ φ, θ, ψを導出。
◼ 符号化時
① エンコーダ fφ(x)で画像を潜在変数z に変換。
② z を q=round (z) で整数に量子化(量子化器１)。
③ pψ(z)からq の符号量を用計算
④ q を符号量 Rq でエントロピー符号化。
エンコーダ
fφ(x)
デコーダ
gθ(z)
画像𝑥
潜在変数 𝒛
ො
𝑥
D(𝑥, ො
𝑥)
𝝐~𝑢(ε)
+
からෝ
⑥L=D+βR を最小化
する学習パラメータ
φ, θ, ψ を導出
エンコーダ
fφ(x)
画像𝑥
潜在変数 z
②整数に
量子化
z
σ
pψ (z)
①エンコード ③デコード
(MSE/SSIM等)
で誤差Dを計算
q
σ
pψ (z)
④エントロピー
符号化
③ pψ(z)から qの符号長Rqを求める
量子化値 q
圧縮
データ
符号長 Rq
①エンコード
ො
z = 𝑧 + 𝜖,
𝐸 𝜖2
= 𝜎𝑛
2
(定数)
39

深層学習の最適条件で何が起こっているか？
パラメトリックなエン
コーダで潜在変数に
変換
変換データの全次元に
対し、固定量子化器
で量子化
パラメトリックな確率モデルで
量子化シンボルの出現確
率を推定し符号長を導出
未知分布データと任意
のメトリクスに対して
L=D+β R を最小化
深層画像
圧縮
①変換 ②量子化 ③エントロピー符号化 ④レート・歪の関係
原信号を無相関化
する正規直交変換
(KLT／PCA)の適用
変換データの全次元に
対し、同一誤差 β/2 を
許容する量子化
同一の出現確率から量子
化シンボルの符号長を導出
従来の静止
画像符号化
符号化利得最大化レート・歪最適化 DKL最小化
ガウス分布・指数相関
に対して、MSE計量で
L=D+β R が最小に
レート・歪最適
変換エントロピー符号化
圧縮データ
L = D + β・R
量子化
原画像
最適パラメータ
を学習
メトリクスとデータが定義する『リーマン多様体』に対して、潜在変数の
ユークリッド空間は等長であり、かつ、上記３つを最適化することを導出
符号化利得最大化レート・歪最適化 DKL最小化
40

◼ レート歪理論（画像・音声圧縮の基礎）：
ガウス分布データをDCT/KLTなどの正規直交変換等と一様量子化を行うと、
二乗誤差のメトリクスのもとで、RDOコスト L=D+βR が最小に。
◼ 今回ご導出した『等長埋め込み』の理論概要：
任意のデータ・計量でRDO コスト L=D+βR を最小化すると、その計量ベクトル空間に対して
等張な潜在空間が獲得される (微小の正規直交変換が全空間に滑らかにつながったもの) 。
理論の大まかなイメージ
次元削減量子化・
レート・歪の最適化
従来のレート
歪理論
【条件】
ガウス分布データに対し、
DCT／KLT等の正規
直交変換で次元削減
【条件】
均等量子化とエントロ
ピー符号化。
【結果】
MSEの計量で
L=D+βR が
最小となる
今回導出した
等長埋め込み
の理論
【結果】
任意分布のデータに
対し、計量に対する
等長空間で次元削減
【条件】
均等量子化と、パラメト
リック確率分布に基づく
エントロピー符号化。
【条件】
任意の計量で
L=D+βRを
最小化する学習
任意の分布・計量へ
レート歪理論の適用
範囲を拡張
着想
41

リーマン多様体の概要 (数学的に厳密ではありません)
◼ 計量テンソルによる広義の内積の定義（線形代数的な定義）
◼ 正定値の計量テンソル行列G を用いて、ベクトル v, w の内積 <v, w>は次式で定義する。
<v, w> = v G w (「行列Gが正定値」とはあらゆる v≠0 で v G v > 0)
◼ ユークリッド空間ではG は単位行列 I となり、 <v, w> = v I w = v ・ w より狭義の内積
（ドット積)となる。
◼ リーマン多様体
◼ 多様体上の各点x において計量テンソルGx が与えられ、x 近傍の
多様体上の二つの微小ベクトル(正しくは接ベクトル) v, wの内積が
<v, w>x = v Gx w で定義される。
⇒ ざっくり言えば、データセットと計量(内積)のペア
◼ 実世界の画像セットとSSIMのペアもリーマン多様体とみなせる。
x1
v1 Gx1 w1
x2
x3
v3 Gx3 w3
v2 Gx2 w2
42

リーマン多様体の計量テンソルとしてのSSIM計量
◼ SSIMとは主観評価に近い画像評価指標。左上座標(h, v)で指定されるN×N領域
において、原画 x と復号画像 y の間のSSIM計量は下記で与えられる。
ここでμx と μy は x, y の領域内の平均、 σx
2
とσy
2
は x, y の領域内の分散をしめす。
◼ Y = x + δx とすると、SSIMは下記で近似できる。
ここで、、とすると
学習コスト 1-SSIM は、原画 x 毎に定義される上記計量テンソル G(h, v)x を用いて
と表現できる。
⇒ 画像データセットとSSIM計量を合わせてリーマン多様体とみなせる。
43

Binary Cross Entropy や MSE の計量テンソル
◼ VAEの原論文でMNIST学習に用いられているBinary Cross Entropyの定義は
次のとおり。
とすると、が成立する。ここで計量テンソル
は、次の通りとなる。
◼ Gaussian
とすると、
となり、計量テンソルは単位行列 I にをを乗じたとなる。
定数
詳細な式展開にご興味のある方は論文をご覧ください
44

埋め込みと等長性の概要説明 (注：数学的に厳密な説明ではない)
xB1 vB1 GxB1 wB1
xB2
xB3
vB3 GxB3 wB3
vB2 GxB2 wB2
xA2
xA3
vA1 GxA1 wA1
vA3 GxA3 wA3
vA2 GxA2 wA2
xA1
リーマン多様体A リーマン多様体B
埋め込み： AからＢへの滑らかな単射
xA1 → xB1, xA2 → xB2, xA3 → xB3, ・・
等長性：接ベクトルの内積を保存
vA1 GxA1 wA1 = vB1 GxB1 wB1,
vA2 GxA2 wA2 = vB2 GxB2 wB2,
vA3 GxA3 wA3 = vB3 GxB3 wB3 , ・・・・
◼ 埋め込みとは、リーマン多様体Aから多様体Bへの滑らかな単射（マッピング）
◼ 等長性とは、埋め込み後に、両多様体の対応点において、点周辺の多様体上の二つ
の微小変異（正確には接ベクトル）の内積を保存するもの。
⇒ 等長性を示す埋め込みを『等長埋め込み』という
45

等長性で距離や確率密度は等しくなる (注：厳密な説明ではない)
◼ 等長な多様体A,B 同士では2つのデータ間の距離は等しい
◼ 両多様体で微小変位同士の内積を保存するため、対応する線素のL2ノルムも等しい。
𝑑𝑠𝐴
2 = 𝑑𝑥𝐴
𝑇
𝐺𝐴𝑑𝑥𝐴 = 𝑑𝑥𝐵
𝑇
𝐺𝐵𝑑𝑥𝐵 = 𝑑𝑠𝐵
2
◼ 線素の積分で距離が定義されるため、両多様体で二つの対応点間の距離は等しい
（厳密に議論するには測地線という概念の導入が必要です）
◼ 等長な多様体A,B 同士では対応点の確率密度は等しい
◼ 両多様体の体積要素は等長性により等しい。
𝑑𝑣𝐴 = 𝑑𝑣𝐵
◼ 確率密度と体積要素の積（体積要素中のサンプル数に相当) は写像前後でも不変
𝑝𝐴(𝑥𝐴)𝑑𝑣𝐴 = 𝑝𝐵(𝑥𝐵)𝑑𝑣𝐵
◼ よって、両多様体上で対応点同士の確率密度は等しい
𝑝𝐴(𝑥𝐴) = 𝑝𝐵(𝑥𝐵)
46

等長埋め込みの例
◼ DCTやKLTなどの正規直交変換
◼ 正規直交変換は、変換前後のユークリッド空間同士で狭義の内積(ドット積)を保存する。
⇒ 正規直交変換はユークリッド距離を計量とした等長埋め込みの一種。
◼ 極座標とユークリッド空間
◼ 極座標(𝑟,𝜃)とユークリッド空間の積分要素の変換からユークリッド距離を表す計量テンソル
𝐺polarは下記のように求められる。
𝑑𝑥, 𝑑𝑦 𝑇 = 𝑅 𝑑𝑟,𝑑𝜃 𝑇
、ここで 𝑅 =
cos(𝜃) 𝑟 sin(𝜃)
−sin(𝜃) 𝑟 cos(𝜃)
⇒ 𝐺𝑝𝑜𝑙𝑎𝑟 = 𝑅𝑇 𝑅 =
1 0
0 𝑟2
⇒ ユークリッド空間(計量テンソルが単位行列 𝐼 ) からなるリーマン多様体は、極座標データ
(𝑟,𝜃) と 𝐺𝑝𝑜𝑙𝑎𝑟 計量テンソルからなるリーマン多様体に等長埋め込みが可能に。
当然ながら、逆方向の等長埋め込みも可。
47

◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。
◼ 学習時の量子化誤差の分散を𝜎𝑛
2
とする。深層画像圧縮の 𝐿 = 𝐷 + 𝛽𝑅 を最小化
すると、潜在空間を 𝛽/2𝜎𝑛
2倍スケールしたものは下記特徴を持つことを証明。
① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」埋め込みしたもの。
⇒ 理論的に「ほぼ等長に」を「等長に」に近づける方法は後述。
② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。
③ 潜在変数のパラメトリックな確率密度は実データの確率密度と等しくなる。
深層画像圧縮が獲得しているもの
データ空間潜在空間
SSIM 計量等に基づく
グリッドはデータ座標系
では曲がっている
• SSIM等の計量をユークリッド
空間に等長に埋めこみ
• 量子化誤差は𝛽/2に
• パラメトリックに求めた確率
密度はデータ空間と同じ
𝛽/2𝜎𝑛
2倍に
スケール
ユークリッドの等長な潜在空間
エンコーダ
量子化器１では
𝜎𝑛
2
= 1/12
48

深層画像圧縮が獲得しているもの
ユークリッド空間のガウス分布で定式化されていたレート歪理論を、
任意のデータ分布や計量に対して拡張したもの。
◼ 学習時に用いた画像セットとSSIM等の計量からなるリーマン多様体を想定。
◼ 学習時の量子化誤差の分散を𝜎𝑛
2
とする。深層画像圧縮の 𝐿 = 𝐷 + 𝛽𝑅 を最小化
すると、潜在空間を 𝛽/2𝜎𝑛
2倍スケールしたものは下記特徴を持つことを証明。
① 上記のリーマン多様体を、ユークリッド計量の空間に「ほぼ等長に」埋め込みしたもの。
⇒ 理論的に「ほぼ等長に」を「等長に」に近づける方法は後述。
② 等長な潜在変数の各次元の量子化誤差は 𝛽/2 の定数になる。
③ 潜在変数のパラメトリックな確率密度は実データの確率密度と等しくなる。
49

等長性の証明の流れ
エンコーダ
fφ(x)
デコーダ
gθ(z)
画像𝑥
潜在変数 𝒛
ො
𝑥
D(𝑥, ො
𝑥)
𝝐~𝑢(ε)
+
からෝ
z
σ
pψ (z)
①エンコード
ො
z = 𝑧 + 𝜖, 𝐸 𝜖2 = 𝜎𝑛
2(定数)
③デコード
(MSE/SSIM等)
で誤差Dを計算
𝐷 ≃ σ𝑗𝜎𝑛
2
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑗
2
を小さく
⇒ z 空間を拡大
展開・近似
⑥L=D+βR を最小化
する学習パラメータ
φ, θ, ψ を導出
確率モデル𝑷𝝍(𝒛)の最適条件
エンコーダ𝒇𝝓(𝒙)・デコーダ
𝒈𝜽(𝒛)の最適条件
𝑅 ≃ − log
𝜕𝒙
𝜕𝒛
を小さく
⇒ z 空間を縮小
展開・近似
𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 を小さく
⇒ 𝑝𝜓 𝑧 = 𝑝 𝑧 が最適
展開・近似
𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑘
= 𝛽/2𝜎𝑛
2𝛿𝑗𝑘
で z 空間のスケールがバランス
𝒚 は 𝒙 の𝑮𝒙による計量ベクトル空間に対して等長
𝝏𝒙
𝝏𝒚𝒋
𝑻
𝑮𝒙
𝝏𝒙
𝝏𝒚𝒌
= 𝜹𝒋𝒌、かつPosteriorの分散は定数
𝜷
𝟐
dyj/𝑑𝑧𝑗 = 𝛽/2𝜎𝑛
2 を満たす 𝒚 を導入
𝑥 = 𝑔𝜃(𝑓𝜙(𝑥))
と仮定
50

ご参考：証明のアウトライン:まず1次元の場合
◼ まず、データ、潜在変数が共に1次元として、P39の条件での考察
◼ P39 の条件に加え、デコーダはエンコーダの逆関数 𝑥 = 𝑔𝜃(𝑓𝜙(𝑥))と仮定。また、潜在空間の線形量子化
器を𝑇とすると量子化誤差の分散は𝜎𝑛
2 = 𝑇2/12となる。計量を𝐺𝑥として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。
◼ 𝑥の確率分布を𝑝(𝑥)とすると 𝑧 = 𝑓𝜙(𝑥) で 𝑧の確率密度は𝑝 𝑧 = 𝑝 𝑥
𝑑𝑥
𝑑𝑧
。これを用い、符号量𝑅は
𝑅 = 𝐸𝑝 𝑥 − log න
𝑧−𝑇/2
𝑧+𝑇/2
𝑝𝜓 𝑧 𝑑𝑧 ≃ 𝐸𝑝 𝑥 −log 𝑝𝜓 𝑧 𝑇 = 𝐸𝑝 𝑥 − log 𝑝 𝑥
𝑑𝑥
𝑑𝑧
+ 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − log 𝑇
◼ 計量を𝐺𝑥とする。𝑔𝜃 𝑧 + 𝜖 ≃ 𝑥 + 𝜖
𝑑𝑥
𝑑𝑧
を用いると誤差は下記で求められる。
𝐷 𝑥, Ƹ
𝑥 = 𝐸𝑝 𝜖 𝑥 − Ƹ
𝑥 𝐺𝑥 𝑥 − Ƹ
𝑥 ≃ 𝜎𝑛
2
𝐺𝑥
𝑑𝑥
𝑑𝑧
2
◼ 目的関数は下記のようになる。𝐷𝐾𝐿(⋅)は理想的なパラメトリック確率モデル 𝑝𝜓 𝑧 = 𝑝 𝑧 の基で0となる。
𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛
2𝐺𝑥
𝑑𝑥
𝑑𝑧
2
− 𝛽log
𝑑𝑥
𝑑𝑧
+ 𝛽𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log𝑝 𝑥 − 𝛽 log 𝑇
◼ エンコーダ・デコーダ最小化条件は[・]の中を
𝑑𝑥
𝑑𝑧
で微分すると 𝐺𝑥
𝑑𝑥
𝑑𝑧
2
= 𝛽/2𝜎𝑛
2
。ここでdy/𝑑𝑧 = 𝛽/2𝜎𝑛
2 なる
𝑦を導入すると 𝐺𝑥 𝑑𝑥2 = 𝑑𝑦2
となり、𝐺𝑥の計量ベクトル空間と、𝑦のEuclid空間は等長となる。
また、 𝑦 空間の誤差は𝜎𝑛
2
をスケーリングして 𝜎𝑛
2 𝑑𝑦/𝑑𝑧 2 = 𝛽/2 と定数になる。
𝜓次第で0にできるデータやTに依存する定数
51

ご参考：証明のアウトライン:Ｎ次元の場合
◼ Ｎ次元データの場合P39の条件での考察
◼ データ 𝒙 = (𝑥0,⋯ ,𝑥𝑖,⋯ ,𝑥𝑁−1), 潜在変数 𝒛 = (𝑧0,⋯ ,𝑧𝑗,⋯ ,𝑧𝑁−1) とする。前頁と同じ条件で、計量
を𝐺𝑥として、𝐿 = 𝐷 + 𝛽𝑅を最適化する。
◼ 1次元と同様の式展開で、N次元データの目的関数は下記のようになる。
𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 𝜎𝑛
2 ෍
𝑗
𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑗
− 𝛽 log det
𝜕𝒙
𝜕𝒛
+ 𝛽 𝐷𝐾𝐿 𝑝 𝑧 ||𝑝𝜓 𝑧 − 𝛽𝐸𝑝 𝑥 log 𝑝 𝑥 − 𝑁 𝛽 log 𝑇
𝐷𝐾𝐿 ⋅ は理想的なパラメトリック確率モデルで 𝑝𝜓 𝑧 = 𝑝 𝑧 となると最小化され０となる。
◼ エンコーダ・デコーダ最小化条件は[・]の中を
𝜕𝒙
𝜕𝑧𝑗
で微分し、右から
𝜕𝒙
𝜕𝑧𝑘
をかけると
𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑘
= 𝛽/2𝜎𝑛
2
𝛿
𝑗𝑘と
なる。ここでd𝑦𝑗/𝑑𝑧𝑗 = 𝛽/2𝜎𝑛
2
なる𝑦𝑗を導入すると
𝜕𝒙
𝜕𝑦𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑦𝑘
= 𝛿𝑗𝑘 となり、
𝜕𝒙
𝜕𝑦𝑗
は𝐺𝑥の計量ベクトル空
間で正規直交となる。
◼ 𝑑𝒙(1)
= σ𝑗
𝜕𝒙
𝜕𝑦𝑗
𝑑𝑦𝑗
(1)
, 𝑑𝒙(2)
= σ𝑗
𝜕𝒙
𝜕𝑦𝑗
𝑑𝑦𝑗
(2)
とすると、 𝑑𝒙 1 𝑇
𝐺𝑥 𝑑𝒙 2
= σ𝑗 𝑑𝑦𝑗
1
𝑑𝑦𝑗
2
= 𝑑𝒚 1 𝑇
⋅ 𝑑𝒚 2
となり
𝐺𝑥 の計量ベクトル空間と、𝑦のEuclid空間は等長となる。
◼ また、 𝑦 空間の各次元の誤差は𝜎𝑛
2
をスケーリングして 𝜎𝑛
2 𝑑𝑦𝑗/𝑑𝑧𝑗
2
= 𝛽/2 と定数になる。
𝜓次第で0にできるデータやTに依存する定数
52

𝐿 = 𝐷 + 𝛽𝑅
深層画像圧縮が『完全な等長でない』理論上の理由
◼ 今回の証明では、 𝑥 = 𝑔𝜃(𝑓𝜙(𝑥))、すなわち、デコーダは
エンコーダの逆関数と仮定。
◼ しかし、実際にはノイズ 𝜷/𝟐 に対するウィーナフィルタと
ほぼ同じ挙動を示し、逆関数とならない。
⇒ 完全な等長性は失われる。
◼ 例: 1次元データ 𝑥 ∼ 𝑁 0, 𝜎𝑥
2
を深層画像圧縮で
𝐿 = 𝐷 + 𝛽𝑅 のコストで学習した場合。
◼ 𝑔𝜃(𝑓𝜙(𝑥)) はノイズ 𝜖 ∼ 𝑁 0,𝛽/2 を加えたあとに
ウィーナフィルタをかけた結果とほぼ等価となる。
෬
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 ≃
𝜎𝑥
2
𝜎𝑥
2+𝛽/2
𝑥 ≠ 𝑥
◼ 両者のMSE平均は 𝐸 𝑥 − ෬
𝑥 2 ≃ 𝛽/2 2/𝜎𝑥
2 > 0 となり、
完全な逆関数にはならない。
＋
𝝐 ∼
𝑵 𝟎, 𝜷/𝟐
ウィーナフィルタ
෬
𝑥 =
𝜎𝑥
2
𝜎𝑥
2+𝛽/2
𝑥
𝑓𝜙 𝑥
𝑔𝜃 𝑧
෬
𝑥
𝑥 ∼ 𝑁 0,𝜎𝑥
2
෬
𝑥 ∼ 𝑁 0,
𝜎𝑥
4
𝜎𝑥
2 + 𝛽/2
𝑥
等
価
𝑧
53

等長性を高める方法
◼ 再構成誤差の分析
◼ ො
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 として次式成立。
𝐷 𝑥, ෬
𝑥 ≃ 𝐷 ො
𝑥, ෬
𝑥 + 𝐷 𝑥, ෬
𝑥
◼ よって 𝐷 𝑥, ෬
𝑥 と𝐷 ො
𝑥, ෬
𝑥 のトレードオフの結果、
ウィーナフィルタ的な挙動をしめす。
◼ 等長性を高める方法： ෬
𝑥 ≃ 𝑥 の促進
◼ 𝐷 𝑥,𝑥 + 𝛿𝑥 = 𝛿𝑥𝑇𝐺𝑥𝛿𝑥 は𝛿𝑥=0で微分値が０。
◼ 𝐷(⋅,⋅)より0付近で急峻なロス𝐷2(⋅,⋅)を準備
(MSEの対数やL1／L2 ロスなど)
◼ 𝐷 𝑥, ෬
𝑥 を𝐷2 𝑥, ෬
𝑥 に置き換えて学習
𝐿 = 𝐷 + 𝛽𝐷 ො
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥
⇒ 𝒙 ≃ ෭
𝒙 が促進され等長性が高まる
𝒙
𝒛
෭
𝒙
𝐷2(𝒙, ෭
𝒙)
ෝ
𝒙
D(෕
𝒙, ෭
𝒙)
𝝐~𝑁(0,𝜎) + 𝑔𝜃(𝒛 + 𝝐)
この等長性を高めたモデルをRaDOGAGAと命名
(Rate-Distortion Optimization Guided Autoencoder for Generative Analysis)
𝐷 𝑥, ෬
𝑥 𝐷2 𝑥, ෬
𝑥
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥
𝐷 𝑥, ෬
𝑥 ≃ 𝐷 ො
𝑥, ෬
𝑥 + 𝐷 𝑥, ෬
𝑥
D2(・) はD(・)よりも ෬
𝑥 ≃ 𝑥 付近で微分が
急峻な『MSEの対数』や L1などを使う
置き換え
新しい再構成誤差で学習
෬
𝑥 = 𝑥 ෬
𝑥 = 𝑥
54

VAEの解明
◼ 多くの研究者がVAEの解明にチャレンジ
◼ Rolinek et.al. “Variational Autoencoders Pursue PCADirections (by Accident)”
VAEのヤコビアンの各ベクトルは直交していることを証明。
◼ Locatello et.al, “Challenging Common Assumptions in the Unsupervised
Learning of Disentangled Representations”
VAEがDisentangle表現を獲得するには帰納バイアスが必要なことを証明
しかし、VAEの定量的な性質は未解明のまま
◼ 我々はVAEの理論的な解明に成功
⇒ 実は深層画像圧縮と、限りなく近かった！
55

VAEと RaDOGAGA / 深層画像圧縮はベースは同じ！
Method 事前分布事後分布(ノイズ) 最適化コスト等長空間へのマッピング
VAE 固定の事前分布。
原論文は正規分
布 N(0,1)
エンコーダで正規分布の事後
分布の平均𝝁𝒋と分散𝝈𝒋
𝟐
を各
データ、次元 j 毎に学習
𝐿 = 𝐷 + 𝛽𝑅を最適化
潜在空間をデータ・次元毎
に異なる 𝜷/𝟐𝝈𝒋
𝟐
倍の
スケーリングで等長に
深層画像
圧縮
パラメトリックな
事前分布を学習
エンコードの結果に全データ・
次元共通の固定分散𝝈𝒏
𝟐
の
事後分布の誤差を加えたもの。
潜在空間を全データ・次元
で共通の定数 𝜷/𝟐𝝈𝒏
𝟐倍
のスケーリングで等長に
最適化時の固定パラメータと学習するパラメータが相補的なだけ！
VAEの潜在変数の事前・事後分布と等長空間との関係
VAE
潜在変数の確率分布
は固定の事前分布
(正規分布が一般的)
誤差分布(事後分布)：学習で獲得
x
z
ヤコビ行列は
直交・非正規
誤差分布(事後分布)： β/2の固定分散
y
深層画像圧縮の等長空間
x
ヤコビ行列は
正規直交
潜在変数の確率分布は
データ分布に等しい
𝜕𝑦𝑗
𝜕𝑧𝑗
=
Τ
𝛽 2
𝜎𝑗 𝑥
でスケーリング
すると深層画像圧縮相当に
56

VAE の潜在空間も等長空間へマッピング可能！
𝒚 ∈ 𝑌
𝒙 ∈ 𝑋
ෝ
𝒚 ∈ ෠
𝑌
ෝ
𝒙 ∈ ෠
𝑋
𝝁 𝒙 𝒛
𝑁 0,𝝈 𝒙
𝟐
+
+
𝑁 0, Τ
(𝛽 2) 𝑰
𝜕𝑦𝑗
𝜕𝜇𝑗(𝑥)
=
Τ
𝛽 2
𝜎𝑗 𝑥
暗黙的な
等長埋め込み
VAE
となる変数 y を導入
等長性
入力データxの
確率分布 P(x)
潜在変数の事前確率分布 P(z)。
両空間での2点間の
距離は等しい
D(x(1)
, x(2)
) = | y(1)
–y(2)
|2
深層画像圧縮／RaDOGAGA
と同様に、潜在空間を 𝜷/𝟐𝝈𝒋
𝟐
倍
スケーリングすると、計量ベクトル
空間に等長な空間が得られる。
同様に、等長空間での事後分
布の分散も固定値(β/2) となる。
↓
よって、RaDOGAGAや深層画像
圧縮同様に、得られた等長空間に
おいて、データの定量的な分析が
可能に。
yの確率分布 P(y)は
P(x)に等しい
𝝏𝒙
𝝏𝒚𝒋
𝑻
𝑮𝒙
𝝏𝒙
𝝏𝒚𝒌
= 𝜹𝒋𝒌
57

証明概要：VAEも深層画像圧縮と同じコストに帰着
◼VAEは変分下限 𝐸𝑝 𝑥 𝐸𝑞𝜙 𝑧 𝑥 log𝑝𝜃 𝑥 𝑧 − 𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 の最大化を行う。
◼これまでと類似の議論から第一項の再構成誤差は計量テンソル𝐺𝑥を用いて下記のように近似可能。
log 𝑝𝜃 𝑥 𝑧 = log𝑝𝐷 𝑥 ො
𝑥 = −𝐷 𝑥, ො
𝑥 ≃ 𝐸𝑝 𝜖 𝑥 − ො
𝑥 𝐺𝑥 𝑥 − ො
𝑥 = ෍
𝑗
𝜎𝑗
2 𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑗
◼事後分布のσが小さい時 𝑁 𝑧; 𝜇,𝜎2
はδ関数 𝛿 𝑧 − 𝜇 に近似でき、これにより第二項は次式で展開可能
𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 = − ‫׬‬𝑁 𝑧; 𝜇, 𝜎2 log 𝑝 𝑧 𝑑𝑧 + ‫׬‬ 𝑁 𝑧;𝜇,𝜎2 log 𝑁 𝑧;𝜇,𝜎2 𝑑𝑧 ≃ −𝑝 𝝁 − σ𝑗
1
2
log 2𝜋𝑒𝜎𝑗
2
，よって
𝐸𝑝 𝑥 𝐷𝐾𝐿 𝑞𝜙 𝑧 𝑥 ||𝑝 𝑧 ≃ 𝐸𝑝 𝑥 −𝑞 𝑧 + −𝑝 𝑧 + 𝑞 𝑧 − ෍
𝑗
1
2
2
= 𝐸𝑝 𝑥 −𝑝 𝑥 det
𝜕𝑥
𝜕𝑧
+ 𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍
𝑗
1
2
2
◼上記よりVAEコスト(変分下限×-1)は深層画像圧縮とほぼ同じ式となる。違いは𝜎𝑗が可変か固定かのみ。
𝐿 = 𝐷 + 𝛽𝑅 ≃ 𝐸𝑝 𝑥 ෍
𝑗
𝜎𝑗
2 𝜕𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑗
− 𝛽 log det
𝜕𝒙
𝜕𝒛
+ 𝛽𝐷𝐾𝐿 𝑞 𝑧 ||𝑝 𝑧 − ෍
𝑗
𝛽
2
2
− 𝛽𝐸𝑝 𝑥 log𝑝 𝑥
◼最小化条件は深層画像圧縮同様に
𝝏𝒙
𝜕𝑧𝑗
𝑇
𝐺𝑥
𝜕𝒙
𝜕𝑧𝑘
= 𝛽/2𝜎𝑗
2
𝛿𝑗𝑘。ここでd𝑦𝑗/𝑑𝑧𝑗 = 𝛽/2𝜎𝑗
2
なる𝑦𝑗を導入すると
深層画像圧縮同様に𝐺𝑥の計量ベクトル空間と、𝑦のEuclid空間は等長となり、誤差はβ/2となる。
58

◼確率分布
➢ 潜在空間から分布に従ってサンプリングし、実空間のデータにデコードできること
各生成モデルの特徴のまとめ
データ確率分布の
明示的な獲得
潜在空間・潜在変数の獲得サンプリング
エンコード潜在空間の定量性サンプリング
VAE ×→○ ○ ×→○ 〇
GAN × × × ○
EBM 〇 × × 〇
RaDOGAGA ○ ○ ○ ○
再掲＋追記
RaDOGAGAと
VAEは満点に！
59

等長埋め込みの定量性を生かした
画像圧縮やデータ解析への応用
60

理論の評価と応用
◼ 等長性の評価
◼ 単一モデル＋可変量子化による深層画像圧縮のレート制御
◼ データの分布獲得と確率密度推定
◼ 教師無し異常検知
◼ 重要な説明変数の推定
61

実データでの等長性の評価
◼ ”RaDOGAGA” で両空間の内積を評価
◼ VAE で偏微分ノルム 𝜕𝒙/𝜕𝑦𝑗
2
を評価
• 潜在空間で二つの微小変位𝑑𝒚 1 , 𝑑𝒚 2 を
ランダム生成
• デコードしてデータ空間の𝑑𝒙 1 , 𝑑𝒙 2 を計算
• 等長空間とデータ空間の内積 𝑑𝒚 1 ⋅ 𝑑𝒚 2 及び
𝑑𝒙 1
𝑇
𝐺𝑥 𝑑𝒙 2 をプロットして等長性を評価
⇒ 異なるデータ・計量で高い相関性、等長性を示す
• 潜在空間で第 j 次元のみ微小量 𝜖 、他の次元は
0 の微小変位 𝑑𝒛 j = (0, ⋯,𝜖, ⋯) を生成。
• 𝜕𝒙/𝜕𝑦𝑗
2
≃
2𝜎𝑗
2
𝛽
𝐷 𝑔𝜃 𝒛 + 𝑑𝒛 j ,𝑔𝜃 𝒛 /𝜖2 の
左辺を各次元で評価。等長性より理論値は１。
⇒ 異なるデータ・計量で、データ空間と等長空間との
偏微分ノルムが全次元で１に近く、等長性を示す
データ：CelebA
計量：SSIM
データ：MNIST
計量： Binary Cross
Entropy
ノルムが全次元でほぼ1を示す
潜在変数の次元潜在変数の次元
データ：CelebA
計量：SSIM
データ：MNIST
計量： Binary Cross
Entropy
等長空間の内積
データ空間の内積
データ空間の内積
両空間の内積に高い相関性
62

可変量子化による深層画像圧縮のレート制御
◼ 従来の深層画像圧縮の課題
◼ ターゲットのレート毎にβを変えてL=D+βRで学習。
⇒ レート毎に異なる複数のモデルが必要に。
◼ βに依存するモデルのウィナーフィルタ的挙動が原因と推定
◼ 提案手法：等長空間における可変量子化
◼ ො
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 + 𝜖 , ෬
𝑥 = 𝑔𝜃 𝑓𝜙 𝑥 , 𝐷2 𝑥, ෬
𝑥 = log||𝑥 − ෬
𝑥||2
2
として 𝐿 = 𝐷 + 𝛽𝐷 ො
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥 で学習
⇒ 計量空間に対して等長性の高い潜在空間を獲得
◼ 上記モデルの潜在空間で、任意の量子化器 𝑇 を用いて
オフセット付量子化 𝑞 = sign 𝑧 floor 𝑍 /𝑇+ offset , Ƹ
𝑧 = 𝑞𝑇
⇒ ウィナーフィルタ的な効果を補う (H.264 JMと同様)
◼ 結果：単一モデル＋オフセット付の可変量子化で、
従来のレート毎の複数モデルと同等性能を達成
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥
計量空間と等長性の高い潜在空間獲得
0 T 2T 4T
3T
-T
-2T
-4T -3T
0 １ 2 4
3
-1
-2
-4 -3
単一モデル＋任意量子化器でオフセット付
の線形量子化 (H.264のJM相当)
SSIM及びPSNRにおいて
従来のレート毎モデルと
同等の性能を達成
Offset=0.45で
従来技術とほぼ同等
Jing Zhou, Akira Nakagawa, Keizo Kato, Sihan Wen, KimihikoKazui, Zhiming Tan, “Variable Rate Image Compression Method with Dead-zoneQuantizer,”
https://openaccess.thecvf.com/content_CVPRW_2020/papers/w7/Zhou_Variable_Rate_Image_Compression_Method_With_Dead
-Zone_Quantizer_CVPRW_2020_paper.pdf
63

確率密度の推定（VAE ／ RaDOGAGA共通)
◼ 計量テンソル𝐺𝑥の計量ベクトル空間での入力データの
確率密度を𝑝𝐺𝑥
(𝑥)、等長空間の確率密度を𝑝(𝑦)、
潜在空間の確率密度を𝑝(𝑧)とすると、これまでの議論
より、次の関係がある。
◼ 入力空間座標の確率密度を𝑝(𝑥)とすると、計量ベクトル
空間の確率密度𝑃𝐺𝑥
(𝑥)とは次の関係がある。
◼ よって、潜在空間の確率分布から、入力空間座標の
確率分布𝑝 𝑥 は次の式で導出可能となる。
入力空間
𝑝 𝑥
計量ベクトル空間
𝑝𝐺𝑥
𝑥
潜在空間 𝑝 𝑧
𝒑𝑮𝒙
𝒙 = 𝒑 𝒚 =
𝒑 𝒛 ෑ
𝒋
(𝝈𝒋/ 𝜷/𝟐)
𝒑 𝒙 =
𝒑𝑮𝒙
𝒙 𝐝𝐞𝐭 𝑮𝒙
𝑝𝐺𝑥
𝑥 = 𝑝 𝑦 = 𝑝 𝑧 det
𝜕𝑧
𝜕𝑦
= 𝑝 𝑧 ෑ
𝑗
(𝜎𝑗/ 𝛽/2)
𝑝 𝑥 = 𝑝𝐺𝑥
𝑥 det𝐺𝑥
𝑝 𝑥 = 𝑝 𝑧 det 𝐺𝑥 ς𝑗(𝜎𝑗/ 𝛽/2)
64

Copy right 2020 FUJITSU LABORATORIES LTD.
RaDOGAGAによる確率分布の推定
Input source
従来技術 (DAGMM)
P(x)
(High)
(Low)
実験条件
•従来技術 DAGMMと
提案技術RaDOGAGAで
上記3次元データを学習。
•データの確率密度(横軸)と
その推定値(縦軸)をプロット
◼ RaDOGAGAでデータの確率密度推定を評価、理論の正しさを検証
RaDOGAGA （Ours）
確率推定ができていない
D2は二乗誤差
高い予測精度だが若干のズレ
⇒ 等長性が若干失われている
高い予測精度
⇒ 等長性の向上
D2は二乗誤差の対数(より急峻)
評価結果
𝑥, ෬
𝑥 + 𝛾𝐷2 𝑥, ෬
𝑥 を最小化
DAGMM: Zong et.al, “Deep Autoencoding Gaussian Mixture Model for Unsupervised
Anomaly Detection,” https://sites.cs.ucsb.edu/~bzong/doc/iclr18-dagmm.pdf
65

VAEによる確率密度の推定
実験条件
• 上記分布をもつ3次元データ s1, s2, s3
から多次元データ xを作成。
• xの生成確率p(x) は以下で与えられる
p(x) = p(s1) p(s2) p(s3)
• 非線形の計量 Gx を用いてVAEで学習
• 各データの実際の確率と推定確率をプロット
結果
◼ VAEでデータの確率密度推定の評価を行い、理論の正しさを検証
等長空間での推定確率
データ確率と推定確率の
相関はとても高い
(相関係数 R=0.910)
𝑝 𝑧 det 𝐺𝑥 ς𝑗(𝜎𝑗/ 𝛽/2)
事前分布
データ確率と事前分布
(Prior)の確率の相関は低い
(相関係数 R=0.434)
𝑝 𝑧
p(x)
p(x)
66

教師無し異常検知
◼ RaDOGAGA／VAEの確率密度推定を教師無しの異常検知タスクに適用
⇒ F1で従来のSOTAを超える性能を達成。
異常検知のベンチマーク用データセット
• KDDCup/KDDCup-rev
通信アクセスデータ(データマイニング分野
の国際学会Knowledge Discovery
and Data Mining (KDD) が配布)
• Thyroid/Arrythmia
甲状腺数値データ、不整脈データ(カリ
フォルニア大学アーヴァイン校が配布)
67

潜在変数の重要度推定(VAE)
推定分散値で全次元をソートすると、画像変化の大きさ順になる。
⇒ 推定分散値は各次元の重要度（PCAの分散相当)を表す。
等長な潜在変数の各次元の重要度の評価
◼ 等張な潜在変数の各次元の分散は、
PCA同様に次元の重要度を示す。
◼ VAEでは、各次元の事後分布の分
散𝜎𝑗
2
を用いて、その次元の等長潜在
変数 𝑦𝑗 の分散は、次式で推定可能。
𝑉𝑎𝑟 𝑦𝑗 ≃
𝛽
2
𝐸𝑝(𝒙)[𝜎𝑗 𝒙
−2
]
◼ CelebA学習後、推定分散値で各
次元をソート。各次元の潜在変数を
一定割合ずつ変化させ、デコードした
画像の変化度合は推定分散値と
高い相関を示す。
潜在変数の分散
(各次元の重要度)
68

VAE ／ RaDOGAGAの選択基準の考察
入力データx
の分布p (x)
VAE
RaDOGAGA
Priorに
マッピング
等長空間に
マッピング
𝝏𝒚𝒋
𝝏𝒛𝒋
=
Τ
𝜷 𝟐
𝝈𝒋 𝒙
が橋渡し
Pros：Priorとσから簡単に入力データの確
率密度を推定できるので、モデル設計が簡単
Cons：潜在空間全体の分布を評価・分析
するためには、微分dyj/dzj を繋ぎ合わせて等
長空間を求める必要があり、データの分布に
よっては分析が困難（特に多峰分布）。
Pros：潜在空間が等長なので、潜在空間の
分布から入力データ特徴を直接的に分析可能
Cons：潜在空間のパラメトリックな確率分布
の選択など、モデル設計が若干難しい
入力と同確率目的に応じて使い分けが可能。
両者のハイブリッドも有効。
z ～ N(0, I)
p (x) ≒ pθ (y)
69

情報通信理論を活かした
今後のAIの方向性について
70

符号化の階層モデルとAI
◼ 1980年代に、原島先生により、『知的画像符号化』や『知的通信』が提唱された。
◼ 提唱された符号化の階層モデルとAI技術の関係
1. 波形符号化：信号波形情報を伝送
⇒ 深層画像圧縮
2. 分析合成符号化：画像のパラメータを伝送
⇒ GAN、VAEなどの生成モデル
3. 認識符号化：画像の要素を認識・伝送
⇒ Faster RCNN／DETR等の物体検出や、
SimCLR／BYOL等の教師無し表現学習
4. 知的符号化：画像の概念を伝送
⇒ CLIP／VilBERTなどのマルチモーダル学習
引用元：原島博、『知的画像符号化と知的通信』、
テレビジョン学会誌 1988 年 42 巻 6 号 p. 519-525
https://www.jstage.jst.go.jp/article/itej1978/42/6/42_6_519/_pdf/-char/ja
最先端の深層学習技術と深い関係性
71

画像の教師なし表現学習とその課題
Chen et.al., “Exploring Simple Siamese Representation Learning,”
https://arxiv.org/pdf/2011.10566.pdf より引用
Jing et.al., “Understanding Dimensional Collapse in Contrastive Self-
supervised Learning,” https://arxiv.org/pdf/2110.09348.pdf より引用
SimCLR、BYOL、SiｍSiamなど、大量の
画像から、データ自身が持っている表現を
教師無しで学習する手法の提案
• 獲得した潜在空間の定量的な解釈が困難。
• Dimensional Collapseという、潜在空間
自体が縮んでしまう現象が問題に。
課題：
レート歪最適化を取り入れれば
これらの課題が解決できるのでは？
72

◼ 最新の生成的AIモデルにレート歪最適化のエッセンスを取り入れることにより、
データからパラメータ・構造・記号・意味などが自動的に表出できるかも。
⇒ 生成的AIの究極形としての知的通信の実現
◼ 実際には、各データに適した学習モデルや計量の選択、そして、効率的かつ
安定な大規模学習技術など課題は山積。解決に向け、ぜひ挑戦したい。
情報通信理論を生かしたAI研究の方向性の私案
Image Language
Graph
Encoder
Decoder
Image Language
Graph
最新の生成的AIに情報通信理論をプラス
現実世界データ再構成された現実世界データ
レート歪の最適化により
定量的な潜在変数が自動表出
意味・概念
構造・記号
パラメータ
73

Thank you

PCSJ/IMPS2021 講演資料：深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PCSJ/IMPS2021 講演資料：深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)

Similar to PCSJ/IMPS2021 講演資料：深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明) (20)

PCSJ/IMPS2021 講演資料：深層画像圧縮からAIの生成モデルへ (VAEの定量的な理論解明)