ニューラルボコーダ概説
生成モデルと実用性の観点から
名古屋大学 博士後期3年 米山怜於
2025.06.13
音学シンポジウム
招待講演
2
はじめに
l ニューラルボコーダの発展を,生成モデルの発展になぞらえて概説します
l チュートリアル講演資料のため,はじめに基礎的な説明を含みます
l B4 〜 M1 くらいの知識を想定
l 最低限の理論的背景を説明するため,一定の数式は含みます
l ただし誤解を生まない範囲で導出を簡略化したり,直感的な説明を試みます
3
ニューラルボコーダと確率的生成モデル
ニューラルボコーダ
l 深層ニューラルネットワークに基づく音声波形生成モデル
l 確率的生成モデル(以下,生成モデル)に基づく設計が主流
なぜ生成モデル?
l 音声波形生成では,確率的な生成アプローチが本質的に重要
l 周期性・言語依存性を背景とする長期的で複雑な依存構造
l 記述しきれない揺らぎ(生理的変動・環境的ノイズ)
ニューラル
ボコーダ
音響特徴量 音声波形
音響モデル
4
全体マップ:生成モデルの比較
自己回帰モデル 正規化フロー GAN 拡散モデル
確率密度計算 できる できる できない 困難
PDF に伴う制約 逐次生成 逆変換・ヤコビアン
逆変換 決定的 できない 確率的
パラメトリック
分布の仮定
条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ
学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO 最大化
最小化する
分布間距離
KLD KLD JSD KLD
実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ
これらのモデルを主軸に,ニューラルボコーダの発展を概説
紹介順
5
確率的生成モデルの基本
問題設定
l データ分布 𝑝!"#"(𝒙) を近似するモデル 𝑝$(𝒙) を構築したい
l 𝑝!"#" は未知だが,𝑝!"#" に従うデータの集合 𝒳 = 𝒙(&), … , 𝒙(() は与えられる
l 各データサンプル 𝒙()) は 𝐷()) 次元の音声信号など
𝑝!"#"(𝒙)
⽣成モデル
𝑝$(𝒙)
データ分布
学習に利⽤
サンプリング
観測データ集合
新たなデータの創出
サンプリング
𝒳
𝒙 = (𝑥%, … , 𝑥&)
𝑝!"#"(𝒙) ≈ 𝑝$(𝒙)
6
確率的生成モデルの学習
学習目標:Kullback-Leibler Divergence (KLD) の最小化
𝐷!" 𝑝#$%$ ∥ 𝑝& = 𝔼𝒙 ~*%&'&
log
𝑝#$%$(𝒙)
𝑝& 𝒙
実線:𝑝!"#" 𝑥
点線:𝑝$ 𝑥
𝑥
7
対数尤度最大化:扱いやすい学習基準
対数尤度の最大化と等価
min
$
𝐷*+ 𝑝!"#" ∥ 𝑝$ = min
$
𝔼𝒙 ~/!"#"
log 𝑝!"#"(𝒙) − 𝔼𝒙 ~/!"#"
log 𝑝$ 𝒙
= max
$
𝔼𝒙 ~/!"#"
log 𝑝$ 𝒙
深層学習における最適化1
l 期待値の分布 𝔼𝒙 ~/!"#"
6 は,訓練データを用いてモンテカルロ近似可能
𝔼𝒙 ~/!"#"
log 𝑝$ 𝒙 ≈
1
𝒳
9
𝒙 ∈𝒳
log 𝑝$ 𝒙
l 期待値の中身 log 𝑝$ 𝒙 は,モデルから直接計算できるよう適切に設計
1実際のニューラルネットワークの学習では,確率的勾配降下法のため負の対数尤度(Negative Log-Likelihood: NLL)の最小化として実装される.
𝜃 に非依存
8
確率密度関数(PDF1)のモデル化と難しさ
非負制約
𝑝& 𝒙 ≥ 0 ∀𝒙
l 確率密度関数は定義域全体で常に 0 以上
l 出力層に,非負性を保証する活性化関数(例:ReLU)を使えば達成可能
正規化制約
/ 𝑝& 𝒙 𝑑𝒙 = 1
l 確率密度関数を全空間で積分すると1
l 明示的な制約なしでは,この積分の要件を満たせない
1
Probability Density Function の略
9
パラメトリックな分布モデリング
パラメトリック分布
l 特定の分布族(数式)を仮定して確率分布をモデル化
l DNN は,その数式のパラメータを出力
l 例:ガウス分布なら平均と分散,カテゴリカル分布ならロジット
確率密度関数の制約を自動的に充足
l 仮定した分布族が持つ性質を使える
ニューラル
ネットワーク
𝑓&
𝝁
∑
𝒩 𝒙; 𝝁, 𝚺
𝑝$(𝒙)
10
パラメトリックな分布モデリングの限界
高次元分布のモデル化は非常に困難
l たった1秒間の音声信号 𝒙 = 𝑥&, 𝑥2, … , 𝑥3 ∈ ℝ3 でも 𝐷 は数万以上
理由1:分布パラメータ数が非線形に増加
l 例:𝐷 次元の多変量ガウス分布 𝒩(𝒙; 𝝁, ∑)
l 共分散行列 Σ は 𝐷 × 𝐷 の対称行列
→ 𝐷(𝐷 + 1)/2 個の独立なパラメータ推定が必要
理由2:高次元データ分布の複雑性
l 実際のデータ分布は計り知れない複雑さを持つ
l 多峰性,非線形依存性など
l 解析的な分布族では,これらの複雑さを表現しきれない
11
自己回帰モデル:分解してパラメトライズ
自己回帰モデル 正規化フロー GAN 拡散モデル
確率密度計算 できる できる できない 困難
PDF に伴う制約 逐次生成 逆変換・ヤコビアン
逆変換 決定的 できない 確率的
パラメトリック
分布の仮定
条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ
学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO 最大化
最小化する
分布間距離
KLD KLD JSD KLD
実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ
12
自己回帰モデル
自己回帰モデルの基本概念
l 確率の連鎖律に基づき,𝑝 𝒙 を条件付き確率の積に分解1
𝑝 𝒙 = 9
+,-
.
𝑝 𝑥+ 𝒙/+)
l ここで,各条件付き分布 𝑝 𝑥4 𝒙54) は1次元分布
l パラメトリックな分布でも十分近似可能
l ニューラルネットワーク 𝑓$ は,先行要素 𝒙54 に基づいて
𝑥4 の分布パラメータを予測
1
連鎖律 𝑝(𝑥!, 𝑥") = 𝑝 𝑥" 𝑥!)𝑝(𝑥!) = 𝑝 𝑥! 𝑥")𝑝(𝑥") において分解順序は任意だが,音声や言語などの時系列データでは時間順がよく用いられる.
これは,実際に構築可能なモデル 𝑝# の表現力は有限であり,分解の順序がモデルの近似性能に影響するためである.
2
DNN の非線形性のおかげで,各条件付き分布の形が単純(例:単峰ガウス分布)であっても,全体として非常に複雑な同時分布を構成できる.
𝒙54
𝑓$(𝒙54)
…
𝑝$ 𝑥4 𝒙54)
分布パラメータ
𝑝 𝑥4 𝒙54)
近似
未知分布
13
自己回帰モデルの学習
学習目標
l 目的:同時分布 𝑝$ 𝒙 の対数尤度の最大化1
l 同時確率は「全ての条件付き確率の積」で得られる
l 各条件付き確率の対数尤度の和を最大化すれば良い
max
&
>
𝒙 ∈ 𝒳
log 𝑝𝒙 𝒙 = max
&
>
𝒙 ∈ 𝒳
>
+,-
.
log 𝑝& 𝑥+ 𝒙/+)
1尤度最大化による学習は,モデル分布 𝑝# とデータ分布 𝑝$%&% の KL ダイバージェンスを最小化する学習と等価であったことに注意.
𝒙54
𝑓$(𝒙54)
…
𝑝$ 𝑥4 𝒙54)
分布パラメータ
𝑝 𝑥4 𝒙54)
近似
未知分布
14
自己回帰モデルの実装例
WaveNet:自己回帰に基づく深層波形生成モデル
l 従来の信号処理ボコーダと比べ,非常に高品質な音声を生成可能に1
l 音声信号を 𝜇-law アルゴリズムで量子化し,多クラス分類の問題として定式化
𝑝$ 𝑥6 𝒙56) = Categorical 𝑥6 | Softmax(𝑓$(𝒙56))
1
WaveNet は End-to-End のテキスト音声合成モデルとして提案されたが,後にボコーダへ転用した WaveNet Vocoder [Tamamori+] が提案された.
[Oord+] WaveNet: A Generative Model for Raw Audio, Proc. SSW 9, 2016.
[Tamamori+] Speaker-dependent WaveNet vocoder, Proc. Interspeech, 2017.
𝜇 = 63 の場合の量子化区間
(WaveNet では 𝜇 = 255)
15
自己回帰モデルに基づくボコーダの課題
生成速度が遅い
l 先行要素(𝑥4 に対し 𝒙54)を要するため,逐次的な生成を要する
l 推論時に GPU などの並列演算を活用できない
l 実用における致命的なボトルネック
l 音声信号の長さ 𝐷 に比例した Forward 計算が必要
生成時のエラー蓄積
l ある時点での予測エラーが自己増幅的に後段に影響
l 最終的に大幅な品質劣化を招き得る
l 系列が長くなるほど,このエラー伝播のリスクは高まる
16
正規化フロー:並列生成が可能な生成モデル
自己回帰モデル 正規化フロー GAN 拡散モデル
確率密度計算 できる できる できない 困難
PDF に伴う制約 逐次生成 逆変換・ヤコビアン
逆変換 決定的 できない 確率的
パラメトリック
分布の仮定
条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ
学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO 最大化
最小化する
分布間距離
KLD KLD JSD KLD
実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ
17
正規化フロー
正規化フローの基本概念
l データ 𝒙 を,シンプルな潜在変数 𝒛 へ変換するモデル 𝑓& = 𝑓-,&(
∘ ⋯ ∘ 𝑓3,&)
l 各変換 𝑓4,&*
は「可逆(全単射)」な非線形関数
可逆性により変数変換の公式が成立
𝑝4 𝒙4 = 𝑝45- 𝑓4,&*
𝒙45- det
𝜕𝑓4,&*
𝜕𝒙4
空間の拡大・縮小率
(確率総量の保存)
各変換 𝑓',#!
に添えられた 𝑘 と 𝜃'は,層毎に異なる変換の形式およびパラメータを使えることを明示
𝒙+ 𝒙+,-
𝒙. 𝒙/
𝒙45- = 𝑓4,&*
(𝑥4)
𝒙4 = 𝑓4,&*
5-
(𝑥45-)
... ...
𝒙6 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙3 = 𝒙
𝒙 ~ 𝑝#$%$ 𝒙
18
正規化フローの学習
確率密度関数の制約を自動保証
l 𝑝𝒛(𝒛) には解析的な分布を仮定(例:標準ガウス分布)
𝑝𝒙 𝒙 = 𝑝𝒛(𝒛) 9
4,-
3
det
𝜕𝑓4,&*
𝒙4
𝜕𝒙4
𝒛 = 𝑓-,&(
∘ ⋯ ∘ 𝑓3,&)
(𝒙)
l 𝑝𝒙 を明示的にモデリングせずとも,正確に確率密度を計算できる1
1
このような 𝑝𝒙 はノンパラメトリック分布と呼ばれ,形状を仮定しないため分布を柔軟に表現できる
𝒙+ 𝒙+,-
𝒙. 𝒙/
𝒙45- = 𝑓4,&*
(𝑥4)
𝒙4 = 𝑓4,&*
5-
(𝑥45-)
... ...
𝒙6 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙3 = 𝒙
𝒙 ~ 𝑝#$%$ 𝒙
19
正規化フローの学習
学習目標:対数尤度の最大化1
max
&
>
𝒙 ∈ 𝒳
log 𝑝𝒙 𝒙
log 𝑝𝒙 𝒙 = log 𝑝𝒛(𝒛) + >
4,-
3
log det
𝜕𝑓4,&*
𝒙4
𝜕𝒙4
𝒛 = 𝑓-,&(
∘ ⋯ ∘ 𝑓3,&)
(𝒙)
𝒙+ 𝒙+,-
𝒙. 𝒙/
𝒙45- = 𝑓4,&*
(𝑥4)
𝒙4 = 𝑓4,&*
5-
(𝑥45-)
... ...
𝒙6 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
ここで,
1
対数尤度最大化はデータ分布 𝑝$%&% とモデル分布 𝑝# = 𝑝𝒙 の KLD 最小化と等価であることに注意
𝒙3 = 𝒙
𝒙 ~ 𝑝#$%$ 𝒙
20
正規化フローの学習
1
対数尤度最大化はデータ分布 𝑝$%&% とモデル分布 𝑝# = 𝑝𝒙 の KLD 最小化と等価であることに注意
学習目標:対数尤度の最大化1
max
&
>
𝒙 ∈ 𝒳
log 𝑝𝒙 𝒙
log 𝑝𝒙 𝒙 = log 𝑝𝒛(𝒛) + >
4,-
3
log det
𝜕𝑓4,&*
𝒙4
𝜕𝒙4
𝒛 = 𝑓-,&(
∘ ⋯ ∘ 𝑓3,&)
(𝒙)
⼀般に計算量 𝑂(𝐷8)
この計算が簡単になる
ように 𝑓9 の構造を⼯夫
(カップリング層, ⾃⼰回帰)
ここで,
𝒙+ 𝒙+,-
𝒙. 𝒙/
𝒙45- = 𝑓4,&*
(𝑥4)
𝒙4 = 𝑓4,&*
5-
(𝑥45-)
... ...
𝒙6 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙3 = 𝒙
𝒙 ~ 𝑝#$%$ 𝒙
21
正規化フローに基づくボコーダ
正規化フローに基づくボコーダ1
l FloWaveNet [Kim+],WaveGlow [Prenger+]
l アフィンカップリング [Dinh+] [Kingma+] に基づく並列生成モデル
l 自己回帰モデルの欠点を克服
[Kim+] FloWaveNet : A Generative Flow for Raw Audio, Proc. ICML, 2019.
[Prenger+] WaveGlow: A Flow-based Generative Network for Speech Synthesis, Proc. ICASSP, 2019.
[Dinh+] Density estimation using Real NVP, Proc. ICLR, 2017.
[Kingma+] Glow: Generative Flow with Invertible 1x1 Convolutions, Proc. NeurIPS, 2018.
[Kim+] WaveNODE: A Continuous Normalizing Flow for Speech Synthesis, Proc. ICML, 2020.
[Oord+] Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Proc. ICML, 2018.
[Ping+] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech, Proc. ICLR, 2019.
[Ping+] WaveFlow: A Compact Flow-based Model for Raw Audio, Proc. ICML, 2020.
1
Inverse Autoregressive Flow を確率密度蒸留で学習する手法として,
Parallel WaveNet [Oord+] ClariNet [Ping+] 等もある.時間の都合上,
これらのアプローチは本発表では紹介しない.
22
正規化フローに基づくボコーダの課題
正規化フローに基づくボコーダ1
l FloWaveNet [Kim+],WaveGlow [Prenger+]
l アフィンカップリング [Dinh+] [Kingma+] に基づく並列生成モデル
l 自己回帰モデルの欠点を克服
表現力・モデルサイズのトレードオフ2
l 構造制約により一層当たりの表現力が限られる
l 高品質化には多層化が必要となり,モデルサイズが増加
l パラメータ数は WaveNet の 18 倍以上 [Kim+]
[Kim+] FloWaveNet : A Generative Flow for Raw Audio, Proc. ICML, 2019.
[Prenger+] WaveGlow: A Flow-based Generative Network for Speech Synthesis, Proc. ICASSP, 2019.
[Dinh+] Density estimation using Real NVP, Proc. ICLR, 2017.
[Kingma+] Glow: Generative Flow with Invertible 1x1 Convolutions, Proc. NeurIPS, 2018.
[Kim+] WaveNODE: A Continuous Normalizing Flow for Speech Synthesis, Proc. ICML, 2020.
[Oord+] Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Proc. ICML, 2018.
[Ping+] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech, Proc. ICLR, 2019.
[Ping+] WaveFlow: A Compact Flow-based Model for Raw Audio, Proc. ICML, 2020.
1
Inverse Autoregressive Flow を確率密度蒸留で学習する手法として,
Parallel WaveNet [Oord+] ClariNet [Ping+] 等もある.時間の都合上,
これらのアプローチは本発表では紹介しない.
2
実際には表現力と並列性のトレードオフも存在し,一定の逐次生成を
許せば一層当たりの表現力を改善できる [Ping+].
23
GAN:PDF 制約を排除した柔軟なモデル設計
自己回帰モデル 正規化フロー GAN 拡散モデル
確率密度計算 できる できる できない 困難
PDF に伴う制約 逐次生成 逆変換・ヤコビアン
逆変換 決定的 できない 確率的
パラメトリック
分布の仮定
条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ
学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO 最大化
最小化する
分布間距離
KLD KLD JSD2 KLD
実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ
暗黙的生成モデル
明示的生成モデル
2
Cross-entropy 損失による Mini-Max ゲームの定式化では JSD が導かれる.
暗黙的生成モデル:PDF を明示的に定義せず,サンプリング生成のみ可能な生成モデル
24
GAN の基本概念
l 2つのモデルの Mini-Max ゲームを通じて生成モデルを学習する枠組み
min
𝒢
max
𝒟
𝑉(𝒟, 𝒢) = 𝔼<~/!"#"
log 𝒟(𝑧) − 𝔼=~/-
log 1 − 𝒟(𝒢 𝑧
l 生成器 𝒢:偽のデータを作成し,𝒟 を騙すことを目指す
l 識別器 𝒟:真のデータと 𝒢 が作った偽のデータを見分けることを目指す
[Goodfellow+] Generative Adversarial Nets, Proc. NeurIPS, 2014.
𝒟(𝒢 𝒛 )
𝒛 ~ 𝒩(𝟎, 𝐼) 𝒢
𝒟
𝒟(𝒙)
𝒙 ∈ 𝒳
𝒢 𝒛
Minimize
Maximize
Maximize
敵対的生成ネットワーク(GAN)
25
GAN の分布学習メカニズム
GAN は間接的に分布間距離を最小化
l 識別器 𝒟 が,最適な状態に学習されていると仮定 𝒟 = 𝒟∗
l 以下の Mini-Max ゲームは,生成器 𝒢 にとって JS ダイバージェンスの最小化と等価
min
𝒢
max
𝒟
𝑉(𝒟, 𝒢) = 𝔼<~/!"#"
log 𝒟(𝑧) − 𝔼=~/-
log 1 − 𝒟(𝒢 𝑧
min
𝒢
𝑉(𝒟∗, 𝒢) = min
𝒢
𝐷?@ 𝑝!"#" ∥ 𝑝$
Jensen-Shannon (JS) ダイバージェンス
𝐷?@ 𝑝!"#" ∥ 𝑝$ =
1
2
𝐷*+ 𝑝!"#" ∥ 𝑝AB"C +
1
2
𝐷*+ 𝑝$ ∥ 𝑝AB"C
𝑝AB"C(𝒙) =
1
2
𝑝!"#"(𝒙) + 𝑝$(𝒙)
参考:岡野原大輔「拡散モデル データ生成技術の数理」岩波書店.
26
GAN のモード崩壊問題
モード崩壊
l データ分布 𝑝!"#" 𝒙 > 0 となる領域で,𝑝$ 𝒙 ≈ 0 となる現象
l これにより,生成サンプルの多様性が著しく低下
𝑝$ では一部の
山(Mode)が崩壊
𝑥
実線:𝑝!"#" 𝑥
点線:𝑝$ 𝑥
27
GAN のモード崩壊問題
モード崩壊の原因
l 𝑝!"#" と 𝑝$ のサポートが被っていないと,JSD は定数になり勾配が消失
l データが存在する領域を無視しても罰則を受けないので生成器が改善しない
実線:𝑝!"#" 𝑥
点線:𝑝$ 𝑥
実線:JS
点線:KL
𝑥
28
補助損失による学習安定化
補助損失
l 目的:安定した勾配の提供と,勾配消失およびモード崩壊の防止
l 生成音声と正解音声の何らかの距離を使用することが多い
スペクトル距離損失 [Yamamoto+] [Kong+]
l 振幅スペクトルやメルスペクトル間の距離
l ランダム性が高い位相情報の学習は敵対的損失に委ねる1
Feature Matching 損失 [Kumar+]
l 識別器の中間層における特徴量の距離
l 敵対的損失に比べ,より具体的なガイドを識別器から得られる
[Yamamoto+] Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram, Proc. ICASSP, 2020.
[Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020.
[Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019.
29
理由1:音声の周波数エネルギーのダイナミックレンジの大きさ
l 音声は低域のパワーが強く,高域は弱い傾向
l 波形領域での L1/L2 損失では,高域の重要な情報が相対的に無視されやすい
l 一方,人の聴覚は高周波数帯域にも敏感なため,高域の学習は重要
l 対数振幅スペクトルを用いることで,ダイナミックレンジを圧縮し高域も効果的に学習
理由2:ニューラルボコーダは基本的に不良設定問題1
l 時間領域の距離損失 𝒙 − 𝒢(𝒛) & は位相の一致を強制
l ランダム性が高い位相を完璧に推定するのは非常に困難
l さらに位相は 2𝜋 回転による不確実性も持つ(一般にアンラップ処理で対策)
l 結果として,時間領域の距離損失は,過剰平滑化やノイズを発生しやすい [Kumar+]
1
完全再構成可能な問題設定(Neural Audio Codec 等)においては波形レベルや複素スペクトル領域の損失も利用されることがある.
<補足資料>
なぜ音声波形の距離を損失に使わないのか?
[Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019.
30
音声信号に適した識別器
識別器の重要性
l 異なる生成器を同じ識別器で学習すると生成品質の差が縮小 [You+]
l 優れた識別器は音声の重要な特徴を効果的に学習
l 敵対的損失・Feature Matching 損失を介して,識別器の知識が生成器に伝播
設計例
l Multi-Period Discriminator [Kong+]
l 一定の長さで音声信号を折り畳み,2次元(時間・周期)特徴量に変換
l 周期性という音声の基本構造を効果的に捉えて評価
l Multi-Resolution Discriminator [Jang+]
l 複数の時間周波数分解能で抽出した振幅スペクトログラムを用いて多角的に評価
[You+] GAN Vocoder: Multi-Resolution Discriminator Is All You Need, Proc. Interspeech, 2021.
[Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020.
[Jang+] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation, Proc. Interspeech, 2021.
31
GAN に基づくボコーダの課題
生成サンプルの多様性の低さ
l 同じ条件付けにおいて生成結果に多様性が生まれない
l モード消失(Mode Missing)と呼ばれる問題 [Che+] [Mao+]
l モデル分布のエントロピーが,データ分布と比べ著しく低い
モード消失の原因
l 生成器が多様性を担う潜在変数 𝒛 を無視する傾向がある
l モデルが高次元かつ構造的な条件付け特徴量のみを注視
l そもそも一部の手法では 𝒛 を入力しない決定的な変換として定式化
l MelGAN [Kumar+] や HiFi-GAN [Kong+] の系統
[Che+] Mode Regularized Generative Adversarial Networks, Proc. ICLR, 2017.
[Mao+] Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis. Proc. CVPR, 2019.
[Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019.
[Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020.
𝒛- 𝒛0
Generator 𝒢
殆ど or 完全に一致
32
拡散モデル:サンプル多様性と安定した学習
自己回帰モデル 正規化フロー GAN 拡散モデル
確率密度計算 できる できる できない 困難
PDF に伴う制約 逐次生成 逆変換・ヤコビアン
逆変換 決定的 できない 確率的
パラメトリック
分布の仮定
条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ
学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO最大化1
最小化する
分布間距離
KLD KLD JSD2 KLD
実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ
議論を単純にするため,本発表ではスコアマッチングからの導出には触れない
対数尤度の下限(ELBO)の最大化に基づくため,モード崩壊が起こりにくい
2 Evidence Lower Bound の略で,変分推論から導かれる対数尤度の下限のこと.
2
Cross-entropy 損失による Mini-Max ゲームの定式化では JSD が導かれる.
33
拡散モデル
拡散モデルの基本概念
l データからノイズへ向かうマルコフ過程(拡散過程)を定義
[Ho+] Denoising Diffusion Probabilistic Models, Proc. NeurIPS, 2020.
𝑡 はプロセスの段階を表すための時刻の概念であり,音声の時系列としての時間ではないことに注意.
𝒙1,- 𝒙1
𝒙/ 𝒙2
𝑞 𝒙8 𝒙85-
𝑝& 𝒙85- 𝒙8
... ...
𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙6 = 𝒙
𝒙 ~ 𝑝#$%$ 𝒙
𝑞 𝒙 = +
>?%
@
𝑞 𝒙> 𝒙>A%
𝑞 𝒙> 𝒙>A% = 𝒩 1 − 𝛽>𝒙>A%, 𝛽>𝐼
𝛽6 はノイズスケジューラと
呼ばれるハイパーパラメータ
34
拡散モデル
拡散モデルの基本概念
l 理想的な逆過程は,拡散過程から一意に定まる(ベイズの定理)
[Ho+] Denoising Diffusion Probabilistic Models, Proc. NeurIPS, 2020.
𝑡 はプロセスの段階を表すための時刻の概念であり,音声の時系列としての時間ではないことに注意.
𝒙1,- 𝒙1
𝒙/ 𝒙2
𝑞 𝒙8 𝒙85-
𝑝& 𝒙85- 𝒙8
... ...
𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙6 = 𝒙
𝑞 𝒙 = +
>?%
@
𝑞 𝒙> 𝒙>A%
𝑞 𝒙> 𝒙>A% = 𝒩 1 − 𝛽>𝒙>A%, 𝛽>𝐼
𝑞(𝒙>A%|𝒙>, 𝒙B) = 𝒩 𝒙>A%; 3
𝝁>(𝒙>, 𝒙B), 5
𝛽>𝐼
𝒙1, 𝒙/ と 𝛽1 のみで解析的に書ける
𝒙 ~ 𝑝#$%$ 𝒙
35
拡散モデル
拡散モデルの基本概念
l 理想的な逆過程は,拡散過程から一意に定まる(ベイズの定理)
[Ho+] Denoising Diffusion Probabilistic Models, Proc. NeurIPS, 2020.
𝑡 はプロセスの段階を表すための時刻の概念であり,音声の時系列としての時間ではないことに注意.
𝒙1,- 𝒙1
𝒙/ 𝒙2
𝑞 𝒙8 𝒙85-
𝑝& 𝒙85- 𝒙8
... ...
𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙6 = 𝒙
𝑞 𝒙 = +
>?%
@
𝑞 𝒙> 𝒙>A%
𝑞 𝒙> 𝒙>A% = 𝒩 1 − 𝛽>𝒙>A%, 𝛽>𝐼
𝑞(𝒙>A%|𝒙>, 𝒙B) = 𝒩 𝒙>A%; 3
𝝁>(𝒙>, 𝒙B), 5
𝛽>𝐼
𝒙1, 𝒙/ と 𝛽1 のみで解析的に書ける
推論時,𝒙/ は生成したいデータそのもの
𝒙 ~ 𝑝#$%$ 𝒙
36
拡散モデル
拡散モデルの基本概念
l 理想的な逆過程は,拡散過程から一意に定まる(ベイズの定理)
[Ho+] Denoising Diffusion Probabilistic Models, Proc. NeurIPS, 2020.
𝑡 はプロセスの段階を表すための時刻の概念であり,音声の時系列としての時間ではないことに注意.
𝒙1,- 𝒙1
𝒙/ 𝒙2
𝑞 𝒙8 𝒙85-
𝑝& 𝒙85- 𝒙8
... ...
𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙6 = 𝒙
𝑞 𝒙 = +
>?%
@
𝑞 𝒙> 𝒙>A%
𝑞 𝒙> 𝒙>A% = 𝒩 1 − 𝛽>𝒙>A%, 𝛽>𝐼
𝑞(𝒙>A%|𝒙>, 𝒙B) = 𝒩 𝒙>A%; 3
𝝁>(𝒙>, 𝒙B), 5
𝛽>𝐼
→ 目標:𝑞(𝒙6D&|𝒙6, 𝒙E) ≈ 𝑝$ 𝒙6D& 𝒙6 の学習
𝒙1, 𝒙/ と 𝛽1 のみで解析的に書ける
推論時,𝒙/ は生成したいデータそのもの
𝒙 ~ 𝑝#$%$ 𝒙
37
拡散モデルの学習
学習の中核:時刻ごとの KLD 最小化1
目標分布 𝒩 𝒙>A%; 3
𝝁>(𝒙>, 𝒙B), 5
𝛽>𝐼
解析的に求まる
min
$
𝐷DE 𝑞(𝒙>A%|𝒙>, 𝒙B) ∥ 𝑝$ 𝒙>A% 𝒙>
モデル分布 𝒩 𝜇$(𝒙>, 𝑡), 𝜎>𝐼
正規分布の平均パラメータを予測
𝒙1,- 𝒙1
𝒙/ 𝒙2
𝑞 𝒙8 𝒙85-
𝑝& 𝒙85- 𝒙8
... ...
𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙6 = 𝒙
1 本来この目的関数は対数尤度の下限(ELBO)から導かれるものだが,説明を簡潔にするため正面からの導出を省いている.
マルコフ性のおかげで各時刻(拡散ステップ)を分離して学習でき,効率的な訓練(シミュレーションフリー)が可能になる.
𝒙 ~ 𝑝#$%$ 𝒙
38
拡散モデルの学習
学習の中核:時刻ごとの KLD 最小化
1さらにこの式を変形していくと,結局ノイズ推定と等価になる.ゆえに拡散モデルはしばしばノイズを推定するモデルと呼ばれる.
𝒙1,- 𝒙1
𝒙/ 𝒙2
𝑞 𝒙8 𝒙85-
... ...
min
$
𝐷DE 𝑞(𝒙>A%|𝒙>, 𝒙B) ∥ 𝑝$ 𝒙>A% 𝒙>
ガウス分布同士の KL ダイバージェンスのため,解析的に計算可能
分散は固定なので,平均パラメータの重みつき MSE になる1
𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛
𝒙6 = 𝒙
𝑝& 𝒙85- 𝒙8
𝒙 ~ 𝑝#$%$ 𝒙
39
拡散モデルに基づくニューラルボコーダ(一部)
ニューラルボコーダへの適用の先駆け
l DiffWave [Kong+21]
l WaveGrad [Chen+21]
音声に合わせたスケジューラの設計
l MultiBandDiffusion [Roman+]
l 高域の消失を緩やかに設定
l BDDM [Lam+], FastDiff [Huang+]
l 推論時のスケジューラを学習
[Kong+] DiffWave: A Versatile Diffusion Model for Audio Synthesis, Proc. ICLR, 2021.
[Chen+] WaveGrad: Estimating Gradients for Waveform Generation, Proc. ICLR, 2021.
[Roman+] From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion, Proc. NeurIPS, 2023.
[Lam+] BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech Synthesis, Proc. ICLR, 2022.
[Huang+] FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis, Proc. IJCAI, 2022.
[Lee+] PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022.
[Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022.
[Takahashi+] Hierarchical Diffusion Models for Singing Voice Neural Vocoder, Proc. ICASSP, 2023.
音声に合わせた事前分布の設計
l PriorGrad [Lee+](紹介)
l SpecGrad [Koizumi+](紹介)
音声に合わせた部分問題への分解
l MultiBandDiffusion [Roman+]
l 帯域分割して独立に生成
l HPG(歌声)[Takahashi+]
l 多段階の超解像的アプローチ
40
音声に合わせた事前分布の設計
適切な事前分布を用いることで品質や収束速度,推論効率が改善
SpecGrad は論文を参考に再現実装しつつ調整
𝑧3 ~ 𝒩(0, ∑3)
𝑧3 ~ 𝒩(0, 𝜎3𝐼)
時間フレームごとの
エネルギーで適応
時間フレームごとの
スペクトル包絡で適応
条件付けメル
事前分布 𝑝𝒛 の
対数振幅スペクトログラム
[Lee+] PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022.
[Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022.
PriorGrad SpecGrad
41
音声に合わせた事前分布の設計
適切な事前分布を用いることで品質や収束速度,推論効率が改善
[Lee+] PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022.
[Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022.
SpecGrad は論文を参考に再現実装しつつ調整
条件付けメル
𝑧3 ~ 𝒩(0, ∑3)
𝑧3 ~ 𝒩(0, 𝜎3𝐼)
時間フレームごとの
エネルギーで適応
時間フレームごとの
スペクトル包絡で適応
PriorGrad SpecGrad
42
拡散モデルに基づくボコーダの課題
生成品質・速度のトレードオフ
l データ生成に多段の推論ステップを要する
l 推論ステップ数を増やせば品質は上がるが,生成時間が増加
l 1ステップあたりの計算コスト
l 拡散モデルの推定器が GAN より高速・軽量とは限らない
ハイパーパラメータの調整
l 拡散過程の設計は,モデルの性能に直結
l 音声に適した事前分布やスケジューラ [Roman+] が重要
l データセットやモダリティが異なると,適切な設定も変わり得る
[Roman+] From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion, Proc. NeurIPS, 2023.
43
拡散モデルに基づくボコーダの課題
生成品質・速度のトレードオフ
l データ生成に多段の推論ステップを要する
l 推論ステップ数を増やせば品質は上がるが,生成時間が増加
l 1ステップあたりの計算コスト
l 拡散モデルの推定器が GAN より高速・軽量とは限らない
ハイパーパラメータの調整
l 拡散過程の設計は,モデルの性能に直結
l 音声に適した事前分布やスケジューラ [Roman+] が重要
l データセットやモダリティが異なると,適切な設定も変わり得る
[Roman+] From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion, Proc. NeurIPS, 2023.
拡散モデルの効率的な代替として注目されているフローマッチングを紹介
44
フローマッチング
フローマッチングの基本概念
l ある分布と別の分布の間を繋ぐデータ点の経路を,常微分方程式を用いて記述
𝑑𝒙6
𝑑𝑡
= 𝑢6(𝒙6)
l 𝑢6(𝒙6):時刻 𝑡 においてデータ点 𝒙6 がどのように変化すべきかを表すベクトル
l 正規化フロー・拡散モデルと同様に,分布間の双方向的な変換をモデル化1
[Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023.
𝒙1451 𝒙1
𝒙- 𝒙/
... ...
𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙
𝒙E = 𝒛
𝑑𝒙6
𝑑𝑡
= 𝑢6(𝒙6)
𝒛 ~ 𝑝𝒛 𝒛
1
正規化フローの変換を無限に細かく刻み,連続時間の微分方程式として定式化した連続時間正規化フローという生成モデルがある.
また,拡散モデルも同様に連続時間化が可能である.これらのモデルは全て微分方程式の解を学習するという点で共通した枠組み.
モデル 𝑣$(𝑡, 𝒙) は
ベクトル場を推定
45
フローマッチング
数値積分(例:オイラー法)による変数変換
l 潜在変数 𝒙E からデータ 𝒙& を生成
𝒙& = 𝒙E + ^
E
&
𝑢6(𝒙6) 𝑑𝑡
l データ 𝒙& から潜在変数 𝒙E を推定
𝒙E = 𝒙& − ^
E
&
𝑢6 𝒙6 𝑑𝑡
l 例:𝑡 = 1 ではデータ分布 𝑝& = 𝑝!"#" を,𝑡 = 0 ではガウス分布 𝑝E = 𝑝𝒛 を仮定
[Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023.
𝒙1451 𝒙1
𝒙- 𝒙/
... ...
モデル 𝑣$(𝑡, 𝒙) は
ベクトル場を推定
𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙
𝒙E = 𝒛
𝑑𝒙6
𝑑𝑡
= 𝑢6(𝒙6)
𝒛 ~ 𝑝𝒛 𝒛
46
フローマッチング
数値積分(例:オイラー法)による変数変換
l 潜在変数 𝒙E からデータ 𝒙& を生成
𝒙& = 𝒙E + ^
E
&
𝑢6(𝒙6) 𝑑𝑡
l データ 𝒙& から潜在変数 𝒙E を推定
𝒙E = 𝒙& − ^
E
&
𝑢6(𝒙6) 𝑑𝑡
l 例:𝑡 = 1 ではデータ分布 𝑝& = 𝑝!"#" を,𝑡 = 0 ではガウス分布 𝑝E = 𝑝𝒛 を仮定
[Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023.
𝒙1451 𝒙1
𝒙- 𝒙/
... ...
学習目標:𝑢8(𝒙8) を推定する
ネットワーク 𝑣$(𝑡, 𝒙) の学習1
モデル 𝑣$(𝑡, 𝒙) は
ベクトル場を推定
1
実際は各データサンプル 𝒙! による条件付きベクトル場 𝑢*(𝒙*|𝒙!) の回帰問題を学習する.局所的なベクトル場の学習を通じて大域的なデータ生成能力を獲得するイメージ.
𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙
𝒙E = 𝒛
𝑑𝒙6
𝑑𝑡
= 𝑢6(𝒙6)
𝒛 ~ 𝑝𝒛 𝒛
47
フローマッチングはなぜ効率的か?
幾何的制約による帰納バイアス [Lipman+] [Onken+]
l 学習目標 𝑢6 に対応する経路を事前に設計する必要がある
l (連続)正規化フローでは,尤度最大化の観点で経路を学習していると見做せる
l 一転して,シンプルな経路を仮定できる
l 拡散モデル:拡散過程という幾何的に複雑な経路
l フローマッチング:線形補間などシンプルな経路
l 結果的として,学習効率・汎化性能の向上,推論ステップ短縮に寄与
[Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023.
[Onken+] OT-Flow: Fast and Accurate Continuous Normalizing Flows via Optimal Transport, Proc. AAAI, 2021.
𝒙1451 𝒙1
𝒙- 𝒙/
... ...
𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙
𝒙E = 𝒛
𝑑𝒙6
𝑑𝑡
= 𝑢6(𝒙6)
𝒛 ~ 𝑝𝒛 𝒛
48
フローマッチングに基づくボコーダ
PeriodWave [Lee+]
l 拡散モデルに基づくボコーダの工夫を効果的に活用
l 微分方程式という共通の数学的土台 [Gao+]
l フローマッチングは決定論的なノイズ除去とも解釈できる1
WaveFM [Luo+]
l PriorGrad の事前分布を使用
l GAN ボコーダに倣ったスペクトル距離損失を導入
l DNN が音声信号を回帰するよう損失関数をリパラメトライズ
2025年6月の時点では未だ少数の手法しか提案されておらず,今後の発展に期待
[Lee+] PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation, Proc. ICLR, 2025.
[Gao+] Diffusion Models and Gaussian Flow Matching: Two Sides of the Same Coin, Proc. ICLR, 2025.
[Luo+] WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching, Proc. NAACL, 2025.
1 𝑝𝒛 にガウス分布を仮定した場合
49
生成モデルの理論基盤 × 音声ドメイン知識 =性能
各種生成モデルの理論基盤
l 高次元データ分布をどのようにモデル化するか
l 異なるモデルに共通するアプローチ
音声ドメイン知識に基づく性能改善
l GAN:補助損失の導入,識別器の設計
l 拡散モデル:スケジューラ・事前分布の設計
現状,実用的には GAN 系が有利
l 1ステップで生成可能,軽量化・低遅延化がしやすい
l 長期的な研究による豊富な知見・経験則の集積
データと潜在変数の双方向的な変換を定義
(正規化フロー,拡散モデル,フローマッチング)
パラメトリック近似可能なサブタスクに変換
分割統治的な分布設計戦略
(自己回帰・拡散モデル)

音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」

  • 1.
  • 2.
    2 はじめに l ニューラルボコーダの発展を,生成モデルの発展になぞらえて概説します l チュートリアル講演資料のため,はじめに基礎的な説明を含みます lB4 〜 M1 くらいの知識を想定 l 最低限の理論的背景を説明するため,一定の数式は含みます l ただし誤解を生まない範囲で導出を簡略化したり,直感的な説明を試みます
  • 3.
    3 ニューラルボコーダと確率的生成モデル ニューラルボコーダ l 深層ニューラルネットワークに基づく音声波形生成モデル l 確率的生成モデル(以下,生成モデル)に基づく設計が主流 なぜ生成モデル? l音声波形生成では,確率的な生成アプローチが本質的に重要 l 周期性・言語依存性を背景とする長期的で複雑な依存構造 l 記述しきれない揺らぎ(生理的変動・環境的ノイズ) ニューラル ボコーダ 音響特徴量 音声波形 音響モデル
  • 4.
    4 全体マップ:生成モデルの比較 自己回帰モデル 正規化フロー GAN拡散モデル 確率密度計算 できる できる できない 困難 PDF に伴う制約 逐次生成 逆変換・ヤコビアン 逆変換 決定的 できない 確率的 パラメトリック 分布の仮定 条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ 学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO 最大化 最小化する 分布間距離 KLD KLD JSD KLD 実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ これらのモデルを主軸に,ニューラルボコーダの発展を概説 紹介順
  • 5.
    5 確率的生成モデルの基本 問題設定 l データ分布 𝑝!"#"(𝒙)を近似するモデル 𝑝$(𝒙) を構築したい l 𝑝!"#" は未知だが,𝑝!"#" に従うデータの集合 𝒳 = 𝒙(&), … , 𝒙(() は与えられる l 各データサンプル 𝒙()) は 𝐷()) 次元の音声信号など 𝑝!"#"(𝒙) ⽣成モデル 𝑝$(𝒙) データ分布 学習に利⽤ サンプリング 観測データ集合 新たなデータの創出 サンプリング 𝒳 𝒙 = (𝑥%, … , 𝑥&) 𝑝!"#"(𝒙) ≈ 𝑝$(𝒙)
  • 6.
    6 確率的生成モデルの学習 学習目標:Kullback-Leibler Divergence (KLD)の最小化 𝐷!" 𝑝#$%$ ∥ 𝑝& = 𝔼𝒙 ~*%&'& log 𝑝#$%$(𝒙) 𝑝& 𝒙 実線:𝑝!"#" 𝑥 点線:𝑝$ 𝑥 𝑥
  • 7.
    7 対数尤度最大化:扱いやすい学習基準 対数尤度の最大化と等価 min $ 𝐷*+ 𝑝!"#" ∥𝑝$ = min $ 𝔼𝒙 ~/!"#" log 𝑝!"#"(𝒙) − 𝔼𝒙 ~/!"#" log 𝑝$ 𝒙 = max $ 𝔼𝒙 ~/!"#" log 𝑝$ 𝒙 深層学習における最適化1 l 期待値の分布 𝔼𝒙 ~/!"#" 6 は,訓練データを用いてモンテカルロ近似可能 𝔼𝒙 ~/!"#" log 𝑝$ 𝒙 ≈ 1 𝒳 9 𝒙 ∈𝒳 log 𝑝$ 𝒙 l 期待値の中身 log 𝑝$ 𝒙 は,モデルから直接計算できるよう適切に設計 1実際のニューラルネットワークの学習では,確率的勾配降下法のため負の対数尤度(Negative Log-Likelihood: NLL)の最小化として実装される. 𝜃 に非依存
  • 8.
    8 確率密度関数(PDF1)のモデル化と難しさ 非負制約 𝑝& 𝒙 ≥0 ∀𝒙 l 確率密度関数は定義域全体で常に 0 以上 l 出力層に,非負性を保証する活性化関数(例:ReLU)を使えば達成可能 正規化制約 / 𝑝& 𝒙 𝑑𝒙 = 1 l 確率密度関数を全空間で積分すると1 l 明示的な制約なしでは,この積分の要件を満たせない 1 Probability Density Function の略
  • 9.
    9 パラメトリックな分布モデリング パラメトリック分布 l 特定の分布族(数式)を仮定して確率分布をモデル化 l DNNは,その数式のパラメータを出力 l 例:ガウス分布なら平均と分散,カテゴリカル分布ならロジット 確率密度関数の制約を自動的に充足 l 仮定した分布族が持つ性質を使える ニューラル ネットワーク 𝑓& 𝝁 ∑ 𝒩 𝒙; 𝝁, 𝚺 𝑝$(𝒙)
  • 10.
    10 パラメトリックな分布モデリングの限界 高次元分布のモデル化は非常に困難 l たった1秒間の音声信号 𝒙= 𝑥&, 𝑥2, … , 𝑥3 ∈ ℝ3 でも 𝐷 は数万以上 理由1:分布パラメータ数が非線形に増加 l 例:𝐷 次元の多変量ガウス分布 𝒩(𝒙; 𝝁, ∑) l 共分散行列 Σ は 𝐷 × 𝐷 の対称行列 → 𝐷(𝐷 + 1)/2 個の独立なパラメータ推定が必要 理由2:高次元データ分布の複雑性 l 実際のデータ分布は計り知れない複雑さを持つ l 多峰性,非線形依存性など l 解析的な分布族では,これらの複雑さを表現しきれない
  • 11.
    11 自己回帰モデル:分解してパラメトライズ 自己回帰モデル 正規化フロー GAN拡散モデル 確率密度計算 できる できる できない 困難 PDF に伴う制約 逐次生成 逆変換・ヤコビアン 逆変換 決定的 できない 確率的 パラメトリック 分布の仮定 条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ 学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO 最大化 最小化する 分布間距離 KLD KLD JSD KLD 実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ
  • 12.
    12 自己回帰モデル 自己回帰モデルの基本概念 l 確率の連鎖律に基づき,𝑝 𝒙を条件付き確率の積に分解1 𝑝 𝒙 = 9 +,- . 𝑝 𝑥+ 𝒙/+) l ここで,各条件付き分布 𝑝 𝑥4 𝒙54) は1次元分布 l パラメトリックな分布でも十分近似可能 l ニューラルネットワーク 𝑓$ は,先行要素 𝒙54 に基づいて 𝑥4 の分布パラメータを予測 1 連鎖律 𝑝(𝑥!, 𝑥") = 𝑝 𝑥" 𝑥!)𝑝(𝑥!) = 𝑝 𝑥! 𝑥")𝑝(𝑥") において分解順序は任意だが,音声や言語などの時系列データでは時間順がよく用いられる. これは,実際に構築可能なモデル 𝑝# の表現力は有限であり,分解の順序がモデルの近似性能に影響するためである. 2 DNN の非線形性のおかげで,各条件付き分布の形が単純(例:単峰ガウス分布)であっても,全体として非常に複雑な同時分布を構成できる. 𝒙54 𝑓$(𝒙54) … 𝑝$ 𝑥4 𝒙54) 分布パラメータ 𝑝 𝑥4 𝒙54) 近似 未知分布
  • 13.
    13 自己回帰モデルの学習 学習目標 l 目的:同時分布 𝑝$𝒙 の対数尤度の最大化1 l 同時確率は「全ての条件付き確率の積」で得られる l 各条件付き確率の対数尤度の和を最大化すれば良い max & > 𝒙 ∈ 𝒳 log 𝑝𝒙 𝒙 = max & > 𝒙 ∈ 𝒳 > +,- . log 𝑝& 𝑥+ 𝒙/+) 1尤度最大化による学習は,モデル分布 𝑝# とデータ分布 𝑝$%&% の KL ダイバージェンスを最小化する学習と等価であったことに注意. 𝒙54 𝑓$(𝒙54) … 𝑝$ 𝑥4 𝒙54) 分布パラメータ 𝑝 𝑥4 𝒙54) 近似 未知分布
  • 14.
    14 自己回帰モデルの実装例 WaveNet:自己回帰に基づく深層波形生成モデル l 従来の信号処理ボコーダと比べ,非常に高品質な音声を生成可能に1 l 音声信号を𝜇-law アルゴリズムで量子化し,多クラス分類の問題として定式化 𝑝$ 𝑥6 𝒙56) = Categorical 𝑥6 | Softmax(𝑓$(𝒙56)) 1 WaveNet は End-to-End のテキスト音声合成モデルとして提案されたが,後にボコーダへ転用した WaveNet Vocoder [Tamamori+] が提案された. [Oord+] WaveNet: A Generative Model for Raw Audio, Proc. SSW 9, 2016. [Tamamori+] Speaker-dependent WaveNet vocoder, Proc. Interspeech, 2017. 𝜇 = 63 の場合の量子化区間 (WaveNet では 𝜇 = 255)
  • 15.
    15 自己回帰モデルに基づくボコーダの課題 生成速度が遅い l 先行要素(𝑥4 に対し𝒙54)を要するため,逐次的な生成を要する l 推論時に GPU などの並列演算を活用できない l 実用における致命的なボトルネック l 音声信号の長さ 𝐷 に比例した Forward 計算が必要 生成時のエラー蓄積 l ある時点での予測エラーが自己増幅的に後段に影響 l 最終的に大幅な品質劣化を招き得る l 系列が長くなるほど,このエラー伝播のリスクは高まる
  • 16.
    16 正規化フロー:並列生成が可能な生成モデル 自己回帰モデル 正規化フロー GAN拡散モデル 確率密度計算 できる できる できない 困難 PDF に伴う制約 逐次生成 逆変換・ヤコビアン 逆変換 決定的 できない 確率的 パラメトリック 分布の仮定 条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ 学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO 最大化 最小化する 分布間距離 KLD KLD JSD KLD 実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ
  • 17.
    17 正規化フロー 正規化フローの基本概念 l データ 𝒙を,シンプルな潜在変数 𝒛 へ変換するモデル 𝑓& = 𝑓-,&( ∘ ⋯ ∘ 𝑓3,&) l 各変換 𝑓4,&* は「可逆(全単射)」な非線形関数 可逆性により変数変換の公式が成立 𝑝4 𝒙4 = 𝑝45- 𝑓4,&* 𝒙45- det 𝜕𝑓4,&* 𝜕𝒙4 空間の拡大・縮小率 (確率総量の保存) 各変換 𝑓',#! に添えられた 𝑘 と 𝜃'は,層毎に異なる変換の形式およびパラメータを使えることを明示 𝒙+ 𝒙+,- 𝒙. 𝒙/ 𝒙45- = 𝑓4,&* (𝑥4) 𝒙4 = 𝑓4,&* 5- (𝑥45-) ... ... 𝒙6 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙3 = 𝒙 𝒙 ~ 𝑝#$%$ 𝒙
  • 18.
    18 正規化フローの学習 確率密度関数の制約を自動保証 l 𝑝𝒛(𝒛) には解析的な分布を仮定(例:標準ガウス分布) 𝑝𝒙𝒙 = 𝑝𝒛(𝒛) 9 4,- 3 det 𝜕𝑓4,&* 𝒙4 𝜕𝒙4 𝒛 = 𝑓-,&( ∘ ⋯ ∘ 𝑓3,&) (𝒙) l 𝑝𝒙 を明示的にモデリングせずとも,正確に確率密度を計算できる1 1 このような 𝑝𝒙 はノンパラメトリック分布と呼ばれ,形状を仮定しないため分布を柔軟に表現できる 𝒙+ 𝒙+,- 𝒙. 𝒙/ 𝒙45- = 𝑓4,&* (𝑥4) 𝒙4 = 𝑓4,&* 5- (𝑥45-) ... ... 𝒙6 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙3 = 𝒙 𝒙 ~ 𝑝#$%$ 𝒙
  • 19.
    19 正規化フローの学習 学習目標:対数尤度の最大化1 max & > 𝒙 ∈ 𝒳 log𝑝𝒙 𝒙 log 𝑝𝒙 𝒙 = log 𝑝𝒛(𝒛) + > 4,- 3 log det 𝜕𝑓4,&* 𝒙4 𝜕𝒙4 𝒛 = 𝑓-,&( ∘ ⋯ ∘ 𝑓3,&) (𝒙) 𝒙+ 𝒙+,- 𝒙. 𝒙/ 𝒙45- = 𝑓4,&* (𝑥4) 𝒙4 = 𝑓4,&* 5- (𝑥45-) ... ... 𝒙6 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 ここで, 1 対数尤度最大化はデータ分布 𝑝$%&% とモデル分布 𝑝# = 𝑝𝒙 の KLD 最小化と等価であることに注意 𝒙3 = 𝒙 𝒙 ~ 𝑝#$%$ 𝒙
  • 20.
    20 正規化フローの学習 1 対数尤度最大化はデータ分布 𝑝$%&% とモデル分布𝑝# = 𝑝𝒙 の KLD 最小化と等価であることに注意 学習目標:対数尤度の最大化1 max & > 𝒙 ∈ 𝒳 log 𝑝𝒙 𝒙 log 𝑝𝒙 𝒙 = log 𝑝𝒛(𝒛) + > 4,- 3 log det 𝜕𝑓4,&* 𝒙4 𝜕𝒙4 𝒛 = 𝑓-,&( ∘ ⋯ ∘ 𝑓3,&) (𝒙) ⼀般に計算量 𝑂(𝐷8) この計算が簡単になる ように 𝑓9 の構造を⼯夫 (カップリング層, ⾃⼰回帰) ここで, 𝒙+ 𝒙+,- 𝒙. 𝒙/ 𝒙45- = 𝑓4,&* (𝑥4) 𝒙4 = 𝑓4,&* 5- (𝑥45-) ... ... 𝒙6 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙3 = 𝒙 𝒙 ~ 𝑝#$%$ 𝒙
  • 21.
    21 正規化フローに基づくボコーダ 正規化フローに基づくボコーダ1 l FloWaveNet [Kim+],WaveGlow[Prenger+] l アフィンカップリング [Dinh+] [Kingma+] に基づく並列生成モデル l 自己回帰モデルの欠点を克服 [Kim+] FloWaveNet : A Generative Flow for Raw Audio, Proc. ICML, 2019. [Prenger+] WaveGlow: A Flow-based Generative Network for Speech Synthesis, Proc. ICASSP, 2019. [Dinh+] Density estimation using Real NVP, Proc. ICLR, 2017. [Kingma+] Glow: Generative Flow with Invertible 1x1 Convolutions, Proc. NeurIPS, 2018. [Kim+] WaveNODE: A Continuous Normalizing Flow for Speech Synthesis, Proc. ICML, 2020. [Oord+] Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Proc. ICML, 2018. [Ping+] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech, Proc. ICLR, 2019. [Ping+] WaveFlow: A Compact Flow-based Model for Raw Audio, Proc. ICML, 2020. 1 Inverse Autoregressive Flow を確率密度蒸留で学習する手法として, Parallel WaveNet [Oord+] ClariNet [Ping+] 等もある.時間の都合上, これらのアプローチは本発表では紹介しない.
  • 22.
    22 正規化フローに基づくボコーダの課題 正規化フローに基づくボコーダ1 l FloWaveNet [Kim+],WaveGlow[Prenger+] l アフィンカップリング [Dinh+] [Kingma+] に基づく並列生成モデル l 自己回帰モデルの欠点を克服 表現力・モデルサイズのトレードオフ2 l 構造制約により一層当たりの表現力が限られる l 高品質化には多層化が必要となり,モデルサイズが増加 l パラメータ数は WaveNet の 18 倍以上 [Kim+] [Kim+] FloWaveNet : A Generative Flow for Raw Audio, Proc. ICML, 2019. [Prenger+] WaveGlow: A Flow-based Generative Network for Speech Synthesis, Proc. ICASSP, 2019. [Dinh+] Density estimation using Real NVP, Proc. ICLR, 2017. [Kingma+] Glow: Generative Flow with Invertible 1x1 Convolutions, Proc. NeurIPS, 2018. [Kim+] WaveNODE: A Continuous Normalizing Flow for Speech Synthesis, Proc. ICML, 2020. [Oord+] Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Proc. ICML, 2018. [Ping+] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech, Proc. ICLR, 2019. [Ping+] WaveFlow: A Compact Flow-based Model for Raw Audio, Proc. ICML, 2020. 1 Inverse Autoregressive Flow を確率密度蒸留で学習する手法として, Parallel WaveNet [Oord+] ClariNet [Ping+] 等もある.時間の都合上, これらのアプローチは本発表では紹介しない. 2 実際には表現力と並列性のトレードオフも存在し,一定の逐次生成を 許せば一層当たりの表現力を改善できる [Ping+].
  • 23.
    23 GAN:PDF 制約を排除した柔軟なモデル設計 自己回帰モデル 正規化フローGAN 拡散モデル 確率密度計算 できる できる できない 困難 PDF に伴う制約 逐次生成 逆変換・ヤコビアン 逆変換 決定的 できない 確率的 パラメトリック 分布の仮定 条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ 学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO 最大化 最小化する 分布間距離 KLD KLD JSD2 KLD 実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ 暗黙的生成モデル 明示的生成モデル 2 Cross-entropy 損失による Mini-Max ゲームの定式化では JSD が導かれる. 暗黙的生成モデル:PDF を明示的に定義せず,サンプリング生成のみ可能な生成モデル
  • 24.
    24 GAN の基本概念 l 2つのモデルのMini-Max ゲームを通じて生成モデルを学習する枠組み min 𝒢 max 𝒟 𝑉(𝒟, 𝒢) = 𝔼<~/!"#" log 𝒟(𝑧) − 𝔼=~/- log 1 − 𝒟(𝒢 𝑧 l 生成器 𝒢:偽のデータを作成し,𝒟 を騙すことを目指す l 識別器 𝒟:真のデータと 𝒢 が作った偽のデータを見分けることを目指す [Goodfellow+] Generative Adversarial Nets, Proc. NeurIPS, 2014. 𝒟(𝒢 𝒛 ) 𝒛 ~ 𝒩(𝟎, 𝐼) 𝒢 𝒟 𝒟(𝒙) 𝒙 ∈ 𝒳 𝒢 𝒛 Minimize Maximize Maximize 敵対的生成ネットワーク(GAN)
  • 25.
    25 GAN の分布学習メカニズム GAN は間接的に分布間距離を最小化 l識別器 𝒟 が,最適な状態に学習されていると仮定 𝒟 = 𝒟∗ l 以下の Mini-Max ゲームは,生成器 𝒢 にとって JS ダイバージェンスの最小化と等価 min 𝒢 max 𝒟 𝑉(𝒟, 𝒢) = 𝔼<~/!"#" log 𝒟(𝑧) − 𝔼=~/- log 1 − 𝒟(𝒢 𝑧 min 𝒢 𝑉(𝒟∗, 𝒢) = min 𝒢 𝐷?@ 𝑝!"#" ∥ 𝑝$ Jensen-Shannon (JS) ダイバージェンス 𝐷?@ 𝑝!"#" ∥ 𝑝$ = 1 2 𝐷*+ 𝑝!"#" ∥ 𝑝AB"C + 1 2 𝐷*+ 𝑝$ ∥ 𝑝AB"C 𝑝AB"C(𝒙) = 1 2 𝑝!"#"(𝒙) + 𝑝$(𝒙) 参考:岡野原大輔「拡散モデル データ生成技術の数理」岩波書店.
  • 26.
    26 GAN のモード崩壊問題 モード崩壊 l データ分布𝑝!"#" 𝒙 > 0 となる領域で,𝑝$ 𝒙 ≈ 0 となる現象 l これにより,生成サンプルの多様性が著しく低下 𝑝$ では一部の 山(Mode)が崩壊 𝑥 実線:𝑝!"#" 𝑥 点線:𝑝$ 𝑥
  • 27.
    27 GAN のモード崩壊問題 モード崩壊の原因 l 𝑝!"#"と 𝑝$ のサポートが被っていないと,JSD は定数になり勾配が消失 l データが存在する領域を無視しても罰則を受けないので生成器が改善しない 実線:𝑝!"#" 𝑥 点線:𝑝$ 𝑥 実線:JS 点線:KL 𝑥
  • 28.
    28 補助損失による学習安定化 補助損失 l 目的:安定した勾配の提供と,勾配消失およびモード崩壊の防止 l 生成音声と正解音声の何らかの距離を使用することが多い スペクトル距離損失[Yamamoto+] [Kong+] l 振幅スペクトルやメルスペクトル間の距離 l ランダム性が高い位相情報の学習は敵対的損失に委ねる1 Feature Matching 損失 [Kumar+] l 識別器の中間層における特徴量の距離 l 敵対的損失に比べ,より具体的なガイドを識別器から得られる [Yamamoto+] Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram, Proc. ICASSP, 2020. [Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020. [Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019.
  • 29.
    29 理由1:音声の周波数エネルギーのダイナミックレンジの大きさ l 音声は低域のパワーが強く,高域は弱い傾向 l 波形領域でのL1/L2 損失では,高域の重要な情報が相対的に無視されやすい l 一方,人の聴覚は高周波数帯域にも敏感なため,高域の学習は重要 l 対数振幅スペクトルを用いることで,ダイナミックレンジを圧縮し高域も効果的に学習 理由2:ニューラルボコーダは基本的に不良設定問題1 l 時間領域の距離損失 𝒙 − 𝒢(𝒛) & は位相の一致を強制 l ランダム性が高い位相を完璧に推定するのは非常に困難 l さらに位相は 2𝜋 回転による不確実性も持つ(一般にアンラップ処理で対策) l 結果として,時間領域の距離損失は,過剰平滑化やノイズを発生しやすい [Kumar+] 1 完全再構成可能な問題設定(Neural Audio Codec 等)においては波形レベルや複素スペクトル領域の損失も利用されることがある. <補足資料> なぜ音声波形の距離を損失に使わないのか? [Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019.
  • 30.
    30 音声信号に適した識別器 識別器の重要性 l 異なる生成器を同じ識別器で学習すると生成品質の差が縮小 [You+] l優れた識別器は音声の重要な特徴を効果的に学習 l 敵対的損失・Feature Matching 損失を介して,識別器の知識が生成器に伝播 設計例 l Multi-Period Discriminator [Kong+] l 一定の長さで音声信号を折り畳み,2次元(時間・周期)特徴量に変換 l 周期性という音声の基本構造を効果的に捉えて評価 l Multi-Resolution Discriminator [Jang+] l 複数の時間周波数分解能で抽出した振幅スペクトログラムを用いて多角的に評価 [You+] GAN Vocoder: Multi-Resolution Discriminator Is All You Need, Proc. Interspeech, 2021. [Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020. [Jang+] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation, Proc. Interspeech, 2021.
  • 31.
    31 GAN に基づくボコーダの課題 生成サンプルの多様性の低さ l 同じ条件付けにおいて生成結果に多様性が生まれない lモード消失(Mode Missing)と呼ばれる問題 [Che+] [Mao+] l モデル分布のエントロピーが,データ分布と比べ著しく低い モード消失の原因 l 生成器が多様性を担う潜在変数 𝒛 を無視する傾向がある l モデルが高次元かつ構造的な条件付け特徴量のみを注視 l そもそも一部の手法では 𝒛 を入力しない決定的な変換として定式化 l MelGAN [Kumar+] や HiFi-GAN [Kong+] の系統 [Che+] Mode Regularized Generative Adversarial Networks, Proc. ICLR, 2017. [Mao+] Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis. Proc. CVPR, 2019. [Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019. [Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020. 𝒛- 𝒛0 Generator 𝒢 殆ど or 完全に一致
  • 32.
    32 拡散モデル:サンプル多様性と安定した学習 自己回帰モデル 正規化フロー GAN拡散モデル 確率密度計算 できる できる できない 困難 PDF に伴う制約 逐次生成 逆変換・ヤコビアン 逆変換 決定的 できない 確率的 パラメトリック 分布の仮定 条件付き確率 潜在変数のみ 潜在変数のみ (逆)拡散ステップ 学習基準 尤度最大化 尤度最大化 Mini-Max ゲーム ELBO最大化1 最小化する 分布間距離 KLD KLD JSD2 KLD 実用的課題 生成速度 モデルサイズ サンプル多様性 生成速度の遅さ 議論を単純にするため,本発表ではスコアマッチングからの導出には触れない 対数尤度の下限(ELBO)の最大化に基づくため,モード崩壊が起こりにくい 2 Evidence Lower Bound の略で,変分推論から導かれる対数尤度の下限のこと. 2 Cross-entropy 損失による Mini-Max ゲームの定式化では JSD が導かれる.
  • 33.
    33 拡散モデル 拡散モデルの基本概念 l データからノイズへ向かうマルコフ過程(拡散過程)を定義 [Ho+] DenoisingDiffusion Probabilistic Models, Proc. NeurIPS, 2020. 𝑡 はプロセスの段階を表すための時刻の概念であり,音声の時系列としての時間ではないことに注意. 𝒙1,- 𝒙1 𝒙/ 𝒙2 𝑞 𝒙8 𝒙85- 𝑝& 𝒙85- 𝒙8 ... ... 𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙6 = 𝒙 𝒙 ~ 𝑝#$%$ 𝒙 𝑞 𝒙 = + >?% @ 𝑞 𝒙> 𝒙>A% 𝑞 𝒙> 𝒙>A% = 𝒩 1 − 𝛽>𝒙>A%, 𝛽>𝐼 𝛽6 はノイズスケジューラと 呼ばれるハイパーパラメータ
  • 34.
    34 拡散モデル 拡散モデルの基本概念 l 理想的な逆過程は,拡散過程から一意に定まる(ベイズの定理) [Ho+] DenoisingDiffusion Probabilistic Models, Proc. NeurIPS, 2020. 𝑡 はプロセスの段階を表すための時刻の概念であり,音声の時系列としての時間ではないことに注意. 𝒙1,- 𝒙1 𝒙/ 𝒙2 𝑞 𝒙8 𝒙85- 𝑝& 𝒙85- 𝒙8 ... ... 𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙6 = 𝒙 𝑞 𝒙 = + >?% @ 𝑞 𝒙> 𝒙>A% 𝑞 𝒙> 𝒙>A% = 𝒩 1 − 𝛽>𝒙>A%, 𝛽>𝐼 𝑞(𝒙>A%|𝒙>, 𝒙B) = 𝒩 𝒙>A%; 3 𝝁>(𝒙>, 𝒙B), 5 𝛽>𝐼 𝒙1, 𝒙/ と 𝛽1 のみで解析的に書ける 𝒙 ~ 𝑝#$%$ 𝒙
  • 35.
    35 拡散モデル 拡散モデルの基本概念 l 理想的な逆過程は,拡散過程から一意に定まる(ベイズの定理) [Ho+] DenoisingDiffusion Probabilistic Models, Proc. NeurIPS, 2020. 𝑡 はプロセスの段階を表すための時刻の概念であり,音声の時系列としての時間ではないことに注意. 𝒙1,- 𝒙1 𝒙/ 𝒙2 𝑞 𝒙8 𝒙85- 𝑝& 𝒙85- 𝒙8 ... ... 𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙6 = 𝒙 𝑞 𝒙 = + >?% @ 𝑞 𝒙> 𝒙>A% 𝑞 𝒙> 𝒙>A% = 𝒩 1 − 𝛽>𝒙>A%, 𝛽>𝐼 𝑞(𝒙>A%|𝒙>, 𝒙B) = 𝒩 𝒙>A%; 3 𝝁>(𝒙>, 𝒙B), 5 𝛽>𝐼 𝒙1, 𝒙/ と 𝛽1 のみで解析的に書ける 推論時,𝒙/ は生成したいデータそのもの 𝒙 ~ 𝑝#$%$ 𝒙
  • 36.
    36 拡散モデル 拡散モデルの基本概念 l 理想的な逆過程は,拡散過程から一意に定まる(ベイズの定理) [Ho+] DenoisingDiffusion Probabilistic Models, Proc. NeurIPS, 2020. 𝑡 はプロセスの段階を表すための時刻の概念であり,音声の時系列としての時間ではないことに注意. 𝒙1,- 𝒙1 𝒙/ 𝒙2 𝑞 𝒙8 𝒙85- 𝑝& 𝒙85- 𝒙8 ... ... 𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙6 = 𝒙 𝑞 𝒙 = + >?% @ 𝑞 𝒙> 𝒙>A% 𝑞 𝒙> 𝒙>A% = 𝒩 1 − 𝛽>𝒙>A%, 𝛽>𝐼 𝑞(𝒙>A%|𝒙>, 𝒙B) = 𝒩 𝒙>A%; 3 𝝁>(𝒙>, 𝒙B), 5 𝛽>𝐼 → 目標:𝑞(𝒙6D&|𝒙6, 𝒙E) ≈ 𝑝$ 𝒙6D& 𝒙6 の学習 𝒙1, 𝒙/ と 𝛽1 のみで解析的に書ける 推論時,𝒙/ は生成したいデータそのもの 𝒙 ~ 𝑝#$%$ 𝒙
  • 37.
    37 拡散モデルの学習 学習の中核:時刻ごとの KLD 最小化1 目標分布𝒩 𝒙>A%; 3 𝝁>(𝒙>, 𝒙B), 5 𝛽>𝐼 解析的に求まる min $ 𝐷DE 𝑞(𝒙>A%|𝒙>, 𝒙B) ∥ 𝑝$ 𝒙>A% 𝒙> モデル分布 𝒩 𝜇$(𝒙>, 𝑡), 𝜎>𝐼 正規分布の平均パラメータを予測 𝒙1,- 𝒙1 𝒙/ 𝒙2 𝑞 𝒙8 𝒙85- 𝑝& 𝒙85- 𝒙8 ... ... 𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙6 = 𝒙 1 本来この目的関数は対数尤度の下限(ELBO)から導かれるものだが,説明を簡潔にするため正面からの導出を省いている. マルコフ性のおかげで各時刻(拡散ステップ)を分離して学習でき,効率的な訓練(シミュレーションフリー)が可能になる. 𝒙 ~ 𝑝#$%$ 𝒙
  • 38.
    38 拡散モデルの学習 学習の中核:時刻ごとの KLD 最小化 1さらにこの式を変形していくと,結局ノイズ推定と等価になる.ゆえに拡散モデルはしばしばノイズを推定するモデルと呼ばれる. 𝒙1,-𝒙1 𝒙/ 𝒙2 𝑞 𝒙8 𝒙85- ... ... min $ 𝐷DE 𝑞(𝒙>A%|𝒙>, 𝒙B) ∥ 𝑝$ 𝒙>A% 𝒙> ガウス分布同士の KL ダイバージェンスのため,解析的に計算可能 分散は固定なので,平均パラメータの重みつき MSE になる1 𝒙9 = 𝒛 𝒛 ~ 𝑝𝒛 𝒛 𝒙6 = 𝒙 𝑝& 𝒙85- 𝒙8 𝒙 ~ 𝑝#$%$ 𝒙
  • 39.
    39 拡散モデルに基づくニューラルボコーダ(一部) ニューラルボコーダへの適用の先駆け l DiffWave [Kong+21] lWaveGrad [Chen+21] 音声に合わせたスケジューラの設計 l MultiBandDiffusion [Roman+] l 高域の消失を緩やかに設定 l BDDM [Lam+], FastDiff [Huang+] l 推論時のスケジューラを学習 [Kong+] DiffWave: A Versatile Diffusion Model for Audio Synthesis, Proc. ICLR, 2021. [Chen+] WaveGrad: Estimating Gradients for Waveform Generation, Proc. ICLR, 2021. [Roman+] From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion, Proc. NeurIPS, 2023. [Lam+] BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech Synthesis, Proc. ICLR, 2022. [Huang+] FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis, Proc. IJCAI, 2022. [Lee+] PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022. [Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022. [Takahashi+] Hierarchical Diffusion Models for Singing Voice Neural Vocoder, Proc. ICASSP, 2023. 音声に合わせた事前分布の設計 l PriorGrad [Lee+](紹介) l SpecGrad [Koizumi+](紹介) 音声に合わせた部分問題への分解 l MultiBandDiffusion [Roman+] l 帯域分割して独立に生成 l HPG(歌声)[Takahashi+] l 多段階の超解像的アプローチ
  • 40.
    40 音声に合わせた事前分布の設計 適切な事前分布を用いることで品質や収束速度,推論効率が改善 SpecGrad は論文を参考に再現実装しつつ調整 𝑧3 ~𝒩(0, ∑3) 𝑧3 ~ 𝒩(0, 𝜎3𝐼) 時間フレームごとの エネルギーで適応 時間フレームごとの スペクトル包絡で適応 条件付けメル 事前分布 𝑝𝒛 の 対数振幅スペクトログラム [Lee+] PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022. [Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022. PriorGrad SpecGrad
  • 41.
    41 音声に合わせた事前分布の設計 適切な事前分布を用いることで品質や収束速度,推論効率が改善 [Lee+] PriorGrad: ImprovingConditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022. [Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022. SpecGrad は論文を参考に再現実装しつつ調整 条件付けメル 𝑧3 ~ 𝒩(0, ∑3) 𝑧3 ~ 𝒩(0, 𝜎3𝐼) 時間フレームごとの エネルギーで適応 時間フレームごとの スペクトル包絡で適応 PriorGrad SpecGrad
  • 42.
    42 拡散モデルに基づくボコーダの課題 生成品質・速度のトレードオフ l データ生成に多段の推論ステップを要する l 推論ステップ数を増やせば品質は上がるが,生成時間が増加 l1ステップあたりの計算コスト l 拡散モデルの推定器が GAN より高速・軽量とは限らない ハイパーパラメータの調整 l 拡散過程の設計は,モデルの性能に直結 l 音声に適した事前分布やスケジューラ [Roman+] が重要 l データセットやモダリティが異なると,適切な設定も変わり得る [Roman+] From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion, Proc. NeurIPS, 2023.
  • 43.
    43 拡散モデルに基づくボコーダの課題 生成品質・速度のトレードオフ l データ生成に多段の推論ステップを要する l 推論ステップ数を増やせば品質は上がるが,生成時間が増加 l1ステップあたりの計算コスト l 拡散モデルの推定器が GAN より高速・軽量とは限らない ハイパーパラメータの調整 l 拡散過程の設計は,モデルの性能に直結 l 音声に適した事前分布やスケジューラ [Roman+] が重要 l データセットやモダリティが異なると,適切な設定も変わり得る [Roman+] From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion, Proc. NeurIPS, 2023. 拡散モデルの効率的な代替として注目されているフローマッチングを紹介
  • 44.
    44 フローマッチング フローマッチングの基本概念 l ある分布と別の分布の間を繋ぐデータ点の経路を,常微分方程式を用いて記述 𝑑𝒙6 𝑑𝑡 = 𝑢6(𝒙6) l𝑢6(𝒙6):時刻 𝑡 においてデータ点 𝒙6 がどのように変化すべきかを表すベクトル l 正規化フロー・拡散モデルと同様に,分布間の双方向的な変換をモデル化1 [Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023. 𝒙1451 𝒙1 𝒙- 𝒙/ ... ... 𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙 𝒙E = 𝒛 𝑑𝒙6 𝑑𝑡 = 𝑢6(𝒙6) 𝒛 ~ 𝑝𝒛 𝒛 1 正規化フローの変換を無限に細かく刻み,連続時間の微分方程式として定式化した連続時間正規化フローという生成モデルがある. また,拡散モデルも同様に連続時間化が可能である.これらのモデルは全て微分方程式の解を学習するという点で共通した枠組み. モデル 𝑣$(𝑡, 𝒙) は ベクトル場を推定
  • 45.
    45 フローマッチング 数値積分(例:オイラー法)による変数変換 l 潜在変数 𝒙Eからデータ 𝒙& を生成 𝒙& = 𝒙E + ^ E & 𝑢6(𝒙6) 𝑑𝑡 l データ 𝒙& から潜在変数 𝒙E を推定 𝒙E = 𝒙& − ^ E & 𝑢6 𝒙6 𝑑𝑡 l 例:𝑡 = 1 ではデータ分布 𝑝& = 𝑝!"#" を,𝑡 = 0 ではガウス分布 𝑝E = 𝑝𝒛 を仮定 [Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023. 𝒙1451 𝒙1 𝒙- 𝒙/ ... ... モデル 𝑣$(𝑡, 𝒙) は ベクトル場を推定 𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙 𝒙E = 𝒛 𝑑𝒙6 𝑑𝑡 = 𝑢6(𝒙6) 𝒛 ~ 𝑝𝒛 𝒛
  • 46.
    46 フローマッチング 数値積分(例:オイラー法)による変数変換 l 潜在変数 𝒙Eからデータ 𝒙& を生成 𝒙& = 𝒙E + ^ E & 𝑢6(𝒙6) 𝑑𝑡 l データ 𝒙& から潜在変数 𝒙E を推定 𝒙E = 𝒙& − ^ E & 𝑢6(𝒙6) 𝑑𝑡 l 例:𝑡 = 1 ではデータ分布 𝑝& = 𝑝!"#" を,𝑡 = 0 ではガウス分布 𝑝E = 𝑝𝒛 を仮定 [Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023. 𝒙1451 𝒙1 𝒙- 𝒙/ ... ... 学習目標:𝑢8(𝒙8) を推定する ネットワーク 𝑣$(𝑡, 𝒙) の学習1 モデル 𝑣$(𝑡, 𝒙) は ベクトル場を推定 1 実際は各データサンプル 𝒙! による条件付きベクトル場 𝑢*(𝒙*|𝒙!) の回帰問題を学習する.局所的なベクトル場の学習を通じて大域的なデータ生成能力を獲得するイメージ. 𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙 𝒙E = 𝒛 𝑑𝒙6 𝑑𝑡 = 𝑢6(𝒙6) 𝒛 ~ 𝑝𝒛 𝒛
  • 47.
    47 フローマッチングはなぜ効率的か? 幾何的制約による帰納バイアス [Lipman+] [Onken+] l学習目標 𝑢6 に対応する経路を事前に設計する必要がある l (連続)正規化フローでは,尤度最大化の観点で経路を学習していると見做せる l 一転して,シンプルな経路を仮定できる l 拡散モデル:拡散過程という幾何的に複雑な経路 l フローマッチング:線形補間などシンプルな経路 l 結果的として,学習効率・汎化性能の向上,推論ステップ短縮に寄与 [Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023. [Onken+] OT-Flow: Fast and Accurate Continuous Normalizing Flows via Optimal Transport, Proc. AAAI, 2021. 𝒙1451 𝒙1 𝒙- 𝒙/ ... ... 𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙 𝒙E = 𝒛 𝑑𝒙6 𝑑𝑡 = 𝑢6(𝒙6) 𝒛 ~ 𝑝𝒛 𝒛
  • 48.
    48 フローマッチングに基づくボコーダ PeriodWave [Lee+] l 拡散モデルに基づくボコーダの工夫を効果的に活用 l微分方程式という共通の数学的土台 [Gao+] l フローマッチングは決定論的なノイズ除去とも解釈できる1 WaveFM [Luo+] l PriorGrad の事前分布を使用 l GAN ボコーダに倣ったスペクトル距離損失を導入 l DNN が音声信号を回帰するよう損失関数をリパラメトライズ 2025年6月の時点では未だ少数の手法しか提案されておらず,今後の発展に期待 [Lee+] PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation, Proc. ICLR, 2025. [Gao+] Diffusion Models and Gaussian Flow Matching: Two Sides of the Same Coin, Proc. ICLR, 2025. [Luo+] WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching, Proc. NAACL, 2025. 1 𝑝𝒛 にガウス分布を仮定した場合
  • 49.
    49 生成モデルの理論基盤 × 音声ドメイン知識=性能 各種生成モデルの理論基盤 l 高次元データ分布をどのようにモデル化するか l 異なるモデルに共通するアプローチ 音声ドメイン知識に基づく性能改善 l GAN:補助損失の導入,識別器の設計 l 拡散モデル:スケジューラ・事前分布の設計 現状,実用的には GAN 系が有利 l 1ステップで生成可能,軽量化・低遅延化がしやすい l 長期的な研究による豊富な知見・経験則の集積 データと潜在変数の双方向的な変換を定義 (正規化フロー,拡散モデル,フローマッチング) パラメトリック近似可能なサブタスクに変換 分割統治的な分布設計戦略 (自己回帰・拡散モデル)