8
確率密度関数(PDF1)のモデル化と難しさ
非負制約
𝑝& 𝒙 ≥0 ∀𝒙
l 確率密度関数は定義域全体で常に 0 以上
l 出力層に,非負性を保証する活性化関数(例:ReLU)を使えば達成可能
正規化制約
/ 𝑝& 𝒙 𝑑𝒙 = 1
l 確率密度関数を全空間で積分すると1
l 明示的な制約なしでは,この積分の要件を満たせない
1
Probability Density Function の略
14
自己回帰モデルの実装例
WaveNet:自己回帰に基づく深層波形生成モデル
l 従来の信号処理ボコーダと比べ,非常に高品質な音声を生成可能に1
l 音声信号を𝜇-law アルゴリズムで量子化し,多クラス分類の問題として定式化
𝑝$ 𝑥6 𝒙56) = Categorical 𝑥6 | Softmax(𝑓$(𝒙56))
1
WaveNet は End-to-End のテキスト音声合成モデルとして提案されたが,後にボコーダへ転用した WaveNet Vocoder [Tamamori+] が提案された.
[Oord+] WaveNet: A Generative Model for Raw Audio, Proc. SSW 9, 2016.
[Tamamori+] Speaker-dependent WaveNet vocoder, Proc. Interspeech, 2017.
𝜇 = 63 の場合の量子化区間
(WaveNet では 𝜇 = 255)
15.
15
自己回帰モデルに基づくボコーダの課題
生成速度が遅い
l 先行要素(𝑥4 に対し𝒙54)を要するため,逐次的な生成を要する
l 推論時に GPU などの並列演算を活用できない
l 実用における致命的なボトルネック
l 音声信号の長さ 𝐷 に比例した Forward 計算が必要
生成時のエラー蓄積
l ある時点での予測エラーが自己増幅的に後段に影響
l 最終的に大幅な品質劣化を招き得る
l 系列が長くなるほど,このエラー伝播のリスクは高まる
21
正規化フローに基づくボコーダ
正規化フローに基づくボコーダ1
l FloWaveNet [Kim+],WaveGlow[Prenger+]
l アフィンカップリング [Dinh+] [Kingma+] に基づく並列生成モデル
l 自己回帰モデルの欠点を克服
[Kim+] FloWaveNet : A Generative Flow for Raw Audio, Proc. ICML, 2019.
[Prenger+] WaveGlow: A Flow-based Generative Network for Speech Synthesis, Proc. ICASSP, 2019.
[Dinh+] Density estimation using Real NVP, Proc. ICLR, 2017.
[Kingma+] Glow: Generative Flow with Invertible 1x1 Convolutions, Proc. NeurIPS, 2018.
[Kim+] WaveNODE: A Continuous Normalizing Flow for Speech Synthesis, Proc. ICML, 2020.
[Oord+] Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Proc. ICML, 2018.
[Ping+] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech, Proc. ICLR, 2019.
[Ping+] WaveFlow: A Compact Flow-based Model for Raw Audio, Proc. ICML, 2020.
1
Inverse Autoregressive Flow を確率密度蒸留で学習する手法として,
Parallel WaveNet [Oord+] ClariNet [Ping+] 等もある.時間の都合上,
これらのアプローチは本発表では紹介しない.
22.
22
正規化フローに基づくボコーダの課題
正規化フローに基づくボコーダ1
l FloWaveNet [Kim+],WaveGlow[Prenger+]
l アフィンカップリング [Dinh+] [Kingma+] に基づく並列生成モデル
l 自己回帰モデルの欠点を克服
表現力・モデルサイズのトレードオフ2
l 構造制約により一層当たりの表現力が限られる
l 高品質化には多層化が必要となり,モデルサイズが増加
l パラメータ数は WaveNet の 18 倍以上 [Kim+]
[Kim+] FloWaveNet : A Generative Flow for Raw Audio, Proc. ICML, 2019.
[Prenger+] WaveGlow: A Flow-based Generative Network for Speech Synthesis, Proc. ICASSP, 2019.
[Dinh+] Density estimation using Real NVP, Proc. ICLR, 2017.
[Kingma+] Glow: Generative Flow with Invertible 1x1 Convolutions, Proc. NeurIPS, 2018.
[Kim+] WaveNODE: A Continuous Normalizing Flow for Speech Synthesis, Proc. ICML, 2020.
[Oord+] Parallel WaveNet: Fast High-Fidelity Speech Synthesis, Proc. ICML, 2018.
[Ping+] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech, Proc. ICLR, 2019.
[Ping+] WaveFlow: A Compact Flow-based Model for Raw Audio, Proc. ICML, 2020.
1
Inverse Autoregressive Flow を確率密度蒸留で学習する手法として,
Parallel WaveNet [Oord+] ClariNet [Ping+] 等もある.時間の都合上,
これらのアプローチは本発表では紹介しない.
2
実際には表現力と並列性のトレードオフも存在し,一定の逐次生成を
許せば一層当たりの表現力を改善できる [Ping+].
26
GAN のモード崩壊問題
モード崩壊
l データ分布𝑝!"#" 𝒙 > 0 となる領域で,𝑝$ 𝒙 ≈ 0 となる現象
l これにより,生成サンプルの多様性が著しく低下
𝑝$ では一部の
山(Mode)が崩壊
𝑥
実線:𝑝!"#" 𝑥
点線:𝑝$ 𝑥
27.
27
GAN のモード崩壊問題
モード崩壊の原因
l 𝑝!"#"と 𝑝$ のサポートが被っていないと,JSD は定数になり勾配が消失
l データが存在する領域を無視しても罰則を受けないので生成器が改善しない
実線:𝑝!"#" 𝑥
点線:𝑝$ 𝑥
実線:JS
点線:KL
𝑥
28.
28
補助損失による学習安定化
補助損失
l 目的:安定した勾配の提供と,勾配消失およびモード崩壊の防止
l 生成音声と正解音声の何らかの距離を使用することが多い
スペクトル距離損失[Yamamoto+] [Kong+]
l 振幅スペクトルやメルスペクトル間の距離
l ランダム性が高い位相情報の学習は敵対的損失に委ねる1
Feature Matching 損失 [Kumar+]
l 識別器の中間層における特徴量の距離
l 敵対的損失に比べ,より具体的なガイドを識別器から得られる
[Yamamoto+] Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram, Proc. ICASSP, 2020.
[Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020.
[Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019.
29.
29
理由1:音声の周波数エネルギーのダイナミックレンジの大きさ
l 音声は低域のパワーが強く,高域は弱い傾向
l 波形領域でのL1/L2 損失では,高域の重要な情報が相対的に無視されやすい
l 一方,人の聴覚は高周波数帯域にも敏感なため,高域の学習は重要
l 対数振幅スペクトルを用いることで,ダイナミックレンジを圧縮し高域も効果的に学習
理由2:ニューラルボコーダは基本的に不良設定問題1
l 時間領域の距離損失 𝒙 − 𝒢(𝒛) & は位相の一致を強制
l ランダム性が高い位相を完璧に推定するのは非常に困難
l さらに位相は 2𝜋 回転による不確実性も持つ(一般にアンラップ処理で対策)
l 結果として,時間領域の距離損失は,過剰平滑化やノイズを発生しやすい [Kumar+]
1
完全再構成可能な問題設定(Neural Audio Codec 等)においては波形レベルや複素スペクトル領域の損失も利用されることがある.
<補足資料>
なぜ音声波形の距離を損失に使わないのか?
[Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019.
30.
30
音声信号に適した識別器
識別器の重要性
l 異なる生成器を同じ識別器で学習すると生成品質の差が縮小 [You+]
l優れた識別器は音声の重要な特徴を効果的に学習
l 敵対的損失・Feature Matching 損失を介して,識別器の知識が生成器に伝播
設計例
l Multi-Period Discriminator [Kong+]
l 一定の長さで音声信号を折り畳み,2次元(時間・周期)特徴量に変換
l 周期性という音声の基本構造を効果的に捉えて評価
l Multi-Resolution Discriminator [Jang+]
l 複数の時間周波数分解能で抽出した振幅スペクトログラムを用いて多角的に評価
[You+] GAN Vocoder: Multi-Resolution Discriminator Is All You Need, Proc. Interspeech, 2021.
[Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020.
[Jang+] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation, Proc. Interspeech, 2021.
31.
31
GAN に基づくボコーダの課題
生成サンプルの多様性の低さ
l 同じ条件付けにおいて生成結果に多様性が生まれない
lモード消失(Mode Missing)と呼ばれる問題 [Che+] [Mao+]
l モデル分布のエントロピーが,データ分布と比べ著しく低い
モード消失の原因
l 生成器が多様性を担う潜在変数 𝒛 を無視する傾向がある
l モデルが高次元かつ構造的な条件付け特徴量のみを注視
l そもそも一部の手法では 𝒛 を入力しない決定的な変換として定式化
l MelGAN [Kumar+] や HiFi-GAN [Kong+] の系統
[Che+] Mode Regularized Generative Adversarial Networks, Proc. ICLR, 2017.
[Mao+] Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis. Proc. CVPR, 2019.
[Kumar+] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Proc. NeurIPS, 2019.
[Kong+] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Proc. NeurIPS, 2020.
𝒛- 𝒛0
Generator 𝒢
殆ど or 完全に一致
39
拡散モデルに基づくニューラルボコーダ(一部)
ニューラルボコーダへの適用の先駆け
l DiffWave [Kong+21]
lWaveGrad [Chen+21]
音声に合わせたスケジューラの設計
l MultiBandDiffusion [Roman+]
l 高域の消失を緩やかに設定
l BDDM [Lam+], FastDiff [Huang+]
l 推論時のスケジューラを学習
[Kong+] DiffWave: A Versatile Diffusion Model for Audio Synthesis, Proc. ICLR, 2021.
[Chen+] WaveGrad: Estimating Gradients for Waveform Generation, Proc. ICLR, 2021.
[Roman+] From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion, Proc. NeurIPS, 2023.
[Lam+] BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech Synthesis, Proc. ICLR, 2022.
[Huang+] FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis, Proc. IJCAI, 2022.
[Lee+] PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022.
[Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022.
[Takahashi+] Hierarchical Diffusion Models for Singing Voice Neural Vocoder, Proc. ICASSP, 2023.
音声に合わせた事前分布の設計
l PriorGrad [Lee+](紹介)
l SpecGrad [Koizumi+](紹介)
音声に合わせた部分問題への分解
l MultiBandDiffusion [Roman+]
l 帯域分割して独立に生成
l HPG(歌声)[Takahashi+]
l 多段階の超解像的アプローチ
40.
40
音声に合わせた事前分布の設計
適切な事前分布を用いることで品質や収束速度,推論効率が改善
SpecGrad は論文を参考に再現実装しつつ調整
𝑧3 ~𝒩(0, ∑3)
𝑧3 ~ 𝒩(0, 𝜎3𝐼)
時間フレームごとの
エネルギーで適応
時間フレームごとの
スペクトル包絡で適応
条件付けメル
事前分布 𝑝𝒛 の
対数振幅スペクトログラム
[Lee+] PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022.
[Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022.
PriorGrad SpecGrad
41.
41
音声に合わせた事前分布の設計
適切な事前分布を用いることで品質や収束速度,推論効率が改善
[Lee+] PriorGrad: ImprovingConditional Denoising Diffusion Models with Data-Dependent Adaptive Prior, Proc. ICLR, 2022.
[Koizumi+] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping, Proc. Interspeech, 2022.
SpecGrad は論文を参考に再現実装しつつ調整
条件付けメル
𝑧3 ~ 𝒩(0, ∑3)
𝑧3 ~ 𝒩(0, 𝜎3𝐼)
時間フレームごとの
エネルギーで適応
時間フレームごとの
スペクトル包絡で適応
PriorGrad SpecGrad
43
拡散モデルに基づくボコーダの課題
生成品質・速度のトレードオフ
l データ生成に多段の推論ステップを要する
l 推論ステップ数を増やせば品質は上がるが,生成時間が増加
l1ステップあたりの計算コスト
l 拡散モデルの推定器が GAN より高速・軽量とは限らない
ハイパーパラメータの調整
l 拡散過程の設計は,モデルの性能に直結
l 音声に適した事前分布やスケジューラ [Roman+] が重要
l データセットやモダリティが異なると,適切な設定も変わり得る
[Roman+] From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion, Proc. NeurIPS, 2023.
拡散モデルの効率的な代替として注目されているフローマッチングを紹介
47
フローマッチングはなぜ効率的か?
幾何的制約による帰納バイアス [Lipman+] [Onken+]
l学習目標 𝑢6 に対応する経路を事前に設計する必要がある
l (連続)正規化フローでは,尤度最大化の観点で経路を学習していると見做せる
l 一転して,シンプルな経路を仮定できる
l 拡散モデル:拡散過程という幾何的に複雑な経路
l フローマッチング:線形補間などシンプルな経路
l 結果的として,学習効率・汎化性能の向上,推論ステップ短縮に寄与
[Lipman+] Flow Matching for Generative Modeling, Proc. ICLR, 2023.
[Onken+] OT-Flow: Fast and Accurate Continuous Normalizing Flows via Optimal Transport, Proc. AAAI, 2021.
𝒙1451 𝒙1
𝒙- 𝒙/
... ...
𝒙 ~ 𝑝!"#" 𝒙 𝒙& = 𝒙
𝒙E = 𝒛
𝑑𝒙6
𝑑𝑡
= 𝑢6(𝒙6)
𝒛 ~ 𝑝𝒛 𝒛
48.
48
フローマッチングに基づくボコーダ
PeriodWave [Lee+]
l 拡散モデルに基づくボコーダの工夫を効果的に活用
l微分方程式という共通の数学的土台 [Gao+]
l フローマッチングは決定論的なノイズ除去とも解釈できる1
WaveFM [Luo+]
l PriorGrad の事前分布を使用
l GAN ボコーダに倣ったスペクトル距離損失を導入
l DNN が音声信号を回帰するよう損失関数をリパラメトライズ
2025年6月の時点では未だ少数の手法しか提案されておらず,今後の発展に期待
[Lee+] PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation, Proc. ICLR, 2025.
[Gao+] Diffusion Models and Gaussian Flow Matching: Two Sides of the Same Coin, Proc. ICLR, 2025.
[Luo+] WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching, Proc. NAACL, 2025.
1 𝑝𝒛 にガウス分布を仮定した場合
49.
49
生成モデルの理論基盤 × 音声ドメイン知識=性能
各種生成モデルの理論基盤
l 高次元データ分布をどのようにモデル化するか
l 異なるモデルに共通するアプローチ
音声ドメイン知識に基づく性能改善
l GAN:補助損失の導入,識別器の設計
l 拡散モデル:スケジューラ・事前分布の設計
現状,実用的には GAN 系が有利
l 1ステップで生成可能,軽量化・低遅延化がしやすい
l 長期的な研究による豊富な知見・経験則の集積
データと潜在変数の双方向的な変換を定義
(正規化フロー,拡散モデル,フローマッチング)
パラメトリック近似可能なサブタスクに変換
分割統治的な分布設計戦略
(自己回帰・拡散モデル)