深層生成モデルに基づく音声合成技術

深層⽣成モデルに基づく
⾳声合成技術
名古屋⼤学情報基盤センター
⼾⽥智基
2022年9⽉13⽇
×
深層⽣成
モデル
事前知識

本講演の内容
• 深層⽣成モデルに基づく⾳声合成技術の進展
• 深層⾳声波形⽣成モデル
• 深層⾳声変換モデル
• ⾳声合成処理に特化した⼿法
• ⾳声⽣成過程を加味した深層⾳声波形⽣成モデル
• ⾳声変換に適した潜在表現学習
深層⽣成モデルに基づく⾳声合成技術の進展について
概説するとともに，いくつか⾳声合成処理に特化した
問題に対応するための⼿法について紹介します．
講演内容

⾳声⽣成過程
• 発声器官を巧みに⽤いて⾳声波形を⽣成
声帯振動による準周期的な⾳源
信号の⽣成
• ⾳源特徴量（基本周波数F0など）
調⾳による共振特性の付与
• 声道特徴量（スペクトル包絡など）
深層波形⽣成：1

信号処理に基づく⾳声波形⽣成
• ソースフィルタモデル：⾳声⽣成過程を信号回路で数理的にモデル化
• ⾳声特徴量の操作による合成⾳声波形の加⼯が容易
⾳源波形
パルス列信号雑⾳信号
合成⾳声波形
合成フィルタ
)
(z
H
]
[
*
]
[
]
[ n
e
n
h
n
x 
]
[n
e
⾳源⽣成部
調⾳部
スペクトル包絡系列
（共振特性）
F0パターン
（声の⾼さ，有声／無声）
⾳声特徴量
時間
周波数
周波数
パワー
時間
[Itakura+ 1968]

𝑝 𝑥 |𝑥 , … , 𝑥
深層⽣成モデルに基づく⾳声波形⽣成
• ニューラルボコーダ：⾳声特徴量から⾳声波形への変換を学習
• 深層ネットワークによる⾳声波形サンプルの同時分布モデリング
• ソースフィルタモデルの近似を避けることで⾼品質化
深層
ネットワーク
⾳声データ
合成⾳声波形
𝑥
𝑥
⼊⼒層
𝑥
第1隠れ層
𝑥
𝑥
𝑥
𝑥
第2隠れ層
Dilation幅 1
Dilation幅 2
𝑥
第3隠れ層
Dilation幅 4
WaveNet [van den Oord+ 2016]
• 拡張畳み込みによる⾃⼰回帰モデリング
⾳声特徴量
系列
[van den Oord+ 2016]

敵対的⽣成ネットワークに基づく⾳声波形⽣成
• 敵対的学習の導⼊で⾮⾃⼰回帰型ネットワークの学習を実現
• ⾳声波形誤差計算における位相の影響を回避
• 同時サンプリングによる⾼速な合成処理を達成
アップサンプリング
拡張畳み込み
拡張畳み込み
雑⾳信号
合成⾳声波形
⾳声特徴量系列
合成⾳声波形
識別器識別器
⾳声特徴量
系列
Parallel WaveGAN
[Yamamoto+ 2020]
HiFi GAN
[Kong+ 2020]

ニューラルボコーダで全て解決？⇒NO
ソースフィルタモデルニューラルボコーダ
⾃由度：低い，近似が必須
⾳質：劣化が発⽣
制御性：⾼い
学習：不要
計算量：少ない
サイズ：⼩さい
⾃由度：⾼い，近似不要
⾳質：極めて⾼い
制御性：限定的
学習：必須，データ依存
計算量：多い
サイズ：⼤きい
パラメトリック
共振特性付与
合成⾳声波形
パラメトリック
⾳源波形⽣成
深層ネットワーク
合成⾳声波形
⾳声データ

発話⽣成過程のモデル化：変換・合成
• 発話⽣成過程
• ⾳声変換（Voice Conversion: VC）
• テキスト⾳声合成（Text-to-Speech: TTS）
⾔語情報
例：何を？
パラ⾔語情報
例：どのように？
⾮⾔語情報
例：誰が？
⾳声波形
意図・状態
⾝体的制約
⾔語情報⾳声波形
パラ⾔語・
⾮⾔語情報
⼊⼒⽂字列と所望のパラ⾔語・
⾮⾔語情報に対応した⾳声を合成
⾳声波形⾳声波形
パラ⾔語・
⾮⾔語情報
⾔語情報
⼊⼒⾳声の⾔語情報を保持しつつ所望の
パラ⾔語・⾮⾔語情報を持つ⾳声へと変換
深層変換：1

統計的確率モデルのパラレル学習に基づくVC
• 統計的確率モデルによる変換関数のモデル化
• GMMやHMMなどを利⽤
• パラレル学習：⾔語情報が同じで所望の⾮⾔語情報のみが異なる
⾳声ペア（例：元話者と⽬標話者の同⼀発話内容）を利⽤
• 時間フレームアライメントを⾏うことで元⾳声・⽬標⾳声特徴量ペア
からなる教師あり学習⽤データを作成
 
t
t x
y λ
f
ˆ 
学習処理
変換関数
元⾳声特徴量系列
⽬標⾳声特徴量系列
𝒙 :
𝒚 :
時間フレーム
アライメント
変換処理
𝒙 :
𝒚 :
変換関数
[Stylianou+ 1998]
深層変換：2

z
深層⽣成モデルに基づくノンパラレルVC：VAE
• 変分⾃⼰符号化器（VAE）の教師なし潜在表現学習
• 再構成ロスに基づくアライメントフリー学習
• 複数話者⾳声データを⽤いて⾔語情報（潜在特徴系列＝時変）と
⾮⾔語情報（例：話者コード＝時不変）に分離
z
エンコーダ
デコーダ
話者
コード
潜在特徴量
事前分布
𝒙
𝒉
𝑡 1: 𝑇
⾳声
特徴量
𝒙
𝒘
再構成
⾳声特徴量
𝑠 1: 𝑆
再構成ロス
話者𝒘
話者𝒘
話者𝒘
[Hsu+ 2016]
深層変換：3

事前学習済み⾔語潜在表現抽出器の導⼊：PPG
• 不特定話者⽤⾳素認識器による教師あり潜在表現学習
• 再構成ロスに基づくアライメントフリー学習
• ⾳素事後確率分布系列（PPG）を⾔語潜在特徴系列として利⽤
• ⽬標話者データを⽤いてデコーダのみ学習
⽬標話者⽤
デコーダ
再構成⾳声
特徴量系列
再構成ロス
𝒚 :
不特定話者⽤
⾳素認識器
事前学習済み
エンコーダ
PPG
⾔語潜在特徴系列
（話者⾮依存）
⽬標⾳声
特徴量系列
⽬標話者
𝒚 :
𝒉 :
⾳声認識⽤データ
⼤量の⾳声
＋テキスト
事前学習
[Sun+ 2016]
深層変換：4

テキスト表現の導⼊：ASR+TTS
• 不特定話者⽤⾳声認識（ASR）とテキスト⾳声合成（TTS）の接続
• ⾔語情報としてテキストを直接使⽤
• ⽬標話者⾳声＋テキストのデータを⽤いて⽬標話者⽤TTSを学習
• ASRとTTSには系列変換ネットワーク（Transformerなど）を使⽤
⾳声認識⽤データ
⼤量の⾳声
＋テキスト
事前学習
[Huang+ 2020]
⽬標話者⽤
TTS
⽬標話者
⾳声＋テキスト
転移学習
事前学習済み
TTS
不特定話者⽤
ASR
テキスト
⾔語特徴系列
元⾳声
特徴量系列
⽬標⾳声
特徴量系列
𝒙 :
𝒚 :
𝒉 :
深層変換：5

第1回VCC (VCC2016)
• パラレル学習
• パラレル学習
• ノンパラレル学習
• セミパラレル学習
• 異なる⾔語間における
ノンパラレル学習
⾳声変換技術の進展
• Voice Conversion Challenge (VCC)を通した改善の経緯 [Toda+ 2016]
元話者⽬標
話者
ベースライン
（オープン）
トップ
システム
[Kobayashi+ 2016]
[Liu+ 2018]
[Toda+ 2007]
[Kobayashi+ 2018]
[Zhang+ 2020]
[Liu+ 2020]
[Tobing+ 2020] [Huang+ 2020]
VAE ASR+TTS
PPG
ASR
+TTS
GMM GMM
GMM PPG
深層変換：6

⾳声変換⼿法の⽐較
統計的
確率モデル
深層⽣成モデル
VAE PPG ASR+TTS
学習データ
/ アライメント処理
/ テキスト情報
パラレル
/ 必要
/ 不要
ノンパラレル
/ 不要
/ 不要
ノンパラレル
/ 不要
/ 不要
ノンパラレル
/ 不要
/ 必要
任意元話者⾳声対応学習データ
依存
学習データ
依存
可能可能
事前学習⽤データ
不要不要⼤量に必要
/ 必須
⼤量に必要
/ 必須
⾔語潜在表現
/ 話者性分離精度
/ ⾔語種別依存性
⾮明⽰的学習で獲得
/ 低い
/ 弱い
⾳素事後確率
/ ⾼い
/ 強い
テキスト
/ 極めて⾼い
/ 極めて強い
時間構造（韻律特徴）保持保持保持変換
深層変換：7

Q. ⾼い⾳質を保持したまま制御性能を改善できないか？
A. ⾳声⽣成過程の仕組みを加味した深層⾳声波形⽣成モデルの構築
深層⾳声波形⽣成モデルの制御性改善
共振特性
付与
⾳源波形
⽣成
⾳声波形
特徴量系列
⾳声波形
⽣成
⾳声波形
特徴量系列
ソースフィルタモデル
統合型
ネットワーク
従来型ボコーダ，
STRAIGHT,
WORLD, ...
WaveNet, PWG,
WaveRNN, ...
共振特性
付与
⾳源波形
⽣成
⾳声波形
特徴量系列
実現する
モデル
共振特性
付与
⾳源波形
⽣成
⾳声波形
特徴量系列
共振特性
付与
⾳源波形
⽣成
⾳声波形
特徴量系列
LPCNet,
GlotGAN,
GELP, ...
NSF, ...
パラメトリックモデル深層ネットワーク
事前知識×深層波形⽣成：1

Quasi-Periodicネットワーク（QPネット）
• ⾼い⾳質を保持しつつ制御性能を改善するには？
• できる限り深層ネットワークのみで表現
• 外挿性能を改善させる仕組みを導⼊
• ⾳声信号の特徴（準周期構造）に着⽬
• F0依存拡張畳み込みの導⼊
• F0パターンに基づきDilation幅を動的に制御
[Wu+ 2021a][Wu+ 2021b]
𝑇
3
𝑇
2
𝑇
2
𝑇
2
𝑇
1
𝑇
3
𝑇
1
𝑇
1
𝑇 1/𝐹 ,
基本周期:
𝑥
𝑥
⼊⼒層
𝑥
第1隠れ層
𝑥
𝑥 𝑥
𝑥
𝑥
第2隠れ層
Dilation幅 𝑇
Dilation幅 2𝑇
基本周期に応じて
受容野が時々刻々と
動的に変化
基本周期

出⼒層から
⽣成された
波形信号の
周波数特性
拡張畳み込みネットワークの挙動分析
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
ネットワーク
ネットワーク
ネットワーク
雑⾳源
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
[Wu+ 2021a]

ネットワーク
ネットワーク
ネットワーク
ネットワーク
ネットワーク
雑⾳源
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
第5隠れ層
からの出⼒
波形信号の
周波数特性
[Wu+ 2021a]

ネットワーク
ネットワーク
ネットワーク
ネットワーク
ネットワーク
雑⾳源
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
第10隠れ層
からの出⼒
波形信号の
周波数特性
[Wu+ 2021a]

ネットワーク
ネットワーク
ネットワーク
ネットワーク
ネットワーク
雑⾳源
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
第15隠れ層
からの出⼒
波形信号の
周波数特性
[Wu+ 2021a]

ネットワーク
ネットワーク
ネットワーク
ネットワーク
ネットワーク
雑⾳源
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
[Wu+ 2021a]
出⼒層から
⽣成された
波形信号の
周波数特性
• ⾳源波形⽣成部と共振特性付与部にネットワークを分解可能
• F0制御性能（特に外挿精度）を改善事前知識×深層波形⽣成：3

⾃然⾳声 F0変換率
×0.5 ×0.7 ×1.0 ×1.4 ×2.0
WORLD (信号処理ベース) [Morise+ 2016]
Neural Source Filter (NSF) [Wang+ 2019]
HN-uSFGAN [Yoneyama+ 2022]
HN-uSFGAN（Harmonic+Noise unified Source Filter GAN)
• 単⼀の敵対的⽣成ネットワークを⾼精度⾳源⽣成部と調⾳部に分解
1×1
正弦波
周期⾳源
QPネット
×
メルスペクトログラム
再構成ロス
⾳源正則化
ロス
雑⾳
⾮周期⾳源
ネット
×
HiFiGAN
識別器
⾳声
特徴量系列
⾳声
特徴量系列
周期成分
推定ネット
+
調⾳
ネット
合成
⾳声波形
⾳源⽣成ネットワーク
64 ch
64 ch
64 ch
1 ch
1 ch
[Yoneyama+ 2022]

HN-uSFGANによるF0変換のデモ⾳声
1倍
2倍
4倍
8倍
16倍
1倍
1/2倍
1/4倍
収録⾳声
変換再合成⾳声
変換再合成⾳声
収録⾳声
学習に⽤いた通常発話のF0 範囲
30 Hz 4 kHz
70 Hz 340 Hz
• 約100名の英語話者の⾳声（VCTKコーパス [Yamagishi+ 2019]）
を⽤いて学習されたHN-uSFGANを使⽤

深層⾳声変換モデルのための潜在表現学習改善
• 変換に適した⾔語潜在表現が得られるように学習法を改善
統計的
確率モデル
深層⽣成モデル
VAE PPG ASR+TTS
学習データ
/ アライメント処理
パラレル
/ 必要
/ 不要
ノンパラレル
/ 不要
/ 不要
ノンパラレル
/ 不要
/ 不要
ノンパラレル
/ 不要
/ 必要
任意元話者⾳声対応学習データ
依存
学習データ
依存
可能可能
事前学習⽤データ
不要不要⼤量に必要
/ 必須
⼤量に必要
/ 必須
⾔語潜在表現
/ 話者性分離精度
/ ⾔語種別依存性
⾮明⽰的学習で獲得
/ 低い
/ 弱い
⾳素事後確率
/ ⾼い
/ 強い
テキスト
/ 極めて⾼い
/ 極めて強い
時間構造（韻律特徴）保持保持保持変換
事前知識×深層変換：1

CycleVAE：話者性分離精度の改善
Q. ⾔語潜在表現の品質を⾼めるためには？
A. 変換処理も考慮したVAE学習により⾔語・話者情報の分離を促進
• 再構成ロスと循環再構成ロスの最⼩化
エンコーダ
デコーダ
元話者
コード
潜在特徴量
事前分布
𝒙
𝒉
⾳声
特徴量
𝒙
𝒘
再構成特徴量
再構成ロス
別話者
コード
𝒘
𝒙
変換特徴量
エンコーダ
デコーダ
元話者
コード
潜在特徴量
事前分布
𝒙
𝒉′
𝒘
循環再構成
特徴量
𝒙
循環再構成ロス
[Tobing+ 2019]

⾃⼰教師あり学習特徴量の導⼊
Q. ⾔語種別依存性を抑えて任意の⾔語を取り扱えないか？
A. ⾃⼰教師あり学習（SSL）による潜在表現の活⽤
• ⼤量の⾳声データを⽤いたテキスト不要型の事前学習
[Huang+ 2022]
アップストリーム
⾃⼰教師あり認識器学習
⼤量の⾳声データ
テキスト無し
認識器
ダウンストリーム
合成器学習
認識器
SSL潜在特徴系列
(話者⾮依存)
少量の⽬標⾳声
データ
合成器
変換処理
認識器
任意話者の
⼊⼒⾳声
SSL潜在特徴系列
(話者⾮依存)
合成器
変換⾳声
CPC, APC,
Mockingjay,
wav2vec,
VQ-wav2vec,
HuBERT, …

系列単位⾳声変換のための事前学習法
Q. テキストを介さない系列変換ネットを学習するには？
A. TTSの⾔語潜在表現を活⽤した系列変換⽤潜在表現学習
• 元話者・⽬標話者の少量パラレルデータを⽤いた転移学習
[Huang+ 2021]
3. 転移学習
エンコーダデコーダ
潜在特徴
系列
⽬標話者
⾳声
(数分規模)
更新
更新
元話者
⾳声
(数分規模)
出⼒
⼊⼒
2. TTSデータを⽤いたエンコーダ事前学習
TTS
⾳声
エンコーダデコーダ
潜在特徴
系列
固定
TTS
⾳声 TTS
TTS
学習
1. TTSデータを⽤いたデコーダ事前学習
TTS
テキストエンコーダデコーダ
潜在特徴
系列
TTS
⾳声
他の単⼀話者⾳声
(数時間規模)
学習学習

まとめ
• 深層⾳声波形⽣成モデルに⾳声⽣成過程の事前知識を導⼊
• ⾳源⽣成部と調⾳部からなる統合型ネットワークの構築
⇒ ⾼い品質と⾼い制御性能の両⽴を実現
• 深層⾳声変換モデルに変換処理に適した潜在表現学習の実現
• 学習時に変換処理を考慮
⇒⾔語・話者情報の分離を促進して潜在表現を⾼品質化
• ⾃⼰教師あり学習の導⼊
⇒ ⾔語種別依存性を緩和して任意の⾔語⾳声を変換
• TTS⾔語潜在表現を事前知識として活⽤
⇒テキストを介さない系列変換ネットワークを実現
⾳声合成
の事前知識
×
深層⽣成
モデル
性能改善
利便性改善
＝
まとめ

参考⽂献
参考⽂献：1
[Hsu+ 2016] C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, H.-M. Wang. Voice conversion from non-parallel
corpora using variational auto-encoder. Proc. APSIPA ASC, 6 pages, 2016.
[Huang+ 2020] W.-C. Huang, T. Hayashi, S. Watanabe, T. Toda. The sequence-to-sequence baseline for the
Voice Conversion Challenge 2020: cascading ASR and TTS. Proc. Joint workshop for the Blizzard Challenge
and Voice Conversion Challenge 2020, pp. 160‒164, 2020.
[Huang+ 2021] W.-C. Huang, T. Hayashi, Y.-C. Wu, H. Kameoka, T. Toda. Pretraining techniques for
sequence-to-sequence voice conversion. IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 29, pp.
745‒755, 2021.
[Huang+ 2022] W.-C. Huang, S.-W. Yang, T. Hayashi, T. Toda. A comparative study of self-supervised
speech representation based voice conversion. IEEE Journal of Selected Topics in Signal Processing, 2022
(https://arxiv.org/abs/2207.04356).
[Itakura+ 1968] F. Itakura, S. Saito. Analysis synthesis telephony based upon the maximum likelihood
method. Proc. ICA, C-5-5, pp. C17‒20, 1968.
[Kobayashi+ 2016] K. Kobayashi, S. Takamichi, S. Nakamura, T. Toda. The NU-NAIST voice conversion
system for the Voice Conversion Challenge 2016. Proc. INTERSPEECH, pp. 1667‒1671, 2016.
[Kobayashi+ 2018] K. Kobayashi, T. Toda. sprocket: open-source voice conversion software. Proc. Odyssey,
pp. 203‒210, 2018.
[Kong+ 2020] J. Kong, J. Kim, J. Bae. HiFi-GAN: generative adversarial networks for efficient and high
fidelity speech synthesis. Proc. NeurIPS, pp. 17022‒17033, 2020.
[Liu+ 2018] L.-J. Liu, Z.-H. Ling, Y. Jiang, M. Zhou, L.-R. Dai. WaveNet Vocoder with Limited Training Data
for Voice Conversion. Proc. INTERSPEECH, pp. 1983‒1987, 2018.
[Liu+ 2020] L.-J. Liu, Y.-N. Chen, J.-X. Zhang, Y. Jiang, Y.-J. Hu, Z.-H. Ling, L.-R. Dai. Non-parallel voice
conversion with autoregressive conversion model and duration adjustment. Proc. Joint workshop for the
Blizzard Challenge and Voice Conversion Challenge 2020, pp. 126‒130, 2020.

[Morise+ 2016] M. Morise, F. Yokomori, K. Ozawa. WORLD: a vocoder-based high-quality speech synthesis
system for real-time applications. IEICE Trans. Inf. & Syst., Vol. E99-D, No. 7, pp. 1877‒1884, 2016.
[Stylianou+ 1998] Y. Stylianou, O. Cappe, E. Moulines. Continuous probabilistic transform for voice
conversion. IEEE Trans. Speech & Audio Process., Vol. 6, No. 2, pp. 131‒142, 1998.
[Sun+ 2016] L. Sun, K. Li, H. Wang, S. Kang, H.M. Meng. Phonetic posteriorgrams for many-to-one voice
conversion without parallel data training. Proc. IEEE ICME, 6 pages, 2016.
[Tobing+ 2019] P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda. Non-parallel voice conversion with
cyclic variational autoencoder. Proc. INTERSPEECH, pp. 674‒678, 2019.
[Tobing+ 2020] P.L. Tobing, Y. Wu, T. Toda. Baseline system of Voice Conversion Challenge 2020 with
cyclic variational autoencoder and parallel WaveGAN. Proc. Joint workshop for the Blizzard Challenge and
Voice Conversion Challenge 2020, pp. 155‒159, 2020.
[Toda+ 2007] T. Toda, A.W. Black, K. Tokuda. Voice conversion based on maximum likelihood estimation of
spectral parameter trajectory. IEEE Trans. Audio, Speech & Lang. Process., Vol. 15, No. 8, pp. 2222‒2235,
2007.
[Toda+ 2016] T. Toda, L.-H. Chen, D. Saito, F. Villavicencio, M. Wester, Z. Wu, J. Yamagishi. The Voice
Conversion Challenge 2016. Proc. INTERSPEECH, pp. 1632‒1636, 2016.
[van den Oord+ 2016] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N.
Kalchbrenner, A. W. Senior, K. Kavukcuoglu. WaveNet: a generative model for raw audio. arXiv preprint,
arXiv:1609.03499, 15 pages, 2016.
[Wang+ 2019] X. Wang, S. Takaki, J. Yamagishi. Neural source-filter waveform models for statistical
parametric speech synthesis. IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 28, pp. 402‒415, 2020.
[Wu+ 2021a] Y.-C. Wu, T. Hayashi, T. Okamoto, H. Kawai, T. Toda. Quasi-periodic parallel WaveGAN: a
non-autoregressive raw waveform generative model with pitch-dependent dilated convolution neural
network. IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 29, pp. 792‒806, 2021.
[Wu+ 2021b] Y.-C. Wu, T. Hayashi, P.L. Tobing, K. Kobayashi, T. Toda. Quasi-periodic WaveNet: an
autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network.
IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 29, pp. 1134‒1148, 2021.
参考⽂献：2

[Yamagishi+ 2019] J. Yamagishi, C. Veaux, K. MacDonald. CSTR VCTK corpus: English multi-speaker
corpus for CSTR voice cloning toolkit. University of Edinburgh, CSTR, 2019 (https://doi.org/10.7488/ds/2645).
[Yamamoto+ 2020] R. Yamamoto, E. Song, J.-M. Kim. Parallel WaveGAN: a fast waveform generation model
based on generative adversarial networks with multi-resolution spectrogram. Proc. ICASSP, pp. 6199‒6203,
2020.
[Yoneyama+ 2022] R. Yoneyama, Y.-C. Wu, T. Toda. Unified source-filter GAN with harmonic-plus-noise
source excitation generation. Proc. INTERSPEECH, 2022 (https://arxiv.org/abs/2205.06053).
[Zhang+ 2020] J.-X. Zhang, L.-J. Liu, Y.-N. Chen, Y.-J. Hu, Y. Jiang, Z.-H. Ling, L.-R. Dai. Voice conversion by
cascading automatic speech recognition and text-to-speech synthesis with prosody transfer. Proc. Joint
workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, pp. 121‒125, 2020.
参考⽂献：3

深層生成モデルに基づく音声合成技術

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層生成モデルに基づく音声合成技術

Similar to 深層生成モデルに基づく音声合成技術 (20)

More from NU_I_TODALAB

More from NU_I_TODALAB (20)

深層生成モデルに基づく音声合成技術