SlideShare a Scribd company logo
1 of 35
深層⽣成モデルに基づく
⾳声合成技術
名古屋⼤学 情報基盤センター
⼾⽥ 智基
2022年9⽉13⽇
×
深層⽣成
モデル
事前知識
本講演の内容
• 深層⽣成モデルに基づく⾳声合成技術の進展
• 深層⾳声波形⽣成モデル
• 深層⾳声変換モデル
• ⾳声合成処理に特化した⼿法
• ⾳声⽣成過程を加味した深層⾳声波形⽣成モデル
• ⾳声変換に適した潜在表現学習
深層⽣成モデルに基づく⾳声合成技術の進展について
概説するとともに,いくつか⾳声合成処理に特化した
問題に対応するための⼿法について紹介します.
講演内容
本講演の内容
• 深層⽣成モデルに基づく⾳声合成技術の進展
• 深層⾳声波形⽣成モデル
• 深層⾳声変換モデル
• ⾳声合成処理に特化した⼿法
• ⾳声⽣成過程を加味した深層⾳声波形⽣成モデル
• ⾳声変換に適した潜在表現学習
深層⽣成モデルに基づく⾳声合成技術の進展について
概説するとともに,いくつか⾳声合成処理に特化した
問題に対応するための⼿法について紹介します.
講演内容
⾳声⽣成過程
• 発声器官を巧みに⽤いて⾳声波形を⽣成
声帯振動による準周期的な⾳源
信号の⽣成
• ⾳源特徴量(基本周波数F0など)
調⾳による共振特性の付与
• 声道特徴量(スペクトル包絡など)
深層波形⽣成:1
信号処理に基づく⾳声波形⽣成
• ソースフィルタモデル:⾳声⽣成過程を信号回路で数理的にモデル化
• ⾳声特徴量の操作による合成⾳声波形の加⼯が容易
⾳源波形
パルス列信号 雑⾳信号
合成⾳声波形
合成フィルタ
)
(z
H
]
[
*
]
[
]
[ n
e
n
h
n
x 
]
[n
e
⾳源⽣成部
調⾳部
スペクトル包絡系列
(共振特性)
F0パターン
(声の⾼さ,有声/無声)
⾳声特徴量
時間
周波数
周波数
パワー
時間
深層波形⽣成:2
[Itakura+ 1968]
𝑝 𝑥 |𝑥 , … , 𝑥
深層⽣成モデルに基づく⾳声波形⽣成
• ニューラルボコーダ:⾳声特徴量から⾳声波形への変換を学習
• 深層ネットワークによる⾳声波形サンプルの同時分布モデリング
• ソースフィルタモデルの近似を避けることで⾼品質化
深層
ネットワーク
⾳声データ
合成⾳声波形
𝑥
𝑥
⼊⼒層
𝑥
第1隠れ層
𝑥
𝑥
𝑥
𝑥
第2隠れ層
Dilation幅 1
Dilation幅 2
𝑥
第3隠れ層
Dilation幅 4
WaveNet [van den Oord+ 2016]
• 拡張畳み込みによる⾃⼰回帰モデリング
⾳声特徴量
系列
深層波形⽣成:3
[van den Oord+ 2016]
敵対的⽣成ネットワークに基づく⾳声波形⽣成
• 敵対的学習の導⼊で⾮⾃⼰回帰型ネットワークの学習を実現
• ⾳声波形誤差計算における位相の影響を回避
• 同時サンプリングによる⾼速な合成処理を達成
アップサンプリング
拡張畳み込み
拡張畳み込み
雑⾳信号
合成⾳声波形
⾳声特徴量系列
合成⾳声波形
識別器 識別器
⾳声特徴量
系列
Parallel WaveGAN
[Yamamoto+ 2020]
HiFi GAN
[Kong+ 2020]
深層波形⽣成:4
ニューラルボコーダで全て解決?⇒NO
ソースフィルタモデル ニューラルボコーダ
⾃由度 :低い,近似が必須
⾳質 :劣化が発⽣
制御性 :⾼い
学習 :不要
計算量 :少ない
サイズ :⼩さい
⾃由度 :⾼い,近似不要
⾳質 :極めて⾼い
制御性 :限定的
学習 :必須,データ依存
計算量 :多い
サイズ :⼤きい
パラメトリック
共振特性付与
⾳声特徴量系列
合成⾳声波形
パラメトリック
⾳源波形⽣成
深層ネットワーク
⾳声特徴量系列
合成⾳声波形
⾳声データ
深層波形⽣成:5
本講演の内容
• 深層⽣成モデルに基づく⾳声合成技術の進展
• 深層⾳声波形⽣成モデル
• 深層⾳声変換モデル
• ⾳声合成処理に特化した⼿法
• ⾳声⽣成過程を加味した深層⾳声波形⽣成モデル
• ⾳声変換に適した潜在表現学習
深層⽣成モデルに基づく⾳声合成技術の進展について
概説するとともに,いくつか⾳声合成処理に特化した
問題に対応するための⼿法について紹介します.
講演内容
発話⽣成過程のモデル化:変換・合成
• 発話⽣成過程
• ⾳声変換(Voice Conversion: VC)
• テキスト⾳声合成(Text-to-Speech: TTS)
⾔語情報
例:何を?
パラ⾔語情報
例:どのように?
⾮⾔語情報
例:誰が?
⾳声波形
意図・状態
⾝体的制約
⾔語情報 ⾳声波形
パラ⾔語・
⾮⾔語情報
⼊⼒⽂字列と所望のパラ⾔語・
⾮⾔語情報に対応した⾳声を合成
⾳声波形 ⾳声波形
パラ⾔語・
⾮⾔語情報
⾔語情報
⼊⼒⾳声の⾔語情報を保持しつつ所望の
パラ⾔語・⾮⾔語情報を持つ⾳声へと変換
深層変換:1
統計的確率モデルのパラレル学習に基づくVC
• 統計的確率モデルによる変換関数のモデル化
• GMMやHMMなどを利⽤
• パラレル学習:⾔語情報が同じで所望の⾮⾔語情報のみが異なる
⾳声ペア(例:元話者と⽬標話者の同⼀発話内容)を利⽤
• 時間フレームアライメントを⾏うことで元⾳声・⽬標⾳声特徴量ペア
からなる 教師あり学習⽤データを作成
 
t
t x
y λ
f
ˆ 
学習処理
変換関数
元⾳声特徴量系列
⽬標⾳声特徴量系列
𝒙 :
𝒚 :
時間フレーム
アライメント
変換処理
𝒙 :
𝒚 :
変換関数
[Stylianou+ 1998]
深層変換:2
z
深層⽣成モデルに基づくノンパラレルVC:VAE
• 変分⾃⼰符号化器(VAE)の教師なし潜在表現学習
• 再構成ロスに基づくアライメントフリー学習
• 複数話者⾳声データを⽤いて⾔語情報(潜在特徴系列=時変)と
⾮⾔語情報(例:話者コード=時不変)に分離
z
エンコーダ
デコーダ
話者
コード
潜在特徴量
事前分布
𝒙
𝒉
𝑡 1: 𝑇
⾳声
特徴量
𝒙
𝒘
再構成
⾳声特徴量
𝑠 1: 𝑆
再構成ロス
話者𝒘
話者𝒘
話者𝒘
[Hsu+ 2016]
深層変換:3
事前学習済み⾔語潜在表現抽出器の導⼊:PPG
• 不特定話者⽤⾳素認識器による教師あり潜在表現学習
• 再構成ロスに基づくアライメントフリー学習
• ⾳素事後確率分布系列(PPG)を⾔語潜在特徴系列として利⽤
• ⽬標話者データを⽤いてデコーダのみ学習
⽬標話者⽤
デコーダ
再構成⾳声
特徴量系列
再構成ロス
𝒚 :
不特定話者⽤
⾳素認識器
事前学習済み
エンコーダ
PPG
⾔語潜在特徴系列
(話者⾮依存)
⽬標⾳声
特徴量系列
⽬標話者
𝒚 :
𝒉 :
⾳声認識⽤データ
⼤量の⾳声
+テキスト
事前学習
[Sun+ 2016]
深層変換:4
テキスト表現の導⼊:ASR+TTS
• 不特定話者⽤⾳声認識(ASR)とテキスト⾳声合成(TTS)の接続
• ⾔語情報としてテキストを直接使⽤
• ⽬標話者⾳声+テキストのデータを⽤いて⽬標話者⽤TTSを学習
• ASRとTTSには系列変換ネットワーク(Transformerなど)を使⽤
⾳声認識⽤データ
⼤量の⾳声
+テキスト
事前学習
[Huang+ 2020]
⽬標話者⽤
TTS
⽬標話者
⾳声+テキスト
転移学習
事前学習済み
TTS
不特定話者⽤
ASR
テキスト
⾔語特徴系列
元⾳声
特徴量系列
⽬標⾳声
特徴量系列
𝒙 :
𝒚 :
𝒉 :
深層変換:5
第1回VCC (VCC2016)
• パラレル学習
第2回VCC (VCC2018)
• パラレル学習
• ノンパラレル学習
第3回VCC (VCC2020)
• セミパラレル学習
• 異なる⾔語間における
ノンパラレル学習
⾳声変換技術の進展
• Voice Conversion Challenge (VCC)を通した改善の経緯 [Toda+ 2016]
元話者 ⽬標
話者
ベースライン
(オープン)
トップ
システム
[Kobayashi+ 2016]
[Liu+ 2018]
[Toda+ 2007]
[Kobayashi+ 2018]
[Zhang+ 2020]
[Liu+ 2020]
[Tobing+ 2020] [Huang+ 2020]
VAE ASR+TTS
PPG
ASR
+TTS
GMM GMM
GMM PPG
深層変換:6
⾳声変換⼿法の⽐較
統計的
確率モデル
深層⽣成モデル
VAE PPG ASR+TTS
学習データ
/ アライメント処理
/ テキスト情報
パラレル
/ 必要
/ 不要
ノンパラレル
/ 不要
/ 不要
ノンパラレル
/ 不要
/ 不要
ノンパラレル
/ 不要
/ 必要
任意元話者⾳声対応 学習データ
依存
学習データ
依存
可能 可能
事前学習⽤データ
/ テキスト情報
不要 不要 ⼤量に必要
/ 必須
⼤量に必要
/ 必須
⾔語潜在表現
/ 話者性分離精度
/ ⾔語種別依存性
⾮明⽰的 学習で獲得
/ 低い
/ 弱い
⾳素事後確率
/ ⾼い
/ 強い
テキスト
/ 極めて⾼い
/ 極めて強い
時間構造(韻律特徴) 保持 保持 保持 変換
深層変換:7
本講演の内容
• 深層⽣成モデルに基づく⾳声合成技術の進展
• 深層⾳声波形⽣成モデル
• 深層⾳声変換モデル
• ⾳声合成処理に特化した⼿法
• ⾳声⽣成過程を加味した深層⾳声波形⽣成モデル
• ⾳声変換に適した潜在表現学習
深層⽣成モデルに基づく⾳声合成技術の進展について
概説するとともに,いくつか⾳声合成処理に特化した
問題に対応するための⼿法について紹介します.
講演内容
Q. ⾼い⾳質を保持したまま制御性能を改善できないか?
A. ⾳声⽣成過程の仕組みを加味した深層⾳声波形⽣成モデルの構築
深層⾳声波形⽣成モデルの制御性改善
共振特性
付与
⾳源波形
⽣成
⾳声波形
特徴量系列
⾳声波形
⽣成
⾳声波形
特徴量系列
ソースフィルタモデル
統合型
ネットワーク
従来型ボコーダ,
STRAIGHT,
WORLD, ...
WaveNet, PWG,
WaveRNN, ...
共振特性
付与
⾳源波形
⽣成
⾳声波形
特徴量系列
実現する
モデル
共振特性
付与
⾳源波形
⽣成
⾳声波形
特徴量系列
共振特性
付与
⾳源波形
⽣成
⾳声波形
特徴量系列
LPCNet,
GlotGAN,
GELP, ...
NSF, ...
パラメトリックモデル 深層ネットワーク
事前知識×深層波形⽣成:1
Quasi-Periodicネットワーク(QPネット)
• ⾼い⾳質を保持しつつ制御性能を改善するには?
• できる限り深層ネットワークのみで表現
• 外挿性能を改善させる仕組みを導⼊
• ⾳声信号の特徴(準周期構造)に着⽬
• F0依存拡張畳み込みの導⼊
• F0パターンに基づきDilation幅を動的に制御
[Wu+ 2021a][Wu+ 2021b]
𝑇
3
𝑇
2
𝑇
2
𝑇
2
𝑇
1
𝑇
3
𝑇
1
𝑇
1
𝑇 1/𝐹 ,
基本周期:
𝑥
𝑥
⼊⼒層
𝑥
第1隠れ層
𝑥
𝑥 𝑥
𝑥
𝑥
第2隠れ層
Dilation幅 𝑇
Dilation幅 2𝑇
基本周期に応じて
受容野が時々刻々と
動的に変化
基本周期
事前知識×深層波形⽣成:2
出⼒層から
⽣成された
波形信号の
周波数特性
拡張畳み込みネットワークの挙動分析
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
雑⾳源
⾳声波形 ⾳声波形
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
事前知識×深層波形⽣成:3
[Wu+ 2021a]
拡張畳み込みネットワークの挙動分析
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
雑⾳源
⾳声波形 ⾳声波形
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
第5隠れ層
からの出⼒
波形信号の
周波数特性
事前知識×深層波形⽣成:3
[Wu+ 2021a]
拡張畳み込みネットワークの挙動分析
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
雑⾳源
⾳声波形 ⾳声波形
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
第10隠れ層
からの出⼒
波形信号の
周波数特性
事前知識×深層波形⽣成:3
[Wu+ 2021a]
拡張畳み込みネットワークの挙動分析
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
雑⾳源
⾳声波形 ⾳声波形
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
第15隠れ層
からの出⼒
波形信号の
周波数特性
事前知識×深層波形⽣成:3
[Wu+ 2021a]
拡張畳み込みネットワークの挙動分析
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
F0依存拡張畳み込み
ネットワーク
固定拡張畳み込み
ネットワーク
雑⾳源
⾳声波形 ⾳声波形
雑⾳源
⾳声波形
雑⾳源
共振特性
付与
⾳源波形
⽣成
[Wu+ 2021a]
出⼒層から
⽣成された
波形信号の
周波数特性
• ⾳源波形⽣成部と共振特性付与部にネットワークを分解可能
• F0制御性能(特に外挿精度)を改善 事前知識×深層波形⽣成:3
⾃然⾳声 F0変換率
×0.5 ×0.7 ×1.0 ×1.4 ×2.0
WORLD (信号処理ベース) [Morise+ 2016]
Neural Source Filter (NSF) [Wang+ 2019]
HN-uSFGAN [Yoneyama+ 2022]
HN-uSFGAN(Harmonic+Noise unified Source Filter GAN)
• 単⼀の敵対的⽣成ネットワークを⾼精度⾳源⽣成部と調⾳部に分解
1×1
正弦波
周期⾳源
QPネット
×
メルスペクトログラム
再構成ロス
⾳源正則化
ロス
雑⾳
⾮周期⾳源
ネット
×
HiFiGAN
識別器
⾳声
特徴量系列
⾳声
特徴量系列
周期成分
推定ネット
+
調⾳
ネット
合成
⾳声波形
⾳源⽣成ネットワーク
64 ch
64 ch
64 ch
1 ch
1 ch
[Yoneyama+ 2022]
事前知識×深層波形⽣成:4
HN-uSFGANによるF0変換のデモ⾳声
1倍
2倍
4倍
8倍
16倍
1倍
1/2倍
1/4倍
収録⾳声
変換再合成⾳声
変換再合成⾳声
収録⾳声
学習に⽤いた通常発話のF0 範囲
30 Hz 4 kHz
70 Hz 340 Hz
• 約100名の英語話者の⾳声(VCTKコーパス [Yamagishi+ 2019])
を⽤いて学習されたHN-uSFGANを使⽤
事前知識×深層波形⽣成:5
本講演の内容
• 深層⽣成モデルに基づく⾳声合成技術の進展
• 深層⾳声波形⽣成モデル
• 深層⾳声変換モデル
• ⾳声合成処理に特化した⼿法
• ⾳声⽣成過程を加味した深層⾳声波形⽣成モデル
• ⾳声変換に適した潜在表現学習
深層⽣成モデルに基づく⾳声合成技術の進展について
概説するとともに,いくつか⾳声合成処理に特化した
問題に対応するための⼿法について紹介します.
講演内容
深層⾳声変換モデルのための潜在表現学習改善
• 変換に適した⾔語潜在表現が得られるように学習法を改善
統計的
確率モデル
深層⽣成モデル
VAE PPG ASR+TTS
学習データ
/ アライメント処理
/ テキスト情報
パラレル
/ 必要
/ 不要
ノンパラレル
/ 不要
/ 不要
ノンパラレル
/ 不要
/ 不要
ノンパラレル
/ 不要
/ 必要
任意元話者⾳声対応 学習データ
依存
学習データ
依存
可能 可能
事前学習⽤データ
/ テキスト情報
不要 不要 ⼤量に必要
/ 必須
⼤量に必要
/ 必須
⾔語潜在表現
/ 話者性分離精度
/ ⾔語種別依存性
⾮明⽰的 学習で獲得
/ 低い
/ 弱い
⾳素事後確率
/ ⾼い
/ 強い
テキスト
/ 極めて⾼い
/ 極めて強い
時間構造(韻律特徴) 保持 保持 保持 変換
事前知識×深層変換:1
CycleVAE:話者性分離精度の改善
Q. ⾔語潜在表現の品質を⾼めるためには?
A. 変換処理も考慮したVAE学習により⾔語・話者情報の分離を促進
• 再構成ロスと循環再構成ロスの最⼩化
エンコーダ
デコーダ
元話者
コード
潜在特徴量
事前分布
𝒙
𝒉
⾳声
特徴量
𝒙
𝒘
再構成特徴量
再構成ロス
別話者
コード
𝒘
𝒙
変換特徴量
エンコーダ
デコーダ
元話者
コード
潜在特徴量
事前分布
𝒙
𝒉′
𝒘
循環再構成
特徴量
𝒙
循環再構成ロス
[Tobing+ 2019]
事前知識×深層変換:2
⾃⼰教師あり学習特徴量の導⼊
Q. ⾔語種別依存性を抑えて任意の⾔語を取り扱えないか?
A. ⾃⼰教師あり学習(SSL)による潜在表現の活⽤
• ⼤量の⾳声データを⽤いたテキスト不要型の事前学習
[Huang+ 2022]
アップストリーム
⾃⼰教師あり認識器学習
⼤量の⾳声データ
テキスト無し
認識器
ダウンストリーム
合成器学習
認識器
SSL潜在特徴系列
(話者⾮依存)
少量の⽬標⾳声
データ
合成器
変換処理
認識器
任意話者の
⼊⼒⾳声
SSL潜在特徴系列
(話者⾮依存)
合成器
変換⾳声
CPC, APC,
Mockingjay,
wav2vec,
VQ-wav2vec,
HuBERT, …
事前知識×深層変換:3
系列単位⾳声変換のための事前学習法
Q. テキストを介さない系列変換ネットを学習するには?
A. TTSの⾔語潜在表現を活⽤した系列変換⽤潜在表現学習
• 元話者・⽬標話者の少量パラレルデータを⽤いた転移学習
[Huang+ 2021]
3. 転移学習
エンコーダ デコーダ
潜在特徴
系列
⽬標話者
⾳声
(数分規模)
更新
更新
元話者
⾳声
(数分規模)
出⼒
⼊⼒
2. TTSデータを⽤いたエンコーダ事前学習
TTS
⾳声
エンコーダ デコーダ
潜在特徴
系列
固定
TTS
⾳声 TTS
TTS
学習
1. TTSデータを⽤いたデコーダ事前学習
TTS
テキスト エンコーダ デコーダ
潜在特徴
系列
TTS
⾳声
他の単⼀話者⾳声
(数時間規模)
学習 学習
事前知識×深層変換:4
まとめ
• 深層⾳声波形⽣成モデルに⾳声⽣成過程の事前知識を導⼊
• ⾳源⽣成部と調⾳部からなる統合型ネットワークの構築
⇒ ⾼い品質と⾼い制御性能の両⽴を実現
• 深層⾳声変換モデルに変換処理に適した潜在表現学習の実現
• 学習時に変換処理を考慮
⇒⾔語・話者情報の分離を促進して潜在表現を⾼品質化
• ⾃⼰教師あり学習の導⼊
⇒ ⾔語種別依存性を緩和して任意の⾔語⾳声を変換
• TTS⾔語潜在表現を事前知識として活⽤
⇒テキストを介さない系列変換ネットワークを実現
⾳声合成
の事前知識
×
深層⽣成
モデル
性能改善
利便性改善
=
まとめ
参考⽂献
参考⽂献:1
[Hsu+ 2016] C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, H.-M. Wang. Voice conversion from non-parallel
corpora using variational auto-encoder. Proc. APSIPA ASC, 6 pages, 2016.
[Huang+ 2020] W.-C. Huang, T. Hayashi, S. Watanabe, T. Toda. The sequence-to-sequence baseline for the
Voice Conversion Challenge 2020: cascading ASR and TTS. Proc. Joint workshop for the Blizzard Challenge
and Voice Conversion Challenge 2020, pp. 160‒164, 2020.
[Huang+ 2021] W.-C. Huang, T. Hayashi, Y.-C. Wu, H. Kameoka, T. Toda. Pretraining techniques for
sequence-to-sequence voice conversion. IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 29, pp.
745‒755, 2021.
[Huang+ 2022] W.-C. Huang, S.-W. Yang, T. Hayashi, T. Toda. A comparative study of self-supervised
speech representation based voice conversion. IEEE Journal of Selected Topics in Signal Processing, 2022
(https://arxiv.org/abs/2207.04356).
[Itakura+ 1968] F. Itakura, S. Saito. Analysis synthesis telephony based upon the maximum likelihood
method. Proc. ICA, C-5-5, pp. C17‒20, 1968.
[Kobayashi+ 2016] K. Kobayashi, S. Takamichi, S. Nakamura, T. Toda. The NU-NAIST voice conversion
system for the Voice Conversion Challenge 2016. Proc. INTERSPEECH, pp. 1667‒1671, 2016.
[Kobayashi+ 2018] K. Kobayashi, T. Toda. sprocket: open-source voice conversion software. Proc. Odyssey,
pp. 203‒210, 2018.
[Kong+ 2020] J. Kong, J. Kim, J. Bae. HiFi-GAN: generative adversarial networks for efficient and high
fidelity speech synthesis. Proc. NeurIPS, pp. 17022‒17033, 2020.
[Liu+ 2018] L.-J. Liu, Z.-H. Ling, Y. Jiang, M. Zhou, L.-R. Dai. WaveNet Vocoder with Limited Training Data
for Voice Conversion. Proc. INTERSPEECH, pp. 1983‒1987, 2018.
[Liu+ 2020] L.-J. Liu, Y.-N. Chen, J.-X. Zhang, Y. Jiang, Y.-J. Hu, Z.-H. Ling, L.-R. Dai. Non-parallel voice
conversion with autoregressive conversion model and duration adjustment. Proc. Joint workshop for the
Blizzard Challenge and Voice Conversion Challenge 2020, pp. 126‒130, 2020.
[Morise+ 2016] M. Morise, F. Yokomori, K. Ozawa. WORLD: a vocoder-based high-quality speech synthesis
system for real-time applications. IEICE Trans. Inf. & Syst., Vol. E99-D, No. 7, pp. 1877‒1884, 2016.
[Stylianou+ 1998] Y. Stylianou, O. Cappe, E. Moulines. Continuous probabilistic transform for voice
conversion. IEEE Trans. Speech & Audio Process., Vol. 6, No. 2, pp. 131‒142, 1998.
[Sun+ 2016] L. Sun, K. Li, H. Wang, S. Kang, H.M. Meng. Phonetic posteriorgrams for many-to-one voice
conversion without parallel data training. Proc. IEEE ICME, 6 pages, 2016.
[Tobing+ 2019] P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda. Non-parallel voice conversion with
cyclic variational autoencoder. Proc. INTERSPEECH, pp. 674‒678, 2019.
[Tobing+ 2020] P.L. Tobing, Y. Wu, T. Toda. Baseline system of Voice Conversion Challenge 2020 with
cyclic variational autoencoder and parallel WaveGAN. Proc. Joint workshop for the Blizzard Challenge and
Voice Conversion Challenge 2020, pp. 155‒159, 2020.
[Toda+ 2007] T. Toda, A.W. Black, K. Tokuda. Voice conversion based on maximum likelihood estimation of
spectral parameter trajectory. IEEE Trans. Audio, Speech & Lang. Process., Vol. 15, No. 8, pp. 2222‒2235,
2007.
[Toda+ 2016] T. Toda, L.-H. Chen, D. Saito, F. Villavicencio, M. Wester, Z. Wu, J. Yamagishi. The Voice
Conversion Challenge 2016. Proc. INTERSPEECH, pp. 1632‒1636, 2016.
[van den Oord+ 2016] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N.
Kalchbrenner, A. W. Senior, K. Kavukcuoglu. WaveNet: a generative model for raw audio. arXiv preprint,
arXiv:1609.03499, 15 pages, 2016.
[Wang+ 2019] X. Wang, S. Takaki, J. Yamagishi. Neural source-filter waveform models for statistical
parametric speech synthesis. IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 28, pp. 402‒415, 2020.
[Wu+ 2021a] Y.-C. Wu, T. Hayashi, T. Okamoto, H. Kawai, T. Toda. Quasi-periodic parallel WaveGAN: a
non-autoregressive raw waveform generative model with pitch-dependent dilated convolution neural
network. IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 29, pp. 792‒806, 2021.
[Wu+ 2021b] Y.-C. Wu, T. Hayashi, P.L. Tobing, K. Kobayashi, T. Toda. Quasi-periodic WaveNet: an
autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network.
IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 29, pp. 1134‒1148, 2021.
参考⽂献:2
[Yamagishi+ 2019] J. Yamagishi, C. Veaux, K. MacDonald. CSTR VCTK corpus: English multi-speaker
corpus for CSTR voice cloning toolkit. University of Edinburgh, CSTR, 2019 (https://doi.org/10.7488/ds/2645).
[Yamamoto+ 2020] R. Yamamoto, E. Song, J.-M. Kim. Parallel WaveGAN: a fast waveform generation model
based on generative adversarial networks with multi-resolution spectrogram. Proc. ICASSP, pp. 6199‒6203,
2020.
[Yoneyama+ 2022] R. Yoneyama, Y.-C. Wu, T. Toda. Unified source-filter GAN with harmonic-plus-noise
source excitation generation. Proc. INTERSPEECH, 2022 (https://arxiv.org/abs/2205.06053).
[Zhang+ 2020] J.-X. Zhang, L.-J. Liu, Y.-N. Chen, Y.-J. Hu, Y. Jiang, Z.-H. Ling, L.-R. Dai. Voice conversion by
cascading automatic speech recognition and text-to-speech synthesis with prosody transfer. Proc. Joint
workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, pp. 121‒125, 2020.
参考⽂献:3

More Related Content

What's hot

What's hot (20)

楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 

Similar to 深層生成モデルに基づく音声合成技術

Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
Akira Tamamori
 

Similar to 深層生成モデルに基づく音声合成技術 (20)

複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
Thesis introduction audo_signal_processing
Thesis introduction audo_signal_processingThesis introduction audo_signal_processing
Thesis introduction audo_signal_processing
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
対話システム, 南泰浩
対話システム, 南泰浩対話システム, 南泰浩
対話システム, 南泰浩
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 

More from NU_I_TODALAB

More from NU_I_TODALAB (20)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 

深層生成モデルに基づく音声合成技術