敵対的学習による統合型ソースフィルタネットワーク

敵対的学習による
統合型ソースフィルタネットワーク
☆ ⽶⼭怜於, 呉宜樵, ⼾⽥智基
名古屋⼤学⼾⽥研究室
⽇本⾳響学会
2021年秋季研究発表会
1

𝐅𝟎制御性能に⻑けたニューラルボコーダに向けて
2
https://chomeyama.github.io/UnifiedSourceFilterGAN_demo/

3
過度に単純化した数理
モデルによる⾳質劣化
柔軟な操作性能と
⾼い解釈可能性

4
完全データ駆動の枠組みゆえ
訓練データの𝐅𝟎範囲外の𝐅𝟎に
うまく対応できない
⾮常に⾼い⾳質

5
理想的な⾳源信号との乖離に
よる⾳質・𝐅𝟎制御性能劣化
学習データの𝐅𝟎範囲
を外れた𝐅𝟎に応じた
⾳源⽣成が不可能
⾮線形フィルタに
よる⾳質改善
ネットワークで推定した
励振源による⾳質改善

6
𝐅𝟎依存拡張畳み込み層
導⼊によりPWGの
𝐅𝟎制御性能改善

𝐅𝟎依存拡張畳み込み層 [Y.-C. Wu+, 2020]
7
𝐸! =
𝐹"
𝑓#,!× 𝑎
𝐹! ∶ Sampling rate
𝑎 ∶ Dense factor
𝑓",$ ∶ F" at time 𝑡
where
Period
Output
Input
Hidden
Output
Input
Hidden
𝒅 = 𝟏
𝒅 = 𝟐
𝒅! = 𝟐 × 𝑬𝒕
𝒅!
= 𝟏 × 𝑬𝒕

8
⾳源フィルタ理論の
制約を課さないことによる
𝐅𝟎 制御性能の低下

9
⾳源信号と声道フィルタ間の
相互作⽤再現も期待できる
モデル全体を統⼀的に学習
することで⾳源信号を最適化

10
提案法：Unified Source-Filter GAN (uSFGAN)
1.
2.
3.
QPPWG からの改良
1
QPPWGの⽣成器を明⽰的に連結した２つのネットワークに分解
3
NSFに倣いノイズ信号に加えて⼀本の正弦波基底信号も⼊⼒
2
⾳源信号のスペクトル包絡正則化ロスの適⽤

14
uSFGAN における損失関数
ℒ% 𝐺, 𝐷 = 𝔼𝒙~(!"#"
1 − 𝐷 𝒙
)
+ 𝔼𝒛~𝒩(",-) 𝐷 𝐺 𝒛
)
ℒ/ 𝐺, 𝐷 = ℒ0121 𝐺 + 𝜆345 ℒ345 𝐺 + 𝜆678ℒ678 𝐺, 𝐷
識別器
⽣成器
⾳源信号の対数パワースペクトル包絡に対する正則化
ℒ9:; 𝐺 = C
<=>
?
C
@=>
A
D
𝐸@
(<))
!
𝐸!
(#)
は⾳源信号の 𝒏 番⽬の時間フレームの
対数パワースペクトル包絡の 𝒌 番⽬の周波数成分

16
スペクトル包絡正則化ロスの効果
スペクトル包絡正則化ロス有
提案⼿法 uSFGAN における出⼒⾳源信号の波形とスペクトログラムの可視化
古典的ソースフィルタモデルに
よく⾒られるパルス列のような
⾳源信号波形
平坦なスペクトル包絡
スペクトル包絡正則化ロス無

17
実験的評価設定
p CMU-ARCTIC [J. Kominek+, 2003] コーパス（16 kHz）
Ø 男⼥ 2 名ずつ 4 名の英語話者 bdl, rms, clb, slt
p uSFGAN の⼊⼒特徴量
Ø V/UV バイナリ，F"，メルケプストラム，⾮周期性指標
p MOS テストによる⾳質評価
Ø F" 変換倍率（1.0, 2.0, 0.5）ごとに 160 発話, 10 名の被験者
p ABX テストによる F" 変換精度評価
Ø F" 変換倍率（2.0, 0.5）ごとに 100発話, 10 名の被験者
Ø WORLD [M. Morise+, 2016] 分析合成による⾳声を参照⾳声に使⽤

18
モデル詳細
p WORLD [M. Morise+, 2016]
p PT-NSF
Ø 公開学習済み Hn-sinc-NSF [X. Wang+, 2019]
Ø https://github.com/nii-yamagishilab/project-NN-Pytorch-scripts/
Ø 80 次元メルスペクトログラム, 1 次元 F" 系列
p QPPWG
Ø Quasi-Periodic Parallel WaveGAN [Y. -C. Wu+, 2020]
Ø F" 依存拡張畳み込み10 層 + 拡張畳み込み 10 層
p uSFGAN（提案⼿法）
Ø ⾳源ネットワーク： F" 依存拡張畳み込み 30 層
Ø フィルタネットワーク：拡張畳み込み 30 層

22
主観評価実験結果
Fig1. MOS results of speech quality. Fig2. ABX results of F! modification accuracy.
- 2.0 × F" の場合を除き，従来⼿法より⾼い⾳質を⽰している
- F" 変換精度において従来⼿法を⼤幅に上回っている
実験的評価より提案法 uSFGAN は
PT-NSF
PT-NSF

23
⽣成⾳声サンプル
Male Female
1.0×F$ 2.0×F$ 0.5×F$ 1.0×F$ 2.0×F$ 0.5×F$
Natural
WORLD
PT-NSF
QPPWG
uSFGAN
WORLD：後半の Artifact が⽬⽴つ
NSF：F" 変換を⾏なっているが元の F" が混⼊してしまっている
QPPWG：訓練データ範囲外の F" に対応できていない
These samples are available in
*
*
*
*
*
*
*
*
*
*
*
*

24
まとめと今後の展望
p まとめ
Ø ソースフィルタモデルを単⼀のニューラルネットワークで再現する
枠組みを提案
Ø ⽣成器を⾳源⽣成と声道フィルタに対応するネットワークに分解する
ため⾳源信号の対数パワースペクトル包絡に対する正則化を導⼊
Ø 周期構造の推定を容易にするため正弦波基底信号を⼊⼒
Ø ⾳質とF"操作性能においてNSFとQPPWGを上回ることを確認
p 今後の展望
Ø F"変換時を含めた⾳質の改善

敵対的学習による統合型ソースフィルタネットワーク

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from NU_I_TODALAB

More from NU_I_TODALAB (20)

敵対的学習による統合型ソースフィルタネットワーク