モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

12/10/2018©Hiroki Tamaru,
The University of Tokyo
モーメントマッチングに基づく
DNN合成歌声のランダム変調ポストフィルタと
ニューラルダブルトラッキングへの応用
田丸浩気1，齋藤佑樹1 ，高道慎之介1 ，郡山知樹2，猿渡洋1
(1東京大学，2東京工業大学)
SLP 研究会 (2018/12/10)

/23
研究背景
 歌声合成技術
– ユーザの性別・歌唱技量に関係なく歌声を製作でき，盛んに利用
– deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]
 従来の歌声合成の限界と我々のアプローチ
– 人間の歌声は，歌唱ごとに歌いまわしが異なる
• 豊かな音楽体験 (コンサートの臨場感，複数テイクの取捨選択)
– 歌声合成は，発話間変動を欠く
• 合成過程が決定論的なため，同一楽譜からは単一の歌声のみ生成
– 歌声合成にランダム性を持たせたい
2
Noise
Current system
Noise
Our approachHuman

/23
Double-tracking (DT) への応用
 Double-tracking (DT)
– 同一フレーズを複数回歌唱してミックスし，歌声に厚みを持たせる
– 発話間変動のない合成歌声の場合，不可能
 Artificial double-tracking (ADT)
– 歌声を信号処理的に変調して原音にミックスする代替法
– 厚みは出るが，不自然な聴覚的印象になってしまう
3自然な DT に近い手法を作りたい
Double-tracking
(DT)
Artificial Double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Synthesize
once
Signal
processing
Synthesize
once
GMMN
post-filter
Mix Mix Mix

/23
発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
– DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習
– ADT: ピッチ系列を信号処理的に変調して原音にミックス
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
– 合成歌声のピッチ系列を generative moment matching network
(GMMN) に基づきランダムに変調
– ポストフィルタを利用して自然な重ね録り感を再現
 実験結果
– 合成歌声の自然性を損なわずに，知覚できる水準の発話間変動を生成
– NDT は ADT より自然な DT に近い
4

/23
目次
 研究背景・発表概要
 実験的評価 (変動の知覚，自然性，重ね録り感)
 まとめと今後の予定
5

/23
DNN 歌声合成
6
[Nishimura+, 2016]
最小二乗誤差規範の学習・生成が行われるため，
同一楽譜からは単一の歌声パラメータが出力される
コンテキスト音声特徴量
𝑡 = 1
𝑡 = 2
𝑡 = 𝑇
言語
コンテキスト
音楽
コンテキスト
楽譜
…
…
…
DNN
スペクトル
連続F0
有声／無声
Mean squared
error
歌声

/23
Artificial double-tracking (ADT)
 原音と変調音をミックスして，厚みを持たせる
– 原音のピッチ系列＋正弦波＝変調ピッチ系列
– 変調音は，遅延（遅らせる）・ゲイン（音量を下げる）処理を行う
7
Pitch(1が半音)
＊変調を明瞭に
表示するため，
正弦波の振幅は
実際の値より
大きく設定して
いる
Time [s]
位相の似た2音のミックスに起因する，不自然な音が生じる
原音
変調音

/23
目次
8

/23
GMMN に基づくポストフィルタ
9
 F0セグメントのゆらぎを統計的にモデル化
– 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016]
– 変調スペクトルの条件付き分布を GMMN でモデル化
STFT
GMMN
変調スペクトル
位相
ISTFT
ポストフィルタ
ランダムノイズ
楽譜 DNN 歌声合成ピッチ系列新しいピッチ系列
*STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform

/23
 ピッチ系列の連続性を考慮した処理
– 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う
変調スペクトル (Modulation spectrum: MS)
10
フレームごとの処理と異なり，不連続性の問題が発生しない
変調周波数
セグメント
低次
連続ピッチ系列
STFT,
対数振幅
計算
1 2 3 4 5 6 7
1 2 3 4 5 6 7
…
…
…
0 次
変調スペクトル
系列
セグメント

/23
 条件付き GMMN [Ren+, 2016]
– ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換
– 入力条件下で，出力とターゲットのモーメントを揃えるよう学習
– 生成時: ターゲット分布に基づき，値をランダムサンプリング
GMMN に基づくパラメータサンプリング
11
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯
⋯
モーメントを
揃える
条件
出力ターゲット

/23
提案ポストフィルタの Schematic diagram
12
⋯
合成ピッチ系列自然ピッチ系列
STFT位相 STFT
𝒚
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯ 𝑺 𝒚
⋯
ISTFT
𝑺 𝒚𝑺 𝒚
変動ピッチ系列
𝒔 𝒚(1) 𝒔 𝒚(𝑇′)𝒔 𝒚(1) 𝒔 𝒚(𝑇′)
𝒚
合成 MS
変動 MS 自然 MS
モーメントを
揃える

/23
Generated F0
13
*MSE: Mean Squared Error
うさ
ぎ
う
さ
ぎ
Pitch(1が半音)
Time [s]
MSE
Post-filtered (4 lines)
童謡「うさぎ」の一節

/23
 ADT における信号処理的変調の替わりに，提案ポストフィルタを使用
Neural double-tracking (NDT)
14
楽譜 DNN 歌声合成
スペクトル
有声／無声
「自然な重ね録り感」を人工的に付与して
厚みのあるボーカルを生成する歌声変調技術
ポストフィルタ
F0 F0’
vocoding vocoding
遅延・ゲイン
処理
NDT 音原音変調音

/23
考察
 不連続性の問題を回避
– フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で，
ポストフィルタによる不連続音の発生を回避
 ランダム性の保存
– ランダムノイズを保存することで，セグメント毎のランダム変調を
保存可能
 NDTによる自然な重ね録り感の再現
– 従来の ADT で発生していた不自然な重ね録り感を緩和
15
1
𝒏 𝟏
2
𝒏 𝟐
3
𝒏 𝟑
4
𝒏 𝟒
5
𝒏 𝟓
6
𝒏 𝟔
7
𝒏 𝟕
…
…
ノイズ

/23
目次
16

/23
実験条件
17
歌声合成の学習データ HTS 28曲，JSUT-song 23曲，in-house データ 7曲
*トランスポーズによる，3倍のデータ拡張
ポストフィルタの学習データ HTS 28曲
テストデータ HTS 3曲
サンプリング周波数 16 kHz
音声特徴量抽出・波形合成 WORLD [Morise+, 2016]
コンテキスト特徴量 705次元 (言語・音楽特徴量，歌手・曲コード)
音声特徴量 127次元 (メルケプストラム，連続対数𝐹0 など)
MS 計算時の STFT ハニング窓 480 ms，セグメントシフト 240 ms
フィルタリングの対象 1次のMS
ノイズ 10次元，一様分布
歌声合成 DNN・
ポストフィルタ GMMN
Feed-forward (詳細は論文参照)
GMMN はガウシアンカーネルを使用

/23
実験条件 (cont’d)
 評価方法
– クラウドソーシングサービス上で，25人を対象に主観評価
 時間長条件
– 実験内容ごとに，評価を容易にするため，提示サンプルの長さを変更
– フレーズ的にキリの良い位置で手動分割
 その他
– ピッチのみを評価するため，他のパラメータは自然音声のものを使用
18
条件平均時間長評価内容
Short 3.01 s 変動の知覚
Middle 4.88 s 自然性，重ね録り感
Long 10.24 s 自然性，重ね録り感
S うさぎうさぎ
S 何見て跳ねる
S 十五夜お月様
S 見て跳ねる
M
M
L
童謡「うさぎ」の例

/23
発話間変動の知覚
 音声の対を聴き，違いがあると感じたかを質問
 提案条件10対と対照条件10対をランダムな順序で混ぜておく
– 提案条件
• ポストフィルタでランダム変調した 2 つの合成歌声
– 対照条件
• ポストフィルタをかけていない，同一の合成歌声
 結果 (発話間変動を知覚したと回答した率)
19
提案対照 𝑝 値 (ウェルチの 𝑡 検定)
𝟎. 𝟐𝟕𝟔 0.176 7.45 × 10−3
知覚可能な発話間変動を生成可能

/23
合成歌声の自然性
 提案条件・従来条件の対を10対聴き，より自然な方を選択
– 提案条件: ポストフィルタをかけた歌声
– 従来条件: ポストフィルタをかけていない歌声
 結果 (自然性の評価スコア)
20
時間長条件提案条件従来条件 𝑝 値
Middle 0.504 0.496 8.58 × 10−1
Long 0.480 0.520 3.72 × 10−1
ポストフィルタによる有意な自然性の低下は見られない

/23
NDTの重ね録り感
 提案条件・従来条件の対を10対聴き，より「実際に多重録音
したように聴こえる」方を選択
– 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス
– 従来条件 (ADT): ピッチを正弦波変調した歌声を原音にミックス
 結果 (重ね録り感の評価スコア)
21
時間長条件 NDT ADT 𝑝 値
Middle 𝟎. 𝟕𝟐𝟒 0.276 < 10−10
Long 𝟎. 𝟕𝟑𝟔 0.264 < 10−10
提案する NDT の方が，自然な DT に近い聴覚的印象を実現

/23
目次
22

/23
まとめと今後の予定
 背景
– DNN 歌声合成にランダム性を付与したい
– ADT よりも DT に近い人工的手法を作りたい
 提案法
– GMMN に基づくランダム変調ポストフィルタ，NDT への応用
 評価結果
– 合成歌声の自然性を損なわずに，知覚できる発話間変動を生成
– NDT は従来の ADT より自然な DT に近い
 今後の予定
– スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張
– 自然音声を入力とするポストフィルタへの拡張
23

/23
付録: DT, ADT, and NDT
Double-tracking
(DT)
Artificial Double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Synthesize
once
Signal
processing
Synthesize
once
GMMN
post-filter
Mix Mix Mix
波形周期深さ
正弦波 0.775 Hz 10 cent (半音の 10%)
遅延ゲイン
20 ms -3 dB
ADT の変調条件
ADT・NDT の条件
(変調音に対する処理)

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (12)

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用