Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
12/10/2018©Hiroki Tamaru,
The University of Tokyo
モーメントマッチングに基づく
DNN合成歌声のランダム変調ポストフィルタと
ニューラルダブルトラッキングへの応用
田丸 浩気1,齋藤 佑樹1 ,...
/23
研究背景
 歌声合成技術
– ユーザの性別・歌唱技量に関係なく歌声を製作でき,盛んに利用
– deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]
 従来の歌声合...
/23
Double-tracking (DT) への応用
 Double-tracking (DT)
– 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる
– 発話間変動のない合成歌声の場合,不可能
 Artificial d...
/23
発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
– DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習
– ADT: ピッチ系列を信号処理的に変調して原音にミックス
...
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実...
/23
DNN 歌声合成
6
[Nishimura+, 2016]
最小二乗誤差規範の学習・生成が行われるため,
同一楽譜からは単一の歌声パラメータが出力される
コンテキスト 音声特徴量
𝑡 = 1
𝑡 = 2
𝑡 = 𝑇
言語
コンテキスト
...
/23
Artificial double-tracking (ADT)
 原音と変調音をミックスして,厚みを持たせる
– 原音のピッチ系列 + 正弦波 = 変調ピッチ系列
– 変調音は,遅延(遅らせる)・ゲイン(音量を下げる)処理を行う
7...
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実...
/23
GMMN に基づくポストフィルタ
9
 F0セグメントのゆらぎを統計的にモデル化
– 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016]
– 変調スペクトルの条件付き分布を GMMN でモデル化
STFT...
/23
 ピッチ系列の連続性を考慮した処理
– 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う
変調スペクトル (Modulation spectrum: MS)
10
フレームごとの処理と異なり...
/23
 条件付き GMMN [Ren+, 2016]
– ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換
– 入力条件下で,出力とターゲットのモーメントを揃えるよう学習
– 生成時: ターゲット分布に基づき,値をランダムサン...
/23
提案ポストフィルタの Schematic diagram
12
⋯
合成ピッチ系列 自然ピッチ系列
STFT位相 STFT
𝒚
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯ 𝑺 𝒚
⋯
ランダムノイズ
ISTFT
𝑺 𝒚𝑺 ...
/23
Generated F0
13
*MSE: Mean Squared Error
う さ
ぎ
う
さ
ぎ
Pitch(1が半音)
Time [s]
MSE
Post-filtered (4 lines)
童謡「うさぎ」の一節
/23
 ADT における信号処理的変調の替わりに,提案ポストフィルタを使用
Neural double-tracking (NDT)
14
楽譜 DNN 歌声合成
スペクトル
有声/無声
「自然な重ね録り感」を人工的に付与して
厚みのあるボ...
/23
考察
 不連続性の問題を回避
– フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で,
ポストフィルタによる不連続音の発生を回避
 ランダム性の保存
– ランダムノイズを保存することで,セグメント毎の...
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実...
/23
実験条件
17
歌声合成の学習データ HTS 28曲,JSUT-song 23曲,in-house データ 7曲
*トランスポーズによる,3倍のデータ拡張
ポストフィルタの学習データ HTS 28曲
テストデータ HTS 3曲
サンプリ...
/23
実験条件 (cont’d)
 評価方法
– クラウドソーシングサービス上で,25人を対象に主観評価
 時間長条件
– 実験内容ごとに,評価を容易にするため,提示サンプルの長さを変更
– フレーズ的にキリの良い位置で手動分割
 その...
/23
発話間変動の知覚
 音声の対を聴き,違いがあると感じたかを質問
 提案条件10対と対照条件10対をランダムな順序で混ぜておく
– 提案条件
• ポストフィルタでランダム変調した 2 つの合成歌声
– 対照条件
• ポストフィルタをか...
/23
合成歌声の自然性
 提案条件・従来条件の対を10対聴き,より自然な方を選択
– 提案条件: ポストフィルタをかけた歌声
– 従来条件: ポストフィルタをかけていない歌声
 結果 (自然性の評価スコア)
20
時間長条件 提案条件 従...
/23
NDTの重ね録り感
 提案条件・従来条件の対を10対聴き,より「実際に多重録音
したように聴こえる」方を選択
– 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス
– 従来条件 (ADT): ピッチを正弦波変調した歌...
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実...
/23
まとめと今後の予定
 背景
– DNN 歌声合成にランダム性を付与したい
– ADT よりも DT に近い人工的手法を作りたい
 提案法
– GMMN に基づくランダム変調ポストフィルタ,NDT への応用
 評価結果
– 合成歌声...
/23
付録: DT, ADT, and NDT
Double-tracking
(DT)
Artificial Double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
tw...
Upcoming SlideShare
Loading in …5
×

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

309 views

Published on

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

Published in: Technology
  • Be the first to comment

  • Be the first to like this

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

  1. 1. 12/10/2018©Hiroki Tamaru, The University of Tokyo モーメントマッチングに基づく DNN合成歌声のランダム変調ポストフィルタと ニューラルダブルトラッキングへの応用 田丸 浩気1,齋藤 佑樹1 ,高道 慎之介1 ,郡山 知樹2,猿渡 洋1 (1東京大学,2東京工業大学) SLP 研究会 (2018/12/10)
  2. 2. /23 研究背景  歌声合成技術 – ユーザの性別・歌唱技量に関係なく歌声を製作でき,盛んに利用 – deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]  従来の歌声合成の限界と我々のアプローチ – 人間の歌声は,歌唱ごとに歌いまわしが異なる • 豊かな音楽体験 (コンサートの臨場感,複数テイクの取捨選択) – 歌声合成は,発話間変動を欠く • 合成過程が決定論的なため,同一楽譜からは単一の歌声のみ生成 – 歌声合成にランダム性を持たせたい 2 Noise Current system Noise Our approachHuman
  3. 3. /23 Double-tracking (DT) への応用  Double-tracking (DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 発話間変動のない合成歌声の場合,不可能  Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 3自然な DT に近い手法を作りたい Double-tracking (DT) Artificial Double- tracking (ADT) Neural double- tracking (proposed) Sing twice Synthesize once Signal processing Synthesize once GMMN post-filter Mix Mix Mix
  4. 4. /23 発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT) – DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習 – ADT: ピッチ系列を信号処理的に変調して原音にミックス  提案法: GMMN ポストフィルタと neural double-tracking (NDT) – 合成歌声のピッチ系列を generative moment matching network (GMMN) に基づきランダムに変調 – ポストフィルタを利用して自然な重ね録り感を再現  実験結果 – 合成歌声の自然性を損なわずに,知覚できる水準の発話間変動を生成 – NDT は ADT より自然な DT に近い 4
  5. 5. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 5
  6. 6. /23 DNN 歌声合成 6 [Nishimura+, 2016] 最小二乗誤差規範の学習・生成が行われるため, 同一楽譜からは単一の歌声パラメータが出力される コンテキスト 音声特徴量 𝑡 = 1 𝑡 = 2 𝑡 = 𝑇 言語 コンテキスト 音楽 コンテキスト 楽譜 … … … DNN スペクトル 連続F0 有声/無声 Mean squared error 歌声
  7. 7. /23 Artificial double-tracking (ADT)  原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 – 変調音は,遅延(遅らせる)・ゲイン(音量を下げる)処理を行う 7 Pitch(1が半音) *変調を明瞭に 表示するため, 正弦波の振幅は 実際の値より 大きく設定して いる Time [s] 位相の似た2音のミックスに起因する,不自然な音が生じる 原音 変調音
  8. 8. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 8
  9. 9. /23 GMMN に基づくポストフィルタ 9  F0セグメントのゆらぎを統計的にモデル化 – 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016] – 変調スペクトルの条件付き分布を GMMN でモデル化 STFT GMMN 変調スペクトル 位相 ISTFT ポストフィルタ ランダムノイズ 楽譜 DNN 歌声合成 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
  10. 10. /23  ピッチ系列の連続性を考慮した処理 – 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う 変調スペクトル (Modulation spectrum: MS) 10 フレームごとの処理と異なり,不連続性の問題が発生しない 変調周波数 セグメント 低次 連続ピッチ系列 STFT, 対数振幅 計算 1 2 3 4 5 6 7 1 2 3 4 5 6 7 … … … 0 次 変調スペクトル 系列 セグメント
  11. 11. /23  条件付き GMMN [Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 入力条件下で,出力とターゲットのモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 11 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ ⋯ ランダムノイズ モーメントを 揃える 条件 出力 ターゲット
  12. 12. /23 提案ポストフィルタの Schematic diagram 12 ⋯ 合成ピッチ系列 自然ピッチ系列 STFT位相 STFT 𝒚 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺 𝒚 ⋯ ランダムノイズ ISTFT 𝑺 𝒚𝑺 𝒚 変動ピッチ系列 𝒔 𝒚(1) 𝒔 𝒚(𝑇′)𝒔 𝒚(1) 𝒔 𝒚(𝑇′) 𝒚 合成 MS 変動 MS 自然 MS モーメントを 揃える
  13. 13. /23 Generated F0 13 *MSE: Mean Squared Error う さ ぎ う さ ぎ Pitch(1が半音) Time [s] MSE Post-filtered (4 lines) 童謡「うさぎ」の一節
  14. 14. /23  ADT における信号処理的変調の替わりに,提案ポストフィルタを使用 Neural double-tracking (NDT) 14 楽譜 DNN 歌声合成 スペクトル 有声/無声 「自然な重ね録り感」を人工的に付与して 厚みのあるボーカルを生成する歌声変調技術 ポストフィルタ F0 F0’ vocoding vocoding 遅延・ゲイン 処理 NDT 音原音 変調音
  15. 15. /23 考察  不連続性の問題を回避 – フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で, ポストフィルタによる不連続音の発生を回避  ランダム性の保存 – ランダムノイズを保存することで,セグメント毎のランダム変調を 保存可能  NDTによる自然な重ね録り感の再現 – 従来の ADT で発生していた不自然な重ね録り感を緩和 15 1 𝒏 𝟏 2 𝒏 𝟐 3 𝒏 𝟑 4 𝒏 𝟒 5 𝒏 𝟓 6 𝒏 𝟔 7 𝒏 𝟕 … … ノイズ
  16. 16. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 16
  17. 17. /23 実験条件 17 歌声合成の学習データ HTS 28曲,JSUT-song 23曲,in-house データ 7曲 *トランスポーズによる,3倍のデータ拡張 ポストフィルタの学習データ HTS 28曲 テストデータ HTS 3曲 サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] コンテキスト特徴量 705次元 (言語・音楽特徴量,歌手・曲コード) 音声特徴量 127次元 (メルケプストラム,連続対数𝐹0 など) MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms フィルタリングの対象 1次のMS ノイズ 10次元,一様分布 歌声合成 DNN・ ポストフィルタ GMMN Feed-forward (詳細は論文参照) GMMN はガウシアンカーネルを使用
  18. 18. /23 実験条件 (cont’d)  評価方法 – クラウドソーシングサービス上で,25人を対象に主観評価  時間長条件 – 実験内容ごとに,評価を容易にするため,提示サンプルの長さを変更 – フレーズ的にキリの良い位置で手動分割  その他 – ピッチのみを評価するため,他のパラメータは自然音声のものを使用 18 条件 平均時間長 評価内容 Short 3.01 s 変動の知覚 Middle 4.88 s 自然性,重ね録り感 Long 10.24 s 自然性,重ね録り感 S うさぎうさぎ S 何見て跳ねる S 十五夜お月様 S 見て跳ねる M M L 童謡「うさぎ」の例
  19. 19. /23 発話間変動の知覚  音声の対を聴き,違いがあると感じたかを質問  提案条件10対と対照条件10対をランダムな順序で混ぜておく – 提案条件 • ポストフィルタでランダム変調した 2 つの合成歌声 – 対照条件 • ポストフィルタをかけていない,同一の合成歌声  結果 (発話間変動を知覚したと回答した率) 19 提案 対照 𝑝 値 (ウェルチの 𝑡 検定) 𝟎. 𝟐𝟕𝟔 0.176 7.45 × 10−3 知覚可能な発話間変動を生成可能
  20. 20. /23 合成歌声の自然性  提案条件・従来条件の対を10対聴き,より自然な方を選択 – 提案条件: ポストフィルタをかけた歌声 – 従来条件: ポストフィルタをかけていない歌声  結果 (自然性の評価スコア) 20 時間長条件 提案条件 従来条件 𝑝 値 Middle 0.504 0.496 8.58 × 10−1 Long 0.480 0.520 3.72 × 10−1 ポストフィルタによる有意な自然性の低下は見られない
  21. 21. /23 NDTの重ね録り感  提案条件・従来条件の対を10対聴き,より「実際に多重録音 したように聴こえる」方を選択 – 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス – 従来条件 (ADT): ピッチを正弦波変調した歌声を原音にミックス  結果 (重ね録り感の評価スコア) 21 時間長条件 NDT ADT 𝑝 値 Middle 𝟎. 𝟕𝟐𝟒 0.276 < 10−10 Long 𝟎. 𝟕𝟑𝟔 0.264 < 10−10 提案する NDT の方が,自然な DT に近い聴覚的印象を実現
  22. 22. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 22
  23. 23. /23 まとめと今後の予定  背景 – DNN 歌声合成にランダム性を付与したい – ADT よりも DT に近い人工的手法を作りたい  提案法 – GMMN に基づくランダム変調ポストフィルタ,NDT への応用  評価結果 – 合成歌声の自然性を損なわずに,知覚できる発話間変動を生成 – NDT は従来の ADT より自然な DT に近い  今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 – 自然音声を入力とするポストフィルタへの拡張 23
  24. 24. /23 付録: DT, ADT, and NDT Double-tracking (DT) Artificial Double- tracking (ADT) Neural double- tracking (proposed) Sing twice Synthesize once Signal processing Synthesize once GMMN post-filter Mix Mix Mix 波形 周期 深さ 正弦波 0.775 Hz 10 cent (半音の 10%) 遅延 ゲイン 20 ms -3 dB ADT の変調条件 ADT・NDT の条件 (変調音に対する処理)

×