Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
12/10/2018©Hiroki Tamaru,
The University of Tokyo
モーメントマッチングに基づく
DNN合成歌声のランダム変調ポストフィルタと
ニューラルダブルトラッキングへの応用
田丸 浩気1,齋藤 佑樹1 ,...
/23
研究背景
 歌声合成技術
– ユーザの性別・歌唱技量に関係なく歌声を製作でき,盛んに利用
– deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]
 従来の歌声合...
/23
Double-tracking (DT) への応用
 Double-tracking (DT)
– 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる
– 発話間変動のない合成歌声の場合,不可能
 Artificial d...
/23
発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
– DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習
– ADT: ピッチ系列を信号処理的に変調して原音にミックス
...
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実...
/23
DNN 歌声合成
6
[Nishimura+, 2016]
最小二乗誤差規範の学習・生成が行われるため,
同一楽譜からは単一の歌声パラメータが出力される
コンテキスト 音声特徴量
𝑡 = 1
𝑡 = 2
𝑡 = 𝑇
言語
コンテキスト
...
/23
Artificial double-tracking (ADT)
 原音と変調音をミックスして,厚みを持たせる
– 原音のピッチ系列 + 正弦波 = 変調ピッチ系列
– 変調音は,遅延(遅らせる)・ゲイン(音量を下げる)処理を行う
7...
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実...
/23
GMMN に基づくポストフィルタ
9
 F0セグメントのゆらぎを統計的にモデル化
– 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016]
– 変調スペクトルの条件付き分布を GMMN でモデル化
STFT...
/23
 ピッチ系列の連続性を考慮した処理
– 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う
変調スペクトル (Modulation spectrum: MS)
10
フレームごとの処理と異なり...
/23
 条件付き GMMN [Ren+, 2016]
– ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換
– 入力条件下で,出力とターゲットのモーメントを揃えるよう学習
– 生成時: ターゲット分布に基づき,値をランダムサン...
/23
提案ポストフィルタの Schematic diagram
12
⋯
合成ピッチ系列 自然ピッチ系列
STFT位相 STFT
𝒚
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯ 𝑺 𝒚
⋯
ランダムノイズ
ISTFT
𝑺 𝒚𝑺 ...
/23
Generated F0
13
*MSE: Mean Squared Error
う さ
ぎ
う
さ
ぎ
Pitch(1が半音)
Time [s]
MSE
Post-filtered (4 lines)
童謡「うさぎ」の一節
/23
 ADT における信号処理的変調の替わりに,提案ポストフィルタを使用
Neural double-tracking (NDT)
14
楽譜 DNN 歌声合成
スペクトル
有声/無声
「自然な重ね録り感」を人工的に付与して
厚みのあるボ...
/23
考察
 不連続性の問題を回避
– フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で,
ポストフィルタによる不連続音の発生を回避
 ランダム性の保存
– ランダムノイズを保存することで,セグメント毎の...
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実...
/23
実験条件
17
歌声合成の学習データ HTS 28曲,JSUT-song 23曲,in-house データ 7曲
*トランスポーズによる,3倍のデータ拡張
ポストフィルタの学習データ HTS 28曲
テストデータ HTS 3曲
サンプリ...
/23
実験条件 (cont’d)
 評価方法
– クラウドソーシングサービス上で,25人を対象に主観評価
 時間長条件
– 実験内容ごとに,評価を容易にするため,提示サンプルの長さを変更
– フレーズ的にキリの良い位置で手動分割
 その...
/23
発話間変動の知覚
 音声の対を聴き,違いがあると感じたかを質問
 提案条件10対と対照条件10対をランダムな順序で混ぜておく
– 提案条件
• ポストフィルタでランダム変調した 2 つの合成歌声
– 対照条件
• ポストフィルタをか...
/23
合成歌声の自然性
 提案条件・従来条件の対を10対聴き,より自然な方を選択
– 提案条件: ポストフィルタをかけた歌声
– 従来条件: ポストフィルタをかけていない歌声
 結果 (自然性の評価スコア)
20
時間長条件 提案条件 従...
/23
NDTの重ね録り感
 提案条件・従来条件の対を10対聴き,より「実際に多重録音
したように聴こえる」方を選択
– 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス
– 従来条件 (ADT): ピッチを正弦波変調した歌...
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実...
/23
まとめと今後の予定
 背景
– DNN 歌声合成にランダム性を付与したい
– ADT よりも DT に近い人工的手法を作りたい
 提案法
– GMMN に基づくランダム変調ポストフィルタ,NDT への応用
 評価結果
– 合成歌声...
/23
付録: DT, ADT, and NDT
Double-tracking
(DT)
Artificial Double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
tw...
Upcoming SlideShare
Loading in …5
×

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

592 views

Published on

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

Published in: Technology
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

  1. 1. 12/10/2018©Hiroki Tamaru, The University of Tokyo モーメントマッチングに基づく DNN合成歌声のランダム変調ポストフィルタと ニューラルダブルトラッキングへの応用 田丸 浩気1,齋藤 佑樹1 ,高道 慎之介1 ,郡山 知樹2,猿渡 洋1 (1東京大学,2東京工業大学) SLP 研究会 (2018/12/10)
  2. 2. /23 研究背景  歌声合成技術 – ユーザの性別・歌唱技量に関係なく歌声を製作でき,盛んに利用 – deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]  従来の歌声合成の限界と我々のアプローチ – 人間の歌声は,歌唱ごとに歌いまわしが異なる • 豊かな音楽体験 (コンサートの臨場感,複数テイクの取捨選択) – 歌声合成は,発話間変動を欠く • 合成過程が決定論的なため,同一楽譜からは単一の歌声のみ生成 – 歌声合成にランダム性を持たせたい 2 Noise Current system Noise Our approachHuman
  3. 3. /23 Double-tracking (DT) への応用  Double-tracking (DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 発話間変動のない合成歌声の場合,不可能  Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 3自然な DT に近い手法を作りたい Double-tracking (DT) Artificial Double- tracking (ADT) Neural double- tracking (proposed) Sing twice Synthesize once Signal processing Synthesize once GMMN post-filter Mix Mix Mix
  4. 4. /23 発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT) – DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習 – ADT: ピッチ系列を信号処理的に変調して原音にミックス  提案法: GMMN ポストフィルタと neural double-tracking (NDT) – 合成歌声のピッチ系列を generative moment matching network (GMMN) に基づきランダムに変調 – ポストフィルタを利用して自然な重ね録り感を再現  実験結果 – 合成歌声の自然性を損なわずに,知覚できる水準の発話間変動を生成 – NDT は ADT より自然な DT に近い 4
  5. 5. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 5
  6. 6. /23 DNN 歌声合成 6 [Nishimura+, 2016] 最小二乗誤差規範の学習・生成が行われるため, 同一楽譜からは単一の歌声パラメータが出力される コンテキスト 音声特徴量 𝑡 = 1 𝑡 = 2 𝑡 = 𝑇 言語 コンテキスト 音楽 コンテキスト 楽譜 … … … DNN スペクトル 連続F0 有声/無声 Mean squared error 歌声
  7. 7. /23 Artificial double-tracking (ADT)  原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 – 変調音は,遅延(遅らせる)・ゲイン(音量を下げる)処理を行う 7 Pitch(1が半音) *変調を明瞭に 表示するため, 正弦波の振幅は 実際の値より 大きく設定して いる Time [s] 位相の似た2音のミックスに起因する,不自然な音が生じる 原音 変調音
  8. 8. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 8
  9. 9. /23 GMMN に基づくポストフィルタ 9  F0セグメントのゆらぎを統計的にモデル化 – 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016] – 変調スペクトルの条件付き分布を GMMN でモデル化 STFT GMMN 変調スペクトル 位相 ISTFT ポストフィルタ ランダムノイズ 楽譜 DNN 歌声合成 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
  10. 10. /23  ピッチ系列の連続性を考慮した処理 – 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う 変調スペクトル (Modulation spectrum: MS) 10 フレームごとの処理と異なり,不連続性の問題が発生しない 変調周波数 セグメント 低次 連続ピッチ系列 STFT, 対数振幅 計算 1 2 3 4 5 6 7 1 2 3 4 5 6 7 … … … 0 次 変調スペクトル 系列 セグメント
  11. 11. /23  条件付き GMMN [Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 入力条件下で,出力とターゲットのモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 11 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ ⋯ ランダムノイズ モーメントを 揃える 条件 出力 ターゲット
  12. 12. /23 提案ポストフィルタの Schematic diagram 12 ⋯ 合成ピッチ系列 自然ピッチ系列 STFT位相 STFT 𝒚 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺 𝒚 ⋯ ランダムノイズ ISTFT 𝑺 𝒚𝑺 𝒚 変動ピッチ系列 𝒔 𝒚(1) 𝒔 𝒚(𝑇′)𝒔 𝒚(1) 𝒔 𝒚(𝑇′) 𝒚 合成 MS 変動 MS 自然 MS モーメントを 揃える
  13. 13. /23 Generated F0 13 *MSE: Mean Squared Error う さ ぎ う さ ぎ Pitch(1が半音) Time [s] MSE Post-filtered (4 lines) 童謡「うさぎ」の一節
  14. 14. /23  ADT における信号処理的変調の替わりに,提案ポストフィルタを使用 Neural double-tracking (NDT) 14 楽譜 DNN 歌声合成 スペクトル 有声/無声 「自然な重ね録り感」を人工的に付与して 厚みのあるボーカルを生成する歌声変調技術 ポストフィルタ F0 F0’ vocoding vocoding 遅延・ゲイン 処理 NDT 音原音 変調音
  15. 15. /23 考察  不連続性の問題を回避 – フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で, ポストフィルタによる不連続音の発生を回避  ランダム性の保存 – ランダムノイズを保存することで,セグメント毎のランダム変調を 保存可能  NDTによる自然な重ね録り感の再現 – 従来の ADT で発生していた不自然な重ね録り感を緩和 15 1 𝒏 𝟏 2 𝒏 𝟐 3 𝒏 𝟑 4 𝒏 𝟒 5 𝒏 𝟓 6 𝒏 𝟔 7 𝒏 𝟕 … … ノイズ
  16. 16. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 16
  17. 17. /23 実験条件 17 歌声合成の学習データ HTS 28曲,JSUT-song 23曲,in-house データ 7曲 *トランスポーズによる,3倍のデータ拡張 ポストフィルタの学習データ HTS 28曲 テストデータ HTS 3曲 サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] コンテキスト特徴量 705次元 (言語・音楽特徴量,歌手・曲コード) 音声特徴量 127次元 (メルケプストラム,連続対数𝐹0 など) MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms フィルタリングの対象 1次のMS ノイズ 10次元,一様分布 歌声合成 DNN・ ポストフィルタ GMMN Feed-forward (詳細は論文参照) GMMN はガウシアンカーネルを使用
  18. 18. /23 実験条件 (cont’d)  評価方法 – クラウドソーシングサービス上で,25人を対象に主観評価  時間長条件 – 実験内容ごとに,評価を容易にするため,提示サンプルの長さを変更 – フレーズ的にキリの良い位置で手動分割  その他 – ピッチのみを評価するため,他のパラメータは自然音声のものを使用 18 条件 平均時間長 評価内容 Short 3.01 s 変動の知覚 Middle 4.88 s 自然性,重ね録り感 Long 10.24 s 自然性,重ね録り感 S うさぎうさぎ S 何見て跳ねる S 十五夜お月様 S 見て跳ねる M M L 童謡「うさぎ」の例
  19. 19. /23 発話間変動の知覚  音声の対を聴き,違いがあると感じたかを質問  提案条件10対と対照条件10対をランダムな順序で混ぜておく – 提案条件 • ポストフィルタでランダム変調した 2 つの合成歌声 – 対照条件 • ポストフィルタをかけていない,同一の合成歌声  結果 (発話間変動を知覚したと回答した率) 19 提案 対照 𝑝 値 (ウェルチの 𝑡 検定) 𝟎. 𝟐𝟕𝟔 0.176 7.45 × 10−3 知覚可能な発話間変動を生成可能
  20. 20. /23 合成歌声の自然性  提案条件・従来条件の対を10対聴き,より自然な方を選択 – 提案条件: ポストフィルタをかけた歌声 – 従来条件: ポストフィルタをかけていない歌声  結果 (自然性の評価スコア) 20 時間長条件 提案条件 従来条件 𝑝 値 Middle 0.504 0.496 8.58 × 10−1 Long 0.480 0.520 3.72 × 10−1 ポストフィルタによる有意な自然性の低下は見られない
  21. 21. /23 NDTの重ね録り感  提案条件・従来条件の対を10対聴き,より「実際に多重録音 したように聴こえる」方を選択 – 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス – 従来条件 (ADT): ピッチを正弦波変調した歌声を原音にミックス  結果 (重ね録り感の評価スコア) 21 時間長条件 NDT ADT 𝑝 値 Middle 𝟎. 𝟕𝟐𝟒 0.276 < 10−10 Long 𝟎. 𝟕𝟑𝟔 0.264 < 10−10 提案する NDT の方が,自然な DT に近い聴覚的印象を実現
  22. 22. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 22
  23. 23. /23 まとめと今後の予定  背景 – DNN 歌声合成にランダム性を付与したい – ADT よりも DT に近い人工的手法を作りたい  提案法 – GMMN に基づくランダム変調ポストフィルタ,NDT への応用  評価結果 – 合成歌声の自然性を損なわずに,知覚できる発話間変動を生成 – NDT は従来の ADT より自然な DT に近い  今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 – 自然音声を入力とするポストフィルタへの拡張 23
  24. 24. /23 付録: DT, ADT, and NDT Double-tracking (DT) Artificial Double- tracking (ADT) Neural double- tracking (proposed) Sing twice Synthesize once Signal processing Synthesize once GMMN post-filter Mix Mix Mix 波形 周期 深さ 正弦波 0.775 Hz 10 cent (半音の 10%) 遅延 ゲイン 20 ms -3 dB ADT の変調条件 ADT・NDT の条件 (変調音に対する処理)

×