Successfully reported this slideshow.
Your SlideShare is downloading. ×

ユーザ歌唱のための generative moment matching network に基づく neural double-tracking

More Related Content

More from Shinnosuke Takamichi

ユーザ歌唱のための generative moment matching network に基づく neural double-tracking

  1. 1. 09/04/2019©Hiroki Tamaru, The University of Tokyo ユーザ歌唱のための generative moment matching network に基づく neural double-tracking 田丸 浩気,齋藤 佑樹,高道 慎之介,郡山 知樹,猿渡 洋 (東京大学) 日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
  2. 2. /14 背景: Double-tracking  Double-tracking (DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 2回,節回しや音の継続長を揃えて歌うのが難しい  Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 2自然な重ね録り感を人工的に再現したい Double-tracking (DT) Artificial double- tracking (ADT) Neural double- tracking (proposed) Sing twice Sing once Signal processing Sing once GMMN post-filter Mix Mix Mix
  3. 3. /14 発表概要  従来法: artificial double-tracking (ADT) – ピッチ系列を信号処理的に変調して原音にミックス  提案法: neural double-tracking (NDT) – ピッチ系列を機械学習的に変調して原音にミックス – generative moment matching network (GMMN) [Ren+, 2016] でラン ダム性を学習 – 合成歌声のための手法 [Tamaru+, 2019] をユーザ歌唱のために適用 – そのために新たに繰り返し歌唱データベースを作成  主観評価結果 – NDT は ADT より高い重ね録り感を付与 3
  4. 4. /14 Artificial double-tracking (ADT)  原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 4 Pitch(1が半音) *変調を明瞭に表示するため,正弦波の振幅は実際の値より大きく設定している Time [s] 位相の似た2音のミックスに起因する,artifact が生じる 原音 変調音 [Izhaki+, 2017]
  5. 5. /18 提案法 GMMN ポストフィルタに基づく neural double-tracking (NDT) 5
  6. 6. /14 GMMN に基づくポストフィルタ 6  ピッチ系列のランダム性を統計的にモデル化 – 時系列の構造情報を F0 包絡でモデル化 [Takamichi+, 2016] – F0 包絡の条件付き分布を GMMN でモデル化 STFT GMMN F0 包絡 位相 ISTFT ポストフィルタ ランダムノイズ 歌声 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform [Tamaru+, ICASSP 2019]
  7. 7. /14  条件付き GMMN [Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 出力とターゲットの条件付き分布のモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 7 𝑈[−𝟏, 𝟏) ランダムノイズ モーメントを 揃える ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 条件 出力 ターゲット
  8. 8. /14 GMMN ポストフィルタ 8 ⋯ 入力ピッチ系列 ターゲットピッチ系列 STFT位相 STFT 𝒚 𝑡𝑔𝑡 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺𝑖𝑛 ⋯ ランダムノイズ ISTFT 𝑺 𝑡𝑔𝑡𝑺 𝑜𝑢𝑡 変動ピッチ系列 𝒔𝑖𝑛(1) 𝒔𝑖𝑛(𝑇′)𝒔 𝑜𝑢𝑡(1) 𝒔 𝑜𝑢𝑡(𝑇′) 𝒚𝑖𝑛 入力 F0 包絡 変動 F0 包絡 ターゲット F0 包絡 モーメントを 揃える [Tamaru+, ICASSP 2019]
  9. 9. /14 繰り返し歌唱データベースを用いた学習  合成歌声に対するポストフィルタリング [Tamaru+, 2019] – 入力: 合成歌声,ターゲット: 自然歌声  ユーザ歌唱に対するポストフィルタリング (本発表) – 上の手法は使えない → 繰り返し歌唱データベースが必要 – 入力: ある録音,ターゲット: 別の録音 – すべての (入力,ターゲット) の組み合わせを用いる 9
  10. 10. /14  ADT における信号処理の替わりに,GMMN ポストフィルタを使用 Neural double-tracking (NDT) 10 スペクトル 有声/無声 F0 F0’ 学習された自然なランダム性を用いて原音を変調し 自然な重ね録り感を得る ポストフィルタ vocoder 分析 vocoder 合成 NDT 音原音 変調音 ランダムノイズ [Tamaru+, ICASSP 2019]
  11. 11. /14 実験条件 11 繰り返し歌唱データベース HTS の童謡から 17 曲を男性 4 名が 5 回ずつ メトロノーム・見本に合わせて歌唱 学習データ/テストデータ 14 曲 (12 分 6 秒) / 3 曲 (1 分 24 秒) サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] (F0 抽出以外), STRAIGHT [Kawahara+, 2001] (F0 抽出) 音声特徴量 スペクトル包絡,band-aperiodicity, 有声/無声 F0 包絡成分 1次の変調スペクトル (MS) [Takamichi+, 2016] MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms ノイズ 10次元,一様分布 GMMN Feed-Forward (詳細は論文参照)
  12. 12. /14 実験条件 (cont’d)  評価する手法  評価方法 – クラウドソーシングサービス上で,100 人を対象 – 重ね録り感 (2 回歌って多重録音したような感じであるか) を 5 段階 mean opinion score (MOS) で評価  提示サンプル – フレーズ的にキリの良い位置で,サンプルを手動分割 – 短い (平均 4.9 s) サンプルの結果を示す (長いサンプルは論文参照) 12 ADT ピッチ系列を正弦波変調してミックス NDT (SD) 提案手法 (歌唱者依存) 1 人の歌唱者で学習・テスト NDT (SI) 提案手法 (不特定歌唱者) 複数の歌唱者で学習・オープンな歌唱者でテスト DT 2 個の録音をミックス
  13. 13. /14 重ね録り感の評価スコア 13 𝑝 値 0.566
  14. 14. /14 まとめと今後の予定  背景 – DT は難しく,ADT は不自然 – ADT よりも自然な重ね録り感を付与する人工的手法を作りたい  提案法 – GMMN に基づくランダム変調ポストフィルタと,繰り返し歌唱 データベースを用いた NDT – ランダム性を学習することで,自然な重ね録り感を付与  評価結果 – NDT は従来の ADT より自然な重ね録り感を付与 – SI モデルも頑健に動作  今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 14
  15. 15. /1415

×