09/04/2019©Hiroki Tamaru,
The University of Tokyo
ユーザ歌唱のための
generative moment matching network に基づく
neural double-tracking
田丸 浩気,齋藤 佑樹,高道 慎之介,郡山 知樹,猿渡 洋
(東京大学)
日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
/14
背景: Double-tracking
 Double-tracking (DT)
– 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる
– 2回,節回しや音の継続長を揃えて歌うのが難しい
 Artificial double-tracking (ADT)
– 歌声を信号処理的に変調して原音にミックスする代替法
– 厚みは出るが,不自然な聴覚的印象になってしまう
2自然な重ね録り感を人工的に再現したい
Double-tracking
(DT)
Artificial double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Sing
once
Signal
processing
Sing
once
GMMN
post-filter
Mix Mix Mix
/14
発表概要
 従来法: artificial double-tracking (ADT)
– ピッチ系列を信号処理的に変調して原音にミックス
 提案法: neural double-tracking (NDT)
– ピッチ系列を機械学習的に変調して原音にミックス
– generative moment matching network (GMMN) [Ren+, 2016] でラン
ダム性を学習
– 合成歌声のための手法 [Tamaru+, 2019] をユーザ歌唱のために適用
– そのために新たに繰り返し歌唱データベースを作成
 主観評価結果
– NDT は ADT より高い重ね録り感を付与
3
/14
Artificial double-tracking (ADT)
 原音と変調音をミックスして,厚みを持たせる
– 原音のピッチ系列 + 正弦波 = 変調ピッチ系列
4
Pitch(1が半音)
*変調を明瞭に表示するため,正弦波の振幅は実際の値より大きく設定している
Time [s]
位相の似た2音のミックスに起因する,artifact が生じる
原音
変調音
[Izhaki+, 2017]
/18
提案法
GMMN ポストフィルタに基づく
neural double-tracking (NDT)
5
/14
GMMN に基づくポストフィルタ
6
 ピッチ系列のランダム性を統計的にモデル化
– 時系列の構造情報を F0 包絡でモデル化 [Takamichi+, 2016]
– F0 包絡の条件付き分布を GMMN でモデル化
STFT
GMMN
F0 包絡
位相
ISTFT
ポストフィルタ
ランダムノイズ
歌声 ピッチ系列 新しいピッチ系列
*STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
[Tamaru+, ICASSP 2019]
/14
 条件付き GMMN [Ren+, 2016]
– ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換
– 出力とターゲットの条件付き分布のモーメントを揃えるよう学習
– 生成時: ターゲット分布に基づき,値をランダムサンプリング
GMMN に基づくパラメータサンプリング
7
𝑈[−𝟏, 𝟏)
ランダムノイズ
モーメントを
揃える
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
条件
出力 ターゲット
/14
GMMN ポストフィルタ
8
⋯
入力ピッチ系列 ターゲットピッチ系列
STFT位相 STFT
𝒚 𝑡𝑔𝑡
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯ 𝑺𝑖𝑛
⋯
ランダムノイズ
ISTFT
𝑺 𝑡𝑔𝑡𝑺 𝑜𝑢𝑡
変動ピッチ系列
𝒔𝑖𝑛(1) 𝒔𝑖𝑛(𝑇′)𝒔 𝑜𝑢𝑡(1) 𝒔 𝑜𝑢𝑡(𝑇′)
𝒚𝑖𝑛
入力
F0 包絡
変動
F0 包絡
ターゲット
F0 包絡
モーメントを
揃える
[Tamaru+, ICASSP 2019]
/14
繰り返し歌唱データベースを用いた学習
 合成歌声に対するポストフィルタリング [Tamaru+, 2019]
– 入力: 合成歌声,ターゲット: 自然歌声
 ユーザ歌唱に対するポストフィルタリング (本発表)
– 上の手法は使えない → 繰り返し歌唱データベースが必要
– 入力: ある録音,ターゲット: 別の録音
– すべての (入力,ターゲット) の組み合わせを用いる
9
/14
 ADT における信号処理の替わりに,GMMN ポストフィルタを使用
Neural double-tracking (NDT)
10
スペクトル
有声/無声
F0 F0’
学習された自然なランダム性を用いて原音を変調し
自然な重ね録り感を得る
ポストフィルタ
vocoder
分析
vocoder
合成
NDT 音原音 変調音
ランダムノイズ
[Tamaru+, ICASSP 2019]
/14
実験条件
11
繰り返し歌唱データベース HTS の童謡から 17 曲を男性 4 名が 5 回ずつ
メトロノーム・見本に合わせて歌唱
学習データ/テストデータ 14 曲 (12 分 6 秒) / 3 曲 (1 分 24 秒)
サンプリング周波数 16 kHz
音声特徴量抽出・波形合成 WORLD [Morise+, 2016] (F0 抽出以外),
STRAIGHT [Kawahara+, 2001] (F0 抽出)
音声特徴量 スペクトル包絡,band-aperiodicity, 有声/無声
F0 包絡成分 1次の変調スペクトル (MS) [Takamichi+, 2016]
MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms
ノイズ 10次元,一様分布
GMMN Feed-Forward (詳細は論文参照)
/14
実験条件 (cont’d)
 評価する手法
 評価方法
– クラウドソーシングサービス上で,100 人を対象
– 重ね録り感 (2 回歌って多重録音したような感じであるか) を 5 段階
mean opinion score (MOS) で評価
 提示サンプル
– フレーズ的にキリの良い位置で,サンプルを手動分割
– 短い (平均 4.9 s) サンプルの結果を示す (長いサンプルは論文参照)
12
ADT ピッチ系列を正弦波変調してミックス
NDT (SD) 提案手法 (歌唱者依存)
1 人の歌唱者で学習・テスト
NDT (SI) 提案手法 (不特定歌唱者)
複数の歌唱者で学習・オープンな歌唱者でテスト
DT 2 個の録音をミックス
/14
重ね録り感の評価スコア
13
𝑝 値
0.566
/14
まとめと今後の予定
 背景
– DT は難しく,ADT は不自然
– ADT よりも自然な重ね録り感を付与する人工的手法を作りたい
 提案法
– GMMN に基づくランダム変調ポストフィルタと,繰り返し歌唱
データベースを用いた NDT
– ランダム性を学習することで,自然な重ね録り感を付与
 評価結果
– NDT は従来の ADT より自然な重ね録り感を付与
– SI モデルも頑健に動作
 今後の予定
– スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 14
/1415

ユーザ歌唱のための generative moment matching network に基づく neural double-tracking

  • 1.
    09/04/2019©Hiroki Tamaru, The Universityof Tokyo ユーザ歌唱のための generative moment matching network に基づく neural double-tracking 田丸 浩気,齋藤 佑樹,高道 慎之介,郡山 知樹,猿渡 洋 (東京大学) 日本音響学会秋季研究発表会 (2019/9/4) 1-4-3
  • 2.
    /14 背景: Double-tracking  Double-tracking(DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 2回,節回しや音の継続長を揃えて歌うのが難しい  Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 2自然な重ね録り感を人工的に再現したい Double-tracking (DT) Artificial double- tracking (ADT) Neural double- tracking (proposed) Sing twice Sing once Signal processing Sing once GMMN post-filter Mix Mix Mix
  • 3.
    /14 発表概要  従来法: artificialdouble-tracking (ADT) – ピッチ系列を信号処理的に変調して原音にミックス  提案法: neural double-tracking (NDT) – ピッチ系列を機械学習的に変調して原音にミックス – generative moment matching network (GMMN) [Ren+, 2016] でラン ダム性を学習 – 合成歌声のための手法 [Tamaru+, 2019] をユーザ歌唱のために適用 – そのために新たに繰り返し歌唱データベースを作成  主観評価結果 – NDT は ADT より高い重ね録り感を付与 3
  • 4.
    /14 Artificial double-tracking (ADT) 原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 4 Pitch(1が半音) *変調を明瞭に表示するため,正弦波の振幅は実際の値より大きく設定している Time [s] 位相の似た2音のミックスに起因する,artifact が生じる 原音 変調音 [Izhaki+, 2017]
  • 5.
  • 6.
    /14 GMMN に基づくポストフィルタ 6  ピッチ系列のランダム性を統計的にモデル化 –時系列の構造情報を F0 包絡でモデル化 [Takamichi+, 2016] – F0 包絡の条件付き分布を GMMN でモデル化 STFT GMMN F0 包絡 位相 ISTFT ポストフィルタ ランダムノイズ 歌声 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform [Tamaru+, ICASSP 2019]
  • 7.
    /14  条件付き GMMN[Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 出力とターゲットの条件付き分布のモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 7 𝑈[−𝟏, 𝟏) ランダムノイズ モーメントを 揃える ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 条件 出力 ターゲット
  • 8.
    /14 GMMN ポストフィルタ 8 ⋯ 入力ピッチ系列 ターゲットピッチ系列 STFT位相STFT 𝒚 𝑡𝑔𝑡 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺𝑖𝑛 ⋯ ランダムノイズ ISTFT 𝑺 𝑡𝑔𝑡𝑺 𝑜𝑢𝑡 変動ピッチ系列 𝒔𝑖𝑛(1) 𝒔𝑖𝑛(𝑇′)𝒔 𝑜𝑢𝑡(1) 𝒔 𝑜𝑢𝑡(𝑇′) 𝒚𝑖𝑛 入力 F0 包絡 変動 F0 包絡 ターゲット F0 包絡 モーメントを 揃える [Tamaru+, ICASSP 2019]
  • 9.
    /14 繰り返し歌唱データベースを用いた学習  合成歌声に対するポストフィルタリング [Tamaru+,2019] – 入力: 合成歌声,ターゲット: 自然歌声  ユーザ歌唱に対するポストフィルタリング (本発表) – 上の手法は使えない → 繰り返し歌唱データベースが必要 – 入力: ある録音,ターゲット: 別の録音 – すべての (入力,ターゲット) の組み合わせを用いる 9
  • 10.
    /14  ADT における信号処理の替わりに,GMMNポストフィルタを使用 Neural double-tracking (NDT) 10 スペクトル 有声/無声 F0 F0’ 学習された自然なランダム性を用いて原音を変調し 自然な重ね録り感を得る ポストフィルタ vocoder 分析 vocoder 合成 NDT 音原音 変調音 ランダムノイズ [Tamaru+, ICASSP 2019]
  • 11.
    /14 実験条件 11 繰り返し歌唱データベース HTS の童謡から17 曲を男性 4 名が 5 回ずつ メトロノーム・見本に合わせて歌唱 学習データ/テストデータ 14 曲 (12 分 6 秒) / 3 曲 (1 分 24 秒) サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] (F0 抽出以外), STRAIGHT [Kawahara+, 2001] (F0 抽出) 音声特徴量 スペクトル包絡,band-aperiodicity, 有声/無声 F0 包絡成分 1次の変調スペクトル (MS) [Takamichi+, 2016] MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms ノイズ 10次元,一様分布 GMMN Feed-Forward (詳細は論文参照)
  • 12.
    /14 実験条件 (cont’d)  評価する手法 評価方法 – クラウドソーシングサービス上で,100 人を対象 – 重ね録り感 (2 回歌って多重録音したような感じであるか) を 5 段階 mean opinion score (MOS) で評価  提示サンプル – フレーズ的にキリの良い位置で,サンプルを手動分割 – 短い (平均 4.9 s) サンプルの結果を示す (長いサンプルは論文参照) 12 ADT ピッチ系列を正弦波変調してミックス NDT (SD) 提案手法 (歌唱者依存) 1 人の歌唱者で学習・テスト NDT (SI) 提案手法 (不特定歌唱者) 複数の歌唱者で学習・オープンな歌唱者でテスト DT 2 個の録音をミックス
  • 13.
  • 14.
    /14 まとめと今後の予定  背景 – DTは難しく,ADT は不自然 – ADT よりも自然な重ね録り感を付与する人工的手法を作りたい  提案法 – GMMN に基づくランダム変調ポストフィルタと,繰り返し歌唱 データベースを用いた NDT – ランダム性を学習することで,自然な重ね録り感を付与  評価結果 – NDT は従来の ADT より自然な重ね録り感を付与 – SI モデルも頑健に動作  今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 14
  • 15.