Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

複数話者WaveNetボコーダに関する調査

3,248 views

Published on

2018年1月SP研究会で発表した資料です.

Published in: Data & Analytics
  • Be the first to comment

複数話者WaveNetボコーダに関する調査

  1. 1. 1 複数話者WaveNetボコーダに 関する調査 林知樹, 小林和弘, 玉森聡, 武田一哉, 戸田智基 名古屋大学 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  2. 2. 2 音声合成技術の可能性  音声合成: 人工的に人間の発話を生成する技術  様々な場面において音声合成技術の活用が拡大  音声合成技術には2つの重要な要素が存在 1. 自然性: 人間の発話に近いかを表現 2. 柔軟性: 柔軟に音声の性質を変化させられるかを表現 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 電話での自動応答 対話インターフェース公共の場での アナウンス 現代の生活に必要不可欠な技術
  3. 3. 3 従来の音声合成方式 1. 波形接続型音声合成  音声を細かく分解した断片を接続して音声を生成  自然性 高  柔軟性 低 2. パラメトリック音声合成  音声特徴量とボコーダを利用して音声を生成  柔軟性 高  自然性 低 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Database select concatenate Fundamental freq. Spectrum env. Aperiodicity Feature extract Vocoder Feature transform
  4. 4. 4 従来の音声合成方式 1. 波形接続型音声合成  音声を細かく分解した断片を接続して音声を生成  自然性 高  柔軟性 低 2. パラメトリック音声合成  音声特徴量とボコーダを利用して音声を生成  柔軟性 高  自然性 低 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Database select concatenate Fundamental freq. Spectrum env. Aperiodicity Feature extract Vocoder Feature transform 自然性と柔軟性はトレードオフの関係
  5. 5. 5 深層学習の台頭  WaveNet [Van Den Oord+, 2016]  直接波形を推定する自己回帰型生成モデル  波形接続型音声合成をも上回る品質を達成 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Speech sample 1 Speech sample 2 Piano sample WaveNetの高い時間波形モデリング能力に着目 パラメトリック音声合成の知見との融合
  6. 6. 6 我々のこれまでの研究  話者依存WaveNet Vocoder [Tamamori+, 2017]  WaveNetをボコーダとして利用  既存の高品質ボコーダを上回る音質を達成 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Feature extract Mel-cepstrum 𝐹0 Aperiodicity Feature transformation Speech parametersSpeech signal Contional WaveNet Synthesized signal 高い話者依存性を持つために 様々な話者の音声の合成ができるかは未知
  7. 7. 7 本研究の貢献  WaveNetボコーダの改良及び調査  下記の三点を実験的に明らかに 1. 不特定話者モデル >> WORLD / STRAIGHT 2. 180発話学習 特定話者モデル >> WORLD 3. 320発話学習 特定話者モデル ≒ 不特定話者モデル 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 貢献1: 特徴量及び前処理の改善による品質の向上  特徴量抽出部の改善及び正規化の導入  ノイズシェーピングによる聴覚マスキングの導入 貢献2: 学習話者数及び学習データ量の影響を調査  複数話者発話を利用した不特定話者モデルを構築  学習データと合成品質の関係を明らかに
  8. 8. 8 WaveNet 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  9. 9. 9 WaveNet  波形 𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑁}の結合確率  有限長で過去のサンプルの影響を打ち切り  WaveNet 3つのキーポイント 1. Dilated causal convolution: 広い受容野の確保 2. Quantized waveform: 分類問題として最適化 3. Residual and skip connection: Deepなモデルを実現 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - WaveNetでモデル化 受容野サイズ Reference: Heiga Zen, Generative model-based TTS synthesis
  10. 10. 10 Dilated causal convolution  過去のサンプルにのみ依存した穴開きの畳込み 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - *Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016. 𝑥 𝑛−16 𝑥 𝑛−2 𝑥 𝑛−1 𝑝(𝑥 𝑛|𝑥 𝑛−1, … , 𝑥 𝑛−16) 考慮可能なサンプル数が指数関数的に増加 非常に大きな受容野のサイズを確保可能
  11. 11. 11 量子化された波形の利用 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Time Amplitude  𝜇-rawアルゴリズムで波形を8 bitのone-hotへ変換 クラス分類問題として音声波形を推定 *Figure from Heiga Zen, Generative model-based TTS synthesis
  12. 12. 12 WaveNet 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Residual block Residual block Residual block Residual block ⋮ ReLU ReLU Softmax 1×1 1×1 Inputs Causal Skip connection 2 × 1 dilated Gated 1 × 1 1 × 1 Residual block To skip connection To next residual block + + Outputs 30
  13. 13. 13 Conditional WaveNet 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Residual block Residual block Residual block Residual block ⋮ ReLU ReLU Softmax 1×1 1×1 Inputs Causal Skip connection 2 × 1 dilated Gated 1 × 1 1 × 1 Residual block Toskipconnection To next residual block + + Outputs Auxiliary features 1 × 1 1 × 1 1 × 1 1 × 1 + Linguistic feature, speaker-code, and F0 are used.
  14. 14. 14 WaveNet Vocoder 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  15. 15. 15 システムの概要 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  16. 16. 16 特徴量抽出 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  17. 17. 17 特徴量抽出の流れ 1. WORLD分析により3種類の特徴量を抽出  基本周波数: 1次元  メルケプストラム 0-24次: 25次元  非周期性指標: 1次元 2. 基本周波数をバイナリ情報と連続F0に変換  有声無声区間情報: 1次元  連続F0: 1次元 3. 抽出した特徴量を連結し28次元特徴量へ 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  18. 18. 18 連続F0への変換 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 線形補間 ローパスフィルタ 時間 [フレーム] 基本周波数[Hz]
  19. 19. 19 正規化処理 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  20. 20. 20 正規化処理  特徴量の各次元が平均0・分散1になるように正規化  特徴量次元間でスケールを統一  学習データ全体で計算した統計量により正規化  複数話者を用いる場合でも全ての話者で統計量を計算  合成時には学習時に計算した統計量を利用 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  21. 21. 21 時間分解能の修正 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  22. 22. 22 時間分解能の修正 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -  時間波形と同じ時間分解能を持つように複製 *Figure from A. Tamamori, 音声生成過程を考慮したWaveNetに基づく音声波形合成法, 2016.
  23. 23. 23 ノイズシェーピング 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  24. 24. 24 ノイズシェーピング [Tachibana+ 2017]  予測誤差によるノイズのパワーを音声のパワーが 強い帯域へ集中させる技術 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 周波数 パワー 音声 予測誤差による ノイズ 高域のノイズが聴覚上知覚されやすい
  25. 25. 25 ノイズシェーピング [Tachibana+ 2017]  予測誤差によるノイズのパワーを音声のパワーが 強い帯域へ集中させる技術 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 周波数 パワー 音声 時不変聴覚重み付けフィルタを適用 BEFORE 周波数 パワー フィルタリングされた 音声 AFTER
  26. 26. 26 ノイズシェーピング [Tachibana+ 2017]  予測誤差によるノイズのパワーを音声のパワーが 強い帯域へ集中させる技術 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 周波数 パワー 音声 周波数 パワー 音声スペクトルがフラットな形状に BEFORE AFTER フィルタリングされた 音声
  27. 27. 27 ノイズシェーピング [Tachibana+ 2017]  予測誤差によるノイズのパワーを音声のパワーが 強い帯域へ集中させる技術 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 周波数 パワー フィルタリングされた音声 フラットになった音声を利用して学習 ノイズ
  28. 28. 28 ノイズシェーピング [Tachibana+ 2017]  予測誤差によるノイズのパワーを音声のパワーが 強い帯域へ集中させる技術 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 周波数 パワー フィルタリングされた 音声 BEFORE ノイズ 時不変ノイズシェーピングフィルタを適用 (聴覚重み付けフィルタの逆フィルタ) 周波数 パワー AFTER ノイズ 復元音声
  29. 29. 29 ノイズシェーピング [Tachibana+ 2017]  予測誤差によるノイズのパワーを音声のパワーが 強い帯域へ集中させる技術 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 周波数 パワー 音声 周波数 パワー 音声 BEFORE AFTER ノイズ ノイズパワーが音声パワーが強い帯域へ集中 ノイズ 聴覚上ノイズが知覚されにくいように
  30. 30. 30 WaveNet 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  31. 31. 31 WaveNetの構造 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Residual block Residual block Residual block Residual block ⋮ ReLU ReLU Softmax 1×1 1×1 Quantized waveform Causal Skip connection 2 × 1 dilated Gated 1 × 1 1 × 1 Residual block Toskipconnection To next residual block + + Outputs auxiliaryfeatures 1 × 1 1 × 1 1 × 1 1 × 1 + UV binary, continuous F0, mel-cepstrum, and aperiodicity #𝑐ℎ = 2048 #𝑐ℎ = 256 #𝑐ℎ = 256 #𝑐ℎ = 256 #𝑐ℎ = 256 #𝑐ℎ = 2048 #𝑐ℎ = 2048 #𝑙𝑎𝑦𝑒𝑟 = 30 #𝑑𝑖𝑚 = 256 #𝑑𝑖𝑚=28 #𝑑𝑖𝑚=256
  32. 32. 32 WaveNetの学習/デコード WaveNetの学習  学習時にはFIRフィルタとして利用  観測信号 𝑥 𝑛−1−𝑅:𝑛−1を使ってො𝑥:𝑛を予測  交差エントロピーを最小化するように最適化 WaveNetのデコード  合成時にはARフィルタとしてデコード  予測された ො𝑥 𝑛−1−𝑅:𝑛−1を使ってො𝑥 𝑛を予測  予測された ො𝑥 𝑛−𝑅:𝑛を使ってො𝑥 𝑛+1を予測  以下繰り返し 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  33. 33. 33 デコードの流れ *Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016. 332017/12/07 NECデータサイエンス研究所 共同研究インターンシップ 最終成果報告
  34. 34. 34 実験的評価 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  35. 35. 35 実験的評価  CMU-ARCTICデータベースを用いて評価  7人の話者の英語発声からなるデータベース  awbを除く6人の話者のデータを利用  bdl, rms, slt, clbの4人を評価話者として利用  各話者の1028発話を学習・40発話を評価に利用  以下の4種類のモデルを比較 1. SD: 単一の話者で学習した特定話者モデル 2. SI-CLOSE: 全ての話者で学習した不特定話者モデル 3. SI-OPEN: 評価話者以外で学習した不特定話者モデル 4. SC: 話者コード用いて学習した不特定話者モデル 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  36. 36. 36 主観評価  平均オピニオン評価(MOS)による主観評価を実施  9人の成人男性による自然性の5段階評価  Score: 1 (bad), 2 (poor), 3 (fair), 4 (good), 5 (excellent)  各被験者の評価発話数は120  比較対象としてSTRAIGHTによる音声を利用  F0 / 0-24次メルケプ / 5次元非周期性指標を入力 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  37. 37. 37 実験条件 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Sampling rate 16,000 Hz Shift size 5 msec # training data 1 speaker (for SD) 6 speakers (for SI-CLOSE) 5 speakers (for SI-OPEN) 1028 utterances per speaker # evaluation data 4 speakers 104 utterances per speaker # iterations 200,000 (for SD) 400,000 (for SI / SC) Learning rate 0.01 with halving w.r.t. 50,000 iters Batch size 20,000 Optimization algorithm Adam
  38. 38. 38 主観評価結果 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  39. 39. 39 主観評価結果 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 特定話者モデルは生音声と有意差なし
  40. 40. 40 主観評価結果 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 先行研究からの大幅な品質向上
  41. 41. 41 主観評価結果 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 評価話者を学習に利用せずとも従来手法を上回る
  42. 42. 42 主観評価結果 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 話者コードの利用は自然性の向上に影響せず
  43. 43. 43 音声サンプル 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Method BDL RMS CLB SLT RAW STRAIGHT SD SC SI-CLOSE SI-OPEN
  44. 44. 44 学習データ量の影響の調査  幅広い応用のためには限られたデータ量で 高品質な合成処理を行う必要性アリ  学習データ量と合成品質の関係を調査  各モデルを学習データ量を変化させて構築  対数軸上で等間隔になるようにデータを量を変化  学習発話数: 100 -> 180 -> 320 -> 560 -> 1028 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  45. 45. 45 学習データ量に関する主観評価  平均オピニオン評価(MOS)による主観評価を実施  SI-OPENと学習データ量を変化させたSDを比較  5人の成人男性による自然性の5段階評価  Score: 1 (bad), 2 (poor), 3 (fair), 4 (good), 5 (excellent)  各被験者の評価発話数は160  追加の比較対象としてWORLDによる音声を利用  F0と非圧縮のスペクトル成分と非周期成分を利用 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  46. 46. 46 学習データ量に関する主観評価 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  47. 47. 47 学習データ量に関する主観評価 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 学習データ量に比例して自然性が向上
  48. 48. 48 学習データ量に関する主観評価 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 評価話者なし不特定話者モデル >> フルWORLD
  49. 49. 49 学習データ量に関する主観評価 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 180発話学習特定話者モデル >> フルWORLD
  50. 50. 50 学習データ量に関する主観評価 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - 320発話学習特定モデル ≒ 評価話者不特定モデル
  51. 51. 51 学習データ量別の音声サンプル 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - SPK 100 180 320 560 1028 RAW BDL SLT
  52. 52. 52 日本語の音声をデコード 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - Male Sample 1 Sample 2 Sample 4 Sample 5 RAW WaveNet Vocoder Female Sample 1 Sample 2 Sample 4 Sample 5 RAW WaveNet Vocoder 他言語でもボコーダとして機能することを確認  英語音声で学習したモデルで日本語をデコード
  53. 53. 53 まとめと今後の課題 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  54. 54. 54 まとめと今後の課題 まとめ  WaveNetボコーダの改良  学習データに関する調査を実施  下記の三点を実験的に明らかに 1. 不特定話者WNV >> WORLD / STRAIGHT 2. 180発話学習 特定話者WNV >> WORLD 3. 320発話学習 特定話者WNV ≒ 不特定話者WNV 今後の課題  合成の高速化に向けたネットワーク構造の改善 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
  55. 55. 55 今すぐ試せます!  Kan-bayashi/PytorchWaveNetVocoder  コマンド一発でモデル構築可能  サンプルも公開中  学習済みモデルも公開中 2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder - E2E-ASR toolkit epsnet/espnetも興味がある方は是非

×