Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

WaveNetが音声合成研究に与える影響

4,279 views

Published on

2018年1月 音声研究会
オーガナイズドセッション「新たな音声モデルによる音声合成・音声生成―深層学習による音声波形モデルWaveNet―」(招待講演)
戸田 智基:WaveNetが音声合成研究に与える影響,Jan. 2018
名古屋大学 情報学研究科 知能システム学専攻 戸田研究室

Published in: Engineering
  • Be the first to comment

WaveNetが音声合成研究に与える影響

  1. 1. 名古屋大学 情報基盤センター / JST さきがけ WaveNetが音声合成研究に 与える影響 戸田 智基 2018年1月21日 昨年1年間の引用数:185(2018/1/21時点)
  2. 2. 音声波形 a r a y u rsil u g e N j i ts u 音素系列 あらゆる 現実無音 単語系列 音声波形を合成するには・・・ 文 「あらゆる現実を全て自分の方へ・・・」 • 音声波形の特徴を上手く捉えなければいけない・・・ • 長期に渡る依存関係をどう捉えるか? • 揺らぎ成分をどう捉えるか? これら長年の研究課題を解決する技術が2016年9月に提案された! WaveNet [van den Oord; ’16b] !
  3. 3. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います! ※サンプルRNNには触れません・・・すみません・・・
  4. 4. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います!
  5. 5. 従来の代表的な枠組み • 音声波形のパラメータ化 • 波形素片選択&接続 音声波形 短時間フレーム分析 音声パラメータ系列 波形合成処理 ソースフィルタモデル 確率モデルなど 音声波形 ラベリング 波形素片データベース 素片選択&波形接続 素片系列(離散記号列)の選択 波形素片に分解(離散記号化) 1. 従来技術:1
  6. 6. パラメータ化:ソースフィルタモデル • 音声の生成過程を数理的にモデル化 スペクトル包絡 励振源波形 パルス列 白色雑音 再合成音声波形 合成フィルタ )(zH 励振源生成部 共振付与部 ][*][][ nenhnx  基本周波数&有声無声 音声パラメータ ][ne 音源信号 * 共振特性 ⇒ 音声波形 1. 従来技術:2
  7. 7. • 確率的手法(線形予測分析 [Itakura; ’68],メル一般化ケプストラム分析 [徳田; ’92]) • 確率的生成モデルのパラメータ推定問題として定式化 • 決定論的手法(STRAIGHT [Kawahara; ’99],WORLD [Morise; ’16],aQHM [Pantazis; ’11]) • 音声信号を正確に表現/再現するパラメータを推定 音声分析技術 e[n]:音源信号 (ガウス雑音) H(z):共振モデル (スペクトル包絡) x[n]:音声信号 (観測データ) 推定 x[n]:音声信号 (観測データ) 基本周波数の抽出 音源信号の 周期成分を除去 共振特性 (スペクトル包絡) 1. 従来技術:3
  8. 8. • 過去の値から現在の値を線形式で予測 • 分析フレーム内にて予測誤差 の二乗和が最小となる ように線形予測係数を決定 (= FIRフィルタ係数を推定) • ガウス過程の最尤推定問題として定式化可能 線形予測分析(最尤法) 過去D点の値から n 現在の値を予測 x[n]x[n-1]x[n-D] ・・・ 線形予測係数: 予測値: [Itakura; ’68] N 音声波形 FIRフィルタ 予測誤差 1. 従来技術:4
  9. 9. • 誤差信号に逆フィルタを適用することで観測データを生成 • 既に生成された過去の音声波形 を用いて次式の正規分布 からランダムサンプリングする処理と等価 • IIRフィルタのインパルス応答を十分に長い区間で打ち切ればFIRフィルタ として近似可能 f dB 1 )(  zA 自己回帰モデル 音声波形IIRフィルタ予測誤差 N FIRフィルタ 1. 従来技術:5
  10. 10. 解決すべき課題(2016年当初) • 音声波形のパラメータ化 • フレーム分析における定常性の仮定 [Tokuda; ’15] • ガウス性の仮定 • 時間構造のモデル化 [Maia; ’13] [Juvela; ’16] • 揺らぎ成分のモデル化 • 確率的手法では特に励振源パラメータ • 決定論的手法では特にスペクトルパラメータ [Toda; ’07] [Takamichi; ’16] • 波形素片選択&接続 • 乏しい柔軟性 • 素片選択関数の設計 2016年当初,決定打は無かった(と思っています)・・・ 1. 従来技術:6
  11. 11. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います!
  12. 12. WaveNetの登場(2016年9月) WaveNet (deep CNN) • Dilated causal convolutions • Residual & skip connections • Gated activations 長期履歴の使用(例えば,過去3,000サンプル以上) ランダム 生成 非線形予測 自己回帰モデル(マルコフモデル) 補助特徴量 th [van den Oord; ’16b] 波形量子化による 離散記号列化 • 多層畳み込みニューラルネットワーク(CNN)を用いた時間波形に対する 確率的生成モデルの実現 の予測分布 2. WaveNet:1
  13. 13. 離散記号系列モデリング • 音声波形を離散記号系列として表現 • μ-law量子化により 16bit 音声波形を256種類の離散記号化 • 距離の概念の消失 • 高次マルコフモデル(=離散記号系列に対する自己回帰モデル)により 離散記号系列の出力確率をモデル化 • 各時刻にて256クラスの分類問題として定式化 a, a, b, c, a, d, d, … μ-law 量子化 16 bit 音声波形 8 bit 音声波形 離散記号系列 (クラス数256) 記号化 過去全てのサンプルに依存 過去L個のサンプルのみに依存 2. WaveNet:2 [van den Oord; ’16b]
  14. 14. Dilated Causal Convolutions • 長期の過去のサンプルを考慮した畳み込みの実現 Input Hidden layer (dilation = 1) Hidden layer (dilation = 2) Output (dilation = 4) 3 layers 8×1 の畳み込みを 2×1 の畳み込み3回で実現 2×1の畳み込みの例 チャネル数 特徴量の抽出 過去8サンプル使用 過去4サンプル使用 過去2サンプル使用 2. WaveNet:3 [van den Oord; ’16b]
  15. 15. Stacked Dilated Causal Convolutions • Dilated Causal Convolution層の積み上げも利用 3 layers 3 layers Input Hidden layer (dilation = 1) Hidden layer (dilation = 2) Hidden layer (dilation = 4) Hidden layer (dilation = 1) Hidden layer (dilation = 2) Output (dilation = 4) 特徴量の抽出 過去15サンプル使用 過去11サンプル使用 過去9サンプル使用 過去2サンプル使用 過去4サンプル使用 過去8サンプル使用 2. WaveNet:4
  16. 16. ネットワーク構造 Inputs Residual block Toskip connection To next residual block Output 補助特徴量 + 例:10層×3スタック Residual block1 × 1 Residual block1 × 1 Residual block1 × 1 Residual block1 × 1 Causal 2 ×1 dilated Gated 1 × 1 1×1 + + ReLU Softmax 1×1 ReLU 1×1 Skip connections [He; ’16] Gated activation [van den Oord; ’16a] Residual connection [He; ’16] • 各層で抽出された特徴量を用いて出力確率分布を予測 , , ( ) , ( ) 2. WaveNet:5
  17. 17. 学習処理と生成処理 • 学習処理 • 離散記号列に対する尤度最大化(=交差エントロピー最小化) • 生成処理 • 自己回帰モデルとして1サンプルずつランダムサンプリング 既に生成された過去L個のサンプル 時刻 n における予測確率分布(256クラス離散分布) 2. WaveNet:6
  18. 18. 生成処理の例 • 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング 3 layers 3 layers 2. WaveNet:7
  19. 19. 生成処理の例 • 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング 3 layers 3 layers 2. WaveNet:7
  20. 20. 生成処理の例 • 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング 3 layers 3 layers 2. WaveNet:7
  21. 21. 生成処理の例 • 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング 3 layers 3 layers 2. WaveNet:7
  22. 22. 生成処理の例 • 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング 3 layers 3 layers 2. WaveNet:7
  23. 23. 生成処理の例 • 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング 3 layers 3 layers 2. WaveNet:7
  24. 24. 生成処理の例 • 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング 3 layers 3 layers 2. WaveNet:7
  25. 25. 生成処理の例 • 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング 3 layers 3 layers 2. WaveNet:7
  26. 26. 従来の枠組みとの比較 • 音声波形のパラメータ化と比べると・・・ • 定常性の仮定 必要 ⇒ 不要! • ガウス性の仮定 必要 ⇒ 不要! • 励振源のモデル化 困難 ⇒ 不要! • 時間構造のモデル化 困難 ⇒ 可能! • 揺らぎのモデル化 困難 ⇒ 可能! • 波形素片選択&接続と比べると・・・ • 柔軟性 欠如 ⇒ 保持! • 最適化 困難 ⇒ 自動! • 合成処理 選択 ⇒ ランダム生成! • 最小単位 素片 ⇒ 波形サンプル! 2. WaveNet:8
  27. 27. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います!
  28. 28. ノイズシェイピング • 音声波形の離散記号列化に伴い発生する誤差への対処 • 量子化誤差と予測誤差が発生 • 誤差が聴感上目立たないように誤差の周波数特性を制御 • 予測誤差および量子化誤差に対する適用 [橘; ’17] • 量子化誤差に対する適用 [吉村; ’17] 次のセッションにて発表あり! Frequency Power 音声 誤差 Frequency Power 音声 誤差 聴覚マスキングにより 目立たなくなる 3. WaveNetの改良:1
  29. 29. 帯域分割処理 • 高サンプリング周波数&低演算量の実現 • 1/M 倍の長さの音声波形に分割してモデル化 [Okamoto; ’17] 48 kHz サンプリング音声波形 : 単側波帯変調分析フィルタリング ↓M ↓M ↓M : / ( ) : / ( ) : / ( ) WaveNet 1 WaveNet 2 WaveNet B 学習処理 48 kHz サンプリング音声波形 : 単側波帯変調合成フィルタリング ↑M ↑M ↑M : / ( ) : / ( ) : / ( ) WaveNet 1 WaveNet 2 WaveNet B 合成処理 フィルタ特性を工夫することでWaveNetのモデル化精度が向上する傾向あり 3. WaveNetの改良:2
  30. 30. 高品質化:16 bit量子化波形のモデル化 • 混合離散化ロジスティック分布 [Salimans; ’17] による量子化波形の確率密度 モデリング • サンプリング周波数の変更(16 kHz から 22.05 kHz へ) • Dilated causal convolutions における dilation を 2l から 3l へ [van den Oord; ’17b] : : : (単一)離散化ロジスティック分布の例 0 2 4-2 0 1 0 2 4-2 0 1 0 2 4-2 0 1 3. WaveNetの改良:3
  31. 31. 高速化:パラレルWaveNet • Inverse-autoregressive flows [Kingma; ’16] の導入(IIRフィルタ ⇒ FIRフィルタ) • 雑音源 : に対するフィルタリングにより音声波形 : を一括生成 [van den Oord; ’17b] 各時刻 n におけるフィルタリングパラメータを 雑音源 からWaveNet で推定 Input noise Hidden layer (dilation = 1) Hidden layer (dilation = 2) Output (dilation = 4) 雑音源波形を生成 ※実際はスタックさせることで長期の依存関係をモデル化 3. WaveNetの改良:4
  32. 32. 確率密度蒸留によるパラレルWaveNet学習 • 通常のWaveNetを教師としてパラレルWaveNet(生徒)を学習 • 生徒WaveNet : と教師WaveNet : の出力確率密度分布間の KLダイバージェンスの最小化 [van den Oord; ’17b] : : : : : 音声波形 : に依存 雑音源 : にのみ依存 雑音源波形 : 生成音声波形 : (と確率分布) 生成音声波形の確率分布 教師WaveNet 生徒WaveNet 生徒WaveNetの 出力から計算可能 生徒WaveNetで生成された 波形に対する生徒/教師 WaveNetの出力確率分布を 用いて計算可能 ※この他にもスペクトル 距離など様々な尺度を 同時に考慮して学習 3. WaveNetの改良:5
  33. 33. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 目次 WaveNetの凄さをお伝えできればと思います!
  34. 34. WaveNetボコーダ • ソースフィルタモデルの代わりにWaveNetで波形合成 • 音声パラメータから波形を生成するボコーダとして利用 • 音声パラメータ操作による音声加工処理が可能 • 既存のシステムに対して容易に適用可能 • 現状の結果 • 話者依存モデルにおいて自然音声と遜色ない合成音声を生成可能 • 話者非依存モデルの有効性も確認 [Tamamori; ’17] [Hayashi; ’17] 音声パラメータ系列を 補助特徴量として入力 WaveNet ボコーダ 合成音声波形 次のセッションにて発表あり! 4. WaveNetの応用例:1
  35. 35. テキスト音声合成&声質変換 • WaveNetボコーダの適用 • 音声パラメータ系列モデリング+WaveNetボコーダ [Arik; ’17] [Shen; ’17] [Kobayashi; ’17] • 変換処理/合成処理もWaveNetに統合 • コンテキスト情報から合成音声波形を生成 [van den Oord; ’16b] • 入力音声パラメータ系列から変換音声波形を生成 [Niwa; ’17] 音声パラメータ 系列 音声波形 既存の合成法 /変換法 入力特徴量系列 WaveNet 音声波形既存の分析法 次のセッションにて発表あり! WaveNet ボコーダ 4. WaveNetの応用例:2
  36. 36. • 狭帯域音声から広帯域音声を推定 [Gu; ’17] • Dilated non-causal convolutionsを利用 • 雑音環境下の音声からクリーン音声を推定 • Dilated non-causal convolutionsを利用 [Rethage; ’17] • Dilated causal convolutionsも事前分布モデリングに利用 [Qian; ’17] 帯域拡張/音声強調 4. WaveNetの応用例:3 狭帯域音声波形 : 広帯域音声波形 : 雑音環境下音声波形 : クリーン音声波形 : 推定されたクリーン音声波形 : クリーン音声波形 : ベイズ推定
  37. 37. 分析/変換/合成:VQ-VAE • Dilated convolutionsにより音声波形の長期依存関係を捉える離散記号列 への符号化を実現 • 韻律特徴も込みで符号化を実現 • 言語記号との対応の良い離散記号列を抽出 • WaveNetによる事前分布も構築可能 • 話者性情報を与えることで話者性と言語情報を分離可能 • 韻律特徴も込みで声質変換を実現 [van den Oord; ’17a] 4. WaveNetの応用例:4 音声波形 潜在ベクトル系列 ベクトル 量子化 離散記号列 再合成音声波形 エンコーダ デコーダ 埋め込み ベクトルセット WaveNetによる 事前分布 話者情報
  38. 38. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います!
  39. 39. WaveNetにより何が解けたのか? • ソースフィルタモデルの近似が不要となった! • 音声に限らず様々な波形に対しても適用可能 • 部分的ではなく完全なランダム生成が可能となった! • 揺らぎ成分を高精度にモデル化可能 • 長期に渡る音声波形の依存関係をモデル化できるようになった! • ランダム生成しても音声らしい波形を生成可能 • 時間構造もモデル化できるようになった! • 波形素片選択&接続の利点を保持した確率的生成モデルの実現 • 音声分野への新規参入のハードルが下がった! • 音声に関する専門的な知識が無くても利用可能 5. WaveNetへの期待:1
  40. 40. WaveNetに対する期待 • 汎用ボコーダの実現 • できれば物理的制約を捉えて欲しい・・・ • 汎用波形生成器の実現 • 制御性能を保持した枠組みを実現したい・・・ • 高速化,演算量低減,短遅延処理の実現 • リアルタイムアプリケーションを実現したい・・・ • 音声合成研究のさらなる活性化,裾野の拡大 • 小学生が夏休みの宿題で音声合成システムを作る時代が来るかも・・・ WaveNetは機械学習分野からの素晴らしいプレゼント! 次は音声研究者の腕の見せどころ(専門知識を活かして 改善できる可能性はあると思います)! 5. WaveNetへの期待:2
  41. 41. [Arik; ’17] S. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta, M. Shoeybi. Deep Voice: real-time neural text-to-speech. arXiv preprint, arXiv:1702.07825, 2017. [Gu; ’17] Y. Gu, Z. Ling. Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension. Proc. INTERSPEECH, pp. 1123–1127, 2017. [Hayashi; ’17] T. Hayashi, A. Tamamori, K. Kobayashi, K. Takeda, T. Toda. An investigation of multi-speaker training for WaveNet vocoder. Proc. IEEE ASRU, pp. 712–718, 2017. [He; ’16] K. He, X. Zhang, S. Ren, J. Sun. Deep residual learning for image recognition. Proc. CVPR, pp. 770– 778, 2016. [Itakura; ’68] F. Itakura, S. Saito. Analysis synthesis telephony based upon the maximum likelihood method. Proc. ICA, C-5-5, pp. C17–20, 1968. [Juvela; ’16] L. Juvela, B. Bollepalli, M. Airaksinen, P. Alku. High-pitched excitation generation for glottal vocoding in statistical parametric speech synthesis using a deep neural network. Proc. IEEE ICASSP, pp. 5120–5124, 2016. [Kawahara; ’99] H. Kawahara, I. Masuda-Katsuse, A. Cheveign′e. Restructuring speech representations using a pitch-adaptive timefrequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds. Speech Communication, Vol. 27, No. 3–4, pp. 187–207, 1999. [Kingma; ’16] D.P. Kingma, T. Salimans, M. Welling. Improving variational inference with inverse autoregressive flow. arXiv preprint, arXiv:1606.04934, 2016. 参考文献 References: 1
  42. 42. [Kobayashi; ’17] K. Kobayashi, T. Hayashi, A. Tamamori, T. Toda. Statistical voice conversion with WaveNet- based waveform generation. Proc. INTERSPEECH, pp. 1138–1142, 2017. [Maia; ’13] R. Maia, M. Akamine, M. Gales. Complex cepstrum for statistical parametric speech synthesis. Speech Communication, Vol. 55, No. 5, pp. 606–618, 2013. [Morise; ’16] M. Morise, F. Yokomori, K. Ozawa. WORLD: a vocoderbased high-quality speech synthesis system for real-time applications. IEICE trans. inf. & syst., Vol. E99-D, No. 7, pp. 1877–1884, 2016. [Niwa; ’17] J. Niwa,T. Yoshimura,K. Hashimoto,K. Oura,Y. Nankaku,K. Tokuda. WaveNet-based voice conversion. 音講論, 1-8-15, pp. 207–208, Sep. 2017. [Okamoto; ’17] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, H. Kawai. Subband WaveNet with overlapped single-sideband filterbanks. Proc. IEEE ASRU, pp. 698–704, 2017. [Pantazis; ’11] Y. Pantazis, O. Rosec, Y. Stylianou. Adaptive AM–FM signal decomposition with application to speech analysis. IEEE Trans. on Audio, Speech, & Lang. Process., Vol. 19, No. 2, pp. 290–300, 2011. [Qian; ’17] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florêncio, M. Hasegawa-Johnson. Speech enhancement using bayesian WaveNet. Proc. INTERSPEECH, pp. 2013–2017, 2017. [Rethage; ’17] D. Rethage, J. Pons, X. Serra. A WaveNet for speech denoising. arXiv preprint, arXiv:1706.07162, 2017 [Salimans; ’17] T. Salimans, A. Karpathy, X. Chen, D.P. Kingma. PixelCNN++: improving the pixelCNN with discretized logistic mixture likelihood and other modifications. arXiv preprint, arXiv:1701.05517, 2017. [Shen; ’17] J. Shen, R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry- Ryan, R.A. Saurous, Y. Agiomyrgiannakis, Y. Wu. Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv preprint, arXiv:1712.05884, 2017. [Takamichi; ’16] S. Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura. Post-filters to modify the modulation spectrum for statistical parametric speech synthesis. IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 24, No. 4, pp. 755–767, 2016. References: 2
  43. 43. [橘; ’17] 橘 健太郎, 戸田 智基, 志賀 芳則, 河井 恒. WaveNetにおける音声波形量子化法の評価. 音講 論, 1-Q-28, pp. 291–294, Mar. 2017. [Tamamori; ’17] A. Tamamori, T. Hayashi, K. Kobayashi, K. Takeda, T. Toda. Speaker-dependent WaveNet vocoder. Proc. INTERSPEECH, pp. 1118–1122, 2017. [Toda; ’07] T. Toda, A.W. Black, K. Tokuda. Voice conversion based on maximum likelihood estimation of spectral parameter trajectory. IEEE Trans. Audio, Speech & Lang. Process., Vol. 15, No. 8, pp. 2222–2235, 2007. [Tokuda; ’15] K. Tokuda, H. Zen. Directly modeling speech waveforms by neural networks for statistical parametric speech synthesis. Proc. IEEE ICASSP, pp. 4215–4219, 2015 [徳田; ’92] 徳田 恵一, 小林 隆夫, 千葉 健司, 今井 聖. メル一般化ケプス トラム分析による音声のスペク トル推定. 信学論(A), Vol. J75-A, No. 7, pp. 1124–1134, 1992. [van den Oord; ’16a] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, K. Kavukcuoglu. Conditional image generation with PixelCNN decoders. arXiv preprint, arXiv:1606.05328, 2016. [van den Oord; ’16b] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu. Wavenet: a generative model for raw audio. arXiv preprint, arXiv:1609.03499, 2016. [van den Oord; ’17a] A. van den Oord, O. Vinyals, K. Kavukcuoglu. Neural discrete representation learning. arXiv preprint, arXiv:1711.00937, 2017. [van den Oord; ’17b] A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. van den Driessche, E. Lockhart, L.C. Cobo, F. Stimberg, N. Casagrande, D. Grewe, S. Noury, S. Dieleman, E. Elsen, N. Kalchbrenner, H. Zen, A. Graves, H. King, T. Walters, D. Belov, D. Hassabis. Parallel WaveNet: fast high- fidelity speech synthesis. arXiv preprint, arXiv:1711.10433, 2017. [吉村; ’17] 吉村 建慶, 橋本 佳, 大浦 圭一郎, 南角 吉彦, 徳田 恵一. WaveNetにおけるメルケプストラム に基づくノイズシェーピング量子化法の適用. 音講論, 1-8-8, pp. 193–194, Sep. 2017. References: 3

×