Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ICASSP読み会2020

https://connpass.com/event/176798/

  • Be the first to comment

ICASSP読み会2020

  1. 1. ©Yuki Saito, June 19, 2020. BOFFIN TTS: Few-show Speaker Adaptation by Bayesian Optimization 東京大学 D3 齋藤 佑樹 ICASSP2020 論文読み会 (オンライン)
  2. 2. /181 自己紹介  齋藤 佑樹 (SAITO Yuki) – 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研) – 個人 HP: http://sython.org/  研究分野: 音声合成・声質変換 – + 統計的機械学習理論 • GAN 音声合成 • VAE 声質変換 – + ヒューマン・コンピュテーション • 人間の話者知覚に基づく表現学習 • 人間 GAN (共著) https://twitter.com/DeNAxAI_NEWS/status/1270543762092154880
  3. 3. /182 本日紹介する論文  BOFFIN TTS: Few-shot Speaker Adaptation by Bayesian Optimization – H. Moss (Lancaster Univ., UK), V. Aggarwal, N. Prateek, J. Gonzalez, R. Barra-Chicote (Amazon, Inc., UK)  3行まとめ – DNN ベースの多話者音声合成における話者適応手法 – ベイズ最適化で, 適応時のハイパラ設定をチューニング – 目的話者の少数データ (~ 10 min)で, 高品質な話者適応を実現  選んだ動機 – ニューラル波形生成モデル以外の論文が読みたかった – ベイズ最適化に興味があった
  4. 4. /183 背景  多話者音声合成 (Multi-speaker TTS: MS-TTS) – 多様な話者性の音声を生成できるテキスト音声合成 – 話者共通の特徴 (音韻) と, 話者固有の特徴 (話者性) を学習  話者適応 (speaker adaptation) – 学習済み MS-TTS モデルの finetuning で, 少量のデータしかない目的話者の音声を生成する技術 – 音韻は学習済みであると仮定し, 話者性だけを適応 Speaker encoder Text encoder 話者 ID テキスト 1 0 話者埋め込み テキスト埋め込み Decoder 合成音声 Text encoder Decoder 学習 適応
  5. 5. /184 研究概要  話者適応の難しさ: ハイパラ設定に性能が大きく依存 – Finetuning の学習率, バッチサイズ, 正則化重み, etc... – 目的話者のデータ量・品質に依存して適切に調整する必要あり  提案法: BOFFIN TTS – Bayesian Optimization For FInetuning Neural Text To Speech – 話者適応のハイパラ探索をベイズ最適化で定式化 – ベイズ最適化の有効性は, TTS では未検討 (未だに grid search 等が主流らしい?)  結果 – 種々の実験条件 (学習データの量や質) において, random search を上回る性能を達成 Boffin: イギリス英語で「科学者, 狭い専門的な分野の技術者」を意味するスラング
  6. 6. /185 Base model *74話者, 17言語, 149134発話で学習 (https://bshall.github.io/UniversalVocoding/)  Tacotron2 [Shen+, 2018] ベースの MS-TTS モデル – Attention モジュールを話者埋め込みで条件付け – 波形生成: robust universal neural vocoding* [Lorenzo-Trueba+, 2019]
  7. 7. /186 BOFFIN TTS: 目的とタスク設定  目的: 高品質な話者適応 & 適応における overfitting の防止 – これらを両立するようなハイパラ設定を見つけたい  本研究で対象とするハイパラ設定 – DNN の学習ダイナミクスに関するもの (7つ) • 学習率, バッチサイズ, 学習率のスケジューリング, gradient- clipping の閾値, dropout rate, zoneout rate (2つ) – Overfitting の防止に関するもの (2つ, 本研究で新たに導入) • リハーサル学習 [Robins+, 1995] のパラメータ  適応前の事前学習に用いたデータを一定の割合で混ぜる • 適応を開始する事前学習エポック数  収束する前のベースモデルのほうが良い可能性がある (?) 高次元のハイパラ探索は困難 → ベイズ最適化を導入
  8. 8. /187 (参考) ベイズ最適化のざっくりとしたイメージ  ベイズ最適化: 高コストな black-box 関数の効率的な最適化 – これまでに得られた情報から, どの点を探索すべきかを決定 – 機械学習におけるハイパラ設定の探索などに適用可能 図は https://book.mynavi.jp/manatee/detail/id=59393 より引用 グリッドサーチ ベイズ最適化
  9. 9. /188 BOFFIN TTS のハイパラ探索  Notation – 𝒟𝑡 = 𝐱 𝑖, 𝑦𝑖 𝑖=1,…,𝑡 : ステップ 𝑡 までに得られた解-評価値の対 • 𝐱 𝑖 ∈ 𝒳 : 探索空間 𝒳 の解 (ハイパラ設定) • 𝑦𝑖 = 𝑦(𝐱 𝑖) : 解 𝐱 𝑖 の評価値 (目的話者の mel-spec. 生成誤差) – 𝑦𝑡 ′ = min 𝑖=1,…,𝑡 𝑦𝑖 : ステップ 𝑡 における最良の評価値  獲得関数 (acquisition function) – 本研究では, Expected Improvement (EI) 戦略を採用 – 目的関数 𝑦 𝐱 がガウス過程に従うと仮定すれば, 期待値 𝔼 𝑦 𝐱 |𝒟 𝑡 ⋅ は解析的に計算可能 𝐱 𝑡+1 = arg max 𝔼 𝑦 𝐱 |𝒟 𝑡 max 𝑦𝑡 ′ − 𝑦 𝐱 , 0 |𝒟𝑡 𝐱 ∈ 𝒳 実験では, Python Emukit ライブラリ (https://github.com/amzn/emukit) を使用
  10. 10. /189 実験条件  データ量・品質の異なる3つのコーパスで実験  話者適応の目的話者: 各コーパスから4名ランダムに抽出 – 1話者につき100発話をランダム抽出し, そのうちの20%を validation set として使用 (ベイズ最適化の獲得関数計算用)  評価指標 – (1) 目的話者に適したハイパラ設定を探索できたか? – (2) 高品質な話者適応は実現できたか? VCTK: [Veaux+, 2017], LibriTTS: [Zen+, 2019] コーパス 学習話者数 発話数/1話者 録音品質など INTERNAL 8 2500 スタジオ録音 VCTK 14 (+ 8 INTERNAL) 400 ばらつき大 LibriTTS 200 200 オーディオブック
  11. 11. /1810 結果1: 話者適応の validation loss (mel-spec. の L1 loss)  比較手法 – (1) Base-line: 適応前のベースモデル – (2) Random Search: ランダムサーチ – (3) BOFFIN: 提案法 (10個の異なるハイパラ設定で初期化) エラーバーは異なる5つの random seed での試行の standard error 良 提案法により, 各目的話者に適したハイパラが設定可能に!
  12. 12. /1811 結果2: 提案法により実際に得られたハイパラ設定 (特に分散が大きかった6つ, 図中の1点 = 1話者) 最適なハイパラ設定は, コーパス・話者の違いによって異なる
  13. 13. /1812 結果3: 合成音声の自然性評価 (5段階 MOS テストの結果, ベースモデルとの比較)  比較音声 – (1) base-synth: ベースモデルの closed 話者の合成音声 – (2) base-truth: (1) の話者の自然音声 – (3) adapt-synth: 適応後モデルの目的話者の合成音声 (提案法) – (4) adapt-truth: (3) の話者の自然音声  評価結果 (スコアが高いほど better) INTERNAL VCTK LibriTTS base-synth 3.45 ± 0.08 3.76 ± 0.10 3.10 ± 0.10 base-truth 3.84 ± 0.08 4.05 ± 0.08 4.10 ± 0.08 adapt-synth 3.43 ± 0.10 3.60 ± 0.10 2.90 ± 0.10 adapt-truth 4.05 ± 0.08 4.09 ± 0.08 3.97 ± 0.08
  14. 14. /1813 結果3: 合成音声の自然性評価 (5段階 MOS テストの結果, ベースモデルとの比較)  比較音声 – (1) base-synth: ベースモデルの closed 話者の合成音声 – (2) base-truth: (1) の話者の自然音声 – (3) adapt-synth: 適応後モデルの目的話者の合成音声 (提案法) – (4) adapt-truth: (3) の話者の自然音声  評価結果 (スコアが高いほど better) INTERNAL VCTK LibriTTS base-synth 3.45 ± 0.08 3.76 ± 0.10 3.10 ± 0.10 base-truth 3.84 ± 0.08 4.05 ± 0.08 4.10 ± 0.08 adapt-synth 3.43 ± 0.10 3.60 ± 0.10 2.90 ± 0.10 adapt-truth 4.05 ± 0.08 4.09 ± 0.08 3.97 ± 0.08 提案法により, ベースモデルと同程度に自然な音声を生成!
  15. 15. /1814 結果3: 合成音声の自然性評価 (5段階 MOS テストの結果, ベースモデルとの比較)  比較音声 – (1) base-synth: ベースモデルの closed 話者の合成音声 – (2) base-truth: (1) の話者の自然音声 – (3) adapt-synth: 適応後モデルの目的話者の合成音声 (提案法) – (4) adapt-truth: (3) の話者の自然音声  評価結果 (スコアが高いほど better) INTERNAL VCTK LibriTTS base-synth 3.45 ± 0.08 3.76 ± 0.10 3.10 ± 0.10 base-truth 3.84 ± 0.08 4.05 ± 0.08 4.10 ± 0.08 adapt-synth 3.43 ± 0.10 3.60 ± 0.10 2.90 ± 0.10 adapt-truth 4.05 ± 0.08 4.09 ± 0.08 3.97 ± 0.08 合成音声の自然性が大幅に劣化 → ベースモデル学習の困難性?
  16. 16. /1815 結果4: 合成音声の自然性・話者類似性 (MUSHRA テストの結果, ランダムサーチとの比較)  比較音声 – (1) True recordings: 自然音声 – (2) BOFFIN: 提案法でのハイパラ設定で適応 – (3) Random Search: ランダムサーチでのハイパラ設定で適応 – (4) Base-line: 適応なし  評価結果 (INTERNAL コーパスを用いた実験) 提案法により, ランダムサーチよりも高品質な話者適応を達成! 良
  17. 17. /1816 結果4: 合成音声の自然性・話者類似性 (MUSHRA テストの結果, ランダムサーチとの比較)  比較音声 – (1) True recordings: 自然音声 – (2) BOFFIN: 提案法でのハイパラ設定で適応 – (3) Random Search: ランダムサーチでのハイパラ設定で適応 – (4) Base-line: 適応なし  評価結果 (VCTK コーパスを用いた実験) 良 提案法により, ランダムサーチよりも高品質な話者適応を達成!
  18. 18. /1817 結果4: 合成音声の自然性・話者類似性 (MUSHRA テストの結果, ランダムサーチとの比較)  比較音声 – (1) True recordings: 自然音声 – (2) BOFFIN: 提案法でのハイパラ設定で適応 – (3) Random Search: ランダムサーチでのハイパラ設定で適応 – (4) Base-line: 適応なし  評価結果 (LibriTTS コーパスを用いた実験) 良 全体的に自然性が劣化 → ベースモデルの性能が悪い?
  19. 19. /1818 まとめ  話者適応の難しさ: ハイパラ設定に性能が大きく依存 – Finetuning の学習率, バッチサイズ, 正則化重み, etc... – 目的話者のデータ量・品質に依存して適切に調整する必要あり  提案法: BOFFIN TTS – Bayesian Optimization For FInetuning Neural Text To Speech – 話者適応のハイパラ探索をベイズ最適化で定式化  結果 – 目的話者の少数データ (~ 10 min)で, 高品質な話者適応を実現  感想 – 他の few-shot adaptation 手法との比較もあると better – 計算コストがヤバそう

×