Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Interspeech2019読み会 音声生成

663 views

Published on

Interspeech2019読み会 音声生成

Published in: Technology
  • Be the first to comment

Interspeech2019読み会 音声生成

  1. 1. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. Nov. 24, 2019 Kentaro Tachibana AI System Dept. DeNA Co., Ltd. Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation
  2. 2. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 自己紹介  名前:橘 健太郎  略歴: ● 2008〜17年 東芝 研究開発センター ● 音声合成の技術開発を担当 ● 2014〜17年9月 情報通信研究機構出向 ● 音声翻訳アプリVoiceTraの音声合成を担当 ● 2017年10月〜 DeNA入社 ● 音声変換、音声合成の技術開発を担当 https://www.slideshare.net/KentaroTachibana1SlideShare
  3. 3. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 取り上げる論文  Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation  この論文の貢献を一言でいうなら 1. 音声から音声への波形直接変換 2. Many-to-one音声変換を高品質なレベルで実現 3. 従来の音声変換以外にも、他の用途に適用し、フレームワークの有用性を証 明
  4. 4. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. Parrotronの取り組んだタスク 1. Many-to-one 音声変換(Voice normalization) • あらゆる話者が、どんな環境で話しても、目標話者の話速・アクセント・声 質となるように変換 2. 聴覚障がい者(hearing-impaired)の音声変換 • 目標話者音声に変換することで、音声明瞭化・自然性向上 3. ノイズ除去・音源分離 • 背景ノイズの除去、対象話者の音声だけの抽出 Parrotonは多様な用途に適用可能!
  5. 5. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 音声変換のその仕組み  音声変換とは? ⁃ 発話内容を変えず、任意の話者・スタイルに変換するシステム  音声変換の仕組み 音声分析 音声再構成 声質 (スペクトル包絡) 声の高さ (F0) かすれ具合 (非周期性指標) 音響パラメータ 変換処理 変換先話者 パラメータごとに目標 話者を変更可能 元話者 変換先話者
  6. 6. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 従来の音声変換の技術課題とその対応
  7. 7. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:従来の音声変換の技術課題(1/3) 1. 音響パラメータの変換 音声分析 音声再構成 声質 (スペクトル包絡) 声の高さ (F0) かすれ具合 (非周期性指標) 音響パラメータ 変換処理 おはよう 行ってきます 暑いですね . . . おはよう 行ってきます 暑いですね . . . 変換モデル 1. 変換モデルが必要 2. 音声ペアから変換モデルを学習 変換モデル 課題: 1. 変換モデルはスペクトル包絡に限定 2. 韻律部分に含まれる話者性は無保証 3. かすれ具合は元話者のまま
  8. 8. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:従来の音声変換の技術課題(2/3) 2. Alignment問題 • 音声ペアから変換モデルを学習する際に元・目標話者間でalignmentを取る おはよう 長さが異なる 音 声 分 析 各時刻の特徴量を 動的時間伸縮法で対応づけ モ デ ル 学 習 変換モデル 課題:Alignment精度が変換モデルの精度に影響 音響特徴量系列 ・・・ ・・・
  9. 9. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 3. Many-to-oneへの対応 • 今回はone-to-one同様、元話者と変換先話者とで音声ペアを用いることを想定 • 話者多様性をカバーするために、非常に多数の元話者が必要 技術背景:従来の音声変換の技術課題(3/3) おはよう 行ってきます 暑いですね . . . おはよう 行ってきます 暑いですね . . . 変換モデル One-to-oneの場合 Many-to-oneへ拡張 Many-to-oneの場合 ・・・ 変換モデル 課題:多数話者で音声ペアを集めることは非常にコストがかかる
  10. 10. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:従来の音声変換の技術課題のまとめ 1. 音響パラメータの変換が限定的 2. 音声ペアのalignment精度が変換品質に影響を与える 3. Many-to-oneへの対応が非常に高コスト
  11. 11. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:音響パラメータ問題の対応  近年、WaveNetをはじめとしたneural vocoderの登場 ⁃ Mel spectrogramから直接波形生成することが可能に! ⁃ Mel spectrogramを直接変換する手法が登場 [Zhang+, 18]、[提案法] 変換処理 Mcep F0 Bap Mel spectrogram で表現 Neural vocoder
  12. 12. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:Alignment問題の対応  Alignment問題 ⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に! Seq-to-seqの導入に よりalignmentを学習 Alignment error Attention アルゴリズム 音素アライメント [Haque+, 18] Additive attention [Tanaka+, 18] Additive attention [Zhang+, 18] SCENT 入力に条件付け 提案法 Additive/location sensitive attention Multitask学習とし て利用
  13. 13. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:Alignment問題の対応  Alignment問題 ⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に! Seq-to-seqの導入に よりalignmentを学習 Alignment error Attention アルゴリズム 音素アライメント [Haque+, 18] Additive attention [Tanaka+, 18] Additive attention [Zhang+, 18] SCENT 入力に条件付け 提案法 Additive/location sensitive attention Multitask学習とし て利用
  14. 14. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:Alignment問題の対応  Alignment問題 ⁃ Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に! Seq-to-seqの導入に よりalignmentを学習 Alignment error Attention アルゴリズム 音素アライメント [Haque+, 18] Additive attention [Tanaka+, 18] Additive attention [Zhang+, 18] SCENT 入力に条件付け 提案法 Additive/location sensitive attention Multitask学習とし て利用
  15. 15. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景:Many-to-oneへの対応  大規模書き起こし音声コーパスにTTSを適用 [提案法] ⁃ 変換先話者をParallel WaveNetで生成 ⁃ 大規模音声コーパス:30,000時間 24百万発話 voice search ⁃ 変換先話者にTTSを用いる利点 1. 変換先話者を事前に決めることができる・一定のアクセントになる 2. 背景ノイズや歪みを生じない 3. 大量の音声ペアを作成可能
  16. 16. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 技術背景: Parrotronの技術的位置付け  他手法との比較 Attention アルゴリズム 音素アライメント タスク 入力/出力特徴量 音声生成方式 [Haque+, 18] Additive attention Many-to-one Mel spectrogram Griffin-Lim方式 [Tanaka+, 18] Additive attention One-to-one WORLD特徴量 WORLD vocoder [Zhang+, 18] SCENT 入力に条件付け One-to-one Mel spectrogram WaveNet vocoder 提案法 Additive/local sensitive attention Multi-task学習とし て利用 Many-to-one Mel spectrogram WaveNet vocoder
  17. 17. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. アルゴリズム(1/4)  全体のモデル構造 Source Target 波形to波形の 直接変換 波形to波形の 直接変換 ASRをmultitask 学習で利用 Neural vocoder
  18. 18. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.  Spectrogram encoder ⁃ Network構造 • CLSTM、biLSTMのlayerは実験的評価にて調整 アルゴリズム(2/4) CNN BN ReLU CLSTM BN ReLU BiLSTM BN ReLU FC Attention downsample d80 k3x3 s2x2 d512k1x3 d256
  19. 19. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. アルゴリズム(3/4)  Spectrogram decoder ⁃ Network構造 • Tacotron2のdecoderと同一構造 ⁃ Attention • Additive attention [Bahdanau+, 15] : Tacotron • Location sensitive attention [Chorowski+, 15] : Tacotron2 Linear projection 2 layer Pre-Net Linear projection 2 LSTM layers Attention 5 Conv Layer Post-Net Neural vocoder Stop token
  20. 20. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. アルゴリズム(4/4)  ASR decoder ⁃ Attention layerの出力と1時刻前の音素予測結果を結合 ⁃ 音素予測をmultitaskとして学習 ⁃ Encoderがgrapheme or phonemeを保持するように するのが狙い Attention LSTM layer d64 phonemes softmax このattention構造につ いては詳細は記述なし ConcatenationConcatenation
  21. 21. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価1: Many-to-one 音声変換  実験条件 ⁃ データセット • 元話者:30,000時間 24百万発話の書き起こし voice searchコーパス • 変換先話者音声の生成 ⁃ 書き起こし文からParallel WaveNet-based TTSで合成音声を生成  評価実験 1. Parrotronの合成音声自体の性能評価 2. Many-to-one音声変換を主観評価
  22. 22. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価1: Parrotronの性能評価(1/2)  客観評価 ⁃ Parrotronが生成した音声の明瞭性を確認するため、ASRのWERを測定 ⁃ 評価で用いた音声のWER:8.3 % (upper bound) ⁃ 正解のtranscriptを用いた合成音のWER:7.4 % ASRのmultitask学習 により改善 Grapheme→phoneme により改善 以後、このモデルを用いる
  23. 23. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価1: Parrotronの性能評価(2/2)  主観・客観評価 ⁃ Challengingな音声で評価 ⁃ Challenging: heavily accented speech plus background noise ⁃ WERと自然性をMOS5段階評価 Real音声に匹敵する品質を達成!
  24. 24. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価1: Many-to-one 音声変換  実験条件 ⁃ 被験者:Native speaker 8名 ⁃ 評価データ数:ランダムに抽出した20文  評価結果 高品質なスコアを達成 ※ リアル音声を含め た比較ではない Demo: https://google.github.io/tacotron/ publications/parrotron
  25. 25. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価2:聴覚障がい者(hearing-impaired)の音声変換  目的 ⁃ 聴覚障害者の音声を流暢にできるかを調査  実験条件 ⁃ データセット:英語non-native speakerロシア人男性1名 15.4時間 • 英語をロシア語音素に変換してデータ作成(e.g. cat → k a T) • Finetuning用学習:90%、dev:5%、test:5% 原因調査中(原著) Finetuningにより大幅に 改善
  26. 26. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 実験的評価3:ノイズ除去・音源分離  問題設定 ⁃ 音源分離(原信号+背景ノイズ)タスク  背景ノイズの作成 ⁃ 1〜7名の話者(voice searchコーパス)を混合し、作成  評価結果 Deletions (del) : 予測結果が発話より早めに切れてしまう Insertion (ins) : 背景ノイズ話者を認識してしまう subject (sub) :目標話者の音声 Insertionで大幅な改善
  27. 27. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. まとめ  End-to-end音声変換 Parrotronを提案 ⁃ 直接、波形-to-波形の変換が可能に!  高品質なmany-to-one 音声変換を実現 ⁃ ASR multitask学習が有効  音声変換以外で、Parrotronフレームの有効性を証明 ⁃ 障害者音声の明瞭化・ノイズ除去
  28. 28. Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved. 参考文献 [Haque+, 18] A. Haque, M. Guo, and P. Verma, “Conditional end-to-end audio transforms,” Proc. Interspeech, 2018. [Zhang+, 19] J. Zhang, Z. Ling, L.-J. Liu, Y. Jiang, and L.-R. Dai, “Sequence-to- sequence acoustic modeling for voice conversion,” IEEE Transac- tions on Audio, Speech, and Language Processing, 2019. [Tanaka+, 18] K. Tanaka, H. Kameoka, T. Kaneko, and N. Hojo, “AttS2S-VC: Sequence-to-sequence voice conversion with attention and context preservation mechanisms,” arXiv:1811.04076, 2018. [Bahdanau+, 15] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” Proc. ICLR, 2015. [Chorowski+, 15] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, “Attention-based models for speech recognition,” in Advances in Neural Information Processing Systems, 2015, pp. 577–585.

×