Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning NAIST D3 YANAGIT TOMOYA 1©T...
自己紹介 名前 柳田智也 所属 奈良先端科学技術大学院大学 知能コミュニケーション研究室 D3 専門 逐次合成音声 動機 Interspeechで逐次合成関係論文が3本ほど採録（段々とレッドオーシャン化） 逐次音声合成を広めて発展させたい！！！...
背景：Incremental TTSの概要 音声合成: Text-to-speech（上図） 1.と2.はニューラルネットが主流 1.テキスト解析（表層文字から音素） 2.入力系列（音素）から音響特徴生成 3.音響特徴から音声生成 Increm...
逐次音声合成の問題 音声：連続性を持つ(調音結合等) 逐次音声合成：一部の入力から音響特徴を生成 → 後続音声の変化を考慮できない → 入力長と出力長の制御（どこまで入力し、どこまで出力するか） Tacotron Tacotron2 Waven...
今回の論文 Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning 三行まとめ ①End-to-end TTS...
End-to-End iTTSの関連研究 End-to-endに基づくIncremental TTS 後続を待たずに合成、出力制御 はstop flag [Yanagita, et al., 2019] k単語を待ち合成、出力制御はstop f...
関連研究(1/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework 通常のEnd-to-End音声合成をIncremental TTSに適用 ①テキストか...
関連研究(2/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework 音響特徴生成の制御：アテンションとstop flagを使用 例：look-ahead1...
関連研究(3/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework Tacotron2の音響モデル+parallel wavegan ①入力系列（音素・表...
先行研究で未解決の問題 単語単位の合成 入出力長を制御不可 例：1,2単語目が長い場合、遅延増加 言語によりパラメータkを設計する必用 -> k phonemes, k characters, k words 解決方法 入出力長の制御へ強化学習...
強化学習 環境から観測した状態により、エージェントが最適な行動決定をする機械学習 状態（観測）集合：𝑆 = {𝑠1, 𝑠2, 𝑠3 , … , 𝑠𝐽} エージェントの行動集合：A(s) = {𝑎1, 𝑎2, 𝑎3 , … , 𝑎 𝑀} 状態遷移...
逐次音声合成用強化学習の設定(1/2) 環境：学習済みTacotron2（修正有り） ・Encoder ・Decoder/attention Conv. Layerを削除 Bi-directional LSTM を Uni-directiona...
逐次音声合成用強化学習の設定(2/2) 遅延 𝑟𝑗 𝐷 ≔ 𝑟𝑗 𝐶𝑅 +𝑟J 𝐴𝑃 rj CR ≔ ω ∗ (sgn(cj − c∗ )+1) cj: READ動作が連続回数, c∗ :READ動作の連続許容回数, sgn():符号関数, ω...
実験条件 比較用の合成方針 ① Wait-Until-End (WUE): 文全体を使用。通常のTTS ② Wait-k-Steps (WkS): READをk毎に実行、 READ時以外は生成 (SPEAK) k=2の場合、READ,SPEAK...
アテンション分析 ※灰色部分は利用不可な入力 (a)及び(b)の場合 デコーディングのため、必要以上の文字を参照 不必要なREADアクション有 回避可能な遅延が存在 (c)の場合 不必要なREADアクションを削減 デコーダに十分な入力情報が不足...
品質評価方法 自然性の評価 5段階MOS評価（１：とても悪い～５：とても良い） 時々、非常にノイズの多い音声生成 明瞭性の評価 音声認識による単語誤り率（WER）で評価 遅延評価 ポリシーに基づく面積の割合を使用 実遅延に関して解釈しくにい →...
評価結果 品質と遅延の制御に成功 明瞭性：W3S<提案法<W2S<WUE(通常のTTS) 自然性： W3S<提案法<W2S<WUE(通常のTTS) 遅延：W3S<提案法<<<W2S<WUE 17©TOMOYA YANAGITA, NAIST, ...
まとめ End-to-End逐次音声合成の問題点 入出力長を動的に制御不可 解決方法 強化学習の導入 結果 ある程度制御に成功 個人的所見 実遅延の評価が行われていない CNNは不使用、どうCNNを適用するのか？ 音声生成側(vocoder)側...
参考文献（今回の発表、アーカイブ） [Yanagita, 2019] https://www.isca-speech.org/archive/SSW_2019/abstracts/SSW10_P_2-9.html [Ma, 2020] http...
End-to-endのiTTS論文（Interspeech） End-to-End逐次音声合成時の隠れ状態と、通常時との類似性分析[Stephenson, et al.] https://www.isca-speech.org/archive/...
Upcoming SlideShare
Loading in …5
×

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"

122 views

Published on

NAIST 柳田

Published in: Technology
no profile picture user

  • Be the first to comment

  • Be the first to like this

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"

  1. 1. Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning NAIST D3 YANAGIT TOMOYA 1©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  2. 2. 自己紹介 名前 柳田智也 所属 奈良先端科学技術大学院大学 知能コミュニケーション研究室 D3 専門 逐次合成音声 動機 Interspeechで逐次合成関係論文が3本ほど採録（段々とレッドオーシャン化） 逐次音声合成を広めて発展させたい！！！ 強化学習について概要を知りたい レッドオーシャンに引きずり込んで道ずれを増加 2©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  3. 3. 背景：Incremental TTSの概要 音声合成: Text-to-speech（上図） 1.と2.はニューラルネットが主流 1.テキスト解析（表層文字から音素） 2.入力系列（音素）から音響特徴生成 3.音響特徴から音声生成 Incremental TTS（下図） 1.から3.の流れは同様 文より短い単位で逐次生成 リアルタイムなアプリへ応用 →同時通訳等 3©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  4. 4. 逐次音声合成の問題 音声：連続性を持つ(調音結合等) 逐次音声合成：一部の入力から音響特徴を生成 → 後続音声の変化を考慮できない → 入力長と出力長の制御（どこまで入力し、どこまで出力するか） Tacotron Tacotron2 Wavenet 4©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  5. 5. 今回の論文 Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning 三行まとめ ①End-to-end TTSによる逐次音声合成 ②入出力長制御に強化学習を適応 ③入出力長と音声品質の制御を可能に 5©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  6. 6. End-to-End iTTSの関連研究 End-to-endに基づくIncremental TTS 後続を待たずに合成、出力制御 はstop flag [Yanagita, et al., 2019] k単語を待ち合成、出力制御はstop flagとアテンション [Ma, et al., 2020] 逐次音声合成：一部の入力から音響特徴を生成 → 後続音声の変化を考慮できない 6©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  7. 7. 関連研究(1/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework 通常のEnd-to-End音声合成をIncremental TTSに適用 ①テキストから音響特徴生成 (Encoder-decoder with attention) ②音響特徴から音声生成 (wavenet vocoder) 二つの方針 ① 音響特徴推定時、必ず1単語待つ(wait-1-policy) ② k単語分の情報を先読みする戦略 (lookahead-k-policy) [Ma, et al., 2020] 7©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  8. 8. 関連研究(2/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework 音響特徴生成の制御：アテンションとstop flagを使用 例：look-ahead1=1, sequence: [ [t,h,i,s,i,s,a,e,x,s,a,m,p,l,e] ] encoder_hidden=Encode(first_seq. + look-ahead); k=0 for True: attn._wirhgt = attention(encoder_hidden) if Softmax (attn._weight[k-win:k+win+1]) < k+lookahead : encoder_hidden=Encode(k inputs) k=k+1 continue else: out=Decode(enc_hidden, attn_weigth, context) if stop_flag: break i Encoding step Decoding step t 音声生成時(look-ahead2)方針 例： look-ahead2=1 ±15*look-ahead2フレームを使用して合成 8©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 t h ss i t h t h h i h i h k=2 win=1
  9. 9. 関連研究(3/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework Tacotron2の音響モデル+parallel wavegan ①入力系列（音素・表層文字）から音響特徴生成 → アテンション付きEncoder-decoder → メルスペクトログラムの生成 ※convlution層とbi-lstm層について言及無し ②音響特徴から音声生成 → parallel wavegan 9©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  10. 10. 先行研究で未解決の問題 単語単位の合成 入出力長を制御不可 例：1,2単語目が長い場合、遅延増加 言語によりパラメータkを設計する必用 -> k phonemes, k characters, k words 解決方法 入出力長の制御へ強化学習を導入 →逐次機械翻訳で使われている方法の応用[Gu, et al., 2016] 10©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 i Encoding step Decoding step t t h ss i t h t h h i h i h k=2 win=1
  11. 11. 強化学習 環境から観測した状態により、エージェントが最適な行動決定をする機械学習 状態（観測）集合：𝑆 = {𝑠1, 𝑠2, 𝑠3 , … , 𝑠𝐽} エージェントの行動集合：A(s) = {𝑎1, 𝑎2, 𝑎3 , … , 𝑎 𝑀} 状態遷移確立(マルコフ決定過程)：𝑃(𝑠 𝑗+1|, 𝑠 𝑗, 𝑎 𝑗) 報酬：𝑟 𝑗+1 = 𝑟(𝑠 𝑗, 𝑎 𝑗, 𝑠 𝑗+1) 方策：𝑎 𝑗 = π 𝑎 𝑚|𝑠 𝑗 → 論文では、確率的方策を使用 状態価値関数：𝐸π 𝑟 𝑗+1 + γ𝑟 𝑗+2 + γ2 𝑟 𝑗+3 … , 0 < γ ≤ 1 強化学習の目標：状態価値関数を最大化（現在の状態・現在および次の行動から、最終的に得られる報酬を最大化）する方策決定 → 論文では、最適な方策π 𝑎 𝑚|𝑠 𝑗 を直接学習 → policy gradient：学習可能なパラメータを方策に使用し、 期待収益（状態価値関数より算出）を確率勾配法で最大化 https://qiita.com/dcm_hisao_katsumi/items/b25646a1cdbb1667e44f 将棋の例 状態：盤面と持ち駒 行動：指す手 報酬：勝敗や、指しての良しあし 目標：最終的に勝利するため方策 決定 11©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 https://qiita.com/shionhonda/items/ec05aade07b5bea78081 [Gu, et al., 2016] 4.3節
  12. 12. 逐次音声合成用強化学習の設定(1/2) 環境：学習済みTacotron2（修正有り） ・Encoder ・Decoder/attention Conv. Layerを削除 Bi-directional LSTM を Uni-directional LSTMへ変更 Remove Post-processing net (5 conv. layer)を削除 ・アライメントのためTeacher forcing使用 エージェントの行動 ・READ：次入力を入力し、アテンション計算 ・WRITE：メルスペクトログラム生成 観測 ・入力系列の全コンテキストベクタ ・k近傍のアテンション重み ・最近傍のメルフレーム 環境 観測 エージェント GRU+Relu ×3 READ or WRITE 報酬 12©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 行動 選択
  13. 13. 逐次音声合成用強化学習の設定(2/2) 遅延 𝑟𝑗 𝐷 ≔ 𝑟𝑗 𝐶𝑅 +𝑟J 𝐴𝑃 rj CR ≔ ω ∗ (sgn(cj − c∗ )+1) cj: READ動作が連続回数, c∗ :READ動作の連続許容回数, sgn():符号関数, ω: 重みパラメータ(<0) 𝑟J 𝐴𝑃 ≔ β ∗ ‫ہ‬ ‫ۂ‬𝑑 𝑇 − 𝑑∗ + 𝑑 𝑇: アテンションの平均面積, 𝑑∗ : 𝑑 𝑇の基準値, ‫ہ‬ ‫ۂ‬+: 天井関数, β: 重みパラメータ(<0) 𝑑 𝑇=1は全てREADし合成(SPEAK)、𝑑 𝑇 = 0は合成(SPEAK)してから全てREAD 品質 𝑟𝑗 𝑄 𝑟𝑗 𝑄 ≔ λ ∗ 𝑀𝑆𝐸 𝑦 𝑆 𝑗 , ො𝑦 𝑆 𝑗 𝑦 𝑆 𝑗 : メルスペクトログラム, ො𝑦 𝑆 𝑗 ：予測メルスペクトログラム, λ: 重みパラメータ(<0) 音響特徴のMSE損失（jステップ時の行動がREADの場合0） 報酬：品質と遅延を制御するよう設計 (ここで,jは各ステップを表す) 𝑟𝑗 ≔ 𝑟𝑗 𝐷 + 𝑟𝑗 𝑄 推論終了時に得られる全体報酬 連続READを防ぐ報酬、各推論時取得 READが許容回数以上連続で報酬が下がる 𝑑 𝑇=(1+3+4....)/(16*20) 16 char. 20 frame. 13©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 [Mohan, et al., 2020]
  14. 14. 実験条件 比較用の合成方針 ① Wait-Until-End (WUE): 文全体を使用。通常のTTS ② Wait-k-Steps (WkS): READをk毎に実行、 READ時以外は生成 (SPEAK) k=2の場合、READ,SPEAK,READ,SPEAK, .... Dataset LJ speech dataset（英語）, 12000 train and 1,100 test/valisataion デモではフランス語も提示 報酬のパラメータ c∗= 4, d∗ = 0.5, ω = −1, β = −10, λ = −100 エージェント 2層のRelu付GRU、報酬を最大化するように方策を学習 モデル 修正したTacotron2 + waveRNN[Kalchbrenner, et al., 2018]へ変更 14©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  15. 15. アテンション分析 ※灰色部分は利用不可な入力 (a)及び(b)の場合 デコーディングのため、必要以上の文字を参照 不必要なREADアクション有 回避可能な遅延が存在 (c)の場合 不必要なREADアクションを削減 デコーダに十分な入力情報が不足 音声品質の低下 (d)提案法の場合 READ/ SPEAKが必要な場合の アクション選択を学習成功 デモ音源：https://research.papercup.com/samples/incremental-text-to-speech 15©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 [Mohan, et al., 2020]
  16. 16. 品質評価方法 自然性の評価 5段階MOS評価（１：とても悪い～５：とても良い） 時々、非常にノイズの多い音声生成 明瞭性の評価 音声認識による単語誤り率（WER）で評価 遅延評価 ポリシーに基づく面積の割合を使用 実遅延に関して解釈しくにい →MTでは代替の平均遅延が提案 TTSでは困難 →TTSのソースとターゲットの長さの偏り 16©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  17. 17. 評価結果 品質と遅延の制御に成功 明瞭性：W3S<提案法<W2S<WUE(通常のTTS) 自然性： W3S<提案法<W2S<WUE(通常のTTS) 遅延：W3S<提案法<<<W2S<WUE 17©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 [Mohan, et al., 2020]
  18. 18. まとめ End-to-End逐次音声合成の問題点 入出力長を動的に制御不可 解決方法 強化学習の導入 結果 ある程度制御に成功 個人的所見 実遅延の評価が行われていない CNNは不使用、どうCNNを適用するのか？ 音声生成側(vocoder)側の入出力制御は行っていない、人間の知覚への影響は？ 別言語への適用は可能？ 逐次MT・ASRの後追い、逐次TTS特有の問題はあるか？ 18©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  19. 19. 参考文献（今回の発表、アーカイブ） [Yanagita, 2019] https://www.isca-speech.org/archive/SSW_2019/abstracts/SSW10_P_2-9.html [Ma, 2020] https://arxiv.org/abs/1911.02750 [Gu, et al., 2016] https://arxiv.org/abs/1610.00388 [Kalchbrenner, et al., 2018] https://arxiv.org/abs/1802.08435v1 19©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  20. 20. End-to-endのiTTS論文（Interspeech） End-to-End逐次音声合成時の隠れ状態と、通常時との類似性分析[Stephenson, et al.] https://www.isca-speech.org/archive/Interspeech_2020/abstracts/2103.html CPU用End-to-End逐次音声合成の提案及び評価[Ellinas, et al.] https://www.isca-speech.org/archive/Interspeech_2020/abstracts/2464.html 20©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020

×