Successfully reported this slideshow.
Your SlideShare is downloading. ×

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Interspeech2020 reading
Interspeech2020 reading
Loading in …3
×

Check these out next

1 of 20 Ad
Advertisement

More Related Content

Slideshows for you (20)

Similar to Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning" (11)

Advertisement

More from Shinnosuke Takamichi (20)

Recently uploaded (20)

Advertisement

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning"

  1. 1. Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning NAIST D3 YANAGIT TOMOYA 1©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  2. 2. 自己紹介 名前 柳田智也 所属 奈良先端科学技術大学院大学 知能コミュニケーション研究室 D3 専門 逐次合成音声 動機 Interspeechで逐次合成関係論文が3本ほど採録(段々とレッドオーシャン化) 逐次音声合成を広めて発展させたい!!! 強化学習について概要を知りたい レッドオーシャンに引きずり込んで道ずれを増加 2©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  3. 3. 背景:Incremental TTSの概要 音声合成: Text-to-speech(上図) 1.と2.はニューラルネットが主流 1.テキスト解析(表層文字から音素) 2.入力系列(音素)から音響特徴生成 3.音響特徴から音声生成 Incremental TTS(下図) 1.から3.の流れは同様 文より短い単位で逐次生成 リアルタイムなアプリへ応用 →同時通訳等 3©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  4. 4. 逐次音声合成の問題 音声:連続性を持つ(調音結合等) 逐次音声合成:一部の入力から音響特徴を生成 → 後続音声の変化を考慮できない → 入力長と出力長の制御(どこまで入力し、どこまで出力するか) Tacotron Tacotron2 Wavenet 4©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  5. 5. 今回の論文 Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning 三行まとめ ①End-to-end TTSによる逐次音声合成 ②入出力長制御に強化学習を適応 ③入出力長と音声品質の制御を可能に 5©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  6. 6. End-to-End iTTSの関連研究 End-to-endに基づくIncremental TTS 後続を待たずに合成、出力制御 はstop flag [Yanagita, et al., 2019] k単語を待ち合成、出力制御はstop flagとアテンション [Ma, et al., 2020] 逐次音声合成:一部の入力から音響特徴を生成 → 後続音声の変化を考慮できない 6©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  7. 7. 関連研究(1/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework 通常のEnd-to-End音声合成をIncremental TTSに適用 ①テキストから音響特徴生成 (Encoder-decoder with attention) ②音響特徴から音声生成 (wavenet vocoder) 二つの方針 ① 音響特徴推定時、必ず1単語待つ(wait-1-policy) ② k単語分の情報を先読みする戦略 (lookahead-k-policy) [Ma, et al., 2020] 7©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  8. 8. 関連研究(2/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework 音響特徴生成の制御:アテンションとstop flagを使用 例:look-ahead1=1, sequence: [ [t,h,i,s,i,s,a,e,x,s,a,m,p,l,e] ] encoder_hidden=Encode(first_seq. + look-ahead); k=0 for True: attn._wirhgt = attention(encoder_hidden) if Softmax (attn._weight[k-win:k+win+1]) < k+lookahead : encoder_hidden=Encode(k inputs) k=k+1 continue else: out=Decode(enc_hidden, attn_weigth, context) if stop_flag: break i Encoding step Decoding step t 音声生成時(look-ahead2)方針 例: look-ahead2=1 ±15*look-ahead2フレームを使用して合成 8©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 t h ss i t h t h h i h i h k=2 win=1
  9. 9. 関連研究(3/3) Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework Tacotron2の音響モデル+parallel wavegan ①入力系列(音素・表層文字)から音響特徴生成 → アテンション付きEncoder-decoder → メルスペクトログラムの生成 ※convlution層とbi-lstm層について言及無し ②音響特徴から音声生成 → parallel wavegan 9©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  10. 10. 先行研究で未解決の問題 単語単位の合成 入出力長を制御不可 例:1,2単語目が長い場合、遅延増加 言語によりパラメータkを設計する必用 -> k phonemes, k characters, k words 解決方法 入出力長の制御へ強化学習を導入 →逐次機械翻訳で使われている方法の応用[Gu, et al., 2016] 10©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 i Encoding step Decoding step t t h ss i t h t h h i h i h k=2 win=1
  11. 11. 強化学習 環境から観測した状態により、エージェントが最適な行動決定をする機械学習 状態(観測)集合:𝑆 = {𝑠1, 𝑠2, 𝑠3 , … , 𝑠𝐽} エージェントの行動集合:A(s) = {𝑎1, 𝑎2, 𝑎3 , … , 𝑎 𝑀} 状態遷移確立(マルコフ決定過程):𝑃(𝑠 𝑗+1|, 𝑠 𝑗, 𝑎 𝑗) 報酬:𝑟 𝑗+1 = 𝑟(𝑠 𝑗, 𝑎 𝑗, 𝑠 𝑗+1) 方策:𝑎 𝑗 = π 𝑎 𝑚|𝑠 𝑗 → 論文では、確率的方策を使用 状態価値関数:𝐸π 𝑟 𝑗+1 + γ𝑟 𝑗+2 + γ2 𝑟 𝑗+3 … , 0 < γ ≤ 1 強化学習の目標:状態価値関数を最大化(現在の状態・現在および次の行動から、最終的に得られる報酬を最大化)する方策決定 → 論文では、最適な方策π 𝑎 𝑚|𝑠 𝑗 を直接学習 → policy gradient:学習可能なパラメータを方策に使用し、 期待収益(状態価値関数より算出)を確率勾配法で最大化 https://qiita.com/dcm_hisao_katsumi/items/b25646a1cdbb1667e44f 将棋の例 状態:盤面と持ち駒 行動:指す手 報酬:勝敗や、指しての良しあし 目標:最終的に勝利するため方策 決定 11©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 https://qiita.com/shionhonda/items/ec05aade07b5bea78081 [Gu, et al., 2016] 4.3節
  12. 12. 逐次音声合成用強化学習の設定(1/2) 環境:学習済みTacotron2(修正有り) ・Encoder ・Decoder/attention Conv. Layerを削除 Bi-directional LSTM を Uni-directional LSTMへ変更 Remove Post-processing net (5 conv. layer)を削除 ・アライメントのためTeacher forcing使用 エージェントの行動 ・READ:次入力を入力し、アテンション計算 ・WRITE:メルスペクトログラム生成 観測 ・入力系列の全コンテキストベクタ ・k近傍のアテンション重み ・最近傍のメルフレーム 環境 観測 エージェント GRU+Relu ×3 READ or WRITE 報酬 12©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 行動 選択
  13. 13. 逐次音声合成用強化学習の設定(2/2) 遅延 𝑟𝑗 𝐷 ≔ 𝑟𝑗 𝐶𝑅 +𝑟J 𝐴𝑃 rj CR ≔ ω ∗ (sgn(cj − c∗ )+1) cj: READ動作が連続回数, c∗ :READ動作の連続許容回数, sgn():符号関数, ω: 重みパラメータ(<0) 𝑟J 𝐴𝑃 ≔ β ∗ ‫ہ‬ ‫ۂ‬𝑑 𝑇 − 𝑑∗ + 𝑑 𝑇: アテンションの平均面積, 𝑑∗ : 𝑑 𝑇の基準値, ‫ہ‬ ‫ۂ‬+: 天井関数, β: 重みパラメータ(<0) 𝑑 𝑇=1は全てREADし合成(SPEAK)、𝑑 𝑇 = 0は合成(SPEAK)してから全てREAD 品質 𝑟𝑗 𝑄 𝑟𝑗 𝑄 ≔ λ ∗ 𝑀𝑆𝐸 𝑦 𝑆 𝑗 , ො𝑦 𝑆 𝑗 𝑦 𝑆 𝑗 : メルスペクトログラム, ො𝑦 𝑆 𝑗 :予測メルスペクトログラム, λ: 重みパラメータ(<0) 音響特徴のMSE損失(jステップ時の行動がREADの場合0) 報酬:品質と遅延を制御するよう設計 (ここで,jは各ステップを表す) 𝑟𝑗 ≔ 𝑟𝑗 𝐷 + 𝑟𝑗 𝑄 推論終了時に得られる全体報酬 連続READを防ぐ報酬、各推論時取得 READが許容回数以上連続で報酬が下がる 𝑑 𝑇=(1+3+4....)/(16*20) 16 char. 20 frame. 13©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 [Mohan, et al., 2020]
  14. 14. 実験条件 比較用の合成方針 ① Wait-Until-End (WUE): 文全体を使用。通常のTTS ② Wait-k-Steps (WkS): READをk毎に実行、 READ時以外は生成 (SPEAK) k=2の場合、READ,SPEAK,READ,SPEAK, .... Dataset LJ speech dataset(英語), 12000 train and 1,100 test/valisataion デモではフランス語も提示 報酬のパラメータ c∗= 4, d∗ = 0.5, ω = −1, β = −10, λ = −100 エージェント 2層のRelu付GRU、報酬を最大化するように方策を学習 モデル 修正したTacotron2 + waveRNN[Kalchbrenner, et al., 2018]へ変更 14©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  15. 15. アテンション分析 ※灰色部分は利用不可な入力 (a)及び(b)の場合 デコーディングのため、必要以上の文字を参照 不必要なREADアクション有 回避可能な遅延が存在 (c)の場合 不必要なREADアクションを削減 デコーダに十分な入力情報が不足 音声品質の低下 (d)提案法の場合 READ/ SPEAKが必要な場合の アクション選択を学習成功 デモ音源:https://research.papercup.com/samples/incremental-text-to-speech 15©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 [Mohan, et al., 2020]
  16. 16. 品質評価方法 自然性の評価 5段階MOS評価(1:とても悪い~5:とても良い) 時々、非常にノイズの多い音声生成 明瞭性の評価 音声認識による単語誤り率(WER)で評価 遅延評価 ポリシーに基づく面積の割合を使用 実遅延に関して解釈しくにい →MTでは代替の平均遅延が提案 TTSでは困難 →TTSのソースとターゲットの長さの偏り 16©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  17. 17. 評価結果 品質と遅延の制御に成功 明瞭性:W3S<提案法<W2S<WUE(通常のTTS) 自然性: W3S<提案法<W2S<WUE(通常のTTS) 遅延:W3S<提案法<<<W2S<WUE 17©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020 [Mohan, et al., 2020]
  18. 18. まとめ End-to-End逐次音声合成の問題点 入出力長を動的に制御不可 解決方法 強化学習の導入 結果 ある程度制御に成功 個人的所見 実遅延の評価が行われていない CNNは不使用、どうCNNを適用するのか? 音声生成側(vocoder)側の入出力制御は行っていない、人間の知覚への影響は? 別言語への適用は可能? 逐次MT・ASRの後追い、逐次TTS特有の問題はあるか? 18©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  19. 19. 参考文献(今回の発表、アーカイブ) [Yanagita, 2019] https://www.isca-speech.org/archive/SSW_2019/abstracts/SSW10_P_2-9.html [Ma, 2020] https://arxiv.org/abs/1911.02750 [Gu, et al., 2016] https://arxiv.org/abs/1610.00388 [Kalchbrenner, et al., 2018] https://arxiv.org/abs/1802.08435v1 19©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020
  20. 20. End-to-endのiTTS論文(Interspeech) End-to-End逐次音声合成時の隠れ状態と、通常時との類似性分析[Stephenson, et al.] https://www.isca-speech.org/archive/Interspeech_2020/abstracts/2103.html CPU用End-to-End逐次音声合成の提案及び評価[Ellinas, et al.] https://www.isca-speech.org/archive/Interspeech_2020/abstracts/2464.html 20©TOMOYA YANAGITA, NAIST, AHC-LAB, 2020

×