Successfully reported this slideshow.
Your SlideShare is downloading. ×

分布あるいはモーメント間距離最小化に基づく統計的音声合成

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Saito20asj_autumn
Saito20asj_autumn
Loading in …3
×

Check these out next

1 of 47 Ad

More Related Content

Slideshows for you (20)

Similar to 分布あるいはモーメント間距離最小化に基づく統計的音声合成 (20)

Advertisement

More from Shinnosuke Takamichi (20)

Recently uploaded (20)

Advertisement

分布あるいはモーメント間距離最小化に基づく統計的音声合成

  1. 1. 06/12/2018©Shinnosuke Takamichi, The University of Tokyo 分布あるいはモーメント間距離最小化に基づく 統計的音声合成 東京大学 助教 高道 慎之介 (@forthshinji) ステアラボ人工知能セミナー招待講演 (2018/10/12)
  2. 2. /47 自己紹介  経歴 – 奈良先端大 博士後期課程 修了 (2016) – 東京大学 助教 (兼担:同大学 DMMラボ連携講座 特任助教)  研究テーマ – 音声合成変換 / speech synthesis, voice conversion – 音声信号処理 / speech signal processing – 音声なりすまし検出 / anti-spoofing – 深層学習 / deep learning – 音声コミュニケーション拡張 / augmented speech communication 2
  3. 3. /47 猿渡・小山研究室 3 猿渡 洋 (教授) ・音メディアシステム ・教師無し最適化 ・統計・機械学習論的 信号処理 特任研究員 高宗さん 秘書 丹治さん 博士課程学生2名 ・音響信号処理 ・音場再生・伝送 (音響ホログラフ) ・スパース信号処理 小山翔一 (講師) 高道慎之介 (助教) ・音声信号処理 ・統計的音声合成 ・声質変換 ・深層学習(DNN) ・音メディア信号処理 ・統計・機械学習論的 信号処理 ・音楽信号処理 修士課程学生4+5名 柏野研学生1名 北村大地 (客員研究員) 香川高専
  4. 4. /47 ヒト・コンピュータの違いを超えた 超音声コミュニケーション 4 音声変換 (声をかえる) 音声合成 (声をつくる) あらゆるモノが あらゆる声で コミュニケーション
  5. 5. /47 テキスト音声合成と音声変換  テキスト音声合成 (Text-To-Speech: TTS) – テキストなどから音声を合成 – 人以外のモノのコミュニケーションのため  音声変換 (Voice Conversion: VC) – 言語情報を保持したままパラ言語・非言語情報を変換 – 人の発声制約を超えたコミュニケーションのため 5 Text TTS VC 統計モデルに基づく手法を統計的音声合成・変換と呼ぶ
  6. 6. /47 本日のテーマ 6 分布あるいはモーメント間距離最小化に基づく 統計的音声合成・変換 音声合成から見た 敵対的学習 (GAN) 非対称分布な周期変数に 対応する深層生成モデル “シンプルだけど強力”・“普遍的な技術に新たに解釈する”がキーワード
  7. 7. デモ 7
  8. 8. /47 高品質音声変換 8 http://voicetext.jp/voiceactor/ SAYAKA HIKARI Conversion (Conven- tional)
  9. 9. /47 日本人英語音声合成 9 [Oshima16] 従来法で生成 提案法で生成 学習に使用した音声 (大学生、ERJデータベースに含まれる男性話者のうち、 評定スコアが最低) “I can see that knife now.”
  10. 10. /47 英会話アプリによる実証実験 ~音声合成はどこまで役立つか~ 10 https://www.joyz.co.jp/press_research
  11. 11. /47 多方言音声合成 11 [Akiyama18] Dialect text Multi-dialect speech synthesis Dialect speech Miyazaki-ben 韻律と単語の教師なし獲得により地域性・話者性を分離した音声合成へ
  12. 12. 音声のもつ情報とDNN音声合成 12
  13. 13. /47 音声の持つ情報 13 言語情報 パラ言語情報 非言語情報 狭義の音声認識 (speech-to-text) 話者認識など (speaker recognition) 感情認識など (emotion recognition) テキスト化できる情報 話し手が意図的に付与する, テキスト化できない情報 (例:感情) 話し手の意図とは無関係に付与される, テキスト化できない情報(例:話者性)
  14. 14. /47 音声変換は何の情報を保持・変換する?  例1:話者変換 (名探偵コナンの蝶ネクタイ型変声器)  例2:感情変換  例3:音韻変換 14 言語 パラ言語 非言語 言語 パラ言語 非言語 言語 パラ言語 非言語 言語 パラ言語 非言語 言語 パラ言語 非言語 言語 パラ言語 非言語 /a/ /i/
  15. 15. /47 音声合成は何の情報を保持・変換する?  例:究極の音声翻訳 (ドラえもんのホンヤクこんにゃく) 15 言語 パラ言語 非言語 言語 パラ言語 非言語 翻訳 音声認識 など 感情認識など 話者認識 など テキスト翻訳 音声合成
  16. 16. /47 音声生成過程 16 音色の付与 口や舌を動かして, 音色をつける! 音高の生成 声帯を開閉させて, 空気を振動させる! 声になる! 畳み込むと… 時間
  17. 17. /47 フレーム分析と音声特徴量  音声の準定常性を仮定してフレーム分析 – 20~30ms程度であれば,音声は定常信号 17 Time Freq. F0 [Hz] Time有声 無声 声帯が 周期的に振動 Speech スペクトルとF0が 1フレームの特徴量
  18. 18. /47 Text-to-speechでの利用 18 テキスト特徴量 音声特徴量 t=1 t=2 t=T 当該音素 アクセント モーラ位置 時間位置 などなど a i u … 1 2 3 … 0 1 0 1 0 スペクトル (声色) F0 (音高) 有声・無声 テキスト DNN DNNは自然音声特徴量との二乗誤差を最小化するように学習
  19. 19. 音声合成から見た敵対的学習 (GAN) 19
  20. 20. /47 生成パラメータの過剰な平滑化: 音質劣化の要因  統計モデリングにおける平均化により,自然音声パラメータに含 まれていた微細構造が消失すること.音質劣化の主要因 20 Time Natural speech parameters Time Synthetic speech parameters Speech parameter generation Acoustic modeling Training Synthesis 何が 違う?
  21. 21. /47 通常の音声パラメータ生成 21 Natural 𝒚 = argmax 𝑃 𝒚|𝒙 Generated x: context, y: speech params, P(): generative model  最尤推定による音声パラメータ生成 – 自然音声と合成音声で何かが違う… Time Spectralparameter
  22. 22. /47 系列内変動 (GV) とその補償 22Time Natural +GV Spectralparameter 𝒗(𝒚) Generated 𝒚 = argmax 𝑃 𝒚|𝒙 𝑃 𝒗 𝒚 𝜔 v(): global variance  系列内変動:音声パラメータの2次モーメント (分散) – GVモデルを用いた Product-of-Experts (PoEs) – 直感的に言えば「人間のように口を大きく開ける」制約
  23. 23. /47 変調スペクトル (MS)とその補償 23 𝒚 = argmax 𝑃 𝒚|𝒙 𝑃 𝒔 𝒚 𝜔 v(): modulation spectrum  変調スペクトル:音声パラメータのパワースペクトル – MSモデルを用いた Product-of-Experts (PoEs) – 直感的に言えば「人間の声の震えを再現する」制約 +MS Time Spectralparameter
  24. 24. /47 変調スペクトルを用いた高品質音声合成 24 Telugu Tamil Marathi Malayalam Japanese Bengali Hindi Conventional Ours 2015音声合成コンペ・2016音声変換コンペで世界最高品質と評価
  25. 25. まだまだ音が悪い→GANの登場 25
  26. 26. /47 Generative Adversarial Network (GAN): 分布間距離の最小化  Generative adversarial network – 分布間の近似 Jensen-Shannon divergence を最小化 – 合成器と,自然/合成音声を識別する識別器を敵対 26 𝒚 1: 自然 0: 生成 [Goodfellow et al., 2014.] ⋯ ⋯ ⋯ ⋯ Text +noise Anti-spoofing Text-to-speech
  27. 27. /47 DNN音声合成のための敵対学習 27 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ Linguistic feats. Parameter generation 𝐿G 𝒚, 𝒚 𝐿D,1 𝒚Feature function 1: natural ⋯ 𝒚 𝒚 Generated speech params. Natural speech params. 𝐿 𝒚, 𝒚 = 𝐿G 𝒚, 𝒚 + 𝜔D 𝐿D,1 𝒚 を最小化 敵対的損失生成誤差 Text-to-speech Anti-spoofing [Saito et al., 2018.]
  28. 28. /47 GANによる分布補償の効果 28 20th mel-cepstral coefficient 23rdmel-cepstral coefficient Natural MGE GAN モーメントや分布を明示的に定義せずに分布を近づける [Saito et al., 2018.]
  29. 29. /47 GANs as various divergence minimization 29 KL-GAN [Nowozin16] JS-GAN [Nowozin16] RKL-GAN [Nowozin16] GAN [Goodfellow14] W-GAN [Arjovsky17] LS-GAN [Mao17] Kullback Leibler (KL) div. Jensen-Shannon (JS) div. Reversed KL div. Approx. JS div. Wasserstein div. 1 2 3 4 5 Mean opinion score on synthetic speech quality [Saito et al., 2018.]
  30. 30. /47 別の観点から見たGAN  音声なりすまし検出セキュリティ(anti-spoofing) を騙す – Anti-spoofing: 音声合成・変換による「声のなりすまし」を検出 する識別器 – 「セキュリティを騙せば高品質化できるんじゃない?」  様々な音声特徴量に適用可能 – Vocoder features (spectral envelope, F0) – DFT features – Waveform 30 Anti-spoofing “I’m Chun-Li!” “I’m Chun-Li!” OK! NG!
  31. 31. 非対称分布な周期変数を モデル化するDNN 31
  32. 32. /47 音声音響信号に現れる周期性 32 音の到来方向 音波の位相 (時間遅れ) 観測データからこれらを予測する場面がしばしばある (例:振幅スペクトルからの群遅延予測) 点音源 直接波 第一散乱波 https://www.onosokki.co.jp/HP-WK/c_support/newreport/analyzer/FFT1/fft_1.htmより図を引用
  33. 33. /47 課題 33 入力変数に依存し,かつ非対称な確率分布に従う 周期変数をDNNでどう扱う? 𝑦 0 𝜋 2𝜋 Count
  34. 34. /47 パラメトリック確率分布DNNとは  定義:パラメトリックな条件付き確率分布 𝑃 𝑦|𝑥 を持つDNN – 負の対数尤度を最小化する,DNN学習時の損失関数 𝐿 ⋅ – 例) 𝑦 − 𝑦 2 → 分散 given の(等方性)ガウス分布DNN − cos 𝑦 − 𝑦 → 集中度パラメータ given の von Mises分布DNN  本発表:正弦関数摂動一般化ハート分布 – 円周上の確率分布 (位相のような周期変数に対応) – 一般化ハート分布 [Jones05] … von Mises 分布を一般化した対称分布 – 正弦関数摂動 [Abe11] … 円周上の分布の非対称化 34 𝑥 𝑦 𝑦𝐿 ⋅ [Takamichi18] 以降では,分布を導入してDNN学習時の損失関数を定義
  35. 35. /47 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 35 𝑃 𝑦; 𝜇, 𝜅, 𝜓 = cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 2𝜋𝑃1/𝜓 cosh 𝜅𝜓 平均 (mean) 集中度パラメータ (concentration param.) [Jones05] * 本稿では 𝜓をgiven (一定値) とした特殊形のみを扱う von Mises (𝜓 = 0) Cardioid (𝜓 = 1)Wrapped Cauchy (𝜓 = −1) 𝑦 0 𝜋 2𝜋 𝜇 𝜅
  36. 36. /47 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 36 𝑃 𝑦; 𝜇, 𝜆 = 𝑃circ 𝑦 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇 摂動パラメータ (skewness param.)円周上の確率分布 [Abe11] sine-skewed von Mises (𝜓 = 0, 𝜓 = [−1,1]) 𝑦 0 𝜋 2𝜋
  37. 37. /47 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 37 𝜓∞−∞ −1 10 von Mises Cardioid Wrapped CauchyUniform Uniform Generalized cardioid Sine-skewed cardioid 1 −1 Sine-skewed wrapped Cauchy Sine-skewed von Mises Sine-skewed generalized cardioid 𝜆 𝑃 𝑦; 𝜇, 𝜅, 𝜓, 𝜆 = cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 1 + 𝜆 sin 𝑦 − 𝜇 2𝜋𝑃1/𝜓 cosh 𝜅𝜓 [Abe11]
  38. 38. /47 正弦関数摂動一般化ハート分布DNNによる 群遅延推定 38 0 1 𝐹 Δ𝑦𝑡,∗ Group delay at frame 𝑡 𝐿GD gc ⋅ 𝜎 ⋅ × 𝛼 𝜅 (const.) 0 𝐹 𝜇 𝑡,∗ 𝜅 𝑡,∗ tanh ⋅ × 𝛼 𝜆 (const.) 𝜆 𝑡,∗ 𝐿GD ss ⋅Mean Concentration Skew Freq. index 各時間周波数の群遅延が当該分布に従うと仮定し, DNN学習時の損失関数 𝐿GD gc ⋅ と 𝐿GD ss ⋅ を次ページで定義 (一般化ハート由来) (正弦関数摂動由来) Ampli- tude
  39. 39. /47 DNN学習時の損失関数 正弦関数摂動巻込み Cauchy (sine-skewed wrapped Cauchy) 分布 DNN 正弦関数摂動 von Mises (sine-skewed von Mises) 分布 DNN 正弦関数摂動ハート (sine-skewed cardioid) 分布 DNN 39 𝐿 = − log 1 + 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 𝐿 = log 1 + 𝜅 𝑡,𝑓 2 − 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 1 − 𝜅 𝑡,𝑓 2 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 𝐿 = log 𝐼0 𝜅 𝑡,𝑓 − 𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 (一般化ハート由来) (正弦関数摂動由来) 𝐿GD gc ⋅ 𝐿GD ss ⋅ * * * ここでの𝜅 𝑡,𝑓は一般化ハート分布の𝜅 𝑡,𝑓と異なることに注意.論文を参照.
  40. 40. /47 負の対数尤度の box plot 40 0.80 0.85 0.90 0.95 1.00 1.05 1.10 Negativeloglikelihood Min Max Median 正弦関数摂動の導入により尤度が改善
  41. 41. 今後の音声合成はどこに向かう? (超個人的な意見) 41
  42. 42. /47 “Text”-to-speechを超える音声合成と そのためのコーパス 42 音声による抽象化・具体化を利用した多元的情報の融合へ JSUT JSUT-songJSUT-vi Singing voice (0.5 hrs)Vocal imitation (0.4 hrs) Reading-style speech (10 hrs) Single Japanese speaker’s voice [new!] JSUT-book Audiobook [new!] JSUT-??? ??? [Release in this winter] [Takamichi18] Jpn. E2E TTS [Ueno18] 日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
  43. 43. /47 一期一会音声合成 43 [Takamichi17] 「正しく喋る」から「正しく間違えて喋る」音声合成へ Human Noise Current TTS Noise Our approach  今の音声合成は間違えてくれない… – いつも同じ声・セリフ… → 人間はそうじゃない – Moment matching network に基づく音声サンプリング [Takamichi17]
  44. 44. /47 感情音声合成から扇情音声合成へ  感情音声合成 – 計算機の所望した感情を合成音声に付与する技術 – 聞き手 (人間側)のことを何も考えていない  扇情音声合成 – 計算機の所望した「ユーザの感情」を起こす技術 – 人間の挙動を計算機ループに組み込んだ学習 – 計算機に気持ちよく操られたい – (名前募集中) 44 人間の音声の挙動を計算機ループに組み込んだ Human-in-the-loop 音声合成へ
  45. 45. /47 これからの音声合成まとめ  音声合成の役目は,音声を正確に出すこと? – 答えはNo. (もちろん,正確に出すことも大事)  音声合成の役目は,音声コミュニケーションを拡張すること – 音声の芸術性を満たすには?(感性工学?) – 音声生成・聴取との関連?(物理学?) – セキュリティとの関連?(セキュリティ工学?) • 声の肖像権はどうあるべき? – 人間を組み込んだ音声合成? (ヒューマンコンピュテーション?) – IoA (Internet of Ability)としての音声合成? • 身体・時空間・文化の多様性を認めつつ,それらを拡張できる? 45
  46. 46. まとめ 46
  47. 47. /47 まとめ  統計的音声合成  敵対的学習の利用  方向統計DNN  今後の音声合成 47

×