DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Di
ff
usion-based Voice Conversion with Fast
Maximum Likelihood Sampling Scheme
発表者: 阿久澤圭 (松尾研D3)
書誌情報
• タイトル:Di
ff
usion-based Voice Conversion with Fast Maximum
Likelihood Sampling Scheme
• 著者:Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima
Sadekova, Mikhail Sergeevich Kudinov, Jiansheng Wei(所属:
Huawei Noah s Ark Lab)
• 発表:ICLR2022 (oral)
• 概要:深層生成モデルの一種であるDi
ff
usion Modelを音声変換に利用
• 発表理由:Di
ff
usion-based 生成モデルの勉強,VCへの興味
研究背景:音声変換(Voice Conversion, VC)
• Voice conversion (VC): ある発話の言語内容を保ったまま,声質を特定の人物に変換する
• One-shot VC: one-shotで任意話者に適応 => ソース話者の音声を訓練に利用できない
=> モデルが特定の話者に依存してはいけない
=> 既存研究は入力から話者非依存の特徴量を抽出(VAE,Vector Quantization,PPG)
Model (e.g., DNN)
ソース話者 ターゲット話者
論文の概要
• 現状のVCの課題:品質と高速化
• 本研究の提案:
• 高品質な音声変換が可能なエンコーダー・デコーダーモデルを提案
• エンコーダー:「平均声」を出力する( 新たな話者非依存の特徴量の提案)
• デコーダー:Di
ff
usion Probabilistic Model (DPM)を採用
• 加えて,DPMの推論の高速化のための新しい手法を提案
• VC以外でも利用できる,汎用的な手法
≈
手法の全体像
• 図の見方:実線がVC時のデータフロー,破線が訓練時のデータフロー
• VC時のデータフローは普通のエンコーダー・デコーダーモデルと大体同じ
エンコーダー
• エンコーダーは「平均声」を予測するようにMSEで訓練
• 「平均声」:特定の音素(a, i, u, e, oなど)に対応する音声データをたくさん集めて,それらの
音声データを平均化したもの.平均化しているので話者に非依存
• この枠組の新規性について:
• 従来手法:音素予測タスクや情報ボトルネック等を利用して,話者非依存の特徴量を抽出
• 提案手法:平均声は,音素( PPG)よりもリッチな情報を持つ表現
≈
デコーダー
• Di
ff
usion Probabilistic Model (DPM) のReverse Processを利用
デコーダーの理解に必要な知識
Song. et. al. 2019
Score-matching with Langevin
dynamics
Score-based 生成モデル
Sohl-Dickstein+2015, Ho+2020
Denoting di
ff
usion probabilistic
modeling
Song. et. al. 2021
Score-based 生成モデルの
連続時間化( Neural ODE化)
≈
Popov. et. al. 2022
本論文
離散版 Di
ff
usion Probabilistic Model (DPM)
• Forward Process:データからノイズを生成.既知・簡単.
• Reverse Process:ノイズからデータを生成.未知・扱うのが困難
=> DNNで近似する
Ho et al. 2020
連続版のDPM
• Song et. al. 2021 は先ほどのDPMを連続時間の場合に拡張
• メリット1: Forward, BackwardのPassは確率微分方程式 => 任意のSolver (e.g., Euler-Maruyama)で計算可能
• メリット2: パラメータの効率性が良い(論文中に記載はないがNeural ODE一般にメリット)
• しかし,Reverse SDE に登場するスコア関数 が未知なので,Reverse SDEの計算はナイーブには困難
=> DNN で近似する(時刻 を入力にとる関数であり,Neural ODEとアイデアを共有)
∇log pt(x)
sθ(x(t), t) t
Song et al. 2021
本研究のデコーダー
• 基本的にSong et. al. 2021と同じ
• 特殊な点:PriorがData dependentである
• エンコーダーの出力 を,終端分布 の平均として採用(普通は標準ガウス分布)
=> ソース音声による条件付き生成を可能に
X̄ p(XT)
サンプリング手法の提案
• 背景:
• VCではリアルタイム性が重視される
• しかしSDEの数値計算に利用される手法(Euler-Maruyama Solver
等)は反復計算を必要とするため,そのIteration数がボトルネック
• 提案手法:Maximum Likelihood SDE solver
• 更新式:
• NOTE: Euler-Maruyama法の一般化( )
• ざっくりとしたメリット:提案手法で得たパス は任意のス
テップ数 において尤度を最大化
̂
κt,h = 0, ̂
ωt,h = 0, ̂
σt,h = βth
X = {Xkh}N
k=0
N
実験 既存手法との比較
• 提案手法:Di
ff
-VCTK-ML-N(Nは推論時のIterationの数)
• 評価基準:Naturalness(自然さ),Similarity(ターゲット話者っぽく聞こえるか)
• 評価指標:MOS; Mean Opinion Score (人間による1 5点の評価)
• 音声デモあり:https://di
ff
vc-fast-ml-solver.github.io
実験 推論手法の比較
• 推論手法:EM(Euler-Maruyama), PF(Song+2021),ML(提案)
• EMはiteration数6だとほとんど性能が出ない
まとめと発表者感想
• まとめ
• Di
ff
usion-modelを利用したVC手法の提案
• 高速化のための推論手法も同時に提案
• 実験ではかなり高いMOSを達成(3.5以上は自分の知る限りSoTA)
• 発表者感想
• サーベイ中Di
ff
usion Probabilistic Modelは品質・速度ともに数年でかなり進歩した印象をうけた
• エンコーダーとデコーダーの貢献,どちらが大きいのか知りたい
• エンコーダーの出力を音素事後確率(PPG)にしたらどうなる?
References
• Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep
unsupervised learning using nonequilibrium thermodynamics. In International
Conference on Machine Learning, pp. 2256‒2265, 2015.
• Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising di
ff
usion probabilistic models.
Advances in Neural Information Processing Systems, 33, 2020.
• Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the
data distribution. In Advances in Neural Information Processing Systems, pp. 11895‒
11907, 2019.
• Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon,
and Ben Poole. Score-Based Generative Modeling through Stochastic Di
ff
erential
Equations. In International Conference on Learning Representations, 2021.

[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme

  • 1.
    DEEP LEARNING JP [DLPapers] http://deeplearning.jp/ Di ff usion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme 発表者: 阿久澤圭 (松尾研D3)
  • 2.
    書誌情報 • タイトル:Di ff usion-based VoiceConversion with Fast Maximum Likelihood Sampling Scheme • 著者:Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Sergeevich Kudinov, Jiansheng Wei(所属: Huawei Noah s Ark Lab) • 発表:ICLR2022 (oral) • 概要:深層生成モデルの一種であるDi ff usion Modelを音声変換に利用 • 発表理由:Di ff usion-based 生成モデルの勉強,VCへの興味
  • 3.
    研究背景:音声変換(Voice Conversion, VC) •Voice conversion (VC): ある発話の言語内容を保ったまま,声質を特定の人物に変換する • One-shot VC: one-shotで任意話者に適応 => ソース話者の音声を訓練に利用できない => モデルが特定の話者に依存してはいけない => 既存研究は入力から話者非依存の特徴量を抽出(VAE,Vector Quantization,PPG) Model (e.g., DNN) ソース話者 ターゲット話者
  • 4.
    論文の概要 • 現状のVCの課題:品質と高速化 • 本研究の提案: •高品質な音声変換が可能なエンコーダー・デコーダーモデルを提案 • エンコーダー:「平均声」を出力する( 新たな話者非依存の特徴量の提案) • デコーダー:Di ff usion Probabilistic Model (DPM)を採用 • 加えて,DPMの推論の高速化のための新しい手法を提案 • VC以外でも利用できる,汎用的な手法 ≈
  • 5.
  • 6.
    エンコーダー • エンコーダーは「平均声」を予測するようにMSEで訓練 • 「平均声」:特定の音素(a,i, u, e, oなど)に対応する音声データをたくさん集めて,それらの 音声データを平均化したもの.平均化しているので話者に非依存 • この枠組の新規性について: • 従来手法:音素予測タスクや情報ボトルネック等を利用して,話者非依存の特徴量を抽出 • 提案手法:平均声は,音素( PPG)よりもリッチな情報を持つ表現 ≈
  • 7.
    デコーダー • Di ff usion ProbabilisticModel (DPM) のReverse Processを利用
  • 8.
    デコーダーの理解に必要な知識 Song. et. al.2019 Score-matching with Langevin dynamics Score-based 生成モデル Sohl-Dickstein+2015, Ho+2020 Denoting di ff usion probabilistic modeling Song. et. al. 2021 Score-based 生成モデルの 連続時間化( Neural ODE化) ≈ Popov. et. al. 2022 本論文
  • 9.
    離散版 Di ff usion ProbabilisticModel (DPM) • Forward Process:データからノイズを生成.既知・簡単. • Reverse Process:ノイズからデータを生成.未知・扱うのが困難 => DNNで近似する Ho et al. 2020
  • 10.
    連続版のDPM • Song et.al. 2021 は先ほどのDPMを連続時間の場合に拡張 • メリット1: Forward, BackwardのPassは確率微分方程式 => 任意のSolver (e.g., Euler-Maruyama)で計算可能 • メリット2: パラメータの効率性が良い(論文中に記載はないがNeural ODE一般にメリット) • しかし,Reverse SDE に登場するスコア関数 が未知なので,Reverse SDEの計算はナイーブには困難 => DNN で近似する(時刻 を入力にとる関数であり,Neural ODEとアイデアを共有) ∇log pt(x) sθ(x(t), t) t Song et al. 2021
  • 11.
    本研究のデコーダー • 基本的にSong et.al. 2021と同じ • 特殊な点:PriorがData dependentである • エンコーダーの出力 を,終端分布 の平均として採用(普通は標準ガウス分布) => ソース音声による条件付き生成を可能に X̄ p(XT)
  • 12.
    サンプリング手法の提案 • 背景: • VCではリアルタイム性が重視される •しかしSDEの数値計算に利用される手法(Euler-Maruyama Solver 等)は反復計算を必要とするため,そのIteration数がボトルネック • 提案手法:Maximum Likelihood SDE solver • 更新式: • NOTE: Euler-Maruyama法の一般化( ) • ざっくりとしたメリット:提案手法で得たパス は任意のス テップ数 において尤度を最大化 ̂ κt,h = 0, ̂ ωt,h = 0, ̂ σt,h = βth X = {Xkh}N k=0 N
  • 13.
    実験 既存手法との比較 • 提案手法:Di ff -VCTK-ML-N(Nは推論時のIterationの数) •評価基準:Naturalness(自然さ),Similarity(ターゲット話者っぽく聞こえるか) • 評価指標:MOS; Mean Opinion Score (人間による1 5点の評価) • 音声デモあり:https://di ff vc-fast-ml-solver.github.io
  • 14.
    実験 推論手法の比較 • 推論手法:EM(Euler-Maruyama),PF(Song+2021),ML(提案) • EMはiteration数6だとほとんど性能が出ない
  • 15.
    まとめと発表者感想 • まとめ • Di ff usion-modelを利用したVC手法の提案 •高速化のための推論手法も同時に提案 • 実験ではかなり高いMOSを達成(3.5以上は自分の知る限りSoTA) • 発表者感想 • サーベイ中Di ff usion Probabilistic Modelは品質・速度ともに数年でかなり進歩した印象をうけた • エンコーダーとデコーダーの貢献,どちらが大きいのか知りたい • エンコーダーの出力を音素事後確率(PPG)にしたらどうなる?
  • 16.
    References • Jascha Sohl-Dickstein,Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pp. 2256‒2265, 2015. • Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising di ff usion probabilistic models. Advances in Neural Information Processing Systems, 33, 2020. • Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. In Advances in Neural Information Processing Systems, pp. 11895‒ 11907, 2019. • Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-Based Generative Modeling through Stochastic Di ff erential Equations. In International Conference on Learning Representations, 2021.