F0-consistent many-to-many non-parallel voice
conversion via conditional autoencoder
Author: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysore
presenter: @peisuke
ICASSP2020⾳響⾳声読み会
⾃⼰紹介
名前:藤本 敬介
所属:ABEJA
研究:コンピュータビジョン、ロボット
活動:
Twitter @peisuke
Github https://github.com/peisuke
Qiita https://qiita.com/peisuke
SlideShare https://www.slideshare.net/FujimotoKeisuke
概要
• タイトル
• F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder
• どんな論⽂?
• Auto Encoderによってメルスペクトログラムを他⼈のものに変換
• その際にF0(ピッチ)が反転してしまう場合があった問題を解決
• ⼯夫点は?
• 過去に実施したAutoVC(AEベースでの⾳声変換)に、ソース⾳声のF0を条件
として与えた
全体の構成
• AutoVC (ICML2019)に対してF0を条件に追加
Output
変換後のメルスペクトログラム
(WaveNetボコーダで⾳声に変換)
Input
ソース⾳声のメルスペクトログラム
ソース話者・ターゲット話者の⾳声特徴
ソース⾳声の正規化したlog F0 ← New!!
AutoVCとは
• AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現
1. エンコード・デコード時に話者を変えずに
復元した場合( !𝑋, 𝑋)の復元ロス
2. 上記処理の中間復元結果 $𝑋の復元ロス
3. 復元したメルスペクトログラムを再エン
コードした特徴の⼀致度合い
AutoVCの構成
• 全体のネットワーク構成
AutoVCの構成
• ⼊⼒はメルスペクトログラム
ソース⾳声の
メルスペクトログラム
ターゲット⾳声の
メルスペクトログラム
AutoVCの構成
• 予め話者の特徴抽出機を学習しておく(Wan et al. 2018)
話者の特徴抽出
(事前に学習しておく)
話者の特徴抽出
(事前に学習しておく)
AutoVCの構成
• ソース発話内容と話者特徴をエンコード
発話内容のエンコード
AutoVCの構成
• ダウンサンプルする事で特徴の次元数を落とす
ダウンサンプル&
アップサンプル
AutoVCの構成
• ターゲットの話者特徴を加えてデコードする
ターゲット特徴を
Concatしてデコード
AutoVCの学習・変換
• 学習時はソース話者のみ出現
• 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元
• 話者の変換を明⽰的には学習しない
• 推論時に、ターゲット話者の特徴を利⽤
F0による条件付け
• AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある
• デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込み
に含まれる韻律の情報が⽭盾する結果、F0が反転すると予想
• この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコー
ド時にターゲット話者の特徴と⼀緒に埋め込む
• 256段階のone-hot+無⾳1次元分の257次元
𝑝!"#$ =
𝑝%#& − 𝜇
4𝜎
pはフレーム毎のlog-F0
u, σはpの平均・標準偏差
実験
• 実験内容
• F0の情報が適切に復元されるかを、定性的・定量的に調査
• 実験条件
• VCTKコーパスで学習/テストを⾏う
• 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験
• 90%のデータを学習、10%をテストに利⽤
定量的評価
• F0の分布に関する評価
• 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査
• AutoVC(上段)と⽐較し、提案⼿法(下段)の⽅がlog(F0)の分布がGTに近
くなっている
• 上段では2つの⼭が出来ており、⾳声が反転しているケースが確認できる
定量的評価
• 変換前後でF0が⼀貫性を持つかを調査
• 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成
• 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、
右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる
ボトルネックのテストおよびF0の制御
• 実験1:エンコーダのF0リーク検証
• 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デ
コーダのみ学習
• エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない
事でランダムなF0が復元されていることが確認できる
• 実験2:F0の制御の検証
• デコーダに与えるF0をフラットにして実験
• 復元される⾳声のF0もフラットにできる
定性的評価
• Amazon Mechanical TurkでMOS評価を⾏った
• AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得
られた
• 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成
まとめ
• AutoEncoderベースでのmany-to-many⾳声変換
• ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題
があった
• F0の情報をデコーダに⼊れる事で上記問題を解決
• 実験により、定量的・定性的に上記効果を検証

F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder