F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder

F0-consistent many-to-many non-parallel voice
conversion via conditional autoencoder
Author: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysore
presenter: @peisuke
ICASSP2020⾳響⾳声読み会

⾃⼰紹介
名前：藤本敬介
所属：ABEJA
研究：コンピュータビジョン、ロボット
活動：
Twitter @peisuke
Github https://github.com/peisuke
Qiita https://qiita.com/peisuke
SlideShare https://www.slideshare.net/FujimotoKeisuke

概要
• タイトル
• F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder
• どんな論⽂？
• Auto Encoderによってメルスペクトログラムを他⼈のものに変換
• その際にF0（ピッチ）が反転してしまう場合があった問題を解決
• ⼯夫点は？
• 過去に実施したAutoVC（AEベースでの⾳声変換）に、ソース⾳声のF0を条件
として与えた

全体の構成
• AutoVC (ICML2019)に対してF0を条件に追加
Output
変換後のメルスペクトログラム
（WaveNetボコーダで⾳声に変換）
Input
ソース⾳声のメルスペクトログラム
ソース話者・ターゲット話者の⾳声特徴
ソース⾳声の正規化したlog F0 ← New!!

AutoVCとは
• AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現
1. エンコード・デコード時に話者を変えずに
復元した場合（ !𝑋, 𝑋）の復元ロス
2. 上記処理の中間復元結果 $𝑋の復元ロス
3. 復元したメルスペクトログラムを再エン
コードした特徴の⼀致度合い

AutoVCの構成
• 全体のネットワーク構成

AutoVCの構成
• ⼊⼒はメルスペクトログラム
ソース⾳声の
メルスペクトログラム
ターゲット⾳声の
メルスペクトログラム

AutoVCの構成
• 予め話者の特徴抽出機を学習しておく（Wan et al. 2018）
話者の特徴抽出
（事前に学習しておく）
話者の特徴抽出
（事前に学習しておく）

AutoVCの構成
• ソース発話内容と話者特徴をエンコード
発話内容のエンコード

AutoVCの構成
• ダウンサンプルする事で特徴の次元数を落とす
ダウンサンプル＆
アップサンプル

AutoVCの構成
• ターゲットの話者特徴を加えてデコードする
ターゲット特徴を
Concatしてデコード

AutoVCの学習・変換
• 学習時はソース話者のみ出現
• 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元
• 話者の変換を明⽰的には学習しない
• 推論時に、ターゲット話者の特徴を利⽤

F0による条件付け
• AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある
• デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込み
に含まれる韻律の情報が⽭盾する結果、F0が反転すると予想
• この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコー
ド時にターゲット話者の特徴と⼀緒に埋め込む
• 256段階のone-hot＋無⾳1次元分の257次元
𝑝!"#$ =
𝑝%#& − 𝜇
4𝜎
pはフレーム毎のlog-F0
u, σはpの平均・標準偏差

実験
• 実験内容
• F0の情報が適切に復元されるかを、定性的・定量的に調査
• 実験条件
• VCTKコーパスで学習/テストを⾏う
• 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験
• 90%のデータを学習、10％をテストに利⽤

定量的評価
• F0の分布に関する評価
• 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査
• AutoVC（上段）と⽐較し、提案⼿法（下段）の⽅がlog(F0)の分布がGTに近
くなっている
• 上段では２つの⼭が出来ており、⾳声が反転しているケースが確認できる

定量的評価
• 変換前後でF0が⼀貫性を持つかを調査
• 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成
• 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、
右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる

ボトルネックのテストおよびF0の制御
• 実験１：エンコーダのF0リーク検証
• 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デ
コーダのみ学習
• エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない
事でランダムなF0が復元されていることが確認できる
• 実験２：F0の制御の検証
• デコーダに与えるF0をフラットにして実験
• 復元される⾳声のF0もフラットにできる

定性的評価
• Amazon Mechanical TurkでMOS評価を⾏った
• AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得
られた
• 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成

まとめ
• AutoEncoderベースでのmany-to-many⾳声変換
• ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題
があった
• F0の情報をデコーダに⼊れる事で上記問題を解決
• 実験により、定量的・定性的に上記効果を検証

F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder

More Related Content

More from Fujimoto Keisuke

F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder