SlideShare a Scribd company logo
F0-consistent many-to-many non-parallel voice
conversion via conditional autoencoder
Author: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysore
presenter: @peisuke
ICASSP2020⾳響⾳声読み会
⾃⼰紹介
名前:藤本 敬介
所属:ABEJA
研究:コンピュータビジョン、ロボット
活動:
Twitter @peisuke
Github https://github.com/peisuke
Qiita https://qiita.com/peisuke
SlideShare https://www.slideshare.net/FujimotoKeisuke
概要
• タイトル
• F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder
• どんな論⽂?
• Auto Encoderによってメルスペクトログラムを他⼈のものに変換
• その際にF0(ピッチ)が反転してしまう場合があった問題を解決
• ⼯夫点は?
• 過去に実施したAutoVC(AEベースでの⾳声変換)に、ソース⾳声のF0を条件
として与えた
全体の構成
• AutoVC (ICML2019)に対してF0を条件に追加
Output
変換後のメルスペクトログラム
(WaveNetボコーダで⾳声に変換)
Input
ソース⾳声のメルスペクトログラム
ソース話者・ターゲット話者の⾳声特徴
ソース⾳声の正規化したlog F0 ← New!!
AutoVCとは
• AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現
1. エンコード・デコード時に話者を変えずに
復元した場合( !𝑋, 𝑋)の復元ロス
2. 上記処理の中間復元結果 $𝑋の復元ロス
3. 復元したメルスペクトログラムを再エン
コードした特徴の⼀致度合い
AutoVCの構成
• 全体のネットワーク構成
AutoVCの構成
• ⼊⼒はメルスペクトログラム
ソース⾳声の
メルスペクトログラム
ターゲット⾳声の
メルスペクトログラム
AutoVCの構成
• 予め話者の特徴抽出機を学習しておく(Wan et al. 2018)
話者の特徴抽出
(事前に学習しておく)
話者の特徴抽出
(事前に学習しておく)
AutoVCの構成
• ソース発話内容と話者特徴をエンコード
発話内容のエンコード
AutoVCの構成
• ダウンサンプルする事で特徴の次元数を落とす
ダウンサンプル&
アップサンプル
AutoVCの構成
• ターゲットの話者特徴を加えてデコードする
ターゲット特徴を
Concatしてデコード
AutoVCの学習・変換
• 学習時はソース話者のみ出現
• 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元
• 話者の変換を明⽰的には学習しない
• 推論時に、ターゲット話者の特徴を利⽤
F0による条件付け
• AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある
• デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込み
に含まれる韻律の情報が⽭盾する結果、F0が反転すると予想
• この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコー
ド時にターゲット話者の特徴と⼀緒に埋め込む
• 256段階のone-hot+無⾳1次元分の257次元
𝑝!"#$ =
𝑝%#& − 𝜇
4𝜎
pはフレーム毎のlog-F0
u, σはpの平均・標準偏差
実験
• 実験内容
• F0の情報が適切に復元されるかを、定性的・定量的に調査
• 実験条件
• VCTKコーパスで学習/テストを⾏う
• 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験
• 90%のデータを学習、10%をテストに利⽤
定量的評価
• F0の分布に関する評価
• 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査
• AutoVC(上段)と⽐較し、提案⼿法(下段)の⽅がlog(F0)の分布がGTに近
くなっている
• 上段では2つの⼭が出来ており、⾳声が反転しているケースが確認できる
定量的評価
• 変換前後でF0が⼀貫性を持つかを調査
• 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成
• 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、
右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる
ボトルネックのテストおよびF0の制御
• 実験1:エンコーダのF0リーク検証
• 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デ
コーダのみ学習
• エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない
事でランダムなF0が復元されていることが確認できる
• 実験2:F0の制御の検証
• デコーダに与えるF0をフラットにして実験
• 復元される⾳声のF0もフラットにできる
定性的評価
• Amazon Mechanical TurkでMOS評価を⾏った
• AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得
られた
• 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成
まとめ
• AutoEncoderベースでのmany-to-many⾳声変換
• ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題
があった
• F0の情報をデコーダに⼊れる事で上記問題を解決
• 実験により、定量的・定性的に上記効果を検証

More Related Content

More from Fujimoto Keisuke

Chainer meetup 9
Chainer meetup 9Chainer meetup 9
Chainer meetup 9
Fujimoto Keisuke
 
20180925 CV勉強会 SfM解説
20180925 CV勉強会 SfM解説20180925 CV勉強会 SfM解説
20180925 CV勉強会 SfM解説
Fujimoto Keisuke
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Fujimoto Keisuke
 
LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料
Fujimoto Keisuke
 
Stock trading using ChainerRL
Stock trading using ChainerRLStock trading using ChainerRL
Stock trading using ChainerRL
Fujimoto Keisuke
 
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Cold-Start Reinforcement Learning with Softmax Policy GradientCold-Start Reinforcement Learning with Softmax Policy Gradient
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Fujimoto Keisuke
 
Representation learning by learning to count
Representation learning by learning to countRepresentation learning by learning to count
Representation learning by learning to count
Fujimoto Keisuke
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between Capsules
Fujimoto Keisuke
 
Deep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPUDeep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPU
Fujimoto Keisuke
 
ICCV2017一人読み会
ICCV2017一人読み会ICCV2017一人読み会
ICCV2017一人読み会
Fujimoto Keisuke
 
Global optimality in neural network training
Global optimality in neural network trainingGlobal optimality in neural network training
Global optimality in neural network training
Fujimoto Keisuke
 
CVPR2017 oral survey
CVPR2017 oral surveyCVPR2017 oral survey
CVPR2017 oral survey
Fujimoto Keisuke
 
Point net
Point netPoint net
Point net
Fujimoto Keisuke
 
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
Fujimoto Keisuke
 
Value iteration networks
Value iteration networksValue iteration networks
Value iteration networks
Fujimoto Keisuke
 
sublabel accurate convex relaxation of vectorial multilabel energies
sublabel accurate convex relaxation of vectorial multilabel energiessublabel accurate convex relaxation of vectorial multilabel energies
sublabel accurate convex relaxation of vectorial multilabel energies
Fujimoto Keisuke
 
Deep SimNets
Deep SimNetsDeep SimNets
Deep SimNets
Fujimoto Keisuke
 
G2o
G2oG2o
Deep Fried Convnets
Deep Fried ConvnetsDeep Fried Convnets
Deep Fried Convnets
Fujimoto Keisuke
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
Fujimoto Keisuke
 

More from Fujimoto Keisuke (20)

Chainer meetup 9
Chainer meetup 9Chainer meetup 9
Chainer meetup 9
 
20180925 CV勉強会 SfM解説
20180925 CV勉強会 SfM解説20180925 CV勉強会 SfM解説
20180925 CV勉強会 SfM解説
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
 
LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料
 
Stock trading using ChainerRL
Stock trading using ChainerRLStock trading using ChainerRL
Stock trading using ChainerRL
 
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Cold-Start Reinforcement Learning with Softmax Policy GradientCold-Start Reinforcement Learning with Softmax Policy Gradient
Cold-Start Reinforcement Learning with Softmax Policy Gradient
 
Representation learning by learning to count
Representation learning by learning to countRepresentation learning by learning to count
Representation learning by learning to count
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between Capsules
 
Deep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPUDeep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPU
 
ICCV2017一人読み会
ICCV2017一人読み会ICCV2017一人読み会
ICCV2017一人読み会
 
Global optimality in neural network training
Global optimality in neural network trainingGlobal optimality in neural network training
Global optimality in neural network training
 
CVPR2017 oral survey
CVPR2017 oral surveyCVPR2017 oral survey
CVPR2017 oral survey
 
Point net
Point netPoint net
Point net
 
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
 
Value iteration networks
Value iteration networksValue iteration networks
Value iteration networks
 
sublabel accurate convex relaxation of vectorial multilabel energies
sublabel accurate convex relaxation of vectorial multilabel energiessublabel accurate convex relaxation of vectorial multilabel energies
sublabel accurate convex relaxation of vectorial multilabel energies
 
Deep SimNets
Deep SimNetsDeep SimNets
Deep SimNets
 
G2o
G2oG2o
G2o
 
Deep Fried Convnets
Deep Fried ConvnetsDeep Fried Convnets
Deep Fried Convnets
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
 

Recently uploaded

FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 

Recently uploaded (14)

FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 

F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder