SlideShare a Scribd company logo
1 of 28
“Cross Gender Voice Morphing using
Canonical Correlation Analysis”
論文情報
タイトル
“Cross Gender Voice Morphing using Canonical Correlation
Analysis”
著者
Irum Baseer, Rabeea Basir
(University of Engineering and Technology Taxila, Pakistan)
掲載誌
2017International Conference on Communication,
Computing and Digital Systems(C-CODE)
目次
1. Introduction
2. Spectral conversion
3. Prosody conversion
4. Evaluation experiments
5. Conclusion
1. Introduction
音声モーフィング
◆ Voice Morphing
話された元のメッセージを保持し、個人の特徴のみを変換
◆重要な技術的課題
1)音声信号を数学的に表すためには分析合成フレームワークが
必要
2)話者特徴に関連する特徴量の特定と抽出
3)写像関数と学習方法の決定
重要な技術的課題について
・話者の明確なディスクリプタを分離させる技術は近年の信号処
理における重要な試みのひとつ
・話者性変換にはスペクトルと韻律(Prosody)の変換は不可欠
◦スペクトルはフォルマント周波数や声道長の情報を含む
◦韻律はピッチや話速などを含む
ディスクリプタ(記述子)…画像処理等でも良く用いられる用語で,一貫して設けられる識別のための値.
ここでは個人性のことを指す.
初期の研究 (1/2)
音声モーフィングの初期の研究で行われた2段階
1) 話者特徴に関する特徴の抽出
初期段階ではパラメトリックな手法が用いられた
例)・時間領域線形予測分析
・周波数領域ではLPC, フォルマント周波数 など
・離散ウェーブレット変換によって信号を概形と詳細に分割
初期の研究 (2/2)
2) 特徴変換の規則推定
特定の特徴量を歪を最小限に抑えながら元話者から目標話者への
変換を求める
例)・線形変換に基づく特徴量コードブックを用いた特徴量変換
・話者の音響空間がクラス分類されるガウス混合モデル(GMM)
[問題点]主な欠点は過剰適合や過度の平滑化によるる音声の劣化
→GMMとHNM(高調波プラス雑音モデル)を組み合わせ
VTLNによる周波数ワーピング、人工ニューラルネットワーク
音声モーフィングブロック図
音声モーフィングの基本構成
◦Training stage
◦Transformation stage
Training stage
・矩形窓関数で音声信号分析
・LPCでSP特徴抽出
・DTW
Transformation stage
・得られた元話者のパラメータに変換
規則を適用
Training stage Transformation stage
正準相関分析
◆正準相関分析(CCA: Canonical Correlation Analysis)
・マルチモーダルデータに対する古典的解析手法
◇この論文でしたいこと
CCAを用いて異なる話者によるスペクトルの相関をモデル化
スペクトルディスクリプタ(情報の核となる要素)を解析
→スペクトルの詳細はそのままに良質なモーフィングが可能に
2.Spectral conversion
補足:CCA (正準相関分析) 問題設定
基本的なCCA
Input:
𝑋 = 𝑥𝑛 ∈ ℝ𝐷𝑥×𝑁, 𝑌 = (𝑦𝑛) ∈ ℝ𝐷𝑦×𝑁
𝑁: データ数、𝐷𝑥, 𝐷𝑦:データの次元数. 簡単のため
1
𝑁 𝑛 𝑥𝑛 =
1
𝑁 𝑛 𝑦𝑛 = 0
Task:
𝒃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝒂𝑇
𝑆𝑥𝑦𝒃 𝑠. 𝑡. 𝒂𝑇
𝑆𝑥𝑥𝒂 = 𝒃𝑇
𝑆𝑦𝑦𝒃 = 1
𝑆𝑥𝑥 =
1
𝑁
𝑋𝑋𝑇
, 𝑆𝑦𝑦 =
1
𝑁
𝑌𝑌𝑇
, 𝑆𝑥𝑦 =
1
𝑁
𝑋𝑌𝑇
補足:CCA (正準相関分析) 解法
[解]
行列𝑆𝑎, 𝑆𝑏の最大の固有値に対応する固有ベクトルが求めるべ
き線形変換𝒂, 𝒃となる
𝑆𝑎𝒂 = 𝜆𝑎𝒂
𝑆𝑏𝒃 = 𝜆𝑏𝒃
𝑆𝑎 = 𝑆𝑥𝑥
−1
𝑆𝑥𝑦𝑆𝑦𝑦
−1
𝑆𝑦𝑥, 𝑆𝑏 = 𝑆𝑦𝑦
−1
𝑆𝑦𝑥𝑆𝑥𝑥
−1
𝑆𝑥𝑦
モデル推定
線形変換𝑊
𝑥, 𝑊
𝑦を用いると、二話者の信号𝑥, 𝑦は
𝑏𝑥 = 𝑊
𝑥
𝑇
𝑥, 𝑏𝑦 = 𝑊
𝑦
𝑇
𝑦
𝑏𝑥と𝑏𝑦の相関係数は
𝑟 =
𝑐𝑜𝑣(𝑏𝑥, 𝑏𝑦)
(𝑣𝑎𝑟(𝑏𝑥)) (𝑣𝑎𝑟(𝑏𝑦))
共分散行列𝐶𝑥𝑦, 𝐶𝑥𝑥, 𝐶𝑦𝑦を用いると
𝑟 =
𝑊
𝑥
𝑇𝐶𝑥𝑦𝑊
𝑦
𝑊
𝑥
𝑇
𝐶𝑥𝑥𝑊
𝑥 𝑊
𝑦
𝑇
𝐶𝑦𝑦𝑊
𝑦
よって𝑟が最大となる𝑊
𝑥, 𝑊
𝑦を求める
マッピング関数学習
元話者と目標話者のスペクトルから算出したLSF
𝑥 = 𝑥1, 𝑥2, … 𝑥𝑛 , 𝑦 = 𝑦1, 𝑦2 … 𝑦𝑛
𝑥と𝑦からそれぞれの平均を引いて0にセンタリングする
GMMを用いてガウス分布の重ね合わせで表す
𝑃 𝑧 =
𝑖=1
𝑀
𝑎𝑖𝑁(𝑧, 𝜇𝑖, 𝐶𝑖)
𝑧は二次元特徴ベクトル,𝑁はガウス密度成分
Σ𝑖=1
𝑀
𝑎𝑖 = 1
EMアルゴリズムを用いてガウスパラメータを求める
マッピング関数学習
次にCCAを用いて各成分のベクトル間の線形関係を推定
得られた直行線形結合は正準相関として表せる
𝑏𝑦,𝑗 = 𝑟
𝑗𝑏𝑥,𝑗 for j = 1,2,3 …
逆変換によって𝑠𝑜𝑢𝑟𝑐𝑒 𝑥は𝑡𝑎𝑟𝑔𝑒𝑡 𝑦に
𝑊
𝑦
𝑇
𝑦 − 𝜇𝑖𝑦 = 𝐷 𝑟𝑖 𝑊
𝑥
𝑇
𝑥 − 𝜇𝑖𝑥
𝐷 𝑟𝑖 は体角行列、𝑊
𝑥, 𝑊
𝑦は固有ベクトル
𝑦 = 𝜇𝑖𝑦 + 𝑊
𝑦𝐷 𝑟𝑖 𝑊
𝑥
𝑇
𝑥 − 𝜇𝑖𝑥
ポストフィルタ
変換後のスペクトル平滑化によりスペクトル詳細が抑制されてし
まうため、平滑化の影響を軽減するためポストフィルタをかける
極ゼロ点フィルタ
𝐻 𝑧 =
𝐴
𝑧
𝛼
𝐴
𝑧
𝛽
𝐴 𝑧 はLPCのフィルタ係数、𝛼 = 0.95 𝛽 = 0.35
3. Prosody conversion
韻律変換
◆韻律変換
主にピッチとテンポ(duration)の変換を行う
Reply rateを一定に保ちながらピッチのシフトを行う
◆PSOLA (ピッチ同期重畳加算)
時間領域で基本周波数に注目して拡張・伸縮する
基本周期の二倍の窓幅で信号を切り出し、重ね合わせなどを行う
4.Evaluation experiments
使用データセット
◆CMU ARCTICデータセット
・7人の話者による1132の発話
・サンプリング周波数16kHz
・量子化ビット数16bit
・静かな環境で録音したもの
◦使用音声
男性話者2名、女性話者2名による50の発話
実験結果 波形
Source : Male ,Target : Female
“it was curious coincidence”
という発話に対する変換
エネルギー分布と波形の概形は
変換できている
実験結果 スペクトル
スペクトル包絡の詳細は保持したまま変換できている
主観評価 個人性
被験者は20名
◦ABXテスト
AとBはSource と Target 音声、Xは変換音声
被験者はAとBどちらがXに近いか評価
Targetの性別に判断されたものを成功とみなしてパーセンテージを計算
個人性評価 音質
◦MOS
音質を1~5で評価
音質は返還前に比べるとわずかに減少している
Conclusion
まとめ
◦話者の個人性に関する特徴量のモーフィングを行った
・CCAを用いてスペクトルの変換を行った
・二話者の相関が高くなる線形変換が選択される
・韻律変換は時間領域でピッチシフトすることで行われた
◦結果としては、性別の変換はできている
◦正確な韻律の変換は行えていなかった
今後の課題
1.モーフィング音声の音質の改善
2.本アルゴリズムをテキスト独立の話者変換へ拡張

More Related Content

More from Natsumi KOBAYASHI

More from Natsumi KOBAYASHI (13)

seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
 
seminar-paper_diarization.pptx
seminar-paper_diarization.pptxseminar-paper_diarization.pptx
seminar-paper_diarization.pptx
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
 

seminar-paper_VMusingCCA.pptx