SlideShare a Scribd company logo
1 of 28
High quality voice morphing(2004)
論文情報
 “High quality voice morphing“(2004)
 著者 Hui Ye & Steve Young (University of Cambridge)
 ICASSP
 ※本論文では、基本周波数の意味でピッチという言葉を用いているが、
そのままの表記で説明する
目次
 1.Introduction
 2.Baseline system
 3.System enhancement (拡張機能)
 4.Evaluation (評価)
 5.Conclusion
0.はじめに(1/2)
 音声モーフィングとは…
・元話者の音声を、指定された目標話者によって話された
かのように変更する技術
代表的な音声モーフィングのアプローチ
・スペクトル包絡とピッチスケーリングを線形変換し、
韻律を編集する
0.はじめに(2/2)
 音声モーフィングで生じる問題
 声門結合・位相非干渉性・不自然な位相分散・
無声音の高スペクトル分散
◎実用的なシステムではこれらを考慮する必要がある
本論文では、
これらをクリアする手法の提案と評価を行っている
1.Introduction(1/4)
 音声モーフィングの目的
メッセージや話者とは無関係に話者の個人性を制御すること
 個人性はどう決まるか?
平均ピッチ、フォルマント構造、声道の特性 など
スペクトル包絡の全体的な形状
1.Introduction(2/4)
へのアプローチ
コードブックマッピング/線形変換/
正弦波音声モデルを用いた補間線形変換 など
スペクトル包絡の全体的な形状
評価を行ったところ、雑音が入り込む可能性を発見
1.Introduction(3/4)
 音声モーフィングのシステムを構築する際の3つのステップ
①音声信号を分解して再生成するためのモデルの作成
②話者の個人性をエンコードするモデルの作成
③変換関数をトレーニング及び適応する方法の決定
1.Introduction(4/4)
<論文の流れ>
問題の解決策を提示
→拡張システムのパフォーマンスをベースラインと比較
セクション2 ベースラインシステムのフレームワークについて簡単に説明
セクション3 さまざまな問題と対応する解決策を提示
セクション4 評価
セクション5 全体的な結論を提示
2.Baseline system(1/3)
 正弦波モデルを用いて音声信号の表現と修正を行う
 原則としてこのモデルは
・重大なアーティファクト(雑音等)を誘発しない
・ソース信号の韻律とスペクトル特性の変更を行える
→実際には位相の非干渉性によって変換品質低下の可能性あり
これを解決するためには…
2.Baseline system(2/3)
 全ての音声フレームのピッチ開始時刻を推定する
→小さい音声のとき精度がかなり低い
→その誤差によって大幅に歪みが生じる可能性
[解決法]修正のための各音声フレームを単一のピッ
チ周期とし、ピッチ同期正弦波モデルを用いる
2.Baseline system(3/3)
 線スペクトル周波数(LSF)
スペクトルエンベロープを表すために使用
 [LSFを用いる利点]
・ケプストラム係数や3次スプライン補間を使用した離散線ス
ペクトルなどと比較すると、フォルマント構造を効率的に描
くために必要な係数が少なく、補間特性が優れている
3.System enhancement
 前章で述べた方法では、アーティファクトが含まれる
 これらについて説明し、それらを軽減する方法について説
明する
3.1 Residual Selection(残差選択)
 線形変換を用いたスペクトル変換
変換中包絡表現の次元を下げた
→スペクトルの詳細が失われた
最小二乗誤差推定の平均化
→スペクトルピークの広がり
結果としてこもったような
音声になる
3.1 Residual Selection(残差選択)
 失われたスペクトルを変換後の包絡に足せばよい
 残差選択
トレーニングデータより抽出されたデータベースから残差を選択
残差コードブック法を改良したものを用いる
3.1 Residual Selection(残差選択)
 スペクトル残差の対数振幅スペクトル
𝑟𝑡 = 20𝑙𝑜𝑔10𝐻(𝑡)𝑠𝑖𝑛 − 20𝑙𝑜𝑔10𝐻(𝑡)𝑒𝑛𝑣
𝐻(𝑡)𝑠𝑖𝑛…音声フレームtの正弦波成分の振幅
𝐻(𝑡)𝑒𝑛𝑣…LSF係数で表されるスペクトルエンベロープ
𝑣𝑡 = [𝑓1, 𝑓2, ・・・, 𝑓𝑑, ∆𝑓1, ∆𝑓2, ・・・, ∆𝑓𝑑]′
𝑓𝑖…LSF
∆𝑓𝑖…LSF t-1とtの差
3.1 Residual Selection(残差選択)
残差選択の基準は、以下の式が最小となる残差𝑣𝑘を選ぶ
𝜀 = (𝑣𝑘−𝑣)′・(𝑣𝑘 − 𝑣)
𝑣 …変換されたスペクトルエンベロープに関連付けられたスペクトルベクトル
3.1 Residual Selection(残差選択)
残差選択あり 残差選択なし
3.2 Phase Prediction(位相予測)
 スペクトルと位相は相関がある
 →スペクトルの振幅のみを変更すると品質が低下
 振幅と位相両方を同時に変換するモデル …実現が困難
 位相分散では、実際の波形を決定するので、この波形より
振幅と位相を推測 →GMMモデル
3.3 Transforming Unvoiced Sounds
 無声音には声道情報がない
 有声音と同じ処理をすると劣化が生じる
 目標話者のものをそのまま元話者にコピーする
 …後ろでだれかささやいているような音声に
3.3 Transforming Unvoiced Sounds
・GMMモデルで無声ターゲット音声フレームのLSF係数スペクトルでトレーニング
・各GMMラベルに関連付けられた無声音声フレームがデータベースにまとめられる
元話者の連続する無声音声フレームを変換する場合
①GMMモデルを使用してラベル付け
②ラベルに従って、元の目標話者データベースから目標話者無声フレームを選択
◎この方法ではささやき声のアーティファクトは解決するが、
不連続性が問題として残る
3.4. Post-filtering
 変換ベースの音声変換システムは合成音声のフォルマント
を広げる傾向がある
 この影響を軽減するために、知覚フィルターを用いる
𝐻 𝜔 =
𝐴(𝑧/𝛽)
𝐴(𝑧/𝛾)
, 0 < 𝛾 < 𝛽 ≤ 1
𝐴(𝑧)…LPCフィルタ
𝛾=0.94 𝛽=1.0 を用いた
4. Evaluation(評価)
 主観品質をテストするために聴取実験を実施し評価した
 評価点 元話者音声/オーディオ品質
 評価法 ABX法(男性女性ランダムの合成音声について評価)
プリファレンステスト
 被験者 23名
4. Evaluation(評価)
 結果①
元話者より目標話者に近いと回答された割合
4. Evaluation(評価)
 結果②
どちらのほうが音質がよいか?と質問
5. CONCLUSION
◎補間線形変換を用いたスペクトル包絡の変換
残差選択、位相予測、無声音の変換
◎客観的,主観的にこれらの解決策が基準策より優れている
◎電話音声のような中程度の忠実度を必要とする商用アプリ
ケーションでは、品質は十分である
質疑
正弦波モデル
 音声や楽音などの音響信号を表現するモデル
 正弦波モデルは音響信号 を振幅と周波数が時間変化する正弦波成分の和として
近 似するもので,McAuley らはスペクトルピークに基づ いた正弦波成分のパ
ラメータ推定法を提案し,高品質な 音声合成が可能であることを示した .
 これは正弦波 モデルが音響信号を非常に良く表現するモデルであると いう証
拠である.

More Related Content

More from Natsumi KOBAYASHI

More from Natsumi KOBAYASHI (18)

音声分析合成[5].pptx
音声分析合成[5].pptx音声分析合成[5].pptx
音声分析合成[5].pptx
 
音声分析合成[4].pptx
音声分析合成[4].pptx音声分析合成[4].pptx
音声分析合成[4].pptx
 
音声分析合成[3].pptx
音声分析合成[3].pptx音声分析合成[3].pptx
音声分析合成[3].pptx
 
音声分析合成[2].pptx
音声分析合成[2].pptx音声分析合成[2].pptx
音声分析合成[2].pptx
 
音声分析合成[1].pptx
音声分析合成[1].pptx音声分析合成[1].pptx
音声分析合成[1].pptx
 
seminar-text_3.pptx
seminar-text_3.pptxseminar-text_3.pptx
seminar-text_3.pptx
 
seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
 
seminar-paper_diarization.pptx
seminar-paper_diarization.pptxseminar-paper_diarization.pptx
seminar-paper_diarization.pptx
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
 

論文紹介Morphing-hui.pptx