SlideShare a Scribd company logo
日本音響学会 編 音響テクノロジーシリーズ22
音声分析合成
[4]
本の紹介
 日本音響学会 編 音響テクノロジーシリーズ22
音声分析合成 森勢 将雅 著
発表計画
1.基礎知識 スライド発表はしない
2.音声のパラメータ表現 ① 第一回で説明
3.基本周波数の推定 ② 第二回で説明
4.スペクトル包絡の推定 ③ 第三回で説明
5.非周期性指標の推定 ④←今回説明
6.高精度に計算するコツ ⑤ 第5回
7.音声の加工技術 ⑥ 〃
8.音声品質の主観評価方法 ⑦ 〃
先週の補足
 STRAIGHTとTANDEM-STRAIGHT
二つの窓関数により得られたパワースペクトルを加算して時間変動成分を
取り除くこと、その後に平滑化を行うことで基本周波数の整数倍の値を正
確に保持するスペクトル包絡を得ることができる
 Cheap Trick
一つの窓関数を用いて時間変動の除去と平滑化を行う
WORLDで用いられるアルゴリズム
第5章 非周期性指標の推定
はじめに
 非周期性指標はスペクトル包絡や基本周波数に比べて
品質に与える影響は相対的に小さい
 ボコーダ特有なbuzzyな音色は問題視される
[非周期性指標推定の目標]
 概形が観察できる程度でよい
5.1 前提となる考え方
5.1.1 雑音が重畳された音声の定義
 ソースとフィルタの畳み込みで得られる信号に雑音𝑛 𝑡 が
重畳されている形で定義
𝑦 𝑡 = ℎ 𝑡 ∗ 𝑥 𝑡 + 𝑛 𝑡
𝑌 𝜔 = 𝐻 𝜔 𝑋 𝜔 + 𝑁(𝜔)
 𝑛 𝑡 は振幅の平均値が0、𝑁(𝜔)は雑音スペクトル
 ホワイトノイズのようなフラットな雑音に限らない
𝐻 𝜔 𝑋 𝜔 と𝑁(𝜔)の比を求めることが目的
5.1.2 HNR(harmonics-to-noise ratio)
 音声中の非周期的な成分を説明する指標
 音声分析合成が目的の手法ではない
 嗄声(させい,かすれた声やしゃがれた声)の程度を表す指標
 ℎ 𝑡 ∗ 𝑥 𝑡 のパワーを𝐻, 𝑛 𝑡 のパワーを𝑁 →
𝐻
𝑁
がHNRとなる
 スペクトル形状ではないため、角周波数に対して推定を行
いたい
5.1.3 非周期性指標推定の目標
 非周期性成分はホワイトノイズにフィルタが畳み込まれる
ことで音色付けされた波形と考える
 𝑛 𝑡 = 𝑛𝑤 𝑡 ∗ ℎ(𝑡)
 𝑛𝑤 𝑡 … ホワイトノイズ ℎ(𝑡)…音色付けするフィルタ
 ℎ(𝑡)の周波数分解能は高くなくて良く、フルバンドで5帯
域に分割すれば十分な品質が得られる
求めたい
5.2 STRAIGHTで用いる推定法
はじめに
 STRAIGHTで採用しているのはパワースペクトルに着
目した方法
 スペクトル包絡推定同様バージョンごとに進化して
いる
 軽微な調整については割愛している
5.2.1 基本的な考え方(1/2)
 基本周波数100Hzのパルス列と相対的に20dB小さいホワイ
トノイズのパワースペクトル
窓関数のメインローブ幅
を𝜔0/2以下にすれば調波
間の干渉は生じない
調波間におけるパワーは0になる
0でなければ雑音に起因するパワー
5.2.1 基本的な考え方(2/2)
 スペクトルにおけるパワーの算出法
周期性成分のパワー ⇒ 𝜔0の整数倍
非周期性成分のパワー ⇒ 調波間のパワー
 各周波数の周期性成分と非周期性成分のパワーの比を
非周期性指標として推定
・基本周波数が時間に対して不変であることが前提
・前処理として時間軸の非線形伸縮を行う
それぞれ包絡を求める
5.2.2 時間軸の非線形伸縮(1/2)
目的 全時刻における基本周波数を均一にすること
基本周波数軌跡𝑓0 𝑡 から𝜙 𝑡 を計算
𝜙 𝑡 = 2𝜋
0
𝑡
𝑓0 𝜏 𝑑𝜏
 𝜙 𝑡 は時刻𝑡に対する位相の回転量
 信号長を𝐿とすると最終的な位相回転角度𝜙 𝐿
 位相回転角度を時刻とみなした非線形軸上の波形𝑦(𝜙(𝑡))について、0
~𝜙 𝐿 を2𝜋𝑓0/𝑓𝑠ごとに標本化しなおせば基本周波数を𝑓に統一できる
5.2.2 時間軸の非線形伸縮(2/2)
 STRAIGHTの細かい仕様
・STRAIGHTでは基本周波数40Hzに合せるよう伸縮を行う
・無声区間は基本周波数が存在しないため、有声区間における基本周波数
の平均値を採用
・全部無声音の場合は全ての時刻において180Hzが使用される
など工夫されている
5.2.3 非周期性指標推定
[1]窓関数の設計と平滑化パワースペクトルの算出(1/2)
 5.1で示した窓関数の条件を満足するものは多数存在する
(例えば、窓長が4𝑇0のハニング窓)
 STRAIGHTではガウス窓と三角窓を畳み込んだ独自の窓を使用
𝓌 𝑡 = 𝑒−𝜋(20𝑡)2
∗ ℎ 20𝑡
ℎ 𝑡 =
1 − 𝑡 𝑖𝑓 𝑡 < 1
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
 この窓関数で切り出された波形から得られたパワースペクトルの
離散表現を𝑃(𝑘)とする
5.2.3 非周期性指標推定
[1]窓関数の設計と平滑化パワースペクトルの算出(2/2)
 平滑化した離散パワースペクトル𝑃
𝑠 𝑘
𝑃𝑠(𝑘)=
𝑃 𝑘−1 +2𝑃 𝑘 +𝑃(𝑘+1)
4
 シグモイド関数を用いてさらに平滑化
𝑃𝑚 𝑘 = 20
ℱ−1[ℱ log 𝑃𝑠 𝑘 𝑙 𝑛 ]
log(10)
𝑙 𝑛 =
1
1 + exp(
1000𝑛
𝑓𝑠
− 35)
5.2.3 非周期性指標推定
[2]対数パワースペクトルにおけるピークとディップの検出
 男性の母音/a/に対してピーク・ディップ検出を行った結果
 基本周波数を40Hzになるよう伸縮しているため、フォルマントが低い
周波数で出ている
5.2.3 非周期性指標推定
[3]二つの包絡の検出
 ピークとディップをそれぞれ補間する
 各周波数における周期成分と非周期成分の対数軸上の差が非周期性指
標となる
5.3 TANDEM-STRAIGHTで用いる推定法
5.3.1 基本的な考え方
 STRAIGHTのAP推定
パワースペクトルの調波構造に着目して非周期性成分に起因する包絡を求
める
 TANDEM-STRAIGHTのAP推定
パワースペクトルは用いず、時間波形の周期性に着目し非周期性指標を推
定する
 最初の基本周波数を統一する処理は一緒
5.3.1 基本的な考え方
 TANDEM-STRAIGHTでは波形を用いるため、特定の帯域に着
目できない
 直交ミラーフィルタ(quadrature mirror filter;QMF)によっ
て帯域分割を行う
 TANDEM-STRAIGHTではカイザー窓を用いた窓関数法により
低域・高域通過フィルタを設計する
窓関数法:理想フィルタの特性から求めたインパルス応答h(t)に任意の関
数を乗ずることで目的とする周波数特性を近似する方法
5.3.2 非周期性指標推定
 [1]課題設定
 [2]特定チャネルの非周期性指標推定
 [3]最小二乗法による推定
 [4]スペクトル形状の非周期性指標推定
5.3.2 非周期性指標推定
[1]課題設定
TANDEM-STRAIGHTでは非周期性指標を「特定区間における音声波形全体
のパワーと非周期性成分のパワーの比率」で定義
𝐴𝑝 𝑚 =
𝑛=0
𝑁−1
𝑥𝑎
2(𝑛)
𝑛=0
𝑁−1
𝑥2
(𝑛)
𝑚はチャネル
このチャネルで推定された結果は𝑓𝑠/4𝑚[Hz]の非周期性指標となる
 𝑥𝑎 は𝑥の非周期成分。これを求めることが課題
5.3.2 非周期性指標推定
[2]特定チャネルの非周期性指標推定
 音声が完全な周期性を有して雑音がないと仮定すると
𝑥 𝑛 = 𝑥 𝑛 + 𝑇0 = 𝑥 𝑛 − 𝑇0
 前後の声帯振動の振幅の±1サンプルを利用し、合計6点の信号から
目的とする時刻の振幅を予測する
𝑥 𝑛 =
𝑚=−1
1
α𝑘𝑥 𝑛 + 𝑇0 + 𝑚 +
𝑚=−1
1
β𝑘𝑥 𝑛ー𝑇0 + 𝑚
 |𝑥 𝑛 − 𝑥 𝑛 |2が最小となるようにα𝑘, β𝑘を求める最小二乗法の考え方
で波形を推定する
 音声が周期性成分のみで構成されていれば、理論的な誤差は0となる
ため、求めるべき非周期成分𝑥𝑎 は𝑥 𝑛 − 𝑥 𝑛 で与えられる
5.3.2 非周期性指標推定
[4]スペクトル形状の非周期性指標推定
 得られた各中心周波数の非周期性指標から、非周期性指標のスペクトル
表現へと変換することで結果が得られる
 推定結果は、離散的な非周期性指標が推定されており、周波数の下限は
0Hzより高く、上限はナイキスト周波数の半分
→スペクトル表現を得るために、0Hzとナイキスト周波数における非周
期性指標を与える必要がある
 有声音のパワースペクトルは低域が強く、約ー6dBの傾斜があり高域が
相対的に低いことを利用し、0Hzにおける値を0に近い値にする
 ナイキスト周波数は線形補間の外挿より対応する
最後に
 テキストに非周期性指標の評価法は記載なし
→高精度を求める必要はないためそのせいかと思われる

More Related Content

More from Natsumi KOBAYASHI

seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
Natsumi KOBAYASHI
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
Natsumi KOBAYASHI
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
Natsumi KOBAYASHI
 
seminar-paper_diarization.pptx
seminar-paper_diarization.pptxseminar-paper_diarization.pptx
seminar-paper_diarization.pptx
Natsumi KOBAYASHI
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
Natsumi KOBAYASHI
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
Natsumi KOBAYASHI
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
Natsumi KOBAYASHI
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
Natsumi KOBAYASHI
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
Natsumi KOBAYASHI
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
Natsumi KOBAYASHI
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
Natsumi KOBAYASHI
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
Natsumi KOBAYASHI
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
Natsumi KOBAYASHI
 

More from Natsumi KOBAYASHI (14)

seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
 
seminar-paper_diarization.pptx
seminar-paper_diarization.pptxseminar-paper_diarization.pptx
seminar-paper_diarization.pptx
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
 

音声分析合成[4].pptx

Editor's Notes

  1. 雑音由来の成分がなくx(n+-t0)からx(n)を求められる→雑音があるので無理 2式をつかう