変調スペクトルを考慮したHMM音声合成

日本音響学会 2013年秋季研究発表会
２－７－１０

変調スペクトルを考慮したHMM音声合成

高道慎之介戸田智基
Graham Neubig Sakriani Sakti 中村哲（奈良先端大）

2013©Shinnosuke TAKAMICHI AHC-Lab, IS, NAIST
09/26/2013

発表概要
 問題： HMM音声合成 [Zen et al., 2009.] の音質劣化
– HMMの平滑化処理により発生
– 平滑化の影響を定量的に表現する特徴量とは？

 平滑化を表現する特徴量とは？：
– パラメータ系列の分散 (GV: Global Variance) [Toda et al., 2007.]
– 系列の変調スペクトル (MS: Modulation Spectrum)を本発表で導入

 提案法：変調スペクトルを補償するポストフィルタ
– 生成パラメータ系列に対して、事前学習したフィルタを適用

HMM音声合成およびGVと比較して、合成音声の音質を改善
2/15

HMM音声合成の枠組み
[Zen et al., 2009.]

自然音声のパラメータ系列
freq

Time

HMM学習

HMM
パラメータ
生成
freq

Time

合成音声のパラメータ系列

ある次元のパラメータ系列を見てみると・・・？
3/15

4th mel-cepstral coefficient

自然/合成音声のパラメータ系列

Natural speech

HMM [Zen et al., 2009.]
HMM+GV [Toda et al., 2007.]

Time
自然/合成音声のパラメータ系列の違いとは？
4/15

変調スペクトル（MS: Modulation Spectrum）

離散フーリエ変換 &
対数振幅の計算

変調スペクトル
（MS）

 変調スペクトルを、パラメータ系列の対数振幅スペクトルと定義
– 系列の周波数変動を表現するパラメータ
– 先行研究における有効性
• 音声知覚におけるスペクトルキュー [Rob et al., 1993.]
• HMMによる音声認識技術の精度向上 [Sriram et al., 2009.]
– 本研究では、系列毎に変調スペクトルを計算
5/15

Modulation spectrum (MS)

自然/合成音声のパラメータ系列のMS

“Natural speech”のMS
“HMM”のMS

“HMM+GV”のMS

Modulation frequency
変調スペクトルの直接補償により、音質改善が期待
6/15

提案法の処理手順
学習部
学習

MS

自然音声

確率密度関数
確率密度
関数を推定

MSを
計算
生成

生成部

MS
MSを
計算

生成

ポスト
フィルタ
位相を
計算

フィルタ後のMS

位相
8/15

MS of d-th parameter
sequence Sd(m)

学習部： MSの確率密度関数を推定

“Natural speech”のMSの
確率密度関数 N sd m   d( Nm) ,  d( Nm) 
,
,

“HMM”のMSの
確率密度関数



(
(
N sd m   dGm) ,  dGm)
,
,



Modulation frequency m
自然/合成音声のパラメータ系列のMSを正規分布でモデル化
9/15

MS of d-th parameter
sequence Sd(m)

生成部：生成パラメータのMSを線形変換




(
(
N sd m   d Nm) ,  d Nm)
,
,



変換

“HMM”のMS



(
(
N sd m   dGm) ,  dGm)
,
,



Modulation frequency m
(
 d Nm)
(G )
( N) 
,
s 'd m   1  k sd m   k 
s m    d ,m   d ,m 
(
 dGm) d
,








フィルタ強度係数 “HMM”のMS

10/15

4th mel-cepstral coefficient

自然音声、従来法/提案法のパラメータ系列

HMM+MS：”HMM”に
フィルタリング

Natural speech

HMM [Zen et al., 2009.]
HMM+GV [Toda et al., 2007.]

Time

11/15

実験条件
 評価：
– 適切なフィルタ強度係数の決定（客観評価）
– 音質改善効果の確認（主観評価）

 手法：
–
–
–
–

“HMM”： HMM音声合成 [Zen et al., 2009.]
“HMM+MS”： “HMM”に提案法を適用
“HMM+GV”： GVを考慮 [Toda et al., 2007.]
“HMM+GV+MS”： “HMM+GV”に提案法を適用

実験条件
学習データ

ATR音素バランス文450文、女性

テストデータ

同53文

スペクトルパラメータ

0～24次のメルケプストラム（提案法を適用）

音源パラメータ

対数F0、5周波数帯域の非周期成分

MSのFFT長

4096 （全データの系列の長さを超える値） 12/15

客観評価：適切なフィルタ強度係数
ポストフィルタ後のパラメータ系列のHMM・GV・MS尤度を計算
90
85
80
75

HMM+GV+MS

70
65
60

Log MS likelihood (x0.001)

100

HMM+MS

Log GV likelihood

Log HMM likelihood

95

50
0
-50
-100

Natural speech

55

-150

-2
-4
-6
-8

-10
-12
-14
-16

0 0.25 0.5 0.75 1

0 0.250.5 0.75 1

0 0.25 0.5 0.75 1

Filter coefficient

Filter coefficient

Filter coefficient

主観評価に用いるフィルタ強度係数を0.85に決定

13/15

Preference score for speech quality

主観評価：音質改善効果
７人に対するプリファレンステストを実施
1
0.8
0.6
0.4

0.2
0

HMM

HMM+MS

HMM+GV

HMM+GV+MS

提案法による音質改善を確認

14/15

まとめ
 目的
– HMM音声合成による合成音声の音質改善

 変調スペクトル（MS）を考慮した提案法
– 合成音声のMSは、自然音声のMSと比較して大きく劣化
– MSを補償するポストフィルタを提案

 評価結果
– 従来法と比較して音質改善を確認

 今後の予定
– HMM尤度・GV尤度・MS尤度を考慮したパラメータ生成法

15/15

HMM

HMM+MS

HMM+GV HMM+GV+MS

16/15

変調スペクトルを考慮したHMM音声合成

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (9)

More from 奈良先端大情報科学研究科

More from 奈良先端大情報科学研究科 (20)

Recently uploaded

Recently uploaded (7)