GMMに基づく固有声変換のための
変調スペクトル制約付き
トラジェクトリ学習・適応
○高道 慎之介 (東大院・情報理工)
中村 哲 (奈良先端大)
日本音響学会 2017年 春季研究発表会
1-6-9
/15
あらすじ
 音声翻訳に向けた音声変換の利用
– 低遅延変換・発話内容非依存・高音質な音声変換が必要
 従来法:GMM固有声変換 [Toda et al., 2006.]
– 利点:発話内容非依存のモデル適応・低遅延音声変換
– 欠点:合成音声の低い音質
 関連研究:GMM音声変換における変調スペクトル (MS) 制約
付きトラジェクトリ学習 [Takamichi et al., 2015.]
– MS補償により,通常のGMM音声変換の合成音声を高品質化
 提案法:GMM固有声変換のためのMS制約付きトラジェクトリ
学習・適応アルゴリズム
– MS制約付き学習を適応アルゴリズムに拡張
– 従来のGMM固有声変換の利点を保ちつつ,高品質化
2
/15
GMM音声変換
3
[Toda et al., 2007.]
Source feats.
Target feats.
𝒚
𝒙
𝑾
𝑡: frame index
Delta
calculation
Delta
calculation
𝑿 𝑡
𝒀 𝑡
GMM 𝛌
静的・動的特徴量に対する尤度を最大化するように
GMMパラメータ(重み,平均,共分散)を学習
/15
一対多固有声変換(特定話者から
任意話者への変換)の学習
4
Source
speaker
𝒚(1)
𝒙
𝑾
Delta
Delta
1st
target
2nd
s-th
Delta
Delta
𝑿 𝑡
𝒀 𝑡
𝝁(𝑠) = argmax 𝑃 𝑾𝒚(𝑠), 𝑾𝒙|𝝀(𝑠) = argmax 𝑃 𝒀 𝑡
𝑠
, 𝑾𝒙|𝝀(𝑠)
𝑡
GMM 𝛌 1 GMM 𝛌 2 GMM 𝛌 𝑠
各時間で独立 -> 時間遷移を無視
𝒀1
𝑠
⋯ 𝒀 𝑇
𝑠 𝝁(𝑠) Mean vec.
/15
固有声GMMの構築
(スーパーベクトルに対して主成分分析)
5
𝑿 𝑡
𝒀 𝑡
𝝎ev
𝝁(𝑠)
= 𝑩𝝎ev + 𝒃
固有声重み(GMMパラメータを低次元のベクトルで表現)
固有声GMM 𝝀ev
/15
固有声重み推定による教師なし話者適応
6
𝑿 𝑡
𝒀 𝑡
𝝎ev
new
speaker
𝒚 𝑛
𝑾
𝝎ev = argmax 𝑃 𝑾𝒚(𝑛)
|𝝀ev , 𝝎ev = argmax 𝑃 𝒀 𝑡
n
|𝝀ev , 𝝎ev
𝑡
各時間で独立 -> 時間遷移を無視
Delta
提案法
変調スペクトル制約付きトラジェクトリ学習・適応
7
/15
トラジェクトリモデルと変調スペクトル
8
[Zen et al., 2007.][Takamichi et al., 2015.][Takamichi et al., 2016.]
 トラジェクトリモデル (単一分布近似・周辺化GMMに対して)
– 動的特徴量の行列 𝑾 を制約とした確率密度関数
– パラメータの時間遷移を考慮するモデル
 変調スペクトル (MS) … パラメータの振動を表す特徴量
– 音声パラメータ系列 𝒚 のパワースペクトル 𝒔 𝒚
– 変調スペクトルの復元 → 合成音声の音質改善
𝑃 𝑾𝒚|𝝀 = 𝑃 𝒀 𝑡|𝝀
𝑡
𝑃 𝒚|𝑾, 𝝀
𝑾
Delta
𝒚 𝒔 𝒚MS
Fourier transform
& pow.
/15
変調スペクトル制約付き
トラジェクトリ学習
9
𝝁 s
= argmax 𝑁 𝒚(𝑠)
; 𝑨𝝁(𝑠)
, 𝜮 ⋅ 𝑁 𝒔 𝒚(𝑠)
; 𝒔 𝑨𝝁 𝑠
, 𝜮ms
𝜔ms
時間遷移を考慮 変調スペクトルを復元
Source
speaker
𝒚(1)
𝒙
𝑾
Delta
Delta
1st
target
2nd
s-th
Delta
𝑿 𝑡
𝒀 𝑡
GMM 𝛌 1 GMM 𝛌 2 GMM 𝛌 𝑠
𝝁(𝑠)Delta
MS
𝑨:𝑾を含む行列, 𝜮:共分散行列
/15
変調スペクトル制約付き
トラジェクトリ適応
10
𝝎ev = argmax 𝑁 𝒚(𝑛)
; 𝑨 𝑩𝝎ev + 𝒃 , 𝜮 ⋅ 𝑁 𝒔 𝒚(𝑛)
; 𝒔 𝑨 𝑩𝝎ev + 𝒃 , 𝜮ms
𝜔ms
時間遷移を考慮 変調スペクトルを復元
𝑿 𝑡
𝒀 𝑡
𝝎ev
new
speaker
𝒚 𝑛
Delta
MS
𝑨:𝑾を含む行列, 𝜮:共分散行列
𝑾
/15
考察
 提案法の効果
– MS制約付きトラジェクトリ学習・適応でパラメータを更新
– → 短遅延生成・言語非依存適応を可能にしつつ高品質化
 整合性のとれた学習・適応基準
– 学習と適応で異なる基準を使うと,音質が極端に低下
– (例えば,従来学習&MS制約付きトラジェクトリ適応)
11
実験的評価
英日間クロスリンガル音声変換
(英語音声の声色を日本語音声の声色に変換)
12
/15
実験条件
13
音響モデル 256混合 固有声GMM
学習話者 (source / target) VCTKコーパス (英語) 女性 1名 / 55名
適応話者・適応文数 ATR音素バランス (日本語) 女性 5名
Aセット20文からランダムに1文を選択
評価データ VCTKコーパスから 30文
話者適応学習及びMAP推定 なし
評価対象 Basic:従来の学習・適応
TRJ:トラジェクトリ学習・適応
MSTRJ:MS制約付きトラジェクトリ学習・
適応
評価法 音質に関するABテスト
話者性に関するXABテスト (Xは日本語音声)
* トラジェクトリ学習・適応: 提案法から
変調スペクトル (MS) に関する項を除いたアルゴリズム
/15
評価結果
14
Basic TRJ MSTRJ
1.0
0.8
0.6
0.4
0.2
0.0
Preferencescore
Basic TRJ MSTRJ
1.0
0.8
0.6
0.4
0.2
0.0
Preferencescore
Speech quality Speaker similarity
提案アルゴリズムによる品質改善を確認
/15
まとめ
 従来法:GMM固有声変換
– 低遅延音声変換
– 発話内容非依存適応
 提案法:MS制約付きトラジェクトリ学習・適応
– トラジェクトリモデル(時間制約)と変調スペクトルを考慮
 実験結果:
– 従来の利点を保ちつつ,変換音声を高品質化
 今後の予定:
– 適応データ量の調査
15

GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応