性別依存重回帰混合正規分布モデルに基づく差分スペクトル補正による歌声の知覚年齢制御法

2014年 9月
日本音響学会秋季研究発表会
音声B 3-7-4
性別依存重回帰混合正規分布モデルに基づく
差分スペクトル補正による
歌声の知覚年齢制御法
☆小林和弘，戸田智基，中野倫靖*，後藤真孝* ，
Graham Neubig，Sakriani Sakti，中村哲
2014©kazuhiro-k AHC-Lab, IS, NAIST
奈良先端大, *産総研

魅力的に歌うためには
DAISY BELL
韻律に対するスキル声質に対するスキル
音程を合わせる抑揚をつける声質を変える
リズムを合わせる
etc.
声質は歌手の身体的制約により制限
HARRY DACRE
真似て歌う
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
2
より魅力的に歌いたい
歌手の身体的制約を超えた歌唱表現の実現
etc.
魅力的に歌うために必要なスキル

身体的制約を超えた歌唱支援
統計的手法に基づく歌声声質変換
任意の入力歌手から任意の目標歌手への個人性変換
歌手の個人性を保持した知覚年齢に基づく声質制御
[Kobayashi et al., 2014]
過去現在未来
声質制御声質制御
低高
知覚年齢
3
[Doi et al., 2013]
様々な年代の歌手から知覚年齢変動成分を推定し特定歌手に適用
発表内容
知覚年齢制御範囲の拡大
変換歌声の自然性の向上

౉ജ⹤⠪䈱ㆬᛯ
修正重回帰混合正規分布モデル(MR-GMM)に基づく
․ቯ౉ജ⹤⠪GMM
ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM䉕ቇ⠌
個人性を保持した知覚年齢制御
੐೨෼㍳౉ജ⹤⠪ ㆡᔕ䊂䊷䉺 Ȝ(1)
⇣
c
P
ㆡᔕY (i)
GMM䈱ቇ⠌
• ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM修正MR-GMM
t ,Y (o)
t |(MR),w, ˆμ(Y )
– –
m
⌘
=
MX
↵mN
m=1
argmax (X ( ) ,Y | Ȝ)
N
T
s
t t
s S
s
t
P 1
Ȝ
入力歌手の特定モデル代表ベクトル差分知覚年齢スコア
ㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ

Y (i)
t
Y (o)
t
#
;

ˆμ(Y )
m
μ(Y )
m (o)
事前収録目標歌手特定モ䋶䋮ᨵエ䈭䊝䊂䊦᭴▽ᴺ䋺デル知覚年齢8
スコア
:
:
(1) X ੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪
#
,

⌃(Y Y )
m ⌃(YXY )
m
⌃(YXY )
m ⌃(Y Y )
m
X (2) Y
X (10) Y –
実験図Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
4
重回帰分析により知覚年齢変動を表す代表ベクトルをモデル化
1st
2nd
s-th
25歳
45歳
35歳
w(1)
w(2)
w(s)
:
:
:
:
X XȜ(2)
(2)
Ȝ(S )
X ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ
ㆬᛯ䊌䊤䊧䊦䊂䊷䉺
s S
SS Ȝ( ) argmax Ȝ
ㆡᔕGMMㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ
MR-GMM
差分知覚年齢スコアにより知覚年齢を制御
(!
出力平均ベクトルの表現形式を変更する．式(5) で
は，バイアスベクトルは全事前収録目標歌手の平均的
な声質を表現しており，代表ベクトルは知覚年齢の変
化に伴う平均ベクトルの変化を表す．これに対して，
次式の通り，バイアスベクトルを声質制御対象歌手の
平均ベクトルˆμ(Y )
m へと置き換える．
μ(Y )
m (o)
= ˆμY )
m + b(Y )
m Δw (6)
ここで，Δw は声質制御対象歌手の知覚年齢を変化さ
せる差分知覚年齢スコアである．これにより，全事前
収録目標歌手の平均的な声質を中心とした部分空間
ではなく，声質制御対象歌手の声質を中心とした部分
空間により，出力平均ベクトルが表現される．
4 実験的評価
4.1 実験条件
歌唱データとして，AIST ハミングデータベース：
ポピュラー音楽（RWC-MDB-P-2001) 日本語歌詞，
サビパート[5] を用いる．評価楽曲はNo.39 とする．
MR-GMM の学習において，参照歌手として実年齢
が20 代の女性1 名を用い，事前収録目標歌手として
KWV^MZML[QVOQVO^WQKM Fig. 1 指覚年齢
8ZMNMZMVKM[KWZMC
E
Fig. 4.2 1 に知する評価結スコアを表与した知覚の変化量を

従来法の問題点と提案する解決法
知覚年齢変換可能範囲が小さい
原因: 知覚年齢のモデル化精度が低い
性別の違いを考慮した変換モデルの構築
5
知覚年齢変換歌声の自然性の劣化
原因: Vocoderを用いた波形合成による品質劣化
差分スペクトル補正に基づく歌声声質変換の
変換枠組みを知覚年齢変換に適用[Kobayashi et al., 2014]

• ㆡᔕ䊂䊷䉺䈮ኻ䈜䉎ዕᐲ䈮ၮ䈨䈐䇮ૃ䈢ჿ⾰䉕ᜬ䈧੐೨෼㍳
ㆡᔕ䊂䊷䉺䈮ኻ䈜䉎ዕᐲ䈮ၮ䈨䈐䇮ૃ䈢ჿ⾰䉕ᜬ䈧੐೨෼㍳
性別依存MR-GMMの学習
੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪
話し声における知覚年齢に寄与する音響特徴量の調査
X (1) Y
ㆡᔕ䊂䊷䉺 Ȝ(1)
母音の平均フォルマント周波数に関する調査 [Linville et al., 2001]
【F1 F2
女性 (若い-老い) 著しく減少著しく減少
男性 (若い-老い) 著しく減少わずかに減少
歌声においても性別間で違いが存在する可能性
男女の違いを考慮し，異なる知覚年齢変換モデルを構築
੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪
Y
X (2) 事前収録Y
目標歌手（女性）
Y X (10)
– – Y
– 精度の高い知覚年齢変動を代表ベクトルによりモデル化可能
ㆡᔕ性別依存
MR-GMM
಴ജ⹤⠪
6
੐೨෼㍳౉ജ⹤⠪ X Xc
Ȝ(2)
X Ȝ(S )
ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ
• ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMMㆬᛯ䊌䊤䊧䊦䊂䊷䉺
SS Ȝ( ) argmax Ȝ
ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM䉕ቇ⠌
Y
Y
X (2)
X (S )
Ȝ(1)
Ȝ(2)
Ȝ(S )
ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ
ㆬᛯ䊌䊤䊧䊦䊂䊷䉺
N
s
s S
T
s
t t
t
SS P 1
Ȝ( ) argmax (X ( ) ,Y | Ȝ)
Ȝ
ㆡᔕGMM䈱ቇ⠌
性別依存
MR-GMM
事前収録目標歌手（男性）
学習学習

差分スペクトル補正に基づく知覚年齢変換
修正MR-GMMによる知覚年齢制御では分節的特徴のみを制御
基本周波数の分析と操作が不要
差分スペクトル補正に基づく歌声声質変換の枠組みを適用
入力特徴量と目標特徴量の差分を入力自然歌声に対し補正
Vocoderによる波形分析合成処理を回避することで自然性を向上
差分スペクトル補正に基づく知覚年齢変換
分析修正差分
MR-GMM
[Kobayashi et al., 2014]
7
自然歌声を直接補正に利用
スペクトル
特徴量
差分スペクトル
特徴量
入力自然歌声
補正
変換歌声

修正MR-GMMに変換行列 A を適用
ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩X (2)
X (S )
GMM䉕ቇ⠌
Y
Y
↵mN
差分特徴量系列
argmax (X ( ) ,Y | Ȝ)
,
αmN
%
μ(X)
↵mN
αmN

%
μ(X)
S )
ੱ䉕ㆬᛯ
– –
N
s
s S
T
P s
t 1
t
t
Ȝ
ㆡᔕGMM䈱ቇ⠌
䋶䋮ᨵエ䈭䊝䊂䊦᭴▽ᴺ䋺8
修正MR-GMM
修正差分MR-GMMの導出
8
量ベクトルに変換する行列である．
A =
!
I 0
−I I

この行列を式（1）に適用することで，入力特徴量クトルと差分特徴量ベクトルの結合確率密度をモル化する以下のGMM が導出される．
P (Xt,Dt|λ) 　
=
M#
m=1
$!
Xt
Dt

;
m
μ(D)
m

,
!
Σ(XX)
m Σ(XD)
m
Σ(DX)
m Σ(DD)
m
'
μ(D)
m = μ(Y )
m − μ(X)
m Σ(XD)
m = Σ(DX)
m
⊤ = Σ(XY )
m − Σ(XX)
m Σ(DD)
m = Σ(XX)
m + Σ(Y Y )
m − Σ(XY )
m − Σ(YX)
m このGMM に基づき，最尤系列変換法により静的分特徴量ベクトルを推定する．なお，本稿では，差スペクトル特徴量のGV については考慮しない．
4 実験的評価
実験条件
P
⇣
Y (i)
t ,Y (o)
(MR),t |w, μˆ(Y )
m
⌘
=
MX
m=1

Y (i)
t
Y (o)
t
#
;

ˆμ(Y )
m
ˆμ(Y )
m +b(Y )
m w
#
,

⌃(Y Y )
m ⌃(YXY )
m
⌃(YXY )
m ⌃(Y Y )
m
(!
量ベクトルに変換する行列である．
A =
!
I 0
−I I

(4)
この行列を式（1）に適用することで，入力特徴量ベ
クトルと差分特徴量ベクトルの結合確率密度をモデ
ル化する以下のGMM が導出される．
P (Xt,Dt|λ) 　
=
M#
m=1
$!
Xt
Dt

;
m
μ(D)
m

,
!
Σ(XX)
m Σ(XD)
m
Σ(DX)
m Σ(DD)
m
'
(5)
μ(D)
m = μ(Y )
m − μ(X)
m (6)
P
⇣
Y (i)
t ,Dt|(MR),w, μˆ(Y )
m
⌘
=
MX
m=1

Y (i)
t
Dt

;
ˆμ(Y )
m
b(Y )
m w
#
,

⌃(Y Y )
m ⌃(DY D)
m
⌃(DY D)
m ⌃(DD)
m
!
修正差分
MR-GMM 知覚年齢変動
修正差分MR-GMMは解析的に導出可能

実験環境
知覚年齢変換精度に関する評価
変換歌声の自然性に関するMOSによる評価
SVC (I): 性別非依存MR-GMM + 通常変換
SVC (D): 性別依存MR-GMM + 通常変換
DIFFSVC (D) : 性別依存MR-GMM + 差分変換
9
歌声データベースAISTハミングデータベース
サンプリング周波数16 kHz
事前収録目標歌手男性27名，女性27名
評価歌手各年代の男女16名（オープン）
学習データ25曲/人
メルケプストラム24次元 (1st-25th)，5周波数帯
GMMの混合数メルケプストラム: 128, 非周期成分: 32
GVの考慮通常変換: 有り，差分変換: 無し
合成フィルタMLSAフィルタ
被験者8名
*STRAIGHT分析 [Kawahara et al., 1999]

差分知覚年齢スコアと変換歌声の知覚年齢
性別依存モデルにより知覚年齢変換精度が向上
10
5
0
-5
10
5
0
-5
10
5
0
-5
10
-10
-10
-10
-60 -30 0 30 60
Perceived age conversion setting
Difference in perceived age
after conversion
SVC (I)
SVC (D)
DIFFSVC (D)
95% confidence interval
Regression line
差分知覚年齢スコアの設定
変換後の知覚年齢の差分
性別依存モデルの違い: 大きい
差分変換による違い: 小さい

自然性に関するMOS評価結果
性別依存モデルと差分変換により自然性が向上
5
4.5
4
3.5
3
2.5
2
1.5
SVC (I)
DIFFSVC (D)
SVC (D)
Better
11
1
-60 -30 0 30 60
Perceived age conversion setting
Mean opinion score
Natural singing voice
MOS
worse

サンプル歌声
10
5
age
0
perceived -5
10
5
0
in -5
Difference 10
5
0
-5
Perceived age conversion setting Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
12
-10
-10
-10
-60 -30 0 30 60
after conversion
SVC (I)
SVC (D)
DIFFSVC (D)
Regression line
変換後の知覚年齢の差分

まとめ
13
個人性を保持した知覚年齢制御の変換精度の向上
– 性別依存モデルによる知覚年齢変換
– 差分スペクトル補正に基づく知覚年齢変換
!
実験結果
性別依存モデルにより知覚年齢変換精度が向上
性別依存モデル + 差分変換により変換歌声の自然性が向上
! 今後の研究
– 適応データ数を減らした際の変換精度の評価
– 年齢変動に影響を与える差分スペクトル特徴量の分析

性別依存重回帰混合正規分布モデルに基づく差分スペクトル補正による歌声の知覚年齢制御法

Recommended

Recommended

More Related Content

More from 奈良先端大情報科学研究科

More from 奈良先端大情報科学研究科 (20)

Recently uploaded

Recently uploaded (12)