Saito20asj_autumn

©Yuki Saito, 2020/09/09
主観的話者間類似度のグラフ埋め込みを用いた
DNN話者埋め込み
◎ 齋藤佑樹, 高道慎之介, 猿渡洋 (東大院・情報理工)
日本音響学会 2020年秋季研究発表会 1-2-4

/131
本発表の概要
 研究目的: ユーザの話者知覚を反映した話者ベクトルの学習
– 直感的に話者性を制御できる, 高品質な多話者音声合成を実現
– 本発表では, DNN* を用いた学習法 (DNN 話者埋め込み) を対象
 従来法1: 話者認識ベースの埋め込み (e.g., d-vector [Variani+14])
– 離散的な話者コードを予測 → ユーザの話者知覚を完全に無視
 従来法2: 主観的話者間類似度ベースの埋め込み [Saito+19]
– 主観的な話者間類似度の { ベクトル, 行列 } を予測
– d-vector [Variani+14] よりも多話者音声合成の品質を改善
 提案法: 主観的話者間類似度のグラフ埋め込み
– 話者ベクトルの対から類似度グラフの構造 (辺の有無) を予測
 結果: 多話者音声合成と話者補間における品質改善
*DNN: Deep Neural Network

/132
従来法1: 話者認識ベースの DNN 話者埋め込み [Variani+14]
 音声特徴量から当該話者の話者コード [Hojo+18] を予測
– 話者の識別/認証に適した話者ベクトル = 話者知覚を無視した表現
Minimizing
cross-entropy
Acoustic
feats.
Spkr.
vectors
Spkr.
recognition
Embedding
DNNs
Spkr.
codes
話者ベクトル空間内での距離
≠
知覚的な距離
(主観的話者間類似度)
Spkr. vector
space

/133
従来法2: 主観的話者間類似度ベースの
DNN 話者埋め込み [Saito+19]
 話者間類似度の大規模主観スコアリング
– 受聴者 (4,000名以上) が話者対の主観的な類似度をスコア付け
– スコアリング結果に基づき, 話者間類似度行列 𝐒 を定義
Spkr. pair pool
: ??
To what degree do these two
speakers' voices sound
similar?
(−3: dissimilar ～ +3: similar)
: ??
: ??
⋮
: ??
: ??
−3
+3
Similarity matrix
𝐒
Scoring instruction
DNN 学習に利用
Listener
AudioScore
“−2”
本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開

/134
従来法2: 主観的話者間類似度ベースの
DNN 話者埋め込み [Saito+19]
 類似度ベクトル埋め込み: 類似度行列のベクトルを予測
 類似度行列埋め込み: 類似度行列全体を予測
Acoustic
feats.
Spkr.
vectors
Similarity
vector
prediction
Embedding
DNNs
Minimizing
mean squared
error
Similarity
vector
Embedding
DNNs
Minimizing
Frobenius
normSimilarity
matrix
prediction
Similarity
matrix
話者知覚を強く反映 & 多話者音声合成に適した話者ベクトルを獲得

/135
提案法
 主観的話者間類似度のグラフ埋め込み

/136
話者間類似度のグラフ表現
 話者間類似度グラフ
– 話者を節点とみなし, 類似話者対に辺が張られるグラフ
– グラフの隣接行列* 𝐀: 類似度行列 𝐒 の要素の値に応じて定義
*hard な隣接行列だけでなく, 辺の尤度を [0, 1] の値で表す soft な隣接行列も定義可能
−3
+3
Similarity matrix
𝐒
Adjacency matrix
𝐀
Similarity graph
G
類似度グラフの構造から話者ベクトルを学習する手法を提案

/137
話者間類似度グラフ埋め込みの学習
 話者ベクトルの対 𝒅𝑖, 𝒅𝑗 から類似度グラフの辺の有無を予測
𝐿SIM
(graph)
𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗
𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2
2
: 辺の生起確率 ([Li+18] に基づいて定義)
類似話者対の識別非類似話者対の識別
Edge
prediction
Similarity graph
G
𝐿SIM
graph
⋅
Embedding
DNNs
𝒅𝑖
𝒅𝑗
𝑝𝑖,𝑗 𝑎𝑖,𝑗
Acoustic
feats.
Spkr.
vectors

/138
考察
 従来法 [Saito+19] との比較
– 類似度 { ベクトル, 行列 } 埋め込み: 回帰問題に基づく最適化
• 類似度スコアの値を直接用いる学習法
– 類似度グラフ埋め込み: 識別問題に基づく最適化
• 類似度スコアの値から間接的に定まる関係性に着目する学習法
 提案法: グラフ学習 [Goyal+18] に基づく DNN 話者埋め込み
– グラフ信号処理 [Shuman+13] やグラフ NN [Scarselli+08] も導入可能
– グラフ埋め込みに基づく協調フィルタリング [Wang+19] の応用
• 音声合成/変換における話者推薦 (好みの話者性を探索・提示)

/13
 DNN 話者埋め込みの実験条件
 評価基準: 変分オートエンコーダを用いた多話者音声合成*の性能
– 未知話者の音声合成 & 話者補間における合成音声品質の評価
実験条件 & 評価基準
10
データセット
JNAS [Itou+99] 女性話者 153名, 16 [kHz]
F001 ~ F013: 評価, それ以外の140名: 学習
DNN 学習 / 評価話者毎に約130発話 / 約15発話
DNN の入出力
(詳細は原稿参照)
入力: 1—39次メルケプストラム (+𝚫)
出力: 8次元の話者ベクトル
類似度行列 𝐒 の値
－3 (似ていない) ～＋3 (似ている) の実数
→ DNN 学習時に 0 ～ 1 に正規化
グラフの隣接行列 𝐀 正規化された類似度行列 (soft な辺の有無)
比較手法
d-vec. : 話者認識に基づく学習 [Variani+14]
Prop. : 類似度グラフ埋め込みに基づく学習
*[Saito+18], 実験条件等の詳細は原稿を参照

/1311
多話者音声合成における合成音声の
品質に関する主観評価 (プリファレンス (X)AB)
 学習に用いていない未知話者13名 (F001 ~ F013) の音声を合成
– 有意差の有無に関して, 話者数だけで結果を表示 (詳細は原稿参照)
– "d-vec. < prop.": 提案法で品質が有意に改善した話者数 𝑝 < 0.05
 合成音声サンプル (抜粋)
自然性 (AB) 話者類似性 (XAB)
d-vec. ＞ prop. 0 0
d-vec. ＜ prop. 13 12
d-vec. ≒ prop. 0 1
Natural d-vec. Prop.
提案法は, 多話者音声合成の品質を有意に改善！
評価者数: 25 × 13 × 2 = 650名 (話者ごとに独立して評価を実施)

/1312
話者補間における合成音声の
話者類似性に関する主観評価 (プリファレンス XAB)
 話者補間: 複数話者の話者ベクトルを混合し, 新たな話者性を生成
– 本発表では, 最も話者間類似度が低い2名 (F033-F134) を混合
– 混合係数 𝛼 ∈ 0.0, 0.25, 0.5, 0.75, 1.0 の音声 (X) の話者類似性を評価
評価者数: 30 × 2 = 60名 (手法ごとに独立して評価を実施)
Mixing coefficient 𝛼
0.0 0.5 1.0
1.0
0.5
0.0
Preferencescore
A ( 𝛼 = 0 の合成音声)
B ( 𝛼 = 1 の合成音声)
Prop.
d-vec.
提案法は, より直感的に話者性を制御可能な話者補間を実現！

/1313
まとめ
 研究目的: ユーザの話者知覚を反映した話者ベクトルの学習
– 直感的に制御できる高品質な多話者音声合成/変換を実現
 提案法: 主観的話者間類似度のグラフ埋め込み
– 話者間類似度の新たな表現形としてグラフを導入
– 話者埋め込みのペアから類似度グラフの構造 (辺の有無) を予測
 結果: 多話者音声合成と話者補間における品質改善
 今後
– グラフ信号処理・グラフ NN を導入した学習法の検討
– 主観的話者間類似度を考慮した DNN 話者埋め込みの active leaning

Saito20asj_autumn

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Yuki Saito

More from Yuki Saito (20)

Saito20asj_autumn