Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Saito20asj_autumn

132 views

Published on

Presentation at ASJ 2020 Autumn Meeting

Published in: Science
  • Be the first to comment

  • Be the first to like this

Saito20asj_autumn

  1. 1. ©Yuki Saito, 2020/09/09 主観的話者間類似度のグラフ埋め込みを用いた DNN話者埋め込み ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2020年秋季研究発表会 1-2-4
  2. 2. /131 本発表の概要  研究目的: ユーザの話者知覚を反映した話者ベクトルの学習 – 直感的に話者性を制御できる, 高品質な多話者音声合成を実現 – 本発表では, DNN* を用いた学習法 (DNN 話者埋め込み) を対象  従来法1: 話者認識ベースの埋め込み (e.g., d-vector [Variani+14]) – 離散的な話者コードを予測 → ユーザの話者知覚を完全に無視  従来法2: 主観的話者間類似度ベースの埋め込み [Saito+19] – 主観的な話者間類似度の { ベクトル, 行列 } を予測 – d-vector [Variani+14] よりも多話者音声合成の品質を改善  提案法: 主観的話者間類似度のグラフ埋め込み – 話者ベクトルの対から類似度グラフの構造 (辺の有無) を予測  結果: 多話者音声合成と話者補間における品質改善 *DNN: Deep Neural Network
  3. 3. /132 従来法1: 話者認識ベースの DNN 話者埋め込み [Variani+14]  音声特徴量から当該話者の話者コード [Hojo+18] を予測 – 話者の識別/認証に適した話者ベクトル = 話者知覚を無視した表現 Minimizing cross-entropy Acoustic feats. Spkr. vectors Spkr. recognition Embedding DNNs Spkr. codes 話者ベクトル空間内での距離 ≠ 知覚的な距離 (主観的話者間類似度) Spkr. vector space
  4. 4. /133 従来法2: 主観的話者間類似度ベースの DNN 話者埋め込み [Saito+19]  話者間類似度の大規模主観スコアリング – 受聴者 (4,000名以上) が話者対の主観的な類似度をスコア付け – スコアリング結果に基づき, 話者間類似度行列 𝐒 を定義 Spkr. pair pool : ?? To what degree do these two speakers' voices sound similar? (−3: dissimilar ~ +3: similar) : ?? : ?? ⋮ : ?? : ?? −3 +3 Similarity matrix 𝐒 Scoring instruction DNN 学習に利用 Listener AudioScore “−2” 本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開
  5. 5. /134 従来法2: 主観的話者間類似度ベースの DNN 話者埋め込み [Saito+19]  類似度ベクトル埋め込み: 類似度行列のベクトルを予測  類似度行列埋め込み: 類似度行列全体を予測 Acoustic feats. Spkr. vectors Similarity vector prediction Embedding DNNs Minimizing mean squared error Similarity vector Embedding DNNs Minimizing Frobenius normSimilarity matrix prediction Similarity matrix 話者知覚を強く反映 & 多話者音声合成に適した話者ベクトルを獲得
  6. 6. /135 提案法  主観的話者間類似度のグラフ埋め込み
  7. 7. /136 話者間類似度のグラフ表現  話者間類似度グラフ – 話者を節点とみなし, 類似話者対に辺が張られるグラフ – グラフの隣接行列* 𝐀: 類似度行列 𝐒 の要素の値に応じて定義 *hard な隣接行列だけでなく, 辺の尤度を [0, 1] の値で表す soft な隣接行列も定義可能 −3 +3 Similarity matrix 𝐒 Adjacency matrix 𝐀 Similarity graph G 類似度グラフの構造から話者ベクトルを学習する手法を提案
  8. 8. /137 話者間類似度グラフ埋め込みの学習  話者ベクトルの対 𝒅𝑖, 𝒅𝑗 から類似度グラフの辺の有無を予測 𝐿SIM (graph) 𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗 𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2 2 : 辺の生起確率 ([Li+18] に基づいて定義) 類似話者対の識別 非類似話者対の識別 Edge prediction Similarity graph G 𝐿SIM graph ⋅ Embedding DNNs 𝒅𝑖 𝒅𝑗 𝑝𝑖,𝑗 𝑎𝑖,𝑗 Acoustic feats. Spkr. vectors
  9. 9. /138 考察  従来法 [Saito+19] との比較 – 類似度 { ベクトル, 行列 } 埋め込み: 回帰問題に基づく最適化 • 類似度スコアの値を直接用いる学習法 – 類似度グラフ埋め込み: 識別問題に基づく最適化 • 類似度スコアの値から間接的に定まる関係性に着目する学習法  提案法: グラフ学習 [Goyal+18] に基づく DNN 話者埋め込み – グラフ信号処理 [Shuman+13] やグラフ NN [Scarselli+08] も導入可能 – グラフ埋め込みに基づく協調フィルタリング [Wang+19] の応用 • 音声合成/変換における話者推薦 (好みの話者性を探索・提示)
  10. 10. /139  実験的評価
  11. 11. /13  DNN 話者埋め込みの実験条件  評価基準: 変分オートエンコーダを用いた多話者音声合成*の性能 – 未知話者の音声合成 & 話者補間における合成音声品質の評価 実験条件 & 評価基準 10 データセット JNAS [Itou+99] 女性話者 153名, 16 [kHz] F001 ~ F013: 評価, それ以外の140名: 学習 DNN 学習 / 評価 話者毎に約130発話 / 約15発話 DNN の入出力 (詳細は原稿参照) 入力: 1—39次メルケプストラム (+𝚫) 出力: 8次元の話者ベクトル 類似度行列 𝐒 の値 -3 (似ていない) ~ +3 (似ている) の実数 → DNN 学習時に 0 ~ 1 に正規化 グラフの隣接行列 𝐀 正規化された類似度行列 (soft な辺の有無) 比較手法 d-vec. : 話者認識に基づく学習 [Variani+14] Prop. : 類似度グラフ埋め込みに基づく学習 *[Saito+18], 実験条件等の詳細は原稿を参照
  12. 12. /1311 多話者音声合成における合成音声の 品質に関する主観評価 (プリファレンス (X)AB)  学習に用いていない未知話者13名 (F001 ~ F013) の音声を合成 – 有意差の有無に関して, 話者数だけで結果を表示 (詳細は原稿参照) – "d-vec. < prop.": 提案法で品質が有意に改善した話者数 𝑝 < 0.05  合成音声サンプル (抜粋) 自然性 (AB) 話者類似性 (XAB) d-vec. > prop. 0 0 d-vec. < prop. 13 12 d-vec. ≒ prop. 0 1 Natural d-vec. Prop. 提案法は, 多話者音声合成の品質を有意に改善! 評価者数: 25 × 13 × 2 = 650名 (話者ごとに独立して評価を実施)
  13. 13. /1312 話者補間における合成音声の 話者類似性に関する主観評価 (プリファレンス XAB)  話者補間: 複数話者の話者ベクトルを混合し, 新たな話者性を生成 – 本発表では, 最も話者間類似度が低い2名 (F033-F134) を混合 – 混合係数 𝛼 ∈ 0.0, 0.25, 0.5, 0.75, 1.0 の音声 (X) の話者類似性を評価 評価者数: 30 × 2 = 60名 (手法ごとに独立して評価を実施) Mixing coefficient 𝛼 0.0 0.5 1.0 1.0 0.5 0.0 Preferencescore A ( 𝛼 = 0 の合成音声) B ( 𝛼 = 1 の合成音声) Prop. d-vec. 提案法は, より直感的に話者性を制御可能な話者補間を実現!
  14. 14. /1313 まとめ  研究目的: ユーザの話者知覚を反映した話者ベクトルの学習 – 直感的に制御できる高品質な多話者音声合成/変換を実現  提案法: 主観的話者間類似度のグラフ埋め込み – 話者間類似度の新たな表現形としてグラフを導入 – 話者埋め込みのペアから類似度グラフの構造 (辺の有無) を予測  結果: 多話者音声合成と話者補間における品質改善  今後 – グラフ信号処理・グラフ NN を導入した学習法の検討 – 主観的話者間類似度を考慮した DNN 話者埋め込みの active leaning

×