Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

0

Share

Saito19asj_s

Download to read offline

日本音響学会 2019年春季研究発表会 3-10-7

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Saito19asj_s

  1. 1. ©Yuki Saito, 2019/03/07 DNN音声合成に向けた 主観的話者間類似度を考慮した DNN話者埋め込み ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2019年春季研究発表会 3-10-7
  2. 2. /151 本発表の概要  研究背景 – DNN音声合成の高品質化 & 多様化 [Shen et al., 2018] [Wang et al., 2018] – クラウドソーシングによる音声収集 & 評価 (例: [Takamichi et al., 2018])  目的: ユーザの評価を明示的に取り入れた音声合成技術の実現 – 本発表: ユーザの主観的印象に基づく話者表現の学習法  従来法: 話者認識に基づくDNN話者埋め込み (例: 𝑑-vector) – 主観的話者間類似度を完全に無視した学習  提案法: 主観的話者間類似度に基づくDNN話者埋め込み – 大規模クラウドソーシングで収集した主観スコアでDNNを学習  結果: 主観的話者間類似度と強い相関を持つ話者埋め込みを学習 [Variani et al., 2014]
  3. 3. /152 従来法: 話者認識に基づくDNN話者埋め込み  𝑑-vector: 話者認識DNNのボトルネック特徴量 [Variani et al., 2014] – 連続的な表現 (未知話者の音声合成も可能) [Saito et al., 2018] [中村 他, 2019] – 識別的な話者空間 ≠ ユーザの主観的印象と対応付けられた話者空間 • 主観的に類似した話者が話者空間で近接する保証なし 1 0 0 0 0 ⋯ Speaker codes Speech params. ⋯ Softmax cross-entropy 𝐿SCE 𝒄, 𝒄 𝑑-vector 𝒄 𝒄
  4. 4. /153  提案法  主観的話者間類似度に基づく  DNN話者埋め込み
  5. 5. /154 クラウドソーシングを用いた 話者間類似度の大規模主観スコアリング  話者対の音声を提示し, その主観的な類似度を評価 – 本発表では, JNAS [Itou et al., 1999] の女性話者153名を利用 • 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価) – 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価 • 評価スコア: -3 (似ていない) ~ +3 (似ている) の整数 • 1つの話者対を異なる10名以上が評価 提示話者対サンプル
  6. 6. /155 類似度スコアに基づく話者グラフを用いた 話者間類似度の可視化 話者の配置は類似度スコアを用いた多次元尺度構成法で決定 F051 F146B F048 特定の話者に 類似した話者 多数の話者に 類似した話者F093 F127
  7. 7. /156 類似度スコア行列: 主観的話者間類似度の行列表現  類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔 𝑁s – 𝑁s 名の話者間類似度に関する主観評価スコアの平均値を格納 – 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s ⊤ : 𝑖 番目の話者の類似度スコアベクトル • 𝑠𝑖,𝑗: 𝑖 番目と 𝑗 番目の話者の主観的類似度 −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣 3 2 1 0 −1 −2 −3 (a) 類似度スコア行列 (153名の日本人女性話者) (b) (a) の部分行列 (13名の日本人女性話者) 類似度スコア行列を用いたDNN話者埋め込みの学習法を2つ提案
  8. 8. /157 提案法1: 類似度スコアベクトル埋め込み Output vector 𝐿SIM vec 𝒔, 𝒔 𝒔 Sim. score vector 𝒔 ⋯ Sim. score matrix 𝐒 Speech params. 𝐿SIM (vec) 𝒔, 𝒔 = 1 𝑁𝑠 𝒔 − 𝒔 ⊤ 𝒔 − 𝒔  入力された音声から当該話者の類似度スコアベクトルを予測 – DNNの出力と類似度スコアベクトルの mean squared error 最小化 主観的話者間類似度を考慮したソフトラベルを用いた話者埋め込みの学習
  9. 9. /158 提案法2-1: 類似度スコア行列埋め込み Spk. 1 𝒅1 Spk. 𝑁s 𝒅 𝑁𝐬 ⋯ 𝐃⊤ 𝐃 ⋯ Gram matrix 𝐊 𝐃 Calc. kernel 𝑘 ⋅ 𝐿SIM mat ⋅ 𝑁s 𝑁s 1 1 ⋯ ⋯ 𝑁s1 ⋯ 1 𝑁s 𝑘 𝒅1, 𝒅 𝑵s 𝑠1,𝑁s𝐒 Sim. score matrix  話者間類似度スコアを話者埋め込みのグラム行列で表現 – 話者埋め込みグラム行列と類似度スコア行列の差のノルムで定式化* *行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列) 学習では 𝐿SCE 𝒄, 𝒄 + 𝜔s 𝐿SIM (mat) 𝐃, 𝐒 を最小化 (同一話者内での変動を抑制) 𝐿SIM (mat) 𝐃, 𝐒 = 1 𝑍s 𝐊 𝐃 − 𝐒 𝐹 2
  10. 10. /159 提案法2-2: 類似話者対のみを考慮した 類似度スコア行列埋め込み Spk. 1 𝒅1 Spk. 𝑁s 𝒅 𝑁𝐬 ⋯ 𝐃⊤ 𝐃 ⋯ Gram matrix 𝐊 𝐃 Calc. kernel 𝑘 ⋅ 𝐿SIM mat−re ⋅ 𝑁s 𝑁s 1 ⋯ ⋯ 𝑁s1 ⋯ 1 𝑁s 𝑘 𝒅1, 𝒅 𝑵s 𝑠1,𝑁s𝐒 Sim. score matrix  行列 𝐒 の値で損失の計算に用いる要素をフィルタリング – 少なくとも類似話者対の埋め込みが近づくような損失を最小化* *行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列) 𝐿SIM (mat−re) 𝐃, 𝐒 = 1 𝑍s ′ 𝐖 ⊙ 𝐊D − 𝐒 𝐹 2 𝐖: 話者グラフの隣接行列 (類似話者対に対する要素のみが1) 𝐖 1 ⋅⋅
  11. 11. /1510 考察  関連研究との比較 – 単一話者の印象 (例: 印象語の対) と音響モデルを対応づけ • HMM音声合成 [Tachibana et al., 2006], GMM音声変換 [Ohta et al., 2007] – 提案法: 話者間の印象 (主観的類似度) と音響モデルを対応付け • 話者—聴者間の関係もモデル化可能 (例: 感情表現—知覚の差)  類似度スコア行列埋め込み ≃ 話者間類似度での Deep Clustering – 埋め込みの内積計算をカーネル関数で一般化  類似話者対のみを用いた学習 ≃ 音声からの話者グラフ推定 – → グラフ信号処理・ニューラルネットを取り入れた音声合成 [Lorenzo-Trueba et al., 2018] [Hershey et al., 2016]
  12. 12. /1511  実験的評価
  13. 13. /15 実験条件 12 データセット JNAS [Itou et al., 1999] 女性話者 153名, 16 [kHz] スコアリング用発話 話者毎に異なる5発話 評価値 -3 (似ていない) ~ +3 (似ている) の整数 (話者埋め込みDNN学習時には -1 ~ +1 に正規化) 評価者数 / 設問数 4,060名 / 全話者対からランダムに抽出された34対 (1つの話者対を少なくとも異なる10名が評価) DNN学習 / 評価 話者毎に約130発話 / 約15発話 DNNアーキテクチャ (詳細は原稿参照) 入力: 1—39次メルケプストラム (±2フレーム結合) 出力: 140話者に対する予測結果 カーネル関数 シグモイドカーネル 𝑘 𝒅𝑖, 𝒅𝑗 = tanh 𝒅𝑖 ⊤ 𝒅𝑗 比較手法 (1) Conv. : 話者認識に基づく埋め込み (2) Prop. (vec): 類似度スコアベクトル埋め込み (3) Prop. (mat): 類似度スコア行列埋め込み (4) Prop. (mat-re): 同上 (類似話者対のみ)
  14. 14. /15  Closed: 学習に用いた140名, Open: Closed 以外の13名 13 話者埋め込みと話者間類似度スコアの散布図・相関 (1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re) 0.0 1.0−1.0 1.0 0.0 −1.0 Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗 Similarityscore𝑠𝑖,𝑗 (a)Closed-Closed(b)Closed-Open 提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
  15. 15. /15  Closed: 学習に用いた140名, Open: Closed 以外の13名 14 話者埋め込みと話者間類似度スコアの散布図・相関 (1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re) 0.0 1.0−1.0 1.0 0.0 Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗 Similarityscore𝑠𝑖,𝑗 (a)Closed-Closed(b)Closed-Open 提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
  16. 16. /1515 まとめ  目的: 主観的話者間類似度と対応付けされた話者表現の学習  提案法: 主観的話者間類似度を考慮したDNN話者埋め込み – 大規模クラウドソーシングで収集した主観スコアでDNNを学習 – 類似度スコアベクトル埋め込み & 行列埋め込み  結果: 類似度スコアと強い相関を持つ話者埋め込みを学習  今後: 提案法の話者埋め込みを用いた多人数話者DNN音声合成 – 話者モーフィング – 学習データ収集 (active learning) – 話者のランダムサンプリング

日本音響学会 2019年春季研究発表会 3-10-7

Views

Total views

418

On Slideshare

0

From embeds

0

Number of embeds

32

Actions

Downloads

4

Shares

0

Comments

0

Likes

0

×