SlideShare a Scribd company logo
©Yuki Saito, 2020/09/09
主観的話者間類似度のグラフ埋め込みを用いた
DNN話者埋め込み
◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工)
日本音響学会 2020年秋季研究発表会 1-2-4
/131
本発表の概要
 研究目的: ユーザの話者知覚を反映した話者ベクトルの学習
– 直感的に話者性を制御できる, 高品質な多話者音声合成を実現
– 本発表では, DNN* を用いた学習法 (DNN 話者埋め込み) を対象
 従来法1: 話者認識ベースの埋め込み (e.g., d-vector [Variani+14])
– 離散的な話者コードを予測 → ユーザの話者知覚を完全に無視
 従来法2: 主観的話者間類似度ベースの埋め込み [Saito+19]
– 主観的な話者間類似度の { ベクトル, 行列 } を予測
– d-vector [Variani+14] よりも多話者音声合成の品質を改善
 提案法: 主観的話者間類似度のグラフ埋め込み
– 話者ベクトルの対から類似度グラフの構造 (辺の有無) を予測
 結果: 多話者音声合成と話者補間における品質改善
*DNN: Deep Neural Network
/132
従来法1: 話者認識ベースの DNN 話者埋め込み [Variani+14]
 音声特徴量から当該話者の話者コード [Hojo+18] を予測
– 話者の識別/認証に適した話者ベクトル = 話者知覚を無視した表現
Minimizing
cross-entropy
Acoustic
feats.
Spkr.
vectors
Spkr.
recognition
Embedding
DNNs
Spkr.
codes
話者ベクトル空間内での距離
≠
知覚的な距離
(主観的話者間類似度)
Spkr. vector
space
/133
従来法2: 主観的話者間類似度ベースの
DNN 話者埋め込み [Saito+19]
 話者間類似度の大規模主観スコアリング
– 受聴者 (4,000名以上) が話者対の主観的な類似度をスコア付け
– スコアリング結果に基づき, 話者間類似度行列 𝐒 を定義
Spkr. pair pool
: ??
To what degree do these two
speakers' voices sound
similar?
(−3: dissimilar ~ +3: similar)
: ??
: ??
⋮
: ??
: ??
−3
+3
Similarity matrix
𝐒
Scoring instruction
DNN 学習に利用
Listener
AudioScore
“−2”
本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開
/134
従来法2: 主観的話者間類似度ベースの
DNN 話者埋め込み [Saito+19]
 類似度ベクトル埋め込み: 類似度行列のベクトルを予測
 類似度行列埋め込み: 類似度行列全体を予測
Acoustic
feats.
Spkr.
vectors
Similarity
vector
prediction
Embedding
DNNs
Minimizing
mean squared
error
Similarity
vector
Embedding
DNNs
Minimizing
Frobenius
normSimilarity
matrix
prediction
Similarity
matrix
話者知覚を強く反映 & 多話者音声合成に適した話者ベクトルを獲得
/135
提案法
 主観的話者間類似度のグラフ埋め込み
/136
話者間類似度のグラフ表現
 話者間類似度グラフ
– 話者を節点とみなし, 類似話者対に辺が張られるグラフ
– グラフの隣接行列* 𝐀: 類似度行列 𝐒 の要素の値に応じて定義
*hard な隣接行列だけでなく, 辺の尤度を [0, 1] の値で表す soft な隣接行列も定義可能
−3
+3
Similarity matrix
𝐒
Adjacency matrix
𝐀
Similarity graph
G
類似度グラフの構造から話者ベクトルを学習する手法を提案
/137
話者間類似度グラフ埋め込みの学習
 話者ベクトルの対 𝒅𝑖, 𝒅𝑗 から類似度グラフの辺の有無を予測
𝐿SIM
(graph)
𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗
𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2
2
: 辺の生起確率 ([Li+18] に基づいて定義)
類似話者対の識別 非類似話者対の識別
Edge
prediction
Similarity graph
G
𝐿SIM
graph
⋅
Embedding
DNNs
𝒅𝑖
𝒅𝑗
𝑝𝑖,𝑗 𝑎𝑖,𝑗
Acoustic
feats.
Spkr.
vectors
/138
考察
 従来法 [Saito+19] との比較
– 類似度 { ベクトル, 行列 } 埋め込み: 回帰問題に基づく最適化
• 類似度スコアの値を直接用いる学習法
– 類似度グラフ埋め込み: 識別問題に基づく最適化
• 類似度スコアの値から間接的に定まる関係性に着目する学習法
 提案法: グラフ学習 [Goyal+18] に基づく DNN 話者埋め込み
– グラフ信号処理 [Shuman+13] やグラフ NN [Scarselli+08] も導入可能
– グラフ埋め込みに基づく協調フィルタリング [Wang+19] の応用
• 音声合成/変換における話者推薦 (好みの話者性を探索・提示)
/139
 実験的評価
/13
 DNN 話者埋め込みの実験条件
 評価基準: 変分オートエンコーダを用いた多話者音声合成*の性能
– 未知話者の音声合成 & 話者補間における合成音声品質の評価
実験条件 & 評価基準
10
データセット
JNAS [Itou+99] 女性話者 153名, 16 [kHz]
F001 ~ F013: 評価, それ以外の140名: 学習
DNN 学習 / 評価 話者毎に約130発話 / 約15発話
DNN の入出力
(詳細は原稿参照)
入力: 1—39次メルケプストラム (+𝚫)
出力: 8次元の話者ベクトル
類似度行列 𝐒 の値
-3 (似ていない) ~ +3 (似ている) の実数
→ DNN 学習時に 0 ~ 1 に正規化
グラフの隣接行列 𝐀 正規化された類似度行列 (soft な辺の有無)
比較手法
d-vec. : 話者認識に基づく学習 [Variani+14]
Prop. : 類似度グラフ埋め込みに基づく学習
*[Saito+18], 実験条件等の詳細は原稿を参照
/1311
多話者音声合成における合成音声の
品質に関する主観評価 (プリファレンス (X)AB)
 学習に用いていない未知話者13名 (F001 ~ F013) の音声を合成
– 有意差の有無に関して, 話者数だけで結果を表示 (詳細は原稿参照)
– "d-vec. < prop.": 提案法で品質が有意に改善した話者数 𝑝 < 0.05
 合成音声サンプル (抜粋)
自然性 (AB) 話者類似性 (XAB)
d-vec. > prop. 0 0
d-vec. < prop. 13 12
d-vec. ≒ prop. 0 1
Natural d-vec. Prop.
提案法は, 多話者音声合成の品質を有意に改善!
評価者数: 25 × 13 × 2 = 650名 (話者ごとに独立して評価を実施)
/1312
話者補間における合成音声の
話者類似性に関する主観評価 (プリファレンス XAB)
 話者補間: 複数話者の話者ベクトルを混合し, 新たな話者性を生成
– 本発表では, 最も話者間類似度が低い2名 (F033-F134) を混合
– 混合係数 𝛼 ∈ 0.0, 0.25, 0.5, 0.75, 1.0 の音声 (X) の話者類似性を評価
評価者数: 30 × 2 = 60名 (手法ごとに独立して評価を実施)
Mixing coefficient 𝛼
0.0 0.5 1.0
1.0
0.5
0.0
Preferencescore
A ( 𝛼 = 0 の合成音声)
B ( 𝛼 = 1 の合成音声)
Prop.
d-vec.
提案法は, より直感的に話者性を制御可能な話者補間を実現!
/1313
まとめ
 研究目的: ユーザの話者知覚を反映した話者ベクトルの学習
– 直感的に制御できる高品質な多話者音声合成/変換を実現
 提案法: 主観的話者間類似度のグラフ埋め込み
– 話者間類似度の新たな表現形としてグラフを導入
– 話者埋め込みのペアから類似度グラフの構造 (辺の有無) を予測
 結果: 多話者音声合成と話者補間における品質改善
 今後
– グラフ信号処理・グラフ NN を導入した学習法の検討
– 主観的話者間類似度を考慮した DNN 話者埋め込みの active leaning

More Related Content

What's hot

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
Yuki Saito
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
Plot Hong
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
harmonylab
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
Deep Learning JP
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
 
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
Deep Learning JP
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
Deep Learning JP
 
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
Deep Learning JP
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
Toshihisa Tanaka
 

What's hot (20)

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
 

More from Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
Yuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
Yuki Saito
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
Yuki Saito
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
Yuki Saito
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
Yuki Saito
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
Yuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
Yuki Saito
 

More from Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 

Saito20asj_autumn

  • 1. ©Yuki Saito, 2020/09/09 主観的話者間類似度のグラフ埋め込みを用いた DNN話者埋め込み ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2020年秋季研究発表会 1-2-4
  • 2. /131 本発表の概要  研究目的: ユーザの話者知覚を反映した話者ベクトルの学習 – 直感的に話者性を制御できる, 高品質な多話者音声合成を実現 – 本発表では, DNN* を用いた学習法 (DNN 話者埋め込み) を対象  従来法1: 話者認識ベースの埋め込み (e.g., d-vector [Variani+14]) – 離散的な話者コードを予測 → ユーザの話者知覚を完全に無視  従来法2: 主観的話者間類似度ベースの埋め込み [Saito+19] – 主観的な話者間類似度の { ベクトル, 行列 } を予測 – d-vector [Variani+14] よりも多話者音声合成の品質を改善  提案法: 主観的話者間類似度のグラフ埋め込み – 話者ベクトルの対から類似度グラフの構造 (辺の有無) を予測  結果: 多話者音声合成と話者補間における品質改善 *DNN: Deep Neural Network
  • 3. /132 従来法1: 話者認識ベースの DNN 話者埋め込み [Variani+14]  音声特徴量から当該話者の話者コード [Hojo+18] を予測 – 話者の識別/認証に適した話者ベクトル = 話者知覚を無視した表現 Minimizing cross-entropy Acoustic feats. Spkr. vectors Spkr. recognition Embedding DNNs Spkr. codes 話者ベクトル空間内での距離 ≠ 知覚的な距離 (主観的話者間類似度) Spkr. vector space
  • 4. /133 従来法2: 主観的話者間類似度ベースの DNN 話者埋め込み [Saito+19]  話者間類似度の大規模主観スコアリング – 受聴者 (4,000名以上) が話者対の主観的な類似度をスコア付け – スコアリング結果に基づき, 話者間類似度行列 𝐒 を定義 Spkr. pair pool : ?? To what degree do these two speakers' voices sound similar? (−3: dissimilar ~ +3: similar) : ?? : ?? ⋮ : ?? : ?? −3 +3 Similarity matrix 𝐒 Scoring instruction DNN 学習に利用 Listener AudioScore “−2” 本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開
  • 5. /134 従来法2: 主観的話者間類似度ベースの DNN 話者埋め込み [Saito+19]  類似度ベクトル埋め込み: 類似度行列のベクトルを予測  類似度行列埋め込み: 類似度行列全体を予測 Acoustic feats. Spkr. vectors Similarity vector prediction Embedding DNNs Minimizing mean squared error Similarity vector Embedding DNNs Minimizing Frobenius normSimilarity matrix prediction Similarity matrix 話者知覚を強く反映 & 多話者音声合成に適した話者ベクトルを獲得
  • 7. /136 話者間類似度のグラフ表現  話者間類似度グラフ – 話者を節点とみなし, 類似話者対に辺が張られるグラフ – グラフの隣接行列* 𝐀: 類似度行列 𝐒 の要素の値に応じて定義 *hard な隣接行列だけでなく, 辺の尤度を [0, 1] の値で表す soft な隣接行列も定義可能 −3 +3 Similarity matrix 𝐒 Adjacency matrix 𝐀 Similarity graph G 類似度グラフの構造から話者ベクトルを学習する手法を提案
  • 8. /137 話者間類似度グラフ埋め込みの学習  話者ベクトルの対 𝒅𝑖, 𝒅𝑗 から類似度グラフの辺の有無を予測 𝐿SIM (graph) 𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗 𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2 2 : 辺の生起確率 ([Li+18] に基づいて定義) 類似話者対の識別 非類似話者対の識別 Edge prediction Similarity graph G 𝐿SIM graph ⋅ Embedding DNNs 𝒅𝑖 𝒅𝑗 𝑝𝑖,𝑗 𝑎𝑖,𝑗 Acoustic feats. Spkr. vectors
  • 9. /138 考察  従来法 [Saito+19] との比較 – 類似度 { ベクトル, 行列 } 埋め込み: 回帰問題に基づく最適化 • 類似度スコアの値を直接用いる学習法 – 類似度グラフ埋め込み: 識別問題に基づく最適化 • 類似度スコアの値から間接的に定まる関係性に着目する学習法  提案法: グラフ学習 [Goyal+18] に基づく DNN 話者埋め込み – グラフ信号処理 [Shuman+13] やグラフ NN [Scarselli+08] も導入可能 – グラフ埋め込みに基づく協調フィルタリング [Wang+19] の応用 • 音声合成/変換における話者推薦 (好みの話者性を探索・提示)
  • 11. /13  DNN 話者埋め込みの実験条件  評価基準: 変分オートエンコーダを用いた多話者音声合成*の性能 – 未知話者の音声合成 & 話者補間における合成音声品質の評価 実験条件 & 評価基準 10 データセット JNAS [Itou+99] 女性話者 153名, 16 [kHz] F001 ~ F013: 評価, それ以外の140名: 学習 DNN 学習 / 評価 話者毎に約130発話 / 約15発話 DNN の入出力 (詳細は原稿参照) 入力: 1—39次メルケプストラム (+𝚫) 出力: 8次元の話者ベクトル 類似度行列 𝐒 の値 -3 (似ていない) ~ +3 (似ている) の実数 → DNN 学習時に 0 ~ 1 に正規化 グラフの隣接行列 𝐀 正規化された類似度行列 (soft な辺の有無) 比較手法 d-vec. : 話者認識に基づく学習 [Variani+14] Prop. : 類似度グラフ埋め込みに基づく学習 *[Saito+18], 実験条件等の詳細は原稿を参照
  • 12. /1311 多話者音声合成における合成音声の 品質に関する主観評価 (プリファレンス (X)AB)  学習に用いていない未知話者13名 (F001 ~ F013) の音声を合成 – 有意差の有無に関して, 話者数だけで結果を表示 (詳細は原稿参照) – "d-vec. < prop.": 提案法で品質が有意に改善した話者数 𝑝 < 0.05  合成音声サンプル (抜粋) 自然性 (AB) 話者類似性 (XAB) d-vec. > prop. 0 0 d-vec. < prop. 13 12 d-vec. ≒ prop. 0 1 Natural d-vec. Prop. 提案法は, 多話者音声合成の品質を有意に改善! 評価者数: 25 × 13 × 2 = 650名 (話者ごとに独立して評価を実施)
  • 13. /1312 話者補間における合成音声の 話者類似性に関する主観評価 (プリファレンス XAB)  話者補間: 複数話者の話者ベクトルを混合し, 新たな話者性を生成 – 本発表では, 最も話者間類似度が低い2名 (F033-F134) を混合 – 混合係数 𝛼 ∈ 0.0, 0.25, 0.5, 0.75, 1.0 の音声 (X) の話者類似性を評価 評価者数: 30 × 2 = 60名 (手法ごとに独立して評価を実施) Mixing coefficient 𝛼 0.0 0.5 1.0 1.0 0.5 0.0 Preferencescore A ( 𝛼 = 0 の合成音声) B ( 𝛼 = 1 の合成音声) Prop. d-vec. 提案法は, より直感的に話者性を制御可能な話者補間を実現!
  • 14. /1313 まとめ  研究目的: ユーザの話者知覚を反映した話者ベクトルの学習 – 直感的に制御できる高品質な多話者音声合成/変換を実現  提案法: 主観的話者間類似度のグラフ埋め込み – 話者間類似度の新たな表現形としてグラフを導入 – 話者埋め込みのペアから類似度グラフの構造 (辺の有無) を予測  結果: 多話者音声合成と話者補間における品質改善  今後 – グラフ信号処理・グラフ NN を導入した学習法の検討 – 主観的話者間類似度を考慮した DNN 話者埋め込みの active leaning