SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
Saito20asj_autumn
Report
Yuki Saito
Follow
Sep. 8, 2020
•
0 likes
•
382 views
1
of
14
Saito20asj_autumn
Sep. 8, 2020
•
0 likes
•
382 views
Download Now
Download to read offline
Report
Science
Presentation at ASJ 2020 Autumn Meeting
Yuki Saito
Follow
Recommended
Saito19asj_s
Yuki Saito
491 views
•
16 slides
Saito19asjAutumn_DeNA
Yuki Saito
1.2K views
•
21 slides
Nakai22sp03 presentation
Yuki Saito
246 views
•
29 slides
Saito18sp03
Yuki Saito
1.1K views
•
25 slides
Saito17asjA
Yuki Saito
571 views
•
20 slides
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
983 views
•
37 slides
More Related Content
What's hot
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
1.9K views
•
47 slides
ICASSP読み会2020
Yuki Saito
693 views
•
19 slides
音情報処理における特徴表現
NU_I_TODALAB
6.2K views
•
39 slides
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
1.6K views
•
22 slides
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
15.2K views
•
74 slides
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
16.1K views
•
13 slides
What's hot
(20)
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
•
1.9K views
ICASSP読み会2020
Yuki Saito
•
693 views
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
•
1.6K views
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
•
15.2K views
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
•
16.1K views
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
•
543 views
miyoshi17sp07
Yuki Saito
•
1.1K views
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
•
1.3K views
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
•
1.4K views
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
•
2.6K views
saito2017asj_tts
Yuki Saito
•
516 views
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
•
1.2K views
音声認識の基礎
Akinori Ito
•
35.9K views
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
•
1.2K views
Saito21asj Autumn Meeting
Yuki Saito
•
238 views
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
•
14K views
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
•
1.1K views
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
•
707 views
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
•
4.3K views
More from Yuki Saito
hirai23slp03.pdf
Yuki Saito
51 views
•
21 slides
Interspeech2022 参加報告
Yuki Saito
535 views
•
52 slides
fujii22apsipa_asc
Yuki Saito
43 views
•
25 slides
nakai22apsipa_presentation.pdf
Yuki Saito
44 views
•
20 slides
saito22research_talk_at_NUS
Yuki Saito
51 views
•
52 slides
Neural text-to-speech and voice conversion
Yuki Saito
1.1K views
•
70 slides
More from Yuki Saito
(18)
hirai23slp03.pdf
Yuki Saito
•
51 views
Interspeech2022 参加報告
Yuki Saito
•
535 views
fujii22apsipa_asc
Yuki Saito
•
43 views
nakai22apsipa_presentation.pdf
Yuki Saito
•
44 views
saito22research_talk_at_NUS
Yuki Saito
•
51 views
Neural text-to-speech and voice conversion
Yuki Saito
•
1.1K views
Nishimura22slp03 presentation
Yuki Saito
•
296 views
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
922 views
Saito2103slp
Yuki Saito
•
242 views
Interspeech2020 reading
Yuki Saito
•
171 views
Saito20asj s slide_published
Yuki Saito
•
605 views
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
759 views
Une18apsipa
Yuki Saito
•
425 views
Saito18asj_s
Yuki Saito
•
343 views
釧路高専情報工学科向け進学説明会
Yuki Saito
•
933 views
miyoshi2017asj
Yuki Saito
•
554 views
Saito2017icassp
Yuki Saito
•
1.3K views
Slp201702
Yuki Saito
•
14.9K views
Saito20asj_autumn
1.
©Yuki Saito, 2020/09/09 主観的話者間類似度のグラフ埋め込みを用いた DNN話者埋め込み ◎
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2020年秋季研究発表会 1-2-4
2.
/131 本発表の概要 研究目的: ユーザの話者知覚を反映した話者ベクトルの学習 –
直感的に話者性を制御できる, 高品質な多話者音声合成を実現 – 本発表では, DNN* を用いた学習法 (DNN 話者埋め込み) を対象 従来法1: 話者認識ベースの埋め込み (e.g., d-vector [Variani+14]) – 離散的な話者コードを予測 → ユーザの話者知覚を完全に無視 従来法2: 主観的話者間類似度ベースの埋め込み [Saito+19] – 主観的な話者間類似度の { ベクトル, 行列 } を予測 – d-vector [Variani+14] よりも多話者音声合成の品質を改善 提案法: 主観的話者間類似度のグラフ埋め込み – 話者ベクトルの対から類似度グラフの構造 (辺の有無) を予測 結果: 多話者音声合成と話者補間における品質改善 *DNN: Deep Neural Network
3.
/132 従来法1: 話者認識ベースの DNN
話者埋め込み [Variani+14] 音声特徴量から当該話者の話者コード [Hojo+18] を予測 – 話者の識別/認証に適した話者ベクトル = 話者知覚を無視した表現 Minimizing cross-entropy Acoustic feats. Spkr. vectors Spkr. recognition Embedding DNNs Spkr. codes 話者ベクトル空間内での距離 ≠ 知覚的な距離 (主観的話者間類似度) Spkr. vector space
4.
/133 従来法2: 主観的話者間類似度ベースの DNN 話者埋め込み
[Saito+19] 話者間類似度の大規模主観スコアリング – 受聴者 (4,000名以上) が話者対の主観的な類似度をスコア付け – スコアリング結果に基づき, 話者間類似度行列 𝐒 を定義 Spkr. pair pool : ?? To what degree do these two speakers' voices sound similar? (−3: dissimilar ~ +3: similar) : ?? : ?? ⋮ : ?? : ?? −3 +3 Similarity matrix 𝐒 Scoring instruction DNN 学習に利用 Listener AudioScore “−2” 本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開
5.
/134 従来法2: 主観的話者間類似度ベースの DNN 話者埋め込み
[Saito+19] 類似度ベクトル埋め込み: 類似度行列のベクトルを予測 類似度行列埋め込み: 類似度行列全体を予測 Acoustic feats. Spkr. vectors Similarity vector prediction Embedding DNNs Minimizing mean squared error Similarity vector Embedding DNNs Minimizing Frobenius normSimilarity matrix prediction Similarity matrix 話者知覚を強く反映 & 多話者音声合成に適した話者ベクトルを獲得
6.
/135 提案法 主観的話者間類似度のグラフ埋め込み
7.
/136 話者間類似度のグラフ表現 話者間類似度グラフ – 話者を節点とみなし,
類似話者対に辺が張られるグラフ – グラフの隣接行列* 𝐀: 類似度行列 𝐒 の要素の値に応じて定義 *hard な隣接行列だけでなく, 辺の尤度を [0, 1] の値で表す soft な隣接行列も定義可能 −3 +3 Similarity matrix 𝐒 Adjacency matrix 𝐀 Similarity graph G 類似度グラフの構造から話者ベクトルを学習する手法を提案
8.
/137 話者間類似度グラフ埋め込みの学習 話者ベクトルの対 𝒅𝑖,
𝒅𝑗 から類似度グラフの辺の有無を予測 𝐿SIM (graph) 𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗 𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2 2 : 辺の生起確率 ([Li+18] に基づいて定義) 類似話者対の識別 非類似話者対の識別 Edge prediction Similarity graph G 𝐿SIM graph ⋅ Embedding DNNs 𝒅𝑖 𝒅𝑗 𝑝𝑖,𝑗 𝑎𝑖,𝑗 Acoustic feats. Spkr. vectors
9.
/138 考察 従来法 [Saito+19]
との比較 – 類似度 { ベクトル, 行列 } 埋め込み: 回帰問題に基づく最適化 • 類似度スコアの値を直接用いる学習法 – 類似度グラフ埋め込み: 識別問題に基づく最適化 • 類似度スコアの値から間接的に定まる関係性に着目する学習法 提案法: グラフ学習 [Goyal+18] に基づく DNN 話者埋め込み – グラフ信号処理 [Shuman+13] やグラフ NN [Scarselli+08] も導入可能 – グラフ埋め込みに基づく協調フィルタリング [Wang+19] の応用 • 音声合成/変換における話者推薦 (好みの話者性を探索・提示)
10.
/139 実験的評価
11.
/13 DNN 話者埋め込みの実験条件
評価基準: 変分オートエンコーダを用いた多話者音声合成*の性能 – 未知話者の音声合成 & 話者補間における合成音声品質の評価 実験条件 & 評価基準 10 データセット JNAS [Itou+99] 女性話者 153名, 16 [kHz] F001 ~ F013: 評価, それ以外の140名: 学習 DNN 学習 / 評価 話者毎に約130発話 / 約15発話 DNN の入出力 (詳細は原稿参照) 入力: 1—39次メルケプストラム (+𝚫) 出力: 8次元の話者ベクトル 類似度行列 𝐒 の値 -3 (似ていない) ~ +3 (似ている) の実数 → DNN 学習時に 0 ~ 1 に正規化 グラフの隣接行列 𝐀 正規化された類似度行列 (soft な辺の有無) 比較手法 d-vec. : 話者認識に基づく学習 [Variani+14] Prop. : 類似度グラフ埋め込みに基づく学習 *[Saito+18], 実験条件等の詳細は原稿を参照
12.
/1311 多話者音声合成における合成音声の 品質に関する主観評価 (プリファレンス (X)AB)
学習に用いていない未知話者13名 (F001 ~ F013) の音声を合成 – 有意差の有無に関して, 話者数だけで結果を表示 (詳細は原稿参照) – "d-vec. < prop.": 提案法で品質が有意に改善した話者数 𝑝 < 0.05 合成音声サンプル (抜粋) 自然性 (AB) 話者類似性 (XAB) d-vec. > prop. 0 0 d-vec. < prop. 13 12 d-vec. ≒ prop. 0 1 Natural d-vec. Prop. 提案法は, 多話者音声合成の品質を有意に改善! 評価者数: 25 × 13 × 2 = 650名 (話者ごとに独立して評価を実施)
13.
/1312 話者補間における合成音声の 話者類似性に関する主観評価 (プリファレンス XAB)
話者補間: 複数話者の話者ベクトルを混合し, 新たな話者性を生成 – 本発表では, 最も話者間類似度が低い2名 (F033-F134) を混合 – 混合係数 𝛼 ∈ 0.0, 0.25, 0.5, 0.75, 1.0 の音声 (X) の話者類似性を評価 評価者数: 30 × 2 = 60名 (手法ごとに独立して評価を実施) Mixing coefficient 𝛼 0.0 0.5 1.0 1.0 0.5 0.0 Preferencescore A ( 𝛼 = 0 の合成音声) B ( 𝛼 = 1 の合成音声) Prop. d-vec. 提案法は, より直感的に話者性を制御可能な話者補間を実現!
14.
/1313 まとめ 研究目的: ユーザの話者知覚を反映した話者ベクトルの学習 –
直感的に制御できる高品質な多話者音声合成/変換を実現 提案法: 主観的話者間類似度のグラフ埋め込み – 話者間類似度の新たな表現形としてグラフを導入 – 話者埋め込みのペアから類似度グラフの構造 (辺の有無) を予測 結果: 多話者音声合成と話者補間における品質改善 今後 – グラフ信号処理・グラフ NN を導入した学習法の検討 – 主観的話者間類似度を考慮した DNN 話者埋め込みの active leaning