Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
Takuma_OKAMOTO
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
Saito2017icassp
Yuki Saito
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
1
of
32
Top clipped slide
Saito2103slp
Mar. 3, 2021
•
0 likes
0 likes
×
Be the first to like this
Show More
•
236 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Science
2021年3月SLP研究会での発表
Yuki Saito
Follow
Advertisement
Advertisement
Advertisement
Recommended
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
3.8K views
•
13 slides
Nakai22sp03 presentation
Yuki Saito
237 views
•
29 slides
Neural text-to-speech and voice conversion
Yuki Saito
975 views
•
70 slides
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
890 views
•
73 slides
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
1.2K views
•
15 slides
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Deep Learning JP
5.9K views
•
30 slides
More Related Content
Slideshows for you
(20)
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
Takuma_OKAMOTO
•
2.2K views
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
•
1.5K views
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
•
2K views
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
•
25.9K views
Saito2017icassp
Yuki Saito
•
1.3K views
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
•
14K views
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
•
717 views
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
•
1.8K views
Slp201702
Yuki Saito
•
14.9K views
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
•
1.4K views
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
•
1.8K views
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
•
2.1K views
深層学習と音響信号処理
Yuma Koizumi
•
5.8K views
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
Deep Learning JP
•
744 views
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
•
22K views
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
•
1.6K views
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
•
1.2K views
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
•
4.1K views
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
•
1.6K views
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
•
1.4K views
More from Yuki Saito
(20)
hirai23slp03.pdf
Yuki Saito
•
40 views
Interspeech2022 参加報告
Yuki Saito
•
435 views
fujii22apsipa_asc
Yuki Saito
•
42 views
nakai22apsipa_presentation.pdf
Yuki Saito
•
38 views
saito22research_talk_at_NUS
Yuki Saito
•
45 views
Nishimura22slp03 presentation
Yuki Saito
•
266 views
Saito21asj Autumn Meeting
Yuki Saito
•
238 views
Interspeech2020 reading
Yuki Saito
•
169 views
Saito20asj_autumn
Yuki Saito
•
381 views
ICASSP読み会2020
Yuki Saito
•
689 views
Saito20asj s slide_published
Yuki Saito
•
600 views
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
759 views
Saito19asj_s
Yuki Saito
•
488 views
Une18apsipa
Yuki Saito
•
422 views
Saito18sp03
Yuki Saito
•
1.1K views
Saito18asj_s
Yuki Saito
•
341 views
Saito17asjA
Yuki Saito
•
564 views
釧路高専情報工学科向け進学説明会
Yuki Saito
•
931 views
miyoshi17sp07
Yuki Saito
•
1.1K views
Advertisement
Recently uploaded
(20)
Introduction.ppt
backlinkspuro
•
0 views
RESEARCH METHODOLOGY.ppt
AmanDhiman96
•
0 views
Advances in Geological and Geotechnical Engineering Research | Vol.5, Iss.2 A...
Bilingual Publishing Group
•
2 views
HOMEOTIC GENES.pptx
anjalisaini751329
•
0 views
TRANSPOSONS
Shivani Upadhyay
•
4 views
Centre of origin.pptx
Sangeetha279753
•
0 views
Aging.pdf
AsemAlhazmi
•
1 view
SIAM_QMC_Fourier_Pricing_Pres.pdf
MichaelSamet4
•
6 views
computer security .pdf
FarazTariq18
•
1 view
Introduction-to-Plant-Cell-Culture-lec1 (1).ppt
JahanviSaini5
•
0 views
GEL ELECTROPHORESIS.pptx
DEBDIPMANDAL3
•
0 views
Chapter-3-PHYSICS-Class-11-Kpk Board.pdf
FarrukhHanif5
•
2 views
RESPIRATORY.pptx
anjalisaini751329
•
0 views
Meteor Shower.pptx
LinhLee43
•
0 views
regulation
KanwalNisa1
•
0 views
biotechnology
KanwalNisa1
•
0 views
Morphology of chromosomes.pdf
Amara Javaid
•
0 views
Different modes of reproduction of fungi and reproductive structure and nutri...
hassabbinahmed
•
0 views
DS.pptx
LakshayAgarwal22
•
0 views
LYMPHOID ORGANS.pptx
anjalisaini751329
•
0 views
Saito2103slp
©Yuki Saito, 2021/03/04 主観的話者間類似度を考慮した DNN話者埋め込みのための
Active Learning 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大) 第136回 音声言語情報処理研究会 (SIG-SLP)
/31 1 研究背景 DNN 話者埋め込み:
DNN を用いて音声特徴量から話者表現を獲得 – 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ • 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14]) • 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18]) 本発表: 生成的タスクに適した DNN 話者埋め込みの学習法 – 合成音声の品質改善 & 直感的な声質制御を実現 – 人間の話者知覚を反映するような話者表現を学習 DNN NG ASV DNN TTS Discriminative task (e.g., automatic speaker verification: ASV) Generative task (e.g., text-to-speech: TTS) DNN: Deep Neural Network
/31 2 本発表の概要 従来法: 主観的話者間類似度ベース
DNN 話者埋め込み* – 話者間類似度の大規模主観スコアリングの結果を用いた学習法 – 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習 問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト – スコアリングが必要な話者対の数は, 話者数の2乗に比例 – スコアリング後の DNN 話者埋め込み学習の時間的コストも必要 提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習 *[Saito+SSW19][齋藤+ASJ2020秋]
/31 3 目次 研究背景 従来法:
主観的話者間類似度ベース DNN 話者埋め込み 主観的話者間類似度ベース DNN 話者埋め込みの active learning 実験的評価 まとめ
/31 1. 主観的話者間類似度の大規模スコアリング
2. 類似度スコアを用いた DNN 話者埋め込みの学習 4 従来法: 主観的話者間類似度ベース DNN 話者埋め込み DNN (Spkr. encoder) Learned similarity Speech feats. Similarity score Spkr. repr. Similarity score Perceptual similarity scoring Spkr. pairs [Saito+SSW19][齋藤+ASJ20秋] Similarity loss
/31 5 主観的話者間類似度の大規模スコアリング クラウドソーシングで, 話者間の主観的な類似度をスコアリング –
JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用 • 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価 – 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者) • スコアリングの評価値: -3 (似ていない) ~ +3 (似ている) • 1つの話者対を少なくとも異なる10名以上が評価 話者対の音声サンプル
/31 6 主観的話者間類似度の行列表現 類似度スコア行列 𝐒
= 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s – 𝑁s: スコアリングに用いられた話者数 – 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s ⊤ : 𝑖番目の話者の類似度スコアベクトル • 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣 3 2 1 0 −1 −2 −3 (a) Full score matrix (153 females) (b) Sub-matrix of (a) (13 females) 本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開 これまでに, 類似度スコアを用いた3つの学習法を提案
/31 音声特徴量から類似度スコアベクトルを予測するように学習 7 学習法1: 類似度ベクトル埋め込み 𝐿SIM (vec) 𝒔,
𝒔 = 1 𝑁𝑠 𝒔 − 𝒔 ⊤ 𝒔 − 𝒔 Spkr. encoder 𝐿SIM (vec) 𝒔 𝒔 𝐒 Sim. score vector Sim. score matrix Speech feats. Similarity vector prediction 𝒅
/31 話者表現の Gram
行列を類似度スコア行列に近づけるように学習 8 学習法2: 類似度行列埋め込み 𝐿SIM (mat) 𝐿SIM (mat) 𝐃, 𝐒 = 1 𝑍s 𝐊𝐃 − 𝐒 𝐹 2 𝐊𝐃 Gram matrix Calc. kernel 𝑘 ⋅,⋅ 𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
/31 𝑎𝑖,𝑗 話者表現の対から類似度グラフの辺の有無を予測するように学習 9 学習法3: 類似度グラフ埋め込み 𝐿SIM graph 𝒅𝑖,
𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗 Spkr. sim. graph Edge prediction 0: no edge 1: exist edge 𝐿SIM (graph) 𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2 2 : 辺の生起確率 ([Li+18] を参照に定義) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
/31 10 目次 研究背景 従来法:
主観的話者間類似度ベース DNN 話者埋め込み 主観的話者間類似度ベース DNN 話者埋め込みの active learning 実験的評価 まとめ
/31 11 提案法の動機 従来法: 主観スコアリング
/ DNN 話者埋め込みの直列型学習 – 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始 – 問題点1: 主観スコアリングの金銭的コスト • スコアリング作業の数は, 話者数の2乗に比例 • 評価者1人あたりの作業数を増やせばコストは削減可能だが, 評価者の負担は増加 (スコアリング結果の信頼性低下の可能性) – 問題点2: DNN 話者埋め込み学習の時間的コスト • 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要 動機: 直列型学習からの脱却 & コストの削減 – 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行 – 次にスコア付けすべき話者対の優先度を適切に決定すれば, 少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?
/31 12 Active learning [Settle10]
目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習 – 少数のラベル付きデータと多数のラベル無しデータを使用 – 逐次的に学習される機械学習モデルの予測結果に基づき, 次にラベル付けすべきデータの優先度を決定 Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)
/31 13 提案法: 主観スコアリングと DNN
話者埋め込みの active learning 主観スコアリングと DNN 話者埋め込みの学習を交互に反復 – スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習 Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs
/31 14 スコア付けされた話者対のデータを用いた DNN 話者埋め込み学習 部分的にスコア付けされたデータで
spkr. encoder を学習 – 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
/31 15 学習された話者表現を用いた類似度スコア予測 スコア付けされてない話者対に対して仮の類似度スコアを予測 – Spkr.
encoder から出力される話者表現の対で類似度スコアを計算 : +3 : 0 : -2 Predicted Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
/31 16 予測された類似度スコアを用いたクエリ選択 スコアの予測結果に基づき, 次にスコア付けする話者対を選択 –
クエリ戦略: どういった基準で話者対を選択するのかを決定 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy { Higher, Middle, Lower }-Similarity First
/31 17 選択されたクエリに対するスコアリング 評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼 –
新たにスコア付けされた話者対をスコア済みデータのプールに追加 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy : +1
/31 18 考察 提案法: human-in-the-loop
型の DNN 話者埋め込み学習 – 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習 • (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21]) クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位 – LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先 – MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先 Similarity score −3 −1 −2 0 +2 +3 +1 Frequency 40,000 30,000 20,000 10,000 0 Cumulative ratio 0.0 0.2 0.4 0.6 0.8 1.0 LSF HSF MSF 類似度スコアのヒストグラムの図は [Saito+SSW19] より引用
/31 19 目次 研究背景 従来法:
主観的話者間類似度ベース DNN 話者埋め込み 主観的話者間類似度ベース DNN 話者埋め込みの active learning 実験的評価 まとめ
/31 実験条件 20 データセット (16 kHz sampling) JNAS
[Itou+99] の女性話者153名 主観スコアリング用: 5発話 DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話 (F001 ~ F013 の13名は, 学習データから除外 = 未知話者) 主観スコアリングの値 -3 (似ていない) ~ +3 (似ている) の整数 (DNN 話者埋め込み学習時には [-1, +1] か [0, 1] に正規化) 音声特徴量 40次メルケプストラム, F0, 非周期性指標 DNN アーキテクチャ すべて Feed-Forward 型ネットワーク (詳細は原稿を参照) 話者表現の次元 8 Active learning の設定 Pool-based simulation (未観測スコアは binary masking で損失関数計算から除外) 学習法 (1) Sim. (vec): 類似度ベクトル埋め込み (2) Sim. (mat): 類似度行列埋め込み (3) Sim. (graph): 類似度グラフ埋め込み
/31 21 客観評価指標: 話者表現を用いた類似話者対識別の AUC 目的:
話者表現由来の類似度と主観的な類似度との整合性を評価 – Receiver Operating Characteristic (ROC) curve • 様々な閾値設定を用いた場合の2値分類器の false / true positive rate の変化を可視化 – Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0) • 値が1に近ければ近いほど, 良い識別性能であることを意味 学習話者同士の対 学習話者-未知話者の対 0 1 False positive rate True positive rate 0 1 0 1 ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14] d-vector Sim. (vec) Sim. (mat) Sim. (graph)
/31 22 Active learning の反復による
AUC の改善 各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか 1反復毎のクエリ数: 43 FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) MSF に基づく active learning は, LSF / HSF よりも安定して動作! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph)
/31 23 Active learning の反復による
AUC の改善 各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) Active learning により, FS と同程度の AUC を少ない反復回数で達成! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
/31 24 Active learning の反復による
AUC の改善 各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) 学習-未知話者対 (i.e., open data) の類似度識別精度が劣化 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
/31 25 主観評価指標: VAE に基づく多話者音響モデリングの合成音声品質 VAE
に基づく多話者音響モデリング [Saito+AST21] – 事前学習済みの音声認識モデルと speaker encoder により, 音韻と話者性を分離して VAE 多話者音響モデルを学習 VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16] VAE encoder VAE decoder Pre-trained speech recognition あ a i u PPG Spkr. repr. Pre-trained spkr. encoder VAE latent var. Input speech feats. Generated speech feats. 本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価
/31 26 MSF に基づく active
learning の主観評価 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
/31 27 MSF に基づく active
learning の主観評価 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし MSF に基づく active learning は, FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成!
/31 28 MSF に基づく active
learning の主観評価 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし PS / MSF / FS の DMOS に有意差なし
/31 29 より少ないスコア済みデータを用いた active learning の評価
5% のスコア済みデータを用いて active learning を開始 – クエリ戦略としては MSF のみを使用 FS (100%) PS (5%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU MSF PS (5%) FS (100%) 50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化 を確認 1 (5%) 47 (25%) 104 (50%) 160 (75%) 217 (100%) 0.85 0.80 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.70 0.82 0.78 0.76 0.74 0.80 0.75 0.70 0.65 0.60 0.55 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43 0.60 0.55 0.70 0.65 0.72 0.70 0.80 N/A N/A
/31 30 目次 研究背景 従来法:
主観的話者間類似度ベース DNN 話者埋め込み 主観的話者間類似度ベース DNN 話者埋め込みの active learning 実験的評価 まとめ
/31 31 まとめ 目的: 低コストの主観的話者間類似度ベース
DNN 話者埋め込み – 主観スコアリング / DNN 話者埋め込み学習のコストを削減 提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習 今後の予定 – Active learning におけるハイパーパラメータの影響を調査 • 1反復あたりのクエリ数, クエリ選択の頻度, etc... – 異なるクエリ戦略を用いた場合の性能評価 • (e.g., uncertainty sampling [Lewis+94]) これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →
Advertisement