SlideShare a Scribd company logo
©Yuki Saito, 2021/03/04
主観的話者間類似度を考慮した
DNN話者埋め込みのための Active Learning
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大)
第136回 音声言語情報処理研究会 (SIG-SLP)
/31
1
研究背景
 DNN 話者埋め込み: DNN を用いて音声特徴量から話者表現を獲得
– 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ
• 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14])
• 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18])
 本発表: 生成的タスクに適した DNN 話者埋め込みの学習法
– 合成音声の品質改善 & 直感的な声質制御を実現
– 人間の話者知覚を反映するような話者表現を学習
DNN
NG
ASV
DNN
TTS
Discriminative task
(e.g., automatic speaker verification: ASV)
Generative task
(e.g., text-to-speech: TTS)
DNN: Deep Neural Network
/31
2
本発表の概要
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み*
– 話者間類似度の大規模主観スコアリングの結果を用いた学習法
– 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習
 問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト
– スコアリングが必要な話者対の数は, 話者数の2乗に比例
– スコアリング後の DNN 話者埋め込み学習の時間的コストも必要
 提案法: 主観スコアリングと DNN 話者埋め込みの active learning
– 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習
– 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査
 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習
*[Saito+SSW19][齋藤+ASJ2020秋]
/31
3
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
 1. 主観的話者間類似度の大規模スコアリング
 2. 類似度スコアを用いた DNN 話者埋め込みの学習
4
従来法:
主観的話者間類似度ベース DNN 話者埋め込み
DNN
(Spkr. encoder)
Learned
similarity
Speech
feats.
Similarity
score
Spkr.
repr.
Similarity
score
Perceptual
similarity
scoring
Spkr.
pairs
[Saito+SSW19][齋藤+ASJ20秋]
Similarity
loss
/31
5
主観的話者間類似度の大規模スコアリング
 クラウドソーシングで, 話者間の主観的な類似度をスコアリング
– JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用
• 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価
– 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者)
• スコアリングの評価値: -3 (似ていない) ~ +3 (似ている)
• 1つの話者対を少なくとも異なる10名以上が評価
話者対の音声サンプル
/31
6
主観的話者間類似度の行列表現
 類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s
– 𝑁s: スコアリングに用いられた話者数
– 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s
⊤
: 𝑖番目の話者の類似度スコアベクトル
• 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣
3
2
1
0
−1
−2
−3
(a) Full score matrix
(153 females)
(b) Sub-matrix of (a)
(13 females)
本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開
これまでに, 類似度スコアを用いた3つの学習法を提案
/31
 音声特徴量から類似度スコアベクトルを予測するように学習
7
学習法1: 類似度ベクトル埋め込み
𝐿SIM
(vec)
𝒔, 𝒔 =
1
𝑁𝑠
𝒔 − 𝒔 ⊤
𝒔 − 𝒔
Spkr. encoder
𝐿SIM
(vec)
𝒔
𝒔
𝐒
Sim. score
vector Sim. score
matrix
Speech
feats.
Similarity
vector
prediction
𝒅
/31
 話者表現の Gram 行列を類似度スコア行列に近づけるように学習
8
学習法2: 類似度行列埋め込み
𝐿SIM
(mat)
𝐿SIM
(mat)
𝐃, 𝐒 =
1
𝑍s
𝐊𝐃 − 𝐒 𝐹
2
𝐊𝐃
Gram
matrix
Calc.
kernel
𝑘 ⋅,⋅
𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列)
𝐒
Sim. score
matrix
Speech
feats.
𝒅
Spkr. encoder
/31
𝑎𝑖,𝑗
 話者表現の対から類似度グラフの辺の有無を予測するように学習
9
学習法3: 類似度グラフ埋め込み
𝐿SIM
graph
𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗
Spkr. sim.
graph
Edge
prediction 0: no edge
1: exist edge
𝐿SIM
(graph)
𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2
2
: 辺の生起確率 ([Li+18] を参照に定義)
𝐒
Sim. score
matrix
Speech
feats.
𝒅
Spkr. encoder
/31
10
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
11
提案法の動機
 従来法: 主観スコアリング / DNN 話者埋め込みの直列型学習
– 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始
– 問題点1: 主観スコアリングの金銭的コスト
• スコアリング作業の数は, 話者数の2乗に比例
• 評価者1人あたりの作業数を増やせばコストは削減可能だが,
評価者の負担は増加 (スコアリング結果の信頼性低下の可能性)
– 問題点2: DNN 話者埋め込み学習の時間的コスト
• 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要
 動機: 直列型学習からの脱却 & コストの削減
– 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行
– 次にスコア付けすべき話者対の優先度を適切に決定すれば,
少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?
/31
12
Active learning [Settle10]
 目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習
– 少数のラベル付きデータと多数のラベル無しデータを使用
– 逐次的に学習される機械学習モデルの予測結果に基づき,
次にラベル付けすべきデータの優先度を決定
Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)
/31
13
提案法: 主観スコアリングと DNN 話者埋め込みの
active learning
 主観スコアリングと DNN 話者埋め込みの学習を交互に反復
– スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
/31
14
スコア付けされた話者対のデータを用いた
DNN 話者埋め込み学習
 部分的にスコア付けされたデータで spkr. encoder を学習
– 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
/31
15
学習された話者表現を用いた類似度スコア予測
 スコア付けされてない話者対に対して仮の類似度スコアを予測
– Spkr. encoder から出力される話者表現の対で類似度スコアを計算
: +3
: 0
: -2
Predicted
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
/31
16
予測された類似度スコアを用いたクエリ選択
 スコアの予測結果に基づき, 次にスコア付けする話者対を選択
– クエリ戦略: どういった基準で話者対を選択するのかを決定
: +3
: 0
: -2
Predicted
: HSF
: MSF
: LSF
Selected
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
Query
strategy
{ Higher, Middle, Lower }-Similarity First
/31
17
選択されたクエリに対するスコアリング
 評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼
– 新たにスコア付けされた話者対をスコア済みデータのプールに追加
: +3
: 0
: -2
Predicted
: HSF
: MSF
: LSF
Selected
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
Query
strategy
: +1
/31
18
考察
 提案法: human-in-the-loop 型の DNN 話者埋め込み学習
– 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習
• (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21])
 クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位
– LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先
– MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先
Similarity score
−3 −1
−2 0 +2 +3
+1
Frequency
40,000
30,000
20,000
10,000
0
Cumulative
ratio
0.0
0.2
0.4
0.6
0.8
1.0
LSF HSF
MSF
類似度スコアのヒストグラムの図は [Saito+SSW19] より引用
/31
19
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
実験条件
20
データセット
(16 kHz sampling)
JNAS [Itou+99] の女性話者153名
主観スコアリング用: 5発話
DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話
(F001 ~ F013 の13名は, 学習データから除外 = 未知話者)
主観スコアリングの値
-3 (似ていない) ~ +3 (似ている) の整数
(DNN 話者埋め込み学習時には [-1, +1] か [0, 1] に正規化)
音声特徴量 40次メルケプストラム, F0, 非周期性指標
DNN アーキテクチャ すべて Feed-Forward 型ネットワーク (詳細は原稿を参照)
話者表現の次元 8
Active learning の設定
Pool-based simulation
(未観測スコアは binary masking で損失関数計算から除外)
学習法
(1) Sim. (vec): 類似度ベクトル埋め込み
(2) Sim. (mat): 類似度行列埋め込み
(3) Sim. (graph): 類似度グラフ埋め込み
/31
21
客観評価指標:
話者表現を用いた類似話者対識別の AUC
 目的: 話者表現由来の類似度と主観的な類似度との整合性を評価
– Receiver Operating Characteristic (ROC) curve
• 様々な閾値設定を用いた場合の2値分類器の
false / true positive rate の変化を可視化
– Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0)
• 値が1に近ければ近いほど, 良い識別性能であることを意味
学習話者同士の対 学習話者-未知話者の対
0
1
False positive rate
True
positive
rate
0 1 0 1
ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14]
d-vector
Sim. (vec)
Sim. (mat)
Sim. (graph)
/31
22
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
1反復毎のクエリ数: 43
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
MSF に基づく active learning は, LSF / HSF よりも安定して動作!
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
/31
23
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
Active learning により, FS と同程度の AUC を少ない反復回数で達成!
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
/31
24
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
学習-未知話者対 (i.e., open data) の類似度識別精度が劣化
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
/31
25
主観評価指標:
VAE に基づく多話者音響モデリングの合成音声品質
 VAE に基づく多話者音響モデリング [Saito+AST21]
– 事前学習済みの音声認識モデルと speaker encoder により,
音韻と話者性を分離して VAE 多話者音響モデルを学習
VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16]
VAE
encoder
VAE
decoder
Pre-trained
speech
recognition
あ
a
i
u
PPG
Spkr. repr.
Pre-trained
spkr.
encoder
VAE
latent var.
Input
speech
feats.
Generated
speech
feats.
本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価
/31
26
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
/31
27
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
MSF に基づく active learning は,
FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成!
/31
28
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
PS / MSF / FS の DMOS に有意差なし
/31
29
より少ないスコア済みデータを用いた
active learning の評価
 5% のスコア済みデータを用いて active learning を開始
– クエリ戦略としては MSF のみを使用
FS
(100%)
PS
(5%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
MSF PS (5%) FS (100%)
50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化 を確認
1
(5%)
47
(25%)
104
(50%)
160
(75%)
217
(100%)
0.85
0.80
0.75
0.70
0.65
0.90
0.85
0.80
0.75
0.75
0.70
0.65
0.90
0.85
0.80
0.75
0.70
0.82
0.78
0.76
0.74
0.80
0.75
0.70
0.65
0.60
0.55
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
0.60
0.55
0.70
0.65
0.72
0.70
0.80
N/A
N/A
/31
30
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
31
まとめ
 目的: 低コストの主観的話者間類似度ベース DNN 話者埋め込み
– 主観スコアリング / DNN 話者埋め込み学習のコストを削減
 提案法: 主観スコアリングと DNN 話者埋め込みの active learning
– 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習
– 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査
 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習
 今後の予定
– Active learning におけるハイパーパラメータの影響を調査
• 1反復あたりのクエリ数, クエリ選択の頻度, etc...
– 異なるクエリ戦略を用いた場合の性能評価
• (e.g., uncertainty sampling [Lewis+94])
 これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →

More Related Content

What's hot

Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
 
Slp201702
Slp201702Slp201702
Slp201702
Yuki Saito
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
Akira Tamamori
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
 

What's hot (20)

Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
Slp201702
Slp201702Slp201702
Slp201702
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 

More from Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
Yuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
Yuki Saito
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
Yuki Saito
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
Yuki Saito
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
Yuki Saito
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
Yuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
Yuki Saito
 

More from Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 

Recently uploaded

Describing and Interpreting an Immersive Learning Case with the Immersion Cub...
Describing and Interpreting an Immersive Learning Case with the Immersion Cub...Describing and Interpreting an Immersive Learning Case with the Immersion Cub...
Describing and Interpreting an Immersive Learning Case with the Immersion Cub...
Leonel Morgado
 
molar-distalization in orthodontics-seminar.pptx
molar-distalization in orthodontics-seminar.pptxmolar-distalization in orthodontics-seminar.pptx
molar-distalization in orthodontics-seminar.pptx
Anagha Prasad
 
GBSN - Biochemistry (Unit 6) Chemistry of Proteins
GBSN - Biochemistry (Unit 6) Chemistry of ProteinsGBSN - Biochemistry (Unit 6) Chemistry of Proteins
GBSN - Biochemistry (Unit 6) Chemistry of Proteins
Areesha Ahmad
 
Micronuclei test.M.sc.zoology.fisheries.
Micronuclei test.M.sc.zoology.fisheries.Micronuclei test.M.sc.zoology.fisheries.
Micronuclei test.M.sc.zoology.fisheries.
Aditi Bajpai
 
Basics of crystallography, crystal systems, classes and different forms
Basics of crystallography, crystal systems, classes and different formsBasics of crystallography, crystal systems, classes and different forms
Basics of crystallography, crystal systems, classes and different forms
MaheshaNanjegowda
 
Equivariant neural networks and representation theory
Equivariant neural networks and representation theoryEquivariant neural networks and representation theory
Equivariant neural networks and representation theory
Daniel Tubbenhauer
 
20240520 Planning a Circuit Simulator in JavaScript.pptx
20240520 Planning a Circuit Simulator in JavaScript.pptx20240520 Planning a Circuit Simulator in JavaScript.pptx
20240520 Planning a Circuit Simulator in JavaScript.pptx
Sharon Liu
 
Sciences of Europe journal No 142 (2024)
Sciences of Europe journal No 142 (2024)Sciences of Europe journal No 142 (2024)
Sciences of Europe journal No 142 (2024)
Sciences of Europe
 
Unlocking the mysteries of reproduction: Exploring fecundity and gonadosomati...
Unlocking the mysteries of reproduction: Exploring fecundity and gonadosomati...Unlocking the mysteries of reproduction: Exploring fecundity and gonadosomati...
Unlocking the mysteries of reproduction: Exploring fecundity and gonadosomati...
AbdullaAlAsif1
 
Applied Science: Thermodynamics, Laws & Methodology.pdf
Applied Science: Thermodynamics, Laws & Methodology.pdfApplied Science: Thermodynamics, Laws & Methodology.pdf
Applied Science: Thermodynamics, Laws & Methodology.pdf
University of Hertfordshire
 
Authoring a personal GPT for your research and practice: How we created the Q...
Authoring a personal GPT for your research and practice: How we created the Q...Authoring a personal GPT for your research and practice: How we created the Q...
Authoring a personal GPT for your research and practice: How we created the Q...
Leonel Morgado
 
Oedema_types_causes_pathophysiology.pptx
Oedema_types_causes_pathophysiology.pptxOedema_types_causes_pathophysiology.pptx
Oedema_types_causes_pathophysiology.pptx
muralinath2
 
THEMATIC APPERCEPTION TEST(TAT) cognitive abilities, creativity, and critic...
THEMATIC  APPERCEPTION  TEST(TAT) cognitive abilities, creativity, and critic...THEMATIC  APPERCEPTION  TEST(TAT) cognitive abilities, creativity, and critic...
THEMATIC APPERCEPTION TEST(TAT) cognitive abilities, creativity, and critic...
Abdul Wali Khan University Mardan,kP,Pakistan
 
Sharlene Leurig - Enabling Onsite Water Use with Net Zero Water
Sharlene Leurig - Enabling Onsite Water Use with Net Zero WaterSharlene Leurig - Enabling Onsite Water Use with Net Zero Water
Sharlene Leurig - Enabling Onsite Water Use with Net Zero Water
Texas Alliance of Groundwater Districts
 
Randomised Optimisation Algorithms in DAPHNE
Randomised Optimisation Algorithms in DAPHNERandomised Optimisation Algorithms in DAPHNE
Randomised Optimisation Algorithms in DAPHNE
University of Maribor
 
The cost of acquiring information by natural selection
The cost of acquiring information by natural selectionThe cost of acquiring information by natural selection
The cost of acquiring information by natural selection
Carl Bergstrom
 
Phenomics assisted breeding in crop improvement
Phenomics assisted breeding in crop improvementPhenomics assisted breeding in crop improvement
Phenomics assisted breeding in crop improvement
IshaGoswami9
 
8.Isolation of pure cultures and preservation of cultures.pdf
8.Isolation of pure cultures and preservation of cultures.pdf8.Isolation of pure cultures and preservation of cultures.pdf
8.Isolation of pure cultures and preservation of cultures.pdf
by6843629
 
Direct Seeded Rice - Climate Smart Agriculture
Direct Seeded Rice - Climate Smart AgricultureDirect Seeded Rice - Climate Smart Agriculture
Direct Seeded Rice - Climate Smart Agriculture
International Food Policy Research Institute- South Asia Office
 
EWOCS-I: The catalog of X-ray sources in Westerlund 1 from the Extended Weste...
EWOCS-I: The catalog of X-ray sources in Westerlund 1 from the Extended Weste...EWOCS-I: The catalog of X-ray sources in Westerlund 1 from the Extended Weste...
EWOCS-I: The catalog of X-ray sources in Westerlund 1 from the Extended Weste...
Sérgio Sacani
 

Recently uploaded (20)

Describing and Interpreting an Immersive Learning Case with the Immersion Cub...
Describing and Interpreting an Immersive Learning Case with the Immersion Cub...Describing and Interpreting an Immersive Learning Case with the Immersion Cub...
Describing and Interpreting an Immersive Learning Case with the Immersion Cub...
 
molar-distalization in orthodontics-seminar.pptx
molar-distalization in orthodontics-seminar.pptxmolar-distalization in orthodontics-seminar.pptx
molar-distalization in orthodontics-seminar.pptx
 
GBSN - Biochemistry (Unit 6) Chemistry of Proteins
GBSN - Biochemistry (Unit 6) Chemistry of ProteinsGBSN - Biochemistry (Unit 6) Chemistry of Proteins
GBSN - Biochemistry (Unit 6) Chemistry of Proteins
 
Micronuclei test.M.sc.zoology.fisheries.
Micronuclei test.M.sc.zoology.fisheries.Micronuclei test.M.sc.zoology.fisheries.
Micronuclei test.M.sc.zoology.fisheries.
 
Basics of crystallography, crystal systems, classes and different forms
Basics of crystallography, crystal systems, classes and different formsBasics of crystallography, crystal systems, classes and different forms
Basics of crystallography, crystal systems, classes and different forms
 
Equivariant neural networks and representation theory
Equivariant neural networks and representation theoryEquivariant neural networks and representation theory
Equivariant neural networks and representation theory
 
20240520 Planning a Circuit Simulator in JavaScript.pptx
20240520 Planning a Circuit Simulator in JavaScript.pptx20240520 Planning a Circuit Simulator in JavaScript.pptx
20240520 Planning a Circuit Simulator in JavaScript.pptx
 
Sciences of Europe journal No 142 (2024)
Sciences of Europe journal No 142 (2024)Sciences of Europe journal No 142 (2024)
Sciences of Europe journal No 142 (2024)
 
Unlocking the mysteries of reproduction: Exploring fecundity and gonadosomati...
Unlocking the mysteries of reproduction: Exploring fecundity and gonadosomati...Unlocking the mysteries of reproduction: Exploring fecundity and gonadosomati...
Unlocking the mysteries of reproduction: Exploring fecundity and gonadosomati...
 
Applied Science: Thermodynamics, Laws & Methodology.pdf
Applied Science: Thermodynamics, Laws & Methodology.pdfApplied Science: Thermodynamics, Laws & Methodology.pdf
Applied Science: Thermodynamics, Laws & Methodology.pdf
 
Authoring a personal GPT for your research and practice: How we created the Q...
Authoring a personal GPT for your research and practice: How we created the Q...Authoring a personal GPT for your research and practice: How we created the Q...
Authoring a personal GPT for your research and practice: How we created the Q...
 
Oedema_types_causes_pathophysiology.pptx
Oedema_types_causes_pathophysiology.pptxOedema_types_causes_pathophysiology.pptx
Oedema_types_causes_pathophysiology.pptx
 
THEMATIC APPERCEPTION TEST(TAT) cognitive abilities, creativity, and critic...
THEMATIC  APPERCEPTION  TEST(TAT) cognitive abilities, creativity, and critic...THEMATIC  APPERCEPTION  TEST(TAT) cognitive abilities, creativity, and critic...
THEMATIC APPERCEPTION TEST(TAT) cognitive abilities, creativity, and critic...
 
Sharlene Leurig - Enabling Onsite Water Use with Net Zero Water
Sharlene Leurig - Enabling Onsite Water Use with Net Zero WaterSharlene Leurig - Enabling Onsite Water Use with Net Zero Water
Sharlene Leurig - Enabling Onsite Water Use with Net Zero Water
 
Randomised Optimisation Algorithms in DAPHNE
Randomised Optimisation Algorithms in DAPHNERandomised Optimisation Algorithms in DAPHNE
Randomised Optimisation Algorithms in DAPHNE
 
The cost of acquiring information by natural selection
The cost of acquiring information by natural selectionThe cost of acquiring information by natural selection
The cost of acquiring information by natural selection
 
Phenomics assisted breeding in crop improvement
Phenomics assisted breeding in crop improvementPhenomics assisted breeding in crop improvement
Phenomics assisted breeding in crop improvement
 
8.Isolation of pure cultures and preservation of cultures.pdf
8.Isolation of pure cultures and preservation of cultures.pdf8.Isolation of pure cultures and preservation of cultures.pdf
8.Isolation of pure cultures and preservation of cultures.pdf
 
Direct Seeded Rice - Climate Smart Agriculture
Direct Seeded Rice - Climate Smart AgricultureDirect Seeded Rice - Climate Smart Agriculture
Direct Seeded Rice - Climate Smart Agriculture
 
EWOCS-I: The catalog of X-ray sources in Westerlund 1 from the Extended Weste...
EWOCS-I: The catalog of X-ray sources in Westerlund 1 from the Extended Weste...EWOCS-I: The catalog of X-ray sources in Westerlund 1 from the Extended Weste...
EWOCS-I: The catalog of X-ray sources in Westerlund 1 from the Extended Weste...
 

Saito2103slp

  • 1. ©Yuki Saito, 2021/03/04 主観的話者間類似度を考慮した DNN話者埋め込みのための Active Learning 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大) 第136回 音声言語情報処理研究会 (SIG-SLP)
  • 2. /31 1 研究背景  DNN 話者埋め込み: DNN を用いて音声特徴量から話者表現を獲得 – 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ • 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14]) • 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18])  本発表: 生成的タスクに適した DNN 話者埋め込みの学習法 – 合成音声の品質改善 & 直感的な声質制御を実現 – 人間の話者知覚を反映するような話者表現を学習 DNN NG ASV DNN TTS Discriminative task (e.g., automatic speaker verification: ASV) Generative task (e.g., text-to-speech: TTS) DNN: Deep Neural Network
  • 3. /31 2 本発表の概要  従来法: 主観的話者間類似度ベース DNN 話者埋め込み* – 話者間類似度の大規模主観スコアリングの結果を用いた学習法 – 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習  問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト – スコアリングが必要な話者対の数は, 話者数の2乗に比例 – スコアリング後の DNN 話者埋め込み学習の時間的コストも必要  提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査  結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習 *[Saito+SSW19][齋藤+ASJ2020秋]
  • 4. /31 3 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 5. /31  1. 主観的話者間類似度の大規模スコアリング  2. 類似度スコアを用いた DNN 話者埋め込みの学習 4 従来法: 主観的話者間類似度ベース DNN 話者埋め込み DNN (Spkr. encoder) Learned similarity Speech feats. Similarity score Spkr. repr. Similarity score Perceptual similarity scoring Spkr. pairs [Saito+SSW19][齋藤+ASJ20秋] Similarity loss
  • 6. /31 5 主観的話者間類似度の大規模スコアリング  クラウドソーシングで, 話者間の主観的な類似度をスコアリング – JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用 • 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価 – 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者) • スコアリングの評価値: -3 (似ていない) ~ +3 (似ている) • 1つの話者対を少なくとも異なる10名以上が評価 話者対の音声サンプル
  • 7. /31 6 主観的話者間類似度の行列表現  類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s – 𝑁s: スコアリングに用いられた話者数 – 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s ⊤ : 𝑖番目の話者の類似度スコアベクトル • 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣 3 2 1 0 −1 −2 −3 (a) Full score matrix (153 females) (b) Sub-matrix of (a) (13 females) 本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開 これまでに, 類似度スコアを用いた3つの学習法を提案
  • 8. /31  音声特徴量から類似度スコアベクトルを予測するように学習 7 学習法1: 類似度ベクトル埋め込み 𝐿SIM (vec) 𝒔, 𝒔 = 1 𝑁𝑠 𝒔 − 𝒔 ⊤ 𝒔 − 𝒔 Spkr. encoder 𝐿SIM (vec) 𝒔 𝒔 𝐒 Sim. score vector Sim. score matrix Speech feats. Similarity vector prediction 𝒅
  • 9. /31  話者表現の Gram 行列を類似度スコア行列に近づけるように学習 8 学習法2: 類似度行列埋め込み 𝐿SIM (mat) 𝐿SIM (mat) 𝐃, 𝐒 = 1 𝑍s 𝐊𝐃 − 𝐒 𝐹 2 𝐊𝐃 Gram matrix Calc. kernel 𝑘 ⋅,⋅ 𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
  • 10. /31 𝑎𝑖,𝑗  話者表現の対から類似度グラフの辺の有無を予測するように学習 9 学習法3: 類似度グラフ埋め込み 𝐿SIM graph 𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗 Spkr. sim. graph Edge prediction 0: no edge 1: exist edge 𝐿SIM (graph) 𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2 2 : 辺の生起確率 ([Li+18] を参照に定義) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
  • 11. /31 10 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 12. /31 11 提案法の動機  従来法: 主観スコアリング / DNN 話者埋め込みの直列型学習 – 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始 – 問題点1: 主観スコアリングの金銭的コスト • スコアリング作業の数は, 話者数の2乗に比例 • 評価者1人あたりの作業数を増やせばコストは削減可能だが, 評価者の負担は増加 (スコアリング結果の信頼性低下の可能性) – 問題点2: DNN 話者埋め込み学習の時間的コスト • 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要  動機: 直列型学習からの脱却 & コストの削減 – 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行 – 次にスコア付けすべき話者対の優先度を適切に決定すれば, 少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?
  • 13. /31 12 Active learning [Settle10]  目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習 – 少数のラベル付きデータと多数のラベル無しデータを使用 – 逐次的に学習される機械学習モデルの予測結果に基づき, 次にラベル付けすべきデータの優先度を決定 Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)
  • 14. /31 13 提案法: 主観スコアリングと DNN 話者埋め込みの active learning  主観スコアリングと DNN 話者埋め込みの学習を交互に反復 – スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習 Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs
  • 15. /31 14 スコア付けされた話者対のデータを用いた DNN 話者埋め込み学習  部分的にスコア付けされたデータで spkr. encoder を学習 – 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
  • 16. /31 15 学習された話者表現を用いた類似度スコア予測  スコア付けされてない話者対に対して仮の類似度スコアを予測 – Spkr. encoder から出力される話者表現の対で類似度スコアを計算 : +3 : 0 : -2 Predicted Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
  • 17. /31 16 予測された類似度スコアを用いたクエリ選択  スコアの予測結果に基づき, 次にスコア付けする話者対を選択 – クエリ戦略: どういった基準で話者対を選択するのかを決定 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy { Higher, Middle, Lower }-Similarity First
  • 18. /31 17 選択されたクエリに対するスコアリング  評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼 – 新たにスコア付けされた話者対をスコア済みデータのプールに追加 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy : +1
  • 19. /31 18 考察  提案法: human-in-the-loop 型の DNN 話者埋め込み学習 – 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習 • (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21])  クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位 – LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先 – MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先 Similarity score −3 −1 −2 0 +2 +3 +1 Frequency 40,000 30,000 20,000 10,000 0 Cumulative ratio 0.0 0.2 0.4 0.6 0.8 1.0 LSF HSF MSF 類似度スコアのヒストグラムの図は [Saito+SSW19] より引用
  • 20. /31 19 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 21. /31 実験条件 20 データセット (16 kHz sampling) JNAS [Itou+99] の女性話者153名 主観スコアリング用: 5発話 DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話 (F001 ~ F013 の13名は, 学習データから除外 = 未知話者) 主観スコアリングの値 -3 (似ていない) ~ +3 (似ている) の整数 (DNN 話者埋め込み学習時には [-1, +1] か [0, 1] に正規化) 音声特徴量 40次メルケプストラム, F0, 非周期性指標 DNN アーキテクチャ すべて Feed-Forward 型ネットワーク (詳細は原稿を参照) 話者表現の次元 8 Active learning の設定 Pool-based simulation (未観測スコアは binary masking で損失関数計算から除外) 学習法 (1) Sim. (vec): 類似度ベクトル埋め込み (2) Sim. (mat): 類似度行列埋め込み (3) Sim. (graph): 類似度グラフ埋め込み
  • 22. /31 21 客観評価指標: 話者表現を用いた類似話者対識別の AUC  目的: 話者表現由来の類似度と主観的な類似度との整合性を評価 – Receiver Operating Characteristic (ROC) curve • 様々な閾値設定を用いた場合の2値分類器の false / true positive rate の変化を可視化 – Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0) • 値が1に近ければ近いほど, 良い識別性能であることを意味 学習話者同士の対 学習話者-未知話者の対 0 1 False positive rate True positive rate 0 1 0 1 ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14] d-vector Sim. (vec) Sim. (mat) Sim. (graph)
  • 23. /31 22 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか 1反復毎のクエリ数: 43 FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) MSF に基づく active learning は, LSF / HSF よりも安定して動作! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph)
  • 24. /31 23 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) Active learning により, FS と同程度の AUC を少ない反復回数で達成! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
  • 25. /31 24 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) 学習-未知話者対 (i.e., open data) の類似度識別精度が劣化 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
  • 26. /31 25 主観評価指標: VAE に基づく多話者音響モデリングの合成音声品質  VAE に基づく多話者音響モデリング [Saito+AST21] – 事前学習済みの音声認識モデルと speaker encoder により, 音韻と話者性を分離して VAE 多話者音響モデルを学習 VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16] VAE encoder VAE decoder Pre-trained speech recognition あ a i u PPG Spkr. repr. Pre-trained spkr. encoder VAE latent var. Input speech feats. Generated speech feats. 本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価
  • 27. /31 26 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
  • 28. /31 27 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし MSF に基づく active learning は, FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成!
  • 29. /31 28 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし PS / MSF / FS の DMOS に有意差なし
  • 30. /31 29 より少ないスコア済みデータを用いた active learning の評価  5% のスコア済みデータを用いて active learning を開始 – クエリ戦略としては MSF のみを使用 FS (100%) PS (5%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU MSF PS (5%) FS (100%) 50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化 を確認 1 (5%) 47 (25%) 104 (50%) 160 (75%) 217 (100%) 0.85 0.80 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.70 0.82 0.78 0.76 0.74 0.80 0.75 0.70 0.65 0.60 0.55 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43 0.60 0.55 0.70 0.65 0.72 0.70 0.80 N/A N/A
  • 31. /31 30 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 32. /31 31 まとめ  目的: 低コストの主観的話者間類似度ベース DNN 話者埋め込み – 主観スコアリング / DNN 話者埋め込み学習のコストを削減  提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査  結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習  今後の予定 – Active learning におけるハイパーパラメータの影響を調査 • 1反復あたりのクエリ数, クエリ選択の頻度, etc... – 異なるクエリ戦略を用いた場合の性能評価 • (e.g., uncertainty sampling [Lewis+94])  これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →