[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
An Iterative Framework for Self-supervised Deep
Speaker Representation Learning
Hiroshi Sekiguchi, Morikawa Lab

書誌情報
• “An Iterative Framework for Self-supervised Deep Speaker
Representation Learning ”
Danwei Cai!, Weiqing Wang!, Ming Li!†
!Department of Electrical and Computer Engineering, Duke University, Durham, USA
†Data Science Research Center, Duke Kunshan University, Kunshan, China
2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) , pp.6728-6732
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414713
• 概要
– 話者認識(Speaker Recognition)の分野で、①Contrastive learning＋clustering
＋purifying＋擬似ラベルベースspeaker classficationを用いて、② 上記を繰
り返し学習することで、従来のContrastive learningよりも、よい話者表現が
得られた。
– この表現を、話者認識の一応用である話者照合（Speaker Verification)タス
クで適用したところ、話者認証性能が、単純なContrastive learningよりも向
上した。
• 動機：複数音声分離に話者同定の技術を組み込むことで音声分離
の向上を検討 2

アジェンダ
• 背景
• 提案手法
• 評価
• まとめ
• 感想
3

背景: Speaker Recognitionとは
• Speaker Recognition(話者認識)
– Speaker Recognition(話者認識)：人間の声から個人を認識（識別や認証などを含
む）する技術
– 種類として、Speaker Verification(話者照合)、Speaker Identification(話者識別)が
ある
• Speaker Verification（話者照合): 登録してある本人の話者データと一致するかどうかを判断す
る技術
• Speaker Identification（話者識別): 登録してある他人数のデータの誰の声かを特定する
– いずれも、話者の表現学習（Representation Learning)に帰着
4
本論文の対象技術分野
Speaker Recognition
Speaker verification
Speaker Identification

背景:話者表現学習とは
• 話者の表現力学習の種類
– 話者の平均特徴からの差を話者毎の特徴vectorとする： i-vector
– DNNによる特徴量抽出
• Supervisedな方法: →アノテーションの労力は高い
• Unsupervisedな方法（特にSelf-Supervisedな方法）
– Generativeなアプローチ → 波形レベルの再構成は不要
– Discriminativeなアプローチ→Contrastive Learning
5

現状の課題、達成したい目的と提案方策
• 現状の課題
– 従来のContrastive Learningのみの学習で得た表現力には、ラベルにノイズが入
り込んでおり、クラスタリング性能と下流タスク性能を劣化させている
• 達成したい目的
– ラベルノイズを低減し、話者照合タスクの性能を向上させる話者表現の獲得
• 提案方策
– 提案方策①）擬似ラベルの純粋化（purify)：信頼度の低い擬似ラベルを持つデー
タは学習から排除
– 提案方法②）
Contrastive learning → clustering → purify → speaker classification
という、一連の手続きを複数回繰り返すことにより、表現力が増す
– ①と②を併用して、よりよい話者表現を獲得する
6

提案手法-全体1
• ①～⑪を1roundとして、複数
round繰り返す
• Network係数は、次Roundに持ち越
すが、Clusteringの結果は持ち越さ
ない。Clusteringは各Roundでゼロ
から学習する。
7
①
Augmentation
(addition,
reverberation)
②Feature
Extraction
(40-Mel
Spectrogram)
③
Contrastive
Learning
(ResNet/
Pooling/FC)
Speaker
utterance xi
i=1,…N
M＜Nで、2M
がContrastive
learningの
batchの大きさ
Background
noise
time
Mel Spec
2-D Feature
map
Contrastive
Loss
LCSL
Xi,2 i=1,..M
⑪
Classifier(
FC?)
⑨Feature
Extraction
(80-Mel
Spectrogram)
⑩
Embedding
( ResNet x2/
Pooling/FC)
Cross entropy
loss
Lspk
Xi ,i=1,…,N’
• 学習 ⑧
Augmentation
(addition,
reverberation)
⑥Clustering
K-Means
⑦
Purify
128次元
Embedding
vector
擬似ラベル
(N個)
純化した
擬似ラベル
(N’個) N’<N
Xi,1 Xi,2
⑤
Embedding
(ResNet/
Pooling/FC)
Frozen係数θ
Xi,1 i=1,..M
Xi ,i=1,…,N ④Feature
Extraction
(40-Mel
Spectrogram)

提案手法-全体2
• 話者照合テスト（下記の図は、発表者の推測）← 下流タスク？
8
⑩
Embedding
(ResNetx2/
Pooling/FC)
話者X の
テスト音声
話者A
Clusterラベ
ル照会
距離真 or 偽
（例）「話者XはAか？」＠ A氏の銀行口座アクセス
話者Aの
centroid
話者Xの
embedding
Frozen係数θ
⑨Feature
Extraction
(80-Mel
Spectrogram) 真偽
判断

提案手法-要素1
① Augmentation： aug(・)
– 背景ノイズを加算：
環境ノイズ、音楽、テレビ音、
バブルノイズ(複数話者の背景会話)
– 部屋の残響を施す
② ③Mel Spectrogram + Contrastive Learning
– Training Set D = { x1,….,xN } , N:発声総数
– Batch B = { x1,….,xM}, DからM個 (M<N)の発声をrandomにサンプリング
– xiの２つの異なるsegment(2~4秒)：xi,1, xi,2
– 𝑓Θ：Mel Spectrogram extraction + 34-layer ResNet + Pooling + FC
– xi,1, xi,2のembedding：zi,1, zi,2,feature mapの統計量,
– Loss:
9

⑥ Clustering
– K-Means
• 𝑧𝑖 = 𝑓Θ(𝑥𝑖)
• 𝐶 ∈ 𝑅𝑑𝑥𝑘
：centroid 行列, 𝑑: embedding次元数, 𝑘: クラスタ数
• 𝑦𝑖 ∈ 1, … , 𝑘 : 𝑧𝑖に対するクラスタ割り当て（擬似ラベル）
• 𝐶𝑦𝑖
: centroid 行列𝐶の𝑦𝑖番目の列ベクトル
• 𝐶を右記の最小化問題から求める
• 最適割り当て: {𝑦1, … , 𝑦𝑁}, 𝑁: 総サンプル数、を求める
⑦ purify
– 擬似ラベルの信頼度: − 𝑧𝑖 − 𝐶𝑦𝑖 2
2
– 信頼度の低いサンプル順に、総サンプルN個の割合𝑝 0 ≤ 𝑝 ≤ 1 分のサンプル数を、次の⑧⑨
⑩⑪で構成されるclassificationの学習対象から除く
– さらに、結果としてクラスタ内に残るサンプル数が 𝑆 より小さいクラスタに属するサンプルも、
次の⑧⑨⑩⑪で構成されるclassificationの学習対象から除く
– 最初の数roundはpもSも大き目で、信頼度の高いサンプルのみを次の学習に残す 10
𝑓Θ(・)

• ⑧⑨⑩⑪ 信頼度の高い擬似ラベルでのspeaker classification学習
– 信頼度の高い擬似ラベルを持つ学習データ 𝑥𝑖, 𝑦𝑖 , 𝑖 = 1, … , 𝑁′
𝑁′: 信頼度の高いサンプル数
– 𝑓Θ(・)：Mel Spectrogram extraction + 2x (34-layer ResNet) + Pooling + FC
– Embedding: 𝑧𝑖 = 𝑓Θ(𝑎𝑢𝑔(𝑥𝑖))
– Classify: 𝑔𝑤(・)： 𝑊 はclassifyのNetwork係数
– Loss:
𝑔𝑤𝑗(𝑧𝑖) : クラススコアベクトル𝑔𝑤(𝑧𝑖)
のj番目の要素
– Θと𝑊を同時に学習
11
𝑓Θ(・) 𝑔𝑤(・)

評価方法
• 話者照合タスクの性能で評価
• データーセット
① 話者表現学習
◼ Voxceleb2データセット
◼ 話者数：5,994人、発声数：1,092,009
◼ セラブのインタビューvideoの音声部を使用。Videoとラベルは使用しない
② 話者照合テスト
◼ ３種類のデータセット
◼ Voxcelb1
◼ 話者数：40人、発声数：37,720
◼ Voxcelb 1-E
◼ 話者数：1251人、発声数：581,480
◼ Voxcelb 1-H
◼ 話者数：1190人、発声数：552,536
③ Augmentation用ノイズデータ
◼ MUSAN データセット
◼ 背景ノイズを加算：環境ノイズ、音楽、テレビ音、バブルノイズ(複数話者の背景会話)
◼ 部屋の残響を加える
◼ 話者音声とのSNR：0~20dBをランダムに設定、加える時間的頻度は0.6の割合 12

評価尺度
• クラスタリング性能の尺度
– Normal mutual information(NMI): 0 ≤ 𝑁𝑀𝐼 ≤ 1
– 𝑈: ラベルのG.T., 𝑉: 予測した擬似ラベル
– 𝐼(𝑈, 𝑉): 𝑈と𝑉間の相互情報量
– 𝐻 ・ : 𝑒𝑛𝑡𝑟𝑜𝑝𝑦
– 𝑈と𝑉の分布が近い: 1に近い, 𝑈と𝑉の分布が独立:0に近い
• 話者照合の尺度
– Equal Error Rate (EER): 本人拒否率(False negative)と他人受け入れ率(False
positive)が同率になるように調整した時の率 → 小さい方が良い
– minDCF(Detection Cost Function): cost x 本人拒否率＋costｘ他人受け入れ率
→ 小さい方が良い
13

実験設定
• ①②③ Contrastive learning
– Mel spectrogram特徴量: 40次元/フレーム
– １フレーム：25msec Hamming Window, 10msecシフト
– 発声セグメント xi,j : 2~4秒の音声
– 学習：
• Batch size: 256
• 最適化：Adam, 初期学習レート：0.001, 温度係数τ：0.1
• ⑥ clustering
– Cluster数( ハイパーパラメータ)：6000
• ⑧⑨⑩⑪信頼度の高い擬似ラベルでのspeaker classification学習
– 擬似ラベルをG.T.とした教師あり学習
– Mel spectrogram特徴量80次元/フレーム
– Embedding NNに、dropoutあり：過学習防止のため
– 学習：
• 最適化：SDG, 学習率：0.1→学習停滞時に1/10に減少 14

評価結果1
15
• Purifyの効果
– Roundを進める際に、初期の数round
は、厳しめに高信頼度のサンプルのみ
に絞って、Classifyの学習を行う。
Roundが増えるにつれて、信頼度の値
が少々低いサンプルも入れて、
Classifyの学習に使う発声数を増やす
（p↓、S↓)
– NMIが各roundのpurify前と後で、改善
される⇒roundの進行と伴に、クラス
タリング性能が向上している
– Purifyは、クラスタリングの性能向上
に寄与している
Purify
前
Purify
後
向上
増加
減少
減少

評価結果2
• 話者照合テスト性能
– minDCF、ERRともに、３つの
datasetで、roundが進むにつれ
て性能向上する
– Round1では、classify学習に使
うサンプル数が全サンプル数の
32%にも関わらず、高信頼性の
サンプルのみを使っているので、
minCDF, ERR(21.4%改善)とも
に大幅に向上している
– Roundを複数回実行することは、
クラスタリング性能の向上、ひ
いては、話者照合システムの性
能の向上になる
– Fully supervised手法には劣る 16
minDCF EER
増
加減少(=向上)
増
加
(=
向
上
)
真
の
ク
ラ
ス
タ
数
に
近
づ
く

評価結果3
• クラスタリング進捗の可視化（t-SNE)：
６話者の場合
– Roundの進行とともに、クラスタリング、ク
ラスタリングの密度が濃くなる
17

まとめと感想
• まとめ
– Contrastive learning＋clustering＋purifying＋擬似ラベルベースのspeaker Classificationを複数回繰
り返すことで、Contrastive learning単体よりも、話者表現能力が増加し、クラスタリング性能及
び話者照合性能を向上させることができた
– Purifyの効果が、擬似ラベルのノイズによる性能劣化を回避し、round回数の進行と伴に、クラ
スタリング及び話者照合性能を両方を、向上させることができた
– 今後の研究としては、
• 除外すべき信頼度の低いサンプルを選択する洗練された手法の研究：カリキュラム学習、ラベル平滑化
• 各roundのClustering結果を、次のclustering結果に生かす方策
• 感想
– 学習の計算コスト・時間の記述がなかったのが気になる
– Roundを複数回繰り返すと良くなる理論的な根拠はあるのか。その公算があると思えたヒラメ
キはどこから？ 18

[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning

Similar to [DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning