SlideShare a Scribd company logo
1 of 19
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
An Iterative Framework for Self-supervised Deep
Speaker Representation Learning
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “An Iterative Framework for Self-supervised Deep Speaker
Representation Learning ”
Danwei Cai!, Weiqing Wang!, Ming Li!†
!Department of Electrical and Computer Engineering, Duke University, Durham, USA
†Data Science Research Center, Duke Kunshan University, Kunshan, China
2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) , pp.6728-6732
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414713
• 概要
– 話者認識(Speaker Recognition)の分野で、①Contrastive learning+clustering
+purifying+擬似ラベルベースspeaker classficationを用いて、② 上記を繰
り返し学習することで、従来のContrastive learningよりも、よい話者表現が
得られた。
– この表現を、話者認識の一応用である話者照合(Speaker Verification)タス
クで適用したところ、話者認証性能が、単純なContrastive learningよりも向
上した。
• 動機:複数音声分離に話者同定の技術を組み込むことで音声分離
の向上を検討 2
アジェンダ
• 背景
• 提案手法
• 評価
• まとめ
• 感想
3
背景: Speaker Recognitionとは
• Speaker Recognition(話者認識)
– Speaker Recognition(話者認識):人間の声から個人を認識(識別や認証などを含
む)する技術
– 種類として、Speaker Verification(話者照合)、Speaker Identification(話者識別)が
ある
• Speaker Verification(話者照合): 登録してある本人の話者データと一致するかどうかを判断す
る技術
• Speaker Identification(話者識別): 登録してある他人数のデータの誰の声かを特定する
– いずれも、話者の表現学習(Representation Learning)に帰着
4
本論文の対象技術分野
Speaker Recognition
Speaker verification
Speaker Identification
背景:話者表現学習とは
• 話者の表現力学習の種類
– 話者の平均特徴からの差を話者毎の特徴vectorとする: i-vector
– DNNによる特徴量抽出
• Supervisedな方法: →アノテーションの労力は高い
• Unsupervisedな方法(特にSelf-Supervisedな方法)
– Generativeなアプローチ → 波形レベルの再構成は不要
– Discriminativeなアプローチ→Contrastive Learning
5
現状の課題、達成したい目的と提案方策
• 現状の課題
– 従来のContrastive Learningのみの学習で得た表現力には、ラベルにノイズが入
り込んでおり、クラスタリング性能と下流タスク性能を劣化させている
• 達成したい目的
– ラベルノイズを低減し、話者照合タスクの性能を向上させる話者表現の獲得
• 提案方策
– 提案方策①)擬似ラベルの純粋化(purify):信頼度の低い擬似ラベルを持つデー
タは学習から排除
– 提案方法②)
Contrastive learning → clustering → purify → speaker classification
という、一連の手続きを複数回繰り返すことにより、表現力が増す
– ①と②を併用して、よりよい話者表現を獲得する
6
提案手法-全体1
• ①~⑪を1roundとして、複数
round繰り返す
• Network係数は、次Roundに持ち越
すが、Clusteringの結果は持ち越さ
ない。Clusteringは各Roundでゼロ
から学習する。
7
①
Augmentation
(addition,
reverberation)
②Feature
Extraction
(40-Mel
Spectrogram)
③
Contrastive
Learning
(ResNet/
Pooling/FC)
Speaker
utterance xi
i=1,…N
M<Nで、2M
がContrastive
learningの
batchの大きさ
Background
noise
time
Mel Spec
2-D Feature
map
Contrastive
Loss
LCSL
Xi,2 i=1,..M
⑪
Classifier(
FC?)
⑨Feature
Extraction
(80-Mel
Spectrogram)
⑩
Embedding
( ResNet x2/
Pooling/FC)
Cross entropy
loss
Lspk
Xi ,i=1,…,N’
• 学習 ⑧
Augmentation
(addition,
reverberation)
⑥Clustering
K-Means
⑦
Purify
128次元
Embedding
vector
擬似ラベル
(N個)
純化した
擬似ラベル
(N’個) N’<N
Xi,1 Xi,2
⑤
Embedding
(ResNet/
Pooling/FC)
Frozen係数θ
Xi,1 i=1,..M
Xi ,i=1,…,N ④Feature
Extraction
(40-Mel
Spectrogram)
提案手法-全体2
• 話者照合テスト(下記の図は、発表者の推測)← 下流タスク?
8
⑩
Embedding
(ResNetx2/
Pooling/FC)
話者X の
テスト音声
話者A
Clusterラベ
ル照会
距離 真 or 偽
(例)「話者XはAか?」@ A氏の銀行口座アクセス
話者Aの
centroid
話者Xの
embedding
Frozen係数θ
⑨Feature
Extraction
(80-Mel
Spectrogram) 真偽
判断
提案手法-要素1
① Augmentation: aug(・)
– 背景ノイズを加算:
環境ノイズ、音楽、テレビ音、
バブルノイズ(複数話者の背景会話)
– 部屋の残響を施す
② ③Mel Spectrogram + Contrastive Learning
– Training Set D = { x1,….,xN } , N:発声総数
– Batch B = { x1,….,xM}, DからM個 (M<N)の発声をrandomにサンプリング
– xiの2つの異なるsegment(2~4秒):xi,1, xi,2
– 𝑓Θ:Mel Spectrogram extraction + 34-layer ResNet + Pooling + FC
– xi,1, xi,2のembedding:zi,1, zi,2,feature mapの統計量,
– Loss:
9
提案手法-要素2
⑥ Clustering
– K-Means
• 𝑧𝑖 = 𝑓Θ(𝑥𝑖)
• 𝐶 ∈ 𝑅𝑑𝑥𝑘
:centroid 行列, 𝑑: embedding次元数, 𝑘: クラスタ数
• 𝑦𝑖 ∈ 1, … , 𝑘 : 𝑧𝑖に対するクラスタ割り当て(擬似ラベル)
• 𝐶𝑦𝑖
: centroid 行列𝐶の𝑦𝑖番目の列ベクトル
• 𝐶を右記の最小化問題から求める
• 最適割り当て: {𝑦1, … , 𝑦𝑁}, 𝑁: 総サンプル数、を求める
⑦ purify
– 擬似ラベルの信頼度: − 𝑧𝑖 − 𝐶𝑦𝑖 2
2
– 信頼度の低いサンプル順に、総サンプルN個の割合𝑝 0 ≤ 𝑝 ≤ 1 分のサンプル数を、次の⑧⑨
⑩⑪で構成されるclassificationの学習対象から除く
– さらに、結果としてクラスタ内に残るサンプル数が 𝑆 より小さいクラスタに属するサンプルも、
次の⑧⑨⑩⑪で構成されるclassificationの学習対象から除く
– 最初の数roundはpもSも大き目で、信頼度の高いサンプルのみを次の学習に残す 10
𝑓Θ(・)
提案手法-要素3
• ⑧⑨⑩⑪ 信頼度の高い擬似ラベルでのspeaker classification学習
– 信頼度の高い擬似ラベルを持つ学習データ 𝑥𝑖, 𝑦𝑖 , 𝑖 = 1, … , 𝑁′
𝑁′: 信頼度の高いサンプル数
– 𝑓Θ(・):Mel Spectrogram extraction + 2x (34-layer ResNet) + Pooling + FC
– Embedding: 𝑧𝑖 = 𝑓Θ(𝑎𝑢𝑔(𝑥𝑖))
– Classify: 𝑔𝑤(・): 𝑊 はclassifyのNetwork係数
– Loss:
𝑔𝑤𝑗(𝑧𝑖) : クラススコアベクトル𝑔𝑤(𝑧𝑖)
のj番目の要素
– Θと𝑊を同時に学習
11
𝑓Θ(・) 𝑔𝑤(・)
評価方法
• 話者照合タスクの性能で評価
• データーセット
① 話者表現学習
◼ Voxceleb2データセット
◼ 話者数:5,994人、発声数:1,092,009
◼ セラブのインタビューvideoの音声部を使用。Videoとラベルは使用しない
② 話者照合テスト
◼ 3種類のデータセット
◼ Voxcelb1
◼ 話者数:40人、発声数:37,720
◼ Voxcelb 1-E
◼ 話者数:1251人、発声数:581,480
◼ Voxcelb 1-H
◼ 話者数:1190人、発声数:552,536
③ Augmentation用ノイズデータ
◼ MUSAN データセット
◼ 背景ノイズを加算:環境ノイズ、音楽、テレビ音、バブルノイズ(複数話者の背景会話)
◼ 部屋の残響を加える
◼ 話者音声とのSNR:0~20dBをランダムに設定、加える時間的頻度は0.6の割合 12
評価尺度
• クラスタリング性能の尺度
– Normal mutual information(NMI): 0 ≤ 𝑁𝑀𝐼 ≤ 1
– 𝑈: ラベルのG.T., 𝑉: 予測した擬似ラベル
– 𝐼(𝑈, 𝑉): 𝑈と𝑉間の相互情報量
– 𝐻 ・ : 𝑒𝑛𝑡𝑟𝑜𝑝𝑦
– 𝑈と𝑉の分布が近い: 1に近い, 𝑈と𝑉の分布が独立:0に近い
• 話者照合の尺度
– Equal Error Rate (EER): 本人拒否率(False negative)と他人受け入れ率(False
positive)が同率になるように調整した時の率 → 小さい方が良い
– minDCF(Detection Cost Function): cost x 本人拒否率+costx他人受け入れ率
→ 小さい方が良い
13
実験設定
• ①②③ Contrastive learning
– Mel spectrogram特徴量: 40次元/フレーム
– 1フレーム:25msec Hamming Window, 10msecシフト
– 発声セグメント xi,j : 2~4秒の音声
– 学習:
• Batch size: 256
• 最適化:Adam, 初期学習レート:0.001, 温度係数τ:0.1
• ⑥ clustering
– Cluster数( ハイパーパラメータ):6000
• ⑧⑨⑩⑪信頼度の高い擬似ラベルでのspeaker classification学習
– 擬似ラベルをG.T.とした教師あり学習
– Mel spectrogram特徴量80次元/フレーム
– Embedding NNに、dropoutあり:過学習防止のため
– 学習:
• 最適化:SDG, 学習率:0.1→学習停滞時に1/10に減少 14
評価結果1
15
• Purifyの効果
– Roundを進める際に、初期の数round
は、厳しめに高信頼度のサンプルのみ
に絞って、Classifyの学習を行う。
Roundが増えるにつれて、信頼度の値
が少々低いサンプルも入れて、
Classifyの学習に使う発声数を増やす
(p↓、S↓)
– NMIが各roundのpurify前と後で、改善
される⇒roundの進行と伴に、クラス
タリング性能が向上している
– Purifyは、クラスタリングの性能向上
に寄与している
Purify
前
Purify
後
向上
増加
減少
減少
評価結果2
• 話者照合テスト性能
– minDCF、ERRともに、3つの
datasetで、roundが進むにつれ
て性能向上する
– Round1では、classify学習に使
うサンプル数が全サンプル数の
32%にも関わらず、高信頼性の
サンプルのみを使っているので、
minCDF, ERR(21.4%改善)とも
に大幅に向上している
– Roundを複数回実行することは、
クラスタリング性能の向上、ひ
いては、話者照合システムの性
能の向上になる
– Fully supervised手法には劣る 16
minDCF EER
増
加 減少(=向上)
増
加
(=
向
上
)
真
の
ク
ラ
ス
タ
数
に
近
づ
く
評価結果3
• クラスタリング進捗の可視化(t-SNE):
6話者の場合
– Roundの進行とともに、クラスタリング、ク
ラスタリングの密度が濃くなる
17
まとめと感想
• まとめ
– Contrastive learning+clustering+purifying+擬似ラベルベースのspeaker Classificationを複数回繰
り返すことで、Contrastive learning単体よりも、話者表現能力が増加し、クラスタリング性能及
び話者照合性能を向上させることができた
– Purifyの効果が、擬似ラベルのノイズによる性能劣化を回避し、round回数の進行と伴に、クラ
スタリング及び話者照合性能を両方を、向上させることができた
– 今後の研究としては、
• 除外すべき信頼度の低いサンプルを選択する洗練された手法の研究:カリキュラム学習、ラベル平滑化
• 各roundのClustering結果を、次のclustering結果に生かす方策
• 感想
– 学習の計算コスト・時間の記述がなかったのが気になる
– Roundを複数回繰り返すと良くなる理論的な根拠はあるのか。その公算があると思えたヒラメ
キはどこから? 18
END
19

More Related Content

What's hot

[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
[DL輪読会]Opening the Black Box of Deep Neural Networks via InformationDeep Learning JP
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)Tatsuya Yokota
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向Naoki Matsunaga
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習Masaki Saito
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networksyukihiro domae
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 

What's hot (20)

[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networks
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 

Similar to [DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning

[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationDeep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationJunya Kamura
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Taku Tsuzuki
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networksOrdered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networksKazuki Fujikawa
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstmFujimoto Keisuke
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them AllDeep Learning JP
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26Takashi Abe
 

Similar to [DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning (20)

[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
Rainbow
RainbowRainbow
Rainbow
 
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationDeep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classification
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
Ordered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networksOrdered neurons integrating tree structures into recurrent neural networks
Ordered neurons integrating tree structures into recurrent neural networks
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstm
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (8)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ An Iterative Framework for Self-supervised Deep Speaker Representation Learning Hiroshi Sekiguchi, Morikawa Lab
  • 2. 書誌情報 • “An Iterative Framework for Self-supervised Deep Speaker Representation Learning ” Danwei Cai!, Weiqing Wang!, Ming Li!† !Department of Electrical and Computer Engineering, Duke University, Durham, USA †Data Science Research Center, Duke Kunshan University, Kunshan, China 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) , pp.6728-6732 https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414713 • 概要 – 話者認識(Speaker Recognition)の分野で、①Contrastive learning+clustering +purifying+擬似ラベルベースspeaker classficationを用いて、② 上記を繰 り返し学習することで、従来のContrastive learningよりも、よい話者表現が 得られた。 – この表現を、話者認識の一応用である話者照合(Speaker Verification)タス クで適用したところ、話者認証性能が、単純なContrastive learningよりも向 上した。 • 動機:複数音声分離に話者同定の技術を組み込むことで音声分離 の向上を検討 2
  • 3. アジェンダ • 背景 • 提案手法 • 評価 • まとめ • 感想 3
  • 4. 背景: Speaker Recognitionとは • Speaker Recognition(話者認識) – Speaker Recognition(話者認識):人間の声から個人を認識(識別や認証などを含 む)する技術 – 種類として、Speaker Verification(話者照合)、Speaker Identification(話者識別)が ある • Speaker Verification(話者照合): 登録してある本人の話者データと一致するかどうかを判断す る技術 • Speaker Identification(話者識別): 登録してある他人数のデータの誰の声かを特定する – いずれも、話者の表現学習(Representation Learning)に帰着 4 本論文の対象技術分野 Speaker Recognition Speaker verification Speaker Identification
  • 5. 背景:話者表現学習とは • 話者の表現力学習の種類 – 話者の平均特徴からの差を話者毎の特徴vectorとする: i-vector – DNNによる特徴量抽出 • Supervisedな方法: →アノテーションの労力は高い • Unsupervisedな方法(特にSelf-Supervisedな方法) – Generativeなアプローチ → 波形レベルの再構成は不要 – Discriminativeなアプローチ→Contrastive Learning 5
  • 6. 現状の課題、達成したい目的と提案方策 • 現状の課題 – 従来のContrastive Learningのみの学習で得た表現力には、ラベルにノイズが入 り込んでおり、クラスタリング性能と下流タスク性能を劣化させている • 達成したい目的 – ラベルノイズを低減し、話者照合タスクの性能を向上させる話者表現の獲得 • 提案方策 – 提案方策①)擬似ラベルの純粋化(purify):信頼度の低い擬似ラベルを持つデー タは学習から排除 – 提案方法②) Contrastive learning → clustering → purify → speaker classification という、一連の手続きを複数回繰り返すことにより、表現力が増す – ①と②を併用して、よりよい話者表現を獲得する 6
  • 7. 提案手法-全体1 • ①~⑪を1roundとして、複数 round繰り返す • Network係数は、次Roundに持ち越 すが、Clusteringの結果は持ち越さ ない。Clusteringは各Roundでゼロ から学習する。 7 ① Augmentation (addition, reverberation) ②Feature Extraction (40-Mel Spectrogram) ③ Contrastive Learning (ResNet/ Pooling/FC) Speaker utterance xi i=1,…N M<Nで、2M がContrastive learningの batchの大きさ Background noise time Mel Spec 2-D Feature map Contrastive Loss LCSL Xi,2 i=1,..M ⑪ Classifier( FC?) ⑨Feature Extraction (80-Mel Spectrogram) ⑩ Embedding ( ResNet x2/ Pooling/FC) Cross entropy loss Lspk Xi ,i=1,…,N’ • 学習 ⑧ Augmentation (addition, reverberation) ⑥Clustering K-Means ⑦ Purify 128次元 Embedding vector 擬似ラベル (N個) 純化した 擬似ラベル (N’個) N’<N Xi,1 Xi,2 ⑤ Embedding (ResNet/ Pooling/FC) Frozen係数θ Xi,1 i=1,..M Xi ,i=1,…,N ④Feature Extraction (40-Mel Spectrogram)
  • 8. 提案手法-全体2 • 話者照合テスト(下記の図は、発表者の推測)← 下流タスク? 8 ⑩ Embedding (ResNetx2/ Pooling/FC) 話者X の テスト音声 話者A Clusterラベ ル照会 距離 真 or 偽 (例)「話者XはAか?」@ A氏の銀行口座アクセス 話者Aの centroid 話者Xの embedding Frozen係数θ ⑨Feature Extraction (80-Mel Spectrogram) 真偽 判断
  • 9. 提案手法-要素1 ① Augmentation: aug(・) – 背景ノイズを加算: 環境ノイズ、音楽、テレビ音、 バブルノイズ(複数話者の背景会話) – 部屋の残響を施す ② ③Mel Spectrogram + Contrastive Learning – Training Set D = { x1,….,xN } , N:発声総数 – Batch B = { x1,….,xM}, DからM個 (M<N)の発声をrandomにサンプリング – xiの2つの異なるsegment(2~4秒):xi,1, xi,2 – 𝑓Θ:Mel Spectrogram extraction + 34-layer ResNet + Pooling + FC – xi,1, xi,2のembedding:zi,1, zi,2,feature mapの統計量, – Loss: 9
  • 10. 提案手法-要素2 ⑥ Clustering – K-Means • 𝑧𝑖 = 𝑓Θ(𝑥𝑖) • 𝐶 ∈ 𝑅𝑑𝑥𝑘 :centroid 行列, 𝑑: embedding次元数, 𝑘: クラスタ数 • 𝑦𝑖 ∈ 1, … , 𝑘 : 𝑧𝑖に対するクラスタ割り当て(擬似ラベル) • 𝐶𝑦𝑖 : centroid 行列𝐶の𝑦𝑖番目の列ベクトル • 𝐶を右記の最小化問題から求める • 最適割り当て: {𝑦1, … , 𝑦𝑁}, 𝑁: 総サンプル数、を求める ⑦ purify – 擬似ラベルの信頼度: − 𝑧𝑖 − 𝐶𝑦𝑖 2 2 – 信頼度の低いサンプル順に、総サンプルN個の割合𝑝 0 ≤ 𝑝 ≤ 1 分のサンプル数を、次の⑧⑨ ⑩⑪で構成されるclassificationの学習対象から除く – さらに、結果としてクラスタ内に残るサンプル数が 𝑆 より小さいクラスタに属するサンプルも、 次の⑧⑨⑩⑪で構成されるclassificationの学習対象から除く – 最初の数roundはpもSも大き目で、信頼度の高いサンプルのみを次の学習に残す 10 𝑓Θ(・)
  • 11. 提案手法-要素3 • ⑧⑨⑩⑪ 信頼度の高い擬似ラベルでのspeaker classification学習 – 信頼度の高い擬似ラベルを持つ学習データ 𝑥𝑖, 𝑦𝑖 , 𝑖 = 1, … , 𝑁′ 𝑁′: 信頼度の高いサンプル数 – 𝑓Θ(・):Mel Spectrogram extraction + 2x (34-layer ResNet) + Pooling + FC – Embedding: 𝑧𝑖 = 𝑓Θ(𝑎𝑢𝑔(𝑥𝑖)) – Classify: 𝑔𝑤(・): 𝑊 はclassifyのNetwork係数 – Loss: 𝑔𝑤𝑗(𝑧𝑖) : クラススコアベクトル𝑔𝑤(𝑧𝑖) のj番目の要素 – Θと𝑊を同時に学習 11 𝑓Θ(・) 𝑔𝑤(・)
  • 12. 評価方法 • 話者照合タスクの性能で評価 • データーセット ① 話者表現学習 ◼ Voxceleb2データセット ◼ 話者数:5,994人、発声数:1,092,009 ◼ セラブのインタビューvideoの音声部を使用。Videoとラベルは使用しない ② 話者照合テスト ◼ 3種類のデータセット ◼ Voxcelb1 ◼ 話者数:40人、発声数:37,720 ◼ Voxcelb 1-E ◼ 話者数:1251人、発声数:581,480 ◼ Voxcelb 1-H ◼ 話者数:1190人、発声数:552,536 ③ Augmentation用ノイズデータ ◼ MUSAN データセット ◼ 背景ノイズを加算:環境ノイズ、音楽、テレビ音、バブルノイズ(複数話者の背景会話) ◼ 部屋の残響を加える ◼ 話者音声とのSNR:0~20dBをランダムに設定、加える時間的頻度は0.6の割合 12
  • 13. 評価尺度 • クラスタリング性能の尺度 – Normal mutual information(NMI): 0 ≤ 𝑁𝑀𝐼 ≤ 1 – 𝑈: ラベルのG.T., 𝑉: 予測した擬似ラベル – 𝐼(𝑈, 𝑉): 𝑈と𝑉間の相互情報量 – 𝐻 ・ : 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 – 𝑈と𝑉の分布が近い: 1に近い, 𝑈と𝑉の分布が独立:0に近い • 話者照合の尺度 – Equal Error Rate (EER): 本人拒否率(False negative)と他人受け入れ率(False positive)が同率になるように調整した時の率 → 小さい方が良い – minDCF(Detection Cost Function): cost x 本人拒否率+costx他人受け入れ率 → 小さい方が良い 13
  • 14. 実験設定 • ①②③ Contrastive learning – Mel spectrogram特徴量: 40次元/フレーム – 1フレーム:25msec Hamming Window, 10msecシフト – 発声セグメント xi,j : 2~4秒の音声 – 学習: • Batch size: 256 • 最適化:Adam, 初期学習レート:0.001, 温度係数τ:0.1 • ⑥ clustering – Cluster数( ハイパーパラメータ):6000 • ⑧⑨⑩⑪信頼度の高い擬似ラベルでのspeaker classification学習 – 擬似ラベルをG.T.とした教師あり学習 – Mel spectrogram特徴量80次元/フレーム – Embedding NNに、dropoutあり:過学習防止のため – 学習: • 最適化:SDG, 学習率:0.1→学習停滞時に1/10に減少 14
  • 15. 評価結果1 15 • Purifyの効果 – Roundを進める際に、初期の数round は、厳しめに高信頼度のサンプルのみ に絞って、Classifyの学習を行う。 Roundが増えるにつれて、信頼度の値 が少々低いサンプルも入れて、 Classifyの学習に使う発声数を増やす (p↓、S↓) – NMIが各roundのpurify前と後で、改善 される⇒roundの進行と伴に、クラス タリング性能が向上している – Purifyは、クラスタリングの性能向上 に寄与している Purify 前 Purify 後 向上 増加 減少 減少
  • 16. 評価結果2 • 話者照合テスト性能 – minDCF、ERRともに、3つの datasetで、roundが進むにつれ て性能向上する – Round1では、classify学習に使 うサンプル数が全サンプル数の 32%にも関わらず、高信頼性の サンプルのみを使っているので、 minCDF, ERR(21.4%改善)とも に大幅に向上している – Roundを複数回実行することは、 クラスタリング性能の向上、ひ いては、話者照合システムの性 能の向上になる – Fully supervised手法には劣る 16 minDCF EER 増 加 減少(=向上) 増 加 (= 向 上 ) 真 の ク ラ ス タ 数 に 近 づ く
  • 18. まとめと感想 • まとめ – Contrastive learning+clustering+purifying+擬似ラベルベースのspeaker Classificationを複数回繰 り返すことで、Contrastive learning単体よりも、話者表現能力が増加し、クラスタリング性能及 び話者照合性能を向上させることができた – Purifyの効果が、擬似ラベルのノイズによる性能劣化を回避し、round回数の進行と伴に、クラ スタリング及び話者照合性能を両方を、向上させることができた – 今後の研究としては、 • 除外すべき信頼度の低いサンプルを選択する洗練された手法の研究:カリキュラム学習、ラベル平滑化 • 各roundのClustering結果を、次のclustering結果に生かす方策 • 感想 – 学習の計算コスト・時間の記述がなかったのが気になる – Roundを複数回繰り返すと良くなる理論的な根拠はあるのか。その公算があると思えたヒラメ キはどこから? 18