SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
wav2vec 2.0: A Framework for Self-Supervised
Learning of Speech Representations (NeurIPS, 2020)
Kazuki Fujikawa
サマリ
• 書誌情報
– wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
• NeurIPS 2020
• Facebook AI
• Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Aul
• 概要
– vq-wav2vecの事前学習を改良したモデル: wav2vec 2.0を開発
• 二段階で行われた事前学習を一段階で行えるように改良し、性能を改善
• ラベル付きデータが小規模しか得られない環境下で、vq-wav2vecベースの既存法と
比較してWERを1/3程度に下げる性能を確認
2
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
3
アウトライン
• 背景
• 関連手法
• 提案手法
• 実験・結果
4
背景
• 音声認識の分野では言語毎に大規模な訓練データを必要とする
– 現在の実用的な音声認識システムでは、数千時間の音声の書き起こしデータが必要
– 世界中で話される7000以上の大部分の言語で上記を準備することは困難
5
少量のラベル付きデータで実用的な音声認識システムを構築したい
アウトライン
• 背景
• 関連研究
– wav2vec [Schneider+, 2019]
– vq-wav2vec [Baevski+, ICLR2020]
• 提案手法
• 実験・結果
6
関連研究①: wav2vec [Schneider+, 2019]
• 音声の表現を教師無しで学習
– Feature Encoder(𝑋 ⟼ 𝑍): 生の音声信号を入力とし、5層1DCNNで特徴抽出
• ストライドを大きくし、解像度を落とした特徴量を獲得(10ms単位)
– Context Encoder(𝑍 ⟼ 𝐶) : 𝒛𝒊, . . , 𝒛𝒊−𝒗 を入力に、 𝒄𝒊 を出力
• 𝒄𝒊 が未来の特徴量 𝒛𝒊+𝒌 との内積が大きくなるよう、 Contrastive Lossを最小化
• 負例 𝒛 は同じ音声の別の部分から抽出する
7
Feature Encoder
Context Encoder
𝑐𝑖
𝑧𝑖 𝑧𝑖+1 𝑧𝑖+2 𝑧𝑖+3
関連研究②: vq-wav2vec [Baevski+, ICLR2020]
• 教師なし事前学習を2段階行う(詳細は後述)
– ① wav2vec で行う教師なし表現学習を離散化
– ② 離散化された特徴量を使い、BERTのMLMで再事前学習
8
関連研究②: vq-wav2vec [Baevski+, ICLR2020]
• ① wav2vec で行う教師なし表現学習を離散化
– wav2vec同様、1DCNNで 𝒛𝒊 を算出
– ベクトル量子化で 𝒛𝒊 を離散化
• 𝒛𝒊 と コードブロック(Embedding)との積を取り、Gumbel Softmaxで 𝒛𝒊 をサンプリング
– 𝒄𝒊 が未来の特徴量 𝒛𝒊+𝒌 との内積が大きくなるよう、 Contrastive Lossを最小化
9
Feature Encoder
Context Encoder
𝒄𝒊
𝒛𝒊 𝒛𝒊+𝟏 𝒛𝒊+𝟐 𝒛𝒊+𝟑
Quantization
𝒛𝒊 𝒛𝒊+𝟏 𝒛𝒊+𝟐 𝒛𝒊+𝟑
コードブック
(Embedding)
𝑉
(ボキャブラリ)
𝑑
(埋め込み次元)
𝒍
(ロジット)
関連研究②: vq-wav2vec [Baevski+, ICLR2020]
• ② 離散化された特徴量を使い、BERTのフレームワークでMLMを学習
– マスクされた箇所に該当するコードブロックのインデックスを当てる
– 1箇所だけ当てるのは簡単すぎるので、連続した数トークンをマスクする
(SpanBERT [Joshi+, TACL2020]の要領)
10
Joshi+,TACL2020
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
11
提案手法: wav2vec 2.0 [Baevski+, NeurIPS2020]
• vq-wav2vecを1ステップで事前学習できるように改良
– vq-wav2vec同様、Feature Encoder で特徴表現 𝒛𝒊 を得る
– 𝒛𝒊 をランダムにマスクした上で、Context Encoder(Transformer)で音声全体を
エンコードする
– マスクされた箇所のコンテクスト 𝒄𝒊 が、𝒒𝒊 と近くなるようにメトリック学習する
12
X
Z
…
…
C
Q
Masked
CNN
q q q q q
L̀
Contrastive loss
Context
representations
raw waveform
Quantized
representations
Latent speech
representations
Transformer
Figure 1: Illustration of our framework which jointly learns contextualized speech representations
and an inventory of discretized speech units.
Feature Encoder
Context Encoder
Quantization
𝒄𝒊
𝒛𝒊
𝒒𝒊
提案手法: wav2vec 2.0 [Baevski+, NeurIPS2020]
• (補足)なぜContext Encoderの入力とLoss計算の入力が異なるのか
– Context Encoderの入力 𝒛𝒊 : 量子化モジュール未使用
– Contrastive Lossの入力 𝒒𝒊 : 量子化モジュール使用
– 結論:その組み合わせが最も精度が良かったから
13
X
Z
…
…
C
Q
Masked
CNN
q q q q q
L̀
Contrastive loss
Context
representations
raw waveform
Quantized
representations
Latent speech
representations
Transformer
Figure 1: Illustration of our framework which jointly learns contextualized speech representations
and an inventory of discretized speech units.
on labeled data with a Connectionist Temporal Classification (CTC) loss [14, 4] to be used for
𝒄𝒊
𝒛𝒊
𝒒𝒊
アウトライン
• 背景
• 比較手法
• 実験・結果
14
実験: 問題設定
• タスク
– オーディオブックの音声文字起こしをWord Error Rate(WER)で評価
• データセット
– LibriVox (LV-60k)
• 6万時間のオーディオブック音声データセット
• ラベル無しデータとして利用
– Librispeech (LS-960)
• LibriVoxの一部(1000時間)に対してTextと音声のアライメントを取ったもの
• このデータのラベルを [10min, 1h, 10h, 100h] のみ利用した場合のモデルのパフォーマンス
を比較する
• clean (ノイズ無し)、other (ノイズ有り) それぞれで評価
• 評価
– WER (Word Error Rate): 文字起こし後のテキストの単語誤り率
15
実験: 結果
• 低リソース環境での実験
– 10minのみのラベルありデータの利用で、
WER (clean/other): 4.8/8.2 を記録
– 既存法(Discrete BERT: vq-wav2vecベース)
と比較して約1/3程度のエラー率を実現
– ラベルを増やした場合(1h, 10h, 100h)
も同様の傾向であり、低リソース環境で本手法
の有効性を確認
16
実験: 結果
• 低リソース環境での実験
– 10minのみのラベルありデータの利用で、
WER (clean/other): 4.8/8.2 を記録
– 既存法(Discrete BERT: vq-wav2vecベース)
と比較して約1/3程度のエラー率を実現
– ラベルを増やした場合(1h, 10h, 100h)
も同様の傾向であり、低リソース環境で本手法
の有効性を確認
17
実験: 結果
• 低リソース環境での実験
– 10minのみのラベルありデータの利用で、
WER (clean/other): 4.8/8.2 を記録
– 既存法(Discrete BERT: vq-wav2vecベース)
と比較して約1/3程度のエラー率を実現
– ラベルを増やした場合(1h, 10h, 100h)
も同様の傾向であり、低リソース環境で本手法
の有効性を確認
18
実験: 結果
• 低リソース環境での実験
– 10minのみのラベルありデータの利用で、
WER (clean/other): 4.8/8.2 を記録
– 既存法(Discrete BERT: vq-wav2vecベース)
と比較して約1/3程度のエラー率を実現
– ラベルを増やした場合(1h, 10h, 100h)
も同様の傾向であり、低リソース環境で本手法
の有効性を確認
19
実験: 結果
• 高リソース環境での実験
– 事前学習無しでWER (clean/other): 2.1/4.6、
事前学習有り(Lv-60k)で1.8/3.3を達成
– ベースラインアーキテクチャがSoTAである
ContextNet (1.9/3.9) に迫る性能
– 低リソース環境下で確認できたほどの有効性は
高リソース環境下では確認できなかった
20
実験: 結果
• 高リソース環境での実験
– 事前学習無しでWER (clean/other): 2.1/4.6、
事前学習有り(Lv-60k)で1.8/3.3を達成
– ベースラインアーキテクチャがSoTAである
ContextNet (1.9/3.9) に迫る性能
– 低リソース環境下で確認できたほどの有効性は
高リソース環境下では確認できなかった
21
実験: 結果
• 高リソース環境での実験
– 事前学習無しでWER (clean/other): 2.1/4.6、
事前学習有り(Lv-60k)で1.8/3.3を達成
– ベースラインアーキテクチャがSoTAである
ContextNet (1.9/3.9) に迫る性能
– 低リソース環境下で確認できたほどの有効性は
高リソース環境下では確認できなかった
22
実験: 結果
• 高リソース環境での実験
– 事前学習無しでWER (clean/other): 2.1/4.6、
事前学習有り(Lv-60k)で1.8/3.3を達成
– ベースラインアーキテクチャがSoTAである
ContextNet (1.9/3.9) に迫る性能
– 低リソース環境下で確認できたほどの有効性は
高リソース環境下では確認できなかった
23
結論
• vq-wav2vecの事前学習を改良したモデル: wav2vec 2.0を開発
– vq-wav2vecで二段階で行われた事前学習を一段階で行えるように改良
– ラベル付きデータが小規模しか得られない環境下で、vq-wav2vecベースの既存法と
比較してWERを1/3程度に下げる性能を確認
• Broader Impact: より広範な言語への適用
– 世界には約7000の言語があり、さらに多くの方言が存在
– これらの言語に対して実用的な音声認識技術を提供できるようになることを期待する
24
References
• Baevski, Alexei, et al. "wav2vec 2.0: A framework for self-supervised learning of speech
representations." In NeurIPS, 2020.
• Schneider, Steffen, et al. "wav2vec: Unsupervised pre-training for speech recognition." arXiv
preprint arXiv:1904.05862 (2019).
• Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-supervised learning of
discrete speech representations." In ICLR, 2020.
• Joshi, Mandar, et al. "Spanbert: Improving pre-training by representing and predicting spans.”
In TACL, 2020.
25

More Related Content

More from Deep Learning JP

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...Deep Learning JP
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLMDeep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Recently uploaded

AI revolution and Salesforce, Jiří Karpíšek
AI revolution and Salesforce, Jiří KarpíšekAI revolution and Salesforce, Jiří Karpíšek
AI revolution and Salesforce, Jiří KarpíšekCzechDreamin
 
Custom Approval Process: A New Perspective, Pavel Hrbacek & Anindya Halder
Custom Approval Process: A New Perspective, Pavel Hrbacek & Anindya HalderCustom Approval Process: A New Perspective, Pavel Hrbacek & Anindya Halder
Custom Approval Process: A New Perspective, Pavel Hrbacek & Anindya HalderCzechDreamin
 
Enterprise Knowledge Graphs - Data Summit 2024
Enterprise Knowledge Graphs - Data Summit 2024Enterprise Knowledge Graphs - Data Summit 2024
Enterprise Knowledge Graphs - Data Summit 2024Enterprise Knowledge
 
How Red Hat Uses FDO in Device Lifecycle _ Costin and Vitaliy at Red Hat.pdf
How Red Hat Uses FDO in Device Lifecycle _ Costin and Vitaliy at Red Hat.pdfHow Red Hat Uses FDO in Device Lifecycle _ Costin and Vitaliy at Red Hat.pdf
How Red Hat Uses FDO in Device Lifecycle _ Costin and Vitaliy at Red Hat.pdfFIDO Alliance
 
Syngulon - Selection technology May 2024.pdf
Syngulon - Selection technology May 2024.pdfSyngulon - Selection technology May 2024.pdf
Syngulon - Selection technology May 2024.pdfSyngulon
 
Buy Epson EcoTank L3210 Colour Printer Online.pptx
Buy Epson EcoTank L3210 Colour Printer Online.pptxBuy Epson EcoTank L3210 Colour Printer Online.pptx
Buy Epson EcoTank L3210 Colour Printer Online.pptxEasyPrinterHelp
 
UiPath Test Automation using UiPath Test Suite series, part 1
UiPath Test Automation using UiPath Test Suite series, part 1UiPath Test Automation using UiPath Test Suite series, part 1
UiPath Test Automation using UiPath Test Suite series, part 1DianaGray10
 
Future Visions: Predictions to Guide and Time Tech Innovation, Peter Udo Diehl
Future Visions: Predictions to Guide and Time Tech Innovation, Peter Udo DiehlFuture Visions: Predictions to Guide and Time Tech Innovation, Peter Udo Diehl
Future Visions: Predictions to Guide and Time Tech Innovation, Peter Udo DiehlPeter Udo Diehl
 
ASRock Industrial FDO Solutions in Action for Industrial Edge AI _ Kenny at A...
ASRock Industrial FDO Solutions in Action for Industrial Edge AI _ Kenny at A...ASRock Industrial FDO Solutions in Action for Industrial Edge AI _ Kenny at A...
ASRock Industrial FDO Solutions in Action for Industrial Edge AI _ Kenny at A...FIDO Alliance
 
Salesforce Adoption – Metrics, Methods, and Motivation, Antone Kom
Salesforce Adoption – Metrics, Methods, and Motivation, Antone KomSalesforce Adoption – Metrics, Methods, and Motivation, Antone Kom
Salesforce Adoption – Metrics, Methods, and Motivation, Antone KomCzechDreamin
 
Top 10 Symfony Development Companies 2024
Top 10 Symfony Development Companies 2024Top 10 Symfony Development Companies 2024
Top 10 Symfony Development Companies 2024TopCSSGallery
 
Agentic RAG What it is its types applications and implementation.pdf
Agentic RAG What it is its types applications and implementation.pdfAgentic RAG What it is its types applications and implementation.pdf
Agentic RAG What it is its types applications and implementation.pdfChristopherTHyatt
 
AI presentation and introduction - Retrieval Augmented Generation RAG 101
AI presentation and introduction - Retrieval Augmented Generation RAG 101AI presentation and introduction - Retrieval Augmented Generation RAG 101
AI presentation and introduction - Retrieval Augmented Generation RAG 101vincent683379
 
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...Integrating Telephony Systems with Salesforce: Insights and Considerations, B...
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...CzechDreamin
 
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdf
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdfIntroduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdf
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdfFIDO Alliance
 
The Metaverse: Are We There Yet?
The  Metaverse:    Are   We  There  Yet?The  Metaverse:    Are   We  There  Yet?
The Metaverse: Are We There Yet?Mark Billinghurst
 
WSO2CONMay2024OpenSourceConferenceDebrief.pptx
WSO2CONMay2024OpenSourceConferenceDebrief.pptxWSO2CONMay2024OpenSourceConferenceDebrief.pptx
WSO2CONMay2024OpenSourceConferenceDebrief.pptxJennifer Lim
 
A Business-Centric Approach to Design System Strategy
A Business-Centric Approach to Design System StrategyA Business-Centric Approach to Design System Strategy
A Business-Centric Approach to Design System StrategyUXDXConf
 
IoT Analytics Company Presentation May 2024
IoT Analytics Company Presentation May 2024IoT Analytics Company Presentation May 2024
IoT Analytics Company Presentation May 2024IoTAnalytics
 
Connecting the Dots in Product Design at KAYAK
Connecting the Dots in Product Design at KAYAKConnecting the Dots in Product Design at KAYAK
Connecting the Dots in Product Design at KAYAKUXDXConf
 

Recently uploaded (20)

AI revolution and Salesforce, Jiří Karpíšek
AI revolution and Salesforce, Jiří KarpíšekAI revolution and Salesforce, Jiří Karpíšek
AI revolution and Salesforce, Jiří Karpíšek
 
Custom Approval Process: A New Perspective, Pavel Hrbacek & Anindya Halder
Custom Approval Process: A New Perspective, Pavel Hrbacek & Anindya HalderCustom Approval Process: A New Perspective, Pavel Hrbacek & Anindya Halder
Custom Approval Process: A New Perspective, Pavel Hrbacek & Anindya Halder
 
Enterprise Knowledge Graphs - Data Summit 2024
Enterprise Knowledge Graphs - Data Summit 2024Enterprise Knowledge Graphs - Data Summit 2024
Enterprise Knowledge Graphs - Data Summit 2024
 
How Red Hat Uses FDO in Device Lifecycle _ Costin and Vitaliy at Red Hat.pdf
How Red Hat Uses FDO in Device Lifecycle _ Costin and Vitaliy at Red Hat.pdfHow Red Hat Uses FDO in Device Lifecycle _ Costin and Vitaliy at Red Hat.pdf
How Red Hat Uses FDO in Device Lifecycle _ Costin and Vitaliy at Red Hat.pdf
 
Syngulon - Selection technology May 2024.pdf
Syngulon - Selection technology May 2024.pdfSyngulon - Selection technology May 2024.pdf
Syngulon - Selection technology May 2024.pdf
 
Buy Epson EcoTank L3210 Colour Printer Online.pptx
Buy Epson EcoTank L3210 Colour Printer Online.pptxBuy Epson EcoTank L3210 Colour Printer Online.pptx
Buy Epson EcoTank L3210 Colour Printer Online.pptx
 
UiPath Test Automation using UiPath Test Suite series, part 1
UiPath Test Automation using UiPath Test Suite series, part 1UiPath Test Automation using UiPath Test Suite series, part 1
UiPath Test Automation using UiPath Test Suite series, part 1
 
Future Visions: Predictions to Guide and Time Tech Innovation, Peter Udo Diehl
Future Visions: Predictions to Guide and Time Tech Innovation, Peter Udo DiehlFuture Visions: Predictions to Guide and Time Tech Innovation, Peter Udo Diehl
Future Visions: Predictions to Guide and Time Tech Innovation, Peter Udo Diehl
 
ASRock Industrial FDO Solutions in Action for Industrial Edge AI _ Kenny at A...
ASRock Industrial FDO Solutions in Action for Industrial Edge AI _ Kenny at A...ASRock Industrial FDO Solutions in Action for Industrial Edge AI _ Kenny at A...
ASRock Industrial FDO Solutions in Action for Industrial Edge AI _ Kenny at A...
 
Salesforce Adoption – Metrics, Methods, and Motivation, Antone Kom
Salesforce Adoption – Metrics, Methods, and Motivation, Antone KomSalesforce Adoption – Metrics, Methods, and Motivation, Antone Kom
Salesforce Adoption – Metrics, Methods, and Motivation, Antone Kom
 
Top 10 Symfony Development Companies 2024
Top 10 Symfony Development Companies 2024Top 10 Symfony Development Companies 2024
Top 10 Symfony Development Companies 2024
 
Agentic RAG What it is its types applications and implementation.pdf
Agentic RAG What it is its types applications and implementation.pdfAgentic RAG What it is its types applications and implementation.pdf
Agentic RAG What it is its types applications and implementation.pdf
 
AI presentation and introduction - Retrieval Augmented Generation RAG 101
AI presentation and introduction - Retrieval Augmented Generation RAG 101AI presentation and introduction - Retrieval Augmented Generation RAG 101
AI presentation and introduction - Retrieval Augmented Generation RAG 101
 
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...Integrating Telephony Systems with Salesforce: Insights and Considerations, B...
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...
 
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdf
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdfIntroduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdf
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdf
 
The Metaverse: Are We There Yet?
The  Metaverse:    Are   We  There  Yet?The  Metaverse:    Are   We  There  Yet?
The Metaverse: Are We There Yet?
 
WSO2CONMay2024OpenSourceConferenceDebrief.pptx
WSO2CONMay2024OpenSourceConferenceDebrief.pptxWSO2CONMay2024OpenSourceConferenceDebrief.pptx
WSO2CONMay2024OpenSourceConferenceDebrief.pptx
 
A Business-Centric Approach to Design System Strategy
A Business-Centric Approach to Design System StrategyA Business-Centric Approach to Design System Strategy
A Business-Centric Approach to Design System Strategy
 
IoT Analytics Company Presentation May 2024
IoT Analytics Company Presentation May 2024IoT Analytics Company Presentation May 2024
IoT Analytics Company Presentation May 2024
 
Connecting the Dots in Product Design at KAYAK
Connecting the Dots in Product Design at KAYAKConnecting the Dots in Product Design at KAYAK
Connecting the Dots in Product Design at KAYAK
 

【DL輪読会】wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (NeurIPS, 2020)

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (NeurIPS, 2020) Kazuki Fujikawa
  • 2. サマリ • 書誌情報 – wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations • NeurIPS 2020 • Facebook AI • Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Aul • 概要 – vq-wav2vecの事前学習を改良したモデル: wav2vec 2.0を開発 • 二段階で行われた事前学習を一段階で行えるように改良し、性能を改善 • ラベル付きデータが小規模しか得られない環境下で、vq-wav2vecベースの既存法と 比較してWERを1/3程度に下げる性能を確認 2
  • 3. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 3
  • 4. アウトライン • 背景 • 関連手法 • 提案手法 • 実験・結果 4
  • 5. 背景 • 音声認識の分野では言語毎に大規模な訓練データを必要とする – 現在の実用的な音声認識システムでは、数千時間の音声の書き起こしデータが必要 – 世界中で話される7000以上の大部分の言語で上記を準備することは困難 5 少量のラベル付きデータで実用的な音声認識システムを構築したい
  • 6. アウトライン • 背景 • 関連研究 – wav2vec [Schneider+, 2019] – vq-wav2vec [Baevski+, ICLR2020] • 提案手法 • 実験・結果 6
  • 7. 関連研究①: wav2vec [Schneider+, 2019] • 音声の表現を教師無しで学習 – Feature Encoder(𝑋 ⟼ 𝑍): 生の音声信号を入力とし、5層1DCNNで特徴抽出 • ストライドを大きくし、解像度を落とした特徴量を獲得(10ms単位) – Context Encoder(𝑍 ⟼ 𝐶) : 𝒛𝒊, . . , 𝒛𝒊−𝒗 を入力に、 𝒄𝒊 を出力 • 𝒄𝒊 が未来の特徴量 𝒛𝒊+𝒌 との内積が大きくなるよう、 Contrastive Lossを最小化 • 負例 𝒛 は同じ音声の別の部分から抽出する 7 Feature Encoder Context Encoder 𝑐𝑖 𝑧𝑖 𝑧𝑖+1 𝑧𝑖+2 𝑧𝑖+3
  • 8. 関連研究②: vq-wav2vec [Baevski+, ICLR2020] • 教師なし事前学習を2段階行う(詳細は後述) – ① wav2vec で行う教師なし表現学習を離散化 – ② 離散化された特徴量を使い、BERTのMLMで再事前学習 8
  • 9. 関連研究②: vq-wav2vec [Baevski+, ICLR2020] • ① wav2vec で行う教師なし表現学習を離散化 – wav2vec同様、1DCNNで 𝒛𝒊 を算出 – ベクトル量子化で 𝒛𝒊 を離散化 • 𝒛𝒊 と コードブロック(Embedding)との積を取り、Gumbel Softmaxで 𝒛𝒊 をサンプリング – 𝒄𝒊 が未来の特徴量 𝒛𝒊+𝒌 との内積が大きくなるよう、 Contrastive Lossを最小化 9 Feature Encoder Context Encoder 𝒄𝒊 𝒛𝒊 𝒛𝒊+𝟏 𝒛𝒊+𝟐 𝒛𝒊+𝟑 Quantization 𝒛𝒊 𝒛𝒊+𝟏 𝒛𝒊+𝟐 𝒛𝒊+𝟑 コードブック (Embedding) 𝑉 (ボキャブラリ) 𝑑 (埋め込み次元) 𝒍 (ロジット)
  • 10. 関連研究②: vq-wav2vec [Baevski+, ICLR2020] • ② 離散化された特徴量を使い、BERTのフレームワークでMLMを学習 – マスクされた箇所に該当するコードブロックのインデックスを当てる – 1箇所だけ当てるのは簡単すぎるので、連続した数トークンをマスクする (SpanBERT [Joshi+, TACL2020]の要領) 10 Joshi+,TACL2020
  • 11. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 11
  • 12. 提案手法: wav2vec 2.0 [Baevski+, NeurIPS2020] • vq-wav2vecを1ステップで事前学習できるように改良 – vq-wav2vec同様、Feature Encoder で特徴表現 𝒛𝒊 を得る – 𝒛𝒊 をランダムにマスクした上で、Context Encoder(Transformer)で音声全体を エンコードする – マスクされた箇所のコンテクスト 𝒄𝒊 が、𝒒𝒊 と近くなるようにメトリック学習する 12 X Z … … C Q Masked CNN q q q q q L̀ Contrastive loss Context representations raw waveform Quantized representations Latent speech representations Transformer Figure 1: Illustration of our framework which jointly learns contextualized speech representations and an inventory of discretized speech units. Feature Encoder Context Encoder Quantization 𝒄𝒊 𝒛𝒊 𝒒𝒊
  • 13. 提案手法: wav2vec 2.0 [Baevski+, NeurIPS2020] • (補足)なぜContext Encoderの入力とLoss計算の入力が異なるのか – Context Encoderの入力 𝒛𝒊 : 量子化モジュール未使用 – Contrastive Lossの入力 𝒒𝒊 : 量子化モジュール使用 – 結論:その組み合わせが最も精度が良かったから 13 X Z … … C Q Masked CNN q q q q q L̀ Contrastive loss Context representations raw waveform Quantized representations Latent speech representations Transformer Figure 1: Illustration of our framework which jointly learns contextualized speech representations and an inventory of discretized speech units. on labeled data with a Connectionist Temporal Classification (CTC) loss [14, 4] to be used for 𝒄𝒊 𝒛𝒊 𝒒𝒊
  • 15. 実験: 問題設定 • タスク – オーディオブックの音声文字起こしをWord Error Rate(WER)で評価 • データセット – LibriVox (LV-60k) • 6万時間のオーディオブック音声データセット • ラベル無しデータとして利用 – Librispeech (LS-960) • LibriVoxの一部(1000時間)に対してTextと音声のアライメントを取ったもの • このデータのラベルを [10min, 1h, 10h, 100h] のみ利用した場合のモデルのパフォーマンス を比較する • clean (ノイズ無し)、other (ノイズ有り) それぞれで評価 • 評価 – WER (Word Error Rate): 文字起こし後のテキストの単語誤り率 15
  • 16. 実験: 結果 • 低リソース環境での実験 – 10minのみのラベルありデータの利用で、 WER (clean/other): 4.8/8.2 を記録 – 既存法(Discrete BERT: vq-wav2vecベース) と比較して約1/3程度のエラー率を実現 – ラベルを増やした場合(1h, 10h, 100h) も同様の傾向であり、低リソース環境で本手法 の有効性を確認 16
  • 17. 実験: 結果 • 低リソース環境での実験 – 10minのみのラベルありデータの利用で、 WER (clean/other): 4.8/8.2 を記録 – 既存法(Discrete BERT: vq-wav2vecベース) と比較して約1/3程度のエラー率を実現 – ラベルを増やした場合(1h, 10h, 100h) も同様の傾向であり、低リソース環境で本手法 の有効性を確認 17
  • 18. 実験: 結果 • 低リソース環境での実験 – 10minのみのラベルありデータの利用で、 WER (clean/other): 4.8/8.2 を記録 – 既存法(Discrete BERT: vq-wav2vecベース) と比較して約1/3程度のエラー率を実現 – ラベルを増やした場合(1h, 10h, 100h) も同様の傾向であり、低リソース環境で本手法 の有効性を確認 18
  • 19. 実験: 結果 • 低リソース環境での実験 – 10minのみのラベルありデータの利用で、 WER (clean/other): 4.8/8.2 を記録 – 既存法(Discrete BERT: vq-wav2vecベース) と比較して約1/3程度のエラー率を実現 – ラベルを増やした場合(1h, 10h, 100h) も同様の傾向であり、低リソース環境で本手法 の有効性を確認 19
  • 20. 実験: 結果 • 高リソース環境での実験 – 事前学習無しでWER (clean/other): 2.1/4.6、 事前学習有り(Lv-60k)で1.8/3.3を達成 – ベースラインアーキテクチャがSoTAである ContextNet (1.9/3.9) に迫る性能 – 低リソース環境下で確認できたほどの有効性は 高リソース環境下では確認できなかった 20
  • 21. 実験: 結果 • 高リソース環境での実験 – 事前学習無しでWER (clean/other): 2.1/4.6、 事前学習有り(Lv-60k)で1.8/3.3を達成 – ベースラインアーキテクチャがSoTAである ContextNet (1.9/3.9) に迫る性能 – 低リソース環境下で確認できたほどの有効性は 高リソース環境下では確認できなかった 21
  • 22. 実験: 結果 • 高リソース環境での実験 – 事前学習無しでWER (clean/other): 2.1/4.6、 事前学習有り(Lv-60k)で1.8/3.3を達成 – ベースラインアーキテクチャがSoTAである ContextNet (1.9/3.9) に迫る性能 – 低リソース環境下で確認できたほどの有効性は 高リソース環境下では確認できなかった 22
  • 23. 実験: 結果 • 高リソース環境での実験 – 事前学習無しでWER (clean/other): 2.1/4.6、 事前学習有り(Lv-60k)で1.8/3.3を達成 – ベースラインアーキテクチャがSoTAである ContextNet (1.9/3.9) に迫る性能 – 低リソース環境下で確認できたほどの有効性は 高リソース環境下では確認できなかった 23
  • 24. 結論 • vq-wav2vecの事前学習を改良したモデル: wav2vec 2.0を開発 – vq-wav2vecで二段階で行われた事前学習を一段階で行えるように改良 – ラベル付きデータが小規模しか得られない環境下で、vq-wav2vecベースの既存法と 比較してWERを1/3程度に下げる性能を確認 • Broader Impact: より広範な言語への適用 – 世界には約7000の言語があり、さらに多くの方言が存在 – これらの言語に対して実用的な音声認識技術を提供できるようになることを期待する 24
  • 25. References • Baevski, Alexei, et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." In NeurIPS, 2020. • Schneider, Steffen, et al. "wav2vec: Unsupervised pre-training for speech recognition." arXiv preprint arXiv:1904.05862 (2019). • Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-supervised learning of discrete speech representations." In ICLR, 2020. • Joshi, Mandar, et al. "Spanbert: Improving pre-training by representing and predicting spans.” In TACL, 2020. 25