Successfully reported this slideshow.
Your SlideShare is downloading. ×

ICASSP2020 論文読み会 柏木陽佑

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 24 Ad
Advertisement

More Related Content

Similar to ICASSP2020 論文読み会 柏木陽佑 (20)

Recently uploaded (20)

Advertisement

ICASSP2020 論文読み会 柏木陽佑

  1. 1. UNSUPERVISED SPEAKER ADAPTATION USING ATTENTION-BASED SPEAKER MEMORY FOR END-TO-END ASR ソニー株式会社 柏木 陽佑 End-to-End 音声認識 + 教師なし話者適応 論文紹介
  2. 2. Interspeech2019論文読み会@Sony2019/11/242 自己紹介 ・ 柏木 陽佑 - 所属 : ソニー株式会社 R&D - 専門 : 音声認識(雑音抑圧, end-to-end) - 経歴: 2014.夏 ソニーでインターンシップを経験 2016.3 東京大学大学院 工学系研究科 博士課程卒 (峯松研究室) 2016.4~ ソニー株式会社。音声認識の研究開発に従事
  3. 3. ICASSP2020論文読み会2020/06/193 論文概要 UNSUPERVISED SPEAKER ADAPTATION USING ATTENTION-BASED SPEAKER MEMORY FOR END-TO-END ASR • 著者:Leda Sarı, Niko Moritz, Takaaki Hori, Jonathan Le Roux (MERL) • セッション: SPE-P15: Speech Recognition: Adaptation • Arxiv: • https://arxiv.org/abs/2002.06165 • End-to-end音声認識 + 話者適応 をattention構造を用いてサンプルベースで実現
  4. 4. ICASSP2020論文読み会2020/06/194 音声認識と話者ミスマッチ 学習データとテストデータの話者ミスマッチにより音声認識精度が悪化する 代表的なのが、成人データで学習した音声認識器では子供音声の認識精度が上がらない現象 学習データ
  5. 5. ICASSP2020論文読み会2020/06/195 話者適応技術 少量の適応データを用いて、話者ミスマッチの影響を低減し、認識精度を向上させる 多くの話者適応技術が提案されてきた • MLLT • External features • Model domain speaker aware approach • Feature domain speaker aware approach (Embedding learning) これらの多くはGMM-HMM, DNN-HMM などの従来の音響モデルに対しての技術 適応データ
  6. 6. ICASSP2020論文読み会2020/06/196 End-to-End音声認識 + 話者適応 End-to-End音声認識に対しても話者適応は可能 • External features • i-vector : i-vector(話者を表現する特徴量)を入力または中間層に連結して用いる • Feature domain speaker aware approach • fMLLR : 特徴量ドメインでの話者依存性除去 • GMM-derived features • Model domain speaker aware approach • Speaker adversarial training : モデルドメインでの話者性依存性除去 これらは、主に入力層に近い部分でのアプローチであり、他の層なども検討したい。 新しいE2E音声認識に対する話者適応技術の提案
  7. 7. ICASSP2020論文読み会2020/06/197 全体構成 Joint CTC/Attention E2E ASR + Memory block • Memory blockから当該フレームに対応する話者特徴量ベクトルをattentionにより引っ張る。 • 従来の話者特徴量(i-vector, x-vectorなど)の抽出を推論時に行う必要がない。 話者特徴量抽出 E2E音声認識 encoderの分割の仕方で、どの層で適応を行うかを制御可能
  8. 8. ICASSP2020論文読み会2020/06/198 Joint CTC/Attention E2E ASR 標準的に音声認識研究界隈でベースラインとして採用されるE2E音声認識 • 初出もMERLから (渡部晋治 氏) • Hybrid CTC/Attention Architecture for End-to-End Speech Recognition [S. Watanabe, 2017] • コード公開 • https://github.com/espnet/espnet • pytorch or chainer に対応し使いやすい。おすすめ。 • 多彩なコーパスに対応したサンプルあり
  9. 9. ICASSP2020論文読み会2020/06/199 Memory block Attention+ i-vector (inspired by Neural Turing Machine) • 学習データ中の話者のi-vectorをmemoryとして利用(固定) • Attention によってmemory中のi-vectorの重みづけ和によって、入力音声の話者表現を得る → M-vector • Encoderの出力と連結して、後段のE2E音声認識に利用 学習データ中の i-vectorを並べる AttentionでM-vectorを計算 連結して後段に流す
  10. 10. ICASSP2020論文読み会2020/06/1910 Neural Turing Machine (NTM) [Alex Graves (Google), 2014] Memoryとmemoryを読み書きするcontrollerを持つネットワーク M-vectorはNTMをattentionの枠組みで実現 + memoryをi-vectorで固定したものと解釈できる。 • NTM • M-vector cosine距離からscaled dot productに scalingなし memoryは固定memoryも学習可能
  11. 11. ICASSP2020論文読み会2020/06/1911 学習時 学習データ中のi-vectorを計算しメモリに並べたのち、CTC + Attentionのマルチタスク学習 によりprojection layer, encoder, decoderのパラメーターを学習する。
  12. 12. ICASSP2020論文読み会2020/06/1912 テスト時 テスト時もメモリは学習時のi-vectorで固定する。 これによって、テスト時にi-vectorの計算を行わなくてすむ。 また、M-vectorは時間インデクス t に依存するため、発話単位・話者単位などで計算する i-vectorと異なり、話者の切り替わりなどに対応することができる。
  13. 13. ICASSP2020論文読み会2020/06/1913 評価 (WSJ) • データ • Wall Street Journal database • Training: 81.3h, Development: 1.1h, Test: 0.7 h • ツール • i-vector :Kaldi (https://github.com/kaldi-asr/kaldi) • それ以外:ESPnet (https://github.com/espnet/espnet) • ネットワーク • Encoder: 6層BLSTM, 320x2次元 • Decoder: 1層LSTM, 300次元 • CTC weight (λ): 0.2 • UBM: 1024次元, i-vector: 100次元 • memory size (N): 283次元
  14. 14. ICASSP2020論文読み会2020/06/1914 評価 (WSJ) • 層毎の違い テスト時のi-vectorはoracleを使用
  15. 15. ICASSP2020論文読み会2020/06/1915 評価 (WSJ) • 層毎の違い テスト時のi-vectorはoracleを使用 Oracleのi-vectorとほぼ同等の性能
  16. 16. ICASSP2020論文読み会2020/06/1916 評価 (WSJ) • 層毎の違い テスト時のi-vectorはoracleを使用 Oracleのi-vectorとほぼ同等の性能 適応を行わない場合と比較しても良い。 適応の効果あり。
  17. 17. ICASSP2020論文読み会2020/06/1917 評価 (WSJ) • 層毎の違い テスト時のi-vectorはoracleを使用 Oracleのi-vectorとほぼ同等の性能 適応を行わない場合と比較しても良い。 適応の効果あり。 学習データのi-vectorの内挿で表現することで、 話者表現が制限されることが良いのでは…?
  18. 18. ICASSP2020論文読み会2020/06/1918 評価 (WSJ) • 短セグメントにおける話者特徴量の効果 i-vectorは学習時とテスト時にミスマッチがあると△ ただし、発話単位でのi-vector同士でなら、 性能劣化はほとんどない。 M-vectorはフレーム毎に話者特徴量が変化するため 1発話の中で話者が切り替わる場合に効果的
  19. 19. ICASSP2020論文読み会2020/06/1919 まとめ End-to-End音声認識のための新しい教師なし話者適応手法 • 学習データ中のi-vectorをattentionによって重みづけ和にして利用する。(M-vector) • 学習データのi-vectorの内挿になるため、話者表現を制約できる。 • i-vectorをそのまま使う場合と異なり、フレーム単位で話者情報が変化する。 • 発話の途中で話者が変化する場合などに対してi-vectorと比較して大幅に性能改善することが可能。 • ただし、i-vectorはonline化もできるため、それとの比較がないのは気になる。 筆者らの今後の展望 • x-vectorなどのほかの話者特徴量を利用した場合の検討。 • NTMに則って、memoryも学習した場合にどうなるかの検討。
  20. 20. Interspeech2019論文読み会@Sony2019/11/2420 参考文献  Leda Sarı, Niko Moritz, Takaaki Hori, Jonathan Le Roux, “Unsupervised Speaker Adaptation Using Attention-Based Speaker Memory for End-to-End ASR,” 2020  Graves, Alex and Wayne, Greg and Danihelka, Ivo, “Neural turing machines,” 2014  Saon, George and Soltau, Hagen and Nahamoo, David and Picheny, Michael, “Speaker adaptation of neural network acoustic models using i-vectors”, 2013
  21. 21. ICASSP2020論文読み会2020/06/1921 補助資料
  22. 22. ICASSP2020論文読み会2020/06/1922 評価 (TED-LIUM2) • データ • TED-LIUM2 • Training: 211.1h, Development: 1.6h, Test: 2.6 h • ツール • i-vector :Kaldi (https://github.com/kaldi-asr/kaldi) • それ以外:ESPnet (https://github.com/espnet/espnet) • ネットワーク • Encoder: 6層BLSTM, 320x2次元 • Decoder: 1層LSTM, 300次元 • CTC weight (λ): 0.5 • UBM: 1024次元, i-vector: 100次元 • memory size (N): 1267次元
  23. 23. ICASSP2020論文読み会2020/06/1923 評価 (TED-LIUM2) • 層毎の違い テスト時のi-vectorはoracleを使用 傾向はほぼWSJの時と同じ M-vectorは教師なし適応だが、 教師ありのi-vector適応と同等なので良い
  24. 24. ICASSP2020論文読み会2020/06/1924 評価 (TED-LIUM2) • 短セグメントにおける話者特徴量の効果 WSJと違って、発話単位だと少し悪化 1発話の中で話者が切り替わる場合の効果は WSJの場合と同じ

×