Successfully reported this slideshow.
Your SlideShare is downloading. ×

ICASSP2020 論文読み会 資料 上乃聖

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
ICASSP読み会2020
ICASSP読み会2020
Loading in …3
×

Check these out next

1 of 13 Ad
Advertisement

More Related Content

Slideshows for you (20)

Recently uploaded (20)

Advertisement

ICASSP2020 論文読み会 資料 上乃聖

  1. 1. 論⽂紹介: CIF: CONTINUOUS INTEGRATE-AND-FIRE FOR END-TO-END SPEECH RECOGNITION Linhao Dong 1, Bo Xu 2 1Insitute of Automation, Chinese Academy of Sciences, China 2University of Chinese Academy of Sciences, China 京都⼤学 上乃 聖 ICASSP2020 論⽂読み会 (オンライン)
  2. 2. 上乃 聖 (UENO Sei) • 同志社⼤学 理⼯学部 情報システムデザイン学科 (B1~B4) →京都⼤学⼤学院 (河原研, M1~D2) • 研究分野 • Automatic speech recognition (ASR) • Text-to-Speech (TTS) • ASR + TTS 個⼈ページ: http://sap.ist.i.kyoto-u.ac.jp/members/ueno/ Github: https://github.com/syoamakase ⾃⼰紹介 2
  3. 3. ⽬的: オンライン⾳声認識 3 • ⾼精度なAttention-based ASRシステムの多くは応⽤時に問題あり 1. オンライン化ができない • エンコーダでBiLSTMを使うため発話全体の⼊⼒を待つ必要あり Ø self-attention型のCNNエンコーダを構成 2. タイムスタンプが取れない • Attentionを使っているためフレームとの同期が取れない 3. Attentionを計算する際に無駄な計算がある • Encoderの全体に毎回attentionを計算 ØContinuous Integrate-and-Fireを提案
  4. 4. 提案⼿法 | アーキテクチャー 4 Self-attentionを使い, ⼀定間隔で区切る (Chunk-hopping) ことでオンラインに 提案⼿法: 𝜶の値をもとに アラインメントを決定
  5. 5. 参考 | Self-Attention Aligner 5 https://arxiv.org/abs/1902.06450 • Self attentionを⽤いたモデル • ⼀定区間で区切る(Chunk-hopping)することでオンライン化 SANs = self attention network
  6. 6. 提案⼿法 | Continuous Integrate-and-Fire (CIF) 6 𝒉 = (ℎ!, ℎ", … ℎ#): エンコーダの出⼒ 𝜶 = 𝛼!, 𝛼", … 𝛼# 𝛽: アラインメント決定のしきい値 現在のstep 𝑢の𝛼$を𝛼$ %に蓄積 𝛼$ % < 𝛽なら境界としない 𝛼$ % > 𝛽なら境界とする • 𝑐&を計算 • 𝛼$ %を初期化 Ø 次ステップでは𝛼':$は使わない
  7. 7. アルゴリズムの例 7 1. 𝛼! + 𝛼" = 0.2 + 0.9 = 1.1 < 𝛽 なので切り分け (アラインメント) • 𝛼" = 0.8 = 𝛼"! + 0.1(= 𝛼"")として 𝛼""を保持 • 𝑐! = 𝛼! ∗ ℎ! + 𝛼"! ∗ ℎ" = 0.2 ∗ ℎ! + 0.8 ∗ ℎ" 2. 𝛼"" + 𝛼# = 0.7 > 𝛽なので次のステップへ 3. 𝛼"" + 𝛼# + 𝛼$ = 1.3 < 𝛽 なので切り分け • 𝛼$ = 0. 3 = 𝛼$! + 0.3(= 𝛼$")として 𝛼$"を保持 • 𝑐" = 𝛼"! ∗ ℎ" + 𝛼# ∗ ℎ# + 𝛼$! ∗ ℎ$ = 0.1 ∗ ℎ" + 0.6 ∗ ℎ# +0.3 ∗ ℎ$ 𝜶 = 0.2, 0.9,0.6, 0.6, 0.1 … 𝒉 = (ℎ!, ℎ", … ℎ#) 𝛽 = 1.0 𝜶: current weight 𝒉: encoderの出⼒ 𝒄: Integrated embedding
  8. 8. Scaling Strategy • 学習時にアラインメントの数を合わせる J 𝒄 の⻑さと正解系列 𝒚の⻑さが⼀致しているとlossが計算しやすい Quantity Loss • ⻑さを合わせるためのloss関数ℒ)#*を⽤意 Tail Handling • 終わった時点での𝛼の値が0.5を超えていたらアラインメントとする • 終了を⽰す<EOS>の導⼊ CIF-basedモデルの⼯夫点 8 𝜶 = (𝛼!, 𝛼", … 𝛼#) 𝜶′ = (𝛼′!, 𝛼′", … 𝛼′#) 𝛼′$ = +, ∑!"# $ .! 𝛼$ ( :𝑆 =正解系列の⻑さ) ℒ%&' = 6 ()! & 𝛼( − 8𝑆
  9. 9. Results on LibriSpeech (English) 9 • 先⾏研究monotonicのモデルよりも良い結果 • Offlineのモデルと⽐べても良い結果
  10. 10. Ablation study 10 • Scaling loss,Quantity loss,tail handling (提案⼿法)がそれぞれ効果あり • CTC lossも効果はあるが,他ほどではない • 英語ではautoregressiveは効果あるが,中国語 (AISHELL-2)では変化なし • 中国語の⽅が⾳響的な境界が分かり易い?
  11. 11. Results on AISHELL-2 and HKUST (Chinese)11 ü 中国語でも同程度の傾向
  12. 12. アラインメント例 12 https://linhodong.github.io/cif_alignment/ • それっぽいところでアラインメントが取れている ü フレームごとにアラインメントが正確に取れる
  13. 13. üCIF-based modelによって現在のASRが抱える問題を解決しつつ⾼精度 1. オンライン化ができない Øself-attention型のCNNエンコーダを構成 2. タイムスタンプが取れない Ø 𝛼$ % > 𝛽を超えた地点をアラインメントとすることで正確なアライ ンメントが取れる! 3. Attentionを計算する際に無駄な計算がある Ø以前にアラインメントとしたところは計算に組み込まない ⾯⽩いと思った点 • 簡単なモデルでなおかつ⾼精度を達成できる点 • 実際にそれっぽいアラインメントも取れている まとめ 13

×