INTERSPEECH2022yomi.pdf2. 背景
● Contextual biasing:
○ 発話者 (ユーザ) ごとのコンテキストの知識を音声認識へ反映
■ 連絡先, 好きな音楽, プレゼン資料
○ 知識を単語リスト (biasing list) として作成 → 単語リストにある単語を認識しやすくする
2
プレゼン資料 単語リスト
- Interspeech
- 二見
- ソニー
…
End-to-End 音声認識 (AED)
+
認識結果
“えーと Interspeech について二見が発表します”
3. 提案モデル
3
● Tree-constrained Pointer Generator (TCPGen) へ GNN encoding を適用することを提案
TCPGen
②
①
音声
認識
(AED)
P^gen*P^ptr + (1 - P^gen)*P_mdl
③
単語リストのサブワード prefix tree を用意
①以前のサブワードから次に有効な単語を
prefix tree から絞り込む
②P^ptr を計算 有効な単語以外 Mask
③P^gen を計算
Interpolation での P^ptr の重みを決定
4. 提案モデル
4
● Tree-constrained Pointer Generator (TCPGen) へ GNN encoding を適用することを提案
TCPGen
②
①
音声
認識
(AED)
P^gen*P^ptr + (1 - P^gen)*P_mdl
③
①以前のサブワードから次に有効な単語を
prefix tree から絞り込む
②P^ptr を計算 有効な単語以外 Mask
GNN encoding
4
③P^gen を計算
✓ 現在のサブワードだけでなく , 後に続く単語全
体を考慮した表現より , P^gen を正確に推定
5. 評価実験
5
● Librispeech と AMI コーパスで実験 (英語)
○ 単語リスト (biasing list) の作成方法:
Librispeech: 各発話の正解書き起こしから低頻度語 (Rare word) を抽出 + 1000 distractors
AMI: 各ミーティングのスライドに OCR を適用し低頻度語を抽出 (本研究で提案)
R-WER: Rare word error rate
Librispeech
AMI
✓ Librispeech, AMI ともに GNN encoding によって
TCPGen を上回る WER/R-WER 改善.
✓ AED だけでなく RNN-T でも効果あり.
✓ P^gen を見ると (右図) 早い段階で重み付けが実現