2. 2
DNN-HMMからEnd-to-End方式へ
p 音声認識 (ASR) : 系列から系列への変換問題
n 音声信号系列を全く性質の異なるシンボル系列へ変換
p 従来方式 : DNN-HMMハイブリッドモデル
n 音響モデル / 言語モデル等の多数のモジュールで構成
n システム全体の最適化が困難
p End-to-End (E2E) 方式: CTC / Seq2Seqモデル
n 単一のネットワークのみで処理が完結
n システム全体の最適化が容易
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
“あらゆる現実を…”
本研究ではE2E方式の認識率向上に着目
3. 3
p E2E-ASRのための2つのアイデアを提案
本研究の貢献
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
1) E2E-ASRのためのMulti-Head Decoder (MHD)
ü Multi-Head Attention (MHA) を拡張
ü 各々のAttentionに対して異なるデコーダを割当
2) 異種のAttentionを併用したHeterogeneous MHA
ü MHAにおいて異種のAttentionを混合して利用
ü 各々のAttentionが異なる傾向を捉えることを可能に
実験的評価によりWERの改善を確認 (10.2 % -> 9.0 %)
それぞれのデコーダが異なる傾向を捉えていることを
Attentionのアライメントから示唆
25. 25
結論と今後の課題
結論
p Heterogeneous MHDを提案
p 実験的評価により提案法の有効性を確認
n 平均 CER 10.2 % -> 9.0 %
n 異種のAttentionを併用することの有効性を示唆
n デコーダの出力レベルでの統合の有効性を示唆
今後の課題
p エラー分析
p 他言語のデータセットへの適用
p Attentionの組み合わせの影響の調査
p Head数の影響の調査
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
26. 26
ESPnet (宣伝)
p E2E音声処理ツールキット
n オープンソース (Apache 2.0)
n Chainer or Pytorch バックエンド
p Kaldi-likeなレシピサポート
n 25の言語 / 15個のレシピ (WSJ, CSJ, …)
p ASRだけでなくTTSもサポート
n Tacotron2-based TTSシステムが構築可能
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」