End-to-End音声認識ためのMulti-Head Decoderネットワーク

1
End-to-End音声認識のための
Multi-Head Decoderネットワーク
◎林知樹†, 渡部晋治††, 戸田智基†, 武田一哉†
† 名古屋大学, †† ジョンズ・ホプキンス大学
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」

2
DNN-HMMからEnd-to-End方式へ
p 音声認識 (ASR) : 系列から系列への変換問題
n 音声信号系列を全く性質の異なるシンボル系列へ変換
p 従来方式 : DNN-HMMハイブリッドモデル
n 音響モデル / 言語モデル等の多数のモジュールで構成
n システム全体の最適化が困難
p End-to-End (E2E) 方式: CTC / Seq2Seqモデル
n 単一のネットワークのみで処理が完結
n システム全体の最適化が容易
“あらゆる現実を…”
本研究ではE2E方式の認識率向上に着目

3
p E2E-ASRのための2つのアイデアを提案
本研究の貢献
1) E2E-ASRのためのMulti-Head Decoder (MHD)
ü Multi-Head Attention (MHA) を拡張
ü 各々のAttentionに対して異なるデコーダを割当
2) 異種のAttentionを併用したHeterogeneous MHA
ü MHAにおいて異種のAttentionを混合して利用
ü 各々のAttentionが異なる傾向を捉えることを可能に
実験的評価によりWERの改善を確認 (10.2 % -> 9.0 %)
それぞれのデコーダが異なる傾向を捉えていることを
Attentionのアライメントから示唆

4
従来のASRシステム
Audio
Feature
State
Phoneme
Word
Sentence
特徴量抽出
決定木
クラスタリング
発音辞書
言語モデル
音響モデル

5
従来のASRシステム
Audio
Feature
State
Phoneme
Word
Sentence
特徴量抽出
音響モデル
発音辞書
言語モデル
非常に高コストな
専門家による手作り
複数の条件付き
独立性の仮定の利用
別のデータで
個別に最適化
専門家の知識を
質問の設計に利用
決定木

6
E2E-ASRシステム
システムをシンプルかつ全体最適化可能に！
Audio
Feature
Sentence
特徴量抽出
決定木
発音辞書
言語モデル
音響モデル
Single Neural Network

7
E2E-ASRの代表的な方式
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based

8
CTC-based E2E-ASR [Graves+, 2014]
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Encoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
音響特徴量系列
エンコーダ隠れ状態系列
出力シンボル事後確率

9
CTC-based E2E-ASR [Graves+, 2014]
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Encoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
J 発音辞書が不要
L 依然として条件付き
独立性の仮定を利用
L 過去の出力系列を考慮した
予測が不可能

10
Attention based E2E-ASR [Chorowski+, 2014]
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
出力シンボル事後確率
デコーダ隠れ状態
コンテキスト特徴
過去の出力シンボル
過去のデコーダ隠れ状態
過去のAttention重み

11
Attention based E2E-ASR [Chorowski+, 2014]
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
J 発音辞書が不要
J 一切の仮定が不要
L 入力と出力の対応が
非因果的になる
可能性あり

12
よりよいAttentionを求めて
Joint CTC-attention [Kim+, 2015]
p CTCとAttentionのマルチタスク学習
Multi-Head Attention [Chiu+. 2018]
p 複数のAttentionを計算した後統合して利用

13
よりよいAttentionを求めて
Joint CTC-attention [Kim+, 2015]
p CTCとAttentionのマルチタスク学習
Multi-Head Attention [Chiu+. 2018]
p 複数のAttentionを計算した後統合して利用
本研究ではこちらの手法の拡張を提案

14
Multi-Head Attention [Vaswani+, 2018]
𝑦34"
・・・
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
𝐪34"
Softmax
Decoder
Attention 2
・・・
𝐪34"
𝐇
Attention N
・・・
𝐪34"
・・・
𝐇𝐇
Encoder
Linear
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
𝐜3

15
提案手法① Multi-Head Decoder
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
𝐪34"
(")
Softmax
Attention 2
・・・
𝐪34"
(/) 𝐇
Attention N
・・・
𝐪34"
(:)
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)

16
提案手法① Multi-Head Decoder
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
Softmax
Attention 2
・・・
𝐇
Attention N
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
デコーダの出力レベルで統合
アンサンブル効果による性能向上を期待
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)

17
提案手法② Heterogeneous MHD
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Dot
・・・
Softmax
Additive
・・・
𝐇
Location
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)

18
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)
提案手法② Heterogeneous MHD
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Dot
・・・
Softmax
Additive
・・・
𝐇
Location
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
Dot Additive Location・・・
異なるAttention機構を併用
それぞれのAttentionが異なる傾向を捉え
アンサンブル効果が高まることを期待

19
実験的評価
p 実験概要
n CSJデータセットを用いて評価
n 全講演を学習データに利用 (≒580 hours)
n Character Error Rate (CER)を評価基準として利用
p 比較手法
1. Single attention (dot product / additive / location)
2. MHA (dot product / additive / location)
3. MHD (location)
4. HMHD
n Dot + additive + location + coverage
5. HMHD
n 2 location + 2 coverage
提案手法

20
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9

21
実験結果
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
HMHD (2*loc+2*cov) 10.4 7.7 8.9
MHAの利用による性能の向上を確認

22
実験結果
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
HMHD (2*loc+2*cov) 10.4 7.7 8.9
タスク3以外でMHDによる性能向上を確認

23
実験結果
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
HMHD (2*loc+2*cov) 10.4 7.7 8.9
HMHDが最も良い性能を達成
提案手法の有効性を確認

24
Attention重みの可視化
各々のAttentionが異なる傾向を捉えていることを確認

25
結論と今後の課題
結論
p Heterogeneous MHDを提案
p 実験的評価により提案法の有効性を確認
n 平均 CER 10.2 % -> 9.0 %
n 異種のAttentionを併用することの有効性を示唆
n デコーダの出力レベルでの統合の有効性を示唆
今後の課題
p エラー分析
p 他言語のデータセットへの適用
p Attentionの組み合わせの影響の調査
p Head数の影響の調査

26
ESPnet (宣伝)
p E2E音声処理ツールキット
n オープンソース (Apache 2.0)
n Chainer or Pytorch バックエンド
p Kaldi-likeなレシピサポート
n 25の言語 / 15個のレシピ (WSJ, CSJ, …)
p ASRだけでなくTTSもサポート
n Tacotron2-based TTSシステムが構築可能

End-to-End音声認識ためのMulti-Head Decoderネットワーク

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to End-to-End音声認識ためのMulti-Head Decoderネットワーク

Similar to End-to-End音声認識ためのMulti-Head Decoderネットワーク (20)

More from NU_I_TODALAB

More from NU_I_TODALAB (20)

Recently uploaded

Recently uploaded (6)

End-to-End音声認識ためのMulti-Head Decoderネットワーク