形態素解析も辞書も言語モデルもいらないend-to-end音声認識

© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Cambridge, Massachusetts
◎Tomoki Hayashi (Nagoya Univ.)
Shinji Watanabe (MERL), Takaaki Hori (MERL)
Suyoun Kim (CMU)
形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識

© MERL
⾳声認識システム
• 系列から系列への変換問題
物理的な信号系列を⾔語的なシンボル系列へとマッピング
2016 2
“出資者は無理難題を”

© MERL
従来の⽇本語⾳声認識システム
⾳声特徴量テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 3
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”

© MERL
従来の⽇本語⾳声認識システムの問題点
• ⾔語的資源が必要
– 形態素解析 / 発⾳辞書
– 未知語を追加するなどのメンテナンスが必要
• ⼤量のモジュールで構成
– ⾮常に複雑
– 局所的に最適化
– それぞれのモジュール間の依存関係を考慮して調整するのが困難
2016 4

© MERL
• 発⾳辞書
• 形態素解析
• ⾔語モデル
2016 5
“s y u q s i”
“s_1, s_2, s_3”

© MERL
• 発⾳辞書
• 形態素解析
• ⾔語モデル
2016 6
“s y u q s i”
“s_1, s_2, s_3”
“s y u q s i”
“s_1, s_2, s_3”
Neural Network

© MERL
Joint CTC/attention network
2016 7

© MERL
Connectionist temporal classification (CTC)
[Graves+(2006), Graves+(2014), Miao+(2015)]
2016 8
• ⽂字系列:
• 冗⻑表現⽂字系列:
• : HMMと同様の形式, forward-backward algorithm
• 発⾳辞書は不要
• 条件付き独⽴の仮定を利⽤
– 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず
and
aab, abb, a_b,
ab_, _ab
条件付き独⽴の仮定 2

© MERL
Attention ASR [Chorowski+(2014), Chan+(2015)]
2016 9
連鎖律
• 条件付き独⽴性の仮定が不要
• 発⾳辞書が不要
• Attention & Encoder: ⾳響モデル
• Decoder: ⾔語モデル
⾳響モデルと⾔語モデルを単⼀の
ネットワークで表現！しかし…

© MERL
Attentionによるアライメントの問題
• Attentionモデルはアライメントに
対して⾮常に柔軟
– Attentionは⼊⼒と出⼒の順番
(因果関係)を保証しない
– Attention Encoderの役割が
⾳響モデルの役割を超えている
(機械翻訳の場合はこれは有効)
⇒ Encoderの正則化の導⼊
2016 10
HMM or CTC case

© MERL
Joint CTC/Attention network [Kim+(2017)]
2016 11
Multitask learning:

© MERL
実験条件⽇本語話し⾔葉コーパス (CSJ)
• ベースラインハイブリッドシステム
– Kaldiレシピバージョン
• fMLLR features, DNN-sMBR, 3-gram LM
• ⾳響モデル：academic lectures (236 hours) で学習
• ⾔語モデル：all transcriptions (581 hours) で学習
– Syllable-based CTC
• fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM
• 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤
• End-to-endシステム
– Joint CTC-Attention
• fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320),
1 layer LSTM decoder (#cell = 320)
• 漢字/ひらがな/カタカナを含む3315⽂字
• 発⾳辞書なし / ⾔語モデルなし
• Chainerにより実装
2016 13

© MERL
学習データ量の影響の調査
2016 14
• MTL (CTC-attention) はどの設定でも性能の向上に貢献
• データが増えれば増えるほど性能が向上
Model(train) CER (task1) CER (task2) CER (task3)
Attention
100k-train (147h) 20.1 14.0 32.7
MTL
100k-train (147h) 16.9 12.7 28.9
Attention
academic-train (236h) 17.2 12.4 25.4
MTL,
academic-train (236h) 13.9 10.2 22.2
Attention
full-train (581h) 11.5 7.9 9.0
MTL
full-train (581h) 10.9 7.8 8.3

© MERL
従来⼿法との⽐較
2016 15
• GMM-HMM, DNN-HMM, CTC-syllableは単語単位の
認識結果からCERを計算
• MTL large model:
5-layer BLSTM encoder + 2-layer LSTM decoder
• ハイブリッドモデルに匹敵する性能を達成！
Model(train) CER (task1) CER (task2) CER (task3)
GMM-discr. (236h
for AM, 581h for LM) 11.2 9.2 12.1
DNN-hybrid (236h
for AM, 581h for LM) 9.0 7.2 9.6
CTC-syllable (581h)
9.4 7.3 7.5
MTL, large model
(581h) 9.5 7.0 7.8

© MERL
End-to-end ⾳声認識の利点
• ⾔語的知識がほとんど不要
– 簡単に多⾔語ASRシステムを構築可能
• ⽂字レベルベースなら未知語の問題を回避
• ソースコードの総量を⼤幅に削減
16455 lines (Kaldiのメインソース抜き)
→ 2522 lines (Chianerのメインソース抜き)
• 学習時間
GMMの学習：多数のCPUを利⽤して2~3⽇
DNNの学習：多数のCPU+シングルGPUで3~4⽇
→ シングルGPU (Titan X) で7⽇
2016 16

© MERL
まとめと今後の課題
2016 17
• Attentionを利⽤することで単⼀のネットワークで⾳響モデルと
⾔語モデルを表現
• マルチタスク学習によりAttention Encoderの役割を⾳響モデル
のみに絞る正則化
• ⾔語的資源なしに⽇本語⾳声認識を実現
現在の問題点
• 未だ⽂字レベルベースの⾳声認識システムであること
(⽇本語や中国語では問題ないが，アルファベットには不適当)
• ⼤量のテキストデータの活⽤⽅法

形態素解析も辞書も言語モデルもいらないend-to-end音声認識

More Related Content

What's hot

Viewers also liked

Similar to 形態素解析も辞書も言語モデルもいらないend-to-end音声認識

More from Tomoki Hayashi

形態素解析も辞書も言語モデルもいらないend-to-end音声認識