© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Cambridge, Massachusetts
◎Tomoki Hayashi (Nagoya Univ.)
Shinji Watanabe (MERL), Takaaki Hori (MERL)
Suyoun Kim (CMU)
形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
⾳声認識システム
• 系列から系列への変換問題
物理的な信号系列を⾔語的なシンボル系列へとマッピング
2016 2
“出資者は無理難題を”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 3
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システムの問題点
• ⾔語的資源が必要
– 形態素解析 / 発⾳辞書
– 未知語を追加するなどのメンテナンスが必要
• ⼤量のモジュールで構成
– ⾮常に複雑
– 局所的に最適化
– それぞれのモジュール間の依存関係を考慮して調整するのが困難
2016 4
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 5
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)
– ⾳素からHMMの状態系列へ:
• 発⾳辞書
– 単語から⾳素系列へ:
• 形態素解析
– テキストから単語系列へ:
• ⾔語モデル
2016 6
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
Neural Network
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/attention network
2016 7
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Connectionist temporal classification (CTC)
[Graves+(2006), Graves+(2014), Miao+(2015)]
2016 8
• ⽂字系列:
• 冗⻑表現⽂字系列:
• : HMMと同様の形式, forward-backward algorithm
• 発⾳辞書は不要
• 条件付き独⽴の仮定を利⽤
– 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず
and
aab, abb, a_b,
ab_, _ab
条件付き独⽴の仮定 2
条件付き独⽴の仮定 3
条件付き独⽴の仮定 1
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Attention ASR [Chorowski+(2014), Chan+(2015)]
2016 9
連鎖律
• 条件付き独⽴性の仮定が不要
• 発⾳辞書が不要
• Attention & Encoder: ⾳響モデル
• Decoder: ⾔語モデル
⾳響モデルと⾔語モデルを単⼀の
ネットワークで表現!しかし…
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Attentionによるアライメントの問題
• Attentionモデルはアライメントに
対して⾮常に柔軟
– Attentionは⼊⼒と出⼒の順番
(因果関係)を保証しない
– Attention Encoderの役割が
⾳響モデルの役割を超えている
(機械翻訳の場合はこれは有効)
⇒ Encoderの正則化の導⼊
2016 10
HMM or CTC case
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/Attention network [Kim+(2017)]
2016 11
Multitask learning:
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/Attention network [Kim+(2017)]
2016 12
Multitask learning:
ブラックボックスな
ネットワークに
⾳声認識の知識を組み込み
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
実験条件 ⽇本語話し⾔葉コーパス (CSJ)
• ベースラインハイブリッドシステム
– Kaldiレシピバージョン
• fMLLR features, DNN-sMBR, 3-gram LM
• ⾳響モデル:academic lectures (236 hours) で学習
• ⾔語モデル:all transcriptions (581 hours) で学習
– Syllable-based CTC
• fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM
• 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤
• End-to-endシステム
– Joint CTC-Attention
• fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320),
1 layer LSTM decoder (#cell = 320)
• 漢字/ひらがな/カタカナを含む3315⽂字
• 発⾳辞書なし / ⾔語モデルなし
• Chainerにより実装
2016 13
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
学習データ量の影響の調査
2016 14
• MTL (CTC-attention) はどの設定でも性能の向上に貢献
• データが増えれば増えるほど性能が向上
Model(train) CER (task1) CER (task2) CER (task3)
Attention
100k-train (147h) 20.1 14.0 32.7
MTL
100k-train (147h) 16.9 12.7 28.9
Attention
academic-train (236h) 17.2 12.4 25.4
MTL,
academic-train (236h) 13.9 10.2 22.2
Attention
full-train (581h) 11.5 7.9 9.0
MTL
full-train (581h) 10.9 7.8 8.3
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来⼿法との⽐較
2016 15
• GMM-HMM, DNN-HMM, CTC-syllableは単語単位の
認識結果からCERを計算
• MTL large model:
5-layer BLSTM encoder + 2-layer LSTM decoder
• ハイブリッドモデルに匹敵する性能を達成!
Model(train) CER (task1) CER (task2) CER (task3)
GMM-discr. (236h
for AM, 581h for LM) 11.2 9.2 12.1
DNN-hybrid (236h
for AM, 581h for LM) 9.0 7.2 9.6
CTC-syllable (581h)
9.4 7.3 7.5
MTL, large model
(581h) 9.5 7.0 7.8
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
End-to-end ⾳声認識の利点
• ⾔語的知識がほとんど不要
– 簡単に多⾔語ASRシステムを構築可能
• ⽂字レベルベースなら未知語の問題を回避
• ソースコードの総量を⼤幅に削減
16455 lines (Kaldiのメインソース抜き)
→ 2522 lines (Chianerのメインソース抜き)
• 学習時間
GMMの学習:多数のCPUを利⽤して2~3⽇
DNNの学習:多数のCPU+シングルGPUで3~4⽇
→ シングルGPU (Titan X) で7⽇
2016 16
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
まとめと今後の課題
2016 17
• Attentionを利⽤することで単⼀のネットワークで⾳響モデルと
⾔語モデルを表現
• マルチタスク学習によりAttention Encoderの役割を⾳響モデル
のみに絞る正則化
• ⾔語的資源なしに⽇本語⾳声認識を実現
現在の問題点
• 未だ⽂字レベルベースの⾳声認識システムであること
(⽇本語や中国語では問題ないが,アルファベットには不適当)
• ⼤量のテキストデータの活⽤⽅法

形態素解析も辞書も言語モデルもいらないend-to-end音声認識

  • 1.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES Cambridge, Massachusetts ◎Tomoki Hayashi (Nagoya Univ.) Shinji Watanabe (MERL), Takaaki Hori (MERL) Suyoun Kim (CMU) 形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識
  • 2.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES ⾳声認識システム • 系列から系列への変換問題 物理的な信号系列を⾔語的なシンボル系列へとマッピング 2016 2 “出資者は無理難題を”
  • 3.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 3 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3”
  • 4.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES 従来の⽇本語⾳声認識システムの問題点 • ⾔語的資源が必要 – 形態素解析 / 発⾳辞書 – 未知語を追加するなどのメンテナンスが必要 • ⼤量のモジュールで構成 – ⾮常に複雑 – 局所的に最適化 – それぞれのモジュール間の依存関係を考慮して調整するのが困難 2016 4
  • 5.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 5 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3”
  • 6.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES 従来の⽇本語⾳声認識システム ⾳声特徴量 テキスト : “出資者は無理難題を” • ⾳響モデル (出⼒確率, GMM→DNN) • ⾳響モデル (HMM) – ⾳素からHMMの状態系列へ: • 発⾳辞書 – 単語から⾳素系列へ: • 形態素解析 – テキストから単語系列へ: • ⾔語モデル 2016 6 “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3” “出資␣者␣は␣無理␣難題␣を” “s y u q s i” “s_1, s_2, s_3” Neural Network
  • 7.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES Joint CTC/attention network 2016 7
  • 8.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES Connectionist temporal classification (CTC) [Graves+(2006), Graves+(2014), Miao+(2015)] 2016 8 • ⽂字系列: • 冗⻑表現⽂字系列: • : HMMと同様の形式, forward-backward algorithm • 発⾳辞書は不要 • 条件付き独⽴の仮定を利⽤ – 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず and aab, abb, a_b, ab_, _ab 条件付き独⽴の仮定 2 条件付き独⽴の仮定 3 条件付き独⽴の仮定 1
  • 9.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES Attention ASR [Chorowski+(2014), Chan+(2015)] 2016 9 連鎖律 • 条件付き独⽴性の仮定が不要 • 発⾳辞書が不要 • Attention & Encoder: ⾳響モデル • Decoder: ⾔語モデル ⾳響モデルと⾔語モデルを単⼀の ネットワークで表現!しかし…
  • 10.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES Attentionによるアライメントの問題 • Attentionモデルはアライメントに 対して⾮常に柔軟 – Attentionは⼊⼒と出⼒の順番 (因果関係)を保証しない – Attention Encoderの役割が ⾳響モデルの役割を超えている (機械翻訳の場合はこれは有効) ⇒ Encoderの正則化の導⼊ 2016 10 HMM or CTC case
  • 11.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES Joint CTC/Attention network [Kim+(2017)] 2016 11 Multitask learning:
  • 12.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES Joint CTC/Attention network [Kim+(2017)] 2016 12 Multitask learning: ブラックボックスな ネットワークに ⾳声認識の知識を組み込み
  • 13.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES 実験条件 ⽇本語話し⾔葉コーパス (CSJ) • ベースラインハイブリッドシステム – Kaldiレシピバージョン • fMLLR features, DNN-sMBR, 3-gram LM • ⾳響モデル:academic lectures (236 hours) で学習 • ⾔語モデル:all transcriptions (581 hours) で学習 – Syllable-based CTC • fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM • 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤ • End-to-endシステム – Joint CTC-Attention • fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320), 1 layer LSTM decoder (#cell = 320) • 漢字/ひらがな/カタカナを含む3315⽂字 • 発⾳辞書なし / ⾔語モデルなし • Chainerにより実装 2016 13
  • 14.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES 学習データ量の影響の調査 2016 14 • MTL (CTC-attention) はどの設定でも性能の向上に貢献 • データが増えれば増えるほど性能が向上 Model(train) CER (task1) CER (task2) CER (task3) Attention 100k-train (147h) 20.1 14.0 32.7 MTL 100k-train (147h) 16.9 12.7 28.9 Attention academic-train (236h) 17.2 12.4 25.4 MTL, academic-train (236h) 13.9 10.2 22.2 Attention full-train (581h) 11.5 7.9 9.0 MTL full-train (581h) 10.9 7.8 8.3
  • 15.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES 従来⼿法との⽐較 2016 15 • GMM-HMM, DNN-HMM, CTC-syllableは単語単位の 認識結果からCERを計算 • MTL large model: 5-layer BLSTM encoder + 2-layer LSTM decoder • ハイブリッドモデルに匹敵する性能を達成! Model(train) CER (task1) CER (task2) CER (task3) GMM-discr. (236h for AM, 581h for LM) 11.2 9.2 12.1 DNN-hybrid (236h for AM, 581h for LM) 9.0 7.2 9.6 CTC-syllable (581h) 9.4 7.3 7.5 MTL, large model (581h) 9.5 7.0 7.8
  • 16.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES End-to-end ⾳声認識の利点 • ⾔語的知識がほとんど不要 – 簡単に多⾔語ASRシステムを構築可能 • ⽂字レベルベースなら未知語の問題を回避 • ソースコードの総量を⼤幅に削減 16455 lines (Kaldiのメインソース抜き) → 2522 lines (Chianerのメインソース抜き) • 学習時間 GMMの学習:多数のCPUを利⽤して2~3⽇ DNNの学習:多数のCPU+シングルGPUで3~4⽇ → シングルGPU (Titan X) で7⽇ 2016 16
  • 17.
    © MERL MITSUBISHI ELECTRICRESEARCH LABORATORIES まとめと今後の課題 2016 17 • Attentionを利⽤することで単⼀のネットワークで⾳響モデルと ⾔語モデルを表現 • マルチタスク学習によりAttention Encoderの役割を⾳響モデル のみに絞る正則化 • ⾔語的資源なしに⽇本語⾳声認識を実現 現在の問題点 • 未だ⽂字レベルベースの⾳声認識システムであること (⽇本語や中国語では問題ないが,アルファベットには不適当) • ⼤量のテキストデータの活⽤⽅法