SlideShare a Scribd company logo
1 of 26
1
End-to-End音声認識のための
Multi-Head Decoderネットワーク
◎林知樹†, 渡部晋治††, 戸田智基†, 武田一哉†
† 名古屋大学, †† ジョンズ・ホプキンス大学
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
2
DNN-HMMからEnd-to-End方式へ
p 音声認識 (ASR) : 系列から系列への変換問題
n 音声信号系列を全く性質の異なるシンボル系列へ変換
p 従来方式 : DNN-HMMハイブリッドモデル
n 音響モデル / 言語モデル等の多数のモジュールで構成
n システム全体の最適化が困難
p End-to-End (E2E) 方式: CTC / Seq2Seqモデル
n 単一のネットワークのみで処理が完結
n システム全体の最適化が容易
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
“あらゆる現実を…”
本研究ではE2E方式の認識率向上に着目
3
p E2E-ASRのための2つのアイデアを提案
本研究の貢献
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
1) E2E-ASRのためのMulti-Head Decoder (MHD)
ü Multi-Head Attention (MHA) を拡張
ü 各々のAttentionに対して異なるデコーダを割当
2) 異種のAttentionを併用したHeterogeneous MHA
ü MHAにおいて異種のAttentionを混合して利用
ü 各々のAttentionが異なる傾向を捉えることを可能に
実験的評価によりWERの改善を確認 (10.2 % -> 9.0 %)
それぞれのデコーダが異なる傾向を捉えていることを
Attentionのアライメントから示唆
4
従来のASRシステム
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Audio
Feature
State
Phoneme
Word
Sentence
特徴量抽出
決定木
クラスタリング
発音辞書
言語モデル
音響モデル
5
従来のASRシステム
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Audio
Feature
State
Phoneme
Word
Sentence
特徴量抽出
音響モデル
発音辞書
言語モデル
非常に高コストな
専門家による手作り
複数の条件付き
独立性の仮定の利用
別のデータで
個別に最適化
専門家の知識を
質問の設計に利用
決定木
クラスタリング
6
E2E-ASRシステム
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
システムをシンプルかつ全体最適化可能に!
Audio
Feature
Sentence
特徴量抽出
決定木
クラスタリング
発音辞書
言語モデル
音響モデル
Single Neural Network
7
E2E-ASRの代表的な方式
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
8
CTC-based E2E-ASR [Graves+, 2014]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Encoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
音響特徴量系列
エンコーダ隠れ状態系列
出力シンボル事後確率
9
CTC-based E2E-ASR [Graves+, 2014]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Encoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
J 発音辞書が不要
L 依然として条件付き
独立性の仮定を利用
L 過去の出力系列を考慮した
予測が不可能
10
Attention based E2E-ASR [Chorowski+, 2014]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
出力シンボル事後確率
デコーダ隠れ状態
コンテキスト特徴
過去の出力シンボル
過去のデコーダ隠れ状態
過去のAttention重み
11
Attention based E2E-ASR [Chorowski+, 2014]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
J 発音辞書が不要
J 一切の仮定が不要
L 入力と出力の対応が
非因果的になる
可能性あり
12
よりよいAttentionを求めて
Joint CTC-attention [Kim+, 2015]
p CTCとAttentionのマルチタスク学習
Multi-Head Attention [Chiu+. 2018]
p 複数のAttentionを計算した後統合して利用
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
13
よりよいAttentionを求めて
Joint CTC-attention [Kim+, 2015]
p CTCとAttentionのマルチタスク学習
Multi-Head Attention [Chiu+. 2018]
p 複数のAttentionを計算した後統合して利用
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
本研究ではこちらの手法の拡張を提案
14
Multi-Head Attention [Vaswani+, 2018]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑦34"
・・・
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
𝐪34"
Softmax
Decoder
Attention 2
・・・
𝐪34"
𝐇
Attention N
・・・
𝐪34"
・・・
𝐇𝐇
Encoder
Linear
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
𝐜3
15
提案手法① Multi-Head Decoder
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
𝐪34"
(")
Softmax
Attention 2
・・・
𝐪34"
(/) 𝐇
Attention N
・・・
𝐪34"
(:)
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
16
提案手法① Multi-Head Decoder
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
Softmax
Attention 2
・・・
𝐇
Attention N
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
デコーダの出力レベルで統合
アンサンブル効果による性能向上を期待
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)
17
提案手法② Heterogeneous MHD
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Dot
・・・
Softmax
Additive
・・・
𝐇
Location
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)
18
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)
提案手法② Heterogeneous MHD
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Dot
・・・
Softmax
Additive
・・・
𝐇
Location
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
Dot Additive Location・・・
異なるAttention機構を併用
それぞれのAttentionが異なる傾向を捉え
アンサンブル効果が高まることを期待
19
実験的評価
p 実験概要
n CSJデータセットを用いて評価
n 全講演を学習データに利用 (≒580 hours)
n Character Error Rate (CER)を評価基準として利用
p 比較手法
1. Single attention (dot product / additive / location)
2. MHA (dot product / additive / location)
3. MHD (location)
4. HMHD
n Dot + additive + location + coverage
5. HMHD
n 2 location + 2 coverage
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
提案手法
20
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
21
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
MHAの利用による性能の向上を確認
22
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
タスク3以外でMHDによる性能向上を確認
23
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
HMHDが最も良い性能を達成
提案手法の有効性を確認
24
Attention重みの可視化
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
各々のAttentionが異なる傾向を捉えていることを確認
25
結論と今後の課題
結論
p Heterogeneous MHDを提案
p 実験的評価により提案法の有効性を確認
n 平均 CER 10.2 % -> 9.0 %
n 異種のAttentionを併用することの有効性を示唆
n デコーダの出力レベルでの統合の有効性を示唆
今後の課題
p エラー分析
p 他言語のデータセットへの適用
p Attentionの組み合わせの影響の調査
p Head数の影響の調査
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
26
ESPnet (宣伝)
p E2E音声処理ツールキット
n オープンソース (Apache 2.0)
n Chainer or Pytorch バックエンド
p Kaldi-likeなレシピサポート
n 25の言語 / 15個のレシピ (WSJ, CSJ, …)
p ASRだけでなくTTSもサポート
n Tacotron2-based TTSシステムが構築可能
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」

More Related Content

What's hot

音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要Kenji Urai
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理Masatoshi Yoshida
 

What's hot (20)

音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
 

Similar to End-to-End音声認識ためのMulti-Head Decoderネットワーク

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出Tomoki Hayashi
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 
マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞DMM.com
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
Emacs上のターミナルを最強に
Emacs上のターミナルを最強にEmacs上のターミナルを最強に
Emacs上のターミナルを最強にLintaro Ina
 
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Yuta Kikuchi
 
Spring I/O 2017 報告 ThymeleafのWebFlux対応
Spring I/O 2017 報告 ThymeleafのWebFlux対応Spring I/O 2017 報告 ThymeleafのWebFlux対応
Spring I/O 2017 報告 ThymeleafのWebFlux対応Takuya Iwatsuka
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究Takashi Kishida
 
Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Plot Hong
 
Embedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksYusuke Uchida
 
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVR第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVRToru Makabe
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータShinya Takamaeda-Y
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2Jiro Nishitoba
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1Masaya Aoyama
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...Deep Learning JP
 
OSC2010 TOKYO/Spring Asterisk Seminar
OSC2010 TOKYO/Spring Asterisk SeminarOSC2010 TOKYO/Spring Asterisk Seminar
OSC2010 TOKYO/Spring Asterisk SeminarKenichi 深海
 

Similar to End-to-End音声認識ためのMulti-Head Decoderネットワーク (20)

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
AES-NI@Sandy Bridge
AES-NI@Sandy BridgeAES-NI@Sandy Bridge
AES-NI@Sandy Bridge
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
Emacs上のターミナルを最強に
Emacs上のターミナルを最強にEmacs上のターミナルを最強に
Emacs上のターミナルを最強に
 
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
 
Spring I/O 2017 報告 ThymeleafのWebFlux対応
Spring I/O 2017 報告 ThymeleafのWebFlux対応Spring I/O 2017 報告 ThymeleafのWebFlux対応
Spring I/O 2017 報告 ThymeleafのWebFlux対応
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
 
Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介
 
Embedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural Networks
 
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVR第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
 
OSC2010 TOKYO/Spring Asterisk Seminar
OSC2010 TOKYO/Spring Asterisk SeminarOSC2010 TOKYO/Spring Asterisk Seminar
OSC2010 TOKYO/Spring Asterisk Seminar
 

More from NU_I_TODALAB

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 

More from NU_I_TODALAB (20)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 

End-to-End音声認識ためのMulti-Head Decoderネットワーク

  • 1. 1 End-to-End音声認識のための Multi-Head Decoderネットワーク ◎林知樹†, 渡部晋治††, 戸田智基†, 武田一哉† † 名古屋大学, †† ジョンズ・ホプキンス大学 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
  • 2. 2 DNN-HMMからEnd-to-End方式へ p 音声認識 (ASR) : 系列から系列への変換問題 n 音声信号系列を全く性質の異なるシンボル系列へ変換 p 従来方式 : DNN-HMMハイブリッドモデル n 音響モデル / 言語モデル等の多数のモジュールで構成 n システム全体の最適化が困難 p End-to-End (E2E) 方式: CTC / Seq2Seqモデル n 単一のネットワークのみで処理が完結 n システム全体の最適化が容易 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 “あらゆる現実を…” 本研究ではE2E方式の認識率向上に着目
  • 3. 3 p E2E-ASRのための2つのアイデアを提案 本研究の貢献 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 1) E2E-ASRのためのMulti-Head Decoder (MHD) ü Multi-Head Attention (MHA) を拡張 ü 各々のAttentionに対して異なるデコーダを割当 2) 異種のAttentionを併用したHeterogeneous MHA ü MHAにおいて異種のAttentionを混合して利用 ü 各々のAttentionが異なる傾向を捉えることを可能に 実験的評価によりWERの改善を確認 (10.2 % -> 9.0 %) それぞれのデコーダが異なる傾向を捉えていることを Attentionのアライメントから示唆
  • 4. 4 従来のASRシステム 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Audio Feature State Phoneme Word Sentence 特徴量抽出 決定木 クラスタリング 発音辞書 言語モデル 音響モデル
  • 5. 5 従来のASRシステム 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Audio Feature State Phoneme Word Sentence 特徴量抽出 音響モデル 発音辞書 言語モデル 非常に高コストな 専門家による手作り 複数の条件付き 独立性の仮定の利用 別のデータで 個別に最適化 専門家の知識を 質問の設計に利用 決定木 クラスタリング
  • 6. 6 E2E-ASRシステム 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 システムをシンプルかつ全体最適化可能に! Audio Feature Sentence 特徴量抽出 決定木 クラスタリング 発音辞書 言語モデル 音響モデル Single Neural Network
  • 7. 7 E2E-ASRの代表的な方式 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Decoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based
  • 8. 8 CTC-based E2E-ASR [Graves+, 2014] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Encoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based 音響特徴量系列 エンコーダ隠れ状態系列 出力シンボル事後確率
  • 9. 9 CTC-based E2E-ASR [Graves+, 2014] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Encoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based J 発音辞書が不要 L 依然として条件付き 独立性の仮定を利用 L 過去の出力系列を考慮した 予測が不可能
  • 10. 10 Attention based E2E-ASR [Chorowski+, 2014] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Decoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based 出力シンボル事後確率 デコーダ隠れ状態 コンテキスト特徴 過去の出力シンボル 過去のデコーダ隠れ状態 過去のAttention重み
  • 11. 11 Attention based E2E-ASR [Chorowski+, 2014] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Decoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based J 発音辞書が不要 J 一切の仮定が不要 L 入力と出力の対応が 非因果的になる 可能性あり
  • 12. 12 よりよいAttentionを求めて Joint CTC-attention [Kim+, 2015] p CTCとAttentionのマルチタスク学習 Multi-Head Attention [Chiu+. 2018] p 複数のAttentionを計算した後統合して利用 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
  • 13. 13 よりよいAttentionを求めて Joint CTC-attention [Kim+, 2015] p CTCとAttentionのマルチタスク学習 Multi-Head Attention [Chiu+. 2018] p 複数のAttentionを計算した後統合して利用 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 本研究ではこちらの手法の拡張を提案
  • 14. 14 Multi-Head Attention [Vaswani+, 2018] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑦34" ・・・ 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Attention 1 ・・・ 𝐪34" Softmax Decoder Attention 2 ・・・ 𝐪34" 𝐇 Attention N ・・・ 𝐪34" ・・・ 𝐇𝐇 Encoder Linear 𝐜3 (/) 𝐜3 (9) 𝐜3 (") 𝐜3
  • 15. 15 提案手法① Multi-Head Decoder 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Attention 1 ・・・ 𝐪34" (") Softmax Attention 2 ・・・ 𝐪34" (/) 𝐇 Attention N ・・・ 𝐪34" (:) ・・・ 𝐇𝐇 Encoder 𝐜3 (/) 𝐜3 (9) 𝐜3 (") Decoder 1 𝑦34" ・・・ Decoder 2 𝑦34" ・・・ Decoder N 𝑦34" ・・・ + ・・・ 𝐪3 (") 𝐪3 (/) 𝐪3 (9)
  • 16. 16 提案手法① Multi-Head Decoder 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Attention 1 ・・・ Softmax Attention 2 ・・・ 𝐇 Attention N ・・・ ・・・ 𝐇𝐇 Encoder 𝐜3 (/) 𝐜3 (9) 𝐜3 (") Decoder 1 𝑦34" ・・・ Decoder 2 𝑦34" ・・・ Decoder N 𝑦34" ・・・ + ・・・ 𝐪3 (") 𝐪3 (/) 𝐪3 (9) デコーダの出力レベルで統合 アンサンブル効果による性能向上を期待 𝐪34" (") 𝐪34" (/) 𝐪34" (:)
  • 17. 17 提案手法② Heterogeneous MHD 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Dot ・・・ Softmax Additive ・・・ 𝐇 Location ・・・ ・・・ 𝐇𝐇 Encoder 𝐜3 (/) 𝐜3 (9) 𝐜3 (") Decoder 1 𝑦34" ・・・ Decoder 2 𝑦34" ・・・ Decoder N 𝑦34" ・・・ + ・・・ 𝐪3 (") 𝐪3 (/) 𝐪3 (9) 𝐪34" (") 𝐪34" (/) 𝐪34" (:)
  • 18. 18 𝐪34" (") 𝐪34" (/) 𝐪34" (:) 提案手法② Heterogeneous MHD 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Dot ・・・ Softmax Additive ・・・ 𝐇 Location ・・・ ・・・ 𝐇𝐇 Encoder 𝐜3 (/) 𝐜3 (9) 𝐜3 (") Decoder 1 𝑦34" ・・・ Decoder 2 𝑦34" ・・・ Decoder N 𝑦34" ・・・ + ・・・ 𝐪3 (") 𝐪3 (/) 𝐪3 (9) Dot Additive Location・・・ 異なるAttention機構を併用 それぞれのAttentionが異なる傾向を捉え アンサンブル効果が高まることを期待
  • 19. 19 実験的評価 p 実験概要 n CSJデータセットを用いて評価 n 全講演を学習データに利用 (≒580 hours) n Character Error Rate (CER)を評価基準として利用 p 比較手法 1. Single attention (dot product / additive / location) 2. MHA (dot product / additive / location) 3. MHD (location) 4. HMHD n Dot + additive + location + coverage 5. HMHD n 2 location + 2 coverage 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 提案手法
  • 20. 20 実験結果 Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%] Single-Dot 12.7 9.8 10.7 Single-Add 11.1 8.4 9.0 Single-Location 11.7 8.8 10.2 MHA-Dot 11.6 8.5 9.3 MHA-Add 10.7 8.2 9.1 MHA-Location 11.5 8.6 9.0 MHD-Location 11.0 8.4 9.5 HMHD (dot+add+loc+cov) 11.0 8.3 9.0 HMHD (2*loc+2*cov) 10.4 7.7 8.9 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
  • 21. 21 実験結果 Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%] Single-Dot 12.7 9.8 10.7 Single-Add 11.1 8.4 9.0 Single-Location 11.7 8.8 10.2 MHA-Dot 11.6 8.5 9.3 MHA-Add 10.7 8.2 9.1 MHA-Location 11.5 8.6 9.0 MHD-Location 11.0 8.4 9.5 HMHD (dot+add+loc+cov) 11.0 8.3 9.0 HMHD (2*loc+2*cov) 10.4 7.7 8.9 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 MHAの利用による性能の向上を確認
  • 22. 22 実験結果 Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%] Single-Dot 12.7 9.8 10.7 Single-Add 11.1 8.4 9.0 Single-Location 11.7 8.8 10.2 MHA-Dot 11.6 8.5 9.3 MHA-Add 10.7 8.2 9.1 MHA-Location 11.5 8.6 9.0 MHD-Location 11.0 8.4 9.5 HMHD (dot+add+loc+cov) 11.0 8.3 9.0 HMHD (2*loc+2*cov) 10.4 7.7 8.9 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 タスク3以外でMHDによる性能向上を確認
  • 23. 23 実験結果 Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%] Single-Dot 12.7 9.8 10.7 Single-Add 11.1 8.4 9.0 Single-Location 11.7 8.8 10.2 MHA-Dot 11.6 8.5 9.3 MHA-Add 10.7 8.2 9.1 MHA-Location 11.5 8.6 9.0 MHD-Location 11.0 8.4 9.5 HMHD (dot+add+loc+cov) 11.0 8.3 9.0 HMHD (2*loc+2*cov) 10.4 7.7 8.9 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 HMHDが最も良い性能を達成 提案手法の有効性を確認
  • 24. 24 Attention重みの可視化 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 各々のAttentionが異なる傾向を捉えていることを確認
  • 25. 25 結論と今後の課題 結論 p Heterogeneous MHDを提案 p 実験的評価により提案法の有効性を確認 n 平均 CER 10.2 % -> 9.0 % n 異種のAttentionを併用することの有効性を示唆 n デコーダの出力レベルでの統合の有効性を示唆 今後の課題 p エラー分析 p 他言語のデータセットへの適用 p Attentionの組み合わせの影響の調査 p Head数の影響の調査 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
  • 26. 26 ESPnet (宣伝) p E2E音声処理ツールキット n オープンソース (Apache 2.0) n Chainer or Pytorch バックエンド p Kaldi-likeなレシピサポート n 25の言語 / 15個のレシピ (WSJ, CSJ, …) p ASRだけでなくTTSもサポート n Tacotron2-based TTSシステムが構築可能 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」