SlideShare a Scribd company logo
1
End-to-End音声認識のための
Multi-Head Decoderネットワーク
◎林知樹†, 渡部晋治††, 戸田智基†, 武田一哉†
† 名古屋大学, †† ジョンズ・ホプキンス大学
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
2
DNN-HMMからEnd-to-End方式へ
p 音声認識 (ASR) : 系列から系列への変換問題
n 音声信号系列を全く性質の異なるシンボル系列へ変換
p 従来方式 : DNN-HMMハイブリッドモデル
n 音響モデル / 言語モデル等の多数のモジュールで構成
n システム全体の最適化が困難
p End-to-End (E2E) 方式: CTC / Seq2Seqモデル
n 単一のネットワークのみで処理が完結
n システム全体の最適化が容易
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
“あらゆる現実を…”
本研究ではE2E方式の認識率向上に着目
3
p E2E-ASRのための2つのアイデアを提案
本研究の貢献
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
1) E2E-ASRのためのMulti-Head Decoder (MHD)
ü Multi-Head Attention (MHA) を拡張
ü 各々のAttentionに対して異なるデコーダを割当
2) 異種のAttentionを併用したHeterogeneous MHA
ü MHAにおいて異種のAttentionを混合して利用
ü 各々のAttentionが異なる傾向を捉えることを可能に
実験的評価によりWERの改善を確認 (10.2 % -> 9.0 %)
それぞれのデコーダが異なる傾向を捉えていることを
Attentionのアライメントから示唆
4
従来のASRシステム
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Audio
Feature
State
Phoneme
Word
Sentence
特徴量抽出
決定木
クラスタリング
発音辞書
言語モデル
音響モデル
5
従来のASRシステム
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Audio
Feature
State
Phoneme
Word
Sentence
特徴量抽出
音響モデル
発音辞書
言語モデル
非常に高コストな
専門家による手作り
複数の条件付き
独立性の仮定の利用
別のデータで
個別に最適化
専門家の知識を
質問の設計に利用
決定木
クラスタリング
6
E2E-ASRシステム
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
システムをシンプルかつ全体最適化可能に!
Audio
Feature
Sentence
特徴量抽出
決定木
クラスタリング
発音辞書
言語モデル
音響モデル
Single Neural Network
7
E2E-ASRの代表的な方式
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
8
CTC-based E2E-ASR [Graves+, 2014]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Encoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
音響特徴量系列
エンコーダ隠れ状態系列
出力シンボル事後確率
9
CTC-based E2E-ASR [Graves+, 2014]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Encoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
J 発音辞書が不要
L 依然として条件付き
独立性の仮定を利用
L 過去の出力系列を考慮した
予測が不可能
10
Attention based E2E-ASR [Chorowski+, 2014]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
出力シンボル事後確率
デコーダ隠れ状態
コンテキスト特徴
過去の出力シンボル
過去のデコーダ隠れ状態
過去のAttention重み
11
Attention based E2E-ASR [Chorowski+, 2014]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
Encoder
Softmax
𝐱" 𝐱#・・・・
𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗)
𝐇 = {𝐡", 𝐡/, … , 𝐡#}
Encoder
Attention
Decoder
Softmax
𝐱" 𝐱#・・・・
𝐇
𝐜3
𝑦34"
・・・
・・・
・・・
𝐪34"
𝐚34"
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
① CTC-based ② Attention-based
J 発音辞書が不要
J 一切の仮定が不要
L 入力と出力の対応が
非因果的になる
可能性あり
12
よりよいAttentionを求めて
Joint CTC-attention [Kim+, 2015]
p CTCとAttentionのマルチタスク学習
Multi-Head Attention [Chiu+. 2018]
p 複数のAttentionを計算した後統合して利用
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
13
よりよいAttentionを求めて
Joint CTC-attention [Kim+, 2015]
p CTCとAttentionのマルチタスク学習
Multi-Head Attention [Chiu+. 2018]
p 複数のAttentionを計算した後統合して利用
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
本研究ではこちらの手法の拡張を提案
14
Multi-Head Attention [Vaswani+, 2018]
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑦34"
・・・
𝐪3
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
𝐪34"
Softmax
Decoder
Attention 2
・・・
𝐪34"
𝐇
Attention N
・・・
𝐪34"
・・・
𝐇𝐇
Encoder
Linear
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
𝐜3
15
提案手法① Multi-Head Decoder
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
𝐪34"
(")
Softmax
Attention 2
・・・
𝐪34"
(/) 𝐇
Attention N
・・・
𝐪34"
(:)
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
16
提案手法① Multi-Head Decoder
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Attention 1
・・・
Softmax
Attention 2
・・・
𝐇
Attention N
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
デコーダの出力レベルで統合
アンサンブル効果による性能向上を期待
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)
17
提案手法② Heterogeneous MHD
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Dot
・・・
Softmax
Additive
・・・
𝐇
Location
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)
18
𝐪34"
(")
𝐪34"
(/)
𝐪34"
(:)
提案手法② Heterogeneous MHD
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗)
Dot
・・・
Softmax
Additive
・・・
𝐇
Location
・・・
・・・
𝐇𝐇
Encoder
𝐜3
(/)
𝐜3
(9)
𝐜3
(")
Decoder 1
𝑦34"
・・・
Decoder 2
𝑦34"
・・・
Decoder N
𝑦34"
・・・
+
・・・
𝐪3
(")
𝐪3
(/)
𝐪3
(9)
Dot Additive Location・・・
異なるAttention機構を併用
それぞれのAttentionが異なる傾向を捉え
アンサンブル効果が高まることを期待
19
実験的評価
p 実験概要
n CSJデータセットを用いて評価
n 全講演を学習データに利用 (≒580 hours)
n Character Error Rate (CER)を評価基準として利用
p 比較手法
1. Single attention (dot product / additive / location)
2. MHA (dot product / additive / location)
3. MHD (location)
4. HMHD
n Dot + additive + location + coverage
5. HMHD
n 2 location + 2 coverage
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
提案手法
20
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
21
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
MHAの利用による性能の向上を確認
22
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
タスク3以外でMHDによる性能向上を確認
23
実験結果
Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%]
Single-Dot 12.7 9.8 10.7
Single-Add 11.1 8.4 9.0
Single-Location 11.7 8.8 10.2
MHA-Dot 11.6 8.5 9.3
MHA-Add 10.7 8.2 9.1
MHA-Location 11.5 8.6 9.0
MHD-Location 11.0 8.4 9.5
HMHD (dot+add+loc+cov) 11.0 8.3 9.0
HMHD (2*loc+2*cov) 10.4 7.7 8.9
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
HMHDが最も良い性能を達成
提案手法の有効性を確認
24
Attention重みの可視化
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
各々のAttentionが異なる傾向を捉えていることを確認
25
結論と今後の課題
結論
p Heterogeneous MHDを提案
p 実験的評価により提案法の有効性を確認
n 平均 CER 10.2 % -> 9.0 %
n 異種のAttentionを併用することの有効性を示唆
n デコーダの出力レベルでの統合の有効性を示唆
今後の課題
p エラー分析
p 他言語のデータセットへの適用
p Attentionの組み合わせの影響の調査
p Head数の影響の調査
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
26
ESPnet (宣伝)
p E2E音声処理ツールキット
n オープンソース (Apache 2.0)
n Chainer or Pytorch バックエンド
p Kaldi-likeなレシピサポート
n 25の言語 / 15個のレシピ (WSJ, CSJ, …)
p ASRだけでなくTTSもサポート
n Tacotron2-based TTSシステムが構築可能
2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」

More Related Content

What's hot

What's hot (20)

DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 

Similar to End-to-End音声認識ためのMulti-Head Decoderネットワーク

インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
Takashi Kishida
 

Similar to End-to-End音声認識ためのMulti-Head Decoderネットワーク (20)

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞
 
AES-NI@Sandy Bridge
AES-NI@Sandy BridgeAES-NI@Sandy Bridge
AES-NI@Sandy Bridge
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
Emacs上のターミナルを最強に
Emacs上のターミナルを最強にEmacs上のターミナルを最強に
Emacs上のターミナルを最強に
 
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
 
Spring I/O 2017 報告 ThymeleafのWebFlux対応
Spring I/O 2017 報告 ThymeleafのWebFlux対応Spring I/O 2017 報告 ThymeleafのWebFlux対応
Spring I/O 2017 報告 ThymeleafのWebFlux対応
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
 
Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介
 
Embedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural Networks
 
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVR第20回 OpenStack勉強会 Neutron Deep Dive - DVR
第20回 OpenStack勉強会 Neutron Deep Dive - DVR
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1
ServiceMesh と仲間たち 〜Istio & Conduit & Linkerd〜 @Cloud Native Meetup Tokyo #1
 
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
 
OSC2010 TOKYO/Spring Asterisk Seminar
OSC2010 TOKYO/Spring Asterisk SeminarOSC2010 TOKYO/Spring Asterisk Seminar
OSC2010 TOKYO/Spring Asterisk Seminar
 
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
 
PyCon mini Hiroshima アクセシビリティを支えるPython
PyCon mini Hiroshima アクセシビリティを支えるPythonPyCon mini Hiroshima アクセシビリティを支えるPython
PyCon mini Hiroshima アクセシビリティを支えるPython
 

More from NU_I_TODALAB

More from NU_I_TODALAB (20)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 

Recently uploaded

Recently uploaded (6)

今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
 
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
 
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
 
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
 
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
 
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
 

End-to-End音声認識ためのMulti-Head Decoderネットワーク

  • 1. 1 End-to-End音声認識のための Multi-Head Decoderネットワーク ◎林知樹†, 渡部晋治††, 戸田智基†, 武田一哉† † 名古屋大学, †† ジョンズ・ホプキンス大学 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
  • 2. 2 DNN-HMMからEnd-to-End方式へ p 音声認識 (ASR) : 系列から系列への変換問題 n 音声信号系列を全く性質の異なるシンボル系列へ変換 p 従来方式 : DNN-HMMハイブリッドモデル n 音響モデル / 言語モデル等の多数のモジュールで構成 n システム全体の最適化が困難 p End-to-End (E2E) 方式: CTC / Seq2Seqモデル n 単一のネットワークのみで処理が完結 n システム全体の最適化が容易 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 “あらゆる現実を…” 本研究ではE2E方式の認識率向上に着目
  • 3. 3 p E2E-ASRのための2つのアイデアを提案 本研究の貢献 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 1) E2E-ASRのためのMulti-Head Decoder (MHD) ü Multi-Head Attention (MHA) を拡張 ü 各々のAttentionに対して異なるデコーダを割当 2) 異種のAttentionを併用したHeterogeneous MHA ü MHAにおいて異種のAttentionを混合して利用 ü 各々のAttentionが異なる傾向を捉えることを可能に 実験的評価によりWERの改善を確認 (10.2 % -> 9.0 %) それぞれのデコーダが異なる傾向を捉えていることを Attentionのアライメントから示唆
  • 4. 4 従来のASRシステム 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Audio Feature State Phoneme Word Sentence 特徴量抽出 決定木 クラスタリング 発音辞書 言語モデル 音響モデル
  • 5. 5 従来のASRシステム 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Audio Feature State Phoneme Word Sentence 特徴量抽出 音響モデル 発音辞書 言語モデル 非常に高コストな 専門家による手作り 複数の条件付き 独立性の仮定の利用 別のデータで 個別に最適化 専門家の知識を 質問の設計に利用 決定木 クラスタリング
  • 6. 6 E2E-ASRシステム 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 システムをシンプルかつ全体最適化可能に! Audio Feature Sentence 特徴量抽出 決定木 クラスタリング 発音辞書 言語モデル 音響モデル Single Neural Network
  • 7. 7 E2E-ASRの代表的な方式 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Decoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based
  • 8. 8 CTC-based E2E-ASR [Graves+, 2014] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Encoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based 音響特徴量系列 エンコーダ隠れ状態系列 出力シンボル事後確率
  • 9. 9 CTC-based E2E-ASR [Graves+, 2014] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Encoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based J 発音辞書が不要 L 依然として条件付き 独立性の仮定を利用 L 過去の出力系列を考慮した 予測が不可能
  • 10. 10 Attention based E2E-ASR [Chorowski+, 2014] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Decoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based 出力シンボル事後確率 デコーダ隠れ状態 コンテキスト特徴 過去の出力シンボル 過去のデコーダ隠れ状態 過去のAttention重み
  • 11. 11 Attention based E2E-ASR [Chorowski+, 2014] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 Encoder Softmax 𝐱" 𝐱#・・・・ 𝑝(𝑦"|𝐗) ・・・ 𝑝(𝑦#|𝐗) 𝐇 = {𝐡", 𝐡/, … , 𝐡#} Encoder Attention Decoder Softmax 𝐱" 𝐱#・・・・ 𝐇 𝐜3 𝑦34" ・・・ ・・・ ・・・ 𝐪34" 𝐚34" 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) ① CTC-based ② Attention-based J 発音辞書が不要 J 一切の仮定が不要 L 入力と出力の対応が 非因果的になる 可能性あり
  • 12. 12 よりよいAttentionを求めて Joint CTC-attention [Kim+, 2015] p CTCとAttentionのマルチタスク学習 Multi-Head Attention [Chiu+. 2018] p 複数のAttentionを計算した後統合して利用 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
  • 13. 13 よりよいAttentionを求めて Joint CTC-attention [Kim+, 2015] p CTCとAttentionのマルチタスク学習 Multi-Head Attention [Chiu+. 2018] p 複数のAttentionを計算した後統合して利用 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 本研究ではこちらの手法の拡張を提案
  • 14. 14 Multi-Head Attention [Vaswani+, 2018] 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑦34" ・・・ 𝐪3 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Attention 1 ・・・ 𝐪34" Softmax Decoder Attention 2 ・・・ 𝐪34" 𝐇 Attention N ・・・ 𝐪34" ・・・ 𝐇𝐇 Encoder Linear 𝐜3 (/) 𝐜3 (9) 𝐜3 (") 𝐜3
  • 15. 15 提案手法① Multi-Head Decoder 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Attention 1 ・・・ 𝐪34" (") Softmax Attention 2 ・・・ 𝐪34" (/) 𝐇 Attention N ・・・ 𝐪34" (:) ・・・ 𝐇𝐇 Encoder 𝐜3 (/) 𝐜3 (9) 𝐜3 (") Decoder 1 𝑦34" ・・・ Decoder 2 𝑦34" ・・・ Decoder N 𝑦34" ・・・ + ・・・ 𝐪3 (") 𝐪3 (/) 𝐪3 (9)
  • 16. 16 提案手法① Multi-Head Decoder 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Attention 1 ・・・ Softmax Attention 2 ・・・ 𝐇 Attention N ・・・ ・・・ 𝐇𝐇 Encoder 𝐜3 (/) 𝐜3 (9) 𝐜3 (") Decoder 1 𝑦34" ・・・ Decoder 2 𝑦34" ・・・ Decoder N 𝑦34" ・・・ + ・・・ 𝐪3 (") 𝐪3 (/) 𝐪3 (9) デコーダの出力レベルで統合 アンサンブル効果による性能向上を期待 𝐪34" (") 𝐪34" (/) 𝐪34" (:)
  • 17. 17 提案手法② Heterogeneous MHD 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Dot ・・・ Softmax Additive ・・・ 𝐇 Location ・・・ ・・・ 𝐇𝐇 Encoder 𝐜3 (/) 𝐜3 (9) 𝐜3 (") Decoder 1 𝑦34" ・・・ Decoder 2 𝑦34" ・・・ Decoder N 𝑦34" ・・・ + ・・・ 𝐪3 (") 𝐪3 (/) 𝐪3 (9) 𝐪34" (") 𝐪34" (/) 𝐪34" (:)
  • 18. 18 𝐪34" (") 𝐪34" (/) 𝐪34" (:) 提案手法② Heterogeneous MHD 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 𝑝(y3|𝑦8, 𝑦", … , 𝑦34", 𝐗) Dot ・・・ Softmax Additive ・・・ 𝐇 Location ・・・ ・・・ 𝐇𝐇 Encoder 𝐜3 (/) 𝐜3 (9) 𝐜3 (") Decoder 1 𝑦34" ・・・ Decoder 2 𝑦34" ・・・ Decoder N 𝑦34" ・・・ + ・・・ 𝐪3 (") 𝐪3 (/) 𝐪3 (9) Dot Additive Location・・・ 異なるAttention機構を併用 それぞれのAttentionが異なる傾向を捉え アンサンブル効果が高まることを期待
  • 19. 19 実験的評価 p 実験概要 n CSJデータセットを用いて評価 n 全講演を学習データに利用 (≒580 hours) n Character Error Rate (CER)を評価基準として利用 p 比較手法 1. Single attention (dot product / additive / location) 2. MHA (dot product / additive / location) 3. MHD (location) 4. HMHD n Dot + additive + location + coverage 5. HMHD n 2 location + 2 coverage 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 提案手法
  • 20. 20 実験結果 Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%] Single-Dot 12.7 9.8 10.7 Single-Add 11.1 8.4 9.0 Single-Location 11.7 8.8 10.2 MHA-Dot 11.6 8.5 9.3 MHA-Add 10.7 8.2 9.1 MHA-Location 11.5 8.6 9.0 MHD-Location 11.0 8.4 9.5 HMHD (dot+add+loc+cov) 11.0 8.3 9.0 HMHD (2*loc+2*cov) 10.4 7.7 8.9 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
  • 21. 21 実験結果 Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%] Single-Dot 12.7 9.8 10.7 Single-Add 11.1 8.4 9.0 Single-Location 11.7 8.8 10.2 MHA-Dot 11.6 8.5 9.3 MHA-Add 10.7 8.2 9.1 MHA-Location 11.5 8.6 9.0 MHD-Location 11.0 8.4 9.5 HMHD (dot+add+loc+cov) 11.0 8.3 9.0 HMHD (2*loc+2*cov) 10.4 7.7 8.9 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 MHAの利用による性能の向上を確認
  • 22. 22 実験結果 Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%] Single-Dot 12.7 9.8 10.7 Single-Add 11.1 8.4 9.0 Single-Location 11.7 8.8 10.2 MHA-Dot 11.6 8.5 9.3 MHA-Add 10.7 8.2 9.1 MHA-Location 11.5 8.6 9.0 MHD-Location 11.0 8.4 9.5 HMHD (dot+add+loc+cov) 11.0 8.3 9.0 HMHD (2*loc+2*cov) 10.4 7.7 8.9 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 タスク3以外でMHDによる性能向上を確認
  • 23. 23 実験結果 Method Eval1-CER [%] Eval2-CER [%] Eval3-CER [%] Single-Dot 12.7 9.8 10.7 Single-Add 11.1 8.4 9.0 Single-Location 11.7 8.8 10.2 MHA-Dot 11.6 8.5 9.3 MHA-Add 10.7 8.2 9.1 MHA-Location 11.5 8.6 9.0 MHD-Location 11.0 8.4 9.5 HMHD (dot+add+loc+cov) 11.0 8.3 9.0 HMHD (2*loc+2*cov) 10.4 7.7 8.9 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 HMHDが最も良い性能を達成 提案手法の有効性を確認
  • 24. 24 Attention重みの可視化 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」 各々のAttentionが異なる傾向を捉えていることを確認
  • 25. 25 結論と今後の課題 結論 p Heterogeneous MHDを提案 p 実験的評価により提案法の有効性を確認 n 平均 CER 10.2 % -> 9.0 % n 異種のAttentionを併用することの有効性を示唆 n デコーダの出力レベルでの統合の有効性を示唆 今後の課題 p エラー分析 p 他言語のデータセットへの適用 p Attentionの組み合わせの影響の調査 p Head数の影響の調査 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」
  • 26. 26 ESPnet (宣伝) p E2E音声処理ツールキット n オープンソース (Apache 2.0) n Chainer or Pytorch バックエンド p Kaldi-likeなレシピサポート n 25の言語 / 15個のレシピ (WSJ, CSJ, …) p ASRだけでなくTTSもサポート n Tacotron2-based TTSシステムが構築可能 2018/09/12 日本音響学会秋季研究発表会 1-2-9「End-to-End音声認識のためのMulti-Head Decoderネットワーク」