End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習

End-to-end 韻律推定に向けた
subword lattice 構造を考慮した
DNN音響モデル学習
東京大学大学院情報理工学系研究科
☆阿曽真至高道慎之介高宗典玄猿渡洋
日本音響学会
2019年春季研究発表会 2-10-1

/132
研究背景・従来法
 タスク: テキスト音声合成のための end-to-end 韻律推定
– 中間表現を用いずにテキストから直接的にF0系列を推定
– アクセントラベル等の言語知識を使わず音声合成が可能
 従来法: subword lattice の Viterbi 近似による音響モデル学習
– Subword: 言語モデルに基づく文分割で得られる部分文字列 [Kudo18]
– 文を単一の subword に分割し, その subword 系列に対し
DNN音響モデル尤度を最大化
[Akiyama+18]
東京都に住むText
F0 seq.
従来の音声合成
中間表現都に東京住む
Subword
seq.
F0 seq.
Akiyama et al.
F0 seq.
End-to-end 韻律推定

/13
発表概要
 従来法の問題点
– 文に対して複数候補のある subword 系列の中から単一のsubword
系列のみを考慮し音響モデル尤度最大化
(=文に対する音響モデル尤度を最大化していない)
 提案法: subword lattice 構造を考慮したDNN音響モデル学習
– 全ての subword 系列について周辺化し, 音響モデル尤度を最大化
– DNN音響モデル学習のためのEMアルゴリズムの導出
 実験結果:
– 学習曲線の収束性を実験的に確認
– 文に対する音響モデル尤度の改善を確認
3

/134
従来法[Akiyama+18]
事前に文字-連続F0間の
アラインメントをとる
言語モデル尤度により
subword 分割
Subword単位で
F0包絡成分を抽出
東京都に住む
東京都に住む
東京
京都
住む
都に
東京住む
Continuous
F0 seq.
Sentence
Segmentation
Candidate
Viterbi path
DNN
F0 envelope
Vocab.

/13
従来法 (定式化)
5
標準偏差
東京都に住む
東京都に住む
東京
京都
住む
都に
東京住む
Continuous
F0 seq.
Sentence
Segmentation
Candidate
Viterbi path
DNN
F0 envelope
Vocab.
単一の
subword 分割に対する
音響モデル尤度を最大化
尤度最大化問題は
二乗誤差最小化に帰着でき
DNN学習可能

/136
従来法の問題点と提案法のアプローチ
東京都に住む
東京都に住む
東京
京都
住む
Proposed
Maximize都に
東京住む
Conventional
Maximize
Vocab.
Sentence
Segmentation
Candidate
Continuous F0 seq.
 従来法の問題点
– 単一の subword 分割に対する尤度を最大化
 提案法のアプローチ
– 全ての subword 分割について周辺化された尤度を最大化
Continuous F0 seq.

提案法
Subword lattice 構造を考慮した
DNN音響モデル学習

/13
提案法（モデル）
 提案モデルを隠れマルコフモデル(HMM) として定式化
– 遷移確率は等確率
8
東京都に住む
東京
京都
住む
𝑧1 𝑧2 𝑧3 𝑧4 𝑧5 𝑧6
𝑿
𝑧56
𝑧23
出力確率
遷移確率(等確率)
東京都に住む
𝑧12
𝒀

/13
提案法 (定式化)
9
 提案法では, 以下の周辺化された尤度を最大化
 EM アルゴリズムを用いて最大化可能
– E-step: forward-backwardアルゴリズム [Baum72, Rabiner89]
ノードを通る確率を計算
– M-step: 以下の関数を最大化するようを更新
– 関数の最大化は重み付き最小二乗誤差最小化に帰着可能

/1310
実験 (実験条件)
項目値／設定
コーパス
JSUT [Sonobe17] (4,948文),
JNAS [Itou99] (16,058文)
学習／テストデータ 18,905文／2,101文
サンプリング周波数 16 kHz
DNNの構成
入力層: word embedding
中間層: gated linear unit (3×512)
出力層: 線形層
Subword vocabulary
Sentencepiece [Kudo18] で学習データ
から作成された4,000語のvocabulary
EMアルゴリズムの
反復回数
30 回
DNN学習の反復回数 30 回 / 1 EM iteration
ミニバッチサイズ 100 文

/13
実験 (学習の収束性)
 学習の収束性を調べるために文に対する音響モデル尤度を計算
– 学習データに対する負の対数尤度
– DNNを用いているため, 学習が収束するとは限らない
11
better
4
2
0
-2
10 20 30
Number of EM iterations
Logarithmof
negativelog-likelihood
実験的に学習の収束性を確認
0

/13
実験 (音響モデル尤度を比較)
 文に対する音響モデル尤度を用いて比較
– 一文あたりの対数尤度
– 提案法では, 文に対する音響モデル尤度を近似せずに最大化
12
従来法
[Akiyama+18]
提案法
学習
データ
-19,325 -19,074
テスト
データ
-19,507 -19,305
>
音響モデル尤度の改善を確認
>
better
better

/1313
まとめと今後の予定
 背景
– End-to-end 韻律推定において, subword 系列推定も含めて,
統一的な推定方法を構築したい
 提案法
– 文に対する音響モデル尤度を最大化するアルゴリズムの提案
 結果
– DNN学習の収束性を確認
– 文に対する音響モデル尤度の改善を確認
 今後の予定
– 音響モデル尤度に基づく subword vocabulary 作成
– 音声合成における評価

End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習

Recommended

Recommended

More Related Content

What's hot

What's hot (13)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (9)

End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習

Editor's Notes