More Related Content
More from Shinnosuke Takamichi (20)
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
- 2. /162
研究背景・問題設定
タスク:韻律コンテキスト抽出を用いた音声合成
– Seq2Seqモデル [Wang+17] により,文字のみの入力で合成可能
– 日本語など特定言語の音声合成では,アクセント情報などが必要
– 従来法 [Akiyama+18] ではパラレルデータから韻律コンテキスト抽出
問題設定:韻律コンテキスト抽出に最適な入力言語単位とは?
Accentual
information
従来法 [Akiyama+18]
東京都に住む
Text
Speech
Language units
?? ??
F0 seq.
Prosodic context
アクセント情報を用いた
音声合成
東京都に住む
Text
Speech
- 3. /16
入力言語単位の影響と subword 単位の分割
3
入力言語単位の影響
– 文字単位:F0を捉えることが困難
– 単語単位:言語知識が必要,未知語・低頻出単語が発生しやすい
Subword (部分文字列) 単位の分割 [Akiyama+18]
– 文字単位や単語単位の問題点を緩和
– 韻律推定にも関わらず言語モデル尤度に基づく subword 分割
[Kudo18]
東京オリンピック 東京 オリンピック東京 オリン ピック
F0 seq.
Character level
(e.g. original Tacotron) Word levelSubword level
Capture suprasegmental feats?
Avoid sparsity problem?
No. Yes.
Yes. No.
“東京オリンピック”
DNN
Input text
DNN DNN
F0 seq. F0 seq.
- 4. /16
発表概要
従来法の韻律コンテキスト抽出の問題点 [Akiyama+18]
– 言語モデル に基づく subword 分割を使用
– 言語モデル尤度=単語の出現頻度
– 高い音響モデル尤度を目的とする韻律コンテキスト抽出と矛盾
提案法の韻律コンテキスト抽出
– 以前の研究 [Aso+19] で,音響モデルに基づく subword 分割を提案
– 音響モデル尤度=韻律の予測精度
– 高い音響モデル尤度を目的とする韻律コンテキスト抽出と合致
– Subword 分割モデルの中間層を韻律コンテキストとして使用可
実験結果
– 提案法の subword 分割による合成音声の音質の改善
4
EM: expectation-maximization
DNN: deep neural network
- 5. /165
言語モデル
– Subword の出現頻度 を出力確率とするHMM
言語モデルに基づく学習・分割
– 学習: 言語モデル尤度を最大化する, と を推定
– 分割: 言語モデルに基づき,尤もらしい subword 分割を推定
[Kudo18]
言語モデルに基づく
subword 分割
Subword
Sentence
Segmentation
candidate 京 都 に
京都
東京 住む
東 住 む
東 京都住
に む東京
Subword
vocab.
Unigram
prob.
従来法
HMM: hidden Markov model
- 8. /16
従来法の問題点と提案法のアプローチ
従来法の問題点
– 言語モデル尤度を最大化する分割を用いて韻律コンテキスト抽出
提案法のアプローチ
– 音響モデル尤度を最大化する分割を用いて韻律コンテキスト抽出
8
東京都に 住む
Acoust. model-based
subword tokenization
Proposed
東 京 都 に 住 む
Subword seq.
Sentence
Prosodic
context
Lang. model-based
subword tokenization
Conventional
東 京 都 に 住 む
F0 seq.
Subword seq.
Sentence
Acoust. model-based
context extraction
[Akiyama +18]
Prosodic
context
に 住む東京 都
- 10. /16
音響モデルに基づく
subword 分割
10
音響モデル
– パラメータ を持つ韻律推定DNNの推定誤差を利用
音響モデルに基づく学習・分割
– 学習:音響モデル尤度を最大化する, と を推定
– 分割:音響モデルに基づき,尤もらしい subword 分割を推定
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京 都 に
京都
東京 住む
東 住 む
DNN
東 京都住
に む東京
Subword
vocab.
[Aso+19]
- 11. /16
Subword 分割モデル
DNN-HMM
11
隠れ変数を ,出力確率 を以下の確率とするHMM
音響モデル尤度
– 出力確率を用い表される が与えられた下での の尤度
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京 都 に
京都
東京 住む
東 住 む
DNN
東 京都住
に む東京
Subword
vocab.
分散共分散行列正規分布
[Aso+19]
- 12. /16
DNN-HMMによる
韻律コンテキスト抽出
12
京 都 に
京都
東京 住む
F0 envelope
DNN
F0 seq.
東 住 む
Prosodic
context
Subword
Sentence
Tokenization
candidate
東 京都住
に む東京
Subword Vocab.
学習済みの subword 分割のDNN音響モデルの中間層を抽出
– ただし,音響モデルに基づく subword 分割と,BLSTMによる韻律
コンテキスト抽出を組み合わせることもできる
- 14. /1614
実験条件
項目 値/設定
日本語コーパス JSUT [Sonobe+17], JNAS [Ito+99]
学習/テストデータ 18,905 文/2,101 文
DNNの構成 Feed-Forward (see our paper.)
F0 の包絡成分
64 点にリサンプリングした後,離散コサ
イン変換の 1 次から 10 次までの成分を
抽出 [Ijima+17]
Subword vocab. の初期値
Enhanced suffix array [Abouelhoda+04] によ
り作られた13,585 語の subword
最終的な vocab. size 4,000 語のsubword
言語モデル Sentencepiece [Kudo18]
EMアルゴリズムの
反復回数
30 回
M-step Mini-batch 学習 (サイズ: 1,000 文), 30 回
- 16. /1616
プリファレンスABテストにより比較
– 韻律コンテキスト抽出はRMSEの良かったBLSTMによる手法
– 「どちらがイントネーションの自然か」について質問
– クラウドソーシングで,評価者数は 200 名
– 有意水準は 0.05 %
実験
手法 A Scores
𝑝-
value
手法 B
Subword 分割 言語モデル
[Kudo18]
0.484 vs. 0.517 0.037
音響モデル
(提案法)
韻律コンテキスト
抽出
BLSTM
[Akiyama+18]
BLSTM
[Akiyama+18]
合成音声の主観評価
GoodBad
イントネーションの自然性の改善を確認
- 17. /1617
まとめ
背景
– 最適な言語単位を入力として,専門的な言語知識を用いず,
韻律コンテキスト抽出を行いたい
提案法
– 音響モデルに基づく subword 分割による韻律コンテキスト抽出
– 学習済みDNN-HMMの中間層を用いた韻律コンテキスト抽出を提案
– ただし,BLSTMによる韻律コンテキスト抽出 [Akiyama+18] と音響モ
デルに基づく subword 分割 [Aso+19] を組み合わせることも可能
結果
– 合成音声を用いた客観・主観評価では,DNN-HMMによる韻律コン
テキスト抽出の効果は見られなかった
– 一方, BLSTMによる韻律コンテキスト抽出 [Akiyama+18] において,
音響モデル尤度に基づく subword 分割の効果を確認