SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用

05/13/2018©Shinnosuke Takamichi,
The University of Tokyo
日本語韻律構造を考慮した
prosody-aware subword embeddingと
DNN多方言音声合成への適用
高道慎之介，秋山貴則，猿渡洋 (東京大学)
SLP研究会 (2018/05/13)

/25
研究背景
 統計的音声合成 (e.g., DNN音声合成)
– 機械学習により，音声合成の(半)自動構築
– 主要言語において高品質な音声読み上げを可能に [Oord et al., 2017]
• 言語知識に基づくコンテキスト，超大規模音声コーパスを利用
– 次世代音声合成に向けた研究へ
• 音声なりすまし [Saito et al., 2018]，発話間変動 [Takamichi et al., 2017]
 方言音声合成
– 方言の地域性による語彙・発音・韻律の変化
– 地域性を考慮した，合成音声のキャラクタ性の付与
– 話者性と地域性を分離した多方言音声合成
2
*DNN: Deep Neural Network

/25
多方言音声合成
3
Dialect
text
Multi-dialect
speech
synthesis
Dialect speech
言語知識の乏しい方言においてコンテキストをどう設計するか？
→本稿では韻律コンテキストの教師なし自動抽出法を提案
Miyazaki-ben

/25
発表概要
 従来法：prosody-aware word embedding [Ijima et al., 2017]
– 音声コーパスから韻律コンテキストを自動抽出
– 未知語に対して頑健でない＆使用する韻律情報に過不足あり
 提案法1：日本語韻律構造を考慮した subword embedding
– アクセント句境界を考慮した subword 分割
– Subword 内モーラ数を考慮した変調フィルタリング
 提案法2：DNN多方言音声合成への適用
– 方言混合 subword 分割 & 多方言 subword embedding
 実験結果
– 日本共通語及び複数方言において，合成音声の韻律の自然性を改善
4

/25
目次
 研究背景・発表概要
 DNN音声合成と prosody-aware word embedding
 実験的評価 (日本共通語＆多方言音声合成)
 まとめと今後の予定
5

/25
DNN音声合成
6
[Zen et al., 2013.]
コンテキスト音声特徴量
t=1
t=2
t=T
音韻
コンテキスト
韻律
コンテキスト
継続長
コンテキスト
などなど
スペクトル
連続F0
有声／無声
Text
…
…
…
韻律コンテキストを教師なしに抽出したい！
（主要言語の場合は言語知識や辞書を利用可能）
DNN

/25
Prosody-aware word embedding
7
[Ijima et al., 2017.]
テキストあらゆる現実 …
単語列あらゆる現実
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
連続F0系列
“あらゆる”の韻律 “現実”の韻律ターゲット
Embedding
モデル
単語分割
韻律情報抽出
韻律コンテキスト
離散表現を
連続表現に
*LSTM: Long Short-Term memory

/25
韻律情報抽出
8
[Ijima et al., 2017.]
単語列 <s>
連続F0系列
単語ーF0
アライメント
部屋を出るときに
固定長になるよう
リサンプリング
リサンプリング後の
連続F0系列
DCT低次成分で
包絡抽出
DCT成分
*DCT: Discrete Cosine Transform
Time
Freq.“部屋”の韻律情報

/25
従来法の問題点
9
あらゆる現実 …
あらゆる現実
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
“あらゆる”の韻律 “現実”の韻律
1. 未知単語に対して頑健でない
－適切なコンテキストを生成できない
－語彙数爆発で学習が困難に
2. 韻律情報に過不足がある
－単語のシラブル数に関係せず固定
次元の韻律情報を抽出

/25
目次
10

/25
日本語韻律構造を考慮した
prosody-aware subword embedding
11
テキスト出るときに…
subword列出るときに
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
連続F0系列
“出ると”の韻律 “きに”の韻律ターゲット
Embedding
モデル
アクセント句境界を
考慮した
subword 分割
Subword内モーラを
考慮した
変調フィルタリング
韻律コンテキスト

/25
日本語アクセント句境界を考慮した
subword 分割
 Subword 分割 [Senrich et al., 2016][Kudo, 2017]
– 言語モデル尤度 (or BPE) に基づいて低頻出語を部分文字列に分割
• 東京オリンピック → 東京/オリ/ン/ピッ/ク
• 本発表では，生文に対する教師なし分割法を利用
– 未知語も既知 subword に分割されるため，コンテキスト抽出可能
 日本語アクセント句境界を考慮した subword 分割
– 言語モデルのみでは，アクセント句をまたぐsubword列を生成し，
embedding 性能を低下させる
– 学習時に，アクセント句をまたぐ文字列を言語モデル計算から除外
• アクセント句をまたぐ文字列を積極的に分割
12
*BPE: Byte Pair Encoding
生文 (‘.’がアクセント句境界) 本当な.のかも.しれない
Subword (言語モデルのみ) 本当/なの/かもしれない
Subword (アクセント句を考慮) 本当/な/の/かも/しれない

/25
Subword 内モーラ数を考慮した
 Subword embedding に必要な韻律情報とは
– 日本語はモーラ等時性言語，モーラ毎に変化する高低アクセント
• すなわち，subword 内モーラ数 𝑁 で決まる高低以外は不要
 Subword 内モーラ数を考慮した変調フィルタリング
– 変調スペクトル [Takamichi et al., 2016] に対するフィルタ処理
– 𝑁/2 次以上の変調周波数成分をカット
13
DFT
IDFT
連続F0
韻律情報
へや
変調スペクトル
へや
高次成分を
カット
*DFT: Discrete Fourier Transform

/25
目次
14

/25
DNN多方言音声合成のための
韻律コンテキスト抽出
15
方言
テキスト多方言
音声合成
方言音声
韻律
音声
特徴量
コンテ
キスト
方言情報
Prosody-aware
subword
embedding
方言音声コーパス・方言情報を活用した
方言混合 subword 分割と多方言 subword embedding を提案

/25
方言混合 subword 分割
 日本共通語 (or 単方言)コーパスで学習した subword 分割
– 日本共通語で学習：方言の頻出フレーズを分割してしまう
– 単方言で学習：方言コーパス収集が大変
 方言混合 subword 分割
– 日本共通語・多方言コーパスで学習
– 言語間のコーパス量の違いによる重みづけは無し
16
Subword その subword を含む方言
どす京言葉
ずら遠州弁
だば津軽弁・秋田弁
やけん土佐弁・阿波弁・伊予弁など
日本共通語 subword 分割では表れない subword の例

/25
多方言 subword embedding
17
subword列出るときに
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
“出ると”の韻律 “きに”の韻律ターゲット
方言情報ベクトル
 Embedding model を方言情報で条件付け
– One-hot ベクトル (離散表現)：各方言がベクトルの各要素に対応
– 地理情報 (連続表現)：各方言の中心地域の地理緯度・経度
• “Geographic embedding model”

/25
目次
18

/25
実験条件
(日本共通語音声合成)
19
Embeddingの学習データ JNAS 15,676文, JSUT [Sonobe et al., 2017]
5,390文
音響モデルの学習データ JSUT 5,390文
テストデータ JSUT 600文
Subword 語彙数 4,000
リサンプリング系列長 64
Subword-F0アライメント Fast_align [Dyer et al., 2013] & Julius
韻律コンテキスト次元数 64
音響モデル Feed-Forward, 394 – 512×3 – 94
コンテキスト音素，音素内継続長，subword 内継続長，
前後及び当該 subword の韻律コンテキスト
音声合成の音声特徴量連続F0，有声/無声，40次元のメルケプスト
ラム，5帯域の平均非周期成分

/25
合成音声のF0推定精度
 比較手法
– Conventional [Ijima et al., 2017]：1次～10次のDCT係数
– Proposed：変調フィルタリングのみ
– Proposed (acc)：変調フィルタリング＋アクセント句の考慮
20
Conventional
Proposed
Proposed (acc)
Root mean squared error between predicted/target F0
0.71 0.72 0.73 0.74 0.75 0.76
アクセント句の考慮

/25
合成音声の自然性に関する主観評価
21
 評価法
– 音声品質に関するプリファレンスABテスト (評価人数：50人)
– クラウドソーシング評価システム上で実施
Conventional
Proposed
Proposed (acc)
Proposed
*エラーバーは95%信頼区間
アクセント句の考慮による音質改善を確認
Preference score on speech quality
0.0 0.2 0.4 0.6 0.8 1.0

/25
実験条件
(多方言音声合成)
22
Embeddingの学習データ JNAS・JSUT 21,066文, CPJD (20方言) 5,344文
音響モデルの学習データ JSUT 5,390文
テストデータ各方言で CPJD 20文
伊予・阿波・土佐
いわき，埼玉
出雲・広島・岡山
福岡・宮崎・諸県
金沢・福井・大阪・
奈良・京都・京言葉
北海道・津軽・秋田
CPJDコーパス [Takamichi et al., 2018] に含まれる方言及びその地域

/25
合成音声の自然性に関する主観評価
(多方言音声合成)
 評価法
– 音声品質に関するプリファレンスABテスト (評価人数：1人/方言)
– 当該地域に3年以上住んでいた人を縁故法で募集 (方言数：12方言)
23
Method A
#dialects
(A is better)
#dialects
(B is better)
Method B
共通語モデル 8 4
方言モデル
(one-hot)
共通語モデル 7 5
方言モデル
(geographic)
方言モデル
(one-hot)
5 6
方言モデル
(geographic)
*共通語モデルは，JNAS/JUSTコーパスで学習した

/25
目次
24

/25
まとめと今後の予定
 背景
– 多方言音声合成に向けた教師なし韻律コンテキスト抽出
 提案法
– 日本語韻律構造を考慮した prosody-aware subword embedding
– DNN多方言音声合成への拡張
 評価結果
– 日本共通語といくつかの方言で，合成音声の韻律の自然性を改善
 今後の予定
– End-to-End方式や音響モデル再学習
– 新たな方言へのモデル適応
25

SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用

Similar to SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 (16)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用