外国人留学生日本語の音声合成における話者性を保持した韻律補正

03/06/2019©Daiki Sekizawa,
The University of Tokyo
外国人留学生日本語の音声合成における
話者性を保持した韻律補正
☆関澤太樹 (東京大学)
高道慎之介，猿渡洋 (東大院・情報理工)
音響学会 2019春 2-10-2 (2019/03/06)

/12
概要
 背景：ノンネイティブ音声のテキスト音声合成
– 利点：当該話者の話者性を強く反映
– 欠点：合成音声の自然性を大きく劣化
 従来法：日本人英語の音声合成のための韻律補正 [Oshima16]
– 日本語と英語の韻律（強勢・リズム）の違いに着目
– HMM音声合成 [Tokuda13] における部分的なモデル適応
• この枠組みは，他の言語ペアでも有効か？
 提案法：中国人留学生日本語の音声合成のための韻律補正
– 中国語と日本語の韻律の違いに着目し，部分的モデル適応
2
日本語合成音声の話者性を保持したまま，自然性を大幅に改善

/12
HMM音声合成
3
[Tokuda13]
テキスト収録音声
テキスト
解析
音声分析
スペクトル
音源
パワー
継続長
話者依存
HMMデータベース
テキスト合成音声
テキスト
解析
音声合成
学習部
生成部

/12
日本人英語の音声合成のための
韻律補正
 韻律の違い
– 日本語：モーラ等時性・ピッチアクセント
– 英語：ストレス等時性・ストレスアクセント
 韻律補正法
– 英語母語話者の韻律を利用
4
[Oshima16]
英語母語話者の
HMM
英語母語話者の
英語音声
日本語母語話者の
英語音声
韻律を補正した
HMM
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
モデル
適応
パワーと継続長を
補正すればよい！

提案法：
中国人留学生日本語の音声合成の
ための韻律補正
5

/12
中国人留学生日本語の音声合成のための
韻律補正
 韻律の違い
– 中国語：シラブル等時性・声調
– 日本語：モーラ等時性・ピッチアクセント
 韻律補正法
– 日本語母語話者の韻律を利用
6
HMM
日本語音声
中国人留学生の
日本語音声
韻律を補正した
HMM
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
適応
F0と継続長を
補正すればよい！
適応

/12
更なる適応法の検討
 個人性知覚への影響が小さい動的特徴量の保持を検討
 最終的に，以下の5パターンについて日本語母語話者のHMM
パラメータの保持を検討
– 1. F0の動的特徴量
– 2. メルケプストラムの動的特徴量
– 3. パワーの静的・動的特徴量 [Oshima16]
– 4. 音素継続長 [Oshima16]
– 5. F0の静的・動的特徴量
• 合成時に対数F0を線形変換して留学生のF0レンジに変換[Toda07]
7
中国語と日本語の韻律の違いに由来

実験的評価
留学生の日本語習熟度に依らず，
話者性を保持したまま自然性を改善できる？
8

/12
実験条件
9
音声データ
JSUTコーパス[Sonobe17]に含まれる
単一女性話者による5,000文
音声データ
UME-JRFコーパス [Nishina02] に含まれる
女性話者4名による約220文
評価データ UME-JRFコーパス 30文
HMM学習・
音声分析条件
従来研究 [Oshima16] と同じ．
STRAIGHT [Kawahara99] を使用．
留学生の選択法と
日本語習熟度
コーパス中の習熟度(5点満点)に基づき，
低～高習熟度の留学生を選択
F1: 1.50, F2: 2.60, F3: 3.20, F4: 4.05

/12
自然性に関するプリファレンスABテスト
(クラウドソーシングにより25名で評価)
10
継続長補正は習熟度に依らず自然性を改善
F0補正は習熟度の高い1話者のみで有効
補正なし
補正あり
* p < .05

/12
話者性に関するプリファレンスXABテスト
11
継続長・F0補正は，1話者を除き話者性を保持
補正なし
補正あり
* p < .05

/12
まとめ
 目的
– 中国人留学生日本語の音声合成のための韻律補正
 提案法
– HMM音声合成における部分的なモデル適応
– 日本語母語話者のF0・音素継続長・動的特徴量を保持
 結果
– F0と音素継続長は，話者性を保持したまま自然性を改善
– 動的特徴量は有効ではない
 今後の予定
– F0・音素継続長の両方を補正した音声の評価
12

/12
[補足] プリファレンスAB/XABテスト
13
音素継続長を保持した上での, F0補正の効果を検討
F0補正は全話者で有効
音素継続長のみ補正
音素継続長とF0を
ともに補正
* p < .05

外国人留学生日本語の音声合成における話者性を保持した韻律補正

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (12)