日本語テキスト音声合成のための句境界予測モデルの検討

日本語テキスト音声合成のための
句境界予測モデルの検討
2020/03/16
LINE株式会社
二又航介, 朴炳宣, 山本龍一, 橘健太郎
D2-3

背景: 句境界予測 (Phrase Break Prediction)
句境界予測はテキスト音声合成 (TTS) システムを構成する
上で音声の自然性に寄与する重要な要因の一つ[1]
• 句境界は連続する句の間に挿入される音声的なポーズとして
定義され、息継ぎやアクセントの変化により発生
• テキスト上に現れる読点の場所以外にも句境界が挿入される
ためルールベースの手法では対応が困難[2]
句境界なし句境界あり
知らぬ間に自分名義で契約され、
届いたスマホを開封せず詐欺グループに転送
させられる消費者被害が、全国の国民生活
センターに寄せられている
2
知らぬ間に/自分名義で契約され、/
届いたスマホを開封せず/詐欺グループに転
送させられる/消費者被害が、/全国の国民生
活センターに寄せられている
句境界の有無による合成音声の自然性
[1] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda. Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis. In Proc. 10th
ISCA Speech Synthesis Workshop, pp. 166–171, 2019.
[2] P. Taylor and A. W. Black. Assigning phrase breaks frompart-of-speech sequences.Computer Speech & Language,Vol. 12, No. 2, pp. 99 – 117, 1998.

背景: 句境界予測 (Phrase Break Prediction)
日本語句境界予測において深層学習による系列予測モデル
や大規模言語モデルの有用性が検証されておらず
• 日本語句境界予測ではCRFやランダムフォレストなど
従来の統計モデルによる手法が検証[3]
• 英語句境界予測ではRNNやLSTMなど系列モデルによる手法が
検証されているものの大規模言語モデルの効果は未検証[4]
• 品詞タグや構文情報など様々な言語特徴量によって精度改善
• CRFレイヤーや大規模言語モデルの効果は未検証
3
[3] N. Miyazaki H. Mizuno H. Muto, Y. Ijima and S. Sakauchi. Analysis and evaluation of factors relating pause location for natural text-to-speech synthesis. In Transactions of
Information Processing Society of Japan, pp. 993–1002, 2015.
[4] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman. Phrase break prediction for long-form reading tts: Exploiting text structure
information. In Proc. Interspeech 2017, pp. 1064–1068, 2017.

目的: 深層学習による日本語句境界予測モデルの検討
TTSにより生成される音声の自然性を向上させるため
様々な言語特徴量およびモデル構造の効果を検証
• 品詞タグや構文構造などの言語特徴量
BiLSTMやBERTなどのモデル構造を検証
• 各系列の後に句境界を挿入するか否かラベル付けする
系列ラベリングのタスクとして定式化
• 非句境界 (<NB>) または句境界 ( )としてラベル付け
4
系列ラベリング問題としての句境界予測
知らぬ間に自分名義で契約され、届いたスマホ ...
PBP classifier
<NB> <NB> <NB> <NB> <NB> <NB> <NB> <NB> <NB> <NB> <NB> …

データセット: 句境界コーパス
```
句境界予測に用いるコーパスとしてCSJ, 独自データを使用
• CSJは複数話者による少数の発話から構成
• 独自コーパスは単一話者による大量の発話から構成
• それぞれ200ミリ秒以上の無音区間を句境界として認定
5
Train Val Test
発話数 157,976 1799 1729
話者数 2463 31 31
平均トークン数 38.86 36.06 34.10
平均句境界数 3.54 3.46 3.22
CSJおよび独自コーパスの統計情報
CSJ(複数話者) 独自コーパス(単一話者)
Train Val Test
発話数 99,807 500 500
話者数 1 - -
平均トークン数 13.34 13.14 13.02
平均句境界数 1.59 1.58 1.53

実験内容
```
TTSの音声に関する自然性を向上させるため様々な
モデル構造および言語特徴量の効果を検証
• 実験 1: 明示的言語特徴量に関する効果検証
• 客観評価実験
• e.g. 品詞タグ、構文構造、word2vec...
• 実験 2: モデル構造比較
• e.g. BiLSTM, CRF, BERT…
• 実験 3: Focal-lossおよびFine-tuningの適用
• データ分布不均衡問題を解決するためのFocal-loss
• 多数話者による学習済みモデル(CSJ)の独自データによるFine-tuning
• 実験 4: MOS評価およびABXテスト
• 句境界予測モデルを適用したTTSにより音声の自然性を評価
6

実験設定: 評価指標
```
句境界の分布は話者毎に大きく異なるため
F-β (β ∈ {1.0, 0.25})スコアを用いて予測性能を評価
• 多数の話者に適用可能な汎用的な句境界予測モデルを作成
• 誤った箇所に句境界を挿入するより何も挿入しない方が
音声自然性が向上することが知られる[5]
• 複数話者から構成されるCSJでは余分な句境界が
挿入されないようF-0.25スコアによりprecision重視で評価
• 単一話者から構成される独自コーパスではF-1スコアで評価
7
F-βスコアによる句境界予測性能の評価
[5] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman, “Phrase break prediction for long-form reading tts: exploiting text structure
information,” in Proceedings of Interspeech 2017, 2017, pp. 1064–1068.

実験 1: 明示的な言語特徴量の比較検討
```
日本語句境界予測において様々な特徴量の効果を検証
• 英語句境界予測における深層学習による従来手法を
日本語句境界予測へ適用 (2 layers BiLSTM, 512次元)
• 言語特徴量の取得にはSudachi[6]およびGinza[7]を利用
8
特徴量次元数詳細
Token 512 単語分割した入力文のみを使用
+ UD 16 universal dependency タグを追加
+ POS 48 品詞タグ(細分類含む)を追加
+ DEP 64 現トークンおよび親トークンの構文タグおよび相対位置を追加
+ CHAR 64 文字単位の埋め込み層を追加
+ W2V 512 Wikipediaによる事前学習済み単語埋め込み層を追加
ALL(UD) - UD以外の特徴量を全て使用
ALL(POS) - POS以外の言語特徴量を全て使用
実験に使用した言語特徴量
[6] K. Takaoka, S. Hisamoto, N. Kawahara, M. Sakamoto, Y. Uchida, and Y. Matsumoto. 2018. Sudachi: a Japanese tokenizer for business. In Proceedings of the Eleventh
International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
[7] 松田寛, 大村舞, 浅原正幸. 短単位品詞の用法曖昧性解決と依存関係ラベリングの同時学習, 言語処理学会第 25 回年次大会発表論文集, 2019.

実験 1: CSJおよび独自コーパスによる実験結果
```
言語特徴量の追加に応じてF-0.25, F-1スコアが上昇
• CSJではUD, POS, W2Vなどの単一特徴量においても効果的
• 独自コーパスでは単一特徴量の追加による効果なし
• POS含めた全ての特徴量を用いることで予測性能が大きく上昇
9
Precision Recall F-1 Precision Recall
Token 58.5 63.9 24.8 88.9 93.0 85.1
+ UD 61.6 65.8 30.4 89.0 90.8 87.2
+ POS 61.6 65.8 30.5 88.6 90.5 86.8
+ DEP 59.3 64.0 27.1 88.7 91.4 86.0
+ CHAR 60.1 65.0 27.1 89.4 92.1 86.8
+ W2V 60.9 66.9 24.9 87.6 91.4 84.1
ALL(UD) 62.9 67.5 30.3 89.3 91.4 87.4
ALL(POS) 63.5 68.1 30.7 90.5 91.6 89.0
CSJおよび独自コーパスによる実験結果

実験 2: モデル構造の比較実験
```
様々なモデル構造の句境界予測への効果を検証
• 従来手法であるALL(POS)をベースラインモデルとして使用
• 学習済みBERTモデルには’cl-tohoku/bert-base’[8]を使用
• BERTの各層は異なる言語特徴量を暗黙的含むことが知られる[9]
• 最終層のみを利用したBERT lastと全層の加重平均を
利用したBERT mixの二種類で実験
• 以下6つのモデル構造を比較
• BiLSTM
• BiLSTM + CRF
• BERTlast
• BERTlast + CRF
• BERTmix
• BERTmix + CRF
10
[8] https://github.com/cl-tohoku/bert-Japanese.
[9] A. Rogers, O. Kovaleva, and A. Rumshisky. 2020. A primer in bertology: What we know about how bert works. ArXiv, abs/2002.12327.

```
BERTmix ベースのモデルにおいて予測精度が大きく上昇
• CSJおよび独自コーパスの両者においてBiLSTMやBERTlastと
比較して予測性能が大きく上昇
• BERTlastはBiLSTMと性能にほとんど違いなし
• BERTmixを利用することにより構文情報や意味情報など暗黙的に
学習された言語特徴量が有効的に活用
11
BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0
BiLSTM + CRF 65.2 70.9 28.7 90.1 91.6 88.5
BERT last 63.9 67.3 35.3 90.8 92.2 89.5
BERT last + CRF 64.2 67.2 37.2 91.7 92.9 90.6
BERT mix 67.4 72.9 30.8 92.0 94.1 90.0
BERT mix + CRF 64.0 68.0 33.1 92.8 94.3 91.4

実験 3: データ分布の不均衡問題への対処
非句境界と句境界の分布および比率が大きく異なる
• 非句境界の数が句境界の数より圧倒的に多い
• Cross entropy lossでは全サンプルを同等に扱うため非句境界に
対する損失が多く伝搬される傾向
• 分類が難しい句境界(分類確率が0.5に近い例)に対する
予測が非句境界として予測結果が引っ張られる傾向
• Focal-lossを適用することで上記問題を解決
12
非句境界数句境界数比率
CSJ 5,072,106 571,458 8.875
独自コーパス 1,185,077 161,072 7.357
非句境界と句境界の数および比率

```
13
Focal-lossの効果および対応する式
データ分布の不均衡問題を解決するためFocal-loss[10]を適用
• Focal-loss (FL) により出力確率の高いサンプルに対する損失が低減
• Balanced cross entropy(BCE)と同様に重みパラメータα
の導入によりデータ不均衡問題を解決(Balanced focal-loss(BFL))
• 実験にはBERTmixモデルを使用
正解ラベルに対する出力確率および損失
Balanced focal-loss(BFL)
Balanced cross entropy(BCE)
実験 3: BERTへのFocal-lossの適用およびCSJによるFine-tuning
[10] T.-Y. Lin, P. Goyal, R. B. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. CoRR, Vol. abs/1708.02002, 2017.

```
Balanced focal-loss (BFL)の導入およびFine-tuning(FT)
により句境界予測の性能が大きく上昇
• BFLのパラメータにはγ=2.0, α=0.4を設定
• BFLによって出力確率の高い非句境界に対するlossが
低減しPrecisionが大きく上昇
• ベースラインと比較してCSJでは5.4ポイント
独自コーパスでは3.5ポイントの性能上昇
14
BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0
BERT mix 67.4 72.9 30.8 92.0 72.9 90.0
BERT mix + BFL(γ=2.0, α=0.4) 68.9 78.3 23.5 93.7 75.9 92.5
BERT mix + BFL + FT(γ=2.0, α=0.4) - - - 94.0 94.7 93.7

```
15
モデル詳細
Reference テストデータを音声合成した発話
Rule-based 読点の後にのみ句境界を挿入した発話
BiLSTM(Token) トークンのみ使用
BiLSTM(All) POS含む全ての特徴量を使用
BERT mix 全層の加重平均を使用したBERT
BERT mix + BFL + FT BERTmix にBFLとFTを適用
MOS評価およびABXテストの評価対象
ABテスト
Target A Target B
Rule-based BiLSTM (Token)
BiLSTM (Token) BiLSTM (All)
BiLSTM(All) BERT mix
BERT mix BERT mix + BFL + FT
BERT mix + BFL + FT reference
句境界予測モデルを導入したTTSモデルを音声の自然性
に関してMOS評価およびABテストにより評価
• 独自コーパスにより訓練された句境界モデルを対象に評価
• TTSモデルにはFastSpeech2[11] + Parallel WaveGAN[12]を使用
• 25人の被験者が各モデルに対して30発話評価
実験 4: 主観評価実験
[11] Y. Ren, C. Hu, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu. FastSpeech 2: Fast and high- quality end-to-end text-to-speech. In Proc. ICLR (in press), 2021.
[12] R. Yamamoto, E. Song, and J.-M. Kim. Parallel WaveGAN: A fast waveform generation model based on generative adversarial net- works with multi-resolution spectrogram.
In Proc. ICASSP, pp. 6199–6203, 2020.
MOS評価の対象モデル ABXテストの対象モデルペア

```
16
モデル得点
Rule-based 3.72 ± 0.07
BiLSTM(Token) 3.89 ± 0.07
BiLSTM(All) 3.86 ± 0.07
BERT mix 3.91 ± 0.07
BERT mix + BFL + FT 3.95 ± 0.07
Reference 4.06 ± 0.07
MOSテストによる実験結果(95%信頼区間)
提案手法であるBERTmix + BFL + FTにおいてReference
を除く6つのモデルの中で音声の自然性が最も上昇
• 音声の自然性に関して1点から5点で評価
• BERTmixベースのモデルとその他のモデルの間に有意差有り
• BERTmixとBERTmix + BFL + FTの間には有意差無し
実験 4: MOS評価による実験結果

```
17
Target A Target B A B Neutral
Rule-based BiLSTM(Token) 0.173 0.455 0.372
BiLSTM(Token) BiLSTM(All) 0.200 0.211 0.589
BiLSTM(All) BERT mix 0.215 0.221 0.564
BERT mix BERT mix + BFL + FT 0.136 0.112 0.739
BERT mix + BFL + FT reference 0.157 0.260 0.583
ABテストによる実験結果
BERTmix + BFL + FLよりBERTmix を選択する割合高
• 2つの音声のうちどちらの音声がより自然であるか
または同じであるか選択
• BERTmixベースのモデルにおいてその他モデルより自然性上昇
• BERTmixとBERTmix + BFL + FTの間でNeutralを選択する割合高
実験 4: ABテストによる実験結果

実験 4: 主観評価実験に利用したサンプル例1
```
18
Reference
メキシコでは 麻薬密売組織に殺害された人の 切断遺体が 道路
際に置き去りにされることが多い
Rule-based
メキシコでは麻薬密売組織に殺害された人の切断遺体が道路際に置き去りにされ
ることが多い
BiLSTM(Token)
メキシコでは 麻薬密売組織に殺害された人の切断遺体が道路際に 置
き去りにされることが多い
BiLSTM(All)
メキシコでは 麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに
されることが多い
BERT mix
メキシコでは 麻薬密売組織に殺害された 人の切断遺体が 道路
際に置き去りにされることが多い
BERT mix + BFL + FT
メキシコでは 麻薬密売組織に殺害された人の切断遺体が 道路際に置
き去りにされることが多い

まとめ
```
音声の自然性を向上させるため句境界予測において
様々な言語特徴量およびモデル構造の効果を検証
• BERTベースのモデルを利用することに従来手法より性能上昇
• 句境界予測においてBERTによる暗黙的な言語特徴量が
BiLSTMによる明示的な言語特徴量より効果大
• 最終層のみを利用したBERT lastより全層の加重平均を利用した
BERT mixの方が性能向上に寄与
• 句境界予測モデルの性能向上により音声の自然性も同時に向上
• Focal-lossの導入によりF-βスコアの上昇は確認できたものの
音声の自然性に関しては有意差無
19

日本語テキスト音声合成のための句境界予測モデルの検討

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 日本語テキスト音声合成のための句境界予測モデルの検討

Similar to 日本語テキスト音声合成のための句境界予測モデルの検討 (20)

日本語テキスト音声合成のための句境界予測モデルの検討