SlideShare a Scribd company logo
日本語テキスト音声合成のための
句境界予測モデルの検討
2020/03/16
LINE株式会社
二又 航介, 朴炳宣, 山本龍一, 橘健太郎
D2-3
背景: 句境界予測 (Phrase Break Prediction)
句境界予測はテキスト音声合成 (TTS) システムを構成する
上で音声の自然性に寄与する重要な要因の一つ[1]
• 句境界は連続する句の間に挿入される音声的なポーズとして
定義され、息継ぎやアクセントの変化により発生
• テキスト上に現れる読点の場所以外にも句境界が挿入される
ためルールベースの手法では対応が困難[2]
句境界なし 句境界あり
知らぬ間に自分名義で契約され、
届いたスマホを開封せず詐欺グループに転送
させられる消費者被害が、全国の国民生活
センターに寄せられている
2
知らぬ間に/自分名義で契約され、/
届いたスマホを開封せず/詐欺グループに転
送させられる/消費者被害が、/全国の国民生
活センターに寄せられている
句境界の有無による合成音声の自然性
[1] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda. Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis. In Proc. 10th
ISCA Speech Synthesis Workshop, pp. 166–171, 2019.
[2] P. Taylor and A. W. Black. Assigning phrase breaks frompart-of-speech sequences.Computer Speech & Language,Vol. 12, No. 2, pp. 99 – 117, 1998.
背景: 句境界予測 (Phrase Break Prediction)
日本語句境界予測において深層学習による系列予測モデル
や大規模言語モデルの有用性が検証されておらず
• 日本語句境界予測ではCRFやランダムフォレストなど
従来の統計モデルによる手法が検証[3]
• 英語句境界予測ではRNNやLSTMなど系列モデルによる手法が
検証されているものの大規模言語モデルの効果は未検証[4]
• 品詞タグや構文情報など様々な言語特徴量によって精度改善
• CRFレイヤーや大規模言語モデルの効果は未検証
3
[3] N. Miyazaki H. Mizuno H. Muto, Y. Ijima and S. Sakauchi. Analysis and evaluation of factors relating pause location for natural text-to-speech synthesis. In Transactions of
Information Processing Society of Japan, pp. 993–1002, 2015.
[4] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman. Phrase break prediction for long-form reading tts: Exploiting text structure
information. In Proc. Interspeech 2017, pp. 1064–1068, 2017.
目的: 深層学習による日本語句境界予測モデルの検討
TTSにより生成される音声の自然性を向上させるため
様々な言語特徴量およびモデル構造の効果を検証
• 品詞タグや構文構造などの言語特徴量
BiLSTMやBERTなどのモデル構造を検証
• 各系列の後に句境界を挿入するか否かラベル付けする
系列ラベリングのタスクとして定式化
• 非句境界 (<NB>) または句境界 (<BR>)としてラベル付け
4
系列ラベリング問題としての句境界予測
知ら ぬ 間 に 自分 名義 で 契約 され 、 届い た スマホ ...
PBP classifier
<NB> <NB> <NB> <BR> <NB> <NB> <NB> <NB> <NB> <BR> <NB> <NB> <NB> …
データセット: 句境界コーパス
```
句境界予測に用いるコーパスとしてCSJ, 独自データを使用
• CSJは複数話者による少数の発話から構成
• 独自コーパスは単一話者による大量の発話から構成
• それぞれ200ミリ秒以上の無音区間を句境界として認定
5
Train Val Test
発話数 157,976 1799 1729
話者数 2463 31 31
平均トークン数 38.86 36.06 34.10
平均句境界数 3.54 3.46 3.22
CSJおよび独自コーパスの統計情報
CSJ(複数話者) 独自コーパス(単一話者)
Train Val Test
発話数 99,807 500 500
話者数 1 - -
平均トークン数 13.34 13.14 13.02
平均句境界数 1.59 1.58 1.53
実験内容
```
TTSの音声に関する自然性を向上させるため様々な
モデル構造および言語特徴量の効果を検証
• 実験 1: 明示的言語特徴量に関する効果検証
• 客観評価実験
• e.g. 品詞タグ、構文構造、word2vec...
• 実験 2: モデル構造比較
• 客観評価実験
• e.g. BiLSTM, CRF, BERT…
• 実験 3: Focal-lossおよびFine-tuningの適用
• 客観評価実験
• データ分布不均衡問題を解決するためのFocal-loss
• 多数話者による学習済みモデル(CSJ)の独自データによるFine-tuning
• 実験 4: MOS評価およびABXテスト
• 客観評価実験
• 句境界予測モデルを適用したTTSにより音声の自然性を評価
6
実験設定: 評価指標
```
句境界の分布は話者毎に大きく異なるため
F-β (β ∈ {1.0, 0.25})スコアを用いて予測性能を評価
• 多数の話者に適用可能な汎用的な句境界予測モデルを作成
• 誤った箇所に句境界を挿入するより何も挿入しない方が
音声自然性が向上することが知られる[5]
• 複数話者から構成されるCSJでは余分な句境界が
挿入されないようF-0.25スコアによりprecision重視で評価
• 単一話者から構成される独自コーパスではF-1スコアで評価
7
F-βスコアによる句境界予測性能の評価
[5] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman, “Phrase break prediction for long-form reading tts: exploiting text structure
information,” in Proceedings of Interspeech 2017, 2017, pp. 1064–1068.
実験 1: 明示的な言語特徴量の比較検討
```
日本語句境界予測において様々な特徴量の効果を検証
• 英語句境界予測における深層学習による従来手法を
日本語句境界予測へ適用 (2 layers BiLSTM, 512次元)
• 言語特徴量の取得にはSudachi[6]およびGinza[7]を利用
8
特徴量 次元数 詳細
Token 512 単語分割した入力文のみを使用
+ UD 16 universal dependency タグを追加
+ POS 48 品詞タグ(細分類含む)を追加
+ DEP 64 現トークンおよび親トークンの構文タグおよび相対位置を追加
+ CHAR 64 文字単位の埋め込み層を追加
+ W2V 512 Wikipediaによる事前学習済み単語埋め込み層を追加
ALL(UD) - UD以外の特徴量を全て使用
ALL(POS) - POS以外の言語特徴量を全て使用
実験に使用した言語特徴量
[6] K. Takaoka, S. Hisamoto, N. Kawahara, M. Sakamoto, Y. Uchida, and Y. Matsumoto. 2018. Sudachi: a Japanese tokenizer for business. In Proceedings of the Eleventh
International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
[7] 松田寛, 大村舞, 浅原正幸. 短単位品詞の用法曖昧性解決と依存関係ラベリングの同時学習, 言語処理学会 第 25 回年次大会 発表論文集, 2019.
実験 1: CSJおよび独自コーパスによる実験結果
```
言語特徴量の追加に応じてF-0.25, F-1スコアが上昇
• CSJではUD, POS, W2Vなどの単一特徴量においても効果的
• 独自コーパスでは単一特徴量の追加による効果なし
• POS含めた全ての特徴量を用いることで予測性能が大きく上昇
9
CSJ(複数話者) 独自コーパス(単一話者)
Precision Recall F-1 Precision Recall
Token 58.5 63.9 24.8 88.9 93.0 85.1
+ UD 61.6 65.8 30.4 89.0 90.8 87.2
+ POS 61.6 65.8 30.5 88.6 90.5 86.8
+ DEP 59.3 64.0 27.1 88.7 91.4 86.0
+ CHAR 60.1 65.0 27.1 89.4 92.1 86.8
+ W2V 60.9 66.9 24.9 87.6 91.4 84.1
ALL(UD) 62.9 67.5 30.3 89.3 91.4 87.4
ALL(POS) 63.5 68.1 30.7 90.5 91.6 89.0
CSJおよび独自コーパスによる実験結果
実験 2: モデル構造の比較実験
```
様々なモデル構造の句境界予測への効果を検証
• 従来手法であるALL(POS)をベースラインモデルとして使用
• 学習済みBERTモデルには’cl-tohoku/bert-base’[8]を使用
• BERTの各層は異なる言語特徴量を暗黙的含むことが知られる[9]
• 最終層のみを利用したBERT lastと全層の加重平均を
利用したBERT mixの二種類で実験
• 以下6つのモデル構造を比較
• BiLSTM
• BiLSTM + CRF
• BERTlast
• BERTlast + CRF
• BERTmix
• BERTmix + CRF
10
[8] https://github.com/cl-tohoku/bert-Japanese.
[9] A. Rogers, O. Kovaleva, and A. Rumshisky. 2020. A primer in bertology: What we know about how bert works. ArXiv, abs/2002.12327.
実験 2: CSJおよび独自コーパスによる実験結果
```
BERTmix ベースのモデルにおいて予測精度が大きく上昇
• CSJおよび独自コーパスの両者においてBiLSTMやBERTlastと
比較して予測性能が大きく上昇
• BERTlastはBiLSTMと性能にほとんど違いなし
• BERTmixを利用することにより構文情報や意味情報など暗黙的に
学習された言語特徴量が有効的に活用
11
CSJ(複数話者) 独自コーパス(単一話者)
Precision Recall F-1 Precision Recall
BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0
BiLSTM + CRF 65.2 70.9 28.7 90.1 91.6 88.5
BERT last 63.9 67.3 35.3 90.8 92.2 89.5
BERT last + CRF 64.2 67.2 37.2 91.7 92.9 90.6
BERT mix 67.4 72.9 30.8 92.0 94.1 90.0
BERT mix + CRF 64.0 68.0 33.1 92.8 94.3 91.4
CSJおよび独自コーパスによる実験結果
実験 3: データ分布の不均衡問題への対処
非句境界と句境界の分布および比率が大きく異なる
• 非句境界の数が句境界の数より圧倒的に多い
• Cross entropy lossでは全サンプルを同等に扱うため非句境界に
対する損失が多く伝搬される傾向
• 分類が難しい句境界(分類確率が0.5に近い例)に対する
予測が非句境界として予測結果が引っ張られる傾向
• Focal-lossを適用することで上記問題を解決
12
非句境界数 句境界数 比率
CSJ 5,072,106 571,458 8.875
独自コーパス 1,185,077 161,072 7.357
非句境界と句境界の数および比率
```
13
Focal-lossの効果および対応する式
データ分布の不均衡問題を解決するためFocal-loss[10]を適用
• Focal-loss (FL) により出力確率の高いサンプルに対する損失が低減
• Balanced cross entropy(BCE)と同様に重みパラメータα
の導入によりデータ不均衡問題を解決(Balanced focal-loss(BFL))
• 実験にはBERTmixモデルを使用
正解ラベルに対する出力確率および損失
Balanced focal-loss(BFL)
Balanced cross entropy(BCE)
実験 3: BERTへのFocal-lossの適用およびCSJによるFine-tuning
[10] T.-Y. Lin, P. Goyal, R. B. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. CoRR, Vol. abs/1708.02002, 2017.
実験 3: CSJおよび独自コーパスによる実験結果
```
Balanced focal-loss (BFL)の導入およびFine-tuning(FT)
により句境界予測の性能が大きく上昇
• BFLのパラメータにはγ=2.0, α=0.4を設定
• BFLによって出力確率の高い非句境界に対するlossが
低減しPrecisionが大きく上昇
• ベースラインと比較してCSJでは5.4ポイント
独自コーパスでは3.5ポイントの性能上昇
14
CSJ(複数話者) 独自コーパス(単一話者)
Precision Recall F-1 Precision Recall
BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0
BERT mix 67.4 72.9 30.8 92.0 72.9 90.0
BERT mix + BFL(γ=2.0, α=0.4) 68.9 78.3 23.5 93.7 75.9 92.5
BERT mix + BFL + FT(γ=2.0, α=0.4) - - - 94.0 94.7 93.7
CSJおよび独自コーパスによる実験結果
```
15
モデル 詳細
Reference テストデータを音声合成した発話
Rule-based 読点の後にのみ句境界を挿入した発話
BiLSTM(Token) トークンのみ使用
BiLSTM(All) POS含む全ての特徴量を使用
BERT mix 全層の加重平均を使用したBERT
BERT mix + BFL + FT BERTmix にBFLとFTを適用
MOS評価およびABXテストの評価対象
ABテスト
Target A Target B
Rule-based BiLSTM (Token)
BiLSTM (Token) BiLSTM (All)
BiLSTM(All) BERT mix
BERT mix BERT mix + BFL + FT
BERT mix + BFL + FT reference
句境界予測モデルを導入したTTSモデルを音声の自然性
に関してMOS評価およびABテストにより評価
• 独自コーパスにより訓練された句境界モデルを対象に評価
• TTSモデルにはFastSpeech2[11] + Parallel WaveGAN[12]を使用
• 25人の被験者が各モデルに対して30発話評価
実験 4: 主観評価実験
[11] Y. Ren, C. Hu, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu. FastSpeech 2: Fast and high- quality end-to-end text-to-speech. In Proc. ICLR (in press), 2021.
[12] R. Yamamoto, E. Song, and J.-M. Kim. Parallel WaveGAN: A fast waveform generation model based on generative adversarial net- works with multi-resolution spectrogram.
In Proc. ICASSP, pp. 6199–6203, 2020.
MOS評価の対象モデル ABXテストの対象モデルペア
```
16
モデル 得点
Rule-based 3.72 ± 0.07
BiLSTM(Token) 3.89 ± 0.07
BiLSTM(All) 3.86 ± 0.07
BERT mix 3.91 ± 0.07
BERT mix + BFL + FT 3.95 ± 0.07
Reference 4.06 ± 0.07
MOSテストによる実験結果(95%信頼区間)
提案手法であるBERTmix + BFL + FTにおいてReference
を除く6つのモデルの中で音声の自然性が最も上昇
• 音声の自然性に関して1点から5点で評価
• BERTmixベースのモデルとその他のモデルの間に有意差有り
• BERTmixとBERTmix + BFL + FTの間には有意差無し
実験 4: MOS評価による実験結果
```
17
Target A Target B A B Neutral
Rule-based BiLSTM(Token) 0.173 0.455 0.372
BiLSTM(Token) BiLSTM(All) 0.200 0.211 0.589
BiLSTM(All) BERT mix 0.215 0.221 0.564
BERT mix BERT mix + BFL + FT 0.136 0.112 0.739
BERT mix + BFL + FT reference 0.157 0.260 0.583
ABテストによる実験結果
BERTmix + BFL + FLよりBERTmix を選択する割合高
• 2つの音声のうちどちらの音声がより自然であるか
または同じであるか選択
• BERTmixベースのモデルにおいてその他モデルより自然性上昇
• BERTmixとBERTmix + BFL + FTの間でNeutralを選択する割合高
実験 4: ABテストによる実験結果
実験 4: 主観評価実験に利用したサンプル例1
```
18
Reference
メキシコでは <BR> 麻薬密売組織に殺害された人の <BR> 切断遺体が <BR> 道路
際に置き去りにされることが多い
Rule-based
メキシコでは麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに され
ることが多い
BiLSTM(Token)
メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が道路際に <BR> 置
き去りにされることが多い
BiLSTM(All)
メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに
されることが多い
BERT mix
メキシコでは <BR> 麻薬密売組織に殺害された <BR> 人の切断遺体が <BR> 道路
際に置き去りにされることが多い
BERT mix + BFL + FT
メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が <BR> 道路際に置
き去りにされることが多い
まとめ
```
音声の自然性を向上させるため句境界予測において
様々な言語特徴量およびモデル構造の効果を検証
• BERTベースのモデルを利用することに従来手法より性能上昇
• 句境界予測においてBERTによる暗黙的な言語特徴量が
BiLSTMによる明示的な言語特徴量より効果大
• 最終層のみを利用したBERT lastより全層の加重平均を利用した
BERT mixの方が性能向上に寄与
• 句境界予測モデルの性能向上により音声の自然性も同時に向上
• Focal-lossの導入によりF-βスコアの上昇は確認できたものの
音声の自然性に関しては有意差無
19

More Related Content

What's hot

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
 
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep  Speaker Representatio...[DL輪読会]An Iterative Framework for Self-supervised Deep  Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
Deep Learning JP
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
NU_I_TODALAB
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
Akinori Ito
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
Yuki Saito
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
NU_I_TODALAB
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
Tomoki Hayashi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
 

What's hot (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep  Speaker Representatio...[DL輪読会]An Iterative Framework for Self-supervised Deep  Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 

Similar to 日本語テキスト音声合成のための句境界予測モデルの検討

A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Tomoki Hayashi
 
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Kosuke Futamata
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
 
Twitterユーザに対するゼロショットタグ付け
Twitterユーザに対するゼロショットタグ付けTwitterユーザに対するゼロショットタグ付け
Twitterユーザに対するゼロショットタグ付け
Kohei Shinden
 
Derivative models from BERT
Derivative models from BERTDerivative models from BERT
Derivative models from BERT
Junya Kamura
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
禎晃 山崎
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
Yuki Saito
 
Machine translation
Machine translationMachine translation
Machine translation
Hiroshi Matsumoto
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
 
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Shin Kanouchi
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
Yusuke Fujimoto
 
深層学習を用いた言語モデルによる俳句生成に関する研究
深層学習を用いた言語モデルによる俳句生成に関する研究深層学習を用いた言語モデルによる俳句生成に関する研究
深層学習を用いた言語モデルによる俳句生成に関する研究
harmonylab
 
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
広樹 本間
 

Similar to 日本語テキスト音声合成のための句境界予測モデルの検討 (20)

A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
Twitterユーザに対するゼロショットタグ付け
Twitterユーザに対するゼロショットタグ付けTwitterユーザに対するゼロショットタグ付け
Twitterユーザに対するゼロショットタグ付け
 
Derivative models from BERT
Derivative models from BERTDerivative models from BERT
Derivative models from BERT
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
Machine translation
Machine translationMachine translation
Machine translation
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
深層学習を用いた言語モデルによる俳句生成に関する研究
深層学習を用いた言語モデルによる俳句生成に関する研究深層学習を用いた言語モデルによる俳句生成に関する研究
深層学習を用いた言語モデルによる俳句生成に関する研究
 
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
 

日本語テキスト音声合成のための句境界予測モデルの検討

  • 2. 背景: 句境界予測 (Phrase Break Prediction) 句境界予測はテキスト音声合成 (TTS) システムを構成する 上で音声の自然性に寄与する重要な要因の一つ[1] • 句境界は連続する句の間に挿入される音声的なポーズとして 定義され、息継ぎやアクセントの変化により発生 • テキスト上に現れる読点の場所以外にも句境界が挿入される ためルールベースの手法では対応が困難[2] 句境界なし 句境界あり 知らぬ間に自分名義で契約され、 届いたスマホを開封せず詐欺グループに転送 させられる消費者被害が、全国の国民生活 センターに寄せられている 2 知らぬ間に/自分名義で契約され、/ 届いたスマホを開封せず/詐欺グループに転 送させられる/消費者被害が、/全国の国民生 活センターに寄せられている 句境界の有無による合成音声の自然性 [1] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda. Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis. In Proc. 10th ISCA Speech Synthesis Workshop, pp. 166–171, 2019. [2] P. Taylor and A. W. Black. Assigning phrase breaks frompart-of-speech sequences.Computer Speech & Language,Vol. 12, No. 2, pp. 99 – 117, 1998.
  • 3. 背景: 句境界予測 (Phrase Break Prediction) 日本語句境界予測において深層学習による系列予測モデル や大規模言語モデルの有用性が検証されておらず • 日本語句境界予測ではCRFやランダムフォレストなど 従来の統計モデルによる手法が検証[3] • 英語句境界予測ではRNNやLSTMなど系列モデルによる手法が 検証されているものの大規模言語モデルの効果は未検証[4] • 品詞タグや構文情報など様々な言語特徴量によって精度改善 • CRFレイヤーや大規模言語モデルの効果は未検証 3 [3] N. Miyazaki H. Mizuno H. Muto, Y. Ijima and S. Sakauchi. Analysis and evaluation of factors relating pause location for natural text-to-speech synthesis. In Transactions of Information Processing Society of Japan, pp. 993–1002, 2015. [4] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman. Phrase break prediction for long-form reading tts: Exploiting text structure information. In Proc. Interspeech 2017, pp. 1064–1068, 2017.
  • 4. 目的: 深層学習による日本語句境界予測モデルの検討 TTSにより生成される音声の自然性を向上させるため 様々な言語特徴量およびモデル構造の効果を検証 • 品詞タグや構文構造などの言語特徴量 BiLSTMやBERTなどのモデル構造を検証 • 各系列の後に句境界を挿入するか否かラベル付けする 系列ラベリングのタスクとして定式化 • 非句境界 (<NB>) または句境界 (<BR>)としてラベル付け 4 系列ラベリング問題としての句境界予測 知ら ぬ 間 に 自分 名義 で 契約 され 、 届い た スマホ ... PBP classifier <NB> <NB> <NB> <BR> <NB> <NB> <NB> <NB> <NB> <BR> <NB> <NB> <NB> …
  • 5. データセット: 句境界コーパス ``` 句境界予測に用いるコーパスとしてCSJ, 独自データを使用 • CSJは複数話者による少数の発話から構成 • 独自コーパスは単一話者による大量の発話から構成 • それぞれ200ミリ秒以上の無音区間を句境界として認定 5 Train Val Test 発話数 157,976 1799 1729 話者数 2463 31 31 平均トークン数 38.86 36.06 34.10 平均句境界数 3.54 3.46 3.22 CSJおよび独自コーパスの統計情報 CSJ(複数話者) 独自コーパス(単一話者) Train Val Test 発話数 99,807 500 500 話者数 1 - - 平均トークン数 13.34 13.14 13.02 平均句境界数 1.59 1.58 1.53
  • 6. 実験内容 ``` TTSの音声に関する自然性を向上させるため様々な モデル構造および言語特徴量の効果を検証 • 実験 1: 明示的言語特徴量に関する効果検証 • 客観評価実験 • e.g. 品詞タグ、構文構造、word2vec... • 実験 2: モデル構造比較 • 客観評価実験 • e.g. BiLSTM, CRF, BERT… • 実験 3: Focal-lossおよびFine-tuningの適用 • 客観評価実験 • データ分布不均衡問題を解決するためのFocal-loss • 多数話者による学習済みモデル(CSJ)の独自データによるFine-tuning • 実験 4: MOS評価およびABXテスト • 客観評価実験 • 句境界予測モデルを適用したTTSにより音声の自然性を評価 6
  • 7. 実験設定: 評価指標 ``` 句境界の分布は話者毎に大きく異なるため F-β (β ∈ {1.0, 0.25})スコアを用いて予測性能を評価 • 多数の話者に適用可能な汎用的な句境界予測モデルを作成 • 誤った箇所に句境界を挿入するより何も挿入しない方が 音声自然性が向上することが知られる[5] • 複数話者から構成されるCSJでは余分な句境界が 挿入されないようF-0.25スコアによりprecision重視で評価 • 単一話者から構成される独自コーパスではF-1スコアで評価 7 F-βスコアによる句境界予測性能の評価 [5] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman, “Phrase break prediction for long-form reading tts: exploiting text structure information,” in Proceedings of Interspeech 2017, 2017, pp. 1064–1068.
  • 8. 実験 1: 明示的な言語特徴量の比較検討 ``` 日本語句境界予測において様々な特徴量の効果を検証 • 英語句境界予測における深層学習による従来手法を 日本語句境界予測へ適用 (2 layers BiLSTM, 512次元) • 言語特徴量の取得にはSudachi[6]およびGinza[7]を利用 8 特徴量 次元数 詳細 Token 512 単語分割した入力文のみを使用 + UD 16 universal dependency タグを追加 + POS 48 品詞タグ(細分類含む)を追加 + DEP 64 現トークンおよび親トークンの構文タグおよび相対位置を追加 + CHAR 64 文字単位の埋め込み層を追加 + W2V 512 Wikipediaによる事前学習済み単語埋め込み層を追加 ALL(UD) - UD以外の特徴量を全て使用 ALL(POS) - POS以外の言語特徴量を全て使用 実験に使用した言語特徴量 [6] K. Takaoka, S. Hisamoto, N. Kawahara, M. Sakamoto, Y. Uchida, and Y. Matsumoto. 2018. Sudachi: a Japanese tokenizer for business. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA). [7] 松田寛, 大村舞, 浅原正幸. 短単位品詞の用法曖昧性解決と依存関係ラベリングの同時学習, 言語処理学会 第 25 回年次大会 発表論文集, 2019.
  • 9. 実験 1: CSJおよび独自コーパスによる実験結果 ``` 言語特徴量の追加に応じてF-0.25, F-1スコアが上昇 • CSJではUD, POS, W2Vなどの単一特徴量においても効果的 • 独自コーパスでは単一特徴量の追加による効果なし • POS含めた全ての特徴量を用いることで予測性能が大きく上昇 9 CSJ(複数話者) 独自コーパス(単一話者) Precision Recall F-1 Precision Recall Token 58.5 63.9 24.8 88.9 93.0 85.1 + UD 61.6 65.8 30.4 89.0 90.8 87.2 + POS 61.6 65.8 30.5 88.6 90.5 86.8 + DEP 59.3 64.0 27.1 88.7 91.4 86.0 + CHAR 60.1 65.0 27.1 89.4 92.1 86.8 + W2V 60.9 66.9 24.9 87.6 91.4 84.1 ALL(UD) 62.9 67.5 30.3 89.3 91.4 87.4 ALL(POS) 63.5 68.1 30.7 90.5 91.6 89.0 CSJおよび独自コーパスによる実験結果
  • 10. 実験 2: モデル構造の比較実験 ``` 様々なモデル構造の句境界予測への効果を検証 • 従来手法であるALL(POS)をベースラインモデルとして使用 • 学習済みBERTモデルには’cl-tohoku/bert-base’[8]を使用 • BERTの各層は異なる言語特徴量を暗黙的含むことが知られる[9] • 最終層のみを利用したBERT lastと全層の加重平均を 利用したBERT mixの二種類で実験 • 以下6つのモデル構造を比較 • BiLSTM • BiLSTM + CRF • BERTlast • BERTlast + CRF • BERTmix • BERTmix + CRF 10 [8] https://github.com/cl-tohoku/bert-Japanese. [9] A. Rogers, O. Kovaleva, and A. Rumshisky. 2020. A primer in bertology: What we know about how bert works. ArXiv, abs/2002.12327.
  • 11. 実験 2: CSJおよび独自コーパスによる実験結果 ``` BERTmix ベースのモデルにおいて予測精度が大きく上昇 • CSJおよび独自コーパスの両者においてBiLSTMやBERTlastと 比較して予測性能が大きく上昇 • BERTlastはBiLSTMと性能にほとんど違いなし • BERTmixを利用することにより構文情報や意味情報など暗黙的に 学習された言語特徴量が有効的に活用 11 CSJ(複数話者) 独自コーパス(単一話者) Precision Recall F-1 Precision Recall BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0 BiLSTM + CRF 65.2 70.9 28.7 90.1 91.6 88.5 BERT last 63.9 67.3 35.3 90.8 92.2 89.5 BERT last + CRF 64.2 67.2 37.2 91.7 92.9 90.6 BERT mix 67.4 72.9 30.8 92.0 94.1 90.0 BERT mix + CRF 64.0 68.0 33.1 92.8 94.3 91.4 CSJおよび独自コーパスによる実験結果
  • 12. 実験 3: データ分布の不均衡問題への対処 非句境界と句境界の分布および比率が大きく異なる • 非句境界の数が句境界の数より圧倒的に多い • Cross entropy lossでは全サンプルを同等に扱うため非句境界に 対する損失が多く伝搬される傾向 • 分類が難しい句境界(分類確率が0.5に近い例)に対する 予測が非句境界として予測結果が引っ張られる傾向 • Focal-lossを適用することで上記問題を解決 12 非句境界数 句境界数 比率 CSJ 5,072,106 571,458 8.875 独自コーパス 1,185,077 161,072 7.357 非句境界と句境界の数および比率
  • 13. ``` 13 Focal-lossの効果および対応する式 データ分布の不均衡問題を解決するためFocal-loss[10]を適用 • Focal-loss (FL) により出力確率の高いサンプルに対する損失が低減 • Balanced cross entropy(BCE)と同様に重みパラメータα の導入によりデータ不均衡問題を解決(Balanced focal-loss(BFL)) • 実験にはBERTmixモデルを使用 正解ラベルに対する出力確率および損失 Balanced focal-loss(BFL) Balanced cross entropy(BCE) 実験 3: BERTへのFocal-lossの適用およびCSJによるFine-tuning [10] T.-Y. Lin, P. Goyal, R. B. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. CoRR, Vol. abs/1708.02002, 2017.
  • 14. 実験 3: CSJおよび独自コーパスによる実験結果 ``` Balanced focal-loss (BFL)の導入およびFine-tuning(FT) により句境界予測の性能が大きく上昇 • BFLのパラメータにはγ=2.0, α=0.4を設定 • BFLによって出力確率の高い非句境界に対するlossが 低減しPrecisionが大きく上昇 • ベースラインと比較してCSJでは5.4ポイント 独自コーパスでは3.5ポイントの性能上昇 14 CSJ(複数話者) 独自コーパス(単一話者) Precision Recall F-1 Precision Recall BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0 BERT mix 67.4 72.9 30.8 92.0 72.9 90.0 BERT mix + BFL(γ=2.0, α=0.4) 68.9 78.3 23.5 93.7 75.9 92.5 BERT mix + BFL + FT(γ=2.0, α=0.4) - - - 94.0 94.7 93.7 CSJおよび独自コーパスによる実験結果
  • 15. ``` 15 モデル 詳細 Reference テストデータを音声合成した発話 Rule-based 読点の後にのみ句境界を挿入した発話 BiLSTM(Token) トークンのみ使用 BiLSTM(All) POS含む全ての特徴量を使用 BERT mix 全層の加重平均を使用したBERT BERT mix + BFL + FT BERTmix にBFLとFTを適用 MOS評価およびABXテストの評価対象 ABテスト Target A Target B Rule-based BiLSTM (Token) BiLSTM (Token) BiLSTM (All) BiLSTM(All) BERT mix BERT mix BERT mix + BFL + FT BERT mix + BFL + FT reference 句境界予測モデルを導入したTTSモデルを音声の自然性 に関してMOS評価およびABテストにより評価 • 独自コーパスにより訓練された句境界モデルを対象に評価 • TTSモデルにはFastSpeech2[11] + Parallel WaveGAN[12]を使用 • 25人の被験者が各モデルに対して30発話評価 実験 4: 主観評価実験 [11] Y. Ren, C. Hu, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu. FastSpeech 2: Fast and high- quality end-to-end text-to-speech. In Proc. ICLR (in press), 2021. [12] R. Yamamoto, E. Song, and J.-M. Kim. Parallel WaveGAN: A fast waveform generation model based on generative adversarial net- works with multi-resolution spectrogram. In Proc. ICASSP, pp. 6199–6203, 2020. MOS評価の対象モデル ABXテストの対象モデルペア
  • 16. ``` 16 モデル 得点 Rule-based 3.72 ± 0.07 BiLSTM(Token) 3.89 ± 0.07 BiLSTM(All) 3.86 ± 0.07 BERT mix 3.91 ± 0.07 BERT mix + BFL + FT 3.95 ± 0.07 Reference 4.06 ± 0.07 MOSテストによる実験結果(95%信頼区間) 提案手法であるBERTmix + BFL + FTにおいてReference を除く6つのモデルの中で音声の自然性が最も上昇 • 音声の自然性に関して1点から5点で評価 • BERTmixベースのモデルとその他のモデルの間に有意差有り • BERTmixとBERTmix + BFL + FTの間には有意差無し 実験 4: MOS評価による実験結果
  • 17. ``` 17 Target A Target B A B Neutral Rule-based BiLSTM(Token) 0.173 0.455 0.372 BiLSTM(Token) BiLSTM(All) 0.200 0.211 0.589 BiLSTM(All) BERT mix 0.215 0.221 0.564 BERT mix BERT mix + BFL + FT 0.136 0.112 0.739 BERT mix + BFL + FT reference 0.157 0.260 0.583 ABテストによる実験結果 BERTmix + BFL + FLよりBERTmix を選択する割合高 • 2つの音声のうちどちらの音声がより自然であるか または同じであるか選択 • BERTmixベースのモデルにおいてその他モデルより自然性上昇 • BERTmixとBERTmix + BFL + FTの間でNeutralを選択する割合高 実験 4: ABテストによる実験結果
  • 18. 実験 4: 主観評価実験に利用したサンプル例1 ``` 18 Reference メキシコでは <BR> 麻薬密売組織に殺害された人の <BR> 切断遺体が <BR> 道路 際に置き去りにされることが多い Rule-based メキシコでは麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに され ることが多い BiLSTM(Token) メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が道路際に <BR> 置 き去りにされることが多い BiLSTM(All) メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに されることが多い BERT mix メキシコでは <BR> 麻薬密売組織に殺害された <BR> 人の切断遺体が <BR> 道路 際に置き去りにされることが多い BERT mix + BFL + FT メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が <BR> 道路際に置 き去りにされることが多い
  • 19. まとめ ``` 音声の自然性を向上させるため句境界予測において 様々な言語特徴量およびモデル構造の効果を検証 • BERTベースのモデルを利用することに従来手法より性能上昇 • 句境界予測においてBERTによる暗黙的な言語特徴量が BiLSTMによる明示的な言語特徴量より効果大 • 最終層のみを利用したBERT lastより全層の加重平均を利用した BERT mixの方が性能向上に寄与 • 句境界予測モデルの性能向上により音声の自然性も同時に向上 • Focal-lossの導入によりF-βスコアの上昇は確認できたものの 音声の自然性に関しては有意差無 19