- The document proposes a method to improve audio quality in vocoder waveform generation by dispersing the timing of pulses based on the group delay characteristics of a vocal fold sound source model.
- Existing methods add group delay by random perturbation or time-domain smoothing, but the proposed method more appropriately represents the group delay of a vocal fold sound source model parameterization.
- In an objective evaluation on unit waveforms, the proposed time-domain smoothed power spectrum weighted group delay method had significantly smaller errors in reproducing the average duration and spread of the waveform, compared to existing time-domain smoothing.
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
北村大地, "音源分離における音響モデリング," 日本音響学会 サマーセミナー 招待講演, September 11th, 2017.
Daichi Kitamura, "Acoustic modeling in audio source separation," The Acoustical Society of Japan, Summer Seminar Invited Talk, September 11th, 2017.
- The document proposes a method to improve audio quality in vocoder waveform generation by dispersing the timing of pulses based on the group delay characteristics of a vocal fold sound source model.
- Existing methods add group delay by random perturbation or time-domain smoothing, but the proposed method more appropriately represents the group delay of a vocal fold sound source model parameterization.
- In an objective evaluation on unit waveforms, the proposed time-domain smoothed power spectrum weighted group delay method had significantly smaller errors in reproducing the average duration and spread of the waveform, compared to existing time-domain smoothing.
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
北村大地, "音源分離における音響モデリング," 日本音響学会 サマーセミナー 招待講演, September 11th, 2017.
Daichi Kitamura, "Acoustic modeling in audio source separation," The Acoustical Society of Japan, Summer Seminar Invited Talk, September 11th, 2017.
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
東京大学 システム情報学専攻 談話会
2017年2月27日(月)15時~16時30分
北村大地, "独立性に基づくブラインド音源分離の発展と独立低ランク行列分析," 東京大学 システム情報学専攻 談話会, 2月27日, 2017年.
Daichi Kitamura, "History of independence-based blind source separation and independent low-rank matrix analysis," The University of Tokyo, Department of Information Physics and Computing, Seminar, 27th Feb., 2017.
The document proposes an active learning method for DNN speaker embedding that considers subjective speaker similarity. It aims to learn speaker representations suitable for generative tasks like speech synthesis with reduced cost compared to conventional methods. The method alternates between collecting subjective similarity scores through crowdsourcing and training a DNN speaker encoder using the scores. It selects the next speaker pair to score based on the predicted similarity from the current encoder model, aiming to learn good representations with fewer scored pairs and training iterations. Experimental evaluation investigates the impact of different query strategies for pair selection.
The document describes a real-time DNN voice conversion system with feedback to acquire character traits. It proposes a method to provide real-time feedback of the converted voice to the speaker to encourage speech modification (prosody and emphasis) towards the target speaker's character. Subjective evaluations from the first-person (user) perspective and third-person perspective found that the system improved the reproduction of the target speaker's character, especially for inexperienced users. Providing only pitch feedback was already quite effective.
日本音響学会2021春季研究発表会1-1-2
北村大地, 矢田部浩平, "スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価," 日本音響学会 2021年春季研究発表会講演論文集, 1-1-2, pp. 121–124, Tokyo, March 2021.
Daichi Kitamura and Kohei Yatabe, "Experimental evaluation of consistent independent low-rank matrix analysis," Proceedings of 2021 Spring Meeting of Acoustical Society of Japan, 1-1-2, pp. 121–124, Tokyo, March 2021 (in Japanese).
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
東京大学 システム情報学専攻 談話会
2017年2月27日(月)15時~16時30分
北村大地, "独立性に基づくブラインド音源分離の発展と独立低ランク行列分析," 東京大学 システム情報学専攻 談話会, 2月27日, 2017年.
Daichi Kitamura, "History of independence-based blind source separation and independent low-rank matrix analysis," The University of Tokyo, Department of Information Physics and Computing, Seminar, 27th Feb., 2017.
The document proposes an active learning method for DNN speaker embedding that considers subjective speaker similarity. It aims to learn speaker representations suitable for generative tasks like speech synthesis with reduced cost compared to conventional methods. The method alternates between collecting subjective similarity scores through crowdsourcing and training a DNN speaker encoder using the scores. It selects the next speaker pair to score based on the predicted similarity from the current encoder model, aiming to learn good representations with fewer scored pairs and training iterations. Experimental evaluation investigates the impact of different query strategies for pair selection.
The document describes a real-time DNN voice conversion system with feedback to acquire character traits. It proposes a method to provide real-time feedback of the converted voice to the speaker to encourage speech modification (prosody and emphasis) towards the target speaker's character. Subjective evaluations from the first-person (user) perspective and third-person perspective found that the system improved the reproduction of the target speaker's character, especially for inexperienced users. Providing only pitch feedback was already quite effective.
日本音響学会2021春季研究発表会1-1-2
北村大地, 矢田部浩平, "スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価," 日本音響学会 2021年春季研究発表会講演論文集, 1-1-2, pp. 121–124, Tokyo, March 2021.
Daichi Kitamura and Kohei Yatabe, "Experimental evaluation of consistent independent low-rank matrix analysis," Proceedings of 2021 Spring Meeting of Acoustical Society of Japan, 1-1-2, pp. 121–124, Tokyo, March 2021 (in Japanese).
2017年春季研究発表会の発表資料です.
邦題: 形態素解析も辞書も言語モデルもいらないend-to-end音声認識
英題: End-to-end Japanese ASR without using morphological analyzer, pronunciation dictionary and language model
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages
Word Sense Disambiguation, BERT, clustering
ということで読みました.
p. 7 は「solid は glass の上位語,glassware は glass の下位語」でした。。。
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...Yuki Tomo
首都大学東京 情報通信システム学域 小町研究室に行われた EMNLP 2015 読み会で "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" を紹介した際の資料です。
BERT を中心に解説した資料です.BERT に比べると,XLNet と RoBERTa の内容は詳細に追ってないです.
あと,自作の図は上から下ですが,引っ張ってきた図は下から上になっているので注意してください.
もし間違い等あったら修正するので,言ってください.
(特に,RoBERTa の英語を読み間違えがちょっと怖いです.言い訳すいません.)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
近年、深層学習が芸術分野へ応用され、文章生成でも大きな成果を挙げつつある。本研究ではLong-Short Term Memory(LSTM)を用いた言語モデルを中心として、俳句生成を行うシステムを構築することを目指す。言語モデルの構築に際して、トークン単位の違いや韻律の区切り方の違いが推定精度に及ぼす影響を検証した。
2. 背景: 句境界予測 (Phrase Break Prediction)
句境界予測はテキスト音声合成 (TTS) システムを構成する
上で音声の自然性に寄与する重要な要因の一つ[1]
• 句境界は連続する句の間に挿入される音声的なポーズとして
定義され、息継ぎやアクセントの変化により発生
• テキスト上に現れる読点の場所以外にも句境界が挿入される
ためルールベースの手法では対応が困難[2]
句境界なし 句境界あり
知らぬ間に自分名義で契約され、
届いたスマホを開封せず詐欺グループに転送
させられる消費者被害が、全国の国民生活
センターに寄せられている
2
知らぬ間に/自分名義で契約され、/
届いたスマホを開封せず/詐欺グループに転
送させられる/消費者被害が、/全国の国民生
活センターに寄せられている
句境界の有無による合成音声の自然性
[1] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda. Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis. In Proc. 10th
ISCA Speech Synthesis Workshop, pp. 166–171, 2019.
[2] P. Taylor and A. W. Black. Assigning phrase breaks frompart-of-speech sequences.Computer Speech & Language,Vol. 12, No. 2, pp. 99 – 117, 1998.
3. 背景: 句境界予測 (Phrase Break Prediction)
日本語句境界予測において深層学習による系列予測モデル
や大規模言語モデルの有用性が検証されておらず
• 日本語句境界予測ではCRFやランダムフォレストなど
従来の統計モデルによる手法が検証[3]
• 英語句境界予測ではRNNやLSTMなど系列モデルによる手法が
検証されているものの大規模言語モデルの効果は未検証[4]
• 品詞タグや構文情報など様々な言語特徴量によって精度改善
• CRFレイヤーや大規模言語モデルの効果は未検証
3
[3] N. Miyazaki H. Mizuno H. Muto, Y. Ijima and S. Sakauchi. Analysis and evaluation of factors relating pause location for natural text-to-speech synthesis. In Transactions of
Information Processing Society of Japan, pp. 993–1002, 2015.
[4] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman. Phrase break prediction for long-form reading tts: Exploiting text structure
information. In Proc. Interspeech 2017, pp. 1064–1068, 2017.
7. 実験設定: 評価指標
```
句境界の分布は話者毎に大きく異なるため
F-β (β ∈ {1.0, 0.25})スコアを用いて予測性能を評価
• 多数の話者に適用可能な汎用的な句境界予測モデルを作成
• 誤った箇所に句境界を挿入するより何も挿入しない方が
音声自然性が向上することが知られる[5]
• 複数話者から構成されるCSJでは余分な句境界が
挿入されないようF-0.25スコアによりprecision重視で評価
• 単一話者から構成される独自コーパスではF-1スコアで評価
7
F-βスコアによる句境界予測性能の評価
[5] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman, “Phrase break prediction for long-form reading tts: exploiting text structure
information,” in Proceedings of Interspeech 2017, 2017, pp. 1064–1068.
8. 実験 1: 明示的な言語特徴量の比較検討
```
日本語句境界予測において様々な特徴量の効果を検証
• 英語句境界予測における深層学習による従来手法を
日本語句境界予測へ適用 (2 layers BiLSTM, 512次元)
• 言語特徴量の取得にはSudachi[6]およびGinza[7]を利用
8
特徴量 次元数 詳細
Token 512 単語分割した入力文のみを使用
+ UD 16 universal dependency タグを追加
+ POS 48 品詞タグ(細分類含む)を追加
+ DEP 64 現トークンおよび親トークンの構文タグおよび相対位置を追加
+ CHAR 64 文字単位の埋め込み層を追加
+ W2V 512 Wikipediaによる事前学習済み単語埋め込み層を追加
ALL(UD) - UD以外の特徴量を全て使用
ALL(POS) - POS以外の言語特徴量を全て使用
実験に使用した言語特徴量
[6] K. Takaoka, S. Hisamoto, N. Kawahara, M. Sakamoto, Y. Uchida, and Y. Matsumoto. 2018. Sudachi: a Japanese tokenizer for business. In Proceedings of the Eleventh
International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
[7] 松田寛, 大村舞, 浅原正幸. 短単位品詞の用法曖昧性解決と依存関係ラベリングの同時学習, 言語処理学会 第 25 回年次大会 発表論文集, 2019.
15. ```
15
モデル 詳細
Reference テストデータを音声合成した発話
Rule-based 読点の後にのみ句境界を挿入した発話
BiLSTM(Token) トークンのみ使用
BiLSTM(All) POS含む全ての特徴量を使用
BERT mix 全層の加重平均を使用したBERT
BERT mix + BFL + FT BERTmix にBFLとFTを適用
MOS評価およびABXテストの評価対象
ABテスト
Target A Target B
Rule-based BiLSTM (Token)
BiLSTM (Token) BiLSTM (All)
BiLSTM(All) BERT mix
BERT mix BERT mix + BFL + FT
BERT mix + BFL + FT reference
句境界予測モデルを導入したTTSモデルを音声の自然性
に関してMOS評価およびABテストにより評価
• 独自コーパスにより訓練された句境界モデルを対象に評価
• TTSモデルにはFastSpeech2[11] + Parallel WaveGAN[12]を使用
• 25人の被験者が各モデルに対して30発話評価
実験 4: 主観評価実験
[11] Y. Ren, C. Hu, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu. FastSpeech 2: Fast and high- quality end-to-end text-to-speech. In Proc. ICLR (in press), 2021.
[12] R. Yamamoto, E. Song, and J.-M. Kim. Parallel WaveGAN: A fast waveform generation model based on generative adversarial net- works with multi-resolution spectrogram.
In Proc. ICASSP, pp. 6199–6203, 2020.
MOS評価の対象モデル ABXテストの対象モデルペア