Nishimura22slp03 presentation

Y
第140回 音声言語情報処理研究会 (SIG-SLP)
西邑勇人1
・齋藤佑樹1
・高道慎之介1
・橘健太郎2
・猿渡洋1
1: 東京大学 2: LINE株式会社
対話履歴の韻律情報を考慮した共
感的対話音声合成
対話とは: 向かい合って話し合うこと [デジタル大辞泉]
タスク指向型対話: ユーザーの要求に答えることが目的
例: 旅行案内,レストラン予約
非タスク指向型対話: コミュニケーションが目的
例: 雑談
共感とは:
相手の内側に入り込もうとする能動的な試み [Davis+18]
≠ 同調: 相手と感情を同一化する
研究背景
01/25
共感的対話音声合成: [齋藤+22]
共感の主要素である,感情と韻律を音声合成に付与すること
対話相手との対話履歴を考慮し,次の応答に寄与する音声特徴量を推定
実現のためには:
テキスト情報だけでなく音声情報も必要 (クロスモーダル)
人間は,対話の言語的・韻律的特徴から文脈を理解し応答する
研究背景
02/25
どうした?
先生,悲しいお知らせが ...
なになに?
従来法: 対話履歴のテキスト情報を用いた対話音声合成 [Guo+20]
対話履歴を BERT に入力し embedding として音響モデルへ条件付け
問題点: テキスト情報のみの利用に留まる
音声のふるまいは考慮できない
提案法: テキスト・音声情報両方を用いた対話音声合成
テキスト情報は従来法と同様に利用
音声情報も embedding とすることでテキスト情報と同様の扱いをする
結果: 従来法より自然な対話音声合成を実現
本発表の概要
03/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
04/25
DNN音声合成: DNN音響モデルでテキストから音声を合成する
共感とは:
FastSpeech2 (FS2): [Ren+21]
pitch, energy を明示的にモデル化
Encoder-Decoder 型
非自己回帰型モデルで高速
本研究のベースモデル
DNN音声合成
Pythonで学ぶ音声合成 機械学習実践シリーズ: 山本, 高道 05/25
全体図:
Encoder-Decoder 型モデルで利用可能なアーキテクチャ
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20 06/25
Step1: 対話履歴のテキスト情報を BERT を用いて embedding とする
以降,これを Chat history と呼ぶ
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20 07/25
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20
Step2: Chat history を Conversational Context Encoder (CCE) へ入力し,音響モ
デルへ条件付ける
CCEでは過去の系列のみを圧縮している
08/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
09/25
提案法の動機
テキスト音声合成における,one-to-many 問題
例: どうしたの?
対話履歴の音声情報も考慮し,音声特徴量の推定を容易にしたい
テキスト情報・音声情報のクロスモーダルの活用
独立にテキストと音声を処理するのではなく,うまく組み合わせたい
10/25
テキスト情報・音声情報両方の利用
音声情報はメルスペクトログラムとして利用
Prosody encoder によりテキスト同様に音声を embedding として扱う
クロスモーダルを活かすための Attention 機構の導入
当該発話のテキスト情報を音声に活用するため Attention を導入
学習を容易にするための Curriculum Learning の導入
通常通りの一度での学習は困難であった
音響モデルは別途学習することで学習を容易にする工夫
提案法: テキスト・音声情報を利用した対話音声合成
11/25
対話履歴のテキスト・音声情報を Cross Modal CCE (CMCCE) へ入力し,出力され
た Context embedding を音響モデルへ条件づける
提案法: 全体図
合成対象(利用不可)
12/25
テキスト情報は Sentence BERT (従来法),音声情報は Prosody encoder へ入力
出力された Sentence/Prosody embedding を従来法と同様の CCE へ入力
提案法: Cross-Modal CCE
CCE
13/25
Prosody encoder (左図):
メルスペクトログラムから Prosody embedding を出力
Cross-Modal CCE w/ Attention (中央,右図):
Attention の query として用いることでテキスト情報を音声情報にも活用
提案法: Prosody encoder & Cross-Modal CCE w/ Attention
音声 テキスト
14/25
動機: 対話履歴を考慮した一度での学習の困難さ
パラメータ数を減らし学習を容易にするための工夫を導入
提案法: Curriculum Learning
15/25
Stage1: 当該発話の音声 (正解音声) の Prosody embedding によって FS2 を条件
付けし,Prosody encoder と FS2 を学習
提案法: Curriculum Learning
16/25
Stage2: 対話履歴を CCE によって Content embeding へと変換
Content embedding と Prosody embedding の間の MSE Loss を計算し学習
提案法: Curriculum Learning
17/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
18/25
実験的評価: 実験条件
データセット STUDIES [齋藤+22]
学習 / 検証 / 評価データ 2,209文 / 221文 / 211文
事前学習用データ JSUT [Takamichi+20]
音声パラメータ 80次元のメルスペクトログラム
最適化アルゴリズム Adam [Kingma+15] (学習率 0.0625)
音響モデル FastSpeech2 (FS2) [Ren+21]
波形生成 HiFi-GAN [Kong+20]
対話履歴の長さ 10 (テキスト情報はシチュエーション情報も含む )
Teacher forcing あり (対話履歴に用いた音声は,正解音声のもの )
比較手法 TMCCE: 従来法 [Guo+20].テキスト情報を用いたもの
SMCCE: 提案法1.音声情報のみ用いたもの
CMCCE: 提案法2.テキスト・音声情報を用いたもの
19/25
考慮する条件:
Attn: CCEにおいて,Attention を利用したもの.SM では利用できない
CL: Curriculum Learning の略
MS: Prosody encoder の事前学習を行ったかどうか
評価手法:
発話自然性: その発話が自然かどうかを5段階で評価
対話自然性: 一連の対話が自然なものであったかを5段階で評価
評価するべき手法の数が多かったため,2段階で評価を行った
評価方法
20/25
Step1: 各手法毎にMOS評価を行い,発話自然性と対話自然性の平均が最良の組
み合わせを選択した(太字)
評価者数: 50名 × 2 (発話・対話) × 3 (各手法) = 300名 (手法毎に4発話評価)
実験的評価: 各手法内での主観評価結果
21/25
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った
提案法2による従来法からの自然性の改善
実験的評価: 最良手法間での主観評価結果
http://sython.org/Corpus/STUDIES/demo_empTTS.html
(従来法)
(提案法1)
(提案法2)
(正解音声で条件付)
(従来法+CL)
(FastSpeech2)
22/25
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った
音声の対話履歴のみ(提案法1)でも従来法と同等の対話自然性を達成
実験的評価: 最良手法間での主観評価結果
http://sython.org/Corpus/STUDIES/demo_empTTS.html
(従来法)
(提案法1)
(提案法2)
(正解音声で条件付)
(従来法+CL)
(FastSpeech2)
23/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
24/25
目的: 共感的対話音声合成の品質改善
提案手法:
テキスト情報・音声情報両方の利用
クロスモーダルを活かすための Attention 機構の導入
学習を容易にするための Curriculum Learning の導入
結果: 従来法より自然な対話音声合成を実現
今後の予定:
発話単位の embedding から,文単位の embedding への変更
Prosody encoder の強化 (自己教師ありモデルの採用 e.g. Wav2vec2.0)
まとめ
25/25
1 of 26

More Related Content

What's hot(20)

音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi8.9K views
Saito2103slpSaito2103slp
Saito2103slp
Yuki Saito250 views
変調スペクトルを考慮したHMM音声合成変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成
奈良先端大 情報科学研究科6.9K views

More from Yuki Saito

hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
56 views21 slides
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
45 views25 slides

More from Yuki Saito(20)

hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito56 views
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito45 views
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito51 views
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito65 views
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito241 views
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
Yuki Saito172 views
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
Yuki Saito386 views
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
Yuki Saito696 views
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
Yuki Saito606 views
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito1.2K views
Saito19asj_sSaito19asj_s
Saito19asj_s
Yuki Saito500 views
Une18apsipaUne18apsipa
Une18apsipa
Yuki Saito427 views
Saito18sp03Saito18sp03
Saito18sp03
Yuki Saito1.1K views
Saito18asj_sSaito18asj_s
Saito18asj_s
Yuki Saito345 views
Saito17asjASaito17asjA
Saito17asjA
Yuki Saito576 views
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
Yuki Saito1.1K views
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
Yuki Saito556 views
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
Yuki Saito519 views

Nishimura22slp03 presentation