SlideShare a Scribd company logo
Submit Search
Upload
Nishimura22slp03 presentation
Report
Y
Yuki Saito
Follow
•
0 likes
•
299 views
1
of
26
Nishimura22slp03 presentation
•
0 likes
•
299 views
Download Now
Download to read offline
Report
Science
Presentation at SLP (Mar. 01, 2022)
Read more
Y
Yuki Saito
Follow
Recommended
Nakai22sp03 presentation
Yuki Saito
259 views
•
29 slides
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
743 views
•
4 slides
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
2.1K views
•
46 slides
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
14.1K views
•
43 slides
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
4K views
•
19 slides
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
1.6K views
•
34 slides
More Related Content
What's hot
音情報処理における特徴表現
NU_I_TODALAB
6.2K views
•
39 slides
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
1.3K views
•
17 slides
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
1.2K views
•
12 slides
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
952 views
•
73 slides
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
56.4K views
•
17 slides
音声合成のコーパスをつくろう
Shinnosuke Takamichi
8.9K views
•
20 slides
What's hot
(20)
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
•
1.3K views
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
•
1.2K views
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
952 views
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
•
56.4K views
音声合成のコーパスをつくろう
Shinnosuke Takamichi
•
8.9K views
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
•
2.9K views
深層学習を利用した音声強調
Yuma Koizumi
•
2K views
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
•
2.1K views
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
•
847 views
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
•
2.5K views
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
•
14.6K views
音声の声質を変換する技術とその応用
NU_I_TODALAB
•
8.9K views
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
•
1.5K views
Saito2103slp
Yuki Saito
•
250 views
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
•
919 views
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
•
16.1K views
変調スペクトルを考慮したHMM音声合成
奈良先端大 情報科学研究科
•
6.9K views
Neural text-to-speech and voice conversion
Yuki Saito
•
1.2K views
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
•
1.7K views
More from Yuki Saito
hirai23slp03.pdf
Yuki Saito
56 views
•
21 slides
fujii22apsipa_asc
Yuki Saito
45 views
•
25 slides
nakai22apsipa_presentation.pdf
Yuki Saito
51 views
•
20 slides
saito22research_talk_at_NUS
Yuki Saito
65 views
•
52 slides
Saito21asj Autumn Meeting
Yuki Saito
241 views
•
7 slides
Interspeech2020 reading
Yuki Saito
172 views
•
14 slides
More from Yuki Saito
(20)
hirai23slp03.pdf
Yuki Saito
•
56 views
fujii22apsipa_asc
Yuki Saito
•
45 views
nakai22apsipa_presentation.pdf
Yuki Saito
•
51 views
saito22research_talk_at_NUS
Yuki Saito
•
65 views
Saito21asj Autumn Meeting
Yuki Saito
•
241 views
Interspeech2020 reading
Yuki Saito
•
172 views
Saito20asj_autumn
Yuki Saito
•
386 views
ICASSP読み会2020
Yuki Saito
•
696 views
Saito20asj s slide_published
Yuki Saito
•
606 views
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
761 views
Saito19asj_s
Yuki Saito
•
500 views
Une18apsipa
Yuki Saito
•
427 views
Saito18sp03
Yuki Saito
•
1.1K views
Saito18asj_s
Yuki Saito
•
345 views
Saito17asjA
Yuki Saito
•
576 views
釧路高専情報工学科向け進学説明会
Yuki Saito
•
947 views
miyoshi17sp07
Yuki Saito
•
1.1K views
miyoshi2017asj
Yuki Saito
•
556 views
saito2017asj_tts
Yuki Saito
•
519 views
Nishimura22slp03 presentation
1.
第140回 音声言語情報処理研究会 (SIG-SLP) 西邑勇人1 ・齋藤佑樹1 ・高道慎之介1 ・橘健太郎2 ・猿渡洋1 1:
東京大学 2: LINE株式会社 対話履歴の韻律情報を考慮した共 感的対話音声合成
2.
対話とは: 向かい合って話し合うこと [デジタル大辞泉] タスク指向型対話:
ユーザーの要求に答えることが目的 例: 旅行案内,レストラン予約 非タスク指向型対話: コミュニケーションが目的 例: 雑談 共感とは: 相手の内側に入り込もうとする能動的な試み [Davis+18] ≠ 同調: 相手と感情を同一化する 研究背景 01/25
3.
共感的対話音声合成: [齋藤+22] 共感の主要素である,感情と韻律を音声合成に付与すること 対話相手との対話履歴を考慮し,次の応答に寄与する音声特徴量を推定 実現のためには: テキスト情報だけでなく音声情報も必要 (クロスモーダル) 人間は,対話の言語的・韻律的特徴から文脈を理解し応答する 研究背景 02/25 どうした? 先生,悲しいお知らせが
... なになに?
4.
従来法: 対話履歴のテキスト情報を用いた対話音声合成 [Guo+20] 対話履歴を
BERT に入力し embedding として音響モデルへ条件付け 問題点: テキスト情報のみの利用に留まる 音声のふるまいは考慮できない 提案法: テキスト・音声情報両方を用いた対話音声合成 テキスト情報は従来法と同様に利用 音声情報も embedding とすることでテキスト情報と同様の扱いをする 結果: 従来法より自然な対話音声合成を実現 本発表の概要 03/25
5.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 04/25
6.
DNN音声合成: DNN音響モデルでテキストから音声を合成する 共感とは: FastSpeech2 (FS2):
[Ren+21] pitch, energy を明示的にモデル化 Encoder-Decoder 型 非自己回帰型モデルで高速 本研究のベースモデル DNN音声合成 Pythonで学ぶ音声合成 機械学習実践シリーズ: 山本, 高道 05/25
7.
全体図: Encoder-Decoder 型モデルで利用可能なアーキテクチャ 従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20
06/25
8.
Step1: 対話履歴のテキスト情報を BERT
を用いて embedding とする 以降,これを Chat history と呼ぶ 従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20 07/25
9.
従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20 Step2: Chat
history を Conversational Context Encoder (CCE) へ入力し,音響モ デルへ条件付ける CCEでは過去の系列のみを圧縮している 08/25
10.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 09/25
11.
提案法の動機 テキスト音声合成における,one-to-many 問題 例: どうしたの? 対話履歴の音声情報も考慮し,音声特徴量の推定を容易にしたい テキスト情報・音声情報のクロスモーダルの活用 独立にテキストと音声を処理するのではなく,うまく組み合わせたい 10/25
12.
テキスト情報・音声情報両方の利用 音声情報はメルスペクトログラムとして利用 Prosody encoder によりテキスト同様に音声を
embedding として扱う クロスモーダルを活かすための Attention 機構の導入 当該発話のテキスト情報を音声に活用するため Attention を導入 学習を容易にするための Curriculum Learning の導入 通常通りの一度での学習は困難であった 音響モデルは別途学習することで学習を容易にする工夫 提案法: テキスト・音声情報を利用した対話音声合成 11/25
13.
対話履歴のテキスト・音声情報を Cross Modal
CCE (CMCCE) へ入力し,出力され た Context embedding を音響モデルへ条件づける 提案法: 全体図 合成対象(利用不可) 12/25
14.
テキスト情報は Sentence BERT
(従来法),音声情報は Prosody encoder へ入力 出力された Sentence/Prosody embedding を従来法と同様の CCE へ入力 提案法: Cross-Modal CCE CCE 13/25
15.
Prosody encoder (左図): メルスペクトログラムから
Prosody embedding を出力 Cross-Modal CCE w/ Attention (中央,右図): Attention の query として用いることでテキスト情報を音声情報にも活用 提案法: Prosody encoder & Cross-Modal CCE w/ Attention 音声 テキスト 14/25
16.
動機: 対話履歴を考慮した一度での学習の困難さ パラメータ数を減らし学習を容易にするための工夫を導入 提案法: Curriculum
Learning 15/25
17.
Stage1: 当該発話の音声 (正解音声)
の Prosody embedding によって FS2 を条件 付けし,Prosody encoder と FS2 を学習 提案法: Curriculum Learning 16/25
18.
Stage2: 対話履歴を CCE
によって Content embeding へと変換 Content embedding と Prosody embedding の間の MSE Loss を計算し学習 提案法: Curriculum Learning 17/25
19.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 18/25
20.
実験的評価: 実験条件 データセット STUDIES
[齋藤+22] 学習 / 検証 / 評価データ 2,209文 / 221文 / 211文 事前学習用データ JSUT [Takamichi+20] 音声パラメータ 80次元のメルスペクトログラム 最適化アルゴリズム Adam [Kingma+15] (学習率 0.0625) 音響モデル FastSpeech2 (FS2) [Ren+21] 波形生成 HiFi-GAN [Kong+20] 対話履歴の長さ 10 (テキスト情報はシチュエーション情報も含む ) Teacher forcing あり (対話履歴に用いた音声は,正解音声のもの ) 比較手法 TMCCE: 従来法 [Guo+20].テキスト情報を用いたもの SMCCE: 提案法1.音声情報のみ用いたもの CMCCE: 提案法2.テキスト・音声情報を用いたもの 19/25
21.
考慮する条件: Attn: CCEにおいて,Attention を利用したもの.SM
では利用できない CL: Curriculum Learning の略 MS: Prosody encoder の事前学習を行ったかどうか 評価手法: 発話自然性: その発話が自然かどうかを5段階で評価 対話自然性: 一連の対話が自然なものであったかを5段階で評価 評価するべき手法の数が多かったため,2段階で評価を行った 評価方法 20/25
22.
Step1: 各手法毎にMOS評価を行い,発話自然性と対話自然性の平均が最良の組 み合わせを選択した(太字) 評価者数: 50名
× 2 (発話・対話) × 3 (各手法) = 300名 (手法毎に4発話評価) 実験的評価: 各手法内での主観評価結果 21/25
23.
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った 提案法2による従来法からの自然性の改善 実験的評価:
最良手法間での主観評価結果 http://sython.org/Corpus/STUDIES/demo_empTTS.html (従来法) (提案法1) (提案法2) (正解音声で条件付) (従来法+CL) (FastSpeech2) 22/25
24.
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った 音声の対話履歴のみ(提案法1)でも従来法と同等の対話自然性を達成 実験的評価:
最良手法間での主観評価結果 http://sython.org/Corpus/STUDIES/demo_empTTS.html (従来法) (提案法1) (提案法2) (正解音声で条件付) (従来法+CL) (FastSpeech2) 23/25
25.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 24/25
26.
目的: 共感的対話音声合成の品質改善 提案手法: テキスト情報・音声情報両方の利用 クロスモーダルを活かすための Attention
機構の導入 学習を容易にするための Curriculum Learning の導入 結果: 従来法より自然な対話音声合成を実現 今後の予定: 発話単位の embedding から,文単位の embedding への変更 Prosody encoder の強化 (自己教師ありモデルの採用 e.g. Wav2vec2.0) まとめ 25/25