モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

Shinnosuke Takamichi
Shinnosuke TakamichiThe University of Tokyo - Project Research Associate
12/10/2018©Hiroki Tamaru,
The University of Tokyo
モーメントマッチングに基づく
DNN合成歌声のランダム変調ポストフィルタと
ニューラルダブルトラッキングへの応用
田丸 浩気1,齋藤 佑樹1 ,高道 慎之介1 ,郡山 知樹2,猿渡 洋1
(1東京大学,2東京工業大学)
SLP 研究会 (2018/12/10)
/23
研究背景
 歌声合成技術
– ユーザの性別・歌唱技量に関係なく歌声を製作でき,盛んに利用
– deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]
 従来の歌声合成の限界と我々のアプローチ
– 人間の歌声は,歌唱ごとに歌いまわしが異なる
• 豊かな音楽体験 (コンサートの臨場感,複数テイクの取捨選択)
– 歌声合成は,発話間変動を欠く
• 合成過程が決定論的なため,同一楽譜からは単一の歌声のみ生成
– 歌声合成にランダム性を持たせたい
2
Noise
Current system
Noise
Our approachHuman
/23
Double-tracking (DT) への応用
 Double-tracking (DT)
– 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる
– 発話間変動のない合成歌声の場合,不可能
 Artificial double-tracking (ADT)
– 歌声を信号処理的に変調して原音にミックスする代替法
– 厚みは出るが,不自然な聴覚的印象になってしまう
3自然な DT に近い手法を作りたい
Double-tracking
(DT)
Artificial Double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Synthesize
once
Signal
processing
Synthesize
once
GMMN
post-filter
Mix Mix Mix
/23
発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
– DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習
– ADT: ピッチ系列を信号処理的に変調して原音にミックス
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
– 合成歌声のピッチ系列を generative moment matching network
(GMMN) に基づきランダムに変調
– ポストフィルタを利用して自然な重ね録り感を再現
 実験結果
– 合成歌声の自然性を損なわずに,知覚できる水準の発話間変動を生成
– NDT は ADT より自然な DT に近い
4
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実験的評価 (変動の知覚,自然性,重ね録り感)
 まとめと今後の予定
5
/23
DNN 歌声合成
6
[Nishimura+, 2016]
最小二乗誤差規範の学習・生成が行われるため,
同一楽譜からは単一の歌声パラメータが出力される
コンテキスト 音声特徴量
𝑡 = 1
𝑡 = 2
𝑡 = 𝑇
言語
コンテキスト
音楽
コンテキスト
楽譜
…
…
…
DNN
スペクトル
連続F0
有声/無声
Mean squared
error
歌声
/23
Artificial double-tracking (ADT)
 原音と変調音をミックスして,厚みを持たせる
– 原音のピッチ系列 + 正弦波 = 変調ピッチ系列
– 変調音は,遅延(遅らせる)・ゲイン(音量を下げる)処理を行う
7
Pitch(1が半音)
*変調を明瞭に
表示するため,
正弦波の振幅は
実際の値より
大きく設定して
いる
Time [s]
位相の似た2音のミックスに起因する,不自然な音が生じる
原音
変調音
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実験的評価 (変動の知覚,自然性,重ね録り感)
 まとめと今後の予定
8
/23
GMMN に基づくポストフィルタ
9
 F0セグメントのゆらぎを統計的にモデル化
– 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016]
– 変調スペクトルの条件付き分布を GMMN でモデル化
STFT
GMMN
変調スペクトル
位相
ISTFT
ポストフィルタ
ランダムノイズ
楽譜 DNN 歌声合成 ピッチ系列 新しいピッチ系列
*STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
/23
 ピッチ系列の連続性を考慮した処理
– 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う
変調スペクトル (Modulation spectrum: MS)
10
フレームごとの処理と異なり,不連続性の問題が発生しない
変調周波数
セグメント
低次
連続ピッチ系列
STFT,
対数振幅
計算
1 2 3 4 5 6 7
1 2 3 4 5 6 7
…
…
…
0 次
変調スペクトル
系列
セグメント
/23
 条件付き GMMN [Ren+, 2016]
– ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換
– 入力条件下で,出力とターゲットのモーメントを揃えるよう学習
– 生成時: ターゲット分布に基づき,値をランダムサンプリング
GMMN に基づくパラメータサンプリング
11
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯
⋯
ランダムノイズ
モーメントを
揃える
条件
出力 ターゲット
/23
提案ポストフィルタの Schematic diagram
12
⋯
合成ピッチ系列 自然ピッチ系列
STFT位相 STFT
𝒚
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯ 𝑺 𝒚
⋯
ランダムノイズ
ISTFT
𝑺 𝒚𝑺 𝒚
変動ピッチ系列
𝒔 𝒚(1) 𝒔 𝒚(𝑇′)𝒔 𝒚(1) 𝒔 𝒚(𝑇′)
𝒚
合成 MS
変動 MS 自然 MS
モーメントを
揃える
/23
Generated F0
13
*MSE: Mean Squared Error
う さ
ぎ
う
さ
ぎ
Pitch(1が半音)
Time [s]
MSE
Post-filtered (4 lines)
童謡「うさぎ」の一節
/23
 ADT における信号処理的変調の替わりに,提案ポストフィルタを使用
Neural double-tracking (NDT)
14
楽譜 DNN 歌声合成
スペクトル
有声/無声
「自然な重ね録り感」を人工的に付与して
厚みのあるボーカルを生成する歌声変調技術
ポストフィルタ
F0 F0’
vocoding vocoding
遅延・ゲイン
処理
NDT 音原音 変調音
/23
考察
 不連続性の問題を回避
– フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で,
ポストフィルタによる不連続音の発生を回避
 ランダム性の保存
– ランダムノイズを保存することで,セグメント毎のランダム変調を
保存可能
 NDTによる自然な重ね録り感の再現
– 従来の ADT で発生していた不自然な重ね録り感を緩和
15
1
𝒏 𝟏
2
𝒏 𝟐
3
𝒏 𝟑
4
𝒏 𝟒
5
𝒏 𝟓
6
𝒏 𝟔
7
𝒏 𝟕
…
…
ノイズ
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実験的評価 (変動の知覚,自然性,重ね録り感)
 まとめと今後の予定
16
/23
実験条件
17
歌声合成の学習データ HTS 28曲,JSUT-song 23曲,in-house データ 7曲
*トランスポーズによる,3倍のデータ拡張
ポストフィルタの学習データ HTS 28曲
テストデータ HTS 3曲
サンプリング周波数 16 kHz
音声特徴量抽出・波形合成 WORLD [Morise+, 2016]
コンテキスト特徴量 705次元 (言語・音楽特徴量,歌手・曲コード)
音声特徴量 127次元 (メルケプストラム,連続対数𝐹0 など)
MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms
フィルタリングの対象 1次のMS
ノイズ 10次元,一様分布
歌声合成 DNN・
ポストフィルタ GMMN
Feed-forward (詳細は論文参照)
GMMN はガウシアンカーネルを使用
/23
実験条件 (cont’d)
 評価方法
– クラウドソーシングサービス上で,25人を対象に主観評価
 時間長条件
– 実験内容ごとに,評価を容易にするため,提示サンプルの長さを変更
– フレーズ的にキリの良い位置で手動分割
 その他
– ピッチのみを評価するため,他のパラメータは自然音声のものを使用
18
条件 平均時間長 評価内容
Short 3.01 s 変動の知覚
Middle 4.88 s 自然性,重ね録り感
Long 10.24 s 自然性,重ね録り感
S うさぎうさぎ
S 何見て跳ねる
S 十五夜お月様
S 見て跳ねる
M
M
L
童謡「うさぎ」の例
/23
発話間変動の知覚
 音声の対を聴き,違いがあると感じたかを質問
 提案条件10対と対照条件10対をランダムな順序で混ぜておく
– 提案条件
• ポストフィルタでランダム変調した 2 つの合成歌声
– 対照条件
• ポストフィルタをかけていない,同一の合成歌声
 結果 (発話間変動を知覚したと回答した率)
19
提案 対照 𝑝 値 (ウェルチの 𝑡 検定)
𝟎. 𝟐𝟕𝟔 0.176 7.45 × 10−3
知覚可能な発話間変動を生成可能
/23
合成歌声の自然性
 提案条件・従来条件の対を10対聴き,より自然な方を選択
– 提案条件: ポストフィルタをかけた歌声
– 従来条件: ポストフィルタをかけていない歌声
 結果 (自然性の評価スコア)
20
時間長条件 提案条件 従来条件 𝑝 値
Middle 0.504 0.496 8.58 × 10−1
Long 0.480 0.520 3.72 × 10−1
ポストフィルタによる有意な自然性の低下は見られない
/23
NDTの重ね録り感
 提案条件・従来条件の対を10対聴き,より「実際に多重録音
したように聴こえる」方を選択
– 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス
– 従来条件 (ADT): ピッチを正弦波変調した歌声を原音にミックス
 結果 (重ね録り感の評価スコア)
21
時間長条件 NDT ADT 𝑝 値
Middle 𝟎. 𝟕𝟐𝟒 0.276 < 10−10
Long 𝟎. 𝟕𝟑𝟔 0.264 < 10−10
提案する NDT の方が,自然な DT に近い聴覚的印象を実現
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実験的評価 (変動の知覚,自然性,重ね録り感)
 まとめと今後の予定
22
/23
まとめと今後の予定
 背景
– DNN 歌声合成にランダム性を付与したい
– ADT よりも DT に近い人工的手法を作りたい
 提案法
– GMMN に基づくランダム変調ポストフィルタ,NDT への応用
 評価結果
– 合成歌声の自然性を損なわずに,知覚できる発話間変動を生成
– NDT は従来の ADT より自然な DT に近い
 今後の予定
– スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張
– 自然音声を入力とするポストフィルタへの拡張
23
/23
付録: DT, ADT, and NDT
Double-tracking
(DT)
Artificial Double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Synthesize
once
Signal
processing
Synthesize
once
GMMN
post-filter
Mix Mix Mix
波形 周期 深さ
正弦波 0.775 Hz 10 cent (半音の 10%)
遅延 ゲイン
20 ms -3 dB
ADT の変調条件
ADT・NDT の条件
(変調音に対する処理)
1 of 24

Recommended

ユーザ歌唱のための generative moment matching network に基づく neural double-tracking by
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
437 views15 slides
高効率音声符号化―MP3詳解― by
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―Akinori Ito
14.6K views56 slides
音情報処理における特徴表現 by
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
6.2K views39 slides
MP3と音声圧縮(simple) by
MP3と音声圧縮(simple)MP3と音声圧縮(simple)
MP3と音声圧縮(simple)Kiminobu Nishimura
4K views16 slides
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
1K views22 slides
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION by
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
1.5K views18 slides

More Related Content

What's hot

ICASSP 2019での音響信号処理分野の世界動向 by
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
4.6K views44 slides
Moment matching networkを用いた音声パラメータのランダム生成の検討 by
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
16.1K views13 slides
pyssp by
pyssppyssp
pysspShunsuke Aihara
5.3K views9 slides
ICASSP2019論文読み会_PHASEBOOK by
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKAtsushi_Ando
2.1K views28 slides
WaveNetが音声合成研究に与える影響 by
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
14.1K views43 slides
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元 by
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
919 views17 slides

What's hot(20)

ICASSP 2019での音響信号処理分野の世界動向 by Yuma Koizumi
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi4.6K views
Moment matching networkを用いた音声パラメータのランダム生成の検討 by Shinnosuke Takamichi
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi16.1K views
ICASSP2019論文読み会_PHASEBOOK by Atsushi_Ando
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
Atsushi_Ando2.1K views
WaveNetが音声合成研究に与える影響 by NU_I_TODALAB
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB14.1K views
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元 by NU_I_TODALAB
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB919 views
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 by Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” by Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
統計的手法に基づく異常音検知の理論と応用 by Yuma Koizumi
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi6.1K views
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築” by Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
音声認識の基礎 by Akinori Ito
音声認識の基礎音声認識の基礎
音声認識の基礎
Akinori Ito35.9K views
saito2017asj_tts by Yuki Saito
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
Yuki Saito519 views
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding by Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用 by Shinnosuke Takamichi
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
saito2017asj_vc by Yuki Saito
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
Yuki Saito698 views
67-S語表単音節語音に対する雑音負荷の試み by TeruKamogashira
67-S語表単音節語音に対する雑音負荷の試み67-S語表単音節語音に対する雑音負荷の試み
67-S語表単音節語音に対する雑音負荷の試み
TeruKamogashira295 views
多地点における 高品質な遠隔合唱の実現 by Takashi Kishida
多地点における高品質な遠隔合唱の実現多地点における高品質な遠隔合唱の実現
多地点における 高品質な遠隔合唱の実現
Takashi Kishida470 views
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
実環境音響信号処理における収音技術 by Yuma Koizumi
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi2.1K views
Nakai22sp03 presentation by Yuki Saito
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito259 views

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス by
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
1.4K views15 slides
音声合成のコーパスをつくろう by
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
8.9K views20 slides
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス by
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
743 views4 slides
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
1K views37 slides
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法 by
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
1.2K views44 slides
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム) by
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
1.6K views34 slides

More from Shinnosuke Takamichi(20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス by Shinnosuke Takamichi
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス by Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法 by Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム) by Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ... by Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価 by Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス by Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価 by Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン by Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming by Shinnosuke Takamichi
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus by Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages by Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価 by Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス by Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定 by Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って by Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割 by Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割

Recently uploaded

JJUG CCC.pptx by
JJUG CCC.pptxJJUG CCC.pptx
JJUG CCC.pptxKanta Sasaki
6 views14 slides
SNMPセキュリティ超入門 by
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門mkoda
188 views15 slides
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
17 views38 slides
Web3 Career_クレデン資料 .pdf by
Web3 Career_クレデン資料 .pdfWeb3 Career_クレデン資料 .pdf
Web3 Career_クレデン資料 .pdfnanamatsuo
14 views9 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
12 views34 slides
さくらのひやおろし2023 by
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023法林浩之
94 views58 slides

Recently uploaded(11)

SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda188 views
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
Web3 Career_クレデン資料 .pdf by nanamatsuo
Web3 Career_クレデン資料 .pdfWeb3 Career_クレデン資料 .pdf
Web3 Career_クレデン資料 .pdf
nanamatsuo14 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之94 views
The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.50 views
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka76 views
01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172345 views
SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4184 views
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

  • 1. 12/10/2018©Hiroki Tamaru, The University of Tokyo モーメントマッチングに基づく DNN合成歌声のランダム変調ポストフィルタと ニューラルダブルトラッキングへの応用 田丸 浩気1,齋藤 佑樹1 ,高道 慎之介1 ,郡山 知樹2,猿渡 洋1 (1東京大学,2東京工業大学) SLP 研究会 (2018/12/10)
  • 2. /23 研究背景  歌声合成技術 – ユーザの性別・歌唱技量に関係なく歌声を製作でき,盛んに利用 – deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]  従来の歌声合成の限界と我々のアプローチ – 人間の歌声は,歌唱ごとに歌いまわしが異なる • 豊かな音楽体験 (コンサートの臨場感,複数テイクの取捨選択) – 歌声合成は,発話間変動を欠く • 合成過程が決定論的なため,同一楽譜からは単一の歌声のみ生成 – 歌声合成にランダム性を持たせたい 2 Noise Current system Noise Our approachHuman
  • 3. /23 Double-tracking (DT) への応用  Double-tracking (DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 発話間変動のない合成歌声の場合,不可能  Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 3自然な DT に近い手法を作りたい Double-tracking (DT) Artificial Double- tracking (ADT) Neural double- tracking (proposed) Sing twice Synthesize once Signal processing Synthesize once GMMN post-filter Mix Mix Mix
  • 4. /23 発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT) – DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習 – ADT: ピッチ系列を信号処理的に変調して原音にミックス  提案法: GMMN ポストフィルタと neural double-tracking (NDT) – 合成歌声のピッチ系列を generative moment matching network (GMMN) に基づきランダムに変調 – ポストフィルタを利用して自然な重ね録り感を再現  実験結果 – 合成歌声の自然性を損なわずに,知覚できる水準の発話間変動を生成 – NDT は ADT より自然な DT に近い 4
  • 5. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 5
  • 6. /23 DNN 歌声合成 6 [Nishimura+, 2016] 最小二乗誤差規範の学習・生成が行われるため, 同一楽譜からは単一の歌声パラメータが出力される コンテキスト 音声特徴量 𝑡 = 1 𝑡 = 2 𝑡 = 𝑇 言語 コンテキスト 音楽 コンテキスト 楽譜 … … … DNN スペクトル 連続F0 有声/無声 Mean squared error 歌声
  • 7. /23 Artificial double-tracking (ADT)  原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 – 変調音は,遅延(遅らせる)・ゲイン(音量を下げる)処理を行う 7 Pitch(1が半音) *変調を明瞭に 表示するため, 正弦波の振幅は 実際の値より 大きく設定して いる Time [s] 位相の似た2音のミックスに起因する,不自然な音が生じる 原音 変調音
  • 8. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 8
  • 9. /23 GMMN に基づくポストフィルタ 9  F0セグメントのゆらぎを統計的にモデル化 – 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016] – 変調スペクトルの条件付き分布を GMMN でモデル化 STFT GMMN 変調スペクトル 位相 ISTFT ポストフィルタ ランダムノイズ 楽譜 DNN 歌声合成 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
  • 10. /23  ピッチ系列の連続性を考慮した処理 – 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う 変調スペクトル (Modulation spectrum: MS) 10 フレームごとの処理と異なり,不連続性の問題が発生しない 変調周波数 セグメント 低次 連続ピッチ系列 STFT, 対数振幅 計算 1 2 3 4 5 6 7 1 2 3 4 5 6 7 … … … 0 次 変調スペクトル 系列 セグメント
  • 11. /23  条件付き GMMN [Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 入力条件下で,出力とターゲットのモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 11 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ ⋯ ランダムノイズ モーメントを 揃える 条件 出力 ターゲット
  • 12. /23 提案ポストフィルタの Schematic diagram 12 ⋯ 合成ピッチ系列 自然ピッチ系列 STFT位相 STFT 𝒚 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺 𝒚 ⋯ ランダムノイズ ISTFT 𝑺 𝒚𝑺 𝒚 変動ピッチ系列 𝒔 𝒚(1) 𝒔 𝒚(𝑇′)𝒔 𝒚(1) 𝒔 𝒚(𝑇′) 𝒚 合成 MS 変動 MS 自然 MS モーメントを 揃える
  • 13. /23 Generated F0 13 *MSE: Mean Squared Error う さ ぎ う さ ぎ Pitch(1が半音) Time [s] MSE Post-filtered (4 lines) 童謡「うさぎ」の一節
  • 14. /23  ADT における信号処理的変調の替わりに,提案ポストフィルタを使用 Neural double-tracking (NDT) 14 楽譜 DNN 歌声合成 スペクトル 有声/無声 「自然な重ね録り感」を人工的に付与して 厚みのあるボーカルを生成する歌声変調技術 ポストフィルタ F0 F0’ vocoding vocoding 遅延・ゲイン 処理 NDT 音原音 変調音
  • 15. /23 考察  不連続性の問題を回避 – フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で, ポストフィルタによる不連続音の発生を回避  ランダム性の保存 – ランダムノイズを保存することで,セグメント毎のランダム変調を 保存可能  NDTによる自然な重ね録り感の再現 – 従来の ADT で発生していた不自然な重ね録り感を緩和 15 1 𝒏 𝟏 2 𝒏 𝟐 3 𝒏 𝟑 4 𝒏 𝟒 5 𝒏 𝟓 6 𝒏 𝟔 7 𝒏 𝟕 … … ノイズ
  • 16. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 16
  • 17. /23 実験条件 17 歌声合成の学習データ HTS 28曲,JSUT-song 23曲,in-house データ 7曲 *トランスポーズによる,3倍のデータ拡張 ポストフィルタの学習データ HTS 28曲 テストデータ HTS 3曲 サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] コンテキスト特徴量 705次元 (言語・音楽特徴量,歌手・曲コード) 音声特徴量 127次元 (メルケプストラム,連続対数𝐹0 など) MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms フィルタリングの対象 1次のMS ノイズ 10次元,一様分布 歌声合成 DNN・ ポストフィルタ GMMN Feed-forward (詳細は論文参照) GMMN はガウシアンカーネルを使用
  • 18. /23 実験条件 (cont’d)  評価方法 – クラウドソーシングサービス上で,25人を対象に主観評価  時間長条件 – 実験内容ごとに,評価を容易にするため,提示サンプルの長さを変更 – フレーズ的にキリの良い位置で手動分割  その他 – ピッチのみを評価するため,他のパラメータは自然音声のものを使用 18 条件 平均時間長 評価内容 Short 3.01 s 変動の知覚 Middle 4.88 s 自然性,重ね録り感 Long 10.24 s 自然性,重ね録り感 S うさぎうさぎ S 何見て跳ねる S 十五夜お月様 S 見て跳ねる M M L 童謡「うさぎ」の例
  • 19. /23 発話間変動の知覚  音声の対を聴き,違いがあると感じたかを質問  提案条件10対と対照条件10対をランダムな順序で混ぜておく – 提案条件 • ポストフィルタでランダム変調した 2 つの合成歌声 – 対照条件 • ポストフィルタをかけていない,同一の合成歌声  結果 (発話間変動を知覚したと回答した率) 19 提案 対照 𝑝 値 (ウェルチの 𝑡 検定) 𝟎. 𝟐𝟕𝟔 0.176 7.45 × 10−3 知覚可能な発話間変動を生成可能
  • 20. /23 合成歌声の自然性  提案条件・従来条件の対を10対聴き,より自然な方を選択 – 提案条件: ポストフィルタをかけた歌声 – 従来条件: ポストフィルタをかけていない歌声  結果 (自然性の評価スコア) 20 時間長条件 提案条件 従来条件 𝑝 値 Middle 0.504 0.496 8.58 × 10−1 Long 0.480 0.520 3.72 × 10−1 ポストフィルタによる有意な自然性の低下は見られない
  • 21. /23 NDTの重ね録り感  提案条件・従来条件の対を10対聴き,より「実際に多重録音 したように聴こえる」方を選択 – 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス – 従来条件 (ADT): ピッチを正弦波変調した歌声を原音にミックス  結果 (重ね録り感の評価スコア) 21 時間長条件 NDT ADT 𝑝 値 Middle 𝟎. 𝟕𝟐𝟒 0.276 < 10−10 Long 𝟎. 𝟕𝟑𝟔 0.264 < 10−10 提案する NDT の方が,自然な DT に近い聴覚的印象を実現
  • 22. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 22
  • 23. /23 まとめと今後の予定  背景 – DNN 歌声合成にランダム性を付与したい – ADT よりも DT に近い人工的手法を作りたい  提案法 – GMMN に基づくランダム変調ポストフィルタ,NDT への応用  評価結果 – 合成歌声の自然性を損なわずに,知覚できる発話間変動を生成 – NDT は従来の ADT より自然な DT に近い  今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 – 自然音声を入力とするポストフィルタへの拡張 23
  • 24. /23 付録: DT, ADT, and NDT Double-tracking (DT) Artificial Double- tracking (ADT) Neural double- tracking (proposed) Sing twice Synthesize once Signal processing Synthesize once GMMN post-filter Mix Mix Mix 波形 周期 深さ 正弦波 0.775 Hz 10 cent (半音の 10%) 遅延 ゲイン 20 ms -3 dB ADT の変調条件 ADT・NDT の条件 (変調音に対する処理)