SlideShare a Scribd company logo
1 of 24
Download to read offline
12/10/2018©Hiroki Tamaru,
The University of Tokyo
モーメントマッチングに基づく
DNN合成歌声のランダム変調ポストフィルタと
ニューラルダブルトラッキングへの応用
田丸 浩気1,齋藤 佑樹1 ,高道 慎之介1 ,郡山 知樹2,猿渡 洋1
(1東京大学,2東京工業大学)
SLP 研究会 (2018/12/10)
/23
研究背景
 歌声合成技術
– ユーザの性別・歌唱技量に関係なく歌声を製作でき,盛んに利用
– deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]
 従来の歌声合成の限界と我々のアプローチ
– 人間の歌声は,歌唱ごとに歌いまわしが異なる
• 豊かな音楽体験 (コンサートの臨場感,複数テイクの取捨選択)
– 歌声合成は,発話間変動を欠く
• 合成過程が決定論的なため,同一楽譜からは単一の歌声のみ生成
– 歌声合成にランダム性を持たせたい
2
Noise
Current system
Noise
Our approachHuman
/23
Double-tracking (DT) への応用
 Double-tracking (DT)
– 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる
– 発話間変動のない合成歌声の場合,不可能
 Artificial double-tracking (ADT)
– 歌声を信号処理的に変調して原音にミックスする代替法
– 厚みは出るが,不自然な聴覚的印象になってしまう
3自然な DT に近い手法を作りたい
Double-tracking
(DT)
Artificial Double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Synthesize
once
Signal
processing
Synthesize
once
GMMN
post-filter
Mix Mix Mix
/23
発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
– DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習
– ADT: ピッチ系列を信号処理的に変調して原音にミックス
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
– 合成歌声のピッチ系列を generative moment matching network
(GMMN) に基づきランダムに変調
– ポストフィルタを利用して自然な重ね録り感を再現
 実験結果
– 合成歌声の自然性を損なわずに,知覚できる水準の発話間変動を生成
– NDT は ADT より自然な DT に近い
4
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実験的評価 (変動の知覚,自然性,重ね録り感)
 まとめと今後の予定
5
/23
DNN 歌声合成
6
[Nishimura+, 2016]
最小二乗誤差規範の学習・生成が行われるため,
同一楽譜からは単一の歌声パラメータが出力される
コンテキスト 音声特徴量
𝑡 = 1
𝑡 = 2
𝑡 = 𝑇
言語
コンテキスト
音楽
コンテキスト
楽譜
…
…
…
DNN
スペクトル
連続F0
有声/無声
Mean squared
error
歌声
/23
Artificial double-tracking (ADT)
 原音と変調音をミックスして,厚みを持たせる
– 原音のピッチ系列 + 正弦波 = 変調ピッチ系列
– 変調音は,遅延(遅らせる)・ゲイン(音量を下げる)処理を行う
7
Pitch(1が半音)
*変調を明瞭に
表示するため,
正弦波の振幅は
実際の値より
大きく設定して
いる
Time [s]
位相の似た2音のミックスに起因する,不自然な音が生じる
原音
変調音
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実験的評価 (変動の知覚,自然性,重ね録り感)
 まとめと今後の予定
8
/23
GMMN に基づくポストフィルタ
9
 F0セグメントのゆらぎを統計的にモデル化
– 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016]
– 変調スペクトルの条件付き分布を GMMN でモデル化
STFT
GMMN
変調スペクトル
位相
ISTFT
ポストフィルタ
ランダムノイズ
楽譜 DNN 歌声合成 ピッチ系列 新しいピッチ系列
*STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
/23
 ピッチ系列の連続性を考慮した処理
– 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う
変調スペクトル (Modulation spectrum: MS)
10
フレームごとの処理と異なり,不連続性の問題が発生しない
変調周波数
セグメント
低次
連続ピッチ系列
STFT,
対数振幅
計算
1 2 3 4 5 6 7
1 2 3 4 5 6 7
…
…
…
0 次
変調スペクトル
系列
セグメント
/23
 条件付き GMMN [Ren+, 2016]
– ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換
– 入力条件下で,出力とターゲットのモーメントを揃えるよう学習
– 生成時: ターゲット分布に基づき,値をランダムサンプリング
GMMN に基づくパラメータサンプリング
11
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯
⋯
ランダムノイズ
モーメントを
揃える
条件
出力 ターゲット
/23
提案ポストフィルタの Schematic diagram
12
⋯
合成ピッチ系列 自然ピッチ系列
STFT位相 STFT
𝒚
⋯
⋯
⋯
⋯
⋯
⋯
⋯
𝑈[−𝟏, 𝟏)
⋯
⋯
⋯ 𝑺 𝒚
⋯
ランダムノイズ
ISTFT
𝑺 𝒚𝑺 𝒚
変動ピッチ系列
𝒔 𝒚(1) 𝒔 𝒚(𝑇′)𝒔 𝒚(1) 𝒔 𝒚(𝑇′)
𝒚
合成 MS
変動 MS 自然 MS
モーメントを
揃える
/23
Generated F0
13
*MSE: Mean Squared Error
う さ
ぎ
う
さ
ぎ
Pitch(1が半音)
Time [s]
MSE
Post-filtered (4 lines)
童謡「うさぎ」の一節
/23
 ADT における信号処理的変調の替わりに,提案ポストフィルタを使用
Neural double-tracking (NDT)
14
楽譜 DNN 歌声合成
スペクトル
有声/無声
「自然な重ね録り感」を人工的に付与して
厚みのあるボーカルを生成する歌声変調技術
ポストフィルタ
F0 F0’
vocoding vocoding
遅延・ゲイン
処理
NDT 音原音 変調音
/23
考察
 不連続性の問題を回避
– フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で,
ポストフィルタによる不連続音の発生を回避
 ランダム性の保存
– ランダムノイズを保存することで,セグメント毎のランダム変調を
保存可能
 NDTによる自然な重ね録り感の再現
– 従来の ADT で発生していた不自然な重ね録り感を緩和
15
1
𝒏 𝟏
2
𝒏 𝟐
3
𝒏 𝟑
4
𝒏 𝟒
5
𝒏 𝟓
6
𝒏 𝟔
7
𝒏 𝟕
…
…
ノイズ
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実験的評価 (変動の知覚,自然性,重ね録り感)
 まとめと今後の予定
16
/23
実験条件
17
歌声合成の学習データ HTS 28曲,JSUT-song 23曲,in-house データ 7曲
*トランスポーズによる,3倍のデータ拡張
ポストフィルタの学習データ HTS 28曲
テストデータ HTS 3曲
サンプリング周波数 16 kHz
音声特徴量抽出・波形合成 WORLD [Morise+, 2016]
コンテキスト特徴量 705次元 (言語・音楽特徴量,歌手・曲コード)
音声特徴量 127次元 (メルケプストラム,連続対数𝐹0 など)
MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms
フィルタリングの対象 1次のMS
ノイズ 10次元,一様分布
歌声合成 DNN・
ポストフィルタ GMMN
Feed-forward (詳細は論文参照)
GMMN はガウシアンカーネルを使用
/23
実験条件 (cont’d)
 評価方法
– クラウドソーシングサービス上で,25人を対象に主観評価
 時間長条件
– 実験内容ごとに,評価を容易にするため,提示サンプルの長さを変更
– フレーズ的にキリの良い位置で手動分割
 その他
– ピッチのみを評価するため,他のパラメータは自然音声のものを使用
18
条件 平均時間長 評価内容
Short 3.01 s 変動の知覚
Middle 4.88 s 自然性,重ね録り感
Long 10.24 s 自然性,重ね録り感
S うさぎうさぎ
S 何見て跳ねる
S 十五夜お月様
S 見て跳ねる
M
M
L
童謡「うさぎ」の例
/23
発話間変動の知覚
 音声の対を聴き,違いがあると感じたかを質問
 提案条件10対と対照条件10対をランダムな順序で混ぜておく
– 提案条件
• ポストフィルタでランダム変調した 2 つの合成歌声
– 対照条件
• ポストフィルタをかけていない,同一の合成歌声
 結果 (発話間変動を知覚したと回答した率)
19
提案 対照 𝑝 値 (ウェルチの 𝑡 検定)
𝟎. 𝟐𝟕𝟔 0.176 7.45 × 10−3
知覚可能な発話間変動を生成可能
/23
合成歌声の自然性
 提案条件・従来条件の対を10対聴き,より自然な方を選択
– 提案条件: ポストフィルタをかけた歌声
– 従来条件: ポストフィルタをかけていない歌声
 結果 (自然性の評価スコア)
20
時間長条件 提案条件 従来条件 𝑝 値
Middle 0.504 0.496 8.58 × 10−1
Long 0.480 0.520 3.72 × 10−1
ポストフィルタによる有意な自然性の低下は見られない
/23
NDTの重ね録り感
 提案条件・従来条件の対を10対聴き,より「実際に多重録音
したように聴こえる」方を選択
– 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス
– 従来条件 (ADT): ピッチを正弦波変調した歌声を原音にミックス
 結果 (重ね録り感の評価スコア)
21
時間長条件 NDT ADT 𝑝 値
Middle 𝟎. 𝟕𝟐𝟒 0.276 < 10−10
Long 𝟎. 𝟕𝟑𝟔 0.264 < 10−10
提案する NDT の方が,自然な DT に近い聴覚的印象を実現
/23
目次
 研究背景・発表概要
 従来法: DNN 歌声合成と artificial double-tracking (ADT)
 提案法: GMMN ポストフィルタと neural double-tracking (NDT)
 実験的評価 (変動の知覚,自然性,重ね録り感)
 まとめと今後の予定
22
/23
まとめと今後の予定
 背景
– DNN 歌声合成にランダム性を付与したい
– ADT よりも DT に近い人工的手法を作りたい
 提案法
– GMMN に基づくランダム変調ポストフィルタ,NDT への応用
 評価結果
– 合成歌声の自然性を損なわずに,知覚できる発話間変動を生成
– NDT は従来の ADT より自然な DT に近い
 今後の予定
– スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張
– 自然音声を入力とするポストフィルタへの拡張
23
/23
付録: DT, ADT, and NDT
Double-tracking
(DT)
Artificial Double-
tracking (ADT)
Neural double-
tracking (proposed)
Sing
twice
Synthesize
once
Signal
processing
Synthesize
once
GMMN
post-filter
Mix Mix Mix
波形 周期 深さ
正弦波 0.775 Hz 10 cent (半音の 10%)
遅延 ゲイン
20 ms -3 dB
ADT の変調条件
ADT・NDT の条件
(変調音に対する処理)

More Related Content

What's hot

ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKAtsushi_Ando
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用Shinnosuke Takamichi
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”Shinnosuke Takamichi
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Shinnosuke Takamichi
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vcYuki Saito
 
67-S語表単音節語音に対する雑音負荷の試み
67-S語表単音節語音に対する雑音負荷の試み67-S語表単音節語音に対する雑音負荷の試み
67-S語表単音節語音に対する雑音負荷の試みTeruKamogashira
 
多地点における 高品質な遠隔合唱の実現
多地点における高品質な遠隔合唱の実現多地点における高品質な遠隔合唱の実現
多地点における 高品質な遠隔合唱の実現Takashi Kishida
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 

What's hot (20)

ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
pyssp
pyssppyssp
pyssp
 
ICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOKICASSP2019論文読み会_PHASEBOOK
ICASSP2019論文読み会_PHASEBOOK
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
67-S語表単音節語音に対する雑音負荷の試み
67-S語表単音節語音に対する雑音負荷の試み67-S語表単音節語音に対する雑音負荷の試み
67-S語表単音節語音に対する雑音負荷の試み
 
多地点における 高品質な遠隔合唱の実現
多地点における高品質な遠隔合唱の実現多地点における高品質な遠隔合唱の実現
多地点における 高品質な遠隔合唱の実現
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Recently uploaded (12)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用

  • 1. 12/10/2018©Hiroki Tamaru, The University of Tokyo モーメントマッチングに基づく DNN合成歌声のランダム変調ポストフィルタと ニューラルダブルトラッキングへの応用 田丸 浩気1,齋藤 佑樹1 ,高道 慎之介1 ,郡山 知樹2,猿渡 洋1 (1東京大学,2東京工業大学) SLP 研究会 (2018/12/10)
  • 2. /23 研究背景  歌声合成技術 – ユーザの性別・歌唱技量に関係なく歌声を製作でき,盛んに利用 – deep neural network (DNN) [Nishimura+, 2016], [Blaauw+, 2017]  従来の歌声合成の限界と我々のアプローチ – 人間の歌声は,歌唱ごとに歌いまわしが異なる • 豊かな音楽体験 (コンサートの臨場感,複数テイクの取捨選択) – 歌声合成は,発話間変動を欠く • 合成過程が決定論的なため,同一楽譜からは単一の歌声のみ生成 – 歌声合成にランダム性を持たせたい 2 Noise Current system Noise Our approachHuman
  • 3. /23 Double-tracking (DT) への応用  Double-tracking (DT) – 同一フレーズを複数回歌唱してミックスし,歌声に厚みを持たせる – 発話間変動のない合成歌声の場合,不可能  Artificial double-tracking (ADT) – 歌声を信号処理的に変調して原音にミックスする代替法 – 厚みは出るが,不自然な聴覚的印象になってしまう 3自然な DT に近い手法を作りたい Double-tracking (DT) Artificial Double- tracking (ADT) Neural double- tracking (proposed) Sing twice Synthesize once Signal processing Synthesize once GMMN post-filter Mix Mix Mix
  • 4. /23 発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT) – DNN 歌声合成: 楽譜と歌声の関係性をフレームごとに学習 – ADT: ピッチ系列を信号処理的に変調して原音にミックス  提案法: GMMN ポストフィルタと neural double-tracking (NDT) – 合成歌声のピッチ系列を generative moment matching network (GMMN) に基づきランダムに変調 – ポストフィルタを利用して自然な重ね録り感を再現  実験結果 – 合成歌声の自然性を損なわずに,知覚できる水準の発話間変動を生成 – NDT は ADT より自然な DT に近い 4
  • 5. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 5
  • 6. /23 DNN 歌声合成 6 [Nishimura+, 2016] 最小二乗誤差規範の学習・生成が行われるため, 同一楽譜からは単一の歌声パラメータが出力される コンテキスト 音声特徴量 𝑡 = 1 𝑡 = 2 𝑡 = 𝑇 言語 コンテキスト 音楽 コンテキスト 楽譜 … … … DNN スペクトル 連続F0 有声/無声 Mean squared error 歌声
  • 7. /23 Artificial double-tracking (ADT)  原音と変調音をミックスして,厚みを持たせる – 原音のピッチ系列 + 正弦波 = 変調ピッチ系列 – 変調音は,遅延(遅らせる)・ゲイン(音量を下げる)処理を行う 7 Pitch(1が半音) *変調を明瞭に 表示するため, 正弦波の振幅は 実際の値より 大きく設定して いる Time [s] 位相の似た2音のミックスに起因する,不自然な音が生じる 原音 変調音
  • 8. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 8
  • 9. /23 GMMN に基づくポストフィルタ 9  F0セグメントのゆらぎを統計的にモデル化 – 時系列の構造情報を変調スペクトルでモデル化 [Takamichi+, 2016] – 変調スペクトルの条件付き分布を GMMN でモデル化 STFT GMMN 変調スペクトル 位相 ISTFT ポストフィルタ ランダムノイズ 楽譜 DNN 歌声合成 ピッチ系列 新しいピッチ系列 *STFT: Short Time Fourier Transform, ISTFT: Inverse Short Time Fourier Transform
  • 10. /23  ピッチ系列の連続性を考慮した処理 – 連続対数 𝑭 𝟎 (ピッチ) の変調スペクトル [Takamichi+, 2016] を扱う 変調スペクトル (Modulation spectrum: MS) 10 フレームごとの処理と異なり,不連続性の問題が発生しない 変調周波数 セグメント 低次 連続ピッチ系列 STFT, 対数振幅 計算 1 2 3 4 5 6 7 1 2 3 4 5 6 7 … … … 0 次 変調スペクトル 系列 セグメント
  • 11. /23  条件付き GMMN [Ren+, 2016] – ノイズ分布 (既知・単純) を出力分布 (未知・複雑) に変換 – 入力条件下で,出力とターゲットのモーメントを揃えるよう学習 – 生成時: ターゲット分布に基づき,値をランダムサンプリング GMMN に基づくパラメータサンプリング 11 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ ⋯ ランダムノイズ モーメントを 揃える 条件 出力 ターゲット
  • 12. /23 提案ポストフィルタの Schematic diagram 12 ⋯ 合成ピッチ系列 自然ピッチ系列 STFT位相 STFT 𝒚 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 𝑈[−𝟏, 𝟏) ⋯ ⋯ ⋯ 𝑺 𝒚 ⋯ ランダムノイズ ISTFT 𝑺 𝒚𝑺 𝒚 変動ピッチ系列 𝒔 𝒚(1) 𝒔 𝒚(𝑇′)𝒔 𝒚(1) 𝒔 𝒚(𝑇′) 𝒚 合成 MS 変動 MS 自然 MS モーメントを 揃える
  • 13. /23 Generated F0 13 *MSE: Mean Squared Error う さ ぎ う さ ぎ Pitch(1が半音) Time [s] MSE Post-filtered (4 lines) 童謡「うさぎ」の一節
  • 14. /23  ADT における信号処理的変調の替わりに,提案ポストフィルタを使用 Neural double-tracking (NDT) 14 楽譜 DNN 歌声合成 スペクトル 有声/無声 「自然な重ね録り感」を人工的に付与して 厚みのあるボーカルを生成する歌声変調技術 ポストフィルタ F0 F0’ vocoding vocoding 遅延・ゲイン 処理 NDT 音原音 変調音
  • 15. /23 考察  不連続性の問題を回避 – フレーム単位 [Takamichi+, 2017] ではなくセグメント単位の利用で, ポストフィルタによる不連続音の発生を回避  ランダム性の保存 – ランダムノイズを保存することで,セグメント毎のランダム変調を 保存可能  NDTによる自然な重ね録り感の再現 – 従来の ADT で発生していた不自然な重ね録り感を緩和 15 1 𝒏 𝟏 2 𝒏 𝟐 3 𝒏 𝟑 4 𝒏 𝟒 5 𝒏 𝟓 6 𝒏 𝟔 7 𝒏 𝟕 … … ノイズ
  • 16. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 16
  • 17. /23 実験条件 17 歌声合成の学習データ HTS 28曲,JSUT-song 23曲,in-house データ 7曲 *トランスポーズによる,3倍のデータ拡張 ポストフィルタの学習データ HTS 28曲 テストデータ HTS 3曲 サンプリング周波数 16 kHz 音声特徴量抽出・波形合成 WORLD [Morise+, 2016] コンテキスト特徴量 705次元 (言語・音楽特徴量,歌手・曲コード) 音声特徴量 127次元 (メルケプストラム,連続対数𝐹0 など) MS 計算時の STFT ハニング窓 480 ms,セグメントシフト 240 ms フィルタリングの対象 1次のMS ノイズ 10次元,一様分布 歌声合成 DNN・ ポストフィルタ GMMN Feed-forward (詳細は論文参照) GMMN はガウシアンカーネルを使用
  • 18. /23 実験条件 (cont’d)  評価方法 – クラウドソーシングサービス上で,25人を対象に主観評価  時間長条件 – 実験内容ごとに,評価を容易にするため,提示サンプルの長さを変更 – フレーズ的にキリの良い位置で手動分割  その他 – ピッチのみを評価するため,他のパラメータは自然音声のものを使用 18 条件 平均時間長 評価内容 Short 3.01 s 変動の知覚 Middle 4.88 s 自然性,重ね録り感 Long 10.24 s 自然性,重ね録り感 S うさぎうさぎ S 何見て跳ねる S 十五夜お月様 S 見て跳ねる M M L 童謡「うさぎ」の例
  • 19. /23 発話間変動の知覚  音声の対を聴き,違いがあると感じたかを質問  提案条件10対と対照条件10対をランダムな順序で混ぜておく – 提案条件 • ポストフィルタでランダム変調した 2 つの合成歌声 – 対照条件 • ポストフィルタをかけていない,同一の合成歌声  結果 (発話間変動を知覚したと回答した率) 19 提案 対照 𝑝 値 (ウェルチの 𝑡 検定) 𝟎. 𝟐𝟕𝟔 0.176 7.45 × 10−3 知覚可能な発話間変動を生成可能
  • 20. /23 合成歌声の自然性  提案条件・従来条件の対を10対聴き,より自然な方を選択 – 提案条件: ポストフィルタをかけた歌声 – 従来条件: ポストフィルタをかけていない歌声  結果 (自然性の評価スコア) 20 時間長条件 提案条件 従来条件 𝑝 値 Middle 0.504 0.496 8.58 × 10−1 Long 0.480 0.520 3.72 × 10−1 ポストフィルタによる有意な自然性の低下は見られない
  • 21. /23 NDTの重ね録り感  提案条件・従来条件の対を10対聴き,より「実際に多重録音 したように聴こえる」方を選択 – 提案条件 (NDT): ポストフィルタをかけた歌声を原音にミックス – 従来条件 (ADT): ピッチを正弦波変調した歌声を原音にミックス  結果 (重ね録り感の評価スコア) 21 時間長条件 NDT ADT 𝑝 値 Middle 𝟎. 𝟕𝟐𝟒 0.276 < 10−10 Long 𝟎. 𝟕𝟑𝟔 0.264 < 10−10 提案する NDT の方が,自然な DT に近い聴覚的印象を実現
  • 22. /23 目次  研究背景・発表概要  従来法: DNN 歌声合成と artificial double-tracking (ADT)  提案法: GMMN ポストフィルタと neural double-tracking (NDT)  実験的評価 (変動の知覚,自然性,重ね録り感)  まとめと今後の予定 22
  • 23. /23 まとめと今後の予定  背景 – DNN 歌声合成にランダム性を付与したい – ADT よりも DT に近い人工的手法を作りたい  提案法 – GMMN に基づくランダム変調ポストフィルタ,NDT への応用  評価結果 – 合成歌声の自然性を損なわずに,知覚できる発話間変動を生成 – NDT は従来の ADT より自然な DT に近い  今後の予定 – スペクトルや歌唱タイミング・音符を伸ばす長さの変動に拡張 – 自然音声を入力とするポストフィルタへの拡張 23
  • 24. /23 付録: DT, ADT, and NDT Double-tracking (DT) Artificial Double- tracking (ADT) Neural double- tracking (proposed) Sing twice Synthesize once Signal processing Synthesize once GMMN post-filter Mix Mix Mix 波形 周期 深さ 正弦波 0.775 Hz 10 cent (半音の 10%) 遅延 ゲイン 20 ms -3 dB ADT の変調条件 ADT・NDT の条件 (変調音に対する処理)