楽曲中歌声加工における
声質変換精度向上のための
歌声・伴奏分離法
山田智也†・関翔悟† ・小林和弘‡・戸田智基‡
名古屋大学 情報学研究科†
名古屋大学 情報基盤センター‡
研究背景
インターネット上への歌唱動画の投稿が普及
多様な歌唱スタイルを楽しむ文化が定着
視聴者は好みの歌唱動画を聴取
投稿される歌唱動画の多様性は楽曲の人気度に依存
あらゆる楽曲を好みの歌唱スタイルで楽しみたい
任意の楽曲の歌声を加工・編集
能動的な音楽鑑賞の実現を目指す
2
N次創作の歌唱を聴く需要の増加
本研究の概要
楽曲に含まれるアーティストAの歌声を
アーティストBに変換
伴奏と歌声の混合音という制約のもとでの
歌声に内包される話者性の変換精度向上が主な目標
話者性の変換精度が37%から60%に改善
3
変換
アーティストAの
楽曲
アーティストBの
歌声の楽曲
従来法:歌声加工システム[山田ら, 2017]
4
歌声分離法と歌声変換法の統合により実現
楽曲に含まれる伴奏の影響を低減
歌声の声色を統計的に変換
歌声
分離
歌声
変換
+
変換楽曲
分離伴奏
分離歌声
変換歌声
元楽曲
①楽曲を歌声と
伴奏に分離
②分離した歌声
のみを変換
③伴奏と重畳
歌声分離法[池宮ら, 2016]
ロバスト主成分分析(RPCA)と
𝐹0軌跡推定に基づく手法
11/9/2018 5
RPCA 𝐹0軌跡推定
低ランク成分と
スパース成分に分離
→ 伴奏の低ランク性
歌声のスパース性を利用
マスク
生成
𝐹0軌跡を推定
𝐹0の倍音成分と他に分離
→ 調波構造の利用
歌声変換法[小林ら, 2014]
差分スペクトル補正に基づく手法
学習したモデルを元に音声波形を直接変換
⇨ 雑音(残留伴奏)に対して頑健な変換を実現
ボコーダーによる波形の再合成が不要
6
𝑿, 𝑫
波形
補正
変換元の
歌声
変換先の
歌声
差分変換モデル音響特徴量
学習
同一楽曲の
データ
従来法の問題点
分離伴奏中に元の歌声が残留
変換楽曲における
話者性変換精度を劣化
7
分離伴奏に含まれる残留歌声を
低減する必要有り
歌声
分離
歌声
変換
+
変換楽曲元楽曲
残留歌声が
変換楽曲に影響
提案法:伴奏分離法の追加
8
歌声
分離
元楽曲
歌声
分離
伴奏
分離
歌声分離
低ランク非負制約の追加
より厳しい制約を加えることで
残留歌声を削減
従来の歌声分離法
伴奏の低ランク性と
歌声の調波構造を利用
歌声分離後に更に残留歌声を抑圧
伴奏分離法
分離歌声・伴奏に非負値行列因子分解(NMF)
[亀岡ら, 2016]を適用
11/9/2018 9
NMF
分離歌声と分離伴奏を
仮想的な教師データとして
音源分離
非負値行列を行列の積に分解
低ランク非負制約の追加
スペクトル情報
時変励磁情報
制約付き
NMF
非負制約の導入 ⇨ 伴奏を厳しくモデル化
⇨ 伴奏の残留歌声を抑制可能
分離歌声
分離伴奏
NMF
ここを更新
非負制約の導入による影響[山田ら,2017]
11/9/2018 10
-2
0
2
4
6
8
10
12
14
16
18
[dB]
非負制約なし 非負制約あり
Better
歌声 伴奏
制約
なし
制約
あり
歌声の分離精度は
非負制約により
低下
伴奏中の残留歌声
非負制約により
低減可能
実験的評価
変換楽曲(変換歌声+分離伴奏)の品質を評価
話者性と自然性に対する主観評価実験を実施
実験条件
11
音源数 歌唱者男女各3名・各歌唱者につき68フレーズ
変換対象 同性間話者対 計12対
変換データ数 訓練データ56フレーズ・テストデータ12フレーズ
被験者数 話者性: 日本人10名 / 自然性: 日本人8名
話者性評価 1名につき従来法・提案法各18フレーズをABX法で4段階評価
自然性評価 1名につき変換楽曲とリファレンス各12フレーズをMOSで5段階評価
自然性リファレンス SNR 10, 15, 20, 25 [dB] のMNRU音声 𝑦 𝑖 = 𝑥 𝑖 1 + 10−𝑄/20 𝑁 𝑖
歌声加工サンプル
実際に楽曲中の歌声を変換
従来法:歌声・伴奏ともにRPCA+𝐹0軌跡推定で取得
提案法:伴奏にNMFを適用、非負制約を追加
12
変換前楽曲
変換先楽曲
従来法
提案法
実験結果
13
非負制約の追加により
話者性の変換精度が向上
残留歌声の影響を軽減
話者性の評価結果 自然性の評価結果
37.1%
60.4%
0%
20%
40%
60%
80%
100%
非負制約なし 非負制約あり
話者正解率
良い
MNRU等価Q値 10dB
MNRU等価Q値 15dB
MNRU等価Q値 20dB
MNRU等価Q値 25dB
1
1.5
2
2.5
3
3.5
4
4.5
5
非負制約なし 非負制約あり
平均オピニオン評定
等価Q値 20dB以上に
相当する品質を維持
従来法では
話者性が十分に変換できず
まとめと今後の課題
まとめ
伴奏の分離法に低ランク非負制約を導入する手法を提案
◦ 歌声と伴奏で異なる分離法を適用
従来法と比べ話者性の変換精度は大きく改善
今後の課題
歌声分離精度・歌声変換精度の向上
U-Netに基づく歌声分離法の導入
ニューラルネットワーク ⇨ 分離と変換の同時最適化
14

楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法