双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価

双方向LSTMによるラウドネス及びMFCCからの
振幅スペクトログラム予測
☆川口翔也（北村研究室），
北村大地（香川高専）
日本音響学会2022年秋季研究発表
2022年9月14日
Amplitude spectrogram prediction and evaluation from
MFCC and loudness using bidirectional LSTM.
1-1-16

2
研究背景
• 深層学習（deep neural network: DNN）を用いた音色の変換
及び音の生成技術の発達
–Differentiable Digital Signal Processing（DDSP） [Engel+, 2020]
–変分自己符号化器を用いた楽器音の解析や生成 [Luo+, 2019]
• 変分自己符号化器（variational auto-encoder: VAE）[Kingma+, 2013]
を用いた音色の変換及び音の生成
–ピアノとギターの中間の音色
–新しい楽器音
ピアノギター
変換
ピアノの情報ピアノ
生成
・音の高さ
・音量
・音色
…etc

3
変分自己符号化器（VAE）
• 教師なし学習の1種
• 潜在変数から確率分布を求め，潜在空間に表示
0~9の画像の違いを表す潜在空間

4
提案音生成システムの概要
• VAEを用いて楽器の音色の特徴を抽出・生成
–音波形から「音の高さ」・「音色」・「音量」を抽出
–音色をVAEに入力
• 提案音生成システムにおける問題
–MFCCから振幅スペクトログラムを予測する線形デコーダがない

5
本論文の主題
• DNNを用いた振幅スペクトログラムの予測
–入力：
• 音の高さ（ピッチ）： C3~B5の3オクターブの内1音
• 音色（MFCC）: 楽器音の特徴量を示す
• 音量（ラウドネス）: 時間フレーム毎の音の大きさ（振幅値）
–出力：振幅スペクトログラム

6
入力特徴量
• メル周波数ケプストラム係数（mel-frequency cepstral coefficient： MFCC）
–音の高さと音量を可能な限り除去した純粋な音色の特徴量
• ラウドネス
–振幅スペクトログラムの時間ごとの振幅の総和
MFCC
振幅スペクトログラム
振幅スペクトログラムラウドネス
Time [s]
Frequency
[kHz]
Time [s]
Coefficient
Time [s] Time [s]
Frequency
[kHz]
Volume

7
多層パーセプトロン
• 多層パーセプトロン（multi-layer perceptron: MLP）
–最も基本的なDNN
–入力層，中間層（隠れ層）3層以上,出力層からなる

8
再帰型ニューラルネットワーク
• 再帰型ニューラルネットワーク（recurrent neural network: RNN）
–長・短期記憶（long-short term memory: LSTM）ユニットを用いた双方向
再帰型ニューラルネットワーク(bidirectional RNN using LSTM: BiLSTM)
–ゲート付き回帰型ユニット(gated recurrent unit: GRU)を用いた双方向
再帰型ニューラルネットワーク（bidirectional RNN using GRU: BiGRU）
Time

9
実験条件
• 損失関数：DNNの出力値と正解値の誤差関数
–平均二乗誤差（mean squared error: MSE）
–Multiscale spectral loss（MSS）
• DDSP[Engel+, 2020]で用いられていた誤差関数
入力振幅スペクトログラム予測振幅スペクトログラム

10
実験条件
• MLＰの構成

11
実験条件
• BiLSTM及びBiGRUの構成

12
実験条件
• 音源
–MIDI音源(Roland SVC)でピアノ4種類及びギター4種類を生成
–8種類の元音源にそれぞれイコライザをかけて40種類にデータ
数を増加
–データを学習用と検証用に分割
低周波
強調
8種類
コーラス
付与
8種類
無加工
8種類
高周波
強調
8種類
残響
付与
8種類
ピアノ:20種類
18種類
学習データ
2種類
検証データ
ギター:20種類
18種類
学習データ
2種類
検証データ
36種類
学習データ
4種類
検証データ

13
実験結果（ピアノ MSEロス）
Original
amplitude
spectrogram
MLP-type
DNN
BiLSTM-type
DNN
BiGRU-type
DNN

14
実験結果（ピアノ MSSロス）
Original
amplitude
spectrogram
MLP-type
DNN
BiLSTM-type
DNN
BiGRU-type
DNN

15
実験結果（ギター MSEロス）
Original
amplitude
spectrogram
MLP-type
DNN
BiLSTM-type
DNN
BiGRU-type
DNN

16
実験結果（ギター MSSロス）
Original
amplitude
spectrogram
MLP-type
DNN
BiLSTM-type
DNN
BiGRU-type
DNN

17
実験結果
DNN-type Loss
Piano1 Piano2 Guitar1 Guitar2
MLP
MSE
MSS
BiLSTM
MSE
MSS
BiGRU
MSE
MSS

18
評価
• MFCC相対二乗誤差（MFCC relative squared error: MRSE）
–入力振幅スペクトログラムのMFCCと予測振幅スペクトログラム
のMFCCの相対誤差
Good Good
Poor
Poor
-60
-50
-40
-30
-20
-10
0
MLP-type BiLSTM-type BiGRU-type
MRSE
[dB]
MSE loss MSS loss
-60
-50
-40
-30
-20
-10
0
MLP-type BiLSTM-type BiGRU-type
MRSE
[dB]
MSE loss MSS loss
ピアノギター

19
まとめ
• 音の高さ，音色，音量からの振幅スペクトラム予測
–DNNデコーダを用いることで予測可能
–BiLSTM型DNNが最も予測精度が高い
• 今後の課題
–提案音生成システムの音色抽出を行うVAEの実装
–提案音生成システム全体

双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Kitamura Laboratory

More from Kitamura Laboratory (20)

Recently uploaded

Recently uploaded (7)

双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価