SlideShare a Scribd company logo

深層学習に基づく音響特徴量からの振幅スペクトログラム予測

川口翔也, "深層学習に基づく音響特徴量からの振幅スペクトログラム予測," 香川高等専門学校電気情報工学科 卒業研究論文, 63 pages, 2022年2月.

1 of 27
Download to read offline
深層学習に基づく音響特徴量からの
振幅スペクトログラム予測
川口翔也(北村研究室)
香川高等専門学校電気情報工学科卒業研究最終発表会
セッション:2022/3/2 14:30-14:45
2
研究背景
• 深層学習(deep neural network: DNN)を用いた音色の変換
及び音の生成技術の発達
–Differentiable Digital Signal Processing(DDSP) [Engel+, 2020]
–変分自己符号化器を用いた楽器音の解析や生成 [Luo+, 2019]
• 変分自己符号化器(variational auto-encoder: VAE)[Kingma+, 2013]
を用いた音色の変換及び音の生成
–ピアノとギターの中間の音色
–新しい楽器音
ピアノ ギター
変換
ピアノの情報 ピアノ
生成
・音の高さ
・音量
・音色
…etc
3
変分自己符号化器(VAE)
• 教師なし学習の1種
• 潜在変数から確率分布を求め,潜在空間に表示
0~9の画像の違いを表す潜在空間
4
提案音生成システムの概要
• VAEを用いて楽器の音色の特徴を抽出・生成
–音波形から「音の高さ」・「音色」・「音量」を抽出
–音色をVAEに入力
• 提案音生成システムにおける問題
–MFCCから振幅スペクトログラムを予測する線形デコーダがない
5
本論文の主題
• DNNを用いた振幅スペクトログラムの予測
–入力:
• 音の高さ(ピッチ): C3~B5の3オクターブの内1音
• 音色(MFCC): 楽器音の特徴量を示す
• 音量(ラウドネス): 時間フレーム毎の音の大きさ(振幅値)
–出力:振幅スペクトログラム
6
入力特徴量
• メル周波数ケプストラム係数(mel-frequency cepstral coefficient: MFCC)
–音の高さと音量を可能な限り除去した純粋な音色の特徴量
• ラウドネス
–振幅スペクトログラムの時間ごとの振幅の総和
MFCC
振幅スペクトログラム
振幅スペクトログラム ラウドネス
Time [s]
Frequency
[kHz]
Time [s]
Coefficient
Time [s] Time [s]
Frequency
[kHz]
Volume

Recommended

深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIPDeep Learning JP
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 

More Related Content

What's hot

音楽波形データからコードを推定してみる
音楽波形データからコードを推定してみる音楽波形データからコードを推定してみる
音楽波形データからコードを推定してみるKen'ichi Matsui
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CVTakanori Ogata
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
Batch normalization effectiveness_20190206
Batch normalization effectiveness_20190206Batch normalization effectiveness_20190206
Batch normalization effectiveness_20190206Masakazu Shinoda
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion ModelsDeep Learning JP
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 

What's hot (20)

音楽波形データからコードを推定してみる
音楽波形データからコードを推定してみる音楽波形データからコードを推定してみる
音楽波形データからコードを推定してみる
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Batch normalization effectiveness_20190206
Batch normalization effectiveness_20190206Batch normalization effectiveness_20190206
Batch normalization effectiveness_20190206
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
 
周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...Kitamura Laboratory
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討Kitamura Laboratory
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Kitamura Laboratory
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Kitamura Laboratory
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsKitamura Laboratory
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測Kitamura Laboratory
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システムKitamura Laboratory
 

More from Kitamura Laboratory (20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
 
周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 

深層学習に基づく音響特徴量からの振幅スペクトログラム予測

Editor's Notes

  1. 北村研究室の川口が表記の題目で発表します.
  2. [1:00] 研究の背景です. 近年,深層学習:通称DNNを用いた音色の変換及び音の生成技術が発達してきました. 例えば,DNNを用いて人工的に音響信号を合成するディファレンシャブル…通称:DDSPや 変分自己符号化器:通称VAEを用いて楽器音の解析や生成を行うものがあげられます. そこで,我々はVAEを用いた既存技術より高精度・高品質に音色の変換及び音の生成を行うシステムの提案を目指します. 以後,このシステムを提案音生成システムと呼びます. 提案音生成システムでは,ピアノとギターの中間の音色や誰も聞いたことのない音色を持つ音の生成が可能となると考えます.
  3. [1:40] 初めにVAEについて説明します. VAEとは,潜在空間と呼ばれる一定の解釈性を持つ低次元の固有空間を持っています. 図には,手書き数字を適応したものを示していますが,中央の潜在空間のように,「7」や「9」のように同じクラスの集まりが見られます. さらに,「7」と「9」の集まりの間にこのように「7」と「9」の中間のような手書き数字が見られます. これを音色に適応することで,「7」にはピアノ,「9」にはギターのように集まりを見ることができ,さらに「7」と「9」のあつまりの間には「7」と「9」の中間のような手書き数字が見られるようにピアノとギターのあつまりの間にはピアノとギターの中間のような音色が見られると考えます.
  4. [2:30] 先ほど説明したVAEを用いた提案音生成システムの概要を説明します. まず,入力信号から振幅スペクトログラムを求め,エンコーダを通して音の高さ,音色,及び音量の3つの特徴量を抽出します. 次に,音色を先ほど説明したVAEに適応し,VAEから音色を生成します. 最後に,VAEによって生成された音色,音の高さ,及び音量からデコーダを通して振幅スペクトログラムを予測し,変換することで音響信号を生成することができます. しかし,このシステムには問題があります.それはこの音の高さ,音色,及び音量の3つの特徴量から振幅スペクトログラムを予測する線形デコーダが存在しないことです.
  5. [2:50] そこで,本研究では部分システムとして図に示すように3つの特徴量から振幅スペクトログラムを予測するデコーダの作成を行いました. デコーダをしては非線形変換を行えるDNNを用いました.
  6. [3:30] 3つの特徴量のうち,音色と音量の特徴量について説明します. 音色特徴量には,メル周波数ケプストラム係数:通称MFCCを用います.これは音響信号から音の高さ及び音量の情報を可能な限り除去したものです. 左に示す振幅スペクトログラムは,同じピアノの楽器で,ドから1オクターブ上のドまでを順番に演奏したものです.これををMFCCに変換したものが右側です. ここから言えることとして,MFCCは音の高さや音量の変化に対して一定であることがわかります.なぜなら,MFCCは音色を表すものであり,この振幅スペクトログラムは同じ音色のピアノの音であるためです. 次に音量特徴量には,振幅スペクトログラムの時間ごとの振幅の総和をとったラウドネスを用います.
  7. [3:50] では,振幅スペクトログラムの予測を行うDNNデコーダに用いる3種類のDNNについて説明します. 1つ目は,多層パーセプトロン:通称MLPです. これは,最も基本的なDNNで,入力層,中間層が3層以上,出力層で構成されます.
  8. [4:50] 2つ目は,長・短期記憶:通称LSTMユニットを用いた双方向再帰型ニューラルネットワーク通称:BiLSTM, 3つ目は,ゲート付き回帰型ユニット通称:GRUを用いた双方向再帰型ニューラルネットワーク通称:BiGRUです. LSTMユニットおよびGRUの詳細は割愛させていただきます. 双方向再帰型ニューラルネットワークはこの図のように,時間方向に対して順方向及び逆方向の2方向で学習を行います. 入力は,先ほど説明したMFCCとラウドネスを結合した時間毎のベクトルです. 現在の時刻において,現在の入力ベクトルに加え,順方向の場合は過去の出力,逆方向の場合は未来の出力を入力データとして用いることで時間のつながりができ,時系列データの学習に強いものになっています.. 本研究では時系列データを用いているため,時系列データの学習が優れた双方向再帰型ニューラルネットワークを用いました.
  9. [5:20] ここから,実験条件を説明します. ます,DNNの学習に用いる誤差関数です. 誤差関数は,回帰問題に対して用いられることが多い平均二乗誤差通称:MSEロスとDDSPで用いられていたマルチスペクトラルロス通称:MSSロスの2種類を用いました. 入力振幅スペクトログラムをy,予測振幅スペクトログラムをpとするとき,それぞれの誤差関数の計算式は表記の通りです.
  10. [5:50] 次に,各DNNの構成について説明します. MLPの構成は図のように中間層が4層になっています. 入力ベクトルはMFCC及びラウドネスをベクトル化し,このように結合したものです. 出力ベクトルは行列化すると入力の振幅スペクトログラムと同じになるように学習します.
  11. [6:30] BiLSTMとBiGRUの構成は図のようにLSTMが4つもしくはGRUが4つつながったものになります. この時の入力ベクトルは,ある時間におけるMFCCとラウドネスを結合したものです. 出力ベクトルは,順方向及び逆方向の出力の要素積をとることで得られ,入力と同じ時間における振幅スペクトログラムを出力するように学習します. これをすべての時間で同時に推論しているのが双方向再帰型ニューラルネットワークであり,その出力として全時間の振幅スペクトログラムの予測結果が得られます.
  12. [7:20] 最後に音源について説明します. 音源にはRoland SVCと呼ばれるMIDI音源のうち,ピアノ4種類及びギター4種類の計8種類をもとに作成しました. 8種類では,データ数が少ないため,元の8種類の音源に対して,低周波を強調したもの,高周波を強調したもの,コーラスというエフェクトを付与したもの,残響を付与したものを加えたピアノ20種類及びギター20種類の計40種類の音源を用意しました・ この音源のうち,ピアノ18種類及びギター18種類の計36種類をDNNの学習データ,残りのピアノ2種類及びギター2種類の計4種類を予測精度を確かめるための検証データとして用いました. コーラスは音色をふるわせるようにするもの
  13. [7:50] それでは,実験結果です. 左上が入力信号の振幅スペクトログラム,右上がMLPの予測振幅スペクトログラム,左下がBiLSTMの予測振幅スペクトログラム,右下がBiGRUの予測振幅スペクトログラムを示しています. まず,損失関数といてMSEロスを用いたDNNのピアノに対する予測結果です. MLPは正確に予測が行えていないことがわかります. BiLSTM及びBiGRUは調波構造及び振幅の減衰の予測が正確に行えていることがわかります.
  14. [8:00] 次に損失関数といてMSSロスを用いたDNNのピアノに対する予測結果です. MSEロスと同様のことが言えます.
  15. [8:30] 次に損失関数といてMSEロスを用いたDNNのギターに対する予測結果です. MLPはピアノと同じく正確に予測が行えていないことがわかります. BiLSTM及びBiGRUは調波構造が正確に行えていることがわかります. さらには,このギターの特徴である約0.5秒における振幅の減衰もしっかり予測できてます. ここで,約200Hzのノイズが,BiLSTMはノイズとして学習しているが,BiGRUは調波構造をして学習していることからBiLSTMの方が精度が高いと言える
  16. [8:40] 最後に損失関数といてMSSロスを用いたDNNのギターに対する予測結果です. こちらもMSEロスと同様なことが言えます.
  17. [9:40] ここで予測結果に対して評価指標を用いた客観的な評価を行います. 評価指標としてMFCC相対二乗誤差通称:MRSEを用いました.この指標は,値が小さいほど精度が高いことを示します. 左側のグラフは検証データのピアノ2種類に対するMRSEの平均,右側のグラフは検証データのギター2種類に対するMRSEの平均を示します. グラフは,左からMLP,BiLSTM,BiGRUの結果で,青がMSEロス,赤がMSSロスの結果を示します. グラフから,BiLSTMがピアノ及びギターのどちらに対しても予測精度が高いことが分かりました.
  18. [10:00] まとめです. 本研究で,音の高さ,音色,音量の3つの特徴量から振幅スペクトログラムを予測を行うことは,DNNデコーダを用いることで可能であることがわかりました. この中でもBiLSTMを用いることで高い精度での予測が行えることがわかりました. 今後の課題としましては, 提案音生成システムの核となるVAEを用いた音色の抽出の実装が第一にあげられます. その後は,提案音生成システムの全体の実装を行い,音色の変換及び音の生成を実験していきます. 以上で発表を終わります.
  19. 本研究では,単音に対してのみの検証を行ったため,用途について想像することが困難であったと思いますが, 提案音生成システムの実装によって将来的に可能になることはいくつかあります. まず1つ目は,能動的な音楽鑑賞です.現在の音楽鑑賞はアーティストが創作する音楽を聴く,つまり受動的な音楽鑑賞が主流です. しかし,このシステムで音色の変換が行えることにより,音源分離を組み合わせた一部楽器音の変換による音楽の変化や全体の音色の変化などユーザの好きなように曲を編集し楽しむことができるようになると考えます. 例えば,このように一部のみ楽器音を変換,ロックな音楽をアコースティックの音楽に変換するなどがあげられます.
  20. 2つ目に,演奏技術の練習やよりよい楽器の作成のツールとして用いることが可能です.これはVAEの潜在空間を用いたものです. 演奏技術の練習は,プロとアマチュアの演奏を学習した提案音生成システムを用意することで,VAEの潜在空間上で自分の演奏技術がどの程度であるのか把握できる. 楽器の作成は,高価な楽器と安価な楽器の音を学習し,作成した楽器がどれだけ高価な楽器に近いかを評価することができます.
  21. [1:40] 初めにVAEについて説明します. VAEとは,潜在空間と呼ばれる一定の解釈性を持つ低次元の固有空間を持っています. 図には,手書き数字を適応したものを示していますが,中央の潜在空間のように,「7」や「9」のように同じクラスの集まりが見られます. さらに,「7」と「9」の集まりの間にこのように「7」と「9」の中間のような手書き数字が見られます. これを音色に適応することで,「7」にはピアノ,「9」にはギターのように集まりを見ることができ,さらに「7」と「9」のあつまりの間には「7」と「9」の中間のような手書き数字が見られるようにピアノとギターのあつまりの間にはピアノとギターの中間のような音色が見られると考えます.
  22. 3つ目に,音楽とはあまり関係ないものですが,三次元ヴァーチャル空間上での音源及びユーザ位置に依存する音色変化を自動的に推定・生成があげられます. まず,ヴァーチャル空間の音響信号をどうするかは結構難しい課題として残っています. ヘッドマウントディスプレイ(HMD)を使ったVRも,未だにそのようなことは実装されていません.例えば,頭を振っても音量は変化するが音色が変わらない. 実際には,頭の回転だけでなく音源位置とユーザ位置,壁や天井の構造等が全て絡んで音色が決まるのですが,その物理演算はとても難しいです. もし潜在空間に「ユーザと音源の位置関係」と「音色」という2つの情報を埋め込むことができれば,「ユーザの位置座標がどこどこに変化した際の音色を持つ音」を生成する,といったアプローチが可能になるかもしれません.最も簡単な例では,壁のすぐそばで聞こえる音色と,壁から離れた場所で聞こえる音色を学習すれば,潜在空間上で壁のそばから離れたところまでの音色変化をシミュレートできる,というような感じです.
  23. メル周波数ケプストラム係数の求め方について説明 まず,振幅スペクトログラムに対数をとりパワースペクトルを求めます. それに対して,このメルフィルタバンクと呼ばれるバンドパスフィルタが複数集まったものをかけます. この時,バンドパスフィルタは周波数が低いほど幅が狭くなります.これは人間の聴覚特性に近づけるためです. さらにバンドパスフィルタの数がMFCCの次元数となります. メルフィルタバンクをかけたものに対して離散コサイン変換:DCTすることでMFCCを求めることができます.
  24. 音の高さの特徴量についてです. 本実験では,このように入力信号に音の高さを数字を用いてラベルとして付与しています. そのため,エンコーダでは線形的な変換で求めているわけではありません. 今後の展望としては,音の高さを表すものとして基本周波数を採用することも考えています. 次に,DNNへの入力方法についてですが,正確にはDNNへ入力しているわけではありません. 音の高さはその音の高さ専用に学習したDNNの選択を行うために用いてます. このようにした理由は,音の高さ別に学習を行うことで音の高さに対する汎用性を獲得する必要がなくなり,その分予測精度が向上すると考えたためです.
  25. LSTMユニットは,長期記憶c,短期記憶h,及び時間jのMFCCとラウドネスを結合したベクトルxjを入力として,時間jの振幅スペクトログラムを予測します. この時,振幅スペクトログラムはこの式で求めることができます.この時,シグマはシグモイド関数,tanhは双曲線関数,〇は要素毎の積を示します. W,R,及びbは重み付け係数で,この重み付け係数を振幅スペクトログラムが最も正確に予測できるように最適化を行います.
  26. GRUは,短期記憶h,及び時間jのMFCCとラウドネスを結合したベクトルxjを入力として,時間jの振幅スペクトログラムを予測します. この時,振幅スペクトログラムはこの式で求めることができます. W,R,及びbはLSTMを同様に重み付け係数で,この重み付け係数を振幅スペクトログラムが最も正確に予測できるように最適化を行います.