SlideShare a Scribd company logo

基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析,

香西海斗, 北村大地, "基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析," 日本音響学会 2021年春季研究発表会講演論文集, 1-9-2, pp. 1109–1112, 東京, 2021年3月(査読無).

1 of 16
Download to read offline
基底共有型非負値行列因子分解に基づく
楽器音の共通・固有成分の分析
☆香西 海斗,北村 大地(香川高専)
日本音響学会2021年春季研究発表会第1日
第9会場 音楽音響/午前-前半(09:30~10:15)[振動・音響分析・知覚・認知]
1-9-2
研究背景
• 人は楽器音の音色の違いを感覚的に表現
– 例:「きらびやかな音」,「やわらかい,温かみのある音」
– 定量的に表現する方法はあまり確立されていない
• 複数の楽器音の違いを定量的に表現
– アマチュア奏者の上達の支援
– 芸術的価値の高い楽器の設計製作
– 音色変換,楽器音識別,音楽検索等にも応用可能 2
アマチュア プロフェッショナル
両者の違いは?
本発表の概要
• 本研究の目的
– 複数の楽器音信号の違いを客観的かつ定量的に議論するた
めの音響特徴量の抽出を検討
– 第一歩として最も基本的な振幅スペクトルを解析対象とする
• アプローチ
– 非負値行列因子分解(NMF)[Lee+, 1999]
– 複数楽器音信号間に共通する音色成分
– 各楽器音信号の固有の音色成分
• 実験
– 2種類のMIDIピアノ音源を題材とし
共通の振幅スペクトルパターン
固有の振幅スペクトルパターン
を抽出し,比較・考察する
3
この2成分を同時
にNMFで抽出
• STFTの処理の流れ
– スペクトログラム:音の時間周波数表現
– スペクトログラムの要素毎の絶対値は振幅スペクトログラム
短時間フーリエ変換(STFT)
4
時間領域
窓関数
時間周波数領域
時間波形
…
離散フーリエ変換
離散フーリエ変換
離散フーリエ変換
スペクトログラム
複素数の要素を持つ行列
周波数
時間
…
振幅スペクトログラム
非負(ゼロ以上)の実数要素の行列
要素毎の
絶対値
フーリエ変換長
シフト長
NMFに基づく音響信号の分解
• 非負値行列因子分解(NMF) [Lee+, 1999]
– 非負行列 を別の2つの非負行列 及び の行列積 で近似
– 低ランク近似することで 中の頻出パターンを教師なし学習
• 音響信号におけるNMFの適用
– 振幅スペクトログラム を基底 とアクティベーション に分解
5
Amplitude
Amplitude
非負の観測行列
(音の時間周波数強度)
基底行列
(音色パーツ)
アクティベーション行列
(音量と音価)
Time
Time
Frequency
Frequency
基底
: 周波数ビン数
: 時間フレーム数
: 基底数
アクティベーション
提案手法:基底共有型NMF(BSNMF)
• 音源 と に対して共通の基底行列 と固有基底行
列 と を用いて分解
– は2つの楽器音の共通の音色(スペクトル)
– と は各楽器の固有の音色(スペクトル)
6
共通の
音色パーツ
固有の
音色パーツ
固有の
音色パーツ

Recommended

基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用Kitamura Laboratory
 
130703_修士論文中間審査会|独習環境におけるギター演奏学習者の自己音楽表現を促す熟達者からの一人称視点映像を用いたシステムの提案
130703_修士論文中間審査会|独習環境におけるギター演奏学習者の自己音楽表現を促す熟達者からの一人称視点映像を用いたシステムの提案130703_修士論文中間審査会|独習環境におけるギター演奏学習者の自己音楽表現を促す熟達者からの一人称視点映像を用いたシステムの提案
130703_修士論文中間審査会|独習環境におけるギター演奏学習者の自己音楽表現を促す熟達者からの一人称視点映像を用いたシステムの提案Ryo YOSHIKAWA
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学Akinori Ito
 
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
 

More Related Content

More from Kitamura Laboratory

周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...Kitamura Laboratory
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討Kitamura Laboratory
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Kitamura Laboratory
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Kitamura Laboratory
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsKitamura Laboratory
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測Kitamura Laboratory
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システムKitamura Laboratory
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 

More from Kitamura Laboratory (20)

周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 

Recently uploaded

M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)Junichi Akita
 
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdfCTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdfkeita yanagawa
 
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptxRyota Tamura
 
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料suda28
 
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2ttakapi0327
 
20240228_CATechLounge_FemTechが アツい話 .pdf
20240228_CATechLounge_FemTechが アツい話 .pdf20240228_CATechLounge_FemTechが アツい話 .pdf
20240228_CATechLounge_FemTechが アツい話 .pdfsumire0726bkk
 

Recently uploaded (6)

M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
 
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdfCTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
 
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
 
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
 
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
 
20240228_CATechLounge_FemTechが アツい話 .pdf
20240228_CATechLounge_FemTechが アツい話 .pdf20240228_CATechLounge_FemTechが アツい話 .pdf
20240228_CATechLounge_FemTechが アツい話 .pdf
 

基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析,

Editor's Notes

  1. 香川高等専門学校の香西が発表します.
  2. 本研究の背景です. 一般的に個人の楽器演奏や楽器本体の価値は,人間の主観に基づいて評価されます. 例えば,きらびやかな音や柔らかい温かみのある音などと形容されますがそのような表現は素人にはなかなか伝わりません. また,「アマチュア奏者とプロ奏者の演奏の差異」や「安い楽器と高価な楽器の音の違い」が主観的に語られることも多くあります. しかし,主観を廃して定量的に表現する方法はあまり確立されておらず,素人の人は他人の主観的評価に頼らざるを得ません. もしも,複数の楽器音の音響的・芸術的違いを定量的に表現する音響特徴量が推定できれば,アマチュア奏者への上達の支援や,芸術的価値の高い楽器の設計製作等に役立ちます. さらに,楽器音信号の音色変換,楽器音識別,音楽検索等にも応用が可能になります.(1:00)
  3. 次に研究概要についてです. 本研究の目的は先ほど述べた通り複数の楽器音信号の違いを定量的に議論するための音響特徴量の抽出です. その第一歩として振幅スペクトルを対象とした解析を行いました. これには非負値行列因子分解を用い,複数の楽器音信号間の「共通する音色成分」と,「固有の音色成分」の2成分を同時に抽出する新しいアルゴリズムを提案しました. 実験では,2種類のMIDIピアノ音源に対し,提案手法を適用することで,2音源の「共通の振幅スペクトルパターン」と「固有の振幅スペクトルパターン」を抽出し,比較・考察を行いました.
  4. 次に,音の時間周波数表現について説明します. 時間波形をこの図のように短時間区間で区切り,離散フーリエ変換を適用することで,その短時間区間の周波数スペクトルが得られます. この処理を他の短時間区間に繰り返すことで,横軸が時間,縦軸が周波数の,スペクトログラムと呼ばれる行列が得られ,この変換を短時間フーリエ変換,STFTと呼びます. スペクトログラムは複素行列ですが,本研究では全ての要素の振幅をとった振幅スペクトログラムを扱います. これは全ての要素が0以上の実数となる非負行列です.(1:30)
  5. 本研究では,非負値行列因子分解,NMFという行列分解理論を用います. NMFとは,非負行列Xを別の二つの非負行列FとQの行列積FQで近似する手法です. これは,行列の低ランク近似であり,観測行列Xのなかに潜む頻出パターンを教師なし学習できます. そのため,自動採譜や音源分離など多くの技術に使われています. NMFを音響信号に適用する場合,この図のように音の振幅スペクトログラムを非負行列Xとし,これをFかけるQに近似分解します. このとき,行列Fは基底行列と呼び,行列Qはアクティベーション行列と呼びます. 基底行列Fの列ベクトルは基底ベクトルと呼ばれ,振幅スペクトログラムXの中のスペクトルパターンが現れます. そして,各スペクトルパターンの時間的な強度変化がアクティベーション行列Qの行ベクトルに現れます. この図では,Xの中に2つの音が含まれており,基底ベクトルの数Kを2としてNMF分解することで,1つ1つの音のスペクトルパターンが基底ベクトルとして抽出され,さらに各音の楽譜情報がアクティベーションに現れています. 基底数Kは事前に与えておくパラメータになります.
  6. 本研究では,先ほどのNMFを複数の音響信号の振幅スペクトログラムに同時に適用します. 今,X1とX2が異なる種類のピアノ音源の振幅スペクトログラムとします. この2つの音は異なる楽譜の音を弾いていてもかまいません. そして,この2つを右辺の式のようにそれぞれ分解し,基底行列W,F1,F2及びアクティベーション行列H1,H2を推定します. なので,これは行列分解の連立方程式のようになっています. 御覧の通り,基底行列Wを両方の音源で共通化しており,F1とF2は各音源で固有の基底行列となっています. このような行列分解を考えることで,X1とX2に共通する振幅スペクトルパターンが共有基底Wとして推定され,X1固有の振幅スペクトルパターンとX2固有の振幅スペクトルパターンがそれぞれF1とF2に現れます. さらに,アクティベーション行列H1とH2を共有基底Wと固有基底Fの間でシェアしています. これによって,K本の基底ベクトルのそれぞれに対して,共通成分と固有成分を抽出することができます. この図の右辺の変数行列は,全て最適化問題として推定されます. このNMFを応用したものが提案手法の基底共有型NMF,通称BSNMFです. いま,2つの楽器音信号の振幅スペクトログラムX1とX2を左辺に与え,これをそれぞれNMFで行列分解します. このとき,X1とX2で共有する基底行列Wと,固有の基底行列F1及びF2を用意して,連立方程式として分解します. さらに,アクティベーション行列H1及びH2は,WとFの間で共有します. (3:20)
  7. この式が最適化関数です. X1とその右辺,X2とその右辺の距離が近くなるように,全変数を最適化します. 通常のNMFの文脈では画面に示す3つの距離関数が非常によくつかわれます. 上から順に二乗ユークリッド距離,一般化KLダイバージェンス,ISダイバージェンスと呼ばれます. 本研究では,音響信号の解析で非常に適しているといわれる(クリック)一般化KLダイバージェンスに基づく更新式の導出を原稿では示しています. 各変数行列の反復最適化更新式は補助関数法を用いて導出することができます.
  8. こちらが一般化KLダイバージェンスに基づくBSNMFの一般化導出式です. 前ページで示した最適化関数の中で,マイナスのlogの中に総和記号があります. この項は,変数で偏微分した後,最適化更新式を導出する際に問題となってしまいます. 具体的には,変数の非負制約を保ったまま更新式を導出することができなくなります. そこで,NMFで一般的に用いられているアプローチと同じく,Jensenの不等式を使って補助関数を設計します. 詳細は割愛しますが,設計される補助関数は下のようになります. ここでアルファとベータはそれぞれ補助変数となります. あとは,この補助関数を各変数で偏微分して=0とおいた式から反復更新式が導出できます.
  9. 導出した反復更新式はこのようになります. 最初にすべての行列を非負の乱数で初期化して,あとはこの式を順番に繰り返せば,最適化関数が最小化されて,全変数行列が求まります. (4:25)
  10. それでは実験条件について説明します. この実験では,異なる2種類のピアノ音源として,Iowa Piano及び4Front Pianoという名前のピアノ音源を用意します. これらを,下の楽譜の通りにMIDIで再生したものを2つの観測音響信号とします. 従って,異なる2つのピアノ音源の共通音色と固有音色を提案手法で抽出する実験です. この楽譜は,どちらもC4,E4,G4の3音から構成されています. ただし,ノートの順番は逆順となっており,2つの音響信号が同じメロディを弾いているわけではないという設定です. STFTの窓長は93msとし,シフト長はその半分としました. 窓関数にはHamming窓を用いました. 提案手法の最適化の反復回数は1000回とし,基底数は6本としました.
  11. これは,推定された共有基底行列W,固有基底行列F1及びF2,アクティベーション行列H1及びH2です. 上の各基底行列は横軸が対数振幅,縦軸が周波数であり,6本のスペクトルパーツ,すなわち,基底ベクトルとなっています. また,下の各アクティベーション行列は横軸が時間,縦軸が振幅のアクティベーションです. (5:05)
  12. こちらはアクティベーション行列H1及びH2を拡大したものと,楽器音信号X1及びX2の楽譜です. (クリック)アクティベーション行列H1の1本目と2本目に着目すると,(クリック)X1中のC4音を含む各部分に対応していることがわかります. これは他のスペクトルにも同様のことが言え,(クリック)3,4本目だとE4音,(クリック)5,6本目だとG4音にそれぞれ対応しています. (クリック)また,同じC4音のスペクトルでも図のように1本目と2本目では生じている時間に差がありますが,これは1本目がピアノの余韻部分を表し,2本目がピアノの鳴り初めの打撃部分を表しているためです.(5:50)
  13. 以上を踏まえて,共通基底行列Wと固有基底行列F1及びF2をみてみると,(クリック)各基底行列の1本目と2本目がC4音,(クリック)3本目と4本目がE4音,(クリック)5本目と6本目がG4音に対応する基底ベクトルとなります.(6:40)
  14. さらに詳しく見ていくと,(クリック)全行列の1本目の基底ベクトルはC4音の基本周波数261Hzの調波構造が見えていることがわかります. (クリック)2本目の打撃音に当たるスペクトルは,F1では調波構造が見えず,F2では調波構造が見えることから,X1とX2のC4音の鳴り始めに明確な差があることが分かります. 同様の現象は,(クリック)5本目と6本目のG4音のスペクトルでも見られます. (クリック)このように,直接スペクトルの共通成分や固有成分が抽出でき,音色の差異の定量的な議論が可能となります. (7:00)
  15. これはスペクトログラムとしてみた共通成分と固有成分です. カラーレンジは全てのスペクトログラムで統一しています. これをみると,共通成分WH1 及びWH2は比較的パワーが小さく,大部分が固有成分F1H1 及びF2H2 で表現されていることが分かります. もし基底数K が十分大きければ,WHが0になってしまい,固有成分だけでXを表そうとするので,今回の実験でも固有成分のパワーが多く出てしまっていることは現時点での提案手法の課題です. それでもなお,共通成分WHにはある程度の構造が抽出されており,提案手法が複数の音響信号間の共通・固有成分抽出に活用できる可能性を示しています.
  16. 最後にまとめです. 今回客観的かつ定量的に複数の楽器音信号の違いを議論するための音響特徴量抽出法として基底共有型NMF,通称BSNMFを提案しました. これを用いた実験では共通スペクトル成分及び固有スペクトル成分の抽出に成功しました. 本手法の課題として,基底数Kを増やすと固有成分におおよその音響特徴量が出てしまうため,楽器音信号間の差異をはかれないということが挙げられます. この問題はBSNMFに罰則項を付与することで解決できます. これにより,共通・固有成分の推定精度のさらなる向上が見込め,音色変換や,楽器音の識別などへの応用が期待できます.
  17. 次に,詳細な実験条件についての説明です. 本実験も音響特徴量抽出実験と同じく,MIDI音源で作成した楽器音信号X1及びX2を用いて実験を行いました. 各音響信号は,異なる2種類のピアノ音源Iowa Piano及びSketch Upright Pianoにより電子的に生成しています. STFTの窓長及びシフト長はそれぞれ92.9 ms及び23.2 msとし,窓関数はHamming窓を用いました. また,更新式の反復回数は1000回,基底数は表に示した通り楽譜により変更し,音色変換後の音質が最良となるように調節しました. 提示音源数は前ページで述べた通り24個です. 主観評価実験の被験者には10代~30代の健全な聴力を持つ,2年以上の楽器経験者全14名を対象としました.