SlideShare a Scribd company logo

周波数双方向再帰に基づく深層パーミュテーション解決法

蓮池郁也, 北村大地, 渡辺瑠伊, 川口翔也, "周波数双方向再帰に基づく深層パーミュテーション解決法, " 電子情報通信学会 第37回信号処理シンポジウム, A13-2, pp. 308–313, 新潟, 2022年12月(査読無).

1 of 32
Download to read offline
第37回信号処理シンポジウム
2022年12月15日 9:20〜9:40
周波数方向再帰に基づく
深層パーミュテーション解決法
Deep Permutation Solver Based on Frequency
Bidirectional Recursion
蓮池 郁也*,北村 大地*,渡辺 瑠伊,川口 翔也*
*香川高等専門学校
北陸先端科学技術大学院大学
†
†
信号処理若手奨励賞審査対象
2
• 音源分離とは
– 音声,雑音,歌声,楽器音,機械音等の音源を個々に分離
• 音源分離の応用先
⁃ 音声認識
⁃ AI スピーカー
⁃ 補聴器の高機能化
⁃ ノイズキャンセリング etc.
はじめに
音源分離
3
• ブラインド音源分離 (blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– 優決定BSS(マイク数≧分離したい音源の数)
• 混合系が正方行列にできるので逆行列が定義可能
• 線形分離が可能なため分離音の音質が良い
• 本研究では,優決定BSSについて取り扱う
– 高音質であり,様々な分野に適用可能
ブラインド音源分離
例. 独立成分分析(ICA) [Comon, 1994]
例. 独立ベクトル分析 (IVA) [Hiroe, 2006], [Kim+, 2006]
例. 独立低ランク行列分析 (ILRMA) [Kitamura+, 2016]
混合系
BSS
分離系
4
BSSの歴史
周波数領域独立成分分析 (FDICA) フルランク空間共分散分析 (FCA)
[Smaragdis, 1998] [Duong+, 2010]
パーミュテーション問題発生
独立ベクトル分析 (IVA) [Hiroe, 2006],
[Kim+, 2006]
補助関数IVA(AuxIVA)
[Ono, 2011]
独立低ランク行列分析(ILRMA)
[Kitamura+, 2016]
局所周波数領域に基づく深層パーミュ
テーション解決法 [Yamaji+, 2020]
パーミュテーション問題
を回避する手法
パーミュテーション問題を
解決する手法
提案手法
周波数間相関に基づく解決法
DOAに基づく解決法
[Saruwatari+, 2006]
[Murata+, 2001],
[Sawada+, 2004]
教師あり手法
教師なし手法
MLPを用いた深層パーミュテーション
解決法 [Hasuike+, 2022]
5
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– パーミュテーションを回避する手法
– 従来の深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
6
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– パーミュテーションを回避する手法
– 従来の深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ

Recommended

多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討Kitamura Laboratory
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
 

More Related Content

More from Kitamura Laboratory

時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...Kitamura Laboratory
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Kitamura Laboratory
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Kitamura Laboratory
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsKitamura Laboratory
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測Kitamura Laboratory
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システムKitamura Laboratory
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用Kitamura Laboratory
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用Kitamura Laboratory
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 

More from Kitamura Laboratory (20)

時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 

Recently uploaded

20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptxRyota Tamura
 
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料suda28
 
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)Junichi Akita
 
20240228_CATechLounge_FemTechが アツい話 .pdf
20240228_CATechLounge_FemTechが アツい話 .pdf20240228_CATechLounge_FemTechが アツい話 .pdf
20240228_CATechLounge_FemTechが アツい話 .pdfsumire0726bkk
 
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2ttakapi0327
 
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdfCTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdfkeita yanagawa
 

Recently uploaded (6)

20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
20240229-v-kansai-meetup-#15「Vue2からNuxt3へ移行した話」.pptx
 
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
そして広がるNotionの可能性 〜Notion APIを添えて〜 @MIERUNE BBQ #07 登壇資料
 
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
M5Stack用のつよつよ系負荷を駆動するUnit群(スイッチサイエンス年度末大感謝祭 240223)
 
20240228_CATechLounge_FemTechが アツい話 .pdf
20240228_CATechLounge_FemTechが アツい話 .pdf20240228_CATechLounge_FemTechが アツい話 .pdf
20240228_CATechLounge_FemTechが アツい話 .pdf
 
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
Svelte5でのevent受け渡し in Svelte Japan Offline Meetup #2
 
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdfCTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
CTOでもVPoEでもないエンジニアのポジションの取り方 ~事業にコミットして成果を出すという一つのやりかた~ROSCAFELT20240228.pdf.pdf
 

周波数双方向再帰に基づく深層パーミュテーション解決法

Editor's Notes

  1. 【0:10】 初めに,音源分離について説明します. 特定の音声を抽出したり,雑音,楽器音等の音の分離を行ったりすることを音源分離と呼びます. 音源分離の応用先としては,音声認識,AIスピーカー,補聴器の高機能化,ノイズキャンセリング等があります.
  2. 【0:25】 ブラインド音源分離について説明します. ブラインド音源分離とは混合系Aが未知の条件で分離系Wを推定する手法でありBSSと呼ばれます. BSSには,優決定BSSと呼ばれる条件があり.優決定BSSとはマイク数が分離したい音源の数以上であることを指します. 一般的に,優決定BSSは線形な分離が可能であるため,人工的な雑音等の歪みが少なく,音源分離に続く処理に対して悪影響を及ぼしにくいです. そのため,様々な分野に応用可能となっています. 本研究ではこの優決定BSSについて取り扱います.
  3. 【1:00】 これまで様々なBSSの手法が提案されてきました. 周波数領域独立成分分析FDICAやフルランク空間共分散分析FCAを適用した際にはパーミュテーション問題が発生します. パーミュテーション問題については後ほど詳しく説明します. パーミュテーション問題を回避する手法と解決する手法が提案されてきました. パーミュテーション問題を解決する手法として周波数間相関に基づく手法やDOAに基づく手法が提案されました. 2020年以降には,教師あり手法として深層学習を用いた手法が提案されました. 本発表では,新たな教師ありのパーミュテーション解決法を提案します.
  4. 【1:40】 こちらは本発表の目次になります.
  5. 【1:40】 まず,従来手法について説明します.
  6. 【1:45】 FDICAやFCAで生じるパーミュテーション問題について説明します. この図は奥行きが周波数で横軸が時間を示しています. FDICAは各周波数成分に対して独立なICAを行います.各周波数ごとに赤色と青色の音源が分離されていきますが,ICAは出力の順番を問わないためFDICAに適用した際に周波数毎に順番がバラバラになってしまう問題が生じます. これは,一般的にパーミュテーション問題と呼ばれ,この問題を解決するような手法が現在求められています. ここで,Y1とY2のように周波数ごとに成分がバラバラになっている信号を今後パーミュテーション不整合信号と定義します. 私はこのパーミュテーション問題に対して現在広い分野で用いられている深層学習(DNN)を用いて解決する手法を新たに提案します.
  7. 【2:40】 パーミュテーション問題を回避する手法について説明します. 独立ベクトル分析IVAや独立低ランク行列分析ILRMAは音源モデルに従って分離を行います. IVAでは,各信号源は全周波数成分の強弱が同期すると仮定し分離を行います. 一方でILRMAでは,各信号源は時間周波数構造が低ランクな構造を持つと仮定し分離を行います. これらの手法はパーミュテーション問題を回避しながら,分離行列を求めます.
  8. 【3:00】 しかしながら,こちらのボーカル,ドラム,ギターのように音源ごとに時間周波数構造は異なります. 音源モデルが音源に適していない場合,IVAやILRMAのBSSの精度は低下します. このように,様々な音源に適応するような万能な音源モデルを作成することは困難です. 一方で,パーミュテーション問題の解決のみを行うモデルであれば,様々な音源に適応するモデルを作成できる可能性があると考えています. これが,深層学習を用いてパーミュテーション問題を解決することの動機であり,深層パーミュテーション解決法が提案されました.
  9. 【3:40】 局所時間周波数構造に基づく深層パーミュテーション解決法では,パーミュテーション不整合信号のパワースペクトログラムを用意します. その後,参照周波数成分と近傍の周波数成分が一致しているかどうかを判断します. 推定結果が1の場合は参照周波数と近傍の周波数が異なる音源であることを示し,0の場合は同一音源であることを示します.
  10. 【4:00】 しかし,この手法は入力音源が増えるとアルゴリズムが複雑化します. 例えば3音源の場合,参照周波数成分と近傍の周波数成分の値が異なる音源であるとDNNが予測した場合に,どの組み合わせと一致するかが一意に定まりません. こちらの図では,一番上のDNNの予測が「1」であり,異なる音源といった予測結果になっていますが,どの音源の組み合わせと一致するのかがわかりません. そのため,音源数分の組み合わせの処理を行う必要があり,処理がかなり複雑になるといった問題点があります. そこで,私は新たに3音源以上になっても一般性をかけない深層パーミュテーション解決法を過去に提案しました.
  11. 【5:00】 こちらの手法は以前私が提案した,多層パーセプロトン(MLP)を用いた深層パーミュテーション解決法です. パーミュテーション不整合信号を並び替えるような,パーミュテーション行列をMLPを用いて予測します. 予測した推定パーミュテーション行列をパーミュテーション不整合信号の間で行列積をとることで分離信号を求めます. ただ,この手法では後に実験結果で示すようにブロックパーミュテーション問題にしか適用できないことが問題点として挙げられます.
  12. 【5:15】 ここからは提案手法について説明します.
  13. 【5:20】 # パーミュテーション行列の逆行列を推定を行います.これは,同じくパーミュテーション行列となるので,今後パーミュテーション行列と定義して説明します.←この文言欲しいかも. 提案手法の概要です. 分かりやすさのために2音源の例を用いて,提案手法の概要を説明していきます. ただ,3音源以上になっても同じ処理を考えることができます. FDICAを適用した後,推定分離行列W_hatを得ます. ただ,この行列はスケールとパーミュテーションの不定性が残っています. こちらの行列Dはスケールの不定性を表し,行列Pはパーミュテーションの不正性を表しており,これはパーミュテーション行列です. スケールの不定性を示す行列Dは,プロジェクションバック法を用いて解析可能です. パーミュテーションの不定性を解決するには,行列Pの逆行列を求める必要があります. 2音源の場合,行列Pの逆行列はこちらの2つになります. 提案手法では,パーミュテーション不整合信号を並び替えるようなパーミュテーション行列を周波数方向再帰に基づくDNN用いて推定します.
  14. 【6:20】 提案手法における前処理について説明します. 前処理として,パーミュテーション不整合信号に対して正規化処理を行います. 正規化処理はこの式で表すことができ,行列に対する絶対値記号は要素ごとの絶対値,ドット付き指数乗は要素毎の指数乗,分数は要素ごとの商を表しています. この処理を行うことで,同一音源の成分の相関を強調できるのと同時に,推定信号の値を0〜1の区間に限定することができ,DNNの学習が安定する効果があります.
  15. 【6:50】 DNNの構造について説明します. 正規化処理を行ったスペクトログラムから局所時間スペクトログラムを抽出したものをDNNの入力に用います. 各音源の周波数方向の関係性を明確に学習するために,周波数方向に対してBiLSTMを適用しました. 各BiLSTM層では,周波数ビンの順方向の特徴量と逆方向の特徴量を要素ごとに乗算しています. 3層のBiLSTM層の後は,次元を圧縮するために周波数ビン単位で全結合層を通しました. 出力層では,Softmax関数を用いて,各周波数成分の値が足して1になる制約を設けました.
  16. 【7:30】 パーミュテーション不整合信号を並び替えるために必要である,推定パーミュテーション行列を求める方法について説明します. 先ほど,DNNの出力として確率値を出力すると説明しました. この確率値はパーミュテーション行列の係数として,用いられます. 2音源を並び替えるようなパーミュテーション行列は,先ほど説明したように2種類ありそれは,この図の[1.0 ,0.0, 0.0, 1.0]と[0.0, 1.0, 1.0 0.0]にあたります. 3音源となるとこのパーミュテーション行列の数は6種類となり,音源数の階乗分,増加していくこととなります. DNNから出力された確率値を2つのパーミュテーション行列に係数としてかけ,それぞれの行列を足したものを推定パーミュテーション行列とします.
  17. 【8:20】 推定パーミュテーション行列を求めた後は,パーミュテーション不整合信号との間で行列積をとることで完全分離信号を求めることができます.
  18. 【8:30】 DNNの学習時には,推定分離信号と完全分離信号との間で平均二乗誤差MSEを導入し,損失を計上します. その際に,分離信号全体の順序は予測の対象としないため,順序不変学習(PIT)を導入します. PITとMSEを用いたLossの取得に関する式はこちらになります.
  19. 【8:50】 学習したDNNをテストデータに適用する際には,より精度を上げるために多数決処理を行います. パーミュテーション問題は時不変であるため,複数の局所時間スペクトログラムをDNNの入力とすることで複数の推定結果を得ることができます. 複数の推定パーミュテーション行列に対して多数決処理を行うことで,最終的に1か0で形成されたパーミュテーション行列を導き出します.
  20. 【9:20】 実験についてです.
  21. 【9:25】 提案手法の性能を評価するために,従来の深層パーミュテーション解決法とMLPを用いた深層パーミュテーション解決法との比較実験を行いました. 実験データには,SiSEC2011より男女の音声およびドラムとギターの音楽信号の4種類を使用しました.
  22. 【9:40】 学習データには音声および音楽信号の時間周波数信号を周波数ビン単位でランダムにシャッフルしたデータを用いました. シャッフルのパターンは150に設定しました. テストデータには学習データとは重複しない10パターンを用いてランダムに信号を入れ替えたデータを用いました. そして,音声と音楽の2つモデルを作成しました. その後,学習データとテストデータに同じ音源を用いるin-domainと異なる音源を用いるout-of-domainでのテストを行いました.
  23. 【10:20】 In-domainは,この図が示すように,パーミュテーション問題が生じている音声信号をDNNで学習し,そのモデルを学習データとは重複しないパーミュテーションパターンを持つ音声信号に適用することを指します. 学習に音楽信号を用いた場合は,テストも音楽信号で行います. 一方で,out-of-domainは,この図が示すように,パーミュテーション問題が生じている音声信号をDNNで学習し,そのモデルを音楽信号に適用することを指します. 学習に音楽信号を用いた場合は,テストに音声信号を用いました.
  24. 【10:55】 こちらはin-domainデータセットに対する実験結果です. 提案手法が音声信号と音楽信号に対して高精度でパーミュテーション問題が解決できていることが分かります.
  25. 【11:10】 こちらはout-of-domainデータセットに対する実験結果です. 音声信号のout-of-domainに対する実験結果では,従来法が高精度でパーミュテーション問題を解決できているのに対し,音楽信号のout-of-domainに対する実験結果では,提案法が高精度でパーミュテーション問題を解決していることが分かります.
  26. 【11:30】 こちらは音声信号のout-of-domainデータセットに対するスペクトログラムです. 左上から観測信号,従来手法,MLP法,BiLSTM法を示しています. MLP法は,全くパーミュテーション問題を解決できていないことがわかります.
  27. 【12:00】 続いて先ほどのスペクトログラムの重要な成分が含まれている低周波数領域に注目してみます. BiLSTM法は,従来手法と比較すると低周波領域においてパーミュテーション問題を解決できていないことが確認できます.
  28. 【12:15】 こちらは音楽信号のout-of-domainデータセットに対するスペクトログラムです. MLP法は,全くパーミュテーション問題を解決できていないのに対して,BiLSTM法はほとんど完璧に解決できていることがわかります.
  29. 【12:30】 低周波数領域を拡大した図がこちらになります. この図を見ると,BiLSTM法が一番パーミュテーション問題を解決できていることがわかります. パーミュテーション問題が生じている観測信号の音声はこちらになります. 続いてMLP法です. 続いて従来手法です. 続いて提案手法です. 音声を聞いてみると提案手法が一番パーミュテーション問題を解決できていることがわかります.
  30. 【13:40】 最後にまとめです.
  31. 低周波数領域を拡大した図がこちらになります. この図を見ると,BiLSTM法が一番パーミュテーション問題を解決できていることがわかります.
  32. 【14:00】 こちらまとめになります. 以上で発表を終わります. ご清聴ありがとうございました.