SlideShare a Scribd company logo
Submit Search
Upload
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
Report
Share
Kitamura Laboratory
Kitamura Laboratory
Follow
•
0 likes
•
61 views
1
of
20
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
•
0 likes
•
61 views
Report
Share
Download Now
Download to read offline
Engineering
山地修平, "局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価," 香川高等専門学校専攻科電気情報工学科コース 特別研究論文, 36 pages, 2021年1月.
Read more
Kitamura Laboratory
Kitamura Laboratory
Follow
Recommended
非負値行列因子分解を用いた被り音の抑圧 by
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
134 views
•
33 slides
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
5.9K views
•
27 slides
Evaluation of separation accuracy for various real instruments based on super... by
Evaluation of separation accuracy for various real instruments based on super...
Daichi Kitamura
676 views
•
29 slides
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura
1.7K views
•
22 slides
音楽信号処理における基本周波数推定を応用した心拍信号解析 by
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
418 views
•
21 slides
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m... by
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura
1.2K views
•
19 slides
More Related Content
What's hot
ILRMA 20170227 danwakai by
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
14.7K views
•
73 slides
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
1.8K views
•
24 slides
Optimal divergence diversity for superresolution-based nonnegative matrix fac... by
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura
566 views
•
23 slides
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
5.9K views
•
48 slides
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
4.1K views
•
26 slides
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
4.3K views
•
28 slides
What's hot
(20)
ILRMA 20170227 danwakai by SaruwatariLabUTokyo
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
•
14.7K views
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
•
1.8K views
Optimal divergence diversity for superresolution-based nonnegative matrix fac... by Daichi Kitamura
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura
•
566 views
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by Daichi Kitamura
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
•
5.9K views
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
•
4.1K views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
•
4.3K views
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Kitamura Laboratory
•
192 views
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
•
1.5K views
Kameoka2016 miru08 by kame_hirokazu
Kameoka2016 miru08
kame_hirokazu
•
2K views
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
Kitamura Laboratory
•
127 views
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by Daichi Kitamura
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Daichi Kitamura
•
1.1K views
Divergence optimization based on trade-off between separation and extrapolati... by Daichi Kitamura
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
•
917 views
Study on optimal divergence for superresolution-based supervised nonnegative ... by Daichi Kitamura
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura
•
1K views
音源分離における音響モデリング(Acoustic modeling in audio source separation) by Daichi Kitamura
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
•
22.5K views
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura
•
2.9K views
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
•
184 views
Kameoka2012 talk07 1 by kame_hirokazu
Kameoka2012 talk07 1
kame_hirokazu
•
3.2K views
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
•
3.5K views
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
•
5.9K views
Asj2017 3invited by SaruwatariLabUTokyo
Asj2017 3invited
SaruwatariLabUTokyo
•
15.5K views
More from Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
69 views
•
26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
67 views
•
23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
40 views
•
17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
79 views
•
19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
43 views
•
17 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
46 views
•
32 slides
More from Kitamura Laboratory
(20)
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
•
69 views
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
•
67 views
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
•
40 views
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
•
79 views
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
•
43 views
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
•
46 views
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...
Kitamura Laboratory
•
62 views
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...
Kitamura Laboratory
•
29 views
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
Kitamura Laboratory
•
110 views
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
59 views
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Kitamura Laboratory
•
131 views
深層パーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
141 views
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
•
413 views
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...
Kitamura Laboratory
•
126 views
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...
Kitamura Laboratory
•
99 views
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure models
Kitamura Laboratory
•
315 views
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測
Kitamura Laboratory
•
177 views
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム
Kitamura Laboratory
•
96 views
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用 by Kitamura Laboratory
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
Kitamura Laboratory
•
77 views
スペクトログラム無矛盾性に基づく独立低ランク行列分析 by Kitamura Laboratory
スペクトログラム無矛盾性に基づく独立低ランク行列分析
Kitamura Laboratory
•
160 views
Recently uploaded
how query cost affects search behavior translated in JP by
how query cost affects search behavior translated in JP
Tobioka Ken
9 views
•
16 slides
図解で理解するvetKD by
図解で理解するvetKD
ryoo toku
86 views
•
22 slides
システム概要.pdf by
システム概要.pdf
Taira Shimizu
40 views
•
1 slide
AIで始めるRustプログラミング #SolDevHub by
AIで始めるRustプログラミング #SolDevHub
K Kinzal
22 views
•
25 slides
onewedge_companyguide1 by
onewedge_companyguide1
ONEWEDGE1
27 views
•
22 slides
SSH超入門 by
SSH超入門
Toru Miyahara
363 views
•
21 slides
Recently uploaded
(9)
how query cost affects search behavior translated in JP by Tobioka Ken
how query cost affects search behavior translated in JP
Tobioka Ken
•
9 views
図解で理解するvetKD by ryoo toku
図解で理解するvetKD
ryoo toku
•
86 views
システム概要.pdf by Taira Shimizu
システム概要.pdf
Taira Shimizu
•
40 views
AIで始めるRustプログラミング #SolDevHub by K Kinzal
AIで始めるRustプログラミング #SolDevHub
K Kinzal
•
22 views
onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1
ONEWEDGE1
•
27 views
SSH超入門 by Toru Miyahara
SSH超入門
Toru Miyahara
•
363 views
lt.pptx by tomochamarika
lt.pptx
tomochamarika
•
80 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦
•
122 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self Introduction
NajahMatsuo
•
7 views
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
1.
局所時間周波数構造に基づく 深層パーミュテーション解決法の実験的評価 北村研究室 AS2 40 山地 修平
2.
はじめに 音源分離とは 音源分離の応用先 •
音声認識 • スマートスピーカー • 補聴器の高性能化 2 音源分離 補聴器 スマート スピーカー
3.
ブラインド音源分離 独立成分分析(ICA)とは? 3 ならば となり分離可能 ここで 独立信号
混合信号 推定信号 実際の混合は残響による畳込み混合 周波数領域へ拡張(frequency domain ICA: FDICA)
4.
FDICAとパーミュテーション問題 FDICAの問題点 • 周波数毎に音源成分(赤青)が入れ替わる可能性がある •
この不定性はパーミュテーション問題と呼ばれている 4 FDICA All frequency components Source 1 Source 2 Observed 1 Observed 2 Estimated signal Estimated signal Non-aligned signal Permutation Solver Time
5.
特別研究Ⅰ 局所時間周波数構造に基づく 深層パーミュテーション解決法[Yamaji., 2020]
問題点 • 実際のFDICAでは,完全に分離されていない周波数ビンも存在する • 中間周波数ビンで1回でもパーミュテーション解決を誤ると 分離精度が大きく劣化する可能性がある 5 Time Separated signal Non-aligned signal Non-aligned signal Separated signal DNN DNN
6.
入力 • 分離信号から2つの周波数の短時間時系列パワーを抽出&結合
出力 • DNNの入出力 6 例) と の短時間時系 列パワーを抽出 0(同一音源) 1(異なる音源) Time Frequency
7.
シンプルな全結合構成 DNNモデルの構成 7 Hidden Layer 1 (128 units) ReLU Input Layer (160 units) Hidden Layer 2 (128 units) ReLU Hidden Layer 4 (64 units) ReLU Hidden Layer 3 (128 units) ReLU Hidden Layer 5 (64 units) ReLU Hidden Layer 6 (1 units) Sigmoid Output Layer (1 units) Target label (1 units) Minimum MSE 0 or 1
8.
パーミュテーション解決の流れ • サブバンド領域でパーミュテーション解決 •
上記処理を時間方向及び周波数方向に走査 DNN DNN DNN DNN DNN DNN 提案手法の全体像 8 Time Frequency Separated signal Non-aligned signal
9.
DNNに基づいたパーミュテーション解決 • パーミュテーション問題が発生した周波数は推定結果が1 •
推定結果が1の周波数成分のみ入れかえ → サブバンド領域でのパーミュテーション解決 Time Frequency … DNN DNN 1 : Diff. 1 : Diff. 0 : Same 1 : Diff. 0 : Same Input vector DNN outputs … DNN … … サブバンド領域でのパーミュテーション解決 9 入力ベクトル DNN推定結果 1 : 異なる音源 1 : 異なる音源 0 : 同一音源 1 : 異なる音源 0 : 同一音源
10.
Time Frequency 1 1 0 1 0 1 1 0 1 0 1 1 0 1 0 Majority decision 1 1 0 1 0 Stride … DNN outputs Subband permutation vector DNN推定結果 サブバンド ベクトル 多数決処理 時間方向への多数決処理 パーミュテーション問題の不変性 •
パーミュテーション問題は全時間フレームで固定 → DNNの正解値は変わらない 10
11.
フルバンドベクトルの構成方法 サブバンド領域間での対応付けの必要性 • 各サブバンド領域では,中心周波数の成分を基に並び変えられる •
すべてのサブバンド領域で,音源順の統一が必要 11 が中心周波数 が中心周波数
12.
Time Frequency 1 1 0 1 0 1 1 0 1 0 1 1 0 1 0 1. Set Fullband permutation vector 2. Set フルバンドベクトルの構成(1/3) 12 フルバンド ベクトル 1.セット 2.セット フルバンド ベクトル
目的 • 各領域のサブバンドベクトルを用いて,音源と ”0” 及び ”1” が 統一したフルバンドのパーミュテーションベクトルを構成する STEP1 • 最も低い周波数のサブバンドベクトルによって, 音源と ”0” 及び “1” の対応を決定
13.
13
14.
STEP2 • 隣接周波数における •
MSEが小さい方をメモリに格納周波数毎に多数決を行いフルバンド ベクトルを更新 Time Frequency 1 0 0 1 0 1 1 0 1 0 0 1 1 0 1 0 1 1 0 1 0 2. Set 0 1 1 0 1 1. Similarity comparison 3. Majority decision Fullband permutation vector フルバンド ベクトル 1.類似度比較 1.類似度比較 2.セット 3.多数決処理 フルバンドベクトルの構成(2/3) 14 フルバンドベクトル の対応部と平均二乗誤差(MSE)で比較 サブバンドベクトル 論理反転ベクトル の2つのベクトルを
15.
フルバンドベクトルの構成(3/3) STEP3 • 最終的に構成されたフルバンドベクトルをもとに, 周波数成分を入れ替えてパーミュテーション解決 15 1 1 0 1 0 0 1 1 0 1 1 0 0 1 1 0 0 1 1 0 1 0 0 1 1 0 1 0 Majority decision Time Frequency Replace Fullband permutation vector フルバンド ベクトル 多数決処理 入れ替え
16.
実験条件 16 θ1 2 m 5.66 cm Source
1 Source 2 θ2 学習用音声信号 JVSコーパスの音声信号にRWCPデータベースのマイクアレー インパルス応答を畳み込んで作成,2チャネルで2音源の混合信号 テスト用音声信号 SiSEC2011の音声信号にRWCPデータベースのマイクアレー インパルス応答を畳み込んで作成,2チャネルで2音源の混合信号 比較手法 理想的にパーミュテーション解決されたFDICA, 独立低ランク行列分析(ILRMA)(基底数2,3及び4) FFT長 8192 点 (512 ms, ハミング窓) スライド長 2048 点 主観評価値 SDR改善値 残響時間 470 ms 学習用 音源到来方向 テスト用 音源到来方向
17.
実験結果 17 Good Poor SDR improvement [dB] FDICA + IPS (reference) FDICA + Proposed method ILRMA (2 bases) ILRMA (3 bases) ILRMA (4 bases) FDICA + IPS (reference) FDICA + Proposed method ILRMA (2 bases) ILRMA (3 bases) ILRMA (4 bases) FDICA + IPS (reference) FDICA + Proposed method ILRMA (2 bases) ILRMA (3 bases) ILRMA (4 bases) 0 -2 -4 2 4 6 8 10 12 14
18.
発表文献 査読付き国際発表 1. Shuhei
Yamaji and Daichi Kitamura, “DNN-based permutation solver for frequency-domain independent component analysis in two-source mixture case,” Proceedings of Asia-pacific signal and information processing associationannual summit and conference, 2020. 国内発表 1. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解 決法,” 日本音響学会2020年春季研究発表会講演論文集, pp. 317-320, 2020. 2. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解 決法の実験的評価,” 日本音響学会2020年秋季研究発表会講演論文集, pp. 265- 268, 2020. 18
19.
まとめ 本研究では • 実際のFDCIAの分離信号であっても,パーミュテーション解決が 可能なモデルへと拡張した •
高残響の音声混合信号で実験を行い,平均的に8dB程度のSDR改善量 を達成した 今後の課題 • 現在のアルゴリズムでは3音源以上の分離信号に対して 組み合わせ爆発を起こす 19
20.
デモンストレーション 20 源信号 観測信号 理想的に解決したFDICA 提案手法を用いたFDICA Ch1 Ch2
Editor's Notes
はじめに 本研究では音源分離を扱っており,この音源分離とは,様々な音が混ざった状態から,ひとつひとつの音へ分離する技術です. たとえば,複数人が同時に発話した内容をそれぞれの音声に分けたい場合に,役立つような技術です. 近年では,スマートスピーカーのような音声認識技術を用いた製品が増えている中で, 雑音などに起因した,音声認識精度の低下を回避するためにも,目的話者のみのクリアな単一音声信号が求められています. その他にも,イヤホンのノイズキャンセリング機能のように,人間の聴覚機能をサポートする面でも音源分離の応用先は数多く存在します.
ブラインド音源分離次に音源分離のなかでも,本研究で扱っている独立成分分析について説明します この図では解説のために独立信号を S, 今後信号を X, 分離された推定信号をY と定義します. またtは時間を表しています.ここで 混合信号Xは混合系をあ表す行列Aを用いてASで表すことができ. 同様に分離信号Yも分離行列Wを用いてWXで表せます.この分離行列Wが混合行列Aのインバースになるように推定を行うことで音源の分離を行いますが,実際はAは分からないので,音源の統計的性質から推定します. しかし,実際の混合信号には残響がかかり,残響は時間領域では畳み込み混合として考えられ, 音源分離の際に逆畳み込みを計算することは簡単ではありません. そこで,畳み込み混合を時間領域ではなく,周波数領域で掛け算として扱うことでこの問題を解決する,FDICAと呼ばれる手法がが開発されました.
FDICAとパーミュテーション問題 そのイメージ図がこちらになります . ここにある各信号は,時間領域の信号に短時間フーリエ変換を適用した,時間周波数領域の信号を表しており,よこ軸が時間,縦軸が周波数表しています. FDICAでは,周波数ごとの成分を分離する様にICAを適用します. その結果,この図の真ん中のように,同じ周波数ごとに見ると分離はできていますが, 全体としては周波数ごとに音源の順番がバラバラになっていることがわかります. この問題はパーミテーション問題と呼ばれており FDICA の課題とされています.本研究ではこのパーミテーション問題を扱っており,図の右側のように周波数毎の成分を同じ音源成分に統一させるようなパーミテーションソルバを作ることが目的となっております.
先行研究 次に特別研究Ⅰの内容について説明します 特研Ⅰの研究発表では,これまでの成果として(DNN)を用いたパーミテーション解決方を新たに提案しました . その時は,隣接した二つの周波数における時系列信号をDNNに入力し,その入力のパーミュテーションが正しいか否かを推定するモデルを作成しました. そして,そのモデルを全ての周波数に順番に走査していくことで,パーミュテーション解決を行うといったものでした. しかし,過去の提案手法の課題点としましては, FDICIA が理想的に分離を行った時以外は失敗する可能性があること. また,DNN推定を順番に走査していくなかで,途中の周波数で一回でも間違えてしまうと,(click) それ以降の周波数がすべてひっくり返る可能性,がありました. そこで本研究では,これらの課題点を解決することを目的とし, 特別研究1の手法を,実際のFDCIA の分離結果でも適用できるように,より頑健なモデルへ拡張しました. 1:00
DNNの入出力次に本研究で用いた深層学習の入力と出力について解説します. この話は前回の中間発表と同じです. まずFDICAを適用したパーミュテーション問題が残る分離信号Y1Y2から,(click) 二つの周波数の短時間時系列パワーを抽出し結合します. さらに結合したベクトルに正規化を行い,DNNへ入力しています. 深層学習の出力は,入力された二つの周波数成分が 同一音源の場合は0を,異なる音源の場合は1を出力するように学習されます. 例として,この図の場合は,選ばれた二つの周波数,f3とf5を確認すると, f3は赤色の音源なのに対し f5は青色の音源であるためパーミテーション問題が発生しており,1が出力されるように学習されます.
DNNの構成 提案するDNNの構造は,入力層,隠れ層6層,及び出力層の計8層からなる全結合構成となっており, 1~5番目の隠れ層には ReLU関数,最終隠れ層にはsigmoid関数を適用しています. 予測結果と正解ラベルとの誤差関数には,平均二乗誤差を使用しています.
提案手法について 次に深層学習の推定結果をパーミュテーション解決にどのように用いるかについて解説します. 全体の流れとしては,(click) まずはじめにサブバンド領域でのパーミテーション解決を行います. その次のステップで,(click) サブバンド領域の推定を時間方向と周波数方向に走査していき,フルバンドでのパーミテーション解決を行います. ここで,サブバンド領域とは,全周波数が8000Hz近くある中の60Hz程度の局所的な範囲をサブバンド領域と呼んでおります
サブバンド領域でのパーテーション解決はこの図のように処理されます. ここでは例として周波数が F 1から F 5までのサブバンド周波数帯域 におけるパーミテーション解決を図に表しています ここでDNNの入力として二つの周波数を選択するわけですが, そのうち1つを参照周波数として,サブバンド領域の中心に位置する周波数f3に固定します. もう1方の周波数はサブバンド領域内のいずれか1つを選択します. 結果として,f3とf5,f3とf4の様に,参照周波数を基準とした2本の時系列パワーの全組み合わせでDNN推定を行います. これによってサブバンド領域内の周波数毎の成分が,参照周波数の成分と同一音源または異なる音源かがわかります. このようにして,サブバンド領域 におけるパーミテーション解決が行われます. 2:00
時間方向への多数決(8) 次に時間方向の多数決処理について解説 します. ここでは,この図のようにDNN入力ベクトルの選択範囲を時間方向にシフトさせることで全時間フレームにDNN推定を走査します ここでパーミテーション問題の発生箇所は時間軸に沿って 常に一定になってることが分かります. そのため 入力ベクトルの選択範囲を時間方向に ずらしても DNN の正解値は変わりません 最後に,それぞれの時間フレームにおける DNNの予測結果を周波数ごとに多数決を取ることで,予測誤差の悪影響を大幅に軽減したサブバンパーミュテーションドベクトルを得ることができます. 0:50
フルバンドベクトル ここではサブバンド領域の解決結果を用いた,フルバンドのパーミュテーション解決について解説します. これまでのサブバンド領域でのパーミュテーション解決は,あくまでも中心周波数の成分をもとに並び替えられています. そのため,あるサブバンド領域では赤い音源を元にパーミテーション解決を行っているのに対し, その隣接したサブバンド領域では,青い音源をもとにパーミュテーション解決を行っていると言ったことが発生します. その結果この図のように,サブバンド領域間での音源の順番が反転する可能性があります. この問題を解決するため,全てのサブバンド領域の推定結果において,0を赤い音源,1を青い音源のように統一する必要があります.
STEP1(10分弱) 以降は,実際のフルバンドベクトルの構成方法について解説します. まずステップ1では,最も低いサブバンド領域の DNN 推定結果を メモリとフルバンドベクトルの対応する周波数に格納します. この時に音源と01の対応関係が決定されており,この図の場合は ゼロが赤い音源, 1が青い音源となっています. また,これ以降のサブバンド領域においても, 音源と01の対応関係が統一されるように処理が行われます.
STEP2 ステップ2では先ほどと隣接しているサブバンド領域を考えます. ここでは単純な DNNの推定結果であるサブバンドベクトルと,その論理反転ベクトルの二つのベクトルを用意します. これら2種類を現在のフルバンドベクトルの対応する部分と,平均二乗誤差を用いて比較し, その値の小さい方をメモリに格納します. 最後にメモリを参照して,周波数ごとに多数決を行いフルバンドベクトルを更新します.
STEP3 step2の処理を反復的に繰り返すことで完全なフルバンド ベクトルが推定されます. 求められたフルバンドベクトル基づいて周波数成分を入れ替える事で,パーミュテーションの解決を行います. 以上が,提案手法の内容になります.
実験条件(11:20) 提案したパーミュテーション解決法を評価するために, 残響の強い,音声混合信号を用いて評価実験を行いました.. 実験では,パーミュテーション問題が理想的に解決されたFDICA ,ブラインド音源分離の性能が良いとされるILRMA ,及び提案手法を用いたFDICA の3 手法を比較しました. 実験に用いた混合信号は,下の図のように,「異なる2つの角度から到来する音声を2つのマイクで録音する」状況をシミュレーションして作成しています. 使用する角度の組み合わせは,学習用音声信号には60度と120度の1種類を,テスト用音声信号には60と120,70と110及び60と100の3種類を使用しました. そのため,提案手法のパーミュテーション解決性能だけでなく,「学習用データの音源到来方向に依存するか否か」,についても注目した実験となっています. また,シミュレーション内における部屋の残響長は,470msとなっています.
実験結果 実験結果です. この図は,各提案手法の分離性能を表しており,それぞれの箱ひげ図は,56個の分離結果から作成されています. 図の縦軸は,SDR改善量をしめしており,この値が高いほど,高精度な分離ができているという指標になっています. 青色でプロットされているものは,本来は未知であるはずの音源信号を用いることで,パーミュテーション問題を完璧に解決したFDICAです. そのため,平均的に10dB 以上の改善を達成しておりますが,あくまでもFDICAの上限性能及び参考値となっています. ILRMA の分離性能は,いずれの音源到来方向においても平均的に4dB 程度の改善であることが確認できます. この結果から,高残響下にある音声混合信号の分離タスクに対して,ILRMAはしばしば分離に失敗している事がわかります. 一方で,提案手法を用いたFDICA は,平均的に8dB 以上の改善を達成しており, うまく分離できた場合は,SDR改善量が13dBに達成するなど,青色の上限性能に比較的近い性能も示しています.しかし,DNNの推定間違いなどが原因で並び替えに失敗することもあり,その場合は,0dB以下のSDR改善量となることが確認できました. 次に音源到来方向の違いによる,分離性能の差,に注目します. 実験条件でも説明した通り,学習用データの音源到来方向は(60度と120度)の組み合わせのみであり, (70度と110度)及び(60度と100度)の組み合わせは学習データに含まれておりません. しかしながら,グラフから分かるように,いずれの音源到来方向であっても,パーミュテーション解決性能には大きな差がありませんでした. これは,DNNの学習データに,あらゆる到来方向の組み合わせを準備することが,現実的には不可能であることを考えると, 音源到来方向に依存しないという面で,大きな利点であると考えられる.
発表文献 以上の研究成果をもって,これらの学会で発表を行いました.
まとめ まとめです 本研究では特別研究1の課題を解決し,実際の FDICA の後処理として適用できるように,拡張を行いました. 拡張された提案手法は,平均的にILRMAを上回る分離性能であること示しました. また,音源の到来方向に依存しないことから,FDICAの一般的な後処理として,適用可能であることも実験的に示した. その一方で,現時点では3音源以上の分離信号には適用できないことが課題として挙げられます.そのため,今後はより多くの音源に適応できるように,DNNの拡張や,並び替えアルゴリズムの改良が必要であると考えます.