深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討

Kitamura Laboratory
Kitamura LaboratoryKitamura Laboratory
応用音響研究会
2022年5月13日 16:50〜17:15
深層ニューラルネットワークに基づく
パーミュテーション解決法の基礎的検討
Basic study for permutation solver based on
deep neural networks
香川高等専門学校
蓮池 郁也,渡辺 瑠伊,北村 大地
2
• 音源分離とは
– 音声,雑音,歌声,楽器音,機械音等の音源を個々に分離
• 音源分離の応用先
⁃ 音声認識
⁃ AI スピーカー
⁃ 補聴器の高機能化
⁃ ノイズキャンセリング etc.
はじめに
3
ブラインド音源分離
• ブラインド音源分離 (blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– 優決定BSS(マイク数≧分離したい音源の数)
• 混合系が正方行列にできるので逆行列が定義可能
• 線形分離が可能なため分離音の音質が良い
• 本研究では,優決定BSSについて取り扱う
– 高音質であり,様々な分野に適用可能
例. 独立成分分析(ICA) [Comon, 1994]
例. 独立低ランク行列分析 (ILRMA) [Kitamura+, 2018]
例. 時間周波数マスクに基づくBSS (TFMBSS) [Yatabe+, 2019]
混合系
BSS
分離系
4
本発表の概要
• 従来の音源分離手法(代表的な手法を掲載)
• 深層パーミュテーション解決法[Yamaji+, 2020]
– 入力が2音源に限られ,3音源以上への拡張は複雑
• 本発表では,3音源以上でも一般性を失わない深層パー
ミュテーション解決法を提案
周波数領域ICA(FDICA) フルランク空間共分散分析(FCA)
[Smaragdis] [Duong+]
パーミュテーション問題発生
独立ベクトル分析(IVA) [Hiroe], [Kim+]
補助関数IVA(AuxIVA) [Ono]
独立低ランク行列分析 (ILRMA) [Kitamura+]
深層パーミュテーション解決法 [Yamaji+]
パーミュテーション問題を回避 パーミュテーション問題を解決
提案手法
独立深層学習行列分析 [Makishima+]
時間周波数マスクBSS [Yatabe+]
周波数間相関に基づく解決法
DOAに基づく解決法 [Saruwatari]
[Murata], [Sawada]
5
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
6
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
7
• 独立成分分析(independent component analysis: ICA)[Comon, 1994]
– 混合行列 が未知の条件で分離行列 を推定
– 2つの仮定を用いて分離行列 を推定
• 1. 独立成分は互いに独立(音源は多くの場合独立)
• 2. 混合行列は可逆で時不変(優決定,音源やマイクは移動しない)
– 分離信号の順番(パーミュテーション)は決定できない
音源間の独立性に基づくBSS:ICA
混合行列
音源信号 混合信号
1. 互いに独立
2. 可逆で時不変
分離行列
逆行列
実際の混合は残響による畳み込み混合である
8
ICAに基づくBSSの耐残響性の向上
• 周波数領域ICA(FDICA)[Smaragdis, 1998]
– 各周波数ビンの複素時系列に対して独立なICAを適用
スペクトログラム
ICA1
ICA2
ICA3
…
…
ICA
Frequency
Time
…
逆行列
周波数領域の時不変
瞬時混合行列
9
• FDICAにおけるパーミュテーション問題
– 各周波数ビンで推定信号の順序がバラバラになる
周波数領域ICA(FDICA)
ICA
全て時間周波数
領域の信号
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2
Time
パーミュテーション
不整合信号1
パーミュテーション
不整合信号2
各周波数では音源分離されているが,分離信号の順序が周波数間
で不揃いになっている状態(パーミュテーション問題)
10
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
11
IVAとILRMA
• 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim+, 2006]
– 各信号源は全周波数成分の
強弱が同期すると仮定
• 独立低ランク行列分析(ILRMA)[Kitamura+, 2016]
– 各信号源は時間周波数構造が
低ランクな構造(繰り返しを多分
に含む)を持つと仮定
Time
Frequency
IVAの音源モデル
M
icrophone
Frequency
ILRMAの音源モデル
Time M
icrophone
どんな音源にも対応できる万能な音源モデルを
作成するのは難しい
12
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
13
先行研究:深層パーミュテーション解決法
• 局所時間周波数構造に基づく深層パーミュテーション解
決法の実験的評価 [Yamaji+, 2020]
– DNNを用いて参照周波数成分と近傍の周波数成分が一致して
いるか異なるかを判断
– 推定結果が1の場合は周波数成分が異なる
Time
Frequency
…
DNN
DNN
1 : Diff.
1 : Diff.
0 : Same
1 : Diff.
0 : Same
Input vector
DNN
outputs
…
DNN
…
…
入力ベクトル DNN推定結果
1 : 異なる音源
1 : 異なる音源
0 : 同一音源
1 : 異なる音源
0 : 同一音源
14
先行研究:時間方向への多数決処理
• パーミュテーション問題の不変性
– パーミュテーション問題は全時間フレームで固定
– 入力ベクトルを時間方向にずらし多数決を取ることで,分離精
度向上
Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
Majority
decision
1
1
0
1
0
Stride
…
DNN
outputs
Subband
permutation
vector
DNN推定結果
サブバンド
ベクトル
多数決処理
15
Time
Frequency
1
0
0
1
0
1
1
0
1
0
0
1
1
0
1
0
1
1
0
1
0
2. Set
0
1
1
0
1
1. Similarity comparison
3.
Majority
decision
Fullband
permutation
vector
フルバンド
ベクトル
1.類似度比較
1.類似度比較
2.セット
3.多数決処理
Time
Frequency
1
0
0
1
0
1
1
0
1
0
0
1
1
0
1
0
1
1
0
1
0
2. Set
0
1
1
0
1
1. Similarity comparison
3.
Majority
decision
Fullband
permutation
vector
フルバンド
ベクトル
1.類似度比較
1.類似度比較
2.セット
3.多数決処理
DNN
2音源の入力に限定
• サブバンド領域をDNNに入力し,取得した結果に対して
多数決処理
– 周波数方向に対して多数決処理を施す
– フルバンドベクトル作成時には,類似度比較を行う
先行研究:フルバンドベクトルの作成
16
Time
Frequency
DNN
DNN
Input vector
DNN
outputs
・
・
・
・
・
・
・
・
・
1 : 異なる⾳源
1 : 異なる⾳源
0 : 同⼀⾳源
1 : 異なる⾳源
0 : 同⼀⾳源
先行研究:3音源以上でアルゴリズムが複雑化
• 入力が3音源以上での問題点
– DNNの予測が「1:異なる音源」の時,音源の組み合わせが一
意に定まらない
音源の組み合わせ
が不明
音源数分の組み合わせの処理を行う必要があり,
処理が複雑になる
入力ベクトル 出力ベクトル
17
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
18
• パーミュテーション不整合信号を並び替えるようなパー
ミュテーション行列をDNNを用いて予測
– 行列積を用いて分離信号を推定
提案手法の概要
DNNを用いて推定
行列積
解析可能
推定する
2音源のパーミュテーション行列
19
前処理
• パーミュテーション不整合信号 に対して正規化処理を
行う [Sawada+, 2007]
– 同一音源の成分の相関を強調できる
– DNNの入力の値を区間 [0,1] に制限できる
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Frequency
Frequency
Time
Frequency
Time
Time
Time
20
提案手法におけるDNNの入力
• 正規化パーミュテーション不整合信号 から局所時間
のスペクトログラム を抽出
– から各時間ごとに成分を抽出し一次元にしたものをDNNの
入力ベクトルに用いる
21
DNNの構造
• DNNは入力層,隠れ層3層,出力層の計5層で構成
– 出力層にSoftmax関数をかけて,各周波数成分の値が足して1
になる制約を設けた
Frequency
1.0
0.1
0.9
0.1
0.5
0.0
0.9
Frequency
0.0
0.1
0.9
0.9
0.1
0.5
1.0
入力ベクトル
全結合層
全結合層
出力層
出力層
全結合層
3層の隠れ層
出力ベクトル
2個の出力層 出力行列
22
推定パーミュテーション行列の導出
• DNNの出力値(確率値)を用いて,推定パーミュテーショ
ン行列 を作成
– 確率値をパーミュテーション行列の係数として考える
– 2音源の場合,2つのパーミュテーション行列を足し合わせて推
定パーミュテーション行列を作成
推定パーミュテーション
行列へ変換
Frequency
1.0
0.1
0.9
0.1
0.5
0.0
0.9
Frequency
0.0
0.1
0.9
0.9
0.1
0.5
1.0
23
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
24
局所時間における推定分離信号の導出
• 推定パーミュテーション行列と局所時間スペクトログラム
との間で行列積を取り,推定分離信号を作成
– パーミュテーション行列の値によっては2つの音源が混じった成
分が作成される
行列積
25
損失の導出方法
• 損失関数の設計
– 推定分離信号と完全分離信号との間で平均二乗誤差(mean
squared error: MSE)を導入
– 分離信号の順序は予測の対象としないため,順序不変学習
(permutation invariant training: PIT)[Yu+, 2017]を導入
Frequency
Time Time
Frequency
Time Time
Frequency
Frequency
MSE & PIT
26
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
27
Frequency
Time
Frequency
Time
テストデータに対する多数決処理
• 各局所時間スペクトログラムに対してDNNで予測を行い
多数決処理を施す
多数決処理
パーミュテーション
行列へ変換
パーミュテーション
行列へ変換
パーミュテーション
行列へ変換
28
推定分離信号の導出
• パーミュテーション不整合信号の並び替え
– DNNが予測した推定パーミュテーション行列を元にパーミュ
テーション不整合信号を並び替える
– 推定分離信号は各周波数に対して,パーミュテーション不整合
信号の値が混じらない
Frequency
Time
Frequency Time
Frequency
Time
Frequency Time
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Time
29
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
30
• 音声信号と音楽信号に対する実験を行った
• 使用したデータ
実験条件
音響信号 SiSEC2011にある男女の音声信号及びドラムとピアノの音楽信号
FFT長 2048 点 (ハミング窓)
シフト長 1024 点
客観評価値 各周波数ビンにおける並び替えの正答率
音響の種類 音響信号 ファイル名 信号長 [s]
音声
男性 Dev2_male4_inst_src_2 10.0
女性 Dev3_female4_inst_src_2 10.0
音楽
ピアノ Dev2_nodrums_liverec_250ms_src_3 11.0
ドラム Dev2_wdrums_liverec_250ms_src_3 11.0
31
• 学習データ
– 音声信号及び音楽信号の時間周波数信号を16行1セットにし
てランダムに入れ替えたデータ
– ブロックパーミュテーション問題を模擬
– シャッフルパターンは300
– エポック数は300
• テストデータ
– 学習データにはないパターンで時間周波数信号を16行1セット
にしてランダムに入れ替えたデータ
実験条件
ランダムにシャッフル
ランダムにシャッフル
ランダムにシャッフル
32
実験結果(音声信号)
正答率 92.5%
33
実験結果(音楽信号)
0
0
0
5
5
5
10
10
10
0
2
4
6
8
0
2
4
6
8
0
2
4
6
8
Frequency
[kHz]
Time [s]
Time [s]
Frequency
[kHz]
Frequency
[kHz]
0
0
5
5
10
10
0
2
4
6
8
0
2
4
6
8
Frequency
[kHz]
Frequency
[kHz]
Time [s]
Time [s]
正答率 97.5%
34
本発表の目次
• 従来手法
– 独立成分分析(ICA)と周波数領域ICA(FDICA)におけるパー
ミュテーション問題
– 独立ベクトル分析(IVA)と独立低ランク行列分析(ILRMA)
– 局所時間周波数構造に基づく深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ
35
まとめ
• パーミュテーション問題に対して深層学習を用いて解決
する手法を提案した
• 実験結果より,音声及び音楽信号に対して高い精度で分
離を行うことができた
• 今後の課題
– 従来手法との比較実験を行う
– 系列データの再帰性を予測に活用する双方向RNNの応用を行
う
– 今回は真の分離信号を用いたので,実際にFDICAを適用した
信号を用いて実験を行う
– 学習データとテストデータに異なる音響信号を用いて実験を行
う
1 of 35

Recommended

深層パーミュテーション解決法の基礎的検討 by
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
143 views15 slides
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化 by
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
187 views15 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
52 views32 slides
多重解像度時間周波数表現に基づく独立低ランク行列分析, by
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
132 views14 slides
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化 by
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
73 views16 slides
深層学習に基づく音響帯域拡張による音源分離処理の高速化 by
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化Kitamura Laboratory
110 views16 slides

More Related Content

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
70 views26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
67 views23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
40 views17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
79 views19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
43 views17 slides
Heart rate estimation of car driver using radar sensors and blind source sepa... by
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
62 views23 slides

More from Kitamura Laboratory(20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価 by Kitamura Laboratory
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用 by Kitamura Laboratory
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用

Recently uploaded

onewedge_companyguide1 by
onewedge_companyguide1onewedge_companyguide1
onewedge_companyguide1ONEWEDGE1
54 views22 slides
SSH超入門 by
SSH超入門SSH超入門
SSH超入門Toru Miyahara
457 views21 slides
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私修治 松浦
208 views36 slides
システム概要.pdf by
システム概要.pdfシステム概要.pdf
システム概要.pdfTaira Shimizu
44 views1 slide
Najah Matsuo Self Introduction by
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self IntroductionNajahMatsuo
10 views29 slides
概要.pdf by
概要.pdf概要.pdf
概要.pdfTaira Shimizu
6 views1 slide

Recently uploaded(6)

onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1onewedge_companyguide1
onewedge_companyguide1
ONEWEDGE154 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦208 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self Introduction
NajahMatsuo10 views

深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討

Editor's Notes

  1. 【0:10】 深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討と題しまして,香川高専の蓮池郁也が発表させていただきます.
  2. 【0:30】 初めに,音源分離について説明します. 特定の音声を抽出したり,雑音,楽器音等の音の分離を行ったりすることを音源分離と呼びます. 音源分離の応用先としては,音声認識,AIスピーカー,補聴器の高機能化,ノイズキャンセリング等があります.
  3. 【1:15】 ブラインド音源分離について説明します. ブラインド音源分離とは混合系Aが未知の条件で分離系Wを推定する手法でありBSSと呼ばれます. BSSには,優決定BSSと呼ばれる条件があり.優決定BSSとはマイク数が分離したい音源の数以上であることを指します. 例えば2人の声を2つのマイクで観測すると、優決定となります. 一般的に,優決定BSSは線形な分離が可能であるため,人工的な雑音等の歪みが少なく,音源分離に続く処理に対して悪影響を及ぼしにくいです. そのため,様々な分野に応用可能となっています. 本研究ではこの優決定BSSについて取り扱います.
  4. 【2:15】 これまでさまざまな音源分離手法が提案されてきました. 周波数領域ICA((FDICA)やフルランク空間共分散分析(FCA)を適用した際には,パーミュテーション問題と呼ばれる問題が生じます. パーミュテーション問題については後程詳しくお伝えします. これまで,DOAに基づく解決法や周波数間相関に基づく解決法等のパーミュテーション問題を解決するような手法が提案されてきましたが,2006年ごろからはこちらにあるような(図を指す)パーミュテーション問題を回避するような,手法が提案されました. また,2020年ごろには,深層学習を用いてパーミュテーション問題を解決するような手法が提案されました. ただ,深層学習を用いたパーミュテーション解決法は入力が2音源に限定されるアルゴリズムであるため,3音源以上への拡張が難しいことが問題点として挙げられます. そこで,今回は新たに3音源以上でも一般性を失わない深層パーミュテーション解決法を提案します.
  5. 【2:20】 こちらは本発表の目次になります.
  6. 【2:23】 それでは,従来手法について説明します.
  7. 【3:00】 優決定BSSである独立成分分析,通称ICAとは混合行列が未知の条件で分離行列Wを推定する技術です. 音源は独立である.また,混合行列は可逆で時不変であるといった2つの仮定を用いAの逆行列であるWを推定します. ICAでは分離信号の順番はどうなるかわからず,この図の赤と青の信号もどちらの順番で出力されるかは定まっていません. また,一般的に音響信号には残響があるので残響の影響を取り除くため、周波数領域に持っていく必要があります。
  8. 【3:25】 時間領域では畳み込み信号でも,周波数領域に持っていくことで単なる掛け算にすることができます. そこで新たに生み出された手法がFDICAと呼ばれる手法です. この図は奥行きがマイクロフォン数,縦軸が周波数,横軸が時間を表しています. この手法は各周波数ビンの複素時系列に対して独立なICAを適用することで音源分離を行う手法になります.
  9. 【4:20】 ただ,FDICAには問題点があります. この図は奥行きが周波数で横軸が時間を示しています. FDICAは各周波数成分に対して独立なICAを行います.各周波数ごとに赤色と青色の音源が分離されていきますが,ICAは先ほどお伝えしたように出力の順番を問わないためFDICAに適用した際に周波数毎に順番がバラバラになってしまう問題が生じます. これは,一般的にパーミュテーション問題と呼ばれ,この問題を解決するような手法が現在求められています. ここで,Y1とY2のように周波数ごとに成分がバラバラになっている信号を今後パーミュテーション不整合信号と定義します. 私はこのパーミュテーション問題に対して現在広い分野で用いられている深層学習(DNN)を用いて解決する手法を新たに提案します. %Y1とY2が周波数と時間になる..ICAが時間と周波数になっているのではない.
  10. 【4:30】 パーミュテーション問題を回避するような手法であるIVAとILRMAについて説明します
  11. 【5:15】 IVAでは各信号源は全周波数成分の強弱が同期すると仮定した音源モデルに従って分離を行います. それに対してILRMAでは各信号源は時間周波数構造が繰り返し多分を含むような,つまり低ランクな構造を持つと仮定した音源モデルに従って分離を行います. 各信号源はそれぞれ独自の特徴を含んでいるので,どんな音源にも適応できる万能な音源モデルを作成することは難しいです. それに対して,パーミュテーション問題を解決するようなモデル,すなわち周波数成分を並び替える機能だけを持つモデルなら万能な音源分離手法を構築できるのではと思ったことが私の今回の研究の動機の一つです.
  12. 【5:20】 従来の深層パーミュテーション解決法について説明します.
  13. 【6:10】 先行研究としまして,既存の深層パーミュテーション解決法があります. パーミュテーション不整合信号のパワーをとったスペクトログラムを用意します. DNNの入力ベクトルには,参照周波数成分と近傍の周波数成分を用います.また,時間方向についても局所時間に絞ったものを入力ベクトルとしています. このように周波数方向にも,時間方向にも局所時間を抽出したものを今後サブバンドと呼ぶこととします, DNNは,入力された参照周波数成分と近傍の周波数成分が同一音源であるか異なる音源であるかを学習し,同一であれば0,異なる音源であれば1を返すように学習を行います. この図の一番上の例では,入力ベクトルとして参照周波数成分と近傍の周波数成分が異なる値を用いているので,DNNは推定結果として1を出力します.
  14. 【6:52】 また,この図のようにパーミュテーション問題は時間軸に沿って常に一定になっています. そのため,入力ベクトルの選択範囲を時間方向にずらしてもDNNの正解となる値は変わりません. この性質を利用して,それぞれの時間フレームにおけるDNNの予測結果を周波数ごとに多数決を取ることで,予測誤差の悪影響を大幅に軽減したサブバンドベクトルを得ることができます. 例えば,この図の例だと1と0が予測誤差として出力されていますが,多数決処理を行うことで最終的には正しいサブバンドベクトルを得ることができています
  15. 【7:50】 時間方向に多数決処理を行った後は,周波数方向についても多数決処理を行います. ただ,DNNの出力値としては,参照周波数成分に対して近傍の周波数成分が一致しているかどうかの2値分類を行なっているため,周波数方向に多数決処理を行うさいは類似度で比較する必要があります. まず,DNNの推定結果である,サブバンドベクトルと論理反転ベクトルの2つのベクトルを用意し,この図の場合は,一つ目の予測結果の値と2つ目の予測結果の値を比較して,より近い方を採用してフルバンドベクトルの要素とします. この手法では,DNNの出力として,参照周波数成分に対して近傍の周波数成分が同一成分であるかどうかの2値分類を行なっていることにより,フルバンドベクトルを作成する処理が複雑となっています.
  16. 【8:37】 3音源になると従来の手法はより複雑になります. 参照周波数成分と近傍の周波数成分の値が異なる音源であるとDNNが予測した場合に,どの組み合わせと一致するかが一意に定まらないため,3音源以上に対する汎用性に欠けるといった課題があります. こちらの図では,一番上のDNNの予測が「1」であり,異なる音源といった予測結果になっていますが,どの音源の組み合わせと一致するのかがわかりません. そのため,音源数分の組み合わせの処理を行う必要があり,処理がかなり複雑になるといった問題点があります. そこで,私は新たに3音源以上になっても一般性をかけない深層パーミュテーション解決法を新たに解決します.
  17. 【8:40】 ここからは,提案手法について説明します.
  18. 【9:45】 提案手法の概要です.以後,分かりやすさのために2音源の例で提案手法の処理を説明していきますが,3音源以上になっても同じ処理を考えることができます. 提案手法では,パーミュテーション問題を解決するために,DNNを用いてパーミュテーション不整合信号を並び替えるようなパーミュテーション行列を求めます. FDICAを適用した後の推定分離行列は,こちらの式のようにDとPがかかっています.Dは対角行列,Pはパーミュテーション行列です. パーミュテーション行列とは順番を並び替える役割を持つ行列であり,2音源の場合はこちらの2つの行列のことを指します. 推定信号であるyは推定分離行列と観測信号の掛け算で表されています. 真の分離行列を求めるためには,PとDのインバースが必要でありDのインバースはプロジェクションバック法で解析可能となっています. そのため,私たちが求めるべきものはPのインバースとなります.提案手法では,DNNを用いて予測したパーミュテーション行列とパーミュテーション不整合信号との間で行列積を取ることで,推定分離信号を求めるような手法となっています.
  19. 【10:22】 提案手法における前処理について説明します. 前処理として,パーミュテーション不整合信号に対して正規化処理を行います. 正規化処理はこの式で表すことができ,行列に対する絶対値記号は要素ごとの絶対値,ドット付き指数乗は要素毎の指数乗,分数は要素ごとの商を表しています. この処理を行うことで,同一音源の成分の相関を強調できるのと同時に,推定信号の値を0〜1の区間に限定することができ,DNNの学習が安定する効果があります.
  20. 【10:50】 提案手法におけるDNNの入力について説明します. パーミュテーション問題が生じている信号から参照時間であるjをランダムで設定した後,時間方向に対して局所的な部分を抽出します. そして抽出した部分を各時間方向ごとに一次元にベクトル化し,それらを結合させたベクトルをDNNの入力ベクトルとして用います.
  21. 【11:25】 DNNの構造について説明します. DNNの構造は,入力層,隠れ層3層,出力層の計5層の多層パーセプトロン(全結合)となっています. 活性化関数には,ReLU関数を用いています. DNNの出力層は音源数分用意します. 出力層の値に対し,Softmax関数をかけることで,各周波数成分に対する確率値が出力されます. 出力される確率値は,この図の一番上の0.9と0.1といった値のようにそれぞれの周波数成分の値が足して1になるような制約となっています.
  22. 【12:15】 パーミュテーション不整合信号を並び替えるために必要である,推定パーミュテーション行列を求める方法について説明します. 先ほど,DNNの出力として確率値を出力すると説明しました. この確率値はパーミュテーション行列の係数として,用いられます. 2音源を並び替えるようなパーミュテーション行列は,先ほど説明したように2種類ありそれは,この図の[1.0 ,0.0, 0.0, 1.0]と[0.0, 1.0, 1.0 0.0]にあたります. 3音源となるとこのパーミュテーション行列の数は6種類となり,音源数の階乗分,増加していくこととなります. DNNから出力された確率値を2つのパーミュテーション行列に係数としてかけ,それぞれの行列を足したものを推定パーミュテーション行列とします.
  23. 【12:15】 推定分離信号の作成と損失の計上について説明します.
  24. 【13:05】 推定したパーミュテーション行列を用いて,局所時間における推定分離信号を導出します. DNNの出力である確率値を元に作成した推定パーミュテーション行列と,DNNの入力に用いた局所時間の正規化パワースペクトログラムとの間で行列積を取ります. 行列積を取ることで,各成分をパーミュテーション行列の値に従って並び替えることで局所時間における推定分離信号を作成することができます. この図では,下から2つ目の周波数成分において推定パーミュテーション行列の値が[0.5, 0.5, 0.5, 0.5]であるため,2つの正規化パワースペクトログラムの成分が半分ずつ入った成分が推定分離信号として出力されていることがわかります.
  25. 【13:50】 損失の導出方法についてです. 先ほど作成した局所時間の推定スペクトログラムと局所時間の完全分離信号との間で平均二乗誤差MSEを用いて損失を計上します. DNNはここで得た損失値を用いて,誤差逆伝播を行い最適なモデルを作成するように学習を行います. また,分離信号の順序は予測の対象としないため,順序不変学習,通称PITと呼ばれる手法を用いました. PITとMSEを用いたLossの取得に関する式はこちらになります. 全ての信号に対して総当たり的に損失を求めることとなり,推定分離信号の順序に関わらず常に最小のLossを計上することができます. コメント:
  26. 【13:55】 テストデータに対する処理について説明します.
  27. 【14:40】 テストデータに対してDNNの予測精度の向上のため時間方向に対する多数決処理を行いました. パーミュテーション不整合信号に対して時間方向にストライドしていくことで複数の局所時間スペクトログラムを抽出します. その後,それぞれの局所時間スペクトログラムに対して,DNNの学習とパーミュテーション行列への変換を行います. ここで求めた複数の推定パーミュテーション行列に対して多数決処理を行うことで,最終的に0か1で形成されたパーミュテーション行列を導き出します. 最終的には,この行列を用いることで推定分離信号を求めることができます.
  28. 【15:05】 それでは,推定分離信号の導出についてです. 先ほどの多数決処理によって作成した,推定パーミュテーション行列を用いて,元々のパーミュテーション不整合信号との間で行列積を取ります. そうすることで,各周波数成分が混じることなく,必ずどちらかに分離されるようになっています このようにして,最終的な分離信号を求めることができます.
  29. 【15:10】 実験についてです.
  30. 【15:45】 本実験では,音声信号と音楽信号に対する実験を行いました. 使用した音響信号はSiSEC2011にある男女の音声信号とドラムとピアノの音楽信号です. 客観評価値として,各周波数ビンにおける並び替えの正答率を用いました. 使用したデータはこの4つになります. 音声信号に関してはそれぞれ10秒,音楽信号に対してはそれぞれ11秒の信号を用いました. コメント:がんま=16と図に記載する ブロック単位のパーミュテーション問題を模擬 表の縦線は引かないでも良いかも.表の上を太線にしない IVAやILRMAではブロック単位でパーミュテーション問題が起きているので,それ模擬した.各行にシャッフルしてできなかったのは言わない. 出力したスペクトログラムを新たにDNNの入力として使ってみても面白いかも
  31. 【16:20】 学習データは,音声信号及び音楽信号を16行毎をセットとして考えランダムに入れ替えたデータを用いています. これは,ブロックパーミュテーション問題と呼ばれる,各周波数単位ではなくブロック単位で音源の周波数成分が異なる問題を模擬しています. ランダムにシャッフルするパターンは学習データに対して300パターンに設定しています. 検証データ及びテストデータには,学習データにはないパターンで16行毎にランダムで周波数成分を入れ替えたデータを用いています. コメント:がんま=16と図に記載する ブロック単位のパーミュテーション問題を模擬 表の縦線は引かないでも良いかも.表の上を太線にしない IVAやILRMAではブロック単位でパーミュテーション問題が起きているので,それ模擬した.各行にシャッフルしてできなかったのは言わない. 出力したスペクトログラムを新たにDNNの入力として使ってみても面白いかも
  32. 【17:50】 こちらは音声信号に対する実験結果です.上の2つのスペクトログラムはパーミュテーション不整合信号を示しています. 下の2つのスペクトログラムはDNNの予測を用いてパーミュテーション不整合信号を並び替えた信号です. 下の2つのスペクトログラムに注目すると,隣接する周波数成分に対して連続性が見られ,高精度で分離ができていることがわかります. 各周波数に対する並び替えの正答率は92.5%であり,この数値よりも高精度で分離できていることがわかります. ここで,音声についても聞いていただきます.まずは,パーミュテーション問題が起こっている信号についてです. 続いて,DNNを用いた推定分離信号です. このように音声を聞いても高精度で分離がきていることがわかると思います.
  33. 【19:10】 音楽信号に対する実験結果です. こちらも先ほどと同様に上の2つのスペクトログラムはパーミュテーション不整合信号を表し,下の2つのスペクトログラムはDNNの予測を用いてパーミュテーション不整合信号を並び替えた信号です. 音楽信号の場合も隣接する周波数成分に対して連続性が見られ,高精度で分離できていることがわかります. 各周波数成分における並び替えの正答率は97.5%でした. パーミュテーション問題が生じている音声はこちらになります. まずは,パーミュテーション問題が起こっている2つの信号についてです. 続いて,DNNを用いて推定した信号がこちらです. このように音声を聞いても高精度で分離がきていることがわかると思います.
  34. 【19:50】 最後にまとめです. パーミュテーション問題に対して深層学習を用いて解決する手法を提案しました. 実験結果より,音声及び音楽信号に対して高い精度で分離を行うことができました. 今後の課題として,従来手法との比較実験を行うこと 系列データの再帰性を予測に活用する双方向RNNの応用,FDICAを適用した信号を用いて実験を行う. 学習データとテストデータに異なる音響信号を用いて実験を行うことが挙げられます. 以上で発表を終わります.ご静聴ありがとうございました.
  35. 先行研究として,局所時間周波数構造に基づく深層パーミュテーション解決法が提案されました. この手法はサブバンド領域と呼ばれる,周波数方向に対しても時間方向に対しても局所的な部分を抽出してDNNに入力する手法です. さらに,この手法では参照周波数に対して同一成分であるか否かの2値分類を行なっており,かなり複雑なアルゴリズムとなっています. 3音源以上になると,参照周波数成分に対して異なる値となっていても残りの2つの音源のどちらと一致するかが簡単に判断できないため,複数音源に対する汎用性に欠けるといった課題があります. そこで,私は新たに音源数が増えてもアルゴリズムが複雑にならない手法を新たに提案し,新たな手法が実用的であるかどうかを判断します. 本発表の目的のスライドをこのスライドの前に入れる.(パーミュテーション問題は,DNNを用いて解くことを考える.) 先行研究はなかったものにして考えれば良い. このスライドは無しにする.
  36. DNNの説明をする。人工知能の界隈で、有名な手法です。
  37. また,テストデータに対してDNNの予測精度の向上のため時間方向に対する多数決処理を行いました. パーミュテーション不整合信号を時間方向に対してストライドしていくことで複数の局所時間スペクトログラムを抽出します. その後,それぞれの局所時間スペクトログラムに対して,DNNの学習とパーミュテーション行列への変換を行います. 最終的には多数決処理を行うことで0か1で形成されたパーミュテーション行列を導き出し,パーミュテーション不整合信号との間で行列積を取ることで推定分離信号を求めることができます.