局所時間周波数構造に基づく
深層パーミュテーション解決法の実験的評価
北村研究室
AS2 40
山地 修平
はじめに
 音源分離とは
 音源分離の応用先
• 音声認識
• スマートスピーカー
• 補聴器の高性能化
2
音源分離
補聴器
スマート
スピーカー
ブラインド音源分離
 独立成分分析(ICA)とは?
3
ならば となり分離可能
ここで
独立信号 混合信号 推定信号
実際の混合は残響による畳込み混合
周波数領域へ拡張(frequency domain ICA: FDICA)
FDICAとパーミュテーション問題
 FDICAの問題点
• 周波数毎に音源成分(赤青)が入れ替わる可能性がある
• この不定性はパーミュテーション問題と呼ばれている
4
FDICA
All frequency
components
Source 1
Source 2
Observed 1
Observed 2
Estimated signal
Estimated signal
Non-aligned signal
Permutation
Solver
Time
特別研究Ⅰ
 局所時間周波数構造に基づく
深層パーミュテーション解決法[Yamaji., 2020]
 問題点
• 実際のFDICAでは,完全に分離されていない周波数ビンも存在する
• 中間周波数ビンで1回でもパーミュテーション解決を誤ると
分離精度が大きく劣化する可能性がある
5
Time
Separated
signal
Non-aligned signal
Non-aligned signal
Separated
signal
DNN
DNN
 入力
• 分離信号から2つの周波数の短時間時系列パワーを抽出&結合
 出力
•
DNNの入出力
6
例) と の短時間時系
列パワーを抽出
0(同一音源)
1(異なる音源)
Time
Frequency
 シンプルな全結合構成
DNNモデルの構成
7
Hidden
Layer
1
(128
units)
ReLU
Input
Layer
(160
units)
Hidden
Layer
2
(128
units)
ReLU
Hidden
Layer
4
(64
units)
ReLU
Hidden
Layer
3
(128
units)
ReLU
Hidden
Layer
5
(64
units)
ReLU
Hidden
Layer
6
(1
units)
Sigmoid
Output
Layer
(1
units)
Target
label
(1
units)
Minimum
MSE
0
or
1
 パーミュテーション解決の流れ
• サブバンド領域でパーミュテーション解決
• 上記処理を時間方向及び周波数方向に走査
DNN
DNN
DNN
DNN
DNN
DNN
提案手法の全体像
8
Time
Frequency
Separated signal
Non-aligned signal
 DNNに基づいたパーミュテーション解決
• パーミュテーション問題が発生した周波数は推定結果が1
• 推定結果が1の周波数成分のみ入れかえ
→ サブバンド領域でのパーミュテーション解決
Time
Frequency
…
DNN
DNN
1 : Diff.
1 : Diff.
0 : Same
1 : Diff.
0 : Same
Input vector
DNN
outputs
…
DNN
…
…
サブバンド領域でのパーミュテーション解決
9
入力ベクトル DNN推定結果
1 : 異なる音源
1 : 異なる音源
0 : 同一音源
1 : 異なる音源
0 : 同一音源
Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
Majority
decision
1
1
0
1
0
Stride
…
DNN
outputs
Subband
permutation
vector
DNN推定結果 サブバンド
ベクトル
多数決処理
時間方向への多数決処理
 パーミュテーション問題の不変性
• パーミュテーション問題は全時間フレームで固定
→ DNNの正解値は変わらない
10
フルバンドベクトルの構成方法
 サブバンド領域間での対応付けの必要性
• 各サブバンド領域では,中心周波数の成分を基に並び変えられる
• すべてのサブバンド領域で,音源順の統一が必要
11
が中心周波数
が中心周波数
Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
1. Set
Fullband
permutation
vector
2. Set
フルバンドベクトルの構成(1/3)
12
フルバンド
ベクトル
1.セット
2.セット
フルバンド
ベクトル
 目的
• 各領域のサブバンドベクトルを用いて,音源と ”0” 及び ”1” が
統一したフルバンドのパーミュテーションベクトルを構成する
 STEP1
• 最も低い周波数のサブバンドベクトルによって,
音源と ”0” 及び “1” の対応を決定
13
 STEP2
• 隣接周波数における
• MSEが小さい方をメモリに格納周波数毎に多数決を行いフルバンド
ベクトルを更新
Time
Frequency
1
0
0
1
0
1
1
0
1
0
0
1
1
0
1
0
1
1
0
1
0
2. Set
0
1
1
0
1
1. Similarity comparison
3.
Majority
decision
Fullband
permutation
vector
フルバンド
ベクトル
1.類似度比較
1.類似度比較
2.セット
3.多数決処理
フルバンドベクトルの構成(2/3)
14
フルバンドベクトル の対応部と平均二乗誤差(MSE)で比較
サブバンドベクトル
論理反転ベクトル
の2つのベクトルを
フルバンドベクトルの構成(3/3)
 STEP3
• 最終的に構成されたフルバンドベクトルをもとに,
周波数成分を入れ替えてパーミュテーション解決
15
1
1
0
1
0
0
1
1
0
1
1
0
0
1
1
0
0
1
1
0
1
0
0
1
1
0
1
0
Majority
decision
Time
Frequency
Replace
Fullband
permutation
vector
フルバンド
ベクトル
多数決処理
入れ替え
実験条件
16
θ1
2 m
5.66 cm
Source 1 Source 2
θ2
学習用音声信号
JVSコーパスの音声信号にRWCPデータベースのマイクアレー
インパルス応答を畳み込んで作成,2チャネルで2音源の混合信号
テスト用音声信号
SiSEC2011の音声信号にRWCPデータベースのマイクアレー
インパルス応答を畳み込んで作成,2チャネルで2音源の混合信号
比較手法
理想的にパーミュテーション解決されたFDICA,
独立低ランク行列分析(ILRMA)(基底数2,3及び4)
FFT長 8192 点 (512 ms, ハミング窓)
スライド長 2048 点
主観評価値 SDR改善値
残響時間 470 ms
学習用
音源到来方向
テスト用
音源到来方向
実験結果
17
Good
Poor
SDR
improvement
[dB]
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
0
-2
-4
2
4
6
8
10
12
14
発表文献
 査読付き国際発表
1. Shuhei Yamaji and Daichi Kitamura, “DNN-based permutation solver for
frequency-domain independent component analysis in two-source mixture
case,” Proceedings of Asia-pacific signal and information processing
associationannual summit and conference, 2020.
 国内発表
1. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解
決法,” 日本音響学会2020年春季研究発表会講演論文集, pp. 317-320, 2020.
2. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解
決法の実験的評価,” 日本音響学会2020年秋季研究発表会講演論文集, pp. 265-
268, 2020.
18
まとめ
 本研究では
• 実際のFDCIAの分離信号であっても,パーミュテーション解決が
可能なモデルへと拡張した
• 高残響の音声混合信号で実験を行い,平均的に8dB程度のSDR改善量
を達成した
 今後の課題
• 現在のアルゴリズムでは3音源以上の分離信号に対して
組み合わせ爆発を起こす
19
デモンストレーション
20
源信号
観測信号
理想的に解決したFDICA
提案手法を用いたFDICA
Ch1 Ch2

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

Editor's Notes

  • #3 はじめに 本研究では音源分離を扱っており,この音源分離とは,様々な音が混ざった状態から,ひとつひとつの音へ分離する技術です. たとえば,複数人が同時に発話した内容をそれぞれの音声に分けたい場合に,役立つような技術です. 近年では,スマートスピーカーのような音声認識技術を用いた製品が増えている中で, 雑音などに起因した,音声認識精度の低下を回避するためにも,目的話者のみのクリアな単一音声信号が求められています. その他にも,イヤホンのノイズキャンセリング機能のように,人間の聴覚機能をサポートする面でも音源分離の応用先は数多く存在します.
  • #4 ブラインド音源分離 次に音源分離のなかでも,本研究で扱っている独立成分分析について説明します この図では解説のために独立信号を S, 今後信号を X, 分離された推定信号をY と定義します. またtは時間を表しています. ここで 混合信号Xは混合系をあ表す行列Aを用いてASで表すことができ. 同様に分離信号Yも分離行列Wを用いてWXで表せます. この分離行列Wが混合行列Aのインバースになるように推定を行うことで音源の分離を行いますが,実際はAは分からないので,音源の統計的性質から推定します. しかし,実際の混合信号には残響がかかり,残響は時間領域では畳み込み混合として考えられ, 音源分離の際に逆畳み込みを計算することは簡単ではありません. そこで,畳み込み混合を時間領域ではなく,周波数領域で掛け算として扱うことでこの問題を解決する,FDICAと呼ばれる手法がが開発されました.
  • #5 FDICAとパーミュテーション問題 そのイメージ図がこちらになります . ここにある各信号は,時間領域の信号に短時間フーリエ変換を適用した,時間周波数領域の信号を表しており,よこ軸が時間,縦軸が周波数表しています. FDICAでは,周波数ごとの成分を分離する様にICAを適用します. その結果,この図の真ん中のように,同じ周波数ごとに見ると分離はできていますが, 全体としては周波数ごとに音源の順番がバラバラになっていることがわかります. この問題はパーミテーション問題と呼ばれており FDICA の課題とされています. 本研究ではこのパーミテーション問題を扱っており,図の右側のように周波数毎の成分を同じ音源成分に統一させるようなパーミテーションソルバを作ることが目的となっております.
  • #6 先行研究 次に特別研究Ⅰの内容について説明します 特研Ⅰの研究発表では,これまでの成果として(DNN)を用いたパーミテーション解決方を新たに提案しました . その時は,隣接した二つの周波数における時系列信号をDNNに入力し,その入力のパーミュテーションが正しいか否かを推定するモデルを作成しました. そして,そのモデルを全ての周波数に順番に走査していくことで,パーミュテーション解決を行うといったものでした. しかし,過去の提案手法の課題点としましては, FDICIA が理想的に分離を行った時以外は失敗する可能性があること. また,DNN推定を順番に走査していくなかで,途中の周波数で一回でも間違えてしまうと,(click) それ以降の周波数がすべてひっくり返る可能性,がありました. そこで本研究では,これらの課題点を解決することを目的とし, 特別研究1の手法を,実際のFDCIA の分離結果でも適用できるように,より頑健なモデルへ拡張しました. 1:00
  • #7 DNNの入出力 次に本研究で用いた深層学習の入力と出力について解説します. この話は前回の中間発表と同じです. まずFDICAを適用したパーミュテーション問題が残る分離信号Y1Y2から,(click) 二つの周波数の短時間時系列パワーを抽出し結合します. さらに結合したベクトルに正規化を行い,DNNへ入力しています. 深層学習の出力は,入力された二つの周波数成分が 同一音源の場合は0を,異なる音源の場合は1を出力するように学習されます. 例として,この図の場合は,選ばれた二つの周波数,f3とf5を確認すると, f3は赤色の音源なのに対し f5は青色の音源であるためパーミテーション問題が発生しており,1が出力されるように学習されます.
  • #8 DNNの構成 提案するDNNの構造は,入力層,隠れ層6層,及び出力層の計8層からなる全結合構成となっており, 1~5番目の隠れ層には ReLU関数,最終隠れ層にはsigmoid関数を適用しています. 予測結果と正解ラベルとの誤差関数には,平均二乗誤差を使用しています.
  • #9 提案手法について 次に深層学習の推定結果をパーミュテーション解決にどのように用いるかについて解説します. 全体の流れとしては,(click) まずはじめにサブバンド領域でのパーミテーション解決を行います. その次のステップで,(click) サブバンド領域の推定を時間方向と周波数方向に走査していき,フルバンドでのパーミテーション解決を行います. ここで,サブバンド領域とは,全周波数が8000Hz近くある中の60Hz程度の局所的な範囲をサブバンド領域と呼んでおります
  • #10 サブバンド領域でのパーテーション解決はこの図のように処理されます. ここでは例として周波数が F 1から F 5までのサブバンド周波数帯域 におけるパーミテーション解決を図に表しています ここでDNNの入力として二つの周波数を選択するわけですが, そのうち1つを参照周波数として,サブバンド領域の中心に位置する周波数f3に固定します. もう1方の周波数はサブバンド領域内のいずれか1つを選択します. 結果として,f3とf5,f3とf4の様に,参照周波数を基準とした2本の時系列パワーの全組み合わせでDNN推定を行います. これによってサブバンド領域内の周波数毎の成分が,参照周波数の成分と同一音源または異なる音源かがわかります.  このようにして,サブバンド領域 におけるパーミテーション解決が行われます.  2:00
  • #11 時間方向への多数決(8) 次に時間方向の多数決処理について解説 します. ここでは,この図のようにDNN入力ベクトルの選択範囲を時間方向にシフトさせることで全時間フレームにDNN推定を走査します ここでパーミテーション問題の発生箇所は時間軸に沿って 常に一定になってることが分かります. そのため 入力ベクトルの選択範囲を時間方向に ずらしても DNN の正解値は変わりません 最後に,それぞれの時間フレームにおける DNNの予測結果を周波数ごとに多数決を取ることで,予測誤差の悪影響を大幅に軽減したサブバンパーミュテーションドベクトルを得ることができます. 0:50
  • #12 フルバンドベクトル ここではサブバンド領域の解決結果を用いた,フルバンドのパーミュテーション解決について解説します. これまでのサブバンド領域でのパーミュテーション解決は,あくまでも中心周波数の成分をもとに並び替えられています. そのため,あるサブバンド領域では赤い音源を元にパーミテーション解決を行っているのに対し, その隣接したサブバンド領域では,青い音源をもとにパーミュテーション解決を行っていると言ったことが発生します. その結果この図のように,サブバンド領域間での音源の順番が反転する可能性があります. この問題を解決するため,全てのサブバンド領域の推定結果において,0を赤い音源,1を青い音源のように統一する必要があります.
  • #13 STEP1(10分弱) 以降は,実際のフルバンドベクトルの構成方法について解説します. まずステップ1では,最も低いサブバンド領域の  DNN 推定結果を メモリとフルバンドベクトルの対応する周波数に格納します. この時に音源と01の対応関係が決定されており,この図の場合は ゼロが赤い音源, 1が青い音源となっています. また,これ以降のサブバンド領域においても, 音源と01の対応関係が統一されるように処理が行われます.
  • #15 STEP2 ステップ2では先ほどと隣接しているサブバンド領域を考えます. ここでは単純な DNNの推定結果であるサブバンドベクトルと,その論理反転ベクトルの二つのベクトルを用意します. これら2種類を現在のフルバンドベクトルの対応する部分と,平均二乗誤差を用いて比較し, その値の小さい方をメモリに格納します. 最後にメモリを参照して,周波数ごとに多数決を行いフルバンドベクトルを更新します.
  • #16 STEP3 step2の処理を反復的に繰り返すことで完全なフルバンド ベクトルが推定されます. 求められたフルバンドベクトル基づいて周波数成分を入れ替える事で,パーミュテーションの解決を行います. 以上が,提案手法の内容になります.
  • #17 実験条件(11:20) 提案したパーミュテーション解決法を評価するために, 残響の強い,音声混合信号を用いて評価実験を行いました.. 実験では,パーミュテーション問題が理想的に解決されたFDICA ,ブラインド音源分離の性能が良いとされるILRMA ,及び提案手法を用いたFDICA の3 手法を比較しました. 実験に用いた混合信号は,下の図のように,「異なる2つの角度から到来する音声を2つのマイクで録音する」状況をシミュレーションして作成しています. 使用する角度の組み合わせは,学習用音声信号には60度と120度の1種類を,テスト用音声信号には60と120,70と110及び60と100の3種類を使用しました. そのため,提案手法のパーミュテーション解決性能だけでなく,「学習用データの音源到来方向に依存するか否か」,についても注目した実験となっています. また,シミュレーション内における部屋の残響長は,470msとなっています.
  • #18 実験結果 実験結果です. この図は,各提案手法の分離性能を表しており,それぞれの箱ひげ図は,56個の分離結果から作成されています. 図の縦軸は,SDR改善量をしめしており,この値が高いほど,高精度な分離ができているという指標になっています. 青色でプロットされているものは,本来は未知であるはずの音源信号を用いることで,パーミュテーション問題を完璧に解決したFDICAです. そのため,平均的に10dB 以上の改善を達成しておりますが,あくまでもFDICAの上限性能及び参考値となっています. ILRMA の分離性能は,いずれの音源到来方向においても平均的に4dB 程度の改善であることが確認できます. この結果から,高残響下にある音声混合信号の分離タスクに対して,ILRMAはしばしば分離に失敗している事がわかります. 一方で,提案手法を用いたFDICA は,平均的に8dB 以上の改善を達成しており, うまく分離できた場合は,SDR改善量が13dBに達成するなど,青色の上限性能に比較的近い性能も示しています. しかし,DNNの推定間違いなどが原因で並び替えに失敗することもあり,その場合は,0dB以下のSDR改善量となることが確認できました. 次に音源到来方向の違いによる,分離性能の差,に注目します. 実験条件でも説明した通り,学習用データの音源到来方向は(60度と120度)の組み合わせのみであり, (70度と110度)及び(60度と100度)の組み合わせは学習データに含まれておりません. しかしながら,グラフから分かるように,いずれの音源到来方向であっても,パーミュテーション解決性能には大きな差がありませんでした. これは,DNNの学習データに,あらゆる到来方向の組み合わせを準備することが,現実的には不可能であることを考えると, 音源到来方向に依存しないという面で,大きな利点であると考えられる.
  • #19 発表文献 以上の研究成果をもって,これらの学会で発表を行いました.
  • #20 まとめ まとめです 本研究では特別研究1の課題を解決し,実際の FDICA の後処理として適用できるように,拡張を行いました. 拡張された提案手法は,平均的にILRMAを上回る分離性能であること示しました. また,音源の到来方向に依存しないことから,FDICAの一般的な後処理として,適用可能であることも実験的に示した. その一方で,現時点では3音源以上の分離信号には適用できないことが課題として挙げられます. そのため,今後はより多くの音源に適応できるように,DNNの拡張や,並び替えアルゴリズムの改良が必要であると考えます.