ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発

Kitamura Laboratory
Kitamura LaboratoryKitamura Laboratory
ユーザーからの補助情報を用いる
インタラクティブ音源分離システムの
開発
中野将生
2020/2/3 1/18
音源分離の背景
混合された観測信号から元の音源信号を測定する技術
音声認識を行うデバイスで事前処理として利用される
収録音からヴォーカルやギターなど特定の音源の抽出にも応用
可能
ブラインド音源分離(blind source separation; BSS)
音源の位置関係,種類等の事前情報を用いず分離する
優決定条件(マイク数 ≥ 音源数の条件)
独立成分分析(independent component analysis; ICA) [P. Comon 1994]
周波数領域 ICA
(frequency-domain ICA; FDICA) [P. Smaragdis 1998]
独立ベクトル分析(independent vector analysis; IVA) [T. Kim+ 2007]
独立低ランク行列分析
(independent row lank matrix analysis; ILRMA)
[D. Kitamura+ 2016]
2/18
本研究の概要
IVA,
ILRMA では右図のような
ブロックパーミュテーション
問題と呼ばれる現象が起こる
周波数ビン間の関係を推定す
る際に局所最適解に陥る
Block
permutation
人間とのインタラクション
高精度かつ安定的な音源分離
提案手法を検証するため Web システムを開発
Over HTTP
Web
user interface
ILRMA
Annotation of block
permutation by user
User
Over HTTP
Interaction
3/18
音源分離の定式化
𝒙 = 𝑨 𝒔 ∈ ℂ ×
𝒚 = 𝑾 𝒙 ∈ ℂ ×
𝑾 ≈ 𝑨−
∈ ℂ ×
𝒙 は観測信号
𝒔 は原信号
𝒚 は推定された分離信号
𝐼 は周波数ビンの数
𝐽 は時間フレームの数
信号の混合を周波数の信号ベクトルで定義
時間周波数領域であるのは時間畳み込みをモデリングするため
残響は時間畳み込みであり無視できない要素
混合行列 𝑨 の逆行列を近似する 𝑾 を求める
観測信号と分離信号数は等しいと仮定
観測信号が多い場合は主成分分析で減らす
Mixing Separating
4/18
FDICA
周波数領域 ICA
(FDICA)
周波数ビン毎に ICA で分離
ICA では順番が不定になるため周波数ビンがどの音源からのも
のか判別不可能
パーミュテーション問題
周波数ビンをソートする解決策 [H. Sawada+ 2004]
パーミュテーションが起きないよう拡張(IVA,
ILRMA)
ICA
In all frequency
Source 1
Source 2
Mixture 1
Mixture 2
F
r
e
q
u
e
n
c
y
Permutation
Solver Separated signal 2
Time
Separated signal 2
F
r
e
q
Non-aligned signal 1
Non-aligned signal 2
5/18
ILRMA の概要
独立低ランク行列分析(ILRMA) [D. Kitamura+ 2016]
パワースペクトログラム 𝑹 の構造を推定しつつ分離
𝑻 と 𝑽 の積により近似する
𝑻 と 𝑽 の基底数は 𝐼,
𝐽 より少ない(低ランク性)
音声信号の分離には弱い
R
T V
Time
Amplitude
Amplitude
×
J
Frequency
Y
Time
Amplitude
X
W
×
W
W
1
I
Frequency
Time
J
I
I
K
K
N
×N
×
N
×N
× N
×N
×
N
×
N
×
Update cycle
Separation
NMF
6/18
提案手法の動機
ILRMA にはブロックパーミュテーションと呼ばれる問題が存在
一部の周波数帯域の分離先を纏まって間違える
局所最適解に陥ることで発生
時間領域に戻しても分離できてないように聞こえる
アノテーションによる局所最適解からの脱出
周波数帯域の交換
音源毎の沈黙区間の指定
沈黙区間は重要なヒント(通常被らない)
7/18
アノテーションを与える UI
サーバ・クライアント型
ドラックして作成した白い矩
形領域で選択
play で現在の分離音を再生
シークバーで再生位置変更
ラジオボタンで 2 種類の手法
を切り替え
Frequency の場合はテキスト
ボックスで本来周波数帯域が
属するべき信号のインデック
スを指定
Submit でサーバに送信
Annotation of block
permutation by user
8/18
誤った周波数帯の直接修正
分離行列 𝑾 の振り分け先を入れ替え
スペクトルパターン行列 𝑻 の周波数帯を入れ替え
アクティベーション行列はリセット
I
N
M W1
Swap
W
I
W
Wi
Swap T2
1
×
Activation matrix
Basis matrix (spectral patterns)
Demixing matrix
T
V2
V
1
Swap Reset with
I
K
K
K
K
J
e
ib
i=ie
i=is
-1
ρ
i=ie
i=is
9/18
沈黙している時間区間の指定 (a)
アクティベーション行列 𝑽 に沈黙区間を設定
スペクトルパターン行列 𝑻 をリセット
分離行列 𝑾 をリセット
I
N
M W1
W
I-1
T2
1
×
Activation matrix
Basic matrix (spectral patterns)
Demixing matrix
T
V2
V
1
I
K
K
K
K
J
Reset
Reset with ε
je
=
j
js
=
j
10/18
沈黙している時間区間の指定 (b)
アクティベーション行列 𝑽 に沈黙区間を設定
アクティベーション行列 𝑽 の沈黙区間以外をリセット
スペクトルパターン行列 𝑻 をリセット
分離行列 𝑾 をリセット
I
N
M W
1
W
I-1
T2
1
×
Activation matrix
Basis pattern matrix
(spectral patterns)
Demixing matrix
T
V
1
V0
I
K
K
K
K
J
Reset
Reset with
Reset with
ε
α
je
j=
js
j=
11/18
実験条件
SiSEC2011 [S. Araki+ 2012] の
UND タスクに含まれる残
響合成済み 130 ms の 6 信
号を混合
No. 1 女声 女声 10 秒
No. 2 男声 男声 10 秒
No. 3 女声 男声 10 秒
短時間フーリエ変換時には窓長 128 ms のハミング窓
を 64 ms のシフトで使用
source-to-distortion ratio
(SDR)[E. Vincent+ 2006] で評価
原信号に対する歪みを表す指標
この値が高いほどよく分離されている
ILRMA
annotation ILRMA
ILRMA
x 80
x 80
x 80
12/18
周波数帯修正の SDR 改善率
0 20 40 60 80 100 120 140 160
Iteration [times]
2
0
2
4
6
8
10
12
SDR
improvement
[dB] ILRMA w/ annotation (No. 1)
ILRMA only (No. 1)
ILRMA w/ annotation (No. 2)
ILRMA only (No. 2)
ILRMA w/ annotation (No. 3)
ILRMA only (No. 3)
13/18
実際のブロックパーミュテーションの例
低音域でブロックパーミュ
テーションが発生してい
る
目視での識別は非常に困
難
14/18
沈黙区間指定 (a) の SDR 改善率
0 20 40 60 80 100 120 140 160
Iteration [times]
2
0
2
4
6
8
10
12
SDR
improvement
[dB] ILRMA w/ annotation (No. 1)
ILRMA only (No. 1)
ILRMA w/ annotation (No.2)
ILRMA only (No.2)
ILRMA w/ annotation (No.3)
ILRMA only (No.3)
15/18
沈黙区間指定 (b) の SDR 改善率
0 20 40 60 80 100 120 140 160
Iteration [times]
2
0
2
4
6
8
10
12
SDR
improvement
[dB] ILRMA w/ annotation (No. 1)
ILRMA only (No. 1)
ILRMA w/ annotation (No.2)
ILRMA only (No.2)
ILRMA w/ annotation (No.3)
ILRMA only (No.3)
16/18
沈黙区間を指定する 2 手法の比較
No. 1
Data sets Data sets
No. 2 No. 1
No. 3 No. 2 No. 3
-2
0
2
4
8
10
12
SDR
improvements
[dB]
6
SDR improvements
by time annotation (a)
SDR improvements
by time annotation (b)
17/18
まとめ
優決定条件下での汎用的な音源分離手法として ILRMA が存在
ILRMA にはブロックパーミュテーションと呼ばれる問題がある
アノテーションには分離精度向上に一定の効果がある
沈黙区間を指定する場合は (b) の手法がより効果的である
目視でのブロックパーミュテーション判別は困難である
沈黙区間を指定するほうが実用的
18/18
1 of 18

More Related Content

More from Kitamura Laboratory(20)

Recently uploaded(20)

What is Whirling Hygrometer.pdfWhat is Whirling Hygrometer.pdf
What is Whirling Hygrometer.pdf
IIT KHARAGPUR 9 views
Saikat Chakraborty Java Oracle Certificate.pdfSaikat Chakraborty Java Oracle Certificate.pdf
Saikat Chakraborty Java Oracle Certificate.pdf
SaikatChakraborty7871488 views
SWM L1-L14_drhasan (Part 1).pdfSWM L1-L14_drhasan (Part 1).pdf
SWM L1-L14_drhasan (Part 1).pdf
MahmudHasan74787035 views
Stone Masonry and Brick Masonry.pdfStone Masonry and Brick Masonry.pdf
Stone Masonry and Brick Masonry.pdf
Mohammed Abdullah Laskar15 views
cloud computing-virtualization.pptxcloud computing-virtualization.pptx
cloud computing-virtualization.pptx
RajaulKarim2066 views
FLOW IN PIPES NOTES.pdfFLOW IN PIPES NOTES.pdf
FLOW IN PIPES NOTES.pdf
Dearest Arhelo71 views
performance uploading.pptxperformance uploading.pptx
performance uploading.pptx
SanthiS107 views
Pointers.pptxPointers.pptx
Pointers.pptx
Ananthi Palanisamy55 views
EV in Bangladesh.pptxEV in Bangladesh.pptx
EV in Bangladesh.pptx
Sohel Mahboob23 views
Object Oriented Programming with JAVAObject Oriented Programming with JAVA
Object Oriented Programming with JAVA
Demian Antony D'Mello38 views
IWISS Catalog 2022IWISS Catalog 2022
IWISS Catalog 2022
Iwiss Tools Co.,Ltd22 views
Wire RopeWire Rope
Wire Rope
Iwiss Tools Co.,Ltd8 views
CHI-SQUARE ( χ2) TESTS.pptxCHI-SQUARE ( χ2) TESTS.pptx
CHI-SQUARE ( χ2) TESTS.pptx
ssusera597c59 views

ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発