招待講演（鶴岡）

1
信号処理研究会(2013/3/14) 鶴岡招待講演
複数音源の到来方向推定と
音源分離問題
慶應義塾大学理工学部
浜田望
1

音源分離の実験
Mixed
sound
Separated
sounds
2

（慶大理工SD学科中澤和夫研究室）マイクロホンアレーシステム（同浜田望研究室）
マイクロホンアレー
正4面配置
モバイルロボット
3

ノイズ環境での話者トラッキング実験
4

4. Exp, Field Test & Result (cont.)
Filed Test: Robot master tracking & Identification
Robot Audition System field test for tracking a speaking person using
mean-shift algorithm and speaker identification
Video on youtube HamadaLab channel :
http://youtu.be/6vazpZbYlgI and http://youtu.be/TZqiHtjTOFM

6
発表内容
１．はじめに
課題、アプローチ、時間－周波数マスキング
２．ステレオ混合におけるDOA推定
カーネル密度推定による方法
３．任意配置マイクロホンアレーでのDOA推定
任意配置、空間エリアシング条件下
４．複数移動音源のトラッキング
Particle Filter, Mean Shift,特定話者のトラッキング
５．音源分離システム
位相差vs.周波数時系列の利用
６. むすび
6

7
課題：同時発話された複数音源の
到来方向推定と音源分離
基本問題：
ASA（Auditory Scene Analysis）
CASA(Computational Auditory Scene Analysis)
背景：アレー信号処理、ロボット聴覚に関する研究・開発
7
１．はじめに

カクテルパーティ効果
Our ability to listen to, and follow, one speaker in the presence of
others. This is such a common experience that we may take it for
granted: we may call it “the cocktail party problem.” No machine
has been constructed to do just this, to filter out one conversation
from a number jumbled together.
Colin Cherry,1957
8

音声によるヒューマン・マシン(ロボット)の
インタラクティブコミュニケーション
Teleconference
system
Circular array(Microsoft)
NTT Communication
Systems Lab.
9
Natural
Communication
Kobe Steel, Ltd.

Human Interface using speech communications
From:
National Inst. of Advanced
Industrial Science and
Technology
Intelligent Robot

直線アレー
円形アレー

Large scale
microphone
array
system
384 microphones
on a plane

LOUD: A 1020-Node Microphone Array and Acoustic
Beamformer*
Eugene Weinstein et al. Courant Institute of Mathematical
Sciences, Tilera Corporation, MIT Computer Science and
Artificial Intelligence Lab
Large scale
microphone
array
system

考察する問題
14
• マイクロホンアレー利用
• Underdetermined ケースも扱える。
• マイク間距離はエリアシングを起こさない場合と、そう
でない場合も考える。
条件
到来方向(DOA)推定
• 複数同時発話音声
• 音源方向を推定する
ブラインド音源分離
• 音源位置など事前情報なしで分離を行う
• センサにおける観測信号のみを入手して分離する
14

15


























cos
sinsin
cossin
),(
z
y
x
a
a
a
a
音声信号伝搬ベクトル
マイク位置ベクトル
15
Direction-Of-Arrival：DOA
𝑧
𝑥
𝑦
𝜃
𝜙
𝒂
𝒓 𝒎
source
m-th mic
reference mic
マイク位置行列 𝑹 =
𝒓 𝟐 − 𝒓 𝟏
⋮
𝒓 𝒎 − 𝒓 𝟏
=
𝒓 𝒙
𝒓 𝒚
𝒓 𝒛
𝒓 𝟏 = [0 0 0] 𝑇
: 𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝑚𝑖𝑐

到来方向 (DOA) 推定のアプローチ
Typical DOA estimation
Methods
Conditions
Generalized Cross-Correlation
(GCC)
Single source model
Signal subspace (MUSIC et al.) number of sensors >
number of sources
Independent Component
Analysis (ICA)
number of sensors ≥
number of sources
Time-Frequency Sparseness No Constraint
16

p0
p１
pN-1
Source A
：
：
sA(t)
：
：
：
：Source B
sB(t)
sB(t)
sA(t)
?
Mixing Process Separation Process
ブラインド音源分離(BSS)問題
17

音源分離のアプローチ
18
手法： ICA, Beamformer,
Time-Frequency Masking
センサ：モノラル,ステレオ(Binaural),任意配置マイク
分離特徴量：IID(Interaural Intensity Difference)
ITD( 〃 Time 〃 )
IPD( 〃 Phase 〃 )
Mask ：Binary(0-1Mask),Soft Mask＝Weighted
音源vs.センサ数：Under-determined,Over-determmined

マイクロホンアレーによる観測プロセス
sound source
 1x t
microphone array
mic. 1 mic. 2
 2x t
Room
sound source )(2 ts
)(1 ts
)(3 ts
sound source
Direct path
Reverberation
19

音源混合モデル
20
( ) ( ) ( )mi mi i
j
x h j s j  
たたみ込み混合
: インパルス応答
音源 i からマイク m へ
( )mih j
0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16
0
5
10
x 10
-3
time (s)
TFcoeffs
Direct wave
Reflected waves
Example of a room impulse response


 lj
mm ekSwinxlkX 2
)()(],[ 
 
時間-周波数領域表現
周波数域における瞬時混合モデル
 

N
i
imi
N
i
mim lkSlHlkXlkX
11
],[][],[],[
)(1 s
)(2 s
)(1 x
)(2 x
22h
12h
21h
11h
)(mih
20

ICA アプローチ(周波数域ICA)
21
音源信号間の統計的独立性を仮定
],[1 lkX Degree of
independence
],[2 lkX
   
   





lWlW
lWlW
2221
1211
Separation filter at
frequency bin l
21

22
到来方向 (DOA) 推定のアプローチ
   
   





lWlW
lWlW
2221
1211
ICA アプローチ
Separation
system:
 
 
12
11
12
1 )( fj
e
lW
lW
lr 

時間-周波数マスキング
DUET: 遅延ヒストグラムのピーク
MENUET: k-means クラスタの中心
DOAs
DOAs
DOAs
 
 
22
21
22
2 )( fj
e
lW
lW
lr 

delay：
22

時間-周波数マスキング
23
1. 音声信号のスパース性
2. 異なる音声信号間W-disjoint orthogonality
0 1 2 3 4
x 10
4
-15
-10
-5
0
5
10
15
Sparseness of speech signal音声信号のT-F域スパース性
Zero power
23
Time
Frequency

声帯での
空気流
口唇から
の放射
空気圧
周波数
時間ｰ周波数成分の局在
周波数

W-Disjoint orthogonality (WDO性)
25
Even the received signals are mixture signals, each cell in time-frequency
domain is at most dominant by one source.
スペクトログラムの積はほぼゼロとなる.
Time
index
Frequency index
],[1 lkS ],[2 lkS
0],[],[ 21  lkSlkS
25

T-FセルにおけるDOAと時間差・位相差
26
𝑧
𝑥
𝑦
𝜃
𝜙
𝒂
𝒓 𝒎
source
m-th mic
reference mic
STFT
観測位相差ベクトル 𝝋(𝑘, 𝑙) = [𝜑12 𝜑13 𝜑14]
周波数𝑙
時間𝑘
𝜑12 𝑘, 𝑙 = ∠
𝑋1(𝑘, 𝑙)
𝑋2(𝑘, 𝑙)
𝜑13 = ∠
𝑋1(𝑘, 𝑙)
𝑋3(𝑘, 𝑙)
𝜑14 = ∠
𝑋1(𝑘, 𝑙)
𝑋4(𝑘, 𝑙)
𝑋2(𝑘, 𝑙)𝑋1(𝑘, 𝑙) 𝑋3(𝑘, 𝑙) 𝑋4(𝑘, 𝑙)
mic1
mic2
mic3
mic4
遅延時間ベクトル 𝜹 = −
𝑹𝒂
𝑐
観測遅延時間ベクトル 𝜹(𝑘, 𝑙) =
1
∆𝜔𝑙
𝝋(𝑘, 𝑙)
∆𝜔 =
2𝜋𝑓𝑠
𝐿
𝑓𝑠: サンプリング周波数[Hz]
𝑙: 周波数ビン
𝐿: STFT窓長 𝑐: 音速[m s]
𝒓 𝟐 − 𝒓 𝟏
⋮
𝒓 𝒎 − 𝒓 𝟏
=
𝒓 𝒙
𝒓 𝒚
𝒓 𝒛
𝒓 𝟏 = [0 0 0] 𝑇
𝒂 𝜙, 𝜃 =
𝑎 𝑥
𝑎 𝑦
𝑎 𝑧
=
sin𝜃cos𝜙
sin𝜃sin𝜙
cos𝜃
𝒂を求める

時間-周波数セルによるマスキング・DOA
27
混合入力信号
時間-周波数分析(表現)
分離
時間-周波数
マスキング
DOA推定
合成
分離出力音声
DOAs

T-F マスキング法
1: monaural microphone approach
2: array processing approach
28
Monaural microphone approach
0 1000 2000 3000 4000
0
200
400
600
800
1000
 Fundamental frequency
 Second harmonic
 Third harmonic
Frequency (Hz)
Amplitude
Harmonic structure
28

調波構造を利用した方法
T. W. Parsons, “Separation of speech from
interfering speech by means of harmonic selection,”
Journal of the Acoustical Society of America, Vol.60,
No, 4, pp.911-918, 1976.
G. Huang, D. L. Wang, “Monaural Speech
Segregation Based on Pitch Tracking and Amplitude
Modulation,” IEEE TRANSACTIONS ON NEURAL
NETWORKS, Vol.15, No, 5, pp.1135-1150, 2004.
temporal continuity and cross-
channel correlation for segregation
Peak
separation
Pitch extraction
TrackingReconstruction
29
29

時間－周波数マスキング法＋DOA推定
DUET (Degenerate Unmixing
Estimation Technique) [2004]
MENUET (Multiple sENsor
dUET) [2007]













],[
],[
arg
2
1
,
],[
],[
],[
],[
1
2
2
1
1
2
lkX
lkX
llkX
lkX
lkX
lkX

Features
ClusteringHistogram k-means













],[
],[
arg
2
1
,
],[
],[
,
],[
],[
1
2
1
21
lkX
lkX
dlclkA
lkX
lkA
lkX

30


M
im
m lkXlkA
2
],[],[
c: sound velocity
d: microphone distance
-5 0 5
-6
-4
-2
0
2
4
6
Cluster 1
Cluster 2
Centroids

31
提案手法のポイント
１）推定位相の信頼度導入とセル選択
２）カーネル密度推定の適用
31
２ステレオ混合におけるDOA推定

周波数 vs. 位相差時系列
位
相
差
周波数（Hz）

周波数vs.位相差観測データ
0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
PhaseDifference(rad.)
Source 1
Source 2

0 2 4 6 40 60 80 100
0
0.2
0.4
0.6
0.8
1
1.2
Amplitude |Xm
[k,l]|
PDestimationerror(rad.)
Average
Individual speaker
１) 信頼度とT-Fセル選択
信頼のおける位相差を与える時間－周波数セルの選択
Strategy 1: パワーによる方法
Strategy 2: 時間－周波数領域との一致性による方法
34
34

3535
Strategy 2: T-F ブロックにおける一致性
Time frame
Frequencybin
2
],[
]),[],[(1],[ 
 


qp
lkqplk 
])},[],,[min(exp{],[ lklklk ft  
Standard deviation
信頼度指数
region for consistency check
  Yylyklkt  |,:],[
  Zzzlklkf  |,:],[

36
検証－信頼度と位相差推定誤差の相関－
36
0.7 0.75 0.8 0.85 0.9 0.95 1
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
Reliability index 
Phasedifferenceabsoluteerror(rad.)
Average error
Error for individual speaker
The prominent negative correlation
is observed. The phase difference
error decreases as the reliability
index increases.
0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
0 100 200 300 400 500
-0.25
0
0.25
0.5
0.75
1
Frequency Bin
Before
After

3737
２）カーネル密度推定(KDE)によるアプローチ
cdT /
Lfs /2 
  00 sinTB
),0(~][ 2
 Nl
independent to l
lB0
)(sin)( 1
lT 



 
Random variable
][l
n])[( 0 llB 
Phase Difference (ideal)
Phase Difference Error
Direction angle
0 100 200 300 400 500
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Frequency bin l
PDestimationerror(rad.)
Average
Standard deviation
Individual direction
Experimental verification of phase
difference error which is
independent to frequency bin.
37

誤差伝搬モデル
If the random variable is given by and is
sufficient small, the probability function of is given by
),0(~][ 2
 Nl
])[,(~ 2][
lN nn
l
n   


nlT
ln
cos
1
][


][l 
][l
n
1. DOA 推定誤差分布の定式化
2. 誤差分布の違いをカーネル密度推定に利用する

PD distribution
DOA estimation distribution
38
0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2

-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.5
1
1.5
2
2.5
x
Histogram
3939
ヒストグラムとKDE
Kernel density estimator is a way of estimating the probability density
function of a random variable.
histogram kernel density
Problem: How to determine the bandwidth of kernel density estimator?
-10 -5 0 5 10
0
0.2
0.4
0.6
0.8
1
x
Densityfunction
+: data point
Estimated probability density p(x)
Bandwidth h
39

KDEにおけるバンド幅
0 200 400 600 800 1000 1200
0
0.2
0.4
0.6
0.8
1
1.2
1.4
誤差大
→バンド幅大
(低信頼度)
誤差小
→バンド幅小
(高信頼度)
I
l
l
i
i
lli
lli










)(
,)(
  )
2
)(
exp(
2
1
2

xx
xK


ガウスカーネル
カーネル数

 

M
i i
l
i
i l
K
lM
p
i
1
][
)
][
(
][
11
)(




40

42
DOA 推定 –KDE法–
42

 

M
i i
l
i
i l
K
lM
p
i
1
][
)
][
(
][
11
)(





in lTlT
l


cos
1
cos
1
][




Probability density function
Kernel density function
Estimated angle by each cell
Bandwidth of kernel
Bandwidth control parameter
)(

p
K
][ il
i
][ il

The DOA estimation error is related with source direction and frequency .
5.0 2 5
42
i l
42

43
３）実験
Name Methods
ICA-
based
F. Nesta et al. “Cumulative state coherence
transform for a robust two-channel multiple source
localization,” Proc. ICA, pp.290-297, 2009.
k-means
S. Araki et al. “DOA estimation for multiple sparse
sources with arbitrarily arranged multiple sensors,”
Journal of Signal Processing Systems, vo.63,
pp.265-275, 2009.
比較対象の従来法
43

44
２音源 symmetrical positions
0 20 40 60 80 100 120
-60
-40
-20
0
20
40
60
Direction difference (degree)
Estimationresult(degree)
Source 1
Source 2
True source direction
0 20 40 60 80 100 120
-60
-40
-20
0
20
40
60
Source 1
Source 2
0 20 40 60 80 100 120
-60
-40
-20
0
20
40
60
Source 1
Source 2
ICA-based
k-means Proposed
-90° 90°
0°
source1 source2
Mic1 Mic2

45
２音源－片側配置－
10 20 30 40 50 60 70
-10
0
10
20
30
40
50
60
70
Source 1
Source 2
10 20 30 40 50 60 70
-10
0
10
20
30
40
50
60
70
Source 1
Source 2
10 20 30 40 50 60 70
-10
0
10
20
30
40
50
60
70
Source 1
Source 2
ICA-based
k-means Proposed
-90° 90°
0°
source1 source2
Mic1 Mic2

4646
３音源
0 2 4 6 8 10
-60
-40
-20
0
20
40
60
CaseDOAestimation(degree)
Close together (-23o
& 4o
& 23o
)
Far apart (-42o
& 4o
& 42o
)
0 2 4 6 8 10
-60
-40
-20
0
20
40
60
Case
DOAestimation(degree)
Close together (-23o
& 4o
& 23o
)
Far apart (-42o
& 4o
& 42o
)
The proposed method gives much more accurate and stable DOA
estimation than conventional method.
Proposedk-means

KDE法におけるバンド幅選択による影響
The control parameter h in kernel density estimator is to determine the
fundamental bandwidth of kernel.
From our experiments we have observed a very small effect on the DOA
estimation for various h
47
1 2 3 4 5
-5
0
5
10
15
20
25
30
35
40

Source 1
Source 2
The influence to DOA estimation results by various h

48
Diffuse noise に対するロバスト性
0 100 200 300 400 500 600
0
0.2
0.4
0.6
0.8
1
Frequency bin
Amplitude
Theoretical line sinc(Tl)
generated cross-correlation
white Gaussian noise







],[
],[
],[
2
1
lkN
lkN
lkN










1)(sin
)(sin1
][
2
Tlc
Tlc
NNEV H



Correlation matrix
],[],[],[ lkNlkXlkX 

In the diffuse noise, there is equal probability of energy flow in all directions.
The noise appears to have no single source and correlated between sensors.
Tl
Tl
Tlc






)sin(
)(sin
cdT /
Lfs /2 
)(12 lV
)(11 lV

付加ノイズに対する推定結果
49
The proposed method can estimate source directions stably and accurately
even in a low SNR condition (SNR = 5dB), while the conventional methods
can only work when SNR= 20dB.
-90° 90°
0°
source1
source2
Mic1 Mic2
-5
0
5
10
15
20
25
30
SNR=20dB
SNR=10dB
SNR=5dB
SNR=20dB
SNR=10dB
SNR=5dB
SNR=20dB
SNR=10dB
SNR=5dB
ICA-based Araki Proposed
Direction of source 2 = 20°
Estimationerror

50
50３．任意配置マイクロホンアレーによるDOA推定
１)位相差(PD)部分空間と伝搬ベクトル理論球面
グラムシュミットの直交化法
２)伝搬ベクトルのカーネル密度推定
３)エリアシング条件下でのDOA推定(分離)

（再）T-Fセルにおける到来方向推定
51
𝑧
𝑥
𝑦
𝜃
𝜙
𝒂
𝒓 𝒎
source
m-th mic
reference mic
STFT
観測位相差ベクトル 𝝋(𝑘, 𝑙) = [𝜑12 𝜑13 𝜑14]
周波数𝑙
時間𝑘
𝜑12 𝑘, 𝑙 = ∠
𝑋1(𝑘, 𝑙)
𝑋2(𝑘, 𝑙)
𝜑13 = ∠
𝑋1(𝑘, 𝑙)
𝑋3(𝑘, 𝑙)
𝜑14 = ∠
𝑋1(𝑘, 𝑙)
𝑋4(𝑘, 𝑙)
𝑋2(𝑘, 𝑙)𝑋1(𝑘, 𝑙) 𝑋3(𝑘, 𝑙) 𝑋4(𝑘, 𝑙)
mic1
mic2
mic3
mic4
遅延時間ベクトル 𝜹 = −
𝑹𝒂
𝑐
観測遅延時間ベクトル 𝜹(𝑘, 𝑙) =
1
∆𝜔𝑙
𝝋(𝑘, 𝑙)
∆𝜔 =
2𝜋𝑓𝑠
𝐿
𝑓𝑠: サンプリング周波数[Hz]
𝑙: 周波数ビン
𝐿: STFT窓長 𝑐: 音速[m s]
𝒓 𝟐 − 𝒓 𝟏
⋮
𝒓 𝒎 − 𝒓 𝟏
=
𝒓 𝒙
𝒓 𝒚
𝒓 𝒛
𝒓 𝟏 = [0 0 0] 𝑇
𝒂 𝜙, 𝜃 =
𝑎 𝑥
𝑎 𝑦
𝑎 𝑧
=
sin𝜃cos𝜙
sin𝜃sin𝜙
cos𝜃
𝒂を一般化逆行列より求める

-1
0
1
-1
0
1
-1.5
-1
-0.5
0
0.5
1
1.5
transformedc14
transformed c12
transformed c13
-0.05
0
0.05
-0.05
0
0.05
-0.05
0
0.05
normalized 12
normalized 13
normalized14
52
１)位相差(PD)部分空間と伝搬ベクトル理論球面
),;(),(  lTξ
332211 ),(),(),(),( uuuξ  ccc 






















3
32
3
2
32
2213
2
1
ˆ
1
00
ˆˆˆ
1
0
ˆˆ
ˆ
ˆ
1
u
uuu
uur
u
rur
T
d
dddd
xxx
1
2
3
sin cos ( , )
( , ) sin sin ( , )
cos ( , )
c
c
c
   
     
  
   
       
      
a T
DOAと1:1対応
PD理論曲面
PD理論球
 
( ; , ) ( ) ( , )
( ) sin cos sin cos cosx y z
l l
l
    
     

  
ξ Ra
r r r
グラムシュミットの直交化に基づく基底： 321 ,, uuu
52

53
提案アルゴリズム
DOA推定
カーネル密度推定
位相差ベクトル変換
位相差ベクトル観測
T-Fセルセレクション
変換行列生成
STFT
-0.05
0
0.05
-0.05
0
0.05
-0.05
0
0.05
normalized 12
PD distribution
normalized 13
normalized14
-1
0
1
-1
0
1
-1.5
-1
-0.5
0
0.5
1
1.5
transformed normalized 12
transformed PD
transformednormalized14
-1
0
1
-1
0
1
-1.5
-1
-0.5
0
0.5
1
1.5
transformed normalized c12
Selected transformed PD distribution
transformednormalizedc14
53

54
T-Fセル選択
-0.05
0
0.05
-0.05
0
0.05
-0.05
0
0.05
normalized 12
PD distribution
normalized 13
normalized14
),(
),(
),(
lkX
lkX
lk
i
ref
i 
観測されたPDベクトル
12
1314
54
位相差理論曲面

55
提案 T-Fセル選択
 ),;(),( 1
 lTξ

332211 ),(),(),(),( uuuξ  ccc 






















3
32
3
2
32
2213
2
1
ˆ
1
00
ˆˆˆ
1
0
ˆˆ
ˆ
ˆ
1
u
uuu
uur
u
rur
T
d
dddd
xxx






















),(
),(
),(
cos
sinsin
cossin
),(
3
2
1







c
c
c
Ta
DOAと1:1対応
PD理論曲面
PD理論球
マイク配置に依らない
DOAと対応した領域へ変換
-1
0
1
-1
0
1
-1.5
-1
-0.5
0
0.5
1
1.5
transformed PD
transformednormalized14
-0.05
0
0.05
-0.05
0
0.05
-0.05
0
0.05
normalized 12
PD distribution
normalized 13
normalized14
-1
0
1
-1
0
1
-1.5
-1
-0.5
0
0.5
1
1.5
Selected transformed PD
transformednormalizedc14
  ),;(),(min),;(),,(
,


llkllkd ξξ 
PDと理論球とのユークリッド距離
を用いてセレクションをする
PD理論曲面
55

56
２）伝搬ベクトル分布の推定
-1.5
-1
-0.5
0
0.5
1
1.5
-1.5
-1
-0.5
0
0.5
transformed c12
transformed c13
PD誤差分布はガウス分布に従うと仮定
   nn  ,, 





,,
),()(
),(),(


x
dx
dl
nn
x 　　
ξ







 
  )(
ˆ
,
)(
ˆ
)()(
11
),(ˆ
][][
1 i
l
i
i
l
i
I
i ii ll
K
llI
p
ii






平均：
偏差：
カーネル密度推定法によるDOA推定
PD誤差モデル
推定密度関数
0 200 400 600 800 1000 1200
0
0.2
0.4
0.6
0.8
1
1.2
1.4
誤差大
→バンド幅大
(低信頼度)
誤差小
→バンド幅小
(高信頼度)
I
l
l
i
i
lli
lli










)(
,)(
  )
2
)(
exp(
2
1
2

xx
xK


ガウスカーネルガウスカーネルで
ヒストグラム化
0
10
20
30
40
50
0
50
100
0
0.2
0.4
0.6
0.8
1
 [deg] [deg]
estimatedp(,)
0.1





 
L
lf
l s 2
)(
カーネル数
56

57
検証
実験パラメータ数値
サンプリング周波数 8000Hz
マイクロホン間隔 0.04m
STFT窓形ハミング窓
STFT窓長 512点(64ms)
STFT間引き係数 256点
正四面体アレー
18m
15m
2m
音源
msT 120060 
実験内容
1. DOA差15度の2音源同時発話時の推定精度検証
2. 正四面体アレーの時5音源同時発話
比較手法
method1. ヒストグラム法
method2. k-means法

58
検証（正四面体アレー）
真値 30,45 60,60 90,150 120,120 240,135
method1 114,118 116,123 119,123 123,121 125,125
method2 47,61 109,129 137,72 232,131 307,79
propose
d
33,44 61,58 93,151 121,122 241,135
正四面体マイクロホンアレーにおけるDOA推定誤差[度]検証
従来法使用領域提案法使用領域
method1:ヒストグラム method2: k-means法

-50 0 50
0
0.2
0.4
0.6
0.8
1
DOA  [deg]
histogram
(a) DOA histogram (original)
-50 0 50
0
0.2
0.4
0.6
0.8
1
DOA  [deg]
histogram
(b) DOA histogram (after selection)
-50 0 50
0
0.2
0.4
0.6
0.8
1
DOA  [deg]
estimatedp()
(c) estimated density function
1. セルセレクションによる影響
・STFT計算や反響の影響等で大きな
誤差をもち正確な位相差を示さない
セルを除外
2. カーネル密度推定による影響
・ガウスカーネルによる平滑化
・所望ピークが顕著に出現
59
効果

60
３)空間エリアシング条件下(DOAの一意性損失)
Sound
Source
① ② ③
Phase Difference: 𝜋 PD(wrapped): 𝜋
No unique direction
Microphone Distance
Highest Frequency
Half Wave Length
>
Mic①-Mic②
No Aliasing
Microphone Distance
Highest Frequency
Half Wave Length
>
Mic①-Mic③
Aliasing
PD(unwrapped): 𝜋 + 2𝜋
60

Unwrapping法 (DOAの一意性回復)
61PD
0
−𝜋
𝜋
f
PD
0
−𝜋
𝜋
f
−3𝜋
−5𝜋
𝑝 = −1
𝑝 = −2
PD
0
−𝜋
𝜋
f
Aliasing(wrapped PD)
Non-Aliasing DOA
Unwrapped PDunwrapping
𝜑 𝑘, 𝑙 = 𝜑 𝑘, 𝑙 + 2𝜋𝑝
Real PD
wrapped PD
未定項 “𝑝” の適切な決定
61

エリアシングを許容するDOA推定(音源分離)
拡張Hough変換(ヒストグラム)による手法[27]
B. Loesch and B. Yang, “ Blind Source Separation based on Time-Frequency Sparseness in the Presence of Spatial
Aliasing ”LATENTVARIABLE ANALYSIS AND SIGNAL SEPARATION, Lecture Notesin Computer Science, 2010, Volume
6365/2010
逐次的位相差補正処理による手法[28]
いずれか一組のセンサが非エリアシング条件を満たすことを利用
Loeschらによる手法[23]2010 *
State vectorを用いた評価関数による任意マイク配置におけるDOA推定と分離
Sawadaらによる手法[21]2007
低域から順次解決するDOA推定と分離手法

𝒂 𝟑
𝒂 𝟏
𝒂 𝟑
Non-aliasing 𝒂
伝搬ベクトル理論球と空間エリアシング
63
The data located near the surface of unit sphere
High reliable data
𝒂 𝟑
𝒂 𝟏
𝒂 𝟑
Aliasing 𝒂
理論球に近いデータのみ
Aliasing data除去は期待できない
𝐴 = 𝑘, 𝑙 |1 − 𝜀 < 𝒂 𝑘,𝑙 < 1 + 𝜀
𝐴 = 𝑘, 𝑙 |1 − 𝜀 < 𝒂 𝑘,𝑙 < 1 + 𝜀
Alias components
63

𝑎1 𝑎2
𝑎3
𝑎1 𝑎2
𝑎3
𝒂 𝒑 𝒎 (𝑘, 𝑙)
𝑝1 = 1
𝑝1 = 0
𝑝1 =-1
𝑝2 = 1
𝑝2 =0
𝑝2 =-1
𝑝3 = 1
𝑝3 = 0
𝑝3 =-1
信頼度の利用
64
STFT
Observed signal 𝑥 𝑚
PD vector 𝜑 from 𝑋 𝑚
Mode Search
by Mean Shift
Estimated DOAs
すべての {𝑝𝑖}の組みあわせMicrophone array
Proposed
method
& Unwrapped propagation vector 𝒂
Unwrapped PD 𝝋
伝搬ベクトルへの変換 𝒑-Combination
Unwrapped propagation vector
𝒂 𝑘, 𝑙
適切な “𝒑” の選択 for each T-F cell
64

提案法の検証- 定性的評価(4音源近距離配置)
12
提案法従来法① 従来法②
従来法はDOA推定
に失敗している
●が真値、■が推定値
𝜙 𝜙 𝜙𝜃 𝜃𝜃
𝜃
𝜙 𝜙
𝜃 𝜃
𝜙
𝑎 𝑎

66
１）ミーンシフト法によるトラッキング
カーネル密度推定法への適用
２）パーティクルフィルタによるトラッキング
ダイナミックスの導入
３）移動ロボットにおける実装
66
４．複数移動音源のトラッキング

移動音源のトラッキング
移動音源の追跡問題
ロボット聴覚
時々刻々と音源が移動
→短い時間間隔（少ないデータ量）で推定が必要
→無音(ポーズ)区間と動きへの対応が必要
移動音源定位はなぜ難しいのか？
不足するデータ量を補いながら
効率的に追跡を行う手法が求められる
67
67
1.5m
歩行速度3~4km/h=角速度
30°/s →
0.5秒間で15°移動する
http://www.itmedia.co.jp/news/articles/0703/05/news094

ℎ𝑥
𝑛個のデータ点集合𝑆 = {𝑥𝑖|𝑖 = 1,2, … , 𝑛}について
① 現在位置𝑥を中心とした半径ℎの領域を考える
② 領域内のデータ点について重み付き平均ベクトルを計算する
𝑚 𝑥 =
𝑤𝑖 𝑥𝑖 𝑔
𝑥 − 𝑥𝑖
ℎ
2
𝑛
𝑖=1
𝑤𝑖 𝑔
𝑥 − 𝑥𝑖
ℎ
2
𝑛
𝑖=1
③ 現在位置を平均ベクトルへ更新する
の手続きを収束するまで繰り返す
領域内の観測値の平均値へ現在位置を繰り返し更新していく
１) ミーンシフト法
68
• 最大密度点探索問題：初期値近傍におけるKDE結果の極大値
を求める
ℎ：カーネル幅

提案アルゴリズム
69
②信頼度の高いセルの厳選
STFT 変換行列𝑇
セルセレクション
位相差算出
伝搬ベクトル
重み付きミーンシフト
初期値設定
DOA推定
ポーズ判定 ③ミーンシフトによる音源追跡
①位相差空間と伝搬ベクトル空間の対応付け
*1
*1 藤本健，”任意配置マイクロホンアレーにおける複数音源の
高精度到来方向推定”，慶應義塾大学理工学研究科修士論文，2012
ミーンシフト法を用いた複数音源追跡手法の構築

シミュレーション結果
70
 4音源
 5音源
音源数方位角仰角
3音源 93.1 100
4音源 80.9 96.2
5音源 78.1 97.8
 平均誤差[deg]
音源数方位角仰角
3音源 2.6 0.8
4音源 6.6 1.3
5音源 7.3 1.4
実線：真の軌跡
プロット：推定値
20
-20
360
0
20
-20
360
0
 FER[%]

実環境実験
71
サンプリング周波数 8000 Hz
STFT点数 1024
STFTの窓関数 Hamming
時間フレーム送り量 512
マイク配置正四面体
マイク間距離 4 cm
部屋の寸法 17×15×3.5 m3
マイクと音源の距離 1 m
 結果
方位角[deg]
仰角[deg]

２) パーティクルフィルタ法
①位相差空間と伝搬ベクトル空間の対応付け
1
𝜅 𝑙
𝜉 𝜙, 𝑙 = 𝑹𝒂 𝜙 = cos 𝜙𝒓 𝑥 + sin 𝜙𝒓 𝑦 = 𝜉(𝜙)位相差理論曲線
𝒂 𝜙 = 𝑻𝜉(𝜙)理論円
72
72

73
複数音源への対応
位相差plot
パーティクルグループ1
パーティクルグループ2
現在音源を追跡しているパー
ティクルグループ
次に現れる音源に備えて、待機中のパーティクルグループ
再び、待機パーティクル
グループが出現
現在音源を追跡している
パーティクルグループ
待機していたパーティクルグループが追跡を開始す
る
一定時間追跡していた音源
が観測されない場合は、”消
滅”したとし、パーティクルグ
ループはそれ以上追跡を行
わない。
②複数移動音源の追跡

尤度設定


 


M
m
N
i
L
l
yixi
i
t
tktytktx mlml
1
1 1
22
))()(())()((
1

<尤度設定>
●ヒストグラムのピークに関する尤度
●周波数に関する尤度
検出されたピークから一定の範囲
のプロットの信頼は高いと考える
各パーティクルと領域内のプロット
とのユークリッド距離の合計を計算









)512412(
)412100(
)1000(
0024.0
1
01.0
l
l
l
l
l
i
t
　

𝑙: 周波数ビンindex
74

EM(GMM)によるシステム
• 単一音源の場合 • 複数音源の場合
75
音声信号入力
STFT
パーティクルフィルタ
位相差算出
変換行列Ｔ
伝搬ベクトル
ＤＯＡ出力
音声信号入力
STFT
パーティクルフィルタ
位相差算出
変換行列Ｔ
伝搬ベクトル
ＤＯＡ出力
EMアルゴリズム
75

ＥＭアルゴリズム
76
𝛾 𝑧 𝑛𝑘 =
𝜋 𝑘 𝒩 𝑥 𝑛|𝜇 𝑘, Σ 𝑘
𝜋𝑗
𝐾
𝑗=1 𝒩 𝑥 𝑛 𝜇 𝑗, Σ𝑗
Eステップ
　　𝜇 𝑘
new
=
1
𝑁𝑘
𝛾 𝑧 𝑛𝑘
𝑁
𝑛=1
x 𝑛
　　Σ 𝑘
new
=
1
𝑁𝑘
𝛾 𝑧 𝑛𝑘
𝑁
𝑛=1
x 𝑛 𝜇 𝑘
new (x 𝑛
− 𝜇 𝑘
new)T
　　𝜋 𝑘
new
=
𝑁𝑘
𝑁
Mステップ
平均𝜇 𝑘,分散Σ 𝑘,混合係数𝜋 𝑘を初期化。
対数尤度の初期値を計算。
初期設定
ln 𝑝 𝑋 𝜇, Σ, 𝜋 = ln 𝜋 𝑘 𝒩 x 𝑛|𝜇 𝑘, Σ 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
対数尤度
0 20 40 60 80 100 120
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
EMアルゴリズムを用いることで1つ1
つの平均、分散、混合係数を求める
複数音源への対応
この山ひとつひとつを尤度と
してパーティクルグループに
与えていく。

実験結果
FER =
５°以内に誤差が収まったフレーム数
推定が行われた時間フレーム数
× 100
2音源 3音源
一定距離 95% 90%
接近 92% 60%
各動きパターンにおけるFER(±5°)
各動きパターンにおける誤差平均[度]
2音源 3音源
一定距離 1.36 2.47
接近 3.94 4.19
77
77

• 3persons.avi
実環境における追跡
部屋の大きさ 17 × 15 × 3.5 m3
マイク配置正三角形
マイク間隔 4 cm
マイクと音源の距離 2 m
サンプリング周波数 8000 Hz
STFT点数 1024
時間フレーム送り量 512
17m
15m
2m
音源
正三角形アレー
78

（慶大理工SD学科中澤和夫研究室）マイクロホンアレーシステム（同浜田望研究室）
正4面配置
３) モバイルロボットへの実装
79

Implementation-Hardware
Hardware:
1) PC/Laptop with Linux (Ubuntu 10.04 LTS)
2) TD-BD-16ADUSB board for multichannel synchronal sampling
3) 8 channels amplifier
4) Mobile robot (Nakazawa Lab. in Keio)
5) Microphone array, wires etc.
TD-BD-16ADUSB board
mobile robot from Nakazawa lab
Microphone array
8 channels amplifier Mobile robot with Audition
80

Implementation-Software
Software:
1) OS : Linux (Ubuntu 10.04 LTS)
2) Sub OS : ROS (sources and tutorials can be found http://www.ros.org/wiki/ )
3) Linux driver for TD-BD-16ADUSB
4) QT4 for GUI (Graphic User Interface), gazebo 3D simulation, bluetooth lib etc.
azimuth
elevation
azimuth
-180 0 180
90
-90
0
Hardware
Linux & drivers
ROS
apps
Software Hierarchy
Simulator gazebo GUI
81

3.2 Implementation-Software (cont.)Program Framework: Multi processes:
DOA & Tracking
Speaker
Identification mobile robot /
moving speaker
Audio records
For each 0.5s
(φ,θ) are relative
azimuth and elevation
angles between robot and
speaker
(φ,θ)
82

4. Exp, Field Test & ResultExp: Real time tracking the loud speaker:
Real time audio source tracking with mean shift algorithm

86
86
５．音源分離システム
１）時系列としての位相差vs.周波数 (PD-F) 分布
２) フレームごとの主成分解析
NSA、SSA、DSA
３）調波構造を導入した分離

周波数 vs. 位相差時系列

0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
基本方針













],[
],[
arg],[,
1
2
lkX
lkX
lkl 
Frame-by-frame approach
分離問題 DOA推定問題
0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
...
0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
PD error
distribution
DOA error
distribution
位相差 vs. 周波数 (PD-F) 分布
88
88

0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
0 100 200 300 400 500 600
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x 10
4
-20
-10
0
10
20
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x 10
4
-10
-5
0
5
10
時系列としての位相差vs.周波数 (PD-F) 分布
0 100 200 300 400 500 600
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
NSA SSA DSA
89
Non source active
Single source active
Double source active
89

処理の流れ
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
…
Identify NSA, SSA and DSA
0 200 400
0
1
2
3
Frequency Bin
Source 1
Source 2
NSA SSA DSA
DOA estimation Two-stage Separation
90
90

Non source active (NSA)
91
The noise level is assumed to be sufficiently low with respect to the level of
the sources.
NSA criterion:
NSAframethkthenThkEif  ，1)(
The average local power of frame k is defined as


2/
0
2
1 ],[
12/
1
:)(
L
l
lkX
L
kE
EETh 201 
:0E
:E
Average noise value
Standard deviation
0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
91

0 100 200 300 400 500 600
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2


0 100 200 300 400 500 600
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2


0 100 200 300 400 500 600
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2


Single source active (SSA)
92
SSA criterion: scattering feature along a constant gradient line by PCA.
SSA DSASSA
r(k) β(k) θ(k)
0.14 0.02 1.10
r(k) β(k) θ(k)
0.06 0.72 42.70
r(k) β(k) θ(k)
0.62
Apply PCA Eigenvalues (λ1(k), λ2(k) ) Principal axes gradient β(k)
r(k) Source direction θ(k)
SSA small
DSA large
)(
)(
)(
1
2
k
k
kr


 )/)(arcsin()( dfckk s 
92

SSA フレームの検出
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x 10
4
-20
-10
0
10
20
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x 10
4
-10
-5
0
5
10
0 20 40 60 80
0
0.2
0.4
0.6
0.8
1
Time frame
Theratioofeigenvaluesr
NSA
DSA
SSA
Total number of SSA frame 101
Correct identification by proposed method 75
Accuracy rate 74.2%
Original signal Estimated results
93
r(k)

0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
DSA フレームにおける音源分離ー基本方針ー
94
We utilize PD distribution in high frequency band (≥400Hz) and harmonic
structure in low frequency band (<400Hz) respectively.
BhighBlow
2
~s
1
~s
)(Hzf0
midB
fullB
lowB highB
1f 2f 3f 2/sf
Two stages method:
f≥400Hz, initial separation by
DOA information
f<400Hz, harmonic structure
estimation
results
94

0 100 200 300 400 500
-0.5
0
0.5
1
1.5
2
2.5
3
Frequency Bin
Source 1
Source 2
95
DSA フレームにおける音源分離



 
 
otherwise
Blllkiif
lkM
highc
c
i
0
,],[minarg1
],[
~ )2,1(

],[
~
],[],[
~
1 lkMlkXlkS ii 
Local maximum frequencies of
),(),( 21 kbkb ii
Number of local maxima )(kqi
2
],[
~
max
],[
~
Th
vkS
lkS
i
v
i
 2.02 Th
  1080/  sfLl
初期推定 highB
極大値探索
midB
2
~s
1
~s
0 100 200 300 400 500 600 700 800 900
0
50
100
150
200
250
300
350
Frequency (Hz)
Power
],[
~
lkSi

96
DSAフレームにおける音源分離
マスク生成と分離
調波構造の推定 lowB
2)(),()()( 12  kqkbkbkd iiii
nkdkbkg iiin  )()()( 1
2)(,0
),()(


vkqvsmallest
vkgkg
i
inin








otherwise
nBlkq
andkglkgif
lkM lowi
inin
i
0
,3,2,1,,2)(
,2)()2(1
],[
~

],[],[],[ˆ
1 lkMlkXlkS ii 
],[],[
~
],[ lkMlkMlkM iii 
2)( kqif i 0 100 200 300 400 500 600 700 800 900
0
50
100
150
200
250
300
350
Frequency (Hz)
Power
If there are more than two peaks
If there is single or no peak, using
the nearest frame

97
実験
Loudspeaker
Sensor-pair
Condition
We use the database from Acoustical Society of
Japan as source signals.
Sampling Frequency 8kHz
Microphone Distance 4cm
Window Hamming
STFT Frame Length 1024
Frame Overlap 512
18m
15m
4cm
200cm
Microphone (130cm height, Omni-directional)
Loudspeaker (130cm height)
Room height: 300cm
0o
90o-90o
97

98
DOA 推定 SSA区間の利用
0 10 20 30 40 50 60 70 80
0
1
2
3
4
5
6
7
8
9
Source direction (degree)
Estimationerror(degree)
Maximum
Average
Minimum
The proposed method can properly detect the source direction.
At the position of large source direction, the estimation increase because of the low
resolution near endfire (900).
The separation algorithm is based on the DOA estimation in SSA.

99
分離性能評価
10 20 30 40 50 60 70 80
0
2
4
6
8
10
Angular difference (degree)
SIRimprovement(dB)
Conventional
Proposed
*O. Yilmaz and S. Richard, “Blind Separation of Speech Mixture via Time-Frequency Masking,” IEEE trans. On
signal processing, Vol.52, No, 7, pp.1830-1847, 2004.
It is obvious that the proposed method exceeds the conventional method*.
Received
signal
Conventional
method
Separated signal 1
Separated signal 2
Proposed
method
Separated signal 1
Separated signal 2
female: 0o & male: 50o
99

結果の分析
Comparison of separation results
The effective of the proposed method
is brought by integrating results of
NSA, SSA and DSA.
SIR improvement (dB) Ratio
Total 6.22 100%
By NSA frame 0.58 9.3%
By SSA frame 1.36 21.9%
By DSA frame 4.28 68.8%
The proposed method can match the
component to the corresponding source
on the basis of harmonic structure, but
the conventional method cannot.
Average improvement ratio
100

101
101
６．むすび
■ 同時発話された複数音源のDOA推定と音源分離に
ついて、時間－周波数マスキング法の検討を行った。
１）ステレオ混合におけるカーネル密度推定の適用法を
提案
２）任意配置マイクロホンアレーでのDOA推定の定式
化と信頼性評価、空間エリアシング条件下でのDOA
推定法を提案
３）複数移動音源のトラッキング法としてParticle Filter,
Mean Shift法適用とモバイルロボットへの実装を実行
４）位相差vs.周波数時系列を利用した分離法の提案

招待講演（鶴岡）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 招待講演（鶴岡）

Similar to 招待講演（鶴岡） (20)

More from nozomuhamada

More from nozomuhamada (13)

Recently uploaded

Recently uploaded (16)

招待講演（鶴岡）