イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出

1
イベント継続長を明示的に制御した
BLSTM-HSMMハイブリッドモデル
による多重音響イベント検出
◯林知樹†, 渡部晋治††, 戸田智基†,
堀貴明††, Jonathan Le Roux††, 武田一哉†
† 名古屋大学
†† Mitsubishi Electric Research Laboratory (MERL)
2017/7/21 EA研究会＠北海道大学「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」

2
環境音理解への関心の高まり
p 従来の音声・音楽以外のあらゆる音を理解する試み
p 非常に幅広い応用の可能性
n 監視 / ライフログ / 環境理解 / 騒音分析 etc.
p 多数のチャレンジの開催 / データセットの公開
n DCASE2013 / 2016 / 2017：環境音分類/検出チャレンジ
n AudioSet：Google謹製大規模環境音データセット
AudioSet
http://g.co/audioset
DCASE2017
http://www.cs.tut.fi/sgn/arg/dcase2017/
今後ますますの発展が望まれる研究分野

3
多重音響イベント検出 (SED)
p イベントの開始/終了時刻+ラベルを特定するタスク
p 同時刻に複数のイベントがオーバーラップ
Event 1
Event 2
Time
Event 3
SED System
Time

4
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HSMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HSMMで出力系列に明示的な継続長制約を付与
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現

5
関連研究 GMM-HMMベース
p イベント毎にGMM-HMMを学習
p ビタビアルゴリズムで最尤系列を決定
J 系列単位の処理が可能
L 入力特徴量空間をGMMでうまく表現できない
Event 1 GMM-HMM
Event C GMM-HMM
⋮
Viterbi Decoding
Time
State

6
関連研究 NMFベース
p 各イベントの基底を学習し基底辞書を作成
p 辞書を利用し各イベントのアクティベーションを推定
J 入力特徴量の次元間相関を活用可能
L フレーム間相関を非活用 / フレーム単位の処理
Event1basis
Event2basis
Event3basis
Pre-learned event
basis dictionary
Event 3 activation
Event 2 activation
Event 1 activation
✕
Thresholding
Classifier
Fixed
PredictionPrediction
Data
NMF

7
関連研究ニューラルネットベース
p マルチラベル分類のネットワークを学習
p 閾値処理で各イベントのアクティベーションを推定
J BLSTMなどの利用で入力特徴量をフル活用
L フレーム単位の処理
Thresholding
Sigmoid
FeatureVector
Event 1
Prediction
Event 2
Prediction
Event 3
Prediction
Neural Network

8
先行研究 [T. Hayashi+, ICASSP2017]
BLSTM-HMMハイブリッドモデルを提案
ü HMMで出力系列に制約+系列単位の処理を実現
先行研究の問題点
p 継続長が遷移確率で暗に制御され指数分布の形に
p 実際の継続長分布と大きく乖離
図：実際のイベントの継続長のヒストグラム

9
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HSMMハイブリッドモデル
ü HSMMで出力系列の継続長を明示的にモデル化
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現

10
提案法の位置づけ
入力特徴量をフル活用しつつ
明示的な継続長制御による系列単位の処置を実現
手法
次元間の
相関の利用
フレーム間の
相関の利用
系列単位の
処理
イベント
継続長の制御
GMM-
HMM ✕ ✕ ◯ △
NMF ◯ ✕ ✕ ✕
NN ◯ ◯ ✕ △
BLSTM-
HMM ◯ ◯ ◯ △
提案法 ◯ ◯ ◯ ◯

11
提案手法

12
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork

13
事後処理
特徴量抽出
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
提案①:
BLSTM-HSMM
ハイブリッドモデル

14
特徴量抽出
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork

15
特徴量抽出
p 窓幅25 msec / シフト幅10 msec でSTFT
p 対数フィルタバンク100 bin抽出 + 発話単位CMN
n 音響イベント検出では高域がより重要視されるため
入力音響信号抽出された特徴量
Amplitude
Time [sec] Time [sec]
Frequencybin

16
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案①:
BLSTM-HSMM
ハイブリッドモデル

17
提案①：BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/

18
HMMからHSMMへ
𝑛 = 0 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏&(𝐱)
𝑛 = 0 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏&(𝐱)
𝑎&& 𝑎** 𝑎++
HMM
HSMM

19
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Non-active state
𝑎/& 𝑎+/
イベントがアクティブな
部分を表現

20
無音もしくは
他のイベントが
アクティブな部分を表現
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Non-active state
𝑎/& 𝑎+/

21
出力確率𝑩を
BLSTMでモデル化
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Non-active state
𝑎/& 𝑎+/

22
提案①: BLSTM-HSMM (2)
p HSMMの事後確率を推定するSEDネットワークを構築
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,: 𝐱:) 𝑃 𝐬*,: 𝐱:) 𝑃 𝐬<,: 𝐱:)
: Forward Propagation
: Backward Propagation

23
p HSMMの事後確率を推定するSEDネットワークを構築
n クラス分類問題のマルチタスク学習で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,: 𝐱:) 𝑃 𝐬*,: 𝐱:) 𝑃 𝐬<,: 𝐱:)
Event 1のHSMMの
状態事後確率
Event 2のHSMMの
状態事後確率
Event CのHSMMの
状態事後確率

24
p SEDネットワークの事後確率を出力確率へ変換
n 予め計算した事前確率とベイズの定理を利用
p 出力確率を用いて各HSMM独立にビタビデコード
)(
)|(
)|()(
nsP
nsP
nsPb
t
tt
tttn
=
=
@==
x
xx
出力確率
事後確率
事前確率
# events
Time
State
Time
State
Time
State

25
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング

26
提案②: SADネットワーク (1)
p イベントの有無を判定するSADネットワークを構築
n 2値分類の交差エントロピー最小化で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Output 1
Projection 256
Forward LSTM 512
Forward LSTM 512
0 ≤ y ≤ 1
イベントが存在しないイベントが存在する

27
提案②: SADネットワーク (2)
p SADネットワークの事後確率を閾値処理で2値化
n 閾値は0.5に設定
p 2値化されたバイナリマスクをBLSTM-HSMMで
推定された各イベントの予測結果に適用
Time
予測結果
Time
マスク
⨀ 要素積
＝
Time
マスク適用後
予測結果

28
事後処理
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork

29
事後処理
1. 150 msec (15 frames) スパンのメディアンフィルタ
2. 100 msec (10 frames) 以下の穴埋め
3. 各イベントの学習データ中の最小長の3/4以下を削除
Time Time
Time Time
Time
¾ minimum length Time

30
評価実験

31
評価実験
実験設定
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 11 種類の音響イベントが対象
評価尺度
p Segment-based (SB): 1秒のセグメント単位の評価
p Event-based (EB): イベント単位での評価
p それぞれでF1-score (F1)とError rate (ER)を計算
比較手法
p Supervised NMF (DCASE2016 task2 ベースライン)
p BLSTM
p BLSTM-HMM

32
実験条件
Sampling rate 44,100 Hz
Bit rate 16 bit
# sound events 11
# training data 4 sec * 100,000 samples
# development data 120 sec * 18 samples
# evaluation data 120 sec * 54 samples
# hidden layer 3
# LSTM unit Forward : 512 Backward: 512
# projection unit Forward : 256 Backward: 256
Initial Scale 0.001
Learning rate 0.0005
Max gradient norm 5
# step 400
# batch 128
Optimization method Adam

33
実験結果
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
高いほど高性能

34
実験結果
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
低いほど高性能

35
実験結果
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
全ての評価尺度でBLSTM-HSMMが最高性能

36
実験結果
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
DCASEチャレンジ結果を上回る世界最高性能

37
実験結果
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
提案法の有効性を確認

38
SADマスクの有無の比較
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 (+4.8) 54.2 (-12.7) 77.9 (+1.8) 39.6 (-5.6)
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 (+3.2) 44.7 (-7.6) 80.5 (+1.0) 33.8 (-2.9)
BLSTM-HSMM w/o SAD mask 72.1 51.4 79.7 37.0
BLSTM-HSMM w/ SAD mask 75.3 (+2.8) 44.2 (-7.2) 81.1 (+1.4) 32.9 (-4.1)
いずれのモデルに対しても有効であることを確認

39
事後処理の有無の比較
BLSTM-HMM w/o
post-processing
71.0 55.1 79.6 37.4
BLSTM-HMM w/
post-processing
71.7 52.3 79.5 36.7
BLSTM-HSMM w/o
post-processing
71.9 51.7 79.8 37.0
BLSTM-HSMM w/
post-processing
72.1 51.4 79.7 37.0
BLSTM-HMMでは事後処理が有効
HMMでは完全にスムージングできていない

40
事後処理の有無の比較
BLSTM-HMM w/o
post-processing
71.0 55.1 79.6 37.4
BLSTM-HMM w/
post-processing
71.7 52.3 79.5 36.7
BLSTM-HSMM w/o
post-processing
71.9 51.7 79.8 37.0
BLSTM-HSMM w/
post-processing
72.1 51.4 79.7 37.0
BLSTM-HSMMでは事後処理が効果なし
出力がHSMMにより完全にスムージング可能

41
まとめと今後の課題

42
まとめと今後の課題
まとめ
p BLSTM-HSMMハイブリッドモデルの提案
p SADネットワークによるバイナリマスキングの提案
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 提案モデルがチャレンジベストを上回る最高性能を達成
今後の課題
p 大規模実環境収録データセットへの適応
p 系列識別学習の導入

イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Recently uploaded

Recently uploaded (12)

イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出