SlideShare a Scribd company logo
1 of 42
Download to read offline
1
イベント継続長を明示的に制御した
BLSTM-HSMMハイブリッドモデル
による多重音響イベント検出
◯林 知樹†, 渡部晋治††, 戸田智基†,
堀貴明††, Jonathan Le Roux††, 武田一哉†
† 名古屋大学
†† Mitsubishi Electric Research Laboratory (MERL)
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
2
環境音理解への関心の高まり
p 従来の音声・音楽以外のあらゆる音を理解する試み
p 非常に幅広い応用の可能性
n 監視 / ライフログ / 環境理解 / 騒音分析 etc.
p 多数のチャレンジの開催 / データセットの公開
n DCASE2013 / 2016 / 2017:環境音分類/検出チャレンジ
n AudioSet:Google謹製大規模環境音データセット
AudioSet
http://g.co/audioset
DCASE2017
http://www.cs.tut.fi/sgn/arg/dcase2017/
今後ますますの発展が望まれる研究分野
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
3
多重音響イベント検出 (SED)
p イベントの開始/終了時刻+ラベルを特定するタスク
p 同時刻に複数のイベントがオーバーラップ
Event 1
Event 2
Time
Event 3
SED System
Time
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
4
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HSMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HSMMで出力系列に明示的な継続長制約を付与
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
5
関連研究 GMM-HMMベース
p イベント毎にGMM-HMMを学習
p ビタビアルゴリズムで最尤系列を決定
J 系列単位の処理が可能
L 入力特徴量空間をGMMでうまく表現できない
Event 1 GMM-HMM
Event C GMM-HMM
⋮
Viterbi Decoding
Time
State
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
6
関連研究 NMFベース
p 各イベントの基底を学習し基底辞書を作成
p 辞書を利用し各イベントのアクティベーションを推定
J 入力特徴量の次元間相関を活用可能
L フレーム間相関を非活用 / フレーム単位の処理
Event1basis
Event2basis
Event3basis
Pre-learned event
basis dictionary
Event 3 activation
Event 2 activation
Event 1 activation
✕
Thresholding
Classifier
Fixed
PredictionPrediction
Data
NMF
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
7
関連研究 ニューラルネットベース
p マルチラベル分類のネットワークを学習
p 閾値処理で各イベントのアクティベーションを推定
J BLSTMなどの利用で入力特徴量をフル活用
L フレーム単位の処理
Thresholding
Sigmoid
FeatureVector
Event 1
Prediction
Event 2
Prediction
Event 3
Prediction
Neural Network
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
8
先行研究 [T. Hayashi+, ICASSP2017]
BLSTM-HMMハイブリッドモデルを提案
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HMMで出力系列に制約+系列単位の処理を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
先行研究の問題点
p 継続長が遷移確率で暗に制御され指数分布の形に
p 実際の継続長分布と大きく乖離
図:実際のイベントの継続長のヒストグラム
9
本研究の貢献
p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HSMMハイブリッドモデル
ü BLSTMで入力特徴量の時系列情報を最大限利用
ü HSMMで出力系列の継続長を明示的にモデル化
提案2: SADネットワークによるバイナリマスキング
ü イベント区間を検出するネットワークの併用
ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
10
提案法の位置づけ
入力特徴量をフル活用しつつ
明示的な継続長制御による系列単位の処置を実現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
手法
次元間の
相関の利用
フレーム間の
相関の利用
系列単位の
処理
イベント
継続長の制御
GMM-
HMM ✕ ✕ ◯ △
NMF ◯ ✕ ✕ ✕
NN ◯ ◯ ✕ △
BLSTM-
HMM ◯ ◯ ◯ △
提案法 ◯ ◯ ◯ ◯
11
提案手法
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
12
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
13
事後処理
特徴量抽出
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
提案①:
BLSTM-HSMM
ハイブリッドモデル
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
14
特徴量抽出
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
15
特徴量抽出
p 窓幅25 msec / シフト幅10 msec でSTFT
p 対数フィルタバンク100 bin抽出 + 発話単位CMN
n 音響イベント検出では高域がより重要視されるため
入力音響信号 抽出された特徴量
Amplitude
Time [sec] Time [sec]
Frequencybin
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
16
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案①:
BLSTM-HSMM
ハイブリッドモデル
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
17
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
18
HMMからHSMMへ
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
𝑛 = 0 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏&(𝐱)
𝑛 = 0 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏&(𝐱)
𝑎&& 𝑎** 𝑎++
HMM
HSMM
19
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
イベントがアクティブな
部分を表現
20
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
無音もしくは
他のイベントが
アクティブな部分を表現
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
21
提案①:BLSTM-HSMM (1)
p 各イベントごとに下記のHSMM構築
p 各状態の継続長分布はガンマ分布で表現
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
出力確率𝑩を
BLSTMでモデル化
0 2 5
𝑝&(𝑑) 𝑝*(𝑑) 𝑝+(𝑑)
𝑎&* 𝑎*+
𝑏+(𝐱)𝑏*(𝐱)𝑏(𝐱)
𝑝/(𝑑)
31
4
𝑏/(𝐱)
Initial state Final state
Non-active state
𝑎/& 𝑎+/
22
提案①: BLSTM-HSMM (2)
p HSMMの事後確率を推定するSEDネットワークを構築
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,:	 𝐱:) 𝑃 𝐬*,:	 𝐱:) 𝑃 𝐬<,:	 𝐱:)
: Forward Propagation
: Backward Propagation
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
23
提案①: BLSTM-HSMM (2)
p HSMMの事後確率を推定するSEDネットワークを構築
n クラス分類問題のマルチタスク学習で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Outputs 4 Outputs 4 Outputs 4
⋯
Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,:	 𝐱:) 𝑃 𝐬*,:	 𝐱:) 𝑃 𝐬<,:	 𝐱:)
: Forward Propagation
: Backward Propagation
Event 1のHSMMの
状態事後確率
Event 2のHSMMの
状態事後確率
Event CのHSMMの
状態事後確率
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
24
提案①: BLSTM-HSMM (3)
p SEDネットワークの事後確率を出力確率へ変換
n 予め計算した事前確率とベイズの定理を利用
p 出力確率を用いて各HSMM独立にビタビデコード
)(
)|(
)|()(
nsP
nsP
nsPb
t
tt
tttn
=
=
@==
x
xx
出力確率
事後確率
事前確率
# events
Time
State
Time
State
Time
State
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
25
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
提案②:
SADネットワーク
バイナリマスキング
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
26
提案②: SADネットワーク (1)
p イベントの有無を判定するSADネットワークを構築
n 2値分類の交差エントロピー最小化で最適化
Inputs 100
Forward LSTM 512
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Projection 256
Backward LSTM 512
Projection 256
Output 1
Projection 256
Forward LSTM 512
Forward LSTM 512
0	 ≤ y ≤ 1
: Forward Propagation
: Backward Propagation
イベントが存在しない イベントが存在する
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
27
提案②: SADネットワーク (2)
p SADネットワークの事後確率を閾値処理で2値化
n 閾値は0.5に設定
p 2値化されたバイナリマスクをBLSTM-HSMMで
推定された各イベントの予測結果に適用
Time
予測結果
Time
マスク
⨀ 要素積
=
Time
マスク適用後
予測結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
28
事後処理
提案システムフロー
Audio
Featureextraction
Featurevector
Stateposterior
Emissionprob.
MLPath
Binarymask
Prediction
Priornormalization
Viterbidecoding
Post-processing
✕SADnetwork
Thresholding
SEDnetwork
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
29
事後処理
1. 150 msec (15 frames) スパンのメディアンフィルタ
2. 100 msec (10 frames) 以下の穴埋め
3. 各イベントの学習データ中の最小長の3/4以下を削除
Time Time
Time Time
Time
¾ minimum length Time
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
30
評価実験
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
31
評価実験
実験設定
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 11 種類の音響イベントが対象
評価尺度
p Segment-based (SB): 1秒のセグメント単位の評価
p Event-based (EB): イベント単位での評価
p それぞれでF1-score (F1)とError rate (ER)を計算
比較手法
p Supervised NMF (DCASE2016 task2 ベースライン)
p BLSTM
p BLSTM-HMM
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
32
実験条件
Sampling rate 44,100 Hz
Bit rate 16 bit
# sound events 11
# training data 4 sec * 100,000 samples
# development data 120 sec * 18 samples
# evaluation data 120 sec * 54 samples
# hidden layer 3
# LSTM unit Forward : 512 Backward: 512
# projection unit Forward : 256 Backward: 256
Initial Scale 0.001
Learning rate 0.0005
Max gradient norm 5
# step 400
# batch 128
Optimization method Adam
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
33
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
高いほど高性能
34
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
低いほど高性能
35
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
全ての評価尺度でBLSTM-HSMMが最高性能
36
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
DCASEチャレンジ結果を上回る世界最高性能
37
実験結果
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM best 70.1 54.2 77.9 39.6
BLSTM-HMM best 74.9 44.7 80.5 33.8
BLSTM-HSMM best 75.3 44.2 81.1 32.9
DCASE 1st T. Komatsu+
NMF based method
73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+
DNN based method
67.1 61.8 78.7 36.7
提案法の有効性を確認
38
SADマスクの有無の比較
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 (+4.8) 54.2 (-12.7) 77.9 (+1.8) 39.6 (-5.6)
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 (+3.2) 44.7 (-7.6) 80.5 (+1.0) 33.8 (-2.9)
BLSTM-HSMM w/o SAD mask 72.1 51.4 79.7 37.0
BLSTM-HSMM w/ SAD mask 75.3 (+2.8) 44.2 (-7.2) 81.1 (+1.4) 32.9 (-4.1)
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
いずれのモデルに対しても有効であることを確認
39
事後処理の有無の比較
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM-HMM w/o
post-processing
71.0 55.1 79.6 37.4
BLSTM-HMM w/
post-processing
71.7 52.3 79.5 36.7
BLSTM-HSMM w/o
post-processing
71.9 51.7 79.8 37.0
BLSTM-HSMM w/
post-processing
72.1 51.4 79.7 37.0
BLSTM-HMMでは事後処理が有効
HMMでは完全にスムージングできていない
40
事後処理の有無の比較
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
BLSTM-HMM w/o
post-processing
71.0 55.1 79.6 37.4
BLSTM-HMM w/
post-processing
71.7 52.3 79.5 36.7
BLSTM-HSMM w/o
post-processing
71.9 51.7 79.8 37.0
BLSTM-HSMM w/
post-processing
72.1 51.4 79.7 37.0
BLSTM-HSMMでは事後処理が効果なし
出力がHSMMにより完全にスムージング可能
41
まとめと今後の課題
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」
42
まとめと今後の課題
まとめ
p BLSTM-HSMMハイブリッドモデルの提案
p SADネットワークによるバイナリマスキングの提案
p 多重音響イベント検出タスクDCASE2016 task2で評価
p 提案モデルがチャレンジベストを上回る最高性能を達成
今後の課題
p 大規模実環境収録データセットへの適応
p 系列識別学習の導入
2017/7/21 EA研究会@北海道大学 「イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出」

More Related Content

What's hot

楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...Deep Learning JP
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装MITSUNARI Shigeo
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstmtak9029
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 

What's hot (20)

Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 

Viewers also liked

【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017cvpaper. challenge
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識Tomoki Hayashi
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例Yahoo!デベロッパーネットワーク
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstationYusuke HIDESHIMA
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to ChainerShunta Saito
 

Viewers also liked (6)

【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 

Recently uploaded

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 

Recently uploaded (12)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出