時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元

時間領域低ランクスペクトログラム近似法に基づく
マスキング⾳声の⽋損成分復元
◎関翔悟† ⻲岡弘和†† ⼾⽥智基† 武⽥⼀哉†
†名古屋⼤学
††⽇本電信電話株式会社NTTコミュニケーション科学基礎研究所
2017/03/15⽇本⾳響学会2017年春季研究発表会

はじめに
 ⾳声強調
‐ 雑⾳が重畳した混合⾳から⽬的⾳声を推定・抽出する技術︓
e.g. ⾳声認識の前処理など
 時間周波数マスキングに基づく⾳声強調
‐ 時間周波数領域での⾳声強調
‐ マスク︓
⽬的⾳声とみなされる時間周波数成分のみを通過
‐ 混合⾳に対してマスキング→⽬的⾳声を強調
‐ 深層学習を⽤いたマスク推定⼿法︓
e.g. Deep Clustering[Hershey+16]
⾼い信号対雑⾳⽐（SNR）を実現
⽇本⾳響学会2017年春季研究発表会 2017/03/15
1

研究⽬標
 時間周波数マスキングに起因する問題︓
⽋損成分の発⽣
‐ 雑⾳とみなされる成分は不通過 → ⾳声成分の⽋損
‐ e.g. バイナリマスキング
‐ ⽋損成分により後段処理（⾳声認識）の性能劣化
マスキング⾳声の⽋損成分復元
時間周波数
マスキング
Noisy Enhanced
Clean
2

問題設定
 ⽋損成分を含む複素スペクトログラム︓
各要素︓
‐ ︓周波数インデックス
‐ ︓フレームインデックス
 ⾮⽋損成分集合︓
 の⽋損成分を以下と仮定（⽋損成分はゼロ）
 ⽋損成分の復元︓
から⽋損成分が復元された時間領域信号を推定
`
Frequency
Time
Missing
3

本研究での提案︓３つの⼿がかり
1. 振幅スペクトログラムの⼤域的構造
2. スペクトログラムの局所的な依存関係
3. ⽬的⾳源がもつ特徴量上での事前情報
Frequency
Time
1. Frequency
Time
2.
New
Frequency
Time
特徴量
3.
従来法︓NMFに基づく⽋損成分復元
提案法︓TSFに基づく⽋損成分復元
4

Frequency
Time
1.
New
5

既存研究① - NMF[Smaragdis+03]
 ⾏列の低ランク表現
 振幅/パワースペクトログラムを2つの⾏列へと分解
‐ ︓少数のスペクトルパターン集合（基底⾏列）
‐ ︓時変の励起変化（アクティベーション⾏列）
スペクトログラム
6

 アルゴリズム
1. 振幅スペクトログラムに対してNMF
‐ ⾮⽋損集合を⽤いて（⽋損した）振幅成分を復元
‐ ⽬的関数
‐ ︓誤差関数
2. 位相復元[Griffin+84] → ⽋損成分復元
 NMFにより振幅スペクトログラムが低ランク表現
‐ 基底スペクトル︓観測全体の⼤まかな特徴
→⽋損成分︓観測（振幅）スペクトログラムの⼤域的な構造
[Smaragdis+10]
7

Frequency
Time
Frequency
Time
Frequency
Time
特徴量
1. 2. 3.
New
8

 時間領域信号の加法性＆低ランク表現
 推定される時間領域（基底）信号
‐ 時間周波数表現︓時間領域信号の冗⻑表現
‐ 各時間周波数成分は周囲の成分により制約
→スペクトログラムにおける局所的な依存関係が考慮
既存⼿法② - TSF[Kameoka15]
（Rank-1）（Rank-1）（Rank-1）
振幅スペクトログラム
表現
9

 概略図
時間波形振幅スペクトログラム特徴量複素スペクトログラム
推定信号
⽋損
観測（⽋損成分含）
|・|
STFT
ISTFT
|・|
①
③
②
④
10

⽋損成分周辺の
局所的な依存関係
定式化
 以下の⽬的関数を最⼩化する最適化問題に帰着
‐ 未知パラメータ︓
‐ ︓重み
‐ ︓誤差関数（Euclid距離またはKL-divergence）
 補助関数法によりパラメータを反復更新
振幅スペクトログラムの
⼤域的な構造
（KL-divergenceのみ）
ケプストラム距離正則化項
[Li+16]
とを関連付ける項
①
②
③
④
時間周波数成分を表す基底関数
11

実験的評価
 マスキングされたスペクトログラムに対して性能評価
‐ 雑⾳重畳⾳声に理想的バイナリマスク（IBM）を適⽤
 以下の⼿法を⽐較
‐ EU-NMF
‐ KL-NMF w/ Reg.
‐ KL-NMF w/o Reg.
‐ EU-TSF
‐ KL-TSF w/ Reg.
‐ KL-TSF w/o Reg.
 評価指標
‐ SNR ︓⼤きいほど⾼性能
‐ MFCC距離（歪み） ︓⼩さいほど⾼性能
12

実験データ
 クリーン⾳声
‐ ATR⾳素バランス503⽂Aセット
‐ 男性話者1名
‐ 計10発話
 ノイズ
‐ Babble
‐ SNRを変化させて重畳（-20 dB - 20 dB︔5 dB間隔）
13

従来法
実験結果
 SNR  MFCC距離
Better
Better
提案法
未処理
14

従来法
実験結果
 SNR  MFCC距離
Better
Better
提案法
未処理
従来法と⽐較して⾼い性能
IBMと同程度の性能が確認
IBMと⽐較して
⼩さい特徴量歪みが確認
15

おわりに
 TSFに基づく⽋損成分復元⼿法を提案
2. ⽋損成分周辺の局所的な依存関係
3. ⽬的⾳声がもつ特徴量上での事前情報
 理想バイナリマスクを⽤いた実験的評価
‐ 従来法（NMFベース）に⽐べて⾼い性能
‐ 理想バイナリマスクと同等のSNRを維持＆低い特徴量歪み
 今後の課題
‐ 重みパラメータ最適化の検討
‐ 従来のマスキング⼿法に対する復元性能の調査
16

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from NU_I_TODALAB

More from NU_I_TODALAB (20)

Recently uploaded

Recently uploaded (7)

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元