Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)

661 views

Published on

K. Yamaoka, N. Ono, S. Makino, and T. Yamada, “Time-frequency-bin-wise switching of minimum variance distortionless response beamformer for underdetermined situations,” in Proc. ICASSP, pp. 7908-7912, 2019

Published in: Engineering
  • Be the first to comment

ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)

  1. 1. Kouei Yamaoka 1 , Nobutaka Ono 2 , Shoji Makino 1 and Takeshi Yamada 1 1 University of Tsukuba, Japan 2 Tokyo Metropolitan University, Japan Time-Frequency-Bin-Wise Switching of Minimum Variance Distortionless Response Beamformer for Underdetermined Situations 2019/06/08 ICASSP 2019, SS-L6 Acoustic Scene analysis and Tracking for Time-Varying Reverberant Environments
  2. 2. 自己紹介 ● 山岡 洸瑛(Yamaoka Kouei) D1 @ 首都大学東京 ● 略歴 ‒ 2016年: 筑波大学で牧野研へ所属、脳波信号処理ができずに音響信号処理へ • 牧野先生、小野先生にご指導いただき、主に劣決定音声強調の研究に従事 ‒ 2019年 3月: 筑波大学大学院 修了 ‒ 2019年 4月~: 首都大学東京 小野研所属 ● 研究内容: 小規模な同期されたマイクロフォンアレイに基づく信号処理 ‒ ステレオマイクを用いた音声強調 ‒ 非同期分散マイクアレイ new! 2
  3. 3. ● 小型機器を用いた音声強調 ‒ 音声強調は音質を向上させるカギの一つ ‒ 使えるマイク数は限られる ● 劣決定問題 ‒ マイク数 𝑀 < 音源数 𝑁 研究背景とモチベーション 3 録音 クリアな会話 音声認識 目的音声強調 雑音抑圧
  4. 4. マイク数と(点)音源数: シングル? マルチ? ● シングル: Single ‒ 音声の性質を利用する ‒ 時間周波数マスキング e.g., WF, NMF, DC ● マルチ: Multi ‒ 空間情報を利用する ‒ 空間フィルタリング e.g., BF, ICA, IVA, IRLMA 4 マイク数と音源数の関係
  5. 5. マイク数と(点)音源数: シングル? マルチ? ● シングル: Single ‒ 音声の性質を利用する ‒ 時間周波数マスキング e.g., WF, NMF, DC ● マルチ: Multi ‒ 空間情報を利用する ‒ 空間フィルタリング e.g., BF, ICA, IVA, IRLMA 5 S M マイク数と音源数の関係
  6. 6. マイク数と(点)音源数: 優決定? 劣決定? ● 劣決定: Underdetermined ‒ 空間情報を用いた 時間周波数マスキング e.g., DUET [S. Rickard 2006] ● 決定: Determined ‒ 空間フィルタリング e.g., ICA, IVA, IRLMA ● 優決定: Overdetermined ‒ e.g., BF, OverIVA [R. Scheibler+, 2019] 6 U D O マイク数と音源数の関係
  7. 7. マイク数と(点)音源数: 優決定? 劣決定? ● 劣決定: Underdetermined ‒ 時間周波数マスキング e.g., DUET [S. Rickard, 2006] ● 決定: Determined ‒ 空間フィルタリング e.g., ICA, IVA, IRLMA ● 優決定: Overdetermined ‒ e.g., BF, OverIVA [R. Scheibler+, 2019] 7 U D O – TFS beamformer [K. Yamaoka+, 2018] マルチチャネルかつ劣決定 マイク数と音源数の関係
  8. 8. ● 小型機器を用いた音声強調 ‒ 音声強調は音質を向上させるカギの一つ ‒ 使えるマイク数は限られる ● 劣決定問題 ‒ マイク数 𝑀 < 音源数 𝑁 ‒ トレードオフ: 歪みの少なさ  高い雑音抑圧性能 研究背景とモチベーション ビームフォーミング 時間周波数マスキング 8 歪みを抑えながら、高い雑音抑圧性能を達成したい 録音 クリアな会話 音声認識 目的音声強調 雑音抑圧
  9. 9. 問題設定 9 ● ビームフォーミングによる音声強調 ( ) ‒ 観測モデル: ‒ ビームフォーマ:
  10. 10. 問題設定 10 ● ビームフォーミングによる劣決定音声強調 (𝑀 < 𝑁) ‒ 観測モデル: ‒ ビームフォーマ:
  11. 11. 問題設定 11 ● 仮定 ‒ 時間周波数領域において、雑音はスパース  の時、時間周波数ビン毎に1個の雑音は抑圧できるはず
  12. 12. 時間周波数スイッチングビームフォーマ ● Time-frequency-bin-wise switching (TFS) beamformer [K. Yamaoka+, 2018] ‒ 複数のビームフォーマ (𝐾 = 𝑁 − 1) を用意、それらを切り替える ‒ は のみを抑圧し、 を強調する 12 Target Interferer InterfererInterferer 𝑁 = 3 case
  13. 13. ● For via MVDR bf ‒ 目的音源の伝達関数 + k番目の雑音の共分散行列が必要 TFS beamformer における信号処理 13 … ・・・ Filtering TFS ・・・ Input Output 𝑀 channels Given Given Given
  14. 14. ● Goal: と を同時推定する 研究目的 14 TFS beamformer を同時最適化問題として再定式化しました … ・・・ Filtering TFS ・・・ Input Output 𝑀 channels Estimate Estimate Estimate
  15. 15. 提案法の同時最適問題 ● MVDR beamformer の最適化問題 ● MVDR beamformers の時間周波数スイッチングを提案 ‒ フィルタ係数の推定と、最適なフィルタの推定を同時に行う 15
  16. 16. ● を固定すると ● アップデート ‒ これまでのスイッチングと等価 Iterative update rules 16 ● を固定すると ● アップデート ‒ 従来の MVDR bf と等価
  17. 17. 新たな TFS beamformer 処理フロー 17 ・・・ Filtering TFS 1: Initialize (or ) 2: For i = 1 to # of iteration: 3: Update , 4: Update , 5: Compute enhanced signal Update Update … Input Output
  18. 18. 提案法の例: 初期化 18 124° 166°
  19. 19. 提案法の例: アップデート 19
  20. 20. 提案法の例: 音声強調 20
  21. 21. 実験条件 21 4 cm 1.5 m s: 90° D: 110° B: 40° 0°180° A: 20° C: 60° E: 130° F: 150° 音源数 𝑁 3 or 4 入力 SNR 約 -3 to -5 dB サンプリング周波数 8 kHz 窓長 1024 samples シフト幅 256 samples 信号長 5 s 初期化 Random DOA (null steering) フィルタ数 K 2 or 3 (𝑁 – 1) 更新回数 10 回[E. A. P. Habets, 2008]
  22. 22. 実験条件 (cont’d) ● 使用した音声強調手法 ● 評価尺度 [E. Vincent et al., 2006] ‒ Signal-to-distortion ratio (SDR) ‒ Signal-to-interference ratio (SIR) 22 アルゴリズム 事前情報 従来の MVDR bf 目的音源の伝達関数 DUET [S. Rickard 2007] なし TFS (proposed) 目的音源の伝達関数 TFS (oracle filtering) 目的音源の伝達関数 雑音ごとの共分散行列
  23. 23. 結果: 1 target, 2 interferers, and 2 mics 23 -2 0 2 4 6 8SDR[dB] MVDR DUET TFS (proposed) TFS (oracle) 0 2 4 6 8 10 AD AE AF BD BE BF CD CE CF Ave. SIR[dB] Good Interferer DOAs Target: Mixture: TFS (proposed):
  24. 24. 結果: 1 target, 3 interferers, and 2 mics 24 -2 0 2 4 6 SDR[dB] MVDR DUET TFS (proposed) TFS (oracle) 0 2 4 6 8 10 ACE BDF CDE Ave. SIR[dB] Interferer DOAs
  25. 25. まとめ 25 ● 以前、劣決定音声強調である time-frequency-bin-wise switching (TFS) beamformer を提案 ● 同時最適化問題として再定式化し、フィルタ係数の推定と、最適な フィルタの推定を同時に行う手法を提案した ● 提案法は雑音方向によらず、従来の雑音事前情報を用いる場合に近い 性能を達成 ● 後段の処理として時間周波数マスキングの適用も可能 [K. Yamaoka+ 2018]

×