Successfully reported this slideshow.
Your SlideShare is downloading. ×

Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Kameoka2016 miru08
Kameoka2016 miru08
Loading in …3
×

Check these out next

1 of 28 Ad

Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"

INTERSPEECH2020 で発表された “Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference” という論文を紹介します。
これは新規のビームフォーマであり、取り出したい音についてのラフな振幅スペクトログラムを DNN 等で生成し、それをリファレンスとして用いることで、高精度な抽出結果を生成することが特徴です。
論文は arXiv で読めます。https://arxiv.org/abs/2006.00772

INTERSPEECH2020 で発表された “Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference” という論文を紹介します。
これは新規のビームフォーマであり、取り出したい音についてのラフな振幅スペクトログラムを DNN 等で生成し、それをリファレンスとして用いることで、高精度な抽出結果を生成することが特徴です。
論文は arXiv で読めます。https://arxiv.org/abs/2006.00772

Advertisement
Advertisement

More Related Content

Slideshows for you (20)

Similar to Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference" (16)

Advertisement

Recently uploaded (20)

Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference"

  1. 1. 論文紹介 “Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference” R&D Center Tokyo Laboratory 21 Sony Corporation Copyright 2020 Sony Corporation 廣江 厚夫 INTERSPEECH 2020 論文読み会用スライド(2020/11/20 開催)
  2. 2. 2 R&D Center, Tokyo Laboratory 21 自己紹介 氏名: 廣江 厚夫(ひろえ あつお) 1996年に東京工業大学を修了し、ソニーに入社。 以降、信号処理・音声認識・音声対話等の研究開発に従事する。 2006年 ICA2006 にて、独立成分分析(ICA)のパーミューテーション問題の解消に ついて発表。(今回の発表とも関連あり) 題名: Solution of permutation problem in frequency domain ICA, using multivariate probability density functions 2007年 ICA2007 にて、音源分離と残響除去との同時解決について発表。 題名: Blind Vector Deconvolution: Convolutive Mixture Models in Short-Time Fourier Transform Domain 2009年 電子情報通信学会の招待論文で 2006年の発表(IVA 含む)について解説。 題名: パーミュテーション問題のない周波数領域独立成分分析 2014~ 2016年 情報通信研究機構(NICT)に出向し、多言語対応(クロスリンガル)音声 対話システムの研究開発に従事。 解説動画: https://www.youtube.com/watch?v=xj1rMEbGICQ 2020年 INTERSPEECH2020 にて、DNN と組み合わせ可能な新規のビームフォーマー について発表。(今回紹介する論文) 題名: Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference 同じカンファレンスにて、似たアイデアの発表 が他に 2件あり(偶然の一致): T. Kim, T. Eltoft, and T. W. Lee “Independent vector analysis: An extension of ICA to multivariate components” Lee, T. Kim, and T. W. Lee “Complex fastIVA: A robust maximum likelihood approach of MICA for convolutive BSS, 彼らは自分の方式に Independent Vector Analysis: IVA という名称を付けていたため、今では廣江の 方式も含めて IVA と呼ばれている。 教訓: 新しい方式を考案したら、カッコいい名称 を付け、それを積極的に広めましょう! 主な対外発表など
  3. 3. 3 R&D Center, Tokyo Laboratory 21 この論文のトピック: 目的音抽出(Target source extraction) (特に、何らかのヒントやリファレンスを用いる方式) 目的音抽出 (Target Source Extraction) リファレンス (Reference) 目的音(Target) (source of interest) 妨害音 (Interferences) 観測信号 (Observations) 抽出結果: 目的音の推定結果 (Estimated target source) 音源 (Sources) 混ざった音がマイクで観測される。 どの音源を抽出するか制御するため、目的音に関 する情報をリファレンス(ヒント)として与える。 使い道の例 • ノイズ混じりの音声をマイクで観測し、クリーンな 音声を得る。(本論文の実験はこの類) • 二人以上の音声発話が重なったときに、所望の一人 の音声だけを取り出す。 目的音に近い音を出力する。 リファレンスを用いる目的音抽出の一般的な課題 • どうやって高精度な抽出結果を生成するか。 (目的音に近いほど高精度) • リファレンスとしてどのような情報を用いるか。 INTERSPEECH 2020 で は、目的音抽出について 10件を超える発表があり ました。詳しくは、この資 料の最後をご参照ください。
  4. 4. 4 R&D Center, Tokyo Laboratory 21 提案手法: Similarity-and-Independence-Aware Beamformer (SIBF) (類似性と独立性とを考慮したビームフォーマー) Step1: リファレンスを生成 (例えば DNN 使用) Step2: SIBF を適用 入力: 複数マイク分の観測信号 スペクトログラム(複素数) 出力(抽出結果): 目的音スペク トログラムの推定結果(複素数) リファレンス: 目的音のラフな 振幅スペクトログラム(実数) Input Output Reference 短時間 フーリエ 変換 所望の音 係数 + 係数 ビームフォーマー(BF)とは? • マイクごとに異なる係数を乗じてから加算する ことで、所望の音信号を生成する方式 • 係数のセットをフィルターと呼ぶ。BF の種類に よって、フィルターを求める式が異なる。 • BF は線形フィルター(係数と加算のみからなる フィルター)の一種である。 加算 フィルター SIBF の概略(ワークフロー)
  5. 5. 5 R&D Center, Tokyo Laboratory 21 SIBF の概略について補足 なぜ、ビームフォーマー(BF)なのか?  BF は線形フィルターの一種であり、線形フィルターには以下の利点がある。 1. 非線形な歪みの問題を回避できる。[6, 7] 2. マイクを増やすことで抽出精度の向上が容易。[8, 9] 3. 適切な位相やスケールを推定するのが容易。[10, 11] なぜ、リファレンスとしてラフな振幅スペクト ログラムを用いるのか?  振幅スペクトログラムは様々な方式(DNN を 含む)で生成可能であり、複素スペクトログ ラムや時間周波数マスクより入手が容易。 「ラフ」とはどういう意味か? 1. 目的音が優勢であるが、妨害音も残っている。 あるいは、妨害音を除去した副作用で、目的 音が歪んでいる。 2. さらに、振幅スペクトログラムなので、位相 の情報を含んでいない。 DNN の出力を SIBF で refine するという使い方を想定している が、そのためには以下を保証する必要がある。 • SIBF による抽出結果がリファレンスより高精度 (以降、“抽出結果 > リファレンス” と表記する) 本論文は、“抽出結果 > リファレンス” をキーコンセプトと して構成されている。 理論面: “抽出結果 > リファレンス” を実現するために新 たな枠組みを考案した。 実践面: “抽出結果 > リファレンス” が本当に実現されて いることを確認するために実験を行なった。
  6. 6. 6 R&D Center, Tokyo Laboratory 21 関連研究について 関連研究(線形フィルターを求める方式限定) 種類 例 備考 リファレンスを用いるデフレーション 型独立成分分析(ICA)[12-15] One unit ICA-R [13] 入出力とリファレンスとは、共に実数か共に複素数 セミ・ブラインド音源分離 IDLMA [16] 全ての音源についてリファレンスが必要 DNN で生成されたマスクを用いる BF [17-20] NN-GEV, NN-MVDR [20] 振幅スペクトログラムの代わりに時間周波数マスク が必要。 “抽出結果 > リファレンス” の保証がない。 従来技術でも同様のことは実現可能なのでは? → 以下の要件をすべて満たす方式は存在しなかった。 1. 入出力は複素数だがリファレンスは実数 2. リファレンスは、目的音のものを1つだけ用意すればよい。 妨害音のリファレンスは不要 3. “抽出結果 > リファレンス” の保証がある。
  7. 7. 7 R&D Center, Tokyo Laboratory 21 理論面: “抽出結果 > リファレンス” を実現す るために新たな枠組みを考案
  8. 8. 8 R&D Center, Tokyo Laboratory 21 SIBF の枠組み 𝑿𝑿1 𝑿𝑿𝑁𝑁 𝒀𝒀1 𝒀𝒀2 𝒀𝒀𝑁𝑁 𝑹𝑹 観測信号 (Observations) 音源の推定結果 (Estimated sources) リファレンス (Reference) 依存 (Dependent) 独立 (Independent) 拡張部分(新規) 𝑼𝑼1 𝑼𝑼𝑁𝑁 無相関化観測信号 (Uncorrelated observations) 𝑺𝑺2 𝑺𝑺 𝑀𝑀 𝑺𝑺1 目的音 (Target) 妨害音 (Interferences) 音源 (Sources) 混合 無相関化 𝒘𝒘2 𝒘𝒘𝑁𝑁 抽出フィルター (Extraction filters) デフレーション型 ICA の枠組み(既存) Key points: 1. 依存性と独立性との併用 𝒀𝒀1 と 𝑹𝑹 との依存性  𝒀𝒀1 ≈ リファレンス 𝒀𝒀1 ~𝒀𝒀𝑁𝑁 の独立性  𝒀𝒀1 > リファレンス 2. デフレーション型の分離(1音源ずつの分離) 𝒀𝒀1を分離した時点で処理を打ち切ると、目的音の推定結果のみが得られる。 デフレーション+リファレンス → BF のように振る舞う ICA 𝒘𝒘1 “抽出結果 > リファレンス” を実現するために、デフレーション型独立成分分析(ICA)の枠組み [21 など] を拡張 各音源は互いに独立に発生していると仮定 (=音源同士は全く似ていない) 依存性はどのように表現すればよいか? → 音源モデルとして表現する(次ページ) ×: 全音源を推定してから選択する。 〇: 興味のある1音源しか推定しない。
  9. 9. 9 R&D Center, Tokyo Laboratory 21 依存性を表現するための音源モデル 𝒀𝒀1 𝑹𝑹 目的音の推定結果 (複素数) リファレンス (実数) 依存 𝑦𝑦1(𝑓𝑓, 𝑡𝑡) 𝑟𝑟(𝑓𝑓, 𝑡𝑡) Model type 時間 周波数 可変分散モデル (Time-frequency-varying variance (TV) model) 二変量 球状モデル (Bivariate spherical (BS) model) Specific model name TV Gaussian model BS Laplacian model Joint PDF 𝑝𝑝𝑟𝑟𝑟𝑟1 𝑟𝑟 𝑓𝑓, 𝑡𝑡 , 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 1 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽/2 exp − 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽 𝛽𝛽: リファレンス冪乗数(Reference exponent) exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2 𝛼𝛼: リファレンス重み(Reference weight) Note TV モデルは音源分離で広く使用されているが[16, 23, 24]、依存性を表わすモデルとしてこれを再解釈。 厳密なガウスモデルは β=2 のみだが、あえて変更可 能としている。 平方根の中の変数同士はお互いに依存する。 IVA ではパーミューテーション問題の解消のために その性質を利用したが[25-28]、今回は目的音の推 定結果とリファレンスとを類似させるために使用。 周波数f 時間 t 論文では、2種類の音源モデルを試している。 ここでいう音源モデルとは? → 目的音の推定結果(抽出結果)とリファレンスとの 同時確率を表わす関数密度関数(PDF) 簡単のため、同一の時刻&周波数のみで依存している と仮定。また、複素数については振幅のみが依存。
  10. 10. 10 R&D Center, Tokyo Laboratory 21 抽出フィルターを求める式 モデル名 TV Gaussian model BS Laplacian model アルゴリズム 閉形式の解 補助関数法[29] による反復アルゴリズム 抽出フィルター を求める式 𝒘𝒘1 𝑓𝑓 ← EIG 𝒖𝒖 𝑓𝑓, 𝑡𝑡 𝒖𝒖 𝑓𝑓, 𝑡𝑡 H 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽 𝑡𝑡 H 𝑏𝑏 𝑓𝑓, 𝑡𝑡 ← 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝒘𝒘1 𝑓𝑓 𝒖𝒖 𝑓𝑓, 𝑡𝑡 2 𝒘𝒘1 𝑓𝑓 ← EIG 𝒖𝒖 𝑓𝑓, 𝑡𝑡 𝒖𝒖 𝑓𝑓, 𝑡𝑡 H 𝑏𝑏 𝑓𝑓, 𝑡𝑡 𝑡𝑡 H 𝒘𝒘1 𝑓𝑓 周波数 𝑓𝑓 の抽出フィルター(行ベクトル) EIG 𝑨𝑨 行列 𝑨𝑨 の最小固有値に対応した固有ベクトル(列ベクトル) � 𝑡𝑡 時間 t での平均操作 𝒖𝒖 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 における無相関化観測信号 𝑟𝑟 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 におけるリファレンス 𝑏𝑏 𝑓𝑓, 𝑡𝑡 周波数 𝑓𝑓, 時間 𝑡𝑡 における補助変数 最尤推定およびデフレーション型分離を利用すると、 目的音の推定結果である 𝒀𝒀1 のみを生成するフィルター 𝒘𝒘1 の式を導出可能。 𝒀𝒀1 𝑹𝑹 目的音の 推定結果 (抽出結果) リファレンス 依存 𝑼𝑼1 𝑼𝑼𝑁𝑁 無相関化 観測信号 𝒘𝒘1 フィルター 初回のみ 𝑏𝑏 𝑓𝑓, 𝑡𝑡 ← 𝑟𝑟 𝑓𝑓, 𝑡𝑡
  11. 11. 11 R&D Center, Tokyo Laboratory 21 実践面: “抽出結果 > リファレンス” が本当に 実現されているか、実験で確認
  12. 12. 12 R&D Center, Tokyo Laboratory 21 CHiME3/4 データセット [30] を用いた評価系 STFT SIBF Scaling ISTFT DNN ISTFTSTFT SIBF の評価 (提案法) リファレンス の評価 観測信号 の評価 全マイク マイク#5 (話者位 置に最も 近い) リファレンス スケール調整 の参照信号 位相 タブレット端末に装着された6個のマイク 振幅
  13. 13. 13 R&D Center, Tokyo Laboratory 21 使用した DNN について解説 BLSTM GEV BF [19] の学習系を改造. (元の学習系は CHiME4 音声強調ベースライン [1] に含まれている) Input Mag. Spec. BLSTM with Batch Norm. Affine & Batch Norm. & ReLu Affine & Batch Norm. & sigmoid Output Mag. Spec. 513 dim. 513 dim. 513 dim. 256 dim. Elementwise product Input Mag. Spec. BLSTM with Batch Norm. Affine & Batch Norm. & ReLu Affine & Batch Norm. & sigmoid Speech Mask 513 dim. 513 dim. 256 dim. Noise Mask 513 dim. 513 dim. Noisy Speech Cleaner Speech 改造前: DNN は音声マスク・雑音マスクを 出力 (for Mask-based GEV BF) 改造後: DNN は振幅スペクトログラム を出力(リファレンスとして使用) Noisy Speech Ideal Speech Mask Ideal Noise Mask Mag. Spec. of Clean Speech Supervisory data Supervisory data Cross entropy loss Mean square error loss
  14. 14. 14 R&D Center, Tokyo Laboratory 21 実験1: ベストなパラメーターを求めるためのチューニング 評価尺度: Perceptual evaluation of speech quality (PESQ) チューニング用データセット: CHiME3/4 開発用に含まれる以下のデータの混合 • 収録ブースで録音されたクリーン音声(BTH) • 実環境の背景雑音(BG) シナリオ名 BG の倍率 平均SNR [dB] 𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟎𝟎. 𝟐𝟐𝟐𝟐 0.25 14.05 𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟎𝟎. 𝟓𝟓 0.5 8.03 𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟏𝟏. 𝟎𝟎 1.0 2.03 𝐁𝐁𝐁𝐁𝐁𝐁 + 𝐁𝐁𝐁𝐁 × 𝟐𝟐. 𝟎𝟎 2.0 -3.93 BTH: 410 発話 × 4 話者 (0.72 時間) BG: バス車内・カフェテリア・歩 行者デッキ・交差点 混合比別に 4 つのシナリオ BTH BG × + データセット 倍率 (0.25 / 0.5 / 1.0 / 2.0)
  15. 15. 15 R&D Center, Tokyo Laboratory 21 実験1の結果: 音源モデルごとのベストなパラメーター モデル名 TV Gaussian model BS Laplacian model モデルの式および パラメーター 1 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽/2 exp − 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2 𝑟𝑟 𝑓𝑓, 𝑡𝑡 𝛽𝛽 𝛽𝛽: Reference exponent exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2 𝛼𝛼: Reference weight および反復回数 採用したパラメーター (採用の理由) 𝛽𝛽 = 8 (0.125 ≤ 𝛽𝛽 ≤ 32 の中でベストな値) 𝛼𝛼 = 100 & 反復10回 (全シナリオで安定した改善傾向) 1.8 1.9 2 2.1 2.2 1 2 5 10 PESQ Iteration BTH + BG x 2.0 (-3.93 [dB]) α=0.01 α=1 α=100 α=10^4 Reference TV Gauss3.1 3.2 3.3 3.4 3.5 3.6 1 2 5 10 PESQ Iteration BTH + BG x 0.25 (14.05 [dB]) 3.1 3.2 3.3 3.4 3.5 3.6 PESQ Reference exponent BTH + BG x 0.25 (14.05 [dB]) TV Gauss Reference
  16. 16. 16 R&D Center, Tokyo Laboratory 21 実験2: ベストなパラメーターを用いた各種評価 データセット チューニング用データセットに加え、 CHiME3 simulated evaluation set (Eval) 評価尺度 PESQ に加え、Signal-to-distortion ratio (SDR) 評価対象の方式または 信号 NN-SIBF Oracle SIBF リファレンス(DNN の出力) 観測信号(マイク#5) BLSTM GEV (CHiME4 SE baseline [1] に同梱) BLSTM MVDR [17] NN-SIBF: リファレンスは DNN の出力 (実験1 と同様) Oracle SIBF: リファレンスは混合前の クリーン音声(理想的なリファレ ンスを用いたときの最高性能を見 積もることができる) 実験の設定 DNN ベースの BF であり、DNN の 学習データは本論文と同じ。
  17. 17. 17 R&D Center, Tokyo Laboratory 21 実験2 の結果 方式名 音源モデル PESQ SDR [dB] BTH+BG × 0.25 BTH+BG × 0.5 BTH+BG × 1.0 BTH+BG × 2.0 Eval BTH+BG × 0.25 BTH+BG × 0.5 BTH+BG × 1.0 BTH+BG × 2.0 Eval NN-SIBF (提案法) TV Gaussian 3.52 3.12 2.63 2.08 2.67 18.84 14.45 8.45 1.32 15.25 BS Laplacian 3.53 3.13 2.66 2.11 2.68 19.30 14.74 8.78 1.55 15.85 Oracle SIBF TV Gaussian 3.58 3.21 2.80 2.39 2.75 20.62 17.03 12.25 6.54 17.99 BS Laplacian 3.58 3.21 2.80 2.39 2.75 20.45 17.05 12.33 6.59 18.00 リファレンス (DNN 出力) 3.14 2.83 2.43 1.91 2.61 18.48 13.89 8.70 2.34 13.61 観測信号 (マイク#5) 2.93 2.51 2.10 1.72 2.18 14.05 8.03 2.03 -3.93 7.54 BLSTM GEV [1] 2.46 2.92 BLSTM MVDR [17] 2.29 15.12 NN-SIBF vs. リファレンス ほとんどのシナリオで NN-SIBF > リファレンス NN-SIBF の音源モデル BS Laplacian > TV Gaussian. (反復のため) Oracle SIBF vs. NN-SIBF Oracle SIBF > NN-SIBF ( 考察へ) NN-SIBF vs. BLSTM GEV & BLSTM MVDR NN-SIBF > BLSTM GEV and NN-SIBF > BLSTM MVDR. “抽出結果 > リファレンス” が実現 各シナリオにおいて、ベストの評価値を太字で表記 (ただし、Oracle SIBF は対象外)
  18. 18. 18 R&D Center, Tokyo Laboratory 21 デモ (BTH + BG x 1.0 scenario, 背景雑音はカフェテリア) PESQ: 2.66 SDR: 8.78 [dB] PESQ: 2.43 SDR: 8.70 [dB] PESQ: 2.10 SDR: 2.03 [dB] STFT SIBF Scaling ISTFT DNN ISTFTSTFT SIBF の評価 (提案法) リファレンス の評価 観測信号 の評価 全マイク マイク#5 (話者位 置に最も 近い) スケール調整 の参照信号 位相 振幅 タブレット端末に装着された6個のマイク リファレンス
  19. 19. 19 R&D Center, Tokyo Laboratory 21 考察(1/3) 依存性と独立性の両方を利用する効果はあったのか?  効果あり。ほぼ全てのシナリオで “NN-SIBF > リファレンス” であったたため、 これは検証されたと考える。 𝒀𝒀1 𝒀𝒀2 𝒀𝒀𝑁𝑁 𝑹𝑹 音源の 推定結果 リファレンス 依存(類似) 独立 (全く似ていない) SIBF による 抽出結果 依存性を利用  抽出結果 ≈ リファレンス 独立性を利用  抽出結果 > リファレンス (𝒀𝒀2~𝒀𝒀𝑁𝑁 は仮想的であり、実際には生成されない。)
  20. 20. 20 R&D Center, Tokyo Laboratory 21 考察(2/3) リファレンスが高精度になるほど抽出の精度も向上するのか?  その通り。全てのシナリオで “Oracle SIBF > NN SIBF” であることがその根拠。 では、リファレンスの精度が低い場合は何が起こる?  一般的には、SIBF による改善度合いが低くなる。 (BTH + BG x 2.0 scenario (-3.93 [dB]) で改善度合いが低い原因) 1.8 1.9 2 2.1 2.2 1 2 5 10 PESQ Iteration BTH + BG x 2.0 (-3.93 [dB]) α=0.01 α=1 α=100 α=10^4 Reference TV Gauss  しかし、BS Laplacian model を使用し、さらに リファ レンス重み 𝜶𝜶 を適切に設定すると、反復によって改 善することができる。 (ただし、シナリオごとに適切な 𝛼𝛼 を決める方法は 未確立であり、今後の改題) 実験1 のグラフの再掲 exp − 𝛼𝛼𝑟𝑟 𝑓𝑓, 𝑡𝑡 2 + 𝑦𝑦1 𝑓𝑓, 𝑡𝑡 2
  21. 21. 21 R&D Center, Tokyo Laboratory 21 考察(3/3) SIBF において、抽出の精度を向上させるにはどうすればよいか?  少なくとも 2つの選択肢がある: 1. リファレンスの精度を向上させる。 例: 最先端の音声強調用 DNN を用いてリファレンスを生成する。 (SIBF は、DNN の出力を容易に refine する手段として利用できる。) 2. 音源モデルを工夫する。 • 今回提案している音源モデルを改良する。 例: 適切なパラメーターを自動で見つける方法を確立する。 • ブラインド音源分離の分野で提案されている他の音源モデルを試す。 = Future works.
  22. 22. 22 R&D Center, Tokyo Laboratory 21 まとめ • リファレンスを使用する目的音抽出の新手法として、Similarity-and-Independence-Aware Beamformer (SIBF)を提案。 • “抽出結果 > リファレンス” を実現するために、デフレーション型の独立成分分析(ICA)を拡張した新 たな枠組みを考案。 A) 独立性だけでなく、リファレンスとの依存性も考慮する。 B) 独立性を表現するため、TV Gaussian & BS Laplacian という2つの音源モデルを考案。 C) 抽出用のフィルターを求める式を導出 • CHiME3/4 データセット用いた実験により、 “抽出結果 > リファレンス” が実現できていることを確認。 SIBFICA BF 締めの言葉: SIBF は ICA と BF の分野に跨っており、この発表によって両方の分野の 研究が一層活発になることを期待する。
  23. 23. 23 R&D Center, Tokyo Laboratory 21 参考: 各図における入出力データの対応関係 各図において、同じ意味のデータを同じ色で表現し、対応関係を明確にしてみました。 リファレンス使用の目的音抽出(一般的な解説) SIBF の概略(ワークフロー) SIBF の枠組み 実験評価系
  24. 24. 24 R&D Center, Tokyo Laboratory 21 参考: INTERSPEECH 2020 で発表された目的音抽出関連の論文(1/2) Targeted Source Separation というセッションにおいて集中的に発表されていました。 Mon-3-11-1 SpEx+: A Complete Time Domain Speaker Extraction Network Mon-3-11-2 Atss-Net: Target Speaker Separation via Attention-based Neural Network Mon-3-11-3 Multimodal Target Speech Separation with Voice and Face References Mon-3-11-4 X-TaSNet: Robust and Accurate Time-Domain Speaker Extraction Network Mon-3-11-5 Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation Mon-3-11-6 A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party Environments Mon-3-11-7 Time-Domain Target-Speaker Speech Separation With Waveform-Based Speaker Embedding Mon-3-11-8 Listen to What You Want: Neural Network-based Universal Sound Selector Mon-3-11-9 Crossmodal Sound Retrieval based on Specific Target Co-occurrence Denoted with Weak Labels Mon-3-11-10 Speaker-Aware Monaural Speech Separation
  25. 25. 25 R&D Center, Tokyo Laboratory 21 参考: INTERSPEECH 2020 で発表された目的音抽出関連の論文(2/2) 他のセッションでも目的音抽出の発表がありました。 Mon-1-2-2 Neural Spatio-Temporal Beamformer for Target Speech Separation Wed-2-5-4 VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition Wed-3-8-2 Microphone Array Post-filter for Target Speech Enhancement Without a Prior Information of Point Interferers Wed-3-8-3 Similarity-and-Independence-Aware Beamformer: Method for Target Source Extraction using Magnitude Spectrogram as Reference(今回紹介した自分の発表)
  26. 26. 26 R&D Center, Tokyo Laboratory 21 参考文献(1/2) [1] S. J. Chen, A. S. Subramanian, H. Xu, and S. Watanabe, “Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline,” Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 2018-Septe, pp. 1571–1575, 2018. [2] J. Du, Q. Wang, T. Gao, Y. Xu, L. Dai, and C. H. Lee, “Robust speech recognition with speech enhanced deep neural networks,” in Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2014. [3] D. Liu, P. Smaragdis, and M. Kim, “Experiments on deep learning for speech denoising,” in Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2014. [4] M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, and T. Nakatani, “Single channel target speaker extraction and recognition with speaker beam,” in ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, 2018. [5] Q. Wang et al., “VoiceFilter: Targeted voice separation by speaker-conditioned spectrogram masking,” in Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2019. [6] M. Mizumachi and M. Origuchi, “Advanced delay-and-sum beamformer with deep neural network,” 22nd Int. Congr. Acoust., 2016. [7] M. Mizumachi, “Neural Network-based Broadband Beamformer with Less Distortion,” no. September, pp. 2760–2764, 2019. [8] E. Vincent, S. Watanabe, A. A. Nugraha, J. Barker, and R. Marxer, “An analysis of environment, microphone and data simulation mismatches in robust speech recognition,” Comput. Speech Lang., vol. 46, pp. 535–557, 2017. [9] L. Wang, J. D. Reiss, and A. Cavallaro, “Over-Determined Source Separation and Localization Using Distributed Microphones,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 24, no. 9, pp. 1569–1584, 2016. [10] N. Murata, S. Ikeda, and A. Ziehe, “An approach to blind source separation based on temporal structure of speech signals,” Neurocomputing, 2001. [11] K. Matsuoka, “Minimal distortion principle for blind source separation,” no. September 2002, pp. 2138–2143, 2003. [12] J. X. Mi, “A novel algorithm for independent component analysis with reference and methods for its applications,” PLoS One, vol. 9, no. 5, 2014. [13] Q. H. Lin, Y. R. Zheng, F. L. Yin, H. Liang, and V. D. Calhoun, “A fast algorithm for one-unit ICA-R,” Inf. Sci. (Ny)., 2007. [14] M. Castella, S. Rhioui, E. Moreau, and J. C. Pesquet, “Quadratic higher order criteria for iterative blind separation of a MIMO convolutive mixture of sources,” IEEE Trans. Signal Process., vol. 55, no. 1, pp. 218–232, 2007. [15] L. Gao, N. Zheng, Y. Tian, and J. Zhang, “Target signal extraction method based on enhanced ica with reference,” Math. Probl. Eng., vol. 2019, 2019. [16] N. Makishima et al., “Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 27, no. 10, pp. 1601–1615, 2019. [17] H. Erdogan, J. Hershey, S. Watanabe, M. Mandel, and J. Le Roux, “Improved MVDR beamforming using single-channel mask prediction networks,” Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 08-12-Sept, pp. 1981–1985, 2016. [18] Y. Kubo, T. Nakatani, M. Delcroix, K. Kinoshita, and S. Araki, “Mask-based MVDR Beamformer for Noisy Multisource Environments: Introduction of Time-varying Spatial Covariance Model,” ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol. 2019-May, pp. 6855–6859, 2019. [19] J. Heymann, L. Drude, and R. Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol. 2016-May, pp. 196–200, 2016. [20] J. Heymann, L. Drude, A. Chinaev, and R. Haeb-Umbach, “BLSTM supported GEV beamformer front-end for the 3RD CHiME challenge,” 2015 IEEE Work. Autom. Speech Recognit. Understanding, ASRU 2015 - Proc., no. June 2016, pp. 444–451, 2016.
  27. 27. 27 R&D Center, Tokyo Laboratory 21 参考文献(2/2) [21] A. Hyvärinen, J. Karhunen, and E. Oja, “ICA by Minimization of Mutual Information,” in Independent Component Analysis, 2003. [22] A. Hyvärinen, J. Karhunen, and E. Oja, “ICA by Maximum Likelihood Estimation,” in Independent Component Analysis, 2003. [23] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio Speech Lang. Process., 2016. [24] A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source separation with deep neural networks,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 24, no. 9, pp. 1652–1664, 2016. [25] A. Hiroe, “Solution of permutation problem in frequency domain ica, using multivariate probability density functions,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 3889 LNCS, pp. 601–608, 2006. [26] T. Kim, T. Eltoft, and T. W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 3889 LNCS, no. 1, pp. 165–172, 2006. [27] I. Lee, T. Kim, and T. W. Lee, “Complex fastIVA: A robust maximum likelihood approach of MICA for convolutive BSS,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 3889 LNCS, pp. 625–632, 2006. [28] T. Kim, H. T. Attias, S. Y. Lee, and T. W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. [29] N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” IEEE Work. Appl. Signal Process. to Audio Acoust., vol. 2, no. 9, pp. 189–192, 2011. [30] J. Barker, R. Marxer, E. Vincent, and S. Watanabe, “The third ‘CHiME’ speech separation and recognition challenge: Dataset, task and baselines,” in 2015 IEEE Workshop on Automatic Speech Recognition and Understanding, ASRU 2015 - Proceedings, 2016.
  28. 28. SONY is a registered trademark of Sony Corporation. Names of Sony products and services are the registered trademarks and/or trademarks of Sony Corporation or its Group companies. Other company names and product names are registered trademarks and/or trademarks of the respective companies.

×