Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ICASSP2019論文読み会_PHASEBOOK

736 views

Published on

ICASSP2019論文読み会(19/6/8 @渋谷ヒカリエ)の資料です。

Published in: Technology
  • Be the first to comment

ICASSP2019論文読み会_PHASEBOOK

  1. 1. Copyright©2019 NTT corp. All Rights Reserved. THE PHASEBOOK: BUILDING COMPLEX MASKS VIA DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION NTTメディアインテリジェンス研究所 安藤 厚志 19. 6. 8 ICASSP2019論文読み会
  2. 2. 2Copyright©2019 NTT corp. All Rights Reserved. 自己紹介 • 名前 – 安藤 厚志 (あんどう あつし) • 所属 – NTTメディアインテリジェンス研究所 • 略歴 – 13.3 名古屋大学大学院 情報科学研究科 修士課程卒 (武田研) – 13.4~ NTTメディアインテリジェンス研究所 研究員 – 18.4~ 名古屋大学大学院 情報学研究科 博士課程在学 (戸田研) • 専門分野 – 修士: 音源分離、音声認識 – 社会人/博士: 非言語・パラ言語情報認識 (感情認識, 話者認識)
  3. 3. 3Copyright©2019 NTT corp. All Rights Reserved. 紹介論文 • THE PHASEBOOK: BUILDING COMPLEX MASKS VIA DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION – Jonathon Le Roux, Gordon Wichern, Shinji Watanabe, Andy Sarroff, John R. Hershey (Mitsubishi Electric Research Laboratories: MERL) • 概要 – 深層学習に基づくシングルチャネル音源分離 – 複素時間周波数マスクに基づく手法 – 位相推定において、目的位相を位相コードブックの各点でなく 位相コードブックの各点の重み付け和として表現することで 位相の周期性を表現 – 位相だけでなく、振幅や複素マスク全体をコードブックの 重み付け和として推定する枠組みを新たに提案 Deep Clustering, Chimera++ Net の研究チーム
  4. 4. 4Copyright©2019 NTT corp. All Rights Reserved. 本論文の位置付け • 音源分離の従来技術 – シングルチャネル音源分離 事前学習が不要 – 非不値行列分解 (NMF) など 事前学習が必要 – 時間周波数マスク推定 など – マルチチャネル音源分離 事前学習が不要 – ビームフォーミング – 独立成分分析/独立ベクトル分析 (ICA/IVA) – 独立低ランク行列分析 (ILRMA) など 音源の性質を利用 (スパース性、調波性など) 音源の到来方向の違い を利用
  5. 5. 5Copyright©2019 NTT corp. All Rights Reserved. 問題設定 複数名の混合音声から、各話者の音声を分離したい (引用: https://www.irisa.fr/metiss/members/evincent/keynoteICArn05.pdf ) 目的音 雑音 観測音 (混合音声) 音源分離 推定目的音
  6. 6. 6Copyright©2019 NTT corp. All Rights Reserved. アプローチ:時間周波数マスク 混合音声に対し、特定話者の音声だけが残るように 時間-周波数ごとにマスク推定、マスキング 観測音 (混合音声) ○ 時間周波数マスク 要素積 = 推定目的音 =
  7. 7. 7Copyright©2019 NTT corp. All Rights Reserved. アプローチ:時間周波数マスク 混合音声に対し、特定話者の音声だけが残るように 時間-周波数ごとにマスク推定、マスキング 観測音 (混合音声) ○ = 推定目的音 = 音声のスパース性を仮定 音声は時間-周波数において スパースであり、ある時間- 周波数において音声成分は 高々一つしかないとみなす 時間周波数マスク
  8. 8. 8Copyright©2019 NTT corp. All Rights Reserved. • イメージ – 北村先生の解説がとても分かりやすいです! https://www.slideshare.net/DaichiKitamura/icassp2017aaspl3 従来手法①: Deep Clustering [Hershey+,16] 埋込み空間 (embedding space) ① 埋込み表現への 変換射影を学習  バイナリマスク推定  各時間-周波数に対し、同じ音源に属する場合は距離が大きく, 異なる音源に属する場合は距離が小さくなるような埋込み表現を学習  embedされたベクトルをクラスタリングしてバイナリマスク決定
  9. 9. 9Copyright©2019 NTT corp. All Rights Reserved. 従来手法①: Deep Clustering [Hershey+,16] • イメージ – 北村先生の解説がとても分かりやすいです! https://www.slideshare.net/DaichiKitamura/icassp2017aaspl3  バイナリマスク推定  各時間-周波数に対し、同じ音源に属する場合は距離が大きく, 異なる音源に属する場合は距離が小さくなるような埋込み表現を学習  embedされたベクトルをクラスタリングしてバイナリマスク決定 埋込み空間 (embedding space) ②k-means等でクラスタリング, 時間-周波数ごとにどの音源に 属するかを推定
  10. 10. 10Copyright©2019 NTT corp. All Rights Reserved. 従来手法②: Chimera++ Network [Wang+,18] Deep Clustering の発展形 Deep Clustering(埋め込み表現獲得) に加えて, マスキング 後の目的音源の誤差を学習に利用
  11. 11. 11Copyright©2019 NTT corp. All Rights Reserved. 従来手法②: Chimera++ Network [Wang+,18] Deep Clustering の発展形 Deep Clustering(埋め込み表現獲得) に加えて, マスキング 後の目的音源の誤差を学習に利用 時間-周波数ごとの 音源一致性が 推定できているか 目的音源が 正しく分離 されているか
  12. 12. 12Copyright©2019 NTT corp. All Rights Reserved. • 時間-周波数ごとの混合信号の例 → 位相も考慮したマスク = 複素時間周波数マスク が必要 Deep Clustering / Chimera++ Net の課題 ある時間-周波数に2名以上の音声が含まれる場合 振幅マスクだけでは正しく音源分離できない ある時間-周波数において 1名の音声のみが支配的であれば or 複数の音源が存在する場合, 振幅マスクだけでは から を生成できない 振幅の 二乗誤差最小化 with 実数マスク
  13. 13. 13Copyright©2019 NTT corp. All Rights Reserved. 従来手法③: PhaseNet [Takahashi+,18] 複素時間周波数マスク推定 各時間-周波数に対し、目的音の振幅スペクトルと位相を 同時推定 位相推定を量子化された位相のクラス分類問題とみなす 振幅の正解情報 位相の正解情報
  14. 14. 14Copyright©2019 NTT corp. All Rights Reserved. 従来手法③: PhaseNet [Takahashi+,18] Q個の量子化位相のうち どれが正解かを Softmax cross-entropyで学習 目的音の正解位相 量子化後の正解位相 複素時間周波数マスク推定 各時間-周波数に対し、目的音の振幅スペクトルと位相を 同時推定 位相推定を量子化された位相のクラス分類問題とみなす
  15. 15. 15Copyright©2019 NTT corp. All Rights Reserved. PhaseNetの課題 • 例 量子化位相を交差エントロピーで学習する場合、 位相の周期性を考慮した推定ができない (+惜しい誤りか全然ダメな誤りかが分からない) 0 0 0 1 0 教師ラベル 推定結果 0 0 0 0.6 0.4 0 0正解の 量子化位相 推定位相推定位相 ある程度近い位相推定ができているものの, 交差エントロピーの数値上では推定誤りが大きくみえる
  16. 16. 16Copyright©2019 NTT corp. All Rights Reserved. 提案手法:phasebook PhaseNetの改良手法 量子化位相の最近傍値でなく, 全ての量子化位相 (位相コードブック)の重み付け和として目的位相を表現 位相推定法: 3種 目的信号の 複素フィルタ 目的信号の 位相フィルタ
  17. 17. 17Copyright©2019 NTT corp. All Rights Reserved. 提案手法:phasebook 位相推定法: 3種 = PhaseNet 量子化位相ごと の事後確率 → 事後確率で重み付けして 位相を決定 PhaseNetの改良手法 量子化位相の最近傍値でなく, 全ての量子化位相 (位相コードブック)の重み付け和として目的位相を表現
  18. 18. 18Copyright©2019 NTT corp. All Rights Reserved. さらに拡張:magbook, combook • 振幅コードブック – [0, 1, 2] など • 複素コードブック – 様々な振幅/位相をとるよう設計 位相だけでなく、時間周波数マスクの振幅推定や 複素時間周波数マスク(実部+虚部推定)においても コードブックの重み付け和としてマスクを表現
  19. 19. 19Copyright©2019 NTT corp. All Rights Reserved. 補足:量子化位相と信号対歪み比(SDR)の関係 振幅マスクの 作り方の差: Ideal Amplitude Mask (IAM) Ideal Binary Mask (IBM) etc. 位相がランダムだとSDRは15dB程度 目的信号に近い位相を用いるほどSDRが向上 → 位相推定は音源分離において重要 コードブック 作成+ 目的信号の最 近傍の位相を 選択(oracle)
  20. 20. 20Copyright©2019 NTT corp. All Rights Reserved. 補足:量子化位相と信号対歪み比(SDR)の関係 位相がランダムだとSDRは15dB程度 目的信号に近い位相を用いるほどSDRが向上 → 位相推定は音源分離において重要 位相ランダム ではSDR15dB 振幅フィルタ推定 手法にもよるが、 目的信号に近い位 相を用いるほど SDRが向上
  21. 21. 21Copyright©2019 NTT corp. All Rights Reserved. phasebookに基づく音源分離 Chimera++ Networkの音源推定側のネットワークを magbookでの振幅推定・phasebookでの位相推定に変更 時間領域での再構成誤差を加えて学習
  22. 22. 22Copyright©2019 NTT corp. All Rights Reserved. phasebookに基づく音源分離 Chimera++ Networkの音源推定側のネットワークを magbookでの振幅推定・phasebookでの位相推定に変更 時間領域での再構成誤差を加えて学習 Deep Clustering 時間-周波数ごとの 音源一致性 magbook 目的信号の振幅推定 phasebook 目的信号の位相推定 Waveform approx. 目的信号の時間波形推定
  23. 23. 23Copyright©2019 NTT corp. All Rights Reserved. 評価実験 • コーパス:wsj0-2mix [Hershey+,16] – 話者2名の混合発話 – 発話数(時間)  学習:開発:評価 = 20,000(30h):5,000(10h):3,000(5h) – 評価セットの話者は学習セットに含まれない • 実験内容 1. 位相/振幅推定の手法比較 (主にPhaseNetとphasebook) 2. magbook+phasebook と combook の比較  コードブックサイズを3段階に変えて評価 3. 他従来手法との比較
  24. 24. 24Copyright©2019 NTT corp. All Rights Reserved. 実験1. 位相/振幅推定の手法比較 PhaseNetに比べてSDR向上 振幅マスクと同時学習を行うことでさらに精度向上 PhaseNetと 等価 時間波形での目的信号 再構成誤差で学習
  25. 25. 25Copyright©2019 NTT corp. All Rights Reserved. 実験2. magbook+phasebook と combookの比較 combook + コードブックサイズ12 が最高精度 結果テーブル
  26. 26. 26Copyright©2019 NTT corp. All Rights Reserved. 実験3. 他手法との比較 通常のChimera++ Networkよりも高精度 反復的に複素フィルタ推定を行う手法よりは下がるが 反復しない手法の中ではcombookが最高精度
  27. 27. 27Copyright©2019 NTT corp. All Rights Reserved. phasebookまとめ • シングルチャネル音源分離の一つ • 複素時間周波数マスクに基づく手法 • 複素マスクの位相推定において、 目的位相を位相コードブックの事後確率最大点でなく 位相コードブックの各点の重み付け和として表現 • 位相推定に限らず、振幅コードブックや複素マスク コードブックの重み付け和としてマスク推定を行う magbook, combookも提案 – combookは従来のChimera++ Networkを上回る精度を達成
  28. 28. 28Copyright©2019 NTT corp. All Rights Reserved. 参考文献 • 元論文 – http://www.jonathanleroux.org/pdf/LeRoux2019ICASSP05phasebook.pdf – https://arxiv.org/abs/1810.01395 (full paper) • Deep Clustering [Hershey+,16] – https://ieeexplore.ieee.org/document/7471631 • Chimera++ Network [Wang+,18] – https://www.merl.com/publications/docs/TR2018-005.pdf • PhaseNet [Takahashi+,18] – https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1773.pdf

×