ICASSP2019論文読み会_PHASEBOOK

Copyright©2019 NTT corp. All Rights Reserved.
THE PHASEBOOK: BUILDING COMPLEX MASKS
VIA DISCRETE REPRESENTATIONS
FOR SOURCE SEPARATION
NTTメディアインテリジェンス研究所
安藤厚志
19. 6. 8
ICASSP2019論文読み会

2Copyright©2019 NTT corp. All Rights Reserved.
自己紹介
• 名前
– 安藤厚志 (あんどうあつし)
• 所属
– NTTメディアインテリジェンス研究所
• 略歴
– 13.3 名古屋大学大学院情報科学研究科修士課程卒 (武田研)
– 13.4～ NTTメディアインテリジェンス研究所研究員
– 18.4～名古屋大学大学院情報学研究科博士課程在学 (戸田研)
• 専門分野
– 修士：音源分離、音声認識
– 社会人/博士：非言語・パラ言語情報認識 (感情認識, 話者認識)

紹介論文
• THE PHASEBOOK: BUILDING COMPLEX MASKS VIA
DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION
– Jonathon Le Roux, Gordon Wichern, Shinji Watanabe,
Andy Sarroff, John R. Hershey
(Mitsubishi Electric Research Laboratories: MERL)
• 概要
– 深層学習に基づくシングルチャネル音源分離
– 複素時間周波数マスクに基づく手法
– 位相推定において、目的位相を位相コードブックの各点でなく
位相コードブックの各点の重み付け和として表現することで
位相の周期性を表現
– 位相だけでなく、振幅や複素マスク全体をコードブックの
重み付け和として推定する枠組みを新たに提案
Deep Clustering,
Chimera++ Net
の研究チーム

本論文の位置付け
• 音源分離の従来技術
– シングルチャネル音源分離
事前学習が不要
– 非不値行列分解 (NMF) など
事前学習が必要
– 時間周波数マスク推定など
– マルチチャネル音源分離
事前学習が不要
– ビームフォーミング
– 独立成分分析/独立ベクトル分析 (ICA/IVA)
– 独立低ランク行列分析 (ILRMA) など
音源の性質を利用
(スパース性、調波性など)
音源の到来方向の違い
を利用

問題設定
複数名の混合音声から、各話者の音声を分離したい
(引用: https://www.irisa.fr/metiss/members/evincent/keynoteICArn05.pdf )
目的音
雑音
観測音 (混合音声)
音源分離
推定目的音

アプローチ：時間周波数マスク
混合音声に対し、特定話者の音声だけが残るように
時間-周波数ごとにマスク推定、マスキング
○
時間周波数マスク
要素積
＝
推定目的音
＝

アプローチ：時間周波数マスク
混合音声に対し、特定話者の音声だけが残るように
時間-周波数ごとにマスク推定、マスキング
○ ＝
推定目的音
＝
音声のスパース性を仮定
音声は時間-周波数において
スパースであり、ある時間-
周波数において音声成分は
高々一つしかないとみなす
時間周波数マスク

• イメージ
– 北村先生の解説がとても分かりやすいです！
https://www.slideshare.net/DaichiKitamura/icassp2017aaspl3
従来手法①: Deep Clustering [Hershey+,16]
埋込み空間 (embedding space)
① 埋込み表現への
変換射影を学習
 バイナリマスク推定
 各時間-周波数に対し、同じ音源に属する場合は距離が大きく,
異なる音源に属する場合は距離が小さくなるような埋込み表現を学習
 embedされたベクトルをクラスタリングしてバイナリマスク決定

従来手法①: Deep Clustering [Hershey+,16]
• イメージ
– 北村先生の解説がとても分かりやすいです！
https://www.slideshare.net/DaichiKitamura/icassp2017aaspl3
 バイナリマスク推定
 各時間-周波数に対し、同じ音源に属する場合は距離が大きく,
異なる音源に属する場合は距離が小さくなるような埋込み表現を学習
 embedされたベクトルをクラスタリングしてバイナリマスク決定
埋込み空間 (embedding space)
②k-means等でクラスタリング,
時間-周波数ごとにどの音源に
属するかを推定

従来手法②: Chimera++ Network [Wang+,18]
Deep Clustering の発展形
Deep Clustering(埋め込み表現獲得) に加えて, マスキング
後の目的音源の誤差を学習に利用

従来手法②: Chimera++ Network [Wang+,18]
Deep Clustering の発展形
Deep Clustering(埋め込み表現獲得) に加えて, マスキング
後の目的音源の誤差を学習に利用
時間-周波数ごとの
音源一致性が
推定できているか
目的音源が
正しく分離
されているか

• 時間-周波数ごとの混合信号の例
→ 位相も考慮したマスク = 複素時間周波数マスクが必要
Deep Clustering / Chimera++ Net の課題
ある時間-周波数に2名以上の音声が含まれる場合
振幅マスクだけでは正しく音源分離できない
ある時間-周波数において
1名の音声のみが支配的であれば
or
複数の音源が存在する場合,
振幅マスクだけでは
からを生成できない
振幅の
二乗誤差最小化
with 実数マスク

従来手法③: PhaseNet [Takahashi+,18]
複素時間周波数マスク推定
各時間-周波数に対し、目的音の振幅スペクトルと位相を
同時推定
位相推定を量子化された位相のクラス分類問題とみなす
振幅の正解情報
位相の正解情報

従来手法③: PhaseNet [Takahashi+,18]
Q個の量子化位相のうち
どれが正解かを
Softmax cross-entropyで学習
目的音の正解位相
量子化後の正解位相
複素時間周波数マスク推定
各時間-周波数に対し、目的音の振幅スペクトルと位相を
同時推定
位相推定を量子化された位相のクラス分類問題とみなす

PhaseNetの課題
• 例
量子化位相を交差エントロピーで学習する場合、
位相の周期性を考慮した推定ができない
(+惜しい誤りか全然ダメな誤りかが分からない)
0 0 0
1
0
教師ラベル
推定結果
0
0 0
0.6 0.4
0 0正解の
量子化位相
推定位相推定位相
ある程度近い位相推定ができているものの,
交差エントロピーの数値上では推定誤りが大きくみえる

提案手法：phasebook
PhaseNetの改良手法
量子化位相の最近傍値でなく, 全ての量子化位相
(位相コードブック)の重み付け和として目的位相を表現
位相推定法: 3種
目的信号の
複素フィルタ
目的信号の
位相フィルタ

提案手法：phasebook
位相推定法: 3種 = PhaseNet
量子化位相ごと
の事後確率
→ 事後確率で重み付けして
位相を決定
PhaseNetの改良手法
量子化位相の最近傍値でなく, 全ての量子化位相
(位相コードブック)の重み付け和として目的位相を表現

さらに拡張：magbook, combook
• 振幅コードブック
– [0, 1, 2] など
• 複素コードブック
– 様々な振幅/位相をとるよう設計
位相だけでなく、時間周波数マスクの振幅推定や
複素時間周波数マスク(実部+虚部推定)においても
コードブックの重み付け和としてマスクを表現

補足：量子化位相と信号対歪み比(SDR)の関係
振幅マスクの
作り方の差:
Ideal Amplitude
Mask (IAM)
Ideal Binary
Mask (IBM) etc.
位相がランダムだとSDRは15dB程度
目的信号に近い位相を用いるほどSDRが向上
→ 位相推定は音源分離において重要
コードブック
作成＋
目的信号の最
近傍の位相を
選択(oracle)

補足：量子化位相と信号対歪み比(SDR)の関係
位相がランダムだとSDRは15dB程度
目的信号に近い位相を用いるほどSDRが向上
→ 位相推定は音源分離において重要
位相ランダム
ではSDR15dB
振幅フィルタ推定
手法にもよるが、
目的信号に近い位
相を用いるほど
SDRが向上

phasebookに基づく音源分離
Chimera++ Networkの音源推定側のネットワークを
magbookでの振幅推定・phasebookでの位相推定に変更
時間領域での再構成誤差を加えて学習

phasebookに基づく音源分離
Chimera++ Networkの音源推定側のネットワークを
magbookでの振幅推定・phasebookでの位相推定に変更
時間領域での再構成誤差を加えて学習
Deep Clustering
時間-周波数ごとの
音源一致性
magbook
目的信号の振幅推定
phasebook
目的信号の位相推定
Waveform approx.
目的信号の時間波形推定

評価実験
• コーパス：wsj0-2mix [Hershey+,16]
– 話者2名の混合発話
– 発話数(時間)
 学習：開発：評価＝ 20,000(30h)：5,000(10h)：3,000(5h)
– 評価セットの話者は学習セットに含まれない
• 実験内容
1. 位相/振幅推定の手法比較 (主にPhaseNetとphasebook)
2. magbook+phasebook と combook の比較
 コードブックサイズを3段階に変えて評価
3. 他従来手法との比較

実験1. 位相/振幅推定の手法比較
PhaseNetに比べてSDR向上
振幅マスクと同時学習を行うことでさらに精度向上
PhaseNetと
等価時間波形での目的信号
再構成誤差で学習

実験2. magbook+phasebook と combookの比較
combook + コードブックサイズ12 が最高精度
結果テーブル

実験3. 他手法との比較
通常のChimera++ Networkよりも高精度
反復的に複素フィルタ推定を行う手法よりは下がるが
反復しない手法の中ではcombookが最高精度

phasebookまとめ
• シングルチャネル音源分離の一つ
• 複素時間周波数マスクに基づく手法
• 複素マスクの位相推定において、
目的位相を位相コードブックの事後確率最大点でなく
位相コードブックの各点の重み付け和として表現
• 位相推定に限らず、振幅コードブックや複素マスク
コードブックの重み付け和としてマスク推定を行う
magbook, combookも提案
– combookは従来のChimera++ Networkを上回る精度を達成

参考文献
• 元論文
– http://www.jonathanleroux.org/pdf/LeRoux2019ICASSP05phasebook.pdf
– https://arxiv.org/abs/1810.01395 (full paper)
• Deep Clustering [Hershey+,16]
– https://ieeexplore.ieee.org/document/7471631
• Chimera++ Network [Wang+,18]
– https://www.merl.com/publications/docs/TR2018-005.pdf
• PhaseNet [Takahashi+,18]
– https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1773.pdf

ICASSP2019論文読み会_PHASEBOOK

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ICASSP2019論文読み会_PHASEBOOK

Similar to ICASSP2019論文読み会_PHASEBOOK (7)

Recently uploaded

Recently uploaded (14)

ICASSP2019論文読み会_PHASEBOOK