SlideShare a Scribd company logo
Copyright©2019 NTT corp. All Rights Reserved.
THE PHASEBOOK: BUILDING COMPLEX MASKS
VIA DISCRETE REPRESENTATIONS
FOR SOURCE SEPARATION
NTTメディアインテリジェンス研究所
安藤 厚志
19. 6. 8
ICASSP2019論文読み会
2Copyright©2019 NTT corp. All Rights Reserved.
自己紹介
• 名前
– 安藤 厚志 (あんどう あつし)
• 所属
– NTTメディアインテリジェンス研究所
• 略歴
– 13.3 名古屋大学大学院 情報科学研究科 修士課程卒 (武田研)
– 13.4~ NTTメディアインテリジェンス研究所 研究員
– 18.4~ 名古屋大学大学院 情報学研究科 博士課程在学 (戸田研)
• 専門分野
– 修士: 音源分離、音声認識
– 社会人/博士: 非言語・パラ言語情報認識 (感情認識, 話者認識)
3Copyright©2019 NTT corp. All Rights Reserved.
紹介論文
• THE PHASEBOOK: BUILDING COMPLEX MASKS VIA
DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION
– Jonathon Le Roux, Gordon Wichern, Shinji Watanabe,
Andy Sarroff, John R. Hershey
(Mitsubishi Electric Research Laboratories: MERL)
• 概要
– 深層学習に基づくシングルチャネル音源分離
– 複素時間周波数マスクに基づく手法
– 位相推定において、目的位相を位相コードブックの各点でなく
位相コードブックの各点の重み付け和として表現することで
位相の周期性を表現
– 位相だけでなく、振幅や複素マスク全体をコードブックの
重み付け和として推定する枠組みを新たに提案
Deep Clustering,
Chimera++ Net
の研究チーム
4Copyright©2019 NTT corp. All Rights Reserved.
本論文の位置付け
• 音源分離の従来技術
– シングルチャネル音源分離
事前学習が不要
– 非不値行列分解 (NMF) など
事前学習が必要
– 時間周波数マスク推定 など
– マルチチャネル音源分離
事前学習が不要
– ビームフォーミング
– 独立成分分析/独立ベクトル分析 (ICA/IVA)
– 独立低ランク行列分析 (ILRMA) など
音源の性質を利用
(スパース性、調波性など)
音源の到来方向の違い
を利用
5Copyright©2019 NTT corp. All Rights Reserved.
問題設定
複数名の混合音声から、各話者の音声を分離したい
(引用: https://www.irisa.fr/metiss/members/evincent/keynoteICArn05.pdf )
目的音
雑音
観測音 (混合音声)
音源分離
推定目的音
6Copyright©2019 NTT corp. All Rights Reserved.
アプローチ:時間周波数マスク
混合音声に対し、特定話者の音声だけが残るように
時間-周波数ごとにマスク推定、マスキング
観測音 (混合音声)
○
時間周波数マスク
要素積
=
推定目的音
=
7Copyright©2019 NTT corp. All Rights Reserved.
アプローチ:時間周波数マスク
混合音声に対し、特定話者の音声だけが残るように
時間-周波数ごとにマスク推定、マスキング
観測音 (混合音声)
○ =
推定目的音
=
音声のスパース性を仮定
音声は時間-周波数において
スパースであり、ある時間-
周波数において音声成分は
高々一つしかないとみなす
時間周波数マスク
8Copyright©2019 NTT corp. All Rights Reserved.
• イメージ
– 北村先生の解説がとても分かりやすいです!
https://www.slideshare.net/DaichiKitamura/icassp2017aaspl3
従来手法①: Deep Clustering [Hershey+,16]
埋込み空間 (embedding space)
① 埋込み表現への
変換射影を学習
 バイナリマスク推定
 各時間-周波数に対し、同じ音源に属する場合は距離が大きく,
異なる音源に属する場合は距離が小さくなるような埋込み表現を学習
 embedされたベクトルをクラスタリングしてバイナリマスク決定
9Copyright©2019 NTT corp. All Rights Reserved.
従来手法①: Deep Clustering [Hershey+,16]
• イメージ
– 北村先生の解説がとても分かりやすいです!
https://www.slideshare.net/DaichiKitamura/icassp2017aaspl3
 バイナリマスク推定
 各時間-周波数に対し、同じ音源に属する場合は距離が大きく,
異なる音源に属する場合は距離が小さくなるような埋込み表現を学習
 embedされたベクトルをクラスタリングしてバイナリマスク決定
埋込み空間 (embedding space)
②k-means等でクラスタリング,
時間-周波数ごとにどの音源に
属するかを推定
10Copyright©2019 NTT corp. All Rights Reserved.
従来手法②: Chimera++ Network [Wang+,18]
Deep Clustering の発展形
Deep Clustering(埋め込み表現獲得) に加えて, マスキング
後の目的音源の誤差を学習に利用
11Copyright©2019 NTT corp. All Rights Reserved.
従来手法②: Chimera++ Network [Wang+,18]
Deep Clustering の発展形
Deep Clustering(埋め込み表現獲得) に加えて, マスキング
後の目的音源の誤差を学習に利用
時間-周波数ごとの
音源一致性が
推定できているか
目的音源が
正しく分離
されているか
12Copyright©2019 NTT corp. All Rights Reserved.
• 時間-周波数ごとの混合信号の例
→ 位相も考慮したマスク = 複素時間周波数マスク が必要
Deep Clustering / Chimera++ Net の課題
ある時間-周波数に2名以上の音声が含まれる場合
振幅マスクだけでは正しく音源分離できない
ある時間-周波数において
1名の音声のみが支配的であれば
or
複数の音源が存在する場合,
振幅マスクだけでは
から を生成できない
振幅の
二乗誤差最小化
with 実数マスク
13Copyright©2019 NTT corp. All Rights Reserved.
従来手法③: PhaseNet [Takahashi+,18]
複素時間周波数マスク推定
各時間-周波数に対し、目的音の振幅スペクトルと位相を
同時推定
位相推定を量子化された位相のクラス分類問題とみなす
振幅の正解情報
位相の正解情報
14Copyright©2019 NTT corp. All Rights Reserved.
従来手法③: PhaseNet [Takahashi+,18]
Q個の量子化位相のうち
どれが正解かを
Softmax cross-entropyで学習
目的音の正解位相
量子化後の正解位相
複素時間周波数マスク推定
各時間-周波数に対し、目的音の振幅スペクトルと位相を
同時推定
位相推定を量子化された位相のクラス分類問題とみなす
15Copyright©2019 NTT corp. All Rights Reserved.
PhaseNetの課題
• 例
量子化位相を交差エントロピーで学習する場合、
位相の周期性を考慮した推定ができない
(+惜しい誤りか全然ダメな誤りかが分からない)
0 0 0
1
0
教師ラベル
推定結果
0
0 0
0.6 0.4
0 0正解の
量子化位相
推定位相推定位相
ある程度近い位相推定ができているものの,
交差エントロピーの数値上では推定誤りが大きくみえる
16Copyright©2019 NTT corp. All Rights Reserved.
提案手法:phasebook
PhaseNetの改良手法
量子化位相の最近傍値でなく, 全ての量子化位相
(位相コードブック)の重み付け和として目的位相を表現
位相推定法: 3種
目的信号の
複素フィルタ
目的信号の
位相フィルタ
17Copyright©2019 NTT corp. All Rights Reserved.
提案手法:phasebook
位相推定法: 3種 = PhaseNet
量子化位相ごと
の事後確率
→ 事後確率で重み付けして
位相を決定
PhaseNetの改良手法
量子化位相の最近傍値でなく, 全ての量子化位相
(位相コードブック)の重み付け和として目的位相を表現
18Copyright©2019 NTT corp. All Rights Reserved.
さらに拡張:magbook, combook
• 振幅コードブック
– [0, 1, 2] など
• 複素コードブック
– 様々な振幅/位相をとるよう設計
位相だけでなく、時間周波数マスクの振幅推定や
複素時間周波数マスク(実部+虚部推定)においても
コードブックの重み付け和としてマスクを表現
19Copyright©2019 NTT corp. All Rights Reserved.
補足:量子化位相と信号対歪み比(SDR)の関係
振幅マスクの
作り方の差:
Ideal Amplitude
Mask (IAM)
Ideal Binary
Mask (IBM) etc.
位相がランダムだとSDRは15dB程度
目的信号に近い位相を用いるほどSDRが向上
→ 位相推定は音源分離において重要
コードブック
作成+
目的信号の最
近傍の位相を
選択(oracle)
20Copyright©2019 NTT corp. All Rights Reserved.
補足:量子化位相と信号対歪み比(SDR)の関係
位相がランダムだとSDRは15dB程度
目的信号に近い位相を用いるほどSDRが向上
→ 位相推定は音源分離において重要
位相ランダム
ではSDR15dB
振幅フィルタ推定
手法にもよるが、
目的信号に近い位
相を用いるほど
SDRが向上
21Copyright©2019 NTT corp. All Rights Reserved.
phasebookに基づく音源分離
Chimera++ Networkの音源推定側のネットワークを
magbookでの振幅推定・phasebookでの位相推定に変更
時間領域での再構成誤差を加えて学習
22Copyright©2019 NTT corp. All Rights Reserved.
phasebookに基づく音源分離
Chimera++ Networkの音源推定側のネットワークを
magbookでの振幅推定・phasebookでの位相推定に変更
時間領域での再構成誤差を加えて学習
Deep Clustering
時間-周波数ごとの
音源一致性
magbook
目的信号の振幅推定
phasebook
目的信号の位相推定
Waveform approx.
目的信号の時間波形推定
23Copyright©2019 NTT corp. All Rights Reserved.
評価実験
• コーパス:wsj0-2mix [Hershey+,16]
– 話者2名の混合発話
– 発話数(時間)
 学習:開発:評価 = 20,000(30h):5,000(10h):3,000(5h)
– 評価セットの話者は学習セットに含まれない
• 実験内容
1. 位相/振幅推定の手法比較 (主にPhaseNetとphasebook)
2. magbook+phasebook と combook の比較
 コードブックサイズを3段階に変えて評価
3. 他従来手法との比較
24Copyright©2019 NTT corp. All Rights Reserved.
実験1. 位相/振幅推定の手法比較
PhaseNetに比べてSDR向上
振幅マスクと同時学習を行うことでさらに精度向上
PhaseNetと
等価 時間波形での目的信号
再構成誤差で学習
25Copyright©2019 NTT corp. All Rights Reserved.
実験2. magbook+phasebook と combookの比較
combook + コードブックサイズ12 が最高精度
結果テーブル
26Copyright©2019 NTT corp. All Rights Reserved.
実験3. 他手法との比較
通常のChimera++ Networkよりも高精度
反復的に複素フィルタ推定を行う手法よりは下がるが
反復しない手法の中ではcombookが最高精度
27Copyright©2019 NTT corp. All Rights Reserved.
phasebookまとめ
• シングルチャネル音源分離の一つ
• 複素時間周波数マスクに基づく手法
• 複素マスクの位相推定において、
目的位相を位相コードブックの事後確率最大点でなく
位相コードブックの各点の重み付け和として表現
• 位相推定に限らず、振幅コードブックや複素マスク
コードブックの重み付け和としてマスク推定を行う
magbook, combookも提案
– combookは従来のChimera++ Networkを上回る精度を達成
28Copyright©2019 NTT corp. All Rights Reserved.
参考文献
• 元論文
– http://www.jonathanleroux.org/pdf/LeRoux2019ICASSP05phasebook.pdf
– https://arxiv.org/abs/1810.01395 (full paper)
• Deep Clustering [Hershey+,16]
– https://ieeexplore.ieee.org/document/7471631
• Chimera++ Network [Wang+,18]
– https://www.merl.com/publications/docs/TR2018-005.pdf
• PhaseNet [Takahashi+,18]
– https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1773.pdf

More Related Content

What's hot

実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
AIによるアニメ生成の挑戦
AIによるアニメ生成の挑戦AIによるアニメ生成の挑戦
AIによるアニメ生成の挑戦
Koichi Hamada
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
NU_I_TODALAB
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
Yuma Koizumi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
 
全脳アーキテクチャ若手の会 強化学習
全脳アーキテクチャ若手の会 強化学習全脳アーキテクチャ若手の会 強化学習
全脳アーキテクチャ若手の会 強化学習
kwp_george
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
株式会社メタップスホールディングス
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 

What's hot (20)

実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
AIによるアニメ生成の挑戦
AIによるアニメ生成の挑戦AIによるアニメ生成の挑戦
AIによるアニメ生成の挑戦
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
全脳アーキテクチャ若手の会 強化学習
全脳アーキテクチャ若手の会 強化学習全脳アーキテクチャ若手の会 強化学習
全脳アーキテクチャ若手の会 強化学習
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 

Similar to ICASSP2019論文読み会_PHASEBOOK

統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
 
構造正則化による時空間変化パターン検出
構造正則化による時空間変化パターン検出 構造正則化による時空間変化パターン検出
構造正則化による時空間変化パターン検出
Koh Takeuchi
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
Ryohei Suzuki
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
 
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10
Hiroaki Sugiyama
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
 
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksAcoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
Junya Saito
 

Similar to ICASSP2019論文読み会_PHASEBOOK (7)

統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
構造正則化による時空間変化パターン検出
構造正則化による時空間変化パターン検出 構造正則化による時空間変化パターン検出
構造正則化による時空間変化パターン検出
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksAcoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
 

Recently uploaded

TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 

Recently uploaded (14)

TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 

ICASSP2019論文読み会_PHASEBOOK

  • 1. Copyright©2019 NTT corp. All Rights Reserved. THE PHASEBOOK: BUILDING COMPLEX MASKS VIA DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION NTTメディアインテリジェンス研究所 安藤 厚志 19. 6. 8 ICASSP2019論文読み会
  • 2. 2Copyright©2019 NTT corp. All Rights Reserved. 自己紹介 • 名前 – 安藤 厚志 (あんどう あつし) • 所属 – NTTメディアインテリジェンス研究所 • 略歴 – 13.3 名古屋大学大学院 情報科学研究科 修士課程卒 (武田研) – 13.4~ NTTメディアインテリジェンス研究所 研究員 – 18.4~ 名古屋大学大学院 情報学研究科 博士課程在学 (戸田研) • 専門分野 – 修士: 音源分離、音声認識 – 社会人/博士: 非言語・パラ言語情報認識 (感情認識, 話者認識)
  • 3. 3Copyright©2019 NTT corp. All Rights Reserved. 紹介論文 • THE PHASEBOOK: BUILDING COMPLEX MASKS VIA DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION – Jonathon Le Roux, Gordon Wichern, Shinji Watanabe, Andy Sarroff, John R. Hershey (Mitsubishi Electric Research Laboratories: MERL) • 概要 – 深層学習に基づくシングルチャネル音源分離 – 複素時間周波数マスクに基づく手法 – 位相推定において、目的位相を位相コードブックの各点でなく 位相コードブックの各点の重み付け和として表現することで 位相の周期性を表現 – 位相だけでなく、振幅や複素マスク全体をコードブックの 重み付け和として推定する枠組みを新たに提案 Deep Clustering, Chimera++ Net の研究チーム
  • 4. 4Copyright©2019 NTT corp. All Rights Reserved. 本論文の位置付け • 音源分離の従来技術 – シングルチャネル音源分離 事前学習が不要 – 非不値行列分解 (NMF) など 事前学習が必要 – 時間周波数マスク推定 など – マルチチャネル音源分離 事前学習が不要 – ビームフォーミング – 独立成分分析/独立ベクトル分析 (ICA/IVA) – 独立低ランク行列分析 (ILRMA) など 音源の性質を利用 (スパース性、調波性など) 音源の到来方向の違い を利用
  • 5. 5Copyright©2019 NTT corp. All Rights Reserved. 問題設定 複数名の混合音声から、各話者の音声を分離したい (引用: https://www.irisa.fr/metiss/members/evincent/keynoteICArn05.pdf ) 目的音 雑音 観測音 (混合音声) 音源分離 推定目的音
  • 6. 6Copyright©2019 NTT corp. All Rights Reserved. アプローチ:時間周波数マスク 混合音声に対し、特定話者の音声だけが残るように 時間-周波数ごとにマスク推定、マスキング 観測音 (混合音声) ○ 時間周波数マスク 要素積 = 推定目的音 =
  • 7. 7Copyright©2019 NTT corp. All Rights Reserved. アプローチ:時間周波数マスク 混合音声に対し、特定話者の音声だけが残るように 時間-周波数ごとにマスク推定、マスキング 観測音 (混合音声) ○ = 推定目的音 = 音声のスパース性を仮定 音声は時間-周波数において スパースであり、ある時間- 周波数において音声成分は 高々一つしかないとみなす 時間周波数マスク
  • 8. 8Copyright©2019 NTT corp. All Rights Reserved. • イメージ – 北村先生の解説がとても分かりやすいです! https://www.slideshare.net/DaichiKitamura/icassp2017aaspl3 従来手法①: Deep Clustering [Hershey+,16] 埋込み空間 (embedding space) ① 埋込み表現への 変換射影を学習  バイナリマスク推定  各時間-周波数に対し、同じ音源に属する場合は距離が大きく, 異なる音源に属する場合は距離が小さくなるような埋込み表現を学習  embedされたベクトルをクラスタリングしてバイナリマスク決定
  • 9. 9Copyright©2019 NTT corp. All Rights Reserved. 従来手法①: Deep Clustering [Hershey+,16] • イメージ – 北村先生の解説がとても分かりやすいです! https://www.slideshare.net/DaichiKitamura/icassp2017aaspl3  バイナリマスク推定  各時間-周波数に対し、同じ音源に属する場合は距離が大きく, 異なる音源に属する場合は距離が小さくなるような埋込み表現を学習  embedされたベクトルをクラスタリングしてバイナリマスク決定 埋込み空間 (embedding space) ②k-means等でクラスタリング, 時間-周波数ごとにどの音源に 属するかを推定
  • 10. 10Copyright©2019 NTT corp. All Rights Reserved. 従来手法②: Chimera++ Network [Wang+,18] Deep Clustering の発展形 Deep Clustering(埋め込み表現獲得) に加えて, マスキング 後の目的音源の誤差を学習に利用
  • 11. 11Copyright©2019 NTT corp. All Rights Reserved. 従来手法②: Chimera++ Network [Wang+,18] Deep Clustering の発展形 Deep Clustering(埋め込み表現獲得) に加えて, マスキング 後の目的音源の誤差を学習に利用 時間-周波数ごとの 音源一致性が 推定できているか 目的音源が 正しく分離 されているか
  • 12. 12Copyright©2019 NTT corp. All Rights Reserved. • 時間-周波数ごとの混合信号の例 → 位相も考慮したマスク = 複素時間周波数マスク が必要 Deep Clustering / Chimera++ Net の課題 ある時間-周波数に2名以上の音声が含まれる場合 振幅マスクだけでは正しく音源分離できない ある時間-周波数において 1名の音声のみが支配的であれば or 複数の音源が存在する場合, 振幅マスクだけでは から を生成できない 振幅の 二乗誤差最小化 with 実数マスク
  • 13. 13Copyright©2019 NTT corp. All Rights Reserved. 従来手法③: PhaseNet [Takahashi+,18] 複素時間周波数マスク推定 各時間-周波数に対し、目的音の振幅スペクトルと位相を 同時推定 位相推定を量子化された位相のクラス分類問題とみなす 振幅の正解情報 位相の正解情報
  • 14. 14Copyright©2019 NTT corp. All Rights Reserved. 従来手法③: PhaseNet [Takahashi+,18] Q個の量子化位相のうち どれが正解かを Softmax cross-entropyで学習 目的音の正解位相 量子化後の正解位相 複素時間周波数マスク推定 各時間-周波数に対し、目的音の振幅スペクトルと位相を 同時推定 位相推定を量子化された位相のクラス分類問題とみなす
  • 15. 15Copyright©2019 NTT corp. All Rights Reserved. PhaseNetの課題 • 例 量子化位相を交差エントロピーで学習する場合、 位相の周期性を考慮した推定ができない (+惜しい誤りか全然ダメな誤りかが分からない) 0 0 0 1 0 教師ラベル 推定結果 0 0 0 0.6 0.4 0 0正解の 量子化位相 推定位相推定位相 ある程度近い位相推定ができているものの, 交差エントロピーの数値上では推定誤りが大きくみえる
  • 16. 16Copyright©2019 NTT corp. All Rights Reserved. 提案手法:phasebook PhaseNetの改良手法 量子化位相の最近傍値でなく, 全ての量子化位相 (位相コードブック)の重み付け和として目的位相を表現 位相推定法: 3種 目的信号の 複素フィルタ 目的信号の 位相フィルタ
  • 17. 17Copyright©2019 NTT corp. All Rights Reserved. 提案手法:phasebook 位相推定法: 3種 = PhaseNet 量子化位相ごと の事後確率 → 事後確率で重み付けして 位相を決定 PhaseNetの改良手法 量子化位相の最近傍値でなく, 全ての量子化位相 (位相コードブック)の重み付け和として目的位相を表現
  • 18. 18Copyright©2019 NTT corp. All Rights Reserved. さらに拡張:magbook, combook • 振幅コードブック – [0, 1, 2] など • 複素コードブック – 様々な振幅/位相をとるよう設計 位相だけでなく、時間周波数マスクの振幅推定や 複素時間周波数マスク(実部+虚部推定)においても コードブックの重み付け和としてマスクを表現
  • 19. 19Copyright©2019 NTT corp. All Rights Reserved. 補足:量子化位相と信号対歪み比(SDR)の関係 振幅マスクの 作り方の差: Ideal Amplitude Mask (IAM) Ideal Binary Mask (IBM) etc. 位相がランダムだとSDRは15dB程度 目的信号に近い位相を用いるほどSDRが向上 → 位相推定は音源分離において重要 コードブック 作成+ 目的信号の最 近傍の位相を 選択(oracle)
  • 20. 20Copyright©2019 NTT corp. All Rights Reserved. 補足:量子化位相と信号対歪み比(SDR)の関係 位相がランダムだとSDRは15dB程度 目的信号に近い位相を用いるほどSDRが向上 → 位相推定は音源分離において重要 位相ランダム ではSDR15dB 振幅フィルタ推定 手法にもよるが、 目的信号に近い位 相を用いるほど SDRが向上
  • 21. 21Copyright©2019 NTT corp. All Rights Reserved. phasebookに基づく音源分離 Chimera++ Networkの音源推定側のネットワークを magbookでの振幅推定・phasebookでの位相推定に変更 時間領域での再構成誤差を加えて学習
  • 22. 22Copyright©2019 NTT corp. All Rights Reserved. phasebookに基づく音源分離 Chimera++ Networkの音源推定側のネットワークを magbookでの振幅推定・phasebookでの位相推定に変更 時間領域での再構成誤差を加えて学習 Deep Clustering 時間-周波数ごとの 音源一致性 magbook 目的信号の振幅推定 phasebook 目的信号の位相推定 Waveform approx. 目的信号の時間波形推定
  • 23. 23Copyright©2019 NTT corp. All Rights Reserved. 評価実験 • コーパス:wsj0-2mix [Hershey+,16] – 話者2名の混合発話 – 発話数(時間)  学習:開発:評価 = 20,000(30h):5,000(10h):3,000(5h) – 評価セットの話者は学習セットに含まれない • 実験内容 1. 位相/振幅推定の手法比較 (主にPhaseNetとphasebook) 2. magbook+phasebook と combook の比較  コードブックサイズを3段階に変えて評価 3. 他従来手法との比較
  • 24. 24Copyright©2019 NTT corp. All Rights Reserved. 実験1. 位相/振幅推定の手法比較 PhaseNetに比べてSDR向上 振幅マスクと同時学習を行うことでさらに精度向上 PhaseNetと 等価 時間波形での目的信号 再構成誤差で学習
  • 25. 25Copyright©2019 NTT corp. All Rights Reserved. 実験2. magbook+phasebook と combookの比較 combook + コードブックサイズ12 が最高精度 結果テーブル
  • 26. 26Copyright©2019 NTT corp. All Rights Reserved. 実験3. 他手法との比較 通常のChimera++ Networkよりも高精度 反復的に複素フィルタ推定を行う手法よりは下がるが 反復しない手法の中ではcombookが最高精度
  • 27. 27Copyright©2019 NTT corp. All Rights Reserved. phasebookまとめ • シングルチャネル音源分離の一つ • 複素時間周波数マスクに基づく手法 • 複素マスクの位相推定において、 目的位相を位相コードブックの事後確率最大点でなく 位相コードブックの各点の重み付け和として表現 • 位相推定に限らず、振幅コードブックや複素マスク コードブックの重み付け和としてマスク推定を行う magbook, combookも提案 – combookは従来のChimera++ Networkを上回る精度を達成
  • 28. 28Copyright©2019 NTT corp. All Rights Reserved. 参考文献 • 元論文 – http://www.jonathanleroux.org/pdf/LeRoux2019ICASSP05phasebook.pdf – https://arxiv.org/abs/1810.01395 (full paper) • Deep Clustering [Hershey+,16] – https://ieeexplore.ieee.org/document/7471631 • Chimera++ Network [Wang+,18] – https://www.merl.com/publications/docs/TR2018-005.pdf • PhaseNet [Takahashi+,18] – https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1773.pdf