Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Ea2015 7for ss

4,676 views

Published on

Invited talk in EA Kenkyukai on July 2015

Published in: Engineering
  • Be the first to comment

Ea2015 7for ss

  1. 1. 統計的バイノーラル信号表現と その音源分離への応用 東京大学・大学院情報理工学系研究科 猿渡 洋 (2015年7月) 電気音響研究会・招待講演
  2. 2. 発表の流れ  研究背景と目的  従来手法 非負値行列因子分解を用いた音源分離手法 一般化MMSE-STSA推定器を用いた音源分離手法  提案手法 時系列事前分布モデルとスペクトル基底の同時適応を行う音 源分離  評価実験  まとめと今後の課題 2
  3. 3. 発表の流れ  研究背景と目的  従来手法 非負値行列因子分解を用いた音源分離手法 一般化MMSE-STSA推定器を用いた音源分離手法  提案手法 時系列事前分布モデルとスペクトル基底の同時適応を行う音 源分離  評価実験  まとめと今後の課題 3
  4. 4. 研究背景:バイノーラル音楽音源分離  マルチチャネル信号は多くの信号処理技術に応用される マイクロフォンアレイによる録音信号 (アレイ信号処理) 一般的なステレオ音楽信号 (音楽信号処理) ダミーヘッドによる両耳録音信号  バイノーラル信号の音源分離では以下の問題が生じる 抽出対象音の定位を保持しつつ音源分離を行わねばならない 未知の頭部伝達関数 (HRTF)による変形に対しても高精度に 分離を行わねばならない 4 本研究の対象 (バイノーラル信号) しかし… 定位を保持し,未知のHRTFに対応し頑健かつ高精度に動 作するバイノーラル音源分離手法は未だ確立されていない
  5. 5. 発表の流れ  研究背景と目的  従来手法 非負値行列因子分解を用いた音源分離手法 一般化MMSE-STSA推定器を用いた音源分離手法  提案手法 時系列事前分布モデルとスペクトル基底の同時適応を行う音 源分離  評価実験  まとめと今後の課題 5
  6. 6. 混合信号のモデル 信号の定義 :観測信号 :伝達関数 : 妨害音信号 :目的音信号 これ以降,各信号における下付き文字 は それぞれ左耳と右耳での信号を表すとする : 周波数インデックス : 時間フレームインデックス 8
  7. 7. 従来手法: NMFを用いた音源分離  Nonnegative Matrix Factorization (NMF) [Lee, et al., 2001] スパース分解表現による特徴量抽出手法  非負値行列を2つの非負値行列の積で近似表現する 所望の基底を用いてスペクトログラムを再構成することで音源 分離を行うことができる 7 Amplitude Amplitude 観測行列 (スペクトログラム) 基底行列 (頻出スペクトルパターン) アクティベーション行列 (時間的なゲイン変化) Time 𝑓 : 周波数ビン数 τ : 時間フレーム数 k: 基底数 Time Frequency Frequency
  8. 8. 従来手法: 基底変形型教師ありNMF  基底変形型教師ありNMF (Deformation SNMF) [Kitamura, et al., 2013] 分離したい目的音源のサンプル音を事前学習する 事前学習した教師基底を観測音信号に適応させ分離を行う 学習プロセス 教師音から作成した教師スペクトル基底 分離目的音の教師音 (音階等) わずかに異なる 分離プロセス 最適化 分離プロセス 最適化 教師基底に対する変形項
  9. 9. 従来手法: 一般化MMSE-STSA推定器 [Breithaupt, et al., 2008]  目的音事前分布がカイ分布だと仮定するminimum mean-square error short-time spectral amplitude (MMSE-STSA) ベイズ推定 9 r = 1は目的音波形がガウス分布、r <1は優ガウス分布に従う : 信号 xのp.d.f.: 形状母数: ガンマ関数 観測音中の目的音カイ分布
  10. 10.  目的音振幅スペクトルの誤差が最小となるように推定 10 推定目的音 : 推定目的音 : ゲイン関数 : 合流型超幾何関数 : 事前SNR : 事後SNR : 形状母数: ガンマ関数 : 忘却係数 : 妨害音のパワースペクトル 従来手法: 一般化MMSE-STSA推定器 [Breithaupt, et al., 2008] : 振幅圧縮パラメータ
  11. 11. • 観測音中の目的音を最もよく表す形状母数の値は未知 • 非定常な妨害音に対応できない • カイ分布を用いた時系列データモデリングによって,時間 方向の影響(残響など)に適応して分離可能. • 加法型の変形方法では,適切な変形を行うことが難しい • 基底の変形と音源分離を同時に行うため,最適化が困難 従来手法の利点と欠点 11 Deformation SNMF • 教師基底の変形によって,周波数特性の変化に適応して 分離可能. 一般化MMSE-STSA推定法
  12. 12. 発表の流れ  研究背景と目的  従来手法 非負値行列因子分解を用いた音源分離手法 一般化MMSE-STSA推定器を用いた音源分離手法  提案手法 時系列事前分布モデルとスペクトル基底の同時適応を行う音 源分離  まとめと今後の課題 12
  13. 13. Frequency AmplitudeAmplitude Frequency 時変な変形 (フレーム外変動) Amplitude Frequency 時不変な変形 (周波数変形) 13 未知のHRTFによる信号の変形 Amplitude Time Amplitude Time Amplitude Time 波形信号 時間周波数 信号 : Time window
  14. 14. Frequency AmplitudeAmplitude Frequency 時変な変形 (フレーム外変動) Amplitude Frequency 時不変な変形 (周波数変形) 14 未知のHRTFによる信号の変形 Amplitude Time Amplitude Time Amplitude Time 波形信号 時間周波数 信号 : Time window Deformation SNMFにより対応 一般化MMSE- STSA推定器により 対応
  15. 15.  カイ分布における時系列モデリングの問題点 観測音中の目的音を最もよく表す形状母数の値は未知.  Deformation SNMFの基底変形における問題点 目的音に対応した精度のよい基底変形を行うことが困難.  提案手法における各問題点の解決方法 15 提案手法における問題点と解決方法 より良い基底変形の枠組みを導入する 時系列モデリング 基底変形 観測データからブラインドに形状母数を推定する
  16. 16. 16 STFT Non-target signal estimation by SNMF Generalized MMSE-STSA estimator Equi binaural spectral gain calculation Target prior estimation ISTFT Supervised basis training Supervised basis update Spectral weight training, true false 提案手法の概要 Target prior estimation Basis deformation  提案手法のブロック図 一般化MMSE-STSA推定器により目的音を抽出. 時変,時不変変形への適応を反復して行う.
  17. 17. 統計的バイノーラルモデルの自動 適応に基づく両耳音楽信号分離
  18. 18.  目的音振幅スペクトルの誤差が最小となるように推定 18 推定目的音 : 推定目的音 : ゲイン関数 : 合流型超幾何関数 : 事前SNR : 事後SNR : 形状母数: ガンマ関数 : 忘却係数 : 妨害音のパワースペクトル 一般化MMSE-STSA推定器 : 振幅圧縮パラメータ
  19. 19.  目的音振幅スペクトルの誤差が最小となるように推定 19 推定目的音 : 推定目的音 : ゲイン関数 : 合流型超幾何関数 : 事前SNR : 事後SNR : 形状母数: ガンマ関数 : 忘却係数 : 妨害音のパワースペクトル 一般化MMSE-STSA推定器 : 振幅圧縮パラメータ 未知 未知
  20. 20.  目的音振幅スペクトルの誤差が最小となるように推定 20 推定目的音 : 推定目的音 : ゲイン関数 : 合流型超幾何関数 : 事前SNR : 事後SNR : 形状母数: ガンマ関数 : 忘却係数 : 妨害音のパワースペクトル 一般化MMSE-STSA推定器 : 振幅圧縮パラメータ SNMFにより推定
  21. 21. 形状母数とカートシス 21 目的音振幅スペクトルの4次統計量(カートシス)を求め ることで形状母数が推定可能→でも目的音は未知!? カイ分布 の形状母数rとカートシスの関係 : m次モーメント : カイ分布の確率密度 関数(p.d.f.) : カートシス
  22. 22. 加法信号のm次モーメント算出における問題 22 観測音 目的音 妨害音 未知 既知既知 波形 逆畳み込みは困難→何か別の方法は無いか? 畳み込み 未知 既知既知 p.d.f.
  23. 23. • キュムラント km(x):対数特性関数の級数展開 特徴 • 特性関数 モーメント・キュムラント変換 [1/4] (m次モーメント) (m次キュムラント) キュムラントの加法性 モーメントの乗法性 キュムラント・モーメント変換を駆使すれば様々な 混合確率過程の統計量分解も可能
  24. 24. モーメント・キュムラント変換 [2/4] • キュムラントからのモーメントの導出 : を分割するパターン :分割された各ブロック :ブロックのサイズ : の分割数(ブロック数) – Faà di Bruno’s formula
  25. 25. モーメント・キュムラント変換 [3/4] m = 3 の場合 1 2 3 1 2 3 1 3 2 2 3 1 1 2 3 + + ++
  26. 26. • モーメントからのキュムラントの導出 モーメント・キュムラント変換 [4/4]
  27. 27. 目的音振幅スペクトルのカートシス推定 目的音振幅スペクトルカートシス(複素数ドメイン)
  28. 28.  実部と虚部でi.i.d.を仮定すると次の式が成り立つ 振幅スペクトルドメインへの変換 28 : 観測音の振幅スペクトル : SNMFによって得られる 妨害音の振幅スペクトル
  29. 29. 目的音のカートシス推定 [Murota, et al., ICASSP2014] 29 目的音振幅スペクトルカートシス • 観測音とSNMFの推定値のみから解析的に目的音 のカートシスが計算可能 • 観測音中に埋もれている目的音を表す形状母数は、 可観測なデータのみから閉形式にて推定可能 • これを両耳個別に適用すれば、左右における時系列 の統計的な違いを表現できるのではないか? : 観測音の振幅スペクトル : SNMFによって得られる妨害音 の振幅スペクトル
  30. 30. 事前分布に着目したバイノーラル信号モデル 30 左耳 右耳 NR(f,t) NL (f,t) SL (f,t) SR(f,t) s(f,t) hL(f) hR(f) (a) 従来のバイノーラル 決定論的信号モデル hR (f) hL (f) HRTF (b) 事前分布に着目した統計的信号モデル 未知 SL (f,t)=hL(f)s(f,t) SR (f,t)=hR(f)s(f,t) 左耳: 右耳: SL (f,t)+NL(f,t) SR(f,t)+NR(f,t) 左右形状母数 のみを決める 問題に帰着
  31. 31. 音像定位に関する問題  個別の統計モデルを用いた一般化MMSE-STSA推定器 両耳のゲインは個別に計算されたものを用いて良いのか? 統計的な手法に基づいているので,推定値(ゲイン関数)に揺 らぎが生じる.  両耳信号推定における音像定位改善 左右の耳で共通のゲインを用いることで定位問題を改善する. 31 両耳間のゲインが同期していないグリッドがあるので, 定位感に劣化が生じる(音像のふらつき等).
  32. 32. エラー関数 両耳共通ゲインの導出方針 32 : 共通化ゲイン 上記のエラー関数を最小化する を求める(事前分布の元で) : 振幅圧縮パラメータ 直接 を求めるのは困難なため2段階の最適化に分ける 1. 各チャネル毎に最適化(事前分布を意識した最適化) 2. 上記の結果を用いて を近似最適化(事前分布は無視)
  33. 33. 1. 各チャネルごとの最適化 • 各チャネル個別のスペクトルゲインを補助変数として導入すると, エラー関数は次のように書くことができる。 33 エラー関数の展開
  34. 34. 1. 各チャネルごとの最適化 • 各チャネル個別のスペクトルゲインを補助変数として導入すると, エラー関数は次のように書くことができる。 34 エラー関数の展開
  35. 35. 1. 各チャネルごとの最適化 • 各チャネル個別のスペクトルゲインを補助変数として導入すると, エラー関数は次のように書くことができる。 35 エラー関数の展開 ≒0 ≒0
  36. 36. 近似エラー関数の定式化 2. 共通ゲインの導出 36 上式メインコスト部は 単純な最小二乗問題 なので、右式の根で 最小値をとる 両耳それぞれに おける事前分布 に基づいて最適化
  37. 37. 両耳共通ゲイン LチャネルにおけるMMSE最適スペクトルゲイン RチャネルにおけるMMSE最適スペクトルゲイン (これら2個のゲインは,一般化MMSE-STSA推定器によって計算されたもの) 2.共通ゲインの導出(続き)
  38. 38. スペクトル基底の反復変形に基づく 教師信号ミスマッチ問題解決
  39. 39.  問題点 加法型の変形では,時不変の変形を表すことが難しい. 基底の変形と音源分離を同時に行うため,最適化が困難.  提案手法における基底変形の方針 変形を時不変なスペクトル重み(積)の形で表す 基底変形と音源分離を別のステップに分けて行う 一般化MMSE-STSA推定により得られた推定目的音に近づく よう変形を行う → 本処理とSNMF+MMSE-STSAの繰り返し Deformation SNMFにおける問題点 26 教師スペクトル基底 変形項(正負値) 及び を最適化 Deformation SNMFの分解モデル
  40. 40. 発表の流れ  研究背景と目的  従来手法 非負値行列因子分解を用いた音源分離手法 一般化MMSE-STSA推定器を用いた音源分離手法  提案手法 時系列事前分布モデルとスペクトル基底の同時適応を行う音 源分離  評価実験  まとめと今後の課題 40
  41. 41. 実験条件(教師と観測音がミスマッチ) 41 楽器音 (MIDI) Ob., Cl., Vc., Pf. 観測音(MIDI) Obとその他1種類を選び等パワーで混合したもの 目的音 Ob. 教師音 (MIDI) 2 オクターブ上昇する目的楽器 24 音(伝達特性は異なる) 基底数 k 目的音: 100 妨害音 50 反復回数 学習時: 500 分離時: 400 サンプリング周波数 44100 忘却係数 α 0.97 サブバンド分割数 M 128 評価値 SDR: 分離度合いと人工歪みの少なさを含む総合的な分 離音源の品質 0° 90°−90° 15° 観測音の音源配置: 前方15度刻み.目的音と妨害音は 同じ方向に配置
  42. 42. 評価実験: 既存手法との比較  実験目的 目的音の事前分布を推定することによる効果を確認する 反復して基底を変形させることによる効果を確認する  比較手法 42 手法名 ポストフィルタ 妨害音推定 事前分布推定 NMFの反復 Equi-gain WF ウィーナフィルタ Deformatin SNMF しない しない Equi-gain MMSE- STSA MMSE-STSA estimator Deformatin SNMF しない しない Gain-min MMSE- STSA MMSE-STSA estimator Deformatin SNMF しない しない Equi-gain GMMSE- STSA 一般化MMSE- STSA estimator Deformatin SNMF する しない Proposed method 一般化MMSE- STSA estimator 反復型 Deformation SNMF する する
  43. 43. 実験結果(目的音: Ob.)  スレッショルドパラメータ: 0.8, 反復数: 4 43
  44. 44. 実験結果(目的音: Ob.)  スレッショルドパラメータ: 0.8, 反復数: 4 44 事前分布を推定する 事前分布を推定しない
  45. 45. 実験結果(目的音: Ob.)  スレッショルドパラメータ: 0.8, 反復数: 4 45 反復あり 反復なし
  46. 46. 主観評価結果  ゲイン共通化を行う場合と行わない場合の差をXAB試 験により比較 46
  47. 47. まとめと今後の課題  バイノーラル信号を対象として定位を保持し,未知のHRTFに対し て頑健かつ高精度に目的音源を分離する新しい手法を提案した 観測音中の目的音に適応し分離を行う手法を提案した  従来手法より高い分離精度を実現した  解析フレーム長を超える伝達関数を扱うことが可能となった  新たな基底変形手法を,様々な問題に応用することが出来る  伝達関数による変形以外も吸収できるような枠組みを導入する. 47 まとめ 今後の課題 [2015年・日本音響学会秋季研究発表会にて報告予定]

×