Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

方向統計DNNに基づく振幅スペクトログラムからの位相復元

237 views

Published on

2018年 音響学会 秋季研究発表会

Published in: Technology
  • Be the first to comment

  • Be the first to like this

方向統計DNNに基づく振幅スペクトログラムからの位相復元

  1. 1. 09/12/2018©Shinnosuke Takamichi, The University of Tokyo 方向統計DNNに基づく 振幅スペクトログラムからの位相復元 Phase reconstruction from amplitude spectrograms based directional-statistics DNNs 高道 慎之介,齋藤 佑樹,高宗 典玄 (東京大学) 北村 大地 (香川高専),猿渡 洋 (東京大学) 2018年 音響学会 秋季研究発表会 2-4-2
  2. 2. /15 課題 2 入力変数に依存し,かつ非対称な確率分布に従う 周期変数をDNNでどう扱う? 𝑦 0 𝜋 2𝜋 Count
  3. 3. /15 概要  タスク:振幅スペクトログラムからの位相復元 – 処理対象として頻用される振幅から,位相をどうやって復元する?  従来法:von Mises分布DNNに基づく位相モデリング [Takamichi18] – 円周上の確率分布である von Mises 分布を有するDNN – 位相よりも,位相の1次差分で近似した群遅延を高精度に推定可能  問題点:非対称性のモデリング – 群遅延の分布は,極や零点の影響により,最頻値を中心に非対称 → 対称分布である von Mises 分布の利用は適切でない  提案法:正弦関数摂動一般化ハート分布DNNに基づく群遅延予測 – von Mises 分布を一般化した非対称分布 • 非対称性の導入により,群遅延の分布を高精度にモデル化 3
  4. 4. /15 ○○分布DNNとは  定義:パラメトリックな条件付き確率分布 𝑃 𝑦|𝑥 を持つDNN – 負の対数尤度を最小化する,DNN学習時の損失関数 𝐿 ⋅ – 例) 𝑦 − 𝑦 2 → 分散 given の(等方性)ガウス分布DNN − cos 𝑦 − 𝑦 → 集中度パラメータ given の von Mises分布DNN  本発表:正弦関数摂動一般化ハート分布 – 円周上の確率分布 (位相のような周期変数に対応) – 一般化ハート分布 [Jones05] … von Mises 分布を一般化した対称分布 – 正弦関数摂動 [Abe11] … 円周上の分布の非対称化 4 𝑥 𝑦 𝑦𝐿 ⋅ [Takamichi18] 以降では,分布を導入してDNN学習時の損失関数を定義
  5. 5. /15 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 5 𝑃 𝑦; 𝜇, 𝜅, 𝜓 = cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 2𝜋𝑃1/𝜓 cosh 𝜅𝜓 平均 (mean) 集中度パラメータ (concentration param.) [Jones05] * 本稿では 𝜓をgiven (一定値) とした特殊形のみを扱う von Mises (𝜓 = 0) Cardioid (𝜓 = 1)Wrapped Cauchy (𝜓 = −1) 𝑦 0 𝜋 2𝜋 𝜇 𝜅
  6. 6. /15 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 6 𝑃 𝑦; 𝜇, 𝜆 = 𝑃circ 𝑦 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇 摂動パラメータ (shewness param.)円周上の確率分布 [Abe11] sine-skewed von Mises (𝜓 = 0, 𝜓 = [−1,1]) 𝑦 0 𝜋 2𝜋
  7. 7. /15 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 7 𝜓∞−∞ −1 10 von Mises Cardioid Wrapped CauchyUniform Uniform Generalized cardioid Sine-skewed cardioid 1 −1 Sine-skewed wrapped Cauchy Sine-skewed von Mises Sine-skewed generalized cardioid 𝜆 𝑃 𝑦; 𝜇, 𝜅, 𝜓, 𝜆 = cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 1 + 𝜆 sin 𝑦 − 𝜇 2𝜋𝑃1/𝜓 cosh 𝜅𝜓 [Abe11]
  8. 8. 提案法 正弦関数摂動一般化ハート分布DNNによる群遅延推定 8
  9. 9. /15 正弦関数摂動一般化ハート分布DNNによる 群遅延推定 9 0 1 𝐹 Δ𝑦𝑡,∗ Group delay at frame 𝑡 𝐿GD gc ⋅ 𝜎 ⋅ × 𝛼 𝜅 (const.) 0 𝐹 𝜇 𝑡,∗ 𝜅 𝑡,∗ tanh ⋅ × 𝛼 𝜆 (const.) 𝜆 𝑡,∗ 𝐿GD ss ⋅Mean Concentration Skew Freq. index 各時間周波数の群遅延が当該分布に従うと仮定し, DNN学習時の損失関数 𝐿GD gc ⋅ と 𝐿GD ss ⋅ を次ページで定義 (一般化ハート由来) (正弦関数摂動由来) Ampli- tude
  10. 10. /15 DNN学習時の損失関数 正弦関数摂動巻込み Cauchy (sine-skewed wrapped Cauchy) 分布 DNN 正弦関数摂動 von Mises (sine-skewed von Mises) 分布 DNN 正弦関数摂動ハート (sine-skewed cardioid) 分布 DNN 10 𝐿 = − log 1 + 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 𝐿 = log 1 + 𝜅 𝑡,𝑓 2 − 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 1 − 𝜅 𝑡,𝑓 2 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 𝐿 = log 𝐼0 𝜅 𝑡,𝑓 − 𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 (一般化ハート由来) (正弦関数摂動由来) 𝐿GD gc ⋅ 𝐿GD ss ⋅ * * * ここでの𝜅 𝑡,𝑓は一般化ハート分布の𝜅 𝑡,𝑓と異なることに注意.論文を参照.
  11. 11. 実験的評価 11
  12. 12. /15 実験条件・比較手法・評価基準 12 学習/テストデータ JSUTコーパス[Sonobe17] 5000文/300文 サンプリング周波数 16 kHz 音声分析条件 512点FFT,25 msフレーム,5 msシフト 群遅延の計算 近接周波数との1次差分で近似 [Takamichi18] DNN Feed-Forward with Gated activation units DNN入力 5フレーム連結の対数振幅スペクトル  比較手法 – 巻き込み Cauchy 分布 DNN (𝜓 = −1) – von Mises 分布 DNN (𝜓 = 0) – ハート分布 DNN (𝜓 = 1) +正弦関数摂動 (−1 ≤ 𝜆 ≤ 1)  評価基準 – テストデータの群遅延に対する負の対数尤度
  13. 13. /15 負の対数尤度の box plot 13 0.80 0.85 0.90 0.95 1.00 1.05 1.10 Negativeloglikelihood Min Max Median 正弦関数摂動の導入により尤度が改善
  14. 14. /15 推定されたモデルパラメータの例 (濃いほど値が大きい) 14 Log amplitude (input) 𝜇 𝑡,𝑓 (mean) 𝜅 𝑡,𝑓 (concentration) 𝜆 𝑡,𝑓 (skew) Time 𝑡 Frequency𝑓 調波構造に関係したモデルパラメータになる
  15. 15. /15 まとめ  入力変数で変動し,かつ非対称な確率分布に従う周期変数 – 正弦関数摂動一般化ハート分布DNNを提案  実験結果 – 正弦関数摂動により,一次差分近似の群遅延を高精度にモデル化 – 調波構造に関連したモデルパラメータ  今後の予定 – 音声特徴量とモデルパラメータの関係性の調査 15 深層生成モデルによる回帰周期変数に 対応 非対称性に 対応

×