Successfully reported this slideshow.
Your SlideShare is downloading. ×

方向統計DNNに基づく振幅スペクトログラムからの位相復元

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 15 Ad

More Related Content

More from Shinnosuke Takamichi (20)

Recently uploaded (20)

Advertisement

方向統計DNNに基づく振幅スペクトログラムからの位相復元

  1. 1. 09/12/2018©Shinnosuke Takamichi, The University of Tokyo 方向統計DNNに基づく 振幅スペクトログラムからの位相復元 Phase reconstruction from amplitude spectrograms based directional-statistics DNNs 高道 慎之介,齋藤 佑樹,高宗 典玄 (東京大学) 北村 大地 (香川高専),猿渡 洋 (東京大学) 2018年 音響学会 秋季研究発表会 2-4-2
  2. 2. /15 課題 2 入力変数に依存し,かつ非対称な確率分布に従う 周期変数をDNNでどう扱う? 𝑦 0 𝜋 2𝜋 Count
  3. 3. /15 概要  タスク:振幅スペクトログラムからの位相復元 – 処理対象として頻用される振幅から,位相をどうやって復元する?  従来法:von Mises分布DNNに基づく位相モデリング [Takamichi18] – 円周上の確率分布である von Mises 分布を有するDNN – 位相よりも,位相の1次差分で近似した群遅延を高精度に推定可能  問題点:非対称性のモデリング – 群遅延の分布は,極や零点の影響により,最頻値を中心に非対称 → 対称分布である von Mises 分布の利用は適切でない  提案法:正弦関数摂動一般化ハート分布DNNに基づく群遅延予測 – von Mises 分布を一般化した非対称分布 • 非対称性の導入により,群遅延の分布を高精度にモデル化 3
  4. 4. /15 ○○分布DNNとは  定義:パラメトリックな条件付き確率分布 𝑃 𝑦|𝑥 を持つDNN – 負の対数尤度を最小化する,DNN学習時の損失関数 𝐿 ⋅ – 例) 𝑦 − 𝑦 2 → 分散 given の(等方性)ガウス分布DNN − cos 𝑦 − 𝑦 → 集中度パラメータ given の von Mises分布DNN  本発表:正弦関数摂動一般化ハート分布 – 円周上の確率分布 (位相のような周期変数に対応) – 一般化ハート分布 [Jones05] … von Mises 分布を一般化した対称分布 – 正弦関数摂動 [Abe11] … 円周上の分布の非対称化 4 𝑥 𝑦 𝑦𝐿 ⋅ [Takamichi18] 以降では,分布を導入してDNN学習時の損失関数を定義
  5. 5. /15 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 5 𝑃 𝑦; 𝜇, 𝜅, 𝜓 = cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 2𝜋𝑃1/𝜓 cosh 𝜅𝜓 平均 (mean) 集中度パラメータ (concentration param.) [Jones05] * 本稿では 𝜓をgiven (一定値) とした特殊形のみを扱う von Mises (𝜓 = 0) Cardioid (𝜓 = 1)Wrapped Cauchy (𝜓 = −1) 𝑦 0 𝜋 2𝜋 𝜇 𝜅
  6. 6. /15 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 6 𝑃 𝑦; 𝜇, 𝜆 = 𝑃circ 𝑦 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇 摂動パラメータ (shewness param.)円周上の確率分布 [Abe11] sine-skewed von Mises (𝜓 = 0, 𝜓 = [−1,1]) 𝑦 0 𝜋 2𝜋
  7. 7. /15 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid dist.) 7 𝜓∞−∞ −1 10 von Mises Cardioid Wrapped CauchyUniform Uniform Generalized cardioid Sine-skewed cardioid 1 −1 Sine-skewed wrapped Cauchy Sine-skewed von Mises Sine-skewed generalized cardioid 𝜆 𝑃 𝑦; 𝜇, 𝜅, 𝜓, 𝜆 = cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 1 + 𝜆 sin 𝑦 − 𝜇 2𝜋𝑃1/𝜓 cosh 𝜅𝜓 [Abe11]
  8. 8. 提案法 正弦関数摂動一般化ハート分布DNNによる群遅延推定 8
  9. 9. /15 正弦関数摂動一般化ハート分布DNNによる 群遅延推定 9 0 1 𝐹 Δ𝑦𝑡,∗ Group delay at frame 𝑡 𝐿GD gc ⋅ 𝜎 ⋅ × 𝛼 𝜅 (const.) 0 𝐹 𝜇 𝑡,∗ 𝜅 𝑡,∗ tanh ⋅ × 𝛼 𝜆 (const.) 𝜆 𝑡,∗ 𝐿GD ss ⋅Mean Concentration Skew Freq. index 各時間周波数の群遅延が当該分布に従うと仮定し, DNN学習時の損失関数 𝐿GD gc ⋅ と 𝐿GD ss ⋅ を次ページで定義 (一般化ハート由来) (正弦関数摂動由来) Ampli- tude
  10. 10. /15 DNN学習時の損失関数 正弦関数摂動巻込み Cauchy (sine-skewed wrapped Cauchy) 分布 DNN 正弦関数摂動 von Mises (sine-skewed von Mises) 分布 DNN 正弦関数摂動ハート (sine-skewed cardioid) 分布 DNN 10 𝐿 = − log 1 + 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 𝐿 = log 1 + 𝜅 𝑡,𝑓 2 − 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 1 − 𝜅 𝑡,𝑓 2 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 𝐿 = log 𝐼0 𝜅 𝑡,𝑓 − 𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 (一般化ハート由来) (正弦関数摂動由来) 𝐿GD gc ⋅ 𝐿GD ss ⋅ * * * ここでの𝜅 𝑡,𝑓は一般化ハート分布の𝜅 𝑡,𝑓と異なることに注意.論文を参照.
  11. 11. 実験的評価 11
  12. 12. /15 実験条件・比較手法・評価基準 12 学習/テストデータ JSUTコーパス[Sonobe17] 5000文/300文 サンプリング周波数 16 kHz 音声分析条件 512点FFT,25 msフレーム,5 msシフト 群遅延の計算 近接周波数との1次差分で近似 [Takamichi18] DNN Feed-Forward with Gated activation units DNN入力 5フレーム連結の対数振幅スペクトル  比較手法 – 巻き込み Cauchy 分布 DNN (𝜓 = −1) – von Mises 分布 DNN (𝜓 = 0) – ハート分布 DNN (𝜓 = 1) +正弦関数摂動 (−1 ≤ 𝜆 ≤ 1)  評価基準 – テストデータの群遅延に対する負の対数尤度
  13. 13. /15 負の対数尤度の box plot 13 0.80 0.85 0.90 0.95 1.00 1.05 1.10 Negativeloglikelihood Min Max Median 正弦関数摂動の導入により尤度が改善
  14. 14. /15 推定されたモデルパラメータの例 (濃いほど値が大きい) 14 Log amplitude (input) 𝜇 𝑡,𝑓 (mean) 𝜅 𝑡,𝑓 (concentration) 𝜆 𝑡,𝑓 (skew) Time 𝑡 Frequency𝑓 調波構造に関係したモデルパラメータになる
  15. 15. /15 まとめ  入力変数で変動し,かつ非対称な確率分布に従う周期変数 – 正弦関数摂動一般化ハート分布DNNを提案  実験結果 – 正弦関数摂動により,一次差分近似の群遅延を高精度にモデル化 – 調波構造に関連したモデルパラメータ  今後の予定 – 音声特徴量とモデルパラメータの関係性の調査 15 深層生成モデルによる回帰周期変数に 対応 非対称性に 対応

×