SlideShare a Scribd company logo
1 of 15
Download to read offline
09/12/2018©Shinnosuke Takamichi,
The University of Tokyo
方向統計DNNに基づく
振幅スペクトログラムからの位相復元
Phase reconstruction from amplitude spectrograms
based directional-statistics DNNs
高道 慎之介,齋藤 佑樹,高宗 典玄 (東京大学)
北村 大地 (香川高専),猿渡 洋 (東京大学)
2018年 音響学会 秋季研究発表会 2-4-2
/15
課題
2
入力変数に依存し,かつ非対称な確率分布に従う
周期変数をDNNでどう扱う?
𝑦
0 𝜋 2𝜋
Count
/15
概要
 タスク:振幅スペクトログラムからの位相復元
– 処理対象として頻用される振幅から,位相をどうやって復元する?
 従来法:von Mises分布DNNに基づく位相モデリング [Takamichi18]
– 円周上の確率分布である von Mises 分布を有するDNN
– 位相よりも,位相の1次差分で近似した群遅延を高精度に推定可能
 問題点:非対称性のモデリング
– 群遅延の分布は,極や零点の影響により,最頻値を中心に非対称
→ 対称分布である von Mises 分布の利用は適切でない
 提案法:正弦関数摂動一般化ハート分布DNNに基づく群遅延予測
– von Mises 分布を一般化した非対称分布
• 非対称性の導入により,群遅延の分布を高精度にモデル化 3
/15
○○分布DNNとは
 定義:パラメトリックな条件付き確率分布 𝑃 𝑦|𝑥 を持つDNN
– 負の対数尤度を最小化する,DNN学習時の損失関数 𝐿 ⋅
– 例)
𝑦 − 𝑦 2 → 分散 given の(等方性)ガウス分布DNN
− cos 𝑦 − 𝑦 → 集中度パラメータ given の von Mises分布DNN
 本発表:正弦関数摂動一般化ハート分布
– 円周上の確率分布 (位相のような周期変数に対応)
– 一般化ハート分布 [Jones05] … von Mises 分布を一般化した対称分布
– 正弦関数摂動 [Abe11] … 円周上の分布の非対称化
4
𝑥 𝑦 𝑦𝐿 ⋅
[Takamichi18]
以降では,分布を導入してDNN学習時の損失関数を定義
/15
正弦関数摂動一般化ハート分布
(sine-skewed generalized cardioid dist.)
5
𝑃 𝑦; 𝜇, 𝜅, 𝜓 =
cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓
2𝜋𝑃1/𝜓 cosh 𝜅𝜓
平均 (mean) 集中度パラメータ (concentration param.)
[Jones05]
* 本稿では 𝜓をgiven (一定値) とした特殊形のみを扱う
von Mises (𝜓 = 0) Cardioid (𝜓 = 1)Wrapped Cauchy (𝜓 = −1)
𝑦
0 𝜋 2𝜋
𝜇
𝜅
/15
正弦関数摂動一般化ハート分布
(sine-skewed generalized cardioid dist.)
6
𝑃 𝑦; 𝜇, 𝜆 = 𝑃circ 𝑦 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇
摂動パラメータ (shewness param.)円周上の確率分布
[Abe11]
sine-skewed von Mises (𝜓 = 0, 𝜓 = [−1,1])
𝑦
0 𝜋 2𝜋
/15
正弦関数摂動一般化ハート分布
(sine-skewed generalized cardioid dist.)
7
𝜓∞−∞ −1 10
von
Mises Cardioid
Wrapped
CauchyUniform Uniform
Generalized
cardioid
Sine-skewed
cardioid
1
−1
Sine-skewed
wrapped Cauchy
Sine-skewed
von Mises
Sine-skewed generalized cardioid
𝜆
𝑃 𝑦; 𝜇, 𝜅, 𝜓, 𝜆 =
cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 1 + 𝜆 sin 𝑦 − 𝜇
2𝜋𝑃1/𝜓 cosh 𝜅𝜓
[Abe11]
提案法
正弦関数摂動一般化ハート分布DNNによる群遅延推定
8
/15
正弦関数摂動一般化ハート分布DNNによる
群遅延推定
9
0
1
𝐹
Δ𝑦𝑡,∗
Group delay
at frame 𝑡
𝐿GD
gc
⋅
𝜎 ⋅
× 𝛼 𝜅
(const.)
0
𝐹
𝜇 𝑡,∗
𝜅 𝑡,∗
tanh ⋅
× 𝛼 𝜆
(const.)
𝜆 𝑡,∗
𝐿GD
ss
⋅Mean
Concentration
Skew
Freq. index
各時間周波数の群遅延が当該分布に従うと仮定し,
DNN学習時の損失関数 𝐿GD
gc
⋅ と 𝐿GD
ss
⋅ を次ページで定義
(一般化ハート由来) (正弦関数摂動由来)
Ampli-
tude
/15
DNN学習時の損失関数
正弦関数摂動巻込み Cauchy (sine-skewed wrapped Cauchy) 分布 DNN
正弦関数摂動 von Mises (sine-skewed von Mises) 分布 DNN
正弦関数摂動ハート (sine-skewed cardioid) 分布 DNN
10
𝐿 = − log 1 + 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
𝐿 = log
1 + 𝜅 𝑡,𝑓
2
− 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
1 − 𝜅 𝑡,𝑓
2 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
𝐿 = log 𝐼0 𝜅 𝑡,𝑓 − 𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
(一般化ハート由来) (正弦関数摂動由来)
𝐿GD
gc
⋅ 𝐿GD
ss
⋅
*
*
* ここでの𝜅 𝑡,𝑓は一般化ハート分布の𝜅 𝑡,𝑓と異なることに注意.論文を参照.
実験的評価
11
/15
実験条件・比較手法・評価基準
12
学習/テストデータ JSUTコーパス[Sonobe17] 5000文/300文
サンプリング周波数 16 kHz
音声分析条件 512点FFT,25 msフレーム,5 msシフト
群遅延の計算 近接周波数との1次差分で近似 [Takamichi18]
DNN Feed-Forward with Gated activation units
DNN入力 5フレーム連結の対数振幅スペクトル
 比較手法
– 巻き込み Cauchy 分布 DNN (𝜓 = −1)
– von Mises 分布 DNN (𝜓 = 0)
– ハート分布 DNN (𝜓 = 1)
+正弦関数摂動 (−1 ≤ 𝜆 ≤ 1)
 評価基準
– テストデータの群遅延に対する負の対数尤度
/15
負の対数尤度の box plot
13
0.80
0.85
0.90
0.95
1.00
1.05
1.10
Negativeloglikelihood
Min
Max
Median
正弦関数摂動の導入により尤度が改善
/15
推定されたモデルパラメータの例
(濃いほど値が大きい)
14
Log amplitude (input) 𝜇 𝑡,𝑓 (mean)
𝜅 𝑡,𝑓 (concentration) 𝜆 𝑡,𝑓 (skew)
Time 𝑡
Frequency𝑓
調波構造に関係したモデルパラメータになる
/15
まとめ
 入力変数で変動し,かつ非対称な確率分布に従う周期変数
– 正弦関数摂動一般化ハート分布DNNを提案
 実験結果
– 正弦関数摂動により,一次差分近似の群遅延を高精度にモデル化
– 調波構造に関連したモデルパラメータ
 今後の予定
– 音声特徴量とモデルパラメータの関係性の調査
15
深層生成モデルによる回帰周期変数に
対応
非対称性に
対応

More Related Content

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 

方向統計DNNに基づく振幅スペクトログラムからの位相復元