SlideShare a Scribd company logo
D4C,a band –aperiodicity estimator for
high-quality speech synthesis(2016)
紹介論文
 “D4C,a band –aperiodicity estimator for high-quality
speech synthesis”
 Author : Masanori Morise
 Speech Communication, vol. 84, pp. 57-65, Nov. 2016.
章立て
 第一章 導入
 第二章 問題定義とアルゴリズムで用いるパラメーターの定義
 第三章 アルゴリズムの詳細
 第四章 評価
 第五章 結論と課題
第一章 導入
はじめに
 音声分析の研究は基本的にF0とスペクトル包絡の推定が中心
 スペクトル包絡推定
LPC、ケプストラム、CheapTrick…
Legacy-STRAIGHTやTANDEM-STRAIGHTなどでは、F0とスペクト
ル包絡だけでなく非周期性指標(Aperiodicity)も重視される
D4C
 これらの研究の目標はボコーダベースの
高品質分析合成アルゴリズムを作成すること
 D4C(Definitive Decomposition Derived Dirt Cheap)
高品質音声システムで用いられることを前提とした非周期性
指標推定システム
第二章 問題定義とアルゴリズムで用い
るパラメーターの定義
はじめに
D4Cでは群遅延ベースのパラメータを使用
基本周期がT0の任意の周期信号からF0Hzの正弦波を形成
⇒この正弦波とその他の周波数の構成信号とのパワー比がAP
計算に使用する周波数帯域を制限→帯域の非周期性を得られる
[問題点]窓関数処理された信号が時間的位置に依存する
D4C時間的に静的な表現を使用することにより問題を解決
2.1 周期信号の定義
音声信号𝑦 𝑡 :インパルス応答とパルス列の畳み込み
𝑌 𝜔 は基本波成分と高調波成分で構成されている
∅ 𝜔 …振幅位相スペクトラム
𝑦 𝑡 = ℎ 𝑡 ∗
𝑛=−∞
∞
𝛿 𝑡 − 𝑛𝑇0
𝑌 𝜔 =
2𝜋
𝑇0
𝐻 𝜔
𝑛=−∞
∞
𝛿 𝜔 − 𝑛𝜔0
𝐻 𝜔 = 𝐴 𝜔 𝑒𝑗∅ 𝜔
2.1 周期信号の定義
振幅𝛼𝑛と位相𝛽𝑛で表すと
𝑌 𝜔 =
𝑛=−∞
∞
𝛼𝑛𝑒𝑗𝛽𝑛𝛿 𝜔 − 𝑛𝜔0
・APの成分のひとつは雑音
・音声信号と信号の非周期成分の間のパワー比として定義
・ APは周波数帯域に依存するため、いくつかの周波数帯域に
対して求める必要がある
2.2 アルゴリズムのコンセプト
Legacy-STRAIGHT
1ミリ秒のフレームシフトでフレームごとに処理した後、時間平滑化のため
の後処理を必要とする
TANDEM-STRAIGHT
波形ベースのアプローチに基づいており、入力としてF0情報を使用するため、
リアルタイムアプリケーションには適さない
D4C
時間的に静的なパラメータを利用することでこれらの問題を克服する
2.3 基本的方程式の定義
群遅延𝜏𝑔 𝜔
位相∅(ω)の周波数導出に基づいて定義されたパラメーター
𝜏𝑔 𝜔 = −∅′(𝜔)
∅′(𝜔) ≡
𝑑∅(𝜔)
𝑑𝜔
2.3 基本的方程式の定義
𝜏𝑔 𝜔 =
ℜ 𝑆′
𝜔 ℑ 𝑆 𝑣 − ℜ(𝑆(𝜔))ℑ(𝑆′(𝜔))
|𝑆(𝜔)|2
𝑆′ 𝜔 = ℱ[−𝑗𝑡𝑠(𝑡)]
𝑆’ 𝜔 は − 𝑗𝑡𝑠(𝑡)のスペクトル
D4Cではこの式を用いる
分子と分母の両方で、一時的に静的なパラメータが使用される
第三章 アルゴリズムの詳細
はじめに
D4Cアルゴリズムは、ピッチ同期分析(1961)を使用して、窓関
数と、時間的に静的な群遅延(2012)に基づく新しいパラメー
ターを設計する
D4Cは3つのステップで構成されている
①群遅延に基づく時間的に静的なパラメーターの計算
②パラメータのシェーピングの計算
③非周期性指標の推定
3.1 群遅延に基づく時間的に静的なパ
ラメーターの計算
𝐸𝑐𝑠(𝜔) = ℜ 𝑆′
𝜔 ℑ 𝑆 𝑣 − ℜ 𝑆 𝜔 ℑ 𝑆′
𝜔
◆周期信号𝑦(𝑡)から、𝜏𝑔 𝜔 の分子部𝐸𝑐𝑠(𝜔)を計算すると仮定
次の2つの要件を満たす窓関数を設計
•メインローブの帯域幅は𝜔0
•サイドローブの振幅は、無視できるほど小さい
信号波形𝑦(𝑡)は、𝜏を中心とする窓関数を使用して窓処理を行う
窓処理された波形は、𝑦(𝑡, 𝜏)として定義
窓処理された波形𝑌(𝜔, 𝜏)のスペクトルは、窓関数のスペクトルと𝑌(𝜔)の
畳み込みで表される
𝜏𝑔 𝜔 =
ℜ 𝑆′
𝜔 ℑ 𝑆 𝑣 − ℜ(𝑆(𝜔))ℑ(𝑆′(𝜔))
|𝑆(𝜔)|2
3.1 群遅延に基づく時間的に静的なパ
ラメーターの計算
◆𝑌(𝜔, 𝜏)は𝑛𝜔0に高調波成分を持っている
が、1つの高調波𝑘𝜔0は窓関数を畳み込むこ
とによって(k − 1)𝜔0から(𝑘 + 1) 𝜔0までの
周波数範囲に広がる
通常、高調波成分間の干渉が発生
→今回は、用いる窓関数のおかげでこの計
算を簡略化できる
(a)𝑌(𝜔)
(b)𝑌(𝜔, 𝜏)
3.1 群遅延に基づく時間的に静的なパ
ラメーターの計算
◆隣接する成分k𝜔0と(𝑘 + 1)𝜔0間の干渉の影響を計算(簡単のため𝑘 = 1)
𝑌 𝜔, 𝜏 = 𝛿 𝜔 + 𝛼𝑒𝑗𝛽𝛿 𝜔 − 𝜔0 ∗ 𝑊 𝜔 𝑒𝑗𝜔𝜏
= 𝑊 𝜔 𝑒−𝑗𝜔𝜏 + 𝛼𝑊(𝜔 − 𝜔0)𝑒−𝑗(𝜔𝜏−𝜔0𝜏−𝛽)
◆時変成分を取り除くために、パラメータCを式に挿入
𝑌0 𝜔, 𝜏 = ℱ −𝑗 𝜏+𝐶 𝑦 𝑡, 𝜏 = 𝑌′
𝜔, 𝜏 − 𝑗𝐶𝑌 𝜔, 𝜏
𝑌′ 𝜔, 𝜏 = −𝑗𝜏𝑒𝑗𝜔𝜏𝑊 𝜔 + 𝑒−𝑗𝜔𝜏𝑊′ 𝜔
−𝑗𝛼𝜏𝑒𝑗 𝜔𝜏−𝜔0𝜏−𝛽
𝑊 𝜔 − 𝜔0
+𝛼𝑒−𝑗 𝜔𝜏−𝜔0𝜏−𝛽 𝑊′ 𝜔 − 𝜔0
𝜏が時変成分
𝑆′
𝜔 = ℱ[−𝑗𝑡𝑠(𝑡)]
3.1 群遅延に基づく時間的に静的なパ
ラメーターの計算
◆𝑌(𝜔, 𝜏) → 𝑆 𝜔 、𝑌0(𝜔, 𝜏) → 𝑆′ 𝜔 として𝐸𝑐𝑠(𝜔, 𝜏)を計算
𝐸𝑐𝑠 𝜔 = ℜ 𝑆′
𝜔 ℑ 𝑆 𝑣 − ℜ 𝑆 𝜔 ℑ 𝑆′
𝜔
𝐸𝑐𝑠 𝜔, 𝜏 = 𝐶 + 𝜏 𝑊2
𝜔 + 𝛼2
𝐶 + 𝜏 𝑊2
𝜔 − 𝜔0
+2𝑊 𝜔 𝑊 𝜔 − 𝜔0 𝛼𝜏0𝜏 cos 𝜔0𝜏 − 𝛽
+ 𝛼 𝑊′ 𝜔 𝑊 𝜔 − 𝜔0 − 𝑊 𝜔 𝑊′ 𝜔 − 𝜔0 × sin(𝜔0𝜏 − 𝛽)
◇パラメータCは、時間位置𝜏をキャンセルするための値に自動的に
設定されるため、方程式の第1項と第2項は、時間的に静的
◇𝐸𝑐𝑠 𝜔, 𝜏 + 𝑇0
2 を計算すると第3項と第4項の符号が反転
𝐸𝑐𝑠 𝜔, 𝜏 + 𝐸𝑐𝑠 𝜔, 𝜏 + 𝑇0
2 を計算すると打ち消しあう →時間的に静的
𝑌0 𝜔, 𝜏 = −𝑗𝜏𝑒𝑗𝜔𝜏𝑊 𝜔
+ 𝑐𝑜𝑠𝜔𝜏𝑊′
𝜔 −𝑗𝑠𝑖𝑛𝜔𝜏𝑊′
𝜔
−𝑗𝛼𝜏𝑒𝑗 𝜔𝜏−𝜔0𝜏−𝛽
𝑊 𝜔 − 𝜔0
+𝛼𝑐𝑜𝑠 𝜔𝜏 − 𝜔0𝜏 − 𝛽 𝑊′ 𝜔 − 𝜔0
−𝑗𝛼𝑠𝑖𝑛 𝜔𝜏 − 𝜔0𝜏 − 𝛽 𝑊′ 𝜔 − 𝜔0
− 𝑗𝐶𝑌 𝜔, 𝜏 𝑊 𝜔 𝑒−𝑗𝜔𝜏
−𝑗𝐶𝑌 𝜔, 𝜏 𝛼𝑊(𝜔 − 𝜔0)𝑒−𝑗(𝜔𝜏−𝜔0𝜏−𝛽)
𝑌 𝜔, 𝜏 = 𝑊 𝜔 𝑐𝑜𝑠𝜔𝜏 +
−𝑗𝑠𝑖𝑛𝜔𝜏𝑊 𝜔 +
𝛼𝑊(𝜔 − 𝜔0)𝑐𝑜𝑠 𝜔𝜏 − 𝜔0𝜏 − 𝛽
−𝛼𝑊(𝜔 − 𝜔0) 𝑗𝑠𝑖𝑛 𝜔𝜏 − 𝜔0𝜏 − 𝛽
3.1 群遅延に基づく時間的に静的なパ
ラメーターの計算
◆𝜏𝑔 𝜔 の分母部𝐸𝐷
𝐸𝐷 𝜔, 𝜏 = 𝐸𝑐𝑠 𝜔, 𝜏 −
𝑇0
4
+ 𝐸𝑐𝑠 𝜔, 𝜏 +
𝑇0
4
= 2𝜏0𝑊2 𝜔 + 2𝜏0𝛼2𝑊2 𝜔 − 𝜔0
この式は、窓関数のメインローブが𝜔0未満でサイドローブの振幅が無視
できる場合に有効であり、 実際にはサイドローブが必要な性能を達成す
るのに十分な窓関数が使用される
要件を満たす窓関数が多数あるが聴取実験の結果に基づいて、長さ4T0の
ブラックマン窓を使用
𝜏𝑔 𝜔 =
ℜ 𝑆′
𝜔 ℑ 𝑆 𝑣 − ℜ(𝑆(𝜔))ℑ(𝑆′(𝜔))
|𝑆(𝜔)|2
3.1 群遅延に基づく時間的に静的なパ
ラメーターの計算
◆𝜏で窓処理された波形のパワースペクトル
𝑃𝑠(𝜔, 𝜏) =
1
𝜔0 −
𝜔0
2
𝜔0
2
𝑃 𝜔 + 𝜆, 𝜏 𝑑𝜆
これを用いて群遅延を再定義
𝜏𝑔 𝜔, 𝜏 =
𝐸𝐷 𝜔, 𝜏
𝑃𝑠(𝜔, 𝜏)
𝑛𝜔0のとき分母と分子の値は等しい → すべての高調波成分の値が同じ
→同じF0の任意の信号に対して同じ結果を出力する
𝜏𝑔 𝜔 =
ℜ 𝑆′
𝜔 ℑ 𝑆 𝑣 − ℜ(𝑆(𝜔))ℑ(𝑆′(𝜔))
|𝑆(𝜔)|2
3.2 パラメータシェーピングの計算
(𝑎)𝜏𝑔 𝜔 は周期が𝜔0の周期信号
⇒波形は逆フーリエ変換によって得られ、
𝑛𝑇0にピークがある
◇ブラックマン窓とハニング窓を使用して、
それぞれ𝐸𝐷(𝜔)と𝑃𝑠(𝜔)を計算
◇以下の式で平滑化を行う
𝜏𝑔𝑠 𝜔 =
2
𝜔0 −
𝜔0
4
𝜔0
4
𝜏𝑔 𝜔 + 𝜆 𝑑𝜆
3.2 パラメータシェーピングの計算
平滑化関数の波形は、2𝑛𝑇0でゼロになる
𝜏𝐷 𝜔 = 𝜏𝑔𝑠 𝜔 − 𝜏𝑔𝑏(𝜔)
𝜏𝑔𝑏 𝜔 =
1
𝜔0 −
𝜔0
2
𝜔0
2
𝜏𝑔𝑠 𝜔 + 𝜆 𝑑𝜆
𝜏𝐷 𝜔 は3番目のステップ非周期性指標推
定で使用されるパラメーター
3.3 非周期性指標推定
◆パラメータ𝜏𝐷 𝜔 は、入力信号に非周期的なノイズが含まれていない限り、
周波数が𝜔0の正弦波に一致する
D4Cアルゴリズムは、特定の帯域幅を持つ中心周波数の帯域非周期性を推定可能
APは各周波数帯域の合計パワーと正弦波のパワーの比として計算
窓関数を用いてサイドローブを窓処理すると得られる
◇D4Cアルゴリズムでは、Nuttall窓をローサイドローブの窓関数として使用
第四章 評価
4.1.1 共通の条件
Legacy-STRAIGHTとTANDEM-STRAIGHTを比較対象とする
5つの中心周波数(3、6、9、12、15 kHz)を使用
主観的評価では、D4Cで線形補間を使用して、スペクトル表現のAPを取得
サンプリング周波数 信号長 フレームシフト FFTの長さ 窓関数の長さ
48kHz 1秒 1ミリ秒 4096 6kHz
4.1.2 SNRと推定結果の関係
𝑦 𝑡 = 𝑛 𝑡 +
𝑘=0
𝑘
cos(𝑘𝜔0𝑡 + 𝜃𝑘)
・𝑛 𝑡 はホワイトノイズ
・𝜃𝑘は各成分の位相特性
𝜃𝑘はランダムな値に設定され、𝑘は𝑘𝜔0がナイキスト周波数(24 kHz)を超えない
最大値に設定される
◆SNRは0〜40 dBに設定
◆125Hzと250HzのF0を使用
4.1.2 実験1:SNRと推定結果の関係
Legacy-STRAIGHT
APを0〜約20 dBと推定し、30dBを超えると推
定不可能
TANDEM-STRAIGHT
APを最も正確に推定し、0dB付近の推定された
APは目標を下回った
D4C
0〜40dBのAPを推定できた
4.1.3 実験2:異なるノイズ信号を使用した
各中心周波数の推定性能
◆相対的なAPは、最初の実験で使用されたもの
と同じF0条件下で各中心周波数に対して計算
3kHzでのすべてのアルゴリズムの結果を0dBに
設定し、比較のベースラインとして使用
すべての中心周波数のSNRが同じであるため、
理想的な結果はすべての周波数で0dB
◇ TANDEM-STRAIGHTのエラーが最大で、D4Cの
エラーはLegacy-STRAIGHTよりも小さかったが、
その差は約0.2dB
4.1.4 実験3:F0推定誤差の影響
◆F0推定誤差に対するロバスト性を評価
入力F0にエラー(-10〜10%)を混ぜて実験1と
同じように実行
相対誤差(y軸に表示)は、F0誤差が0%の場合
の推定非周期性とAPの差として定義
TANDEM-STRAIGHT エラーが最も高い
Legacy-STRAIGHT 誤差は約±4dB
D4C 誤差は3dB以内
◇TANDEM-STRAIGHTは、他の2つのアルゴリズ
ムよりもF0推定誤差に対するロバスト性が低い
4.1.5 実験4:F0軌跡周波数変調(FM)の効果
◆テスト信号のF0軌跡は、変調勾配を制御す
るためのFMパラメータαを含む次の式を使用
して設計
𝑓0(𝑡) = 𝑓 + 𝛼𝑓cos( 𝛼𝑓𝑡 + 𝜃)
FMパラメータ𝛼の値は0.0から25.0の範囲であ
り、0.0から2𝜋の𝜃を使用してF0軌跡を計算
すべての𝜃について計算された値が平均化さ
れている
・FMパラメーターが5未満の場合
D4Cが最も効果的
・パラメーターが10を超える
TANDEM-STRAIGHTが最も効果的
4.1.6 声帯振動振幅変調(AM)の効果
各パルスの振幅が異なる周期信号を使用して、
声帯振動のAMに対するロバスト性を評価
ここで、𝛽はAMパラメータを表す(1.0≦𝛽≦1.2)
𝛽が1の場合の結果が0dBに対応するように差し
引いた
これらは、F0に関係なく、D4CがAMに対して
最も堅牢であることを明確に示している
4.2 客観評価のための議論
実際の発話は完全な周期性を持っていない
→声帯振動の時間的位置には時間的変動が含まれ、再合成さ
れた音声による主観的評価は、提案されたアルゴリズムの有
効性を評価するために重要
4.3主観的評価
◆使用した音声
男性2名と女性2名が話す40語
子音を含む日本語の4モーラの単語
◆非周期性の違いを純粋に評価できる
ようにするために、F0とスペクトル包
絡の推定にLegacy-STRAIGHTを使用
◆聴力が正常な16人が評価
4.3主観的評価
◆MUSHRA評価を実行して、元の音声と再合成された音声の音質を比較
被験者は、4種類の刺激(元の音声とLegacy-STRAIGHT、TANDEM-STRAIGHT、
およびD4Cを使用して合成された音声)を同時に表示するインターフェイスを使
用して、音声を0〜100のスケールで評価した
4.4主観評価のための議論
◆D4CはTANDEM-STRAIGHTよりも自然な音声を合成可能
Legacy-STRAIGHTは時間平滑化のために後処理を必要とするが、D4Cは後
処理なしで非周期性を推定可能
TANDEM-STRAIGHTにも同じ利点があるが音質はD4Cより劣る
D4Cの音質が最高だったことは、自然な音声を合成するには、1つの推定
AP(3 kHz)だけで十分であることを示す
結論として、D4Cが高品質の音声合成に適していることを示す
第五章 結論と課題
高品質の音声合成のために提案されたD4C帯域非周期性推定器は、群遅延
に基づいて計算された時間的に静的なパラメータを使用し、後処理を必要
としない
[客観的評価]
D4Cがバンドの非周期性を効果的に推定できることを示した
特に、F0推定誤差や声帯振動の振幅変調に対して非常に強い
[主観的評価の結果]
D4Cが2つの従来のアルゴリズムよりも優れていることを示した
[今後の課題] パラメータの最適化

More Related Content

What's hot

PRML5
PRML5PRML5
正準相関分析
正準相関分析正準相関分析
正準相関分析
Akisato Kimura
 
音声分析合成[3].pptx
音声分析合成[3].pptx音声分析合成[3].pptx
音声分析合成[3].pptx
Natsumi KOBAYASHI
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
NU_I_TODALAB
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
Hirotaka Hachiya
 
Chapter 01 #ml-professional
Chapter 01 #ml-professionalChapter 01 #ml-professional
Chapter 01 #ml-professional
Ai Makabi
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
yukihiro domae
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半T T
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Shintaro Fukushima
 
密度汎関数法 Density Functional Theory (DFT)の基礎第6回
密度汎関数法 Density Functional Theory (DFT)の基礎第6回密度汎関数法 Density Functional Theory (DFT)の基礎第6回
密度汎関数法 Density Functional Theory (DFT)の基礎第6回
SATOH daisuke, Ph.D.
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
Masahito Ohue
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
Akinori Ito
 
今日からできる構造学習(主に構造化パーセプトロンについて)
今日からできる構造学習(主に構造化パーセプトロンについて)今日からできる構造学習(主に構造化パーセプトロンについて)
今日からできる構造学習(主に構造化パーセプトロンについて)
syou6162
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
matsuolab
 
[DL輪読会]Deep Learning 第4章 数値計算
[DL輪読会]Deep Learning 第4章 数値計算[DL輪読会]Deep Learning 第4章 数値計算
[DL輪読会]Deep Learning 第4章 数値計算
Deep Learning JP
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
Keisuke Sugawara
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
Prunus 1350
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
NobuyukiTakayasu
 

What's hot (20)

PRML5
PRML5PRML5
PRML5
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
音声分析合成[3].pptx
音声分析合成[3].pptx音声分析合成[3].pptx
音声分析合成[3].pptx
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
 
Chapter 01 #ml-professional
Chapter 01 #ml-professionalChapter 01 #ml-professional
Chapter 01 #ml-professional
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
密度汎関数法 Density Functional Theory (DFT)の基礎第6回
密度汎関数法 Density Functional Theory (DFT)の基礎第6回密度汎関数法 Density Functional Theory (DFT)の基礎第6回
密度汎関数法 Density Functional Theory (DFT)の基礎第6回
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
今日からできる構造学習(主に構造化パーセプトロンについて)
今日からできる構造学習(主に構造化パーセプトロンについて)今日からできる構造学習(主に構造化パーセプトロンについて)
今日からできる構造学習(主に構造化パーセプトロンについて)
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
[DL輪読会]Deep Learning 第4章 数値計算
[DL輪読会]Deep Learning 第4章 数値計算[DL輪読会]Deep Learning 第4章 数値計算
[DL輪読会]Deep Learning 第4章 数値計算
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
 

Similar to 論文紹介D4C-morise.pptx

20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
Kyohei Unno
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
Yuma Nakamura
 
X tapp lecture_20140226
X tapp lecture_20140226X tapp lecture_20140226
X tapp lecture_20140226xTAPP
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
Akiva Miura
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
kenyanonaka
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化
Akinori Ito
 
Time series analysis with python chapter2-1
Time series analysis with python  chapter2-1Time series analysis with python  chapter2-1
Time series analysis with python chapter2-1
ShoKumada
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識
Takao Yamanaka
 
機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価Shintaro Fukushima
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
状態空間モデルの実行方法と実行環境の比較
状態空間モデルの実行方法と実行環境の比較状態空間モデルの実行方法と実行環境の比較
状態空間モデルの実行方法と実行環境の比較
Hiroki Itô
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
Toru Tamaki
 
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章
Isao Takaesu
 
JOIss2020 発表資料
JOIss2020 発表資料JOIss2020 発表資料
JOIss2020 発表資料
mdkcpp 1015
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
Hiroshi Yamashita
 

Similar to 論文紹介D4C-morise.pptx (20)

20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
X tapp lecture_20140226
X tapp lecture_20140226X tapp lecture_20140226
X tapp lecture_20140226
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化
 
Time series analysis with python chapter2-1
Time series analysis with python  chapter2-1Time series analysis with python  chapter2-1
Time series analysis with python chapter2-1
 
Tokyo r #43
Tokyo r #43Tokyo r #43
Tokyo r #43
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識
 
機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価
 
CMSI計算科学技術特論A(15) 量子化学計算の大規模化2
CMSI計算科学技術特論A(15) 量子化学計算の大規模化2CMSI計算科学技術特論A(15) 量子化学計算の大規模化2
CMSI計算科学技術特論A(15) 量子化学計算の大規模化2
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
状態空間モデルの実行方法と実行環境の比較
状態空間モデルの実行方法と実行環境の比較状態空間モデルの実行方法と実行環境の比較
状態空間モデルの実行方法と実行環境の比較
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章
 
JOIss2020 発表資料
JOIss2020 発表資料JOIss2020 発表資料
JOIss2020 発表資料
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
演習発表 Sari v.1.2
演習発表 Sari v.1.2演習発表 Sari v.1.2
演習発表 Sari v.1.2
 

More from Natsumi KOBAYASHI

音声分析合成[7].pptx
音声分析合成[7].pptx音声分析合成[7].pptx
音声分析合成[7].pptx
Natsumi KOBAYASHI
 
音声分析合成[6].pptx
音声分析合成[6].pptx音声分析合成[6].pptx
音声分析合成[6].pptx
Natsumi KOBAYASHI
 
音声分析合成[5].pptx
音声分析合成[5].pptx音声分析合成[5].pptx
音声分析合成[5].pptx
Natsumi KOBAYASHI
 
音声分析合成[4].pptx
音声分析合成[4].pptx音声分析合成[4].pptx
音声分析合成[4].pptx
Natsumi KOBAYASHI
 
音声分析合成[1].pptx
音声分析合成[1].pptx音声分析合成[1].pptx
音声分析合成[1].pptx
Natsumi KOBAYASHI
 
seminar-text_3.pptx
seminar-text_3.pptxseminar-text_3.pptx
seminar-text_3.pptx
Natsumi KOBAYASHI
 
seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
Natsumi KOBAYASHI
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
Natsumi KOBAYASHI
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
Natsumi KOBAYASHI
 
seminar-paper_diarization.pptx
seminar-paper_diarization.pptxseminar-paper_diarization.pptx
seminar-paper_diarization.pptx
Natsumi KOBAYASHI
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
Natsumi KOBAYASHI
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
Natsumi KOBAYASHI
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
Natsumi KOBAYASHI
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
Natsumi KOBAYASHI
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
Natsumi KOBAYASHI
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
Natsumi KOBAYASHI
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
Natsumi KOBAYASHI
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
Natsumi KOBAYASHI
 

More from Natsumi KOBAYASHI (19)

音声分析合成[7].pptx
音声分析合成[7].pptx音声分析合成[7].pptx
音声分析合成[7].pptx
 
音声分析合成[6].pptx
音声分析合成[6].pptx音声分析合成[6].pptx
音声分析合成[6].pptx
 
音声分析合成[5].pptx
音声分析合成[5].pptx音声分析合成[5].pptx
音声分析合成[5].pptx
 
音声分析合成[4].pptx
音声分析合成[4].pptx音声分析合成[4].pptx
音声分析合成[4].pptx
 
音声分析合成[1].pptx
音声分析合成[1].pptx音声分析合成[1].pptx
音声分析合成[1].pptx
 
seminar-text_3.pptx
seminar-text_3.pptxseminar-text_3.pptx
seminar-text_3.pptx
 
seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
 
seminar-paper_diarization.pptx
seminar-paper_diarization.pptxseminar-paper_diarization.pptx
seminar-paper_diarization.pptx
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
 

論文紹介D4C-morise.pptx

Editor's Notes

  1. Legacy…受け継がれた
  2. Definitive Decomposition Derived Dirt Cheap 決定的な分解由来の汚れ安い
  3. 第1ステップではグループ遅延に基づいて時間的に静的パラメータ計算τ G(ω)。 第2ステップでは、τ G(ωは)第三段階の計算に用いるパラメータに変換。
  4. ・サイドローブの振幅は、無視できるほど小さい←用いる窓関数のおかげでこの計算を簡略化できる
  5. 𝛼振幅𝛽位相 𝑊 𝜔  窓関数のスペクトル
  6. Nは、窓関数の幅を表します。パラメータCは、信号の時間シフトに対応 →群遅延に基づいて時間的に静的なパラメータを取得することが不可欠
  7. 長いウィンドウ関数は、メインローブとサイドローブの両方の要件をより適切に近似できますが、 音声のパラメーターが時間的に変化するため、適切ではありません。
  8. 正弦波のパワーの計算:波形はローサイドローブの窓関数を使用して窓処理を行う
  9. APはすべての中心周波数で同じ値であったため、最終的な結果はすべての中心周波数とフレームの平均として定義
  10. 同様の傾向が観察されたため、その後の3回の実験でSNRを20dBに設定
  11. αが0の場合の結果が0dBになるように設定
  12. 実験1の結果は、SNRが5 dBを超えると、D4Cによって推定された非周期性にバイアスがあったことを示す バイアスは約6dBであったため、推定された非周期性から6dBを差し引くことで補正可能 SNRが5dB未満の場合、バイアスの傾向は異なるが、評価に使用されるアルゴリズムでは、低SNR音声からF0を正確に推定することはできない このSNRを持つフレームは無声部分として識別され、その非周期性は音声合成では使用されない F0推定誤差とAMの結果は、D4Cが最高のパフォーマンスを示したことを示す
  13. 結果(図11)は、すべてのアルゴリズムが入力音声ほど自然な音声を合成できるわけではないことを示す TANDEM-STRAIGHTは、男性と女性の両方のスピーチで他の人よりも大幅に劣っていました。 すべての条件下で、Legacy-STRAIGHTとD4Cに大きな違いはありませんでした。 すべてのアルゴリズムで、女性のスピーチの結果は男性のスピーチの結果よりも高かった。
  14. D4CとLegacy-STRAIGHTの違いはわずかだが、D4Cは後処理なしで非周期性を推定可能