Submit Search
Upload
声帯音源特性の群遅延解析に基づく最小位相波形生成の音質改善
•
0 likes
•
184 views
AI-enhanced title
Junya Koguchi
Follow
日本音響学会2021年春季研究発表会
Read less
Read more
Science
Report
Share
Report
Share
1 of 12
Download now
Download to read offline
Recommended
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Deep Learning JP
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
Deep Learning JP
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
Recommended
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Deep Learning JP
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
Deep Learning JP
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
Shintaro Fukushima
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
Deep Learning JP
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Daichi Kitamura
声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介
Kentaro Tachibana
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Delhi Call girls
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
Sapana Sha
More Related Content
What's hot
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
Shintaro Fukushima
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
Deep Learning JP
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Daichi Kitamura
声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介
Kentaro Tachibana
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
What's hot
(20)
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
2019年度チュートリアルBPE
2019年度チュートリアルBPE
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Recently uploaded
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Delhi Call girls
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
Sapana Sha
DIFFERENCE IN BACK CROSS AND TEST CROSS
DIFFERENCE IN BACK CROSS AND TEST CROSS
LeenakshiTyagi
Nanoparticles synthesis and characterization
Nanoparticles synthesis and characterization
kaibalyasahoo82800
VIRUSES structure and classification ppt by Dr.Prince C P
VIRUSES structure and classification ppt by Dr.Prince C P
PRINCE C P
Formation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disks
Sérgio Sacani
Chemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdf
Sumit Kumar yadav
Disentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOST
Sérgio Sacani
Zoology 4th semester series (krishna).pdf
Zoology 4th semester series (krishna).pdf
Sumit Kumar yadav
Chromatin Structure | EUCHROMATIN | HETEROCHROMATIN
Chromatin Structure | EUCHROMATIN | HETEROCHROMATIN
sankalpkumarsahoo174
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Diwakar Mishra
Biopesticide (2).pptx .This slides helps to know the different types of biop...
Biopesticide (2).pptx .This slides helps to know the different types of biop...
RohitNehra6
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Lokesh Kothari
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
Sheetal Arora
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)
Areesha Ahmad
Botany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdf
Sumit Kumar yadav
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
jana861314
Spermiogenesis or Spermateleosis or metamorphosis of spermatid
Spermiogenesis or Spermateleosis or metamorphosis of spermatid
Sarthak Sekhar Mondal
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
anandsmhk
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
PirithiRaju
Recently uploaded
(20)
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
DIFFERENCE IN BACK CROSS AND TEST CROSS
DIFFERENCE IN BACK CROSS AND TEST CROSS
Nanoparticles synthesis and characterization
Nanoparticles synthesis and characterization
VIRUSES structure and classification ppt by Dr.Prince C P
VIRUSES structure and classification ppt by Dr.Prince C P
Formation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disks
Chemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdf
Disentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOST
Zoology 4th semester series (krishna).pdf
Zoology 4th semester series (krishna).pdf
Chromatin Structure | EUCHROMATIN | HETEROCHROMATIN
Chromatin Structure | EUCHROMATIN | HETEROCHROMATIN
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Biopesticide (2).pptx .This slides helps to know the different types of biop...
Biopesticide (2).pptx .This slides helps to know the different types of biop...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)
Botany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdf
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
Spermiogenesis or Spermateleosis or metamorphosis of spermatid
Spermiogenesis or Spermateleosis or metamorphosis of spermatid
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
声帯音源特性の群遅延解析に基づく最小位相波形生成の音質改善
1.
ボコーダ波形生成における 励振源の群遅延操作に向けた 声帯音源特性の解析 ☆小口 純矢,森勢 将雅
(明治大) 2021年3月12日 日本音響学会2021年春季研究発表会
2.
/12 発表概要 2 ➢ 目的:最小位相フィルタ波形生成における品質劣化の改善 – パルスの時刻0にパワーが集中し音質劣化 ➢
先行研究:位相を考慮した音源により回避 – 声帯音源+声道フィルタモデル [Agiomyrgiannakis+ ’95] – 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01] – 時間領域で平滑化した群遅延を付与 [Banno+ ’01] ➢ アプローチ:声帯音源の群遅延特性に基づくパルス時間拡散 – 声帯音源特性を考慮しつつ既存の枠組みを利用可能 – 時間領域平滑化パワースペクトル重み付き群遅延の導入 • Fj-Lj* モデルの群遅延特性の効率的なパラメータ表現 • 知覚への影響が少ない成分を除去 • 平均・持続時間に基づく客観評価において有効性を確認 *Fujisaki-Ljungqvist; Fj-Lj
3.
/12 背景・目的:音声分析合成系(ボコーダ) 3 ➢ 音声分析合成系(ボコーダ =
voice + encoder) – 音声波形からパラメータを抽出・再合成する枠組み – 利点:学習不要・高速・高加工性 ➢ 応用 – 音声合成における特徴量抽出・波形生成部 – 聴覚心理実験 理想的なゴール:元音声から聴感上無劣化で再合成したい 基本周波数(高さ) スペクトル包絡 (声質・音韻) 非周期性指標(かすれ) 元音声 合成音声 [Kawahara+ ’08,Morise+ ’16] *
4.
/12 背景・目的:ソース・フィルタモデル 4 ➢ ソース・フィルタモデルに基づく有声音の合成 – 励振源に声道フィルタを畳み込む ➢
本研究が解決したい問題:最小位相応答に起因する音質劣化 – 応答のエネルギーが時刻 0 に集中,ブザー的な音質に 周期インパルス列 (有声音) 声道フィルタ (最小位相応答) 波形 励振源 元音声波形 最小位相フィルタによる合成音声波形 解決方策:波形のエネルギーを時間的に拡散させればよいのでは?
5.
/12 解決方策:群遅延操作によるパルス時間拡散 5 ➢ 平均時間 𝑡
と持続時間 𝜎𝑡 2による「波形の散らばり」の解釈 – 定義 – 直感的な意味:波形のエネルギーがおよそ区間 𝑡 ± 𝜎𝑡 に含まれる • e.g. 平均 𝑡O・分散 1 のガウス関数 – スペクトル包絡を操作すると声質・音韻に影響してしまう – 群遅延特性を操作して持続時間を伸長すればよい 𝑡 = 𝑡O 2𝜎𝑡 = 2 𝑡O 2 0 ただし, න −∞ ∞ 𝑥 𝑡 2 𝑑𝑡 = 1 (波形のエネルギーの総和は 1 に正規化) 𝑡 = න −∞ ∞ 𝑡 𝑥 𝑡 2 𝑑𝑡 = − න −∞ ∞ 𝜑′ 𝜔 𝐴2 𝜔 𝑑𝜔 ↓群遅延(-位相スペクトル 𝜑(𝜔) の周波数微分) ↑パワースペクトル(スペクトル包絡として抽出) 𝜎𝑡 2 = න −∞ ∞ (𝑡 − 𝑡 )2 𝑥(𝑡) 2 𝑑𝑡 = න −∞ ∞ 𝐴′2 𝜔 𝑑𝜔 + න −∞ ∞ 𝜑′ 𝜔 + 𝑡 2𝐴2 𝜔 𝑑𝜔
6.
/12 先行研究 6 ➢ Fujisaki-Ljungqvist(Fj-Lj)モデル [Fujisaki+
’87] – 声帯音源特性と放射(微分)特性を区分多項式で表現 – 利点:声帯振動をモデルパラメータによって柔軟に制御 – 問題点:包絡は声帯音源特性(e.g. 傾斜) を含むため声道フィルタの推定が困難 ➢ 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01] – 乱数によって最大位相成分を付加 – 利点:既存の枠組み(STRAIGHT・WORLD)にただちに利用可能 – 問題点:どの音声にも同じ処理を加えるため,かえって劣化する場合がある ➢ 時間領域平滑化群遅延(TSGD*) [Banno+ ’01] – 元波形の群遅延を時間領域で平滑化 – 利点:品質に大きく影響する群遅延の概形を効率的に表現 先行研究の利点を活かした群遅延操作を行いたい 𝑅 𝐹 𝐷 𝑊 𝐵 𝐶 𝐴 𝑇 0 単位 Fj-Lj 音源波形 *Time-Domain Smoothed Group Delay; TSGD
7.
/12 ここまでのまとめ 7 ➢ 音声分析合成系:音声からパラメータ抽出し再合成する枠組み – 理想:聴感上無劣化で再合成を行いたい ➢
問題:最小位相フィルタに起因する音質劣化 – ソース・フィルタモデル:パルスと雑音に声道フィルタを畳み込む – 元音声の位相ではなく最小位相を用いて合成 – パルスの時刻0にパワーが集中し音質劣化 ➢ 解決方策:群遅延操作に基づく音源パルスの持続時間拡散 – 平均・持続時間によって波形の時間的なバラつきがわかる – バラつきはパワースペクトルと群遅延に依存 – 群遅延操作で声質・音韻を変えずにバラつきを与えることができる ➢ 本研究の目的 – 最小位相フィルタの音質劣化を群遅延操作で低減したい – 既存の枠組みで,パラメトリックに,効率的な群遅延操作をしたい
8.
/12 提案手法 8 ➢ 解決方策:声帯音源モデルの群遅延特性に基づくパルス時間拡散 – 声帯音源モデルそのものではなく群遅延特性を付与 –
元波形の位相特性を考慮しつつ既存の枠組み(WORLD)に利用可能 周期インパルス列 (有声音) 声道フィルタ 合成音声 混合励振源 声帯音源モデルの 群遅延特性に基づく パルス時間拡散 群遅延特性を効率的に表現するパラメータを 考えられないか?
9.
/12 提案手法 9 ➢ 声帯音源の群遅延特性の効率的なパラメータ表現 – 従来手法:時間領域平滑化群遅延
[Banno+ ’01] – 提案手法:時間領域平滑化パワースペクトル重み付き群遅延 – 振幅が小さく平均・持続時間への影響が少ない成分を除去 – 対数を取ることで包絡成分と微細構造を分離(積→和) 正になるように 直流成分を加算 パワースペクトルを 乗じて対数を取る 時間 対数パワー フーリエ変換し 適当な次数で打ち切る ケプストラム? 周波数 周波数 時間 𝑡 = − න −∞ ∞ 𝜑′ 𝜔 𝐴2 𝜔 𝑑𝜔 𝜎𝑡 2 = න −∞ ∞ 𝐴′2 𝜔 𝑑𝜔 + න −∞ ∞ 𝜑′ 𝜔 + 𝑡 2𝐴2 𝜔 𝑑𝜔 - 群遅延をフーリエ変換し適当な次数で打切る - 概形が音声の品質に大きく影響 時間
10.
/12 客観評価 10 ➢ 単位 Fj-Lj
モデル波形の平均・持続時間との平均2乗誤差を比較 – 以下の制約の範囲でモデルパラメータを0.01刻みで変化 • 基本周波数は 125・225 Hz (男声・女声の平均) • 過去の振動の影響を受けず振幅一定 • 閉鎖し始めた声門は途中で開かない • 声質は modal(地声) – 各平滑化群遅延の打切次数は 30 [Banno+ ’01] 提案手法は声帯音源モデルの 群遅延特性をより適切に表現 群遅延 TSGD TSPGD* (提案法) 時間 [s] 周波数 [kHz] 平滑化手法 平均時間 持続時間 TSGD 5.24×10-10 2.56×10-12 TSPGD 0.07×10-10 0.01×10-12 単位波形の群遅延とその平滑化 0 5 10 15 20 0 0.02 0.04 0.06 0.08 0.1 実験結果
11.
/12 11 考察 ➢ 平均時間・持続時間の妥当性 – TSPGD
が buzzy 感の低減に有効かは自明でない – 実際に音声を合成し聴取実験によって要検証 Lj-Fj単位波形の群遅延を用いて 時間拡散させたインパルス波形 拡散したインパルスの形状は TSGDの方が近い… 時間 [s] 振幅 群遅延 TSGD TSPGD* (提案法)
12.
/12 まとめ 12 ➢ 目的:最小位相フィルタ波形生成における品質劣化の改善 – パルスの時刻0にパワーが集中し音質劣化 ➢
先行研究:位相を考慮した音源により回避 – 声帯音源+声道フィルタモデル [Agiomyrgiannakis+ ’95] – 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01] – 時間領域で平滑化した群遅延を付与 [Banno+ ’01] ➢ 提案手法:声帯音源モデルの群遅延特性に基づくパルス時間拡散 – 声帯音源特性を考慮しつつ既存の枠組みを利用可能 – 時間領域平滑化パワースペクトル重み付き群遅延の導入 • Fj-Lj モデルの群遅延特性の効率的なパラメータ表現 • 知覚への影響が少ない成分を除去 • 平均・持続時間に基づく客観評価において有効性を確認 ➢ 今後の計画:実音声へ適用,音質改善の検証
Download now