SlideShare a Scribd company logo
1 of 12
Download to read offline
ボコーダ波形生成における
励振源の群遅延操作に向けた
声帯音源特性の解析
☆小口 純矢,森勢 将雅 (明治大)
2021年3月12日
日本音響学会2021年春季研究発表会
/12
発表概要
2
➢ 目的:最小位相フィルタ波形生成における品質劣化の改善
– パルスの時刻0にパワーが集中し音質劣化
➢ 先行研究:位相を考慮した音源により回避
– 声帯音源+声道フィルタモデル [Agiomyrgiannakis+ ’95]
– 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01]
– 時間領域で平滑化した群遅延を付与 [Banno+ ’01]
➢ アプローチ:声帯音源の群遅延特性に基づくパルス時間拡散
– 声帯音源特性を考慮しつつ既存の枠組みを利用可能
– 時間領域平滑化パワースペクトル重み付き群遅延の導入
• Fj-Lj* モデルの群遅延特性の効率的なパラメータ表現
• 知覚への影響が少ない成分を除去
• 平均・持続時間に基づく客観評価において有効性を確認
*Fujisaki-Ljungqvist; Fj-Lj
/12
背景・目的:音声分析合成系(ボコーダ)
3
➢ 音声分析合成系(ボコーダ = voice + encoder)
– 音声波形からパラメータを抽出・再合成する枠組み
– 利点:学習不要・高速・高加工性
➢ 応用
– 音声合成における特徴量抽出・波形生成部
– 聴覚心理実験
理想的なゴール:元音声から聴感上無劣化で再合成したい
基本周波数(高さ)
スペクトル包絡 (声質・音韻)
非周期性指標(かすれ)
元音声 合成音声
[Kawahara+ ’08,Morise+ ’16]
*
/12
背景・目的:ソース・フィルタモデル
4
➢ ソース・フィルタモデルに基づく有声音の合成
– 励振源に声道フィルタを畳み込む
➢ 本研究が解決したい問題:最小位相応答に起因する音質劣化
– 応答のエネルギーが時刻 0 に集中,ブザー的な音質に
周期インパルス列 (有声音)
声道フィルタ
(最小位相応答)
波形
励振源
元音声波形 最小位相フィルタによる合成音声波形
解決方策:波形のエネルギーを時間的に拡散させればよいのでは?
/12
解決方策:群遅延操作によるパルス時間拡散
5
➢ 平均時間 𝑡 と持続時間 𝜎𝑡
2による「波形の散らばり」の解釈
– 定義
– 直感的な意味:波形のエネルギーがおよそ区間 𝑡 ± 𝜎𝑡 に含まれる
• e.g. 平均 𝑡O・分散 1 のガウス関数
– スペクトル包絡を操作すると声質・音韻に影響してしまう
– 群遅延特性を操作して持続時間を伸長すればよい
𝑡 = 𝑡O
2𝜎𝑡 = 2
𝑡O
2
0
ただし, න
−∞
∞
𝑥 𝑡 2
𝑑𝑡 = 1 (波形のエネルギーの総和は 1 に正規化)
𝑡 = න
−∞
∞
𝑡 𝑥 𝑡 2 𝑑𝑡 = − න
−∞
∞
𝜑′ 𝜔 𝐴2 𝜔 𝑑𝜔
↓群遅延(-位相スペクトル 𝜑(𝜔) の周波数微分)
↑パワースペクトル(スペクトル包絡として抽出)
𝜎𝑡
2 = න
−∞
∞
(𝑡 − 𝑡 )2 𝑥(𝑡) 2 𝑑𝑡 = න
−∞
∞
𝐴′2
𝜔 𝑑𝜔 + න
−∞
∞
𝜑′ 𝜔 + 𝑡 2𝐴2 𝜔 𝑑𝜔
/12
先行研究
6
➢ Fujisaki-Ljungqvist(Fj-Lj)モデル [Fujisaki+ ’87]
– 声帯音源特性と放射(微分)特性を区分多項式で表現
– 利点:声帯振動をモデルパラメータによって柔軟に制御
– 問題点:包絡は声帯音源特性(e.g. 傾斜)
を含むため声道フィルタの推定が困難
➢ 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01]
– 乱数によって最大位相成分を付加
– 利点:既存の枠組み(STRAIGHT・WORLD)にただちに利用可能
– 問題点:どの音声にも同じ処理を加えるため,かえって劣化する場合がある
➢ 時間領域平滑化群遅延(TSGD*) [Banno+ ’01]
– 元波形の群遅延を時間領域で平滑化
– 利点:品質に大きく影響する群遅延の概形を効率的に表現
先行研究の利点を活かした群遅延操作を行いたい
𝑅 𝐹 𝐷
𝑊
𝐵
𝐶
𝐴
𝑇
0
単位 Fj-Lj 音源波形
*Time-Domain Smoothed Group Delay; TSGD
/12
ここまでのまとめ
7
➢ 音声分析合成系:音声からパラメータ抽出し再合成する枠組み
– 理想:聴感上無劣化で再合成を行いたい
➢ 問題:最小位相フィルタに起因する音質劣化
– ソース・フィルタモデル:パルスと雑音に声道フィルタを畳み込む
– 元音声の位相ではなく最小位相を用いて合成
– パルスの時刻0にパワーが集中し音質劣化
➢ 解決方策:群遅延操作に基づく音源パルスの持続時間拡散
– 平均・持続時間によって波形の時間的なバラつきがわかる
– バラつきはパワースペクトルと群遅延に依存
– 群遅延操作で声質・音韻を変えずにバラつきを与えることができる
➢ 本研究の目的
– 最小位相フィルタの音質劣化を群遅延操作で低減したい
– 既存の枠組みで,パラメトリックに,効率的な群遅延操作をしたい
/12
提案手法
8
➢ 解決方策:声帯音源モデルの群遅延特性に基づくパルス時間拡散
– 声帯音源モデルそのものではなく群遅延特性を付与
– 元波形の位相特性を考慮しつつ既存の枠組み(WORLD)に利用可能
周期インパルス列 (有声音)
声道フィルタ
合成音声
混合励振源
声帯音源モデルの
群遅延特性に基づく
パルス時間拡散
群遅延特性を効率的に表現するパラメータを
考えられないか?
/12
提案手法
9
➢ 声帯音源の群遅延特性の効率的なパラメータ表現
– 従来手法:時間領域平滑化群遅延 [Banno+ ’01]
– 提案手法:時間領域平滑化パワースペクトル重み付き群遅延
– 振幅が小さく平均・持続時間への影響が少ない成分を除去
– 対数を取ることで包絡成分と微細構造を分離(積→和)
正になるように
直流成分を加算
パワースペクトルを
乗じて対数を取る
時間
対数パワー
フーリエ変換し
適当な次数で打ち切る
ケプストラム?
周波数 周波数
時間
𝑡 = − න
−∞
∞
𝜑′ 𝜔 𝐴2 𝜔 𝑑𝜔
𝜎𝑡
2 = න
−∞
∞
𝐴′2
𝜔 𝑑𝜔 + න
−∞
∞
𝜑′ 𝜔 + 𝑡 2𝐴2 𝜔 𝑑𝜔
- 群遅延をフーリエ変換し適当な次数で打切る
- 概形が音声の品質に大きく影響
時間
/12
客観評価
10
➢ 単位 Fj-Lj モデル波形の平均・持続時間との平均2乗誤差を比較
– 以下の制約の範囲でモデルパラメータを0.01刻みで変化
• 基本周波数は 125・225 Hz (男声・女声の平均)
• 過去の振動の影響を受けず振幅一定
• 閉鎖し始めた声門は途中で開かない
• 声質は modal(地声)
– 各平滑化群遅延の打切次数は 30
[Banno+ ’01]
提案手法は声帯音源モデルの
群遅延特性をより適切に表現
群遅延
TSGD
TSPGD* (提案法)
時間
[s]
周波数 [kHz]
平滑化手法 平均時間 持続時間
TSGD 5.24×10-10 2.56×10-12
TSPGD 0.07×10-10 0.01×10-12
単位波形の群遅延とその平滑化
0 5 10 15 20
0
0.02
0.04
0.06
0.08
0.1
実験結果
/12
11
考察
➢ 平均時間・持続時間の妥当性
– TSPGD が buzzy 感の低減に有効かは自明でない
– 実際に音声を合成し聴取実験によって要検証
Lj-Fj単位波形の群遅延を用いて
時間拡散させたインパルス波形
拡散したインパルスの形状は
TSGDの方が近い…
時間 [s]
振幅 群遅延
TSGD
TSPGD* (提案法)
/12
まとめ
12
➢ 目的:最小位相フィルタ波形生成における品質劣化の改善
– パルスの時刻0にパワーが集中し音質劣化
➢ 先行研究:位相を考慮した音源により回避
– 声帯音源+声道フィルタモデル [Agiomyrgiannakis+ ’95]
– 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01]
– 時間領域で平滑化した群遅延を付与 [Banno+ ’01]
➢ 提案手法:声帯音源モデルの群遅延特性に基づくパルス時間拡散
– 声帯音源特性を考慮しつつ既存の枠組みを利用可能
– 時間領域平滑化パワースペクトル重み付き群遅延の導入
• Fj-Lj モデルの群遅延特性の効率的なパラメータ表現
• 知覚への影響が少ない成分を除去
• 平均・持続時間に基づく客観評価において有効性を確認
➢ 今後の計画:実音声へ適用,音質改善の検証

More Related Content

What's hot

Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Shintaro Fukushima
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural RepresentationsDeep Learning JP
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)Shinnosuke Takamichi
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIPDeep Learning JP
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介Kentaro Tachibana
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE広樹 本間
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific FeaturesDeep Learning JP
 

What's hot (20)

Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
 

Recently uploaded

Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCRStunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCRDelhi Call girls
 
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 60009654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000Sapana Sha
 
DIFFERENCE IN BACK CROSS AND TEST CROSS
DIFFERENCE IN  BACK CROSS AND TEST CROSSDIFFERENCE IN  BACK CROSS AND TEST CROSS
DIFFERENCE IN BACK CROSS AND TEST CROSSLeenakshiTyagi
 
Nanoparticles synthesis and characterization​ ​
Nanoparticles synthesis and characterization​  ​Nanoparticles synthesis and characterization​  ​
Nanoparticles synthesis and characterization​ ​kaibalyasahoo82800
 
VIRUSES structure and classification ppt by Dr.Prince C P
VIRUSES structure and classification ppt by Dr.Prince C PVIRUSES structure and classification ppt by Dr.Prince C P
VIRUSES structure and classification ppt by Dr.Prince C PPRINCE C P
 
Formation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disksFormation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disksSérgio Sacani
 
Chemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdfChemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdfSumit Kumar yadav
 
Disentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOSTDisentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOSTSérgio Sacani
 
Zoology 4th semester series (krishna).pdf
Zoology 4th semester series (krishna).pdfZoology 4th semester series (krishna).pdf
Zoology 4th semester series (krishna).pdfSumit Kumar yadav
 
Chromatin Structure | EUCHROMATIN | HETEROCHROMATIN
Chromatin Structure | EUCHROMATIN | HETEROCHROMATINChromatin Structure | EUCHROMATIN | HETEROCHROMATIN
Chromatin Structure | EUCHROMATIN | HETEROCHROMATINsankalpkumarsahoo174
 
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral AnalysisRaman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral AnalysisDiwakar Mishra
 
Biopesticide (2).pptx .This slides helps to know the different types of biop...
Biopesticide (2).pptx  .This slides helps to know the different types of biop...Biopesticide (2).pptx  .This slides helps to know the different types of biop...
Biopesticide (2).pptx .This slides helps to know the different types of biop...RohitNehra6
 
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...Lokesh Kothari
 
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls AgencyHire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls AgencySheetal Arora
 
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)Areesha Ahmad
 
Botany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdfBotany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdfSumit Kumar yadav
 
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptxBroad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptxjana861314
 
Spermiogenesis or Spermateleosis or metamorphosis of spermatid
Spermiogenesis or Spermateleosis or metamorphosis of spermatidSpermiogenesis or Spermateleosis or metamorphosis of spermatid
Spermiogenesis or Spermateleosis or metamorphosis of spermatidSarthak Sekhar Mondal
 
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking  the Potential: Deep dive into ocean of Ceramic Magnets.pptxUnlocking  the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptxanandsmhk
 
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdfPests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdfPirithiRaju
 

Recently uploaded (20)

Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCRStunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
Stunning ➥8448380779▻ Call Girls In Panchshil Enclave Delhi NCR
 
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 60009654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
9654467111 Call Girls In Raj Nagar Delhi Short 1500 Night 6000
 
DIFFERENCE IN BACK CROSS AND TEST CROSS
DIFFERENCE IN  BACK CROSS AND TEST CROSSDIFFERENCE IN  BACK CROSS AND TEST CROSS
DIFFERENCE IN BACK CROSS AND TEST CROSS
 
Nanoparticles synthesis and characterization​ ​
Nanoparticles synthesis and characterization​  ​Nanoparticles synthesis and characterization​  ​
Nanoparticles synthesis and characterization​ ​
 
VIRUSES structure and classification ppt by Dr.Prince C P
VIRUSES structure and classification ppt by Dr.Prince C PVIRUSES structure and classification ppt by Dr.Prince C P
VIRUSES structure and classification ppt by Dr.Prince C P
 
Formation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disksFormation of low mass protostars and their circumstellar disks
Formation of low mass protostars and their circumstellar disks
 
Chemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdfChemistry 4th semester series (krishna).pdf
Chemistry 4th semester series (krishna).pdf
 
Disentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOSTDisentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOST
 
Zoology 4th semester series (krishna).pdf
Zoology 4th semester series (krishna).pdfZoology 4th semester series (krishna).pdf
Zoology 4th semester series (krishna).pdf
 
Chromatin Structure | EUCHROMATIN | HETEROCHROMATIN
Chromatin Structure | EUCHROMATIN | HETEROCHROMATINChromatin Structure | EUCHROMATIN | HETEROCHROMATIN
Chromatin Structure | EUCHROMATIN | HETEROCHROMATIN
 
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral AnalysisRaman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
Raman spectroscopy.pptx M Pharm, M Sc, Advanced Spectral Analysis
 
Biopesticide (2).pptx .This slides helps to know the different types of biop...
Biopesticide (2).pptx  .This slides helps to know the different types of biop...Biopesticide (2).pptx  .This slides helps to know the different types of biop...
Biopesticide (2).pptx .This slides helps to know the different types of biop...
 
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
 
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls AgencyHire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
Hire 💕 9907093804 Hooghly Call Girls Service Call Girls Agency
 
GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)GBSN - Biochemistry (Unit 1)
GBSN - Biochemistry (Unit 1)
 
Botany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdfBotany 4th semester series (krishna).pdf
Botany 4th semester series (krishna).pdf
 
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptxBroad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
 
Spermiogenesis or Spermateleosis or metamorphosis of spermatid
Spermiogenesis or Spermateleosis or metamorphosis of spermatidSpermiogenesis or Spermateleosis or metamorphosis of spermatid
Spermiogenesis or Spermateleosis or metamorphosis of spermatid
 
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking  the Potential: Deep dive into ocean of Ceramic Magnets.pptxUnlocking  the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
 
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdfPests of cotton_Sucking_Pests_Dr.UPR.pdf
Pests of cotton_Sucking_Pests_Dr.UPR.pdf
 

声帯音源特性の群遅延解析に基づく最小位相波形生成の音質改善

  • 2. /12 発表概要 2 ➢ 目的:最小位相フィルタ波形生成における品質劣化の改善 – パルスの時刻0にパワーが集中し音質劣化 ➢ 先行研究:位相を考慮した音源により回避 – 声帯音源+声道フィルタモデル [Agiomyrgiannakis+ ’95] – 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01] – 時間領域で平滑化した群遅延を付与 [Banno+ ’01] ➢ アプローチ:声帯音源の群遅延特性に基づくパルス時間拡散 – 声帯音源特性を考慮しつつ既存の枠組みを利用可能 – 時間領域平滑化パワースペクトル重み付き群遅延の導入 • Fj-Lj* モデルの群遅延特性の効率的なパラメータ表現 • 知覚への影響が少ない成分を除去 • 平均・持続時間に基づく客観評価において有効性を確認 *Fujisaki-Ljungqvist; Fj-Lj
  • 3. /12 背景・目的:音声分析合成系(ボコーダ) 3 ➢ 音声分析合成系(ボコーダ = voice + encoder) – 音声波形からパラメータを抽出・再合成する枠組み – 利点:学習不要・高速・高加工性 ➢ 応用 – 音声合成における特徴量抽出・波形生成部 – 聴覚心理実験 理想的なゴール:元音声から聴感上無劣化で再合成したい 基本周波数(高さ) スペクトル包絡 (声質・音韻) 非周期性指標(かすれ) 元音声 合成音声 [Kawahara+ ’08,Morise+ ’16] *
  • 4. /12 背景・目的:ソース・フィルタモデル 4 ➢ ソース・フィルタモデルに基づく有声音の合成 – 励振源に声道フィルタを畳み込む ➢ 本研究が解決したい問題:最小位相応答に起因する音質劣化 – 応答のエネルギーが時刻 0 に集中,ブザー的な音質に 周期インパルス列 (有声音) 声道フィルタ (最小位相応答) 波形 励振源 元音声波形 最小位相フィルタによる合成音声波形 解決方策:波形のエネルギーを時間的に拡散させればよいのでは?
  • 5. /12 解決方策:群遅延操作によるパルス時間拡散 5 ➢ 平均時間 𝑡 と持続時間 𝜎𝑡 2による「波形の散らばり」の解釈 – 定義 – 直感的な意味:波形のエネルギーがおよそ区間 𝑡 ± 𝜎𝑡 に含まれる • e.g. 平均 𝑡O・分散 1 のガウス関数 – スペクトル包絡を操作すると声質・音韻に影響してしまう – 群遅延特性を操作して持続時間を伸長すればよい 𝑡 = 𝑡O 2𝜎𝑡 = 2 𝑡O 2 0 ただし, න −∞ ∞ 𝑥 𝑡 2 𝑑𝑡 = 1 (波形のエネルギーの総和は 1 に正規化) 𝑡 = න −∞ ∞ 𝑡 𝑥 𝑡 2 𝑑𝑡 = − න −∞ ∞ 𝜑′ 𝜔 𝐴2 𝜔 𝑑𝜔 ↓群遅延(-位相スペクトル 𝜑(𝜔) の周波数微分) ↑パワースペクトル(スペクトル包絡として抽出) 𝜎𝑡 2 = න −∞ ∞ (𝑡 − 𝑡 )2 𝑥(𝑡) 2 𝑑𝑡 = න −∞ ∞ 𝐴′2 𝜔 𝑑𝜔 + න −∞ ∞ 𝜑′ 𝜔 + 𝑡 2𝐴2 𝜔 𝑑𝜔
  • 6. /12 先行研究 6 ➢ Fujisaki-Ljungqvist(Fj-Lj)モデル [Fujisaki+ ’87] – 声帯音源特性と放射(微分)特性を区分多項式で表現 – 利点:声帯振動をモデルパラメータによって柔軟に制御 – 問題点:包絡は声帯音源特性(e.g. 傾斜) を含むため声道フィルタの推定が困難 ➢ 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01] – 乱数によって最大位相成分を付加 – 利点:既存の枠組み(STRAIGHT・WORLD)にただちに利用可能 – 問題点:どの音声にも同じ処理を加えるため,かえって劣化する場合がある ➢ 時間領域平滑化群遅延(TSGD*) [Banno+ ’01] – 元波形の群遅延を時間領域で平滑化 – 利点:品質に大きく影響する群遅延の概形を効率的に表現 先行研究の利点を活かした群遅延操作を行いたい 𝑅 𝐹 𝐷 𝑊 𝐵 𝐶 𝐴 𝑇 0 単位 Fj-Lj 音源波形 *Time-Domain Smoothed Group Delay; TSGD
  • 7. /12 ここまでのまとめ 7 ➢ 音声分析合成系:音声からパラメータ抽出し再合成する枠組み – 理想:聴感上無劣化で再合成を行いたい ➢ 問題:最小位相フィルタに起因する音質劣化 – ソース・フィルタモデル:パルスと雑音に声道フィルタを畳み込む – 元音声の位相ではなく最小位相を用いて合成 – パルスの時刻0にパワーが集中し音質劣化 ➢ 解決方策:群遅延操作に基づく音源パルスの持続時間拡散 – 平均・持続時間によって波形の時間的なバラつきがわかる – バラつきはパワースペクトルと群遅延に依存 – 群遅延操作で声質・音韻を変えずにバラつきを与えることができる ➢ 本研究の目的 – 最小位相フィルタの音質劣化を群遅延操作で低減したい – 既存の枠組みで,パラメトリックに,効率的な群遅延操作をしたい
  • 8. /12 提案手法 8 ➢ 解決方策:声帯音源モデルの群遅延特性に基づくパルス時間拡散 – 声帯音源モデルそのものではなく群遅延特性を付与 – 元波形の位相特性を考慮しつつ既存の枠組み(WORLD)に利用可能 周期インパルス列 (有声音) 声道フィルタ 合成音声 混合励振源 声帯音源モデルの 群遅延特性に基づく パルス時間拡散 群遅延特性を効率的に表現するパラメータを 考えられないか?
  • 9. /12 提案手法 9 ➢ 声帯音源の群遅延特性の効率的なパラメータ表現 – 従来手法:時間領域平滑化群遅延 [Banno+ ’01] – 提案手法:時間領域平滑化パワースペクトル重み付き群遅延 – 振幅が小さく平均・持続時間への影響が少ない成分を除去 – 対数を取ることで包絡成分と微細構造を分離(積→和) 正になるように 直流成分を加算 パワースペクトルを 乗じて対数を取る 時間 対数パワー フーリエ変換し 適当な次数で打ち切る ケプストラム? 周波数 周波数 時間 𝑡 = − න −∞ ∞ 𝜑′ 𝜔 𝐴2 𝜔 𝑑𝜔 𝜎𝑡 2 = න −∞ ∞ 𝐴′2 𝜔 𝑑𝜔 + න −∞ ∞ 𝜑′ 𝜔 + 𝑡 2𝐴2 𝜔 𝑑𝜔 - 群遅延をフーリエ変換し適当な次数で打切る - 概形が音声の品質に大きく影響 時間
  • 10. /12 客観評価 10 ➢ 単位 Fj-Lj モデル波形の平均・持続時間との平均2乗誤差を比較 – 以下の制約の範囲でモデルパラメータを0.01刻みで変化 • 基本周波数は 125・225 Hz (男声・女声の平均) • 過去の振動の影響を受けず振幅一定 • 閉鎖し始めた声門は途中で開かない • 声質は modal(地声) – 各平滑化群遅延の打切次数は 30 [Banno+ ’01] 提案手法は声帯音源モデルの 群遅延特性をより適切に表現 群遅延 TSGD TSPGD* (提案法) 時間 [s] 周波数 [kHz] 平滑化手法 平均時間 持続時間 TSGD 5.24×10-10 2.56×10-12 TSPGD 0.07×10-10 0.01×10-12 単位波形の群遅延とその平滑化 0 5 10 15 20 0 0.02 0.04 0.06 0.08 0.1 実験結果
  • 11. /12 11 考察 ➢ 平均時間・持続時間の妥当性 – TSPGD が buzzy 感の低減に有効かは自明でない – 実際に音声を合成し聴取実験によって要検証 Lj-Fj単位波形の群遅延を用いて 時間拡散させたインパルス波形 拡散したインパルスの形状は TSGDの方が近い… 時間 [s] 振幅 群遅延 TSGD TSPGD* (提案法)
  • 12. /12 まとめ 12 ➢ 目的:最小位相フィルタ波形生成における品質劣化の改善 – パルスの時刻0にパワーが集中し音質劣化 ➢ 先行研究:位相を考慮した音源により回避 – 声帯音源+声道フィルタモデル [Agiomyrgiannakis+ ’95] – 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01] – 時間領域で平滑化した群遅延を付与 [Banno+ ’01] ➢ 提案手法:声帯音源モデルの群遅延特性に基づくパルス時間拡散 – 声帯音源特性を考慮しつつ既存の枠組みを利用可能 – 時間領域平滑化パワースペクトル重み付き群遅延の導入 • Fj-Lj モデルの群遅延特性の効率的なパラメータ表現 • 知覚への影響が少ない成分を除去 • 平均・持続時間に基づく客観評価において有効性を確認 ➢ 今後の計画:実音声へ適用,音質改善の検証