声帯音源特性の群遅延解析に基づく最小位相波形生成の音質改善

ボコーダ波形生成における
励振源の群遅延操作に向けた
声帯音源特性の解析
☆小口純矢，森勢将雅 (明治大)
2021年3月12日
日本音響学会2021年春季研究発表会

/12
発表概要
2
➢ 目的：最小位相フィルタ波形生成における品質劣化の改善
– パルスの時刻0にパワーが集中し音質劣化
➢ 先行研究：位相を考慮した音源により回避
– 声帯音源＋声道フィルタモデル [Agiomyrgiannakis+ ’95]
– 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01]
– 時間領域で平滑化した群遅延を付与 [Banno+ ’01]
➢ アプローチ：声帯音源の群遅延特性に基づくパルス時間拡散
– 声帯音源特性を考慮しつつ既存の枠組みを利用可能
– 時間領域平滑化パワースペクトル重み付き群遅延の導入
• Fj-Lj* モデルの群遅延特性の効率的なパラメータ表現
• 知覚への影響が少ない成分を除去
• 平均・持続時間に基づく客観評価において有効性を確認
*Fujisaki-Ljungqvist; Fj-Lj

/12
背景・目的：音声分析合成系（ボコーダ）
3
➢ 音声分析合成系（ボコーダ = voice + encoder）
– 音声波形からパラメータを抽出・再合成する枠組み
– 利点：学習不要・高速・高加工性
➢ 応用
– 音声合成における特徴量抽出・波形生成部
– 聴覚心理実験
理想的なゴール：元音声から聴感上無劣化で再合成したい
基本周波数（高さ）
スペクトル包絡 (声質・音韻)
非周期性指標（かすれ）
元音声合成音声
[Kawahara+ ’08，Morise+ ’16]
*

/12
背景・目的：ソース・フィルタモデル
4
➢ ソース・フィルタモデルに基づく有声音の合成
– 励振源に声道フィルタを畳み込む
➢ 本研究が解決したい問題：最小位相応答に起因する音質劣化
– 応答のエネルギーが時刻 0 に集中，ブザー的な音質に
周期インパルス列 (有声音)
声道フィルタ
（最小位相応答）
波形
励振源
元音声波形最小位相フィルタによる合成音声波形
解決方策：波形のエネルギーを時間的に拡散させればよいのでは？

/12
解決方策：群遅延操作によるパルス時間拡散
5
➢ 平均時間 𝑡 と持続時間 𝜎𝑡
2による「波形の散らばり」の解釈
– 定義
– 直感的な意味：波形のエネルギーがおよそ区間 𝑡 ± 𝜎𝑡 に含まれる
• e.g. 平均 𝑡O・分散 1 のガウス関数
– スペクトル包絡を操作すると声質・音韻に影響してしまう
– 群遅延特性を操作して持続時間を伸長すればよい
𝑡 = 𝑡O
2𝜎𝑡 = 2
𝑡O
2
0
ただし， න
−∞
∞
𝑥 𝑡 2
𝑑𝑡 = 1 （波形のエネルギーの総和は 1 に正規化）
𝑡 = න
−∞
∞
𝑡 𝑥 𝑡 2 𝑑𝑡 = − න
−∞
∞
𝜑′ 𝜔 𝐴2 𝜔 𝑑𝜔
↓群遅延（－位相スペクトル 𝜑(𝜔) の周波数微分）
↑パワースペクトル（スペクトル包絡として抽出）
𝜎𝑡
2 = න
−∞
∞
(𝑡 − 𝑡 )2 𝑥(𝑡) 2 𝑑𝑡 = න
−∞
∞
𝐴′2
𝜔 𝑑𝜔 + න
−∞
∞
𝜑′ 𝜔 + 𝑡 2𝐴2 𝜔 𝑑𝜔

/12
先行研究
6
➢ Fujisaki-Ljungqvist（Fj-Lj）モデル [Fujisaki+ ’87]
– 声帯音源特性と放射（微分）特性を区分多項式で表現
– 利点：声帯振動をモデルパラメータによって柔軟に制御
– 問題点：包絡は声帯音源特性（e.g. 傾斜）
を含むため声道フィルタの推定が困難
➢ 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01]
– 乱数によって最大位相成分を付加
– 利点：既存の枠組み（STRAIGHT・WORLD）にただちに利用可能
– 問題点：どの音声にも同じ処理を加えるため，かえって劣化する場合がある
➢ 時間領域平滑化群遅延（TSGD*） [Banno+ ’01]
– 元波形の群遅延を時間領域で平滑化
– 利点：品質に大きく影響する群遅延の概形を効率的に表現
先行研究の利点を活かした群遅延操作を行いたい
𝑅 𝐹 𝐷
𝑊
𝐵
𝐶
𝐴
𝑇
0
単位 Fj-Lj 音源波形
*Time-Domain Smoothed Group Delay; TSGD

/12
ここまでのまとめ
7
➢ 音声分析合成系：音声からパラメータ抽出し再合成する枠組み
– 理想：聴感上無劣化で再合成を行いたい
➢ 問題：最小位相フィルタに起因する音質劣化
– ソース・フィルタモデル：パルスと雑音に声道フィルタを畳み込む
– 元音声の位相ではなく最小位相を用いて合成
➢ 解決方策：群遅延操作に基づく音源パルスの持続時間拡散
– 平均・持続時間によって波形の時間的なバラつきがわかる
– バラつきはパワースペクトルと群遅延に依存
– 群遅延操作で声質・音韻を変えずにバラつきを与えることができる
➢ 本研究の目的
– 最小位相フィルタの音質劣化を群遅延操作で低減したい
– 既存の枠組みで，パラメトリックに，効率的な群遅延操作をしたい

/12
提案手法
8
➢ 解決方策：声帯音源モデルの群遅延特性に基づくパルス時間拡散
– 声帯音源モデルそのものではなく群遅延特性を付与
– 元波形の位相特性を考慮しつつ既存の枠組み（WORLD）に利用可能
周期インパルス列 (有声音)
声道フィルタ
合成音声
混合励振源
声帯音源モデルの
群遅延特性に基づく
パルス時間拡散
群遅延特性を効率的に表現するパラメータを
考えられないか？

/12
提案手法
9
➢ 声帯音源の群遅延特性の効率的なパラメータ表現
– 従来手法：時間領域平滑化群遅延 [Banno+ ’01]
– 提案手法：時間領域平滑化パワースペクトル重み付き群遅延
– 振幅が小さく平均・持続時間への影響が少ない成分を除去
– 対数を取ることで包絡成分と微細構造を分離（積→和）
正になるように
直流成分を加算
パワースペクトルを
乗じて対数を取る
時間
対数パワー
フーリエ変換し
適当な次数で打ち切る
ケプストラム？
周波数周波数
時間
𝑡 = − න
−∞
∞
𝜑′ 𝜔 𝐴2 𝜔 𝑑𝜔
𝜎𝑡
2 = න
−∞
∞
𝐴′2
𝜔 𝑑𝜔 + න
−∞
∞
𝜑′ 𝜔 + 𝑡 2𝐴2 𝜔 𝑑𝜔
- 群遅延をフーリエ変換し適当な次数で打切る
- 概形が音声の品質に大きく影響
時間

/12
客観評価
10
➢ 単位 Fj-Lj モデル波形の平均・持続時間との平均2乗誤差を比較
– 以下の制約の範囲でモデルパラメータを0.01刻みで変化
• 基本周波数は 125・225 Hz （男声・女声の平均）
• 過去の振動の影響を受けず振幅一定
• 閉鎖し始めた声門は途中で開かない
• 声質は modal（地声）
– 各平滑化群遅延の打切次数は 30
[Banno+ ’01]
提案手法は声帯音源モデルの
群遅延特性をより適切に表現
群遅延
TSGD
TSPGD* (提案法)
時間
[s]
周波数 [kHz]
平滑化手法平均時間持続時間
TSGD 5.24×10-10 2.56×10-12
TSPGD 0.07×10-10 0.01×10-12
単位波形の群遅延とその平滑化
0 5 10 15 20
0
0.02
0.04
0.06
0.08
0.1
実験結果

/12
11
考察
➢ 平均時間・持続時間の妥当性
– TSPGD が buzzy 感の低減に有効かは自明でない
– 実際に音声を合成し聴取実験によって要検証
Lj-Fj単位波形の群遅延を用いて
時間拡散させたインパルス波形
拡散したインパルスの形状は
TSGDの方が近い…
時間 [s]
振幅群遅延
TSGD
TSPGD* (提案法)

/12
まとめ
12
➢ 目的：最小位相フィルタ波形生成における品質劣化の改善
➢ 先行研究：位相を考慮した音源により回避
– 声帯音源＋声道フィルタモデル [Agiomyrgiannakis+ ’95]
– 高域の群遅延特性を乱数で摂動 [Kawahara+ ’01]
– 時間領域で平滑化した群遅延を付与 [Banno+ ’01]
➢ 提案手法：声帯音源モデルの群遅延特性に基づくパルス時間拡散
– 声帯音源特性を考慮しつつ既存の枠組みを利用可能
– 時間領域平滑化パワースペクトル重み付き群遅延の導入
• Fj-Lj モデルの群遅延特性の効率的なパラメータ表現
• 知覚への影響が少ない成分を除去
• 平均・持続時間に基づく客観評価において有効性を確認
➢ 今後の計画：実音声へ適用，音質改善の検証

声帯音源特性の群遅延解析に基づく最小位相波形生成の音質改善

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (20)

声帯音源特性の群遅延解析に基づく最小位相波形生成の音質改善