音声分析合成[6].pptx

日本音響学会編音響テクノロジーシリーズ22
音声分析合成
[6]

本の紹介
 日本音響学会編音響テクノロジーシリーズ22
音声分析合成森勢将雅著

発表計画
1.基礎知識スライド発表はしない
2.音声のパラメータ表現 ① 第一回で説明
3.基本周波数の推定 ② 第二回で説明
4.スペクトル包絡の推定 ③ 第三回で説明
5.非周期性指標の推定 ④ 第四回で説明
6.高精度に計算するコツ ⑤ 第五回で説明
7.音声の加工技術 ⑥ ←今回説明
8.音声品質の主観評価方法 ⑦

第6章章立て
7.1 基本周波数の加工
7.2 スペクトル包絡の加工
7.3 発話時間の加工
7.4 複数パラメータを組み合わせた加工
7.5 音声モーフィング
7.6 音声合成への加工

はじめに
◆音声の加工技術は簡単なものから難しいものまで存在
＜例＞ [簡単] 声の高さ [高度] 声質変換
この章での目的
パラメータを加工することで何が起きるか理解する

7.1.1 基本的な加工
◆メル尺度 … 音の高さに対する人間の知覚
◇初歩的な処理
𝑓0 𝑛 = 𝛼𝑓0(𝑛)
◇特徴
・声を低くする際に品質劣化しやすい
→音声が低いとスペクトルの長波が多い

◆抑揚 … 発話全体に対する基本周波数のパターン
基本周波数の高低差を大きい → 抑揚が強い
◇対数基本周波数の積（基本周波数のべき乗）で表す
𝑓0 𝑛 = 𝑓0
𝑓0(𝑛)
𝑓0
𝛼
𝑓0 =
𝑛=0
𝑁−1
𝑓0(𝑛)
1/𝑁
𝑁基本周波数軌跡の長さ(有声音のフレーム数)
7.1.2 抑揚の大きさの加工

7.1.3 基本周波数を行うための軸変換
人間の知覚特性は対数軸上で等間隔（近似的）
実際にはメル軸上で等間隔
周波数軸とメル軸は非線形
◆メル軸
𝑚𝑒𝑙 𝑓 = 1127.01048log(
𝑓
700
+ 1)

7.2スペクトル包絡の加工

7.2.1 加工に関する基本的な考え方
スペクトルは多次元で情報量も多い
→何を扱いたいか考える必要がある
・フォルマント（母音）
・スペクトル重心（声の明るさ）など

7.2.2フィルタリングによる加工
もっとも簡単な加工
時間波形における畳み込み
適切な変換関数を設計し、スペクトル包絡に乗ずる
𝐻 𝑘 = 𝛼 𝑘 𝐻 𝑘
・特定の周波数レンジを強調・減衰

7.2.3 スペクトル包絡の伸縮による音色
の加工
◇容易に実現可能＆劣化が少ない
𝐻 𝛼𝑘 = 𝐻 𝑘
スペクトル包絡を𝛼倍 → 声道を1/𝛼倍

7.3 発話時間の加工
◇発話時間の線形伸縮
扱う３つのパラメータをそれぞれ𝛼倍すればよい
注意点
単純な線形伸縮を行うと破裂音もα倍になる
→破裂音が摩擦音化してしまう

目的に応じて効果的な加工法がある
[性別の変換]
・基本周波数、スペクトルの操作
[有声音の無声化]
・有声区間を無声化する
[音高錯覚]
音の高低の知覚の要因は基本周波数や声道長など
基本周波数は大きく声道長を短く→高音錯覚

◆音声モーフィング
同一テキストを話す２つの音声から中間的な印象の音声を作る
×波形を２つ足して２で割る →２つの音声が同時に鳴るだけ
◎パラメータを取り出してモーフィングのための手順をとる

7.5.1 時間・周波数軸上のラベル付け
◇フォルマントが変化する時刻とフォルマントに相当する特
徴点を与える

7.5.2 時間・周波数軸の非線形伸縮
◇加工の目的
対応点が与えられたフォルマントを対応する周波数にシフトすること
◆区分線形補間による非線形伸縮
𝐻 𝛼(𝑘) = 𝐻 𝑘 … 𝐻 𝑘 は対数包絡スペクトル

7.5.3 伸縮された時間周波数表現におけ
る加重平均
モーフィング率を𝛽、対応点のシフトスペクトルを𝐻𝑎 𝐻𝑏
𝐻 𝑘, 𝑛 = 1 − 𝛽 𝐻𝑎 𝑘, 𝑛 + 𝛽𝐻𝑏 𝑘, 𝑛
◇音声モーフィングの品質
・フォルマント周波数の近い音声同士だと周波数の伸縮量が
少ないため高い
・男女間だと劣化しやすい

7.6.0 はじめに
◆代表的な歌声加工ソフト
VOCALOID … 歌声の波形の生成
Auto-tune、Melodyne … 人間の音声を加工
・話し声と歌声の違い
・加工する際の注意に本章で触れる

7.6.1 歌声の高さに関する単位
基本周波数 … 単位はHz
音楽分野で用いる単位 … cent(セント)
12平均律の半音を100cent
12平均律では１オクターブ12等分される →1200cent

7.6.2 微細構造
人間は基本周波数を固定することは不可能
楽譜の通り正確に歌う場合も同様
→音階の高さに固定してしまうと不自然
→緩やかな変動成分を追加することで自然に

7.6.3 ビブラート
ビブラートは歌声の重要要素また、個人性が強く出る
①ビブラート速度
ビブラート振幅
②ビブラート速度の時間変化
③ビブラート振幅の時間変化
④ビブラートの長さ
⑤ビブラートが
振幅に与える影響

7.6.4 歌唱フォルマント
◆話し声では現れない歌声特有のフォルマント
・男性のオペラ歌手などによくみられる
・おもに3000Hzで観測される
歌声らしさを増すためには、この歌唱フォルマントを足すこ
とが効果的

音声分析合成[6].pptx

Recommended

Recommended

More Related Content

More from Natsumi KOBAYASHI

More from Natsumi KOBAYASHI (13)

音声分析合成[6].pptx

Editor's Notes