SlideShare a Scribd company logo
1
音声合成
Speech Synthesis
2
音声の合成
録音合成
編集合成
パラメータ合成
テキスト音声合成 (Text-to-Speech)
– 物理シミュレーション
– フォルマント合成
– 波形接続合成
– HMM合成
文を全部録音
単語単位で録音
実際の声を元に合成⇒携帯電話
3
テキスト音声合成 (TTS)
文字列を音声に変換する技術
文字列 形態素解析 音素列
単語列
構文解析
単語アクセン
ト
韻律句 韻律合成 ピッチ系
列
音声合成
エンジン
音声
4
形態素解析
文を単語に分割
– 犬が歩く → 犬/が/歩く
読み・品詞の推定
– 犬 犬 イヌ 名詞-一般
– が が ガ 助詞-格助詞
– 歩く 歩く アルク 動詞-五段
5
単語アクセント
音の強さ vs. 音の高さ
– 音の強さ(stress): 英語など
– 音の高さ(pitch): 日本語など
アクセントの単位
– 音節 vs. モーラ
6
日本語(標準語)のアクセン
ト
モーラごとの音の高さによる
高音から低音に移るモーラ(アクセン
ト核)による分類
– 0型:LHHH.. (端 おすすめ 希望 谷
底)
– 1型:HLLL... (箸 漢方 シュール)
– 2型:LHLL... (橋 ビタミン 坂道)
– 3型:LHHLL.. (宝物 細雪 ハンバー
グ)
– 4型:LHHHL.. (美しい 恐ろしい)
7
単語の接続とアクセント
アクセント型による助詞のアクセント変
化
– 端を駆ける  はしをかける
– 箸を書ける  はしをかける
– 橋を架ける  はしをかける
複合語のアクセント
– ビーフ(1)+ハンバーグ(3)=ビーフハンバーグ
(6)
– 漢方(1)+処方(0)=漢方処方(5)
8
韻律の推定
アクセント句(Intonational phrase)
– 単一のアクセント核を持つ1つ以上の文節
の連接単位
• つめたいこうちゃ (0型)
• ひとりだけのこる (7型)
– 元の単語のアクセント型によって決まるが
,
規則は複雑
9
アクセントからピッチへ
60
80
100
120
140
160
おやゆず り の む て ぽ で こどもの と き から そんばかりし
ている
フレーズ成
分
アクセント成分藤崎モデル
10
音素列から波形へ
ロボットによる発声
物理シミュレーション
– 声帯・声道の振動伝播を計算機で再現
フォルマント合成
– 声道をフィルタでモデル化
波形(素片)接続合成
HMM合成
11
ロボットによる発声
(Talking Head)
ロボットによって人間
の発声器官を模倣する
– 写真は早稲田大学高西
研究室の Waseda
Talker 7RII
– デモビデオあり
12
物理シミュレーション
(Articulatory Synthesis)
声帯の振動,声道の物理的特性をシ
ミュレーション
i
i
i
k
Q
m
=
21
3 2
( ) ( )
g
g
g g
c Uc
Z
A t A t
= +
2
2
1 1
a
b
c
z R j L j
A A
z
Aj C j
c
ω ρ
ω ω
ω ω
ρ
= + = +
= =
iA
gA
( )p t
13
フォルマント合成
(Formant Synthesis)
声帯から出る波と、声道による音色の
変化をマネすることによって音を出す
音の高さ
音の強さ 音の強さ
音の高さ
× =
音の高さ
音の強さ
14
フォルマント合成
音源
フォルマント
フィルタ
formant
DB
各音素
F1~F4の周波数と
そのバンド幅
15
フォルマント合成
デモをどうぞ
利点
– 母音( a, i, u, e, o等)については、どんな
声でも原理的に作れる
欠点
– 自然な声を出すのが難しい
– 子音(p, s, d などの音)の品質が良くない
16
波形(素片)接続合成
(Concatenative Synthesis)
本物の声をたくさん記録しておき、そ
の中から適宜取り出してきてつなぐ
– 編集合成の高度なやつ
– 利点
• (もとが本物なので)自然な声が作りやすい
– 欠点
• 大量の元音声が必要
• 任意の声は作れない
17
波形素片の接続
接続方法
1. 合成するための音素系列・継続時間系列・
ピッチ系列を用意
2.音素系列に対応する素片を選ぶ
3.素片の長さとピッチを調整して接続
基本的な問題点
– 接続点が多いほど不自然
– 素片の変更量(長さ,ピッチ)が多いほど
不自然
18
波形素片
各音素の波形を接続
各音節の波形を接続
o sh k a e
波形素片
o sh i k a k e
i k a k
19
波形素片
2音素の組み合わせ(diphone, CV-VC)
母音の途中で波形を接続(VCV)
o sh-i ei-k k-a a-k k-eo-sh
o eo-sh-i i-k-a a-k-e
20
コーパスベース合成
大量に録音した音声の中から,できる
だけ長い音声を切り出してつなぐ
o-sh-i-k-a a-k-e
音声
コーパス
21
声の高さや長さを変える技術
波形をそのまま利用する方法
– TD-PSOLA法
音声分析合成に基づく方法
– フェーズボコーダ
– STRAIGHT法
22
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
基本周期に同期して波形を切り出し,
それを再び重ね合わせる
23
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
波形を何度も重ね合わせると音を伸ば
すことができる
24
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
重ね合わせの周期を変えるとピッチ変
換が実現できる
25
HMM音声合成
HMMはもともと生成モデル→それを合
成に使う
文に対応するHMM系列
特徴量系列
メルケプストラム・
Δ・ΔΔ
MLSA
フィルタ
音声系列

More Related Content

What's hot

音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
Genki Ishibashi
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
 
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
Yuta Matsunaga
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
NU_I_TODALAB
 
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
Deep Learning JP
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
 

What's hot (20)

音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 

More from Akinori Ito

いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法
Akinori Ito
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
Akinori Ito
 
マルチメディア情報ハイディング
マルチメディア情報ハイディングマルチメディア情報ハイディング
マルチメディア情報ハイディング
Akinori Ito
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
Akinori Ito
 
研究発表のやり方
研究発表のやり方研究発表のやり方
研究発表のやり方
Akinori Ito
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
 
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用
Akinori Ito
 
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識Akinori Ito
 
音楽の情報処理
音楽の情報処理音楽の情報処理
音楽の情報処理
Akinori Ito
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化
Akinori Ito
 

More from Akinori Ito (10)

いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
マルチメディア情報ハイディング
マルチメディア情報ハイディングマルチメディア情報ハイディング
マルチメディア情報ハイディング
 
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
 
研究発表のやり方
研究発表のやり方研究発表のやり方
研究発表のやり方
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用
 
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識
 
音楽の情報処理
音楽の情報処理音楽の情報処理
音楽の情報処理
 
音声の生成と符号化
音声の生成と符号化音声の生成と符号化
音声の生成と符号化
 

音声合成の基礎