Deep voice

Deep Voice: Real-time
Neural Text-to-Speech
Sercan O. Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos,
Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng,
Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybi
Baidu Silicon Valley Artificial Intelligence Lab
論文URL https://arxiv.org/pdf/1702.07825.pdf
2017 5/29
B4 幡本昂平
DLゼミ

1/22
論文情報
 Author
 Baidu Silicon Valley Artificial Intelligence Labのメンバー
 Submission date
 [v1] Sat, 25 Feb 2017 03:11:04 GMT (123kb,D)
 [v2] Tue, 7 Mar 2017 23:09:23 GMT (123kb,D)
 現在の状況
 Submitted to ICML 2017
 5/24にDeep Voice2がarXivに投稿されました
(https://arxiv.org/abs/1705.08947)
1

2/22
概要
 完全にディープニューラルネットワークで構成された
製品レベルの text-to-speech(TTS)システムであるDeep
Voiceを提案
 既存のTTSシステムよりもシンプル・柔軟
 改良したWaveNetの高速な実装も合わせて提案
今回は紹介しません
2

3/22
Introduction
 TTSシステムの概要
 TTSシステム: テキストから人工の音声を合成するシ
ステム
 様々な応用可能性をもつ
 発話可能デバイス
 ナビゲーションシステム
 視覚障害者のためのアクセシビリティ
視覚的インタフェースを必要と
しないヒューマンテクノロジー
インタラクションを実現可能
3

4/22
Introduction
 現在のTTSシステムの問題点
 複雑で多段階の処理パイプラインに基づいており、
その処理それぞれが人手で作られた特徴量・経験則
に依存している
新しいTTSシステムを開発す
るのには大きな労力がかかり
難しい
4

5/22
Introduction
Deep Voiceは従来のTTSパイプラインと同様の構造を採用
し、パイプラインの各構成要素をニューラルネットワー
クで置き換え、よりシンプルな特徴量を使用
 使用している特徴量
 強さのアノテーションのついた音素
 音素持続時間
 基本周波数(F0)
 データセットを変えて学習させるときに人力の特徴量
加工作業が必要なくなる
5

6/22
システムの全体像
6

7/22
TTSシステムの構成
Grapheme-to-Phoneme
テキストを音素に変換
ex) HARMONY→ HH AA R M AH N IY
Segmentation
音データ上で音素の境界を推定
7
HH AA

8/22
TTSシステムの構成
Phoneme duration
音素の持続時間を推定
Fundamental frequency
音素が発声されるものかどうか予測し、発声さ
れるならその基本周波数を予測
Audio synthesis
各要素の出力を受け取って、目的のテキストと
合った音声を合成する
8

9/22
提案モデル(Grapheme-to-Phoneme Model)
 このモデルは音素の辞書(CMUDictなど)に存在していな
い単語に対して音素の推定を行う
 Yao & Zweig(2015)のエンコーダ・デコーダアーキテク
チャに基づくモデルを使用
 変更点
Yao & Zweig(2015)ではLSTMをユニットとして利用
していたが、ここではGRU(Gated Recurrent Unit)に
変更
9

10/22
提案モデル(Segmentation Model)
 与えられた発声データと目的音素を合わせたものを
出力することは、音声認識における音声とテキストを
合わせることに似ている
 1音素ずつのアライメントでは境界の位置がはっきりし
ないので、音素のペアを入力としてペアの発声位置を
みつける
音素境界認識にも最新の音声認識システム
のアーキテクチャ(Amodei et al. 2015)を使用
10
HH AA

11/22
提案モデル
(Phoneme Duration and Fundamental Frequency Model)
 音素持続時間と基本周波数の予測は単一のアーキテク
チャを用いて同時に行う
全
結
合
層
全
結
合
層
全
結
合
層
リ
カ
レ
ン
ト
リ
カ
レ
ン
ト
音素持続時間
発声されるかどうか
基本周波数
強
さ
の
位
置
情
報
つ
き
音
素
11

12/22
提案モデル(Audio Synthesis Model)
 WaveNetを少し変更したモデルを使用
12

13/22
結果
 133079の発声からなる約20時間の音声データ含む英語
音声データベースを用いて訓練
 Blizzard 2013のデータの一部に対しても訓練を行った
 いずれの音声データもプロの女性話者によって話され
たもの
 実装はTensorflowを用いて行われた
13

14/22
結果(Segmentation)
 訓練環境・時間
 TitanX Maxwell GPU × 8を用いて訓練
 各バッチをGPUで等分に扱い、計算結果の統合には
ring all-reduceを用いた
 1イテレーションに1300ミリ秒かかった
 結果
 約14000イテレーション後に音素ペアのerror rateは
7%に収束
 音素の境界を10-30ミリ秒ずらしても音声の質には
影響がなかった
 音声の質は音素の境界の正確さにはそれほど影響
せず、それほど正確である必要はない
14

15/22
結果(Grapheme-to-Phoneme)
 CMUDictの単語133854個のうち、数字が入っているもの・
複数の発音を持つものなどを除いた124978個を訓練に
使用
 TitanX Maxwell GPU× 1を用いて訓練
 1イテレーションに150ミリ秒かかった
 結果
 約20000イテレーション後、音素error rateは5.8%
単語error rateは28.7%に収束
 これまで報告されている結果と同等
 ただし、今回のモデルは言語モデルを用いていない
 複数の発音を持つものも入っていない
15

16/22
結果(Phonome Duration and Fundamental Frequency)
 TitanX Maxwell GPU×1を用いて訓練
 各イテレーションに120ミリ秒かかった
 結果
 約20000イテレーション後にphonome durationの誤差
は38ミリ秒、基本周波数の誤差は29.4Hzに収束
16

17/22
結果(Audio Synthesis)
 音声データセットを1秒のチャンクに分けて1/4秒の無
音部分を音声のはじめにつけて前処理を行った
 大部分が無音のチャンクを除いた74348チャンクを最終
的に使用
 TitanX Maxwell GPU× 8を用いて1チャンク1GPUで訓練
 1イテレーションに約450ミリ秒かかった
 モデルは約300000イテレーション後に収束
17

18/22
生成された音声の質の評価
 MOS(mean opinion score)をクラウドソーシングにより計
測
 音声の事前処理・WaveNetモデル・phonome duration and
fundamental frequencyモデルの影響を区別するために、
WaveNetに入力する音素持続時間と基本周波数を元音声
から算出したものとモデルによって得られたものを入力
としたものを含む
 評価を行うセットには元音声も含まれているので、MOS
スコアは低めに出る
18

19/22
生成された音声の質の評価
• 16kHzにダウンサンプリングするとスコアが落ちている
→48kHzの音声が最高評価のベースラインになってしまっているから
• 音素持続時間と基本周波数は元音声のものを使うとMOSスコアは
高いが、合成したものを使うと評価が低くなっている
→より自然な音声合成のための障壁はこれらの予測にあるといえ、
その点では提案モデルは過去の結果を超えたとは言い難い 19

20/22
Blizzardデータセットに対する結果
 提案システムの柔軟性を示すために実験
 モデルをBlizzard 2013データセットで再訓練
 20.5時間・9714の発声データ
 結果
 Audio Synthesisに用いたものと同じ評価方法(MOS)を
使用
 16KHzに圧縮・伸長して得られたMOSスコアは
4.65±0.13、合成音声のMOSスコアは2.67±0.37だっ
た
20

21/22
結論
 Deep Learningを用いた手法で全てニューラルネット
ワークで作られた高品質なTTSシステムの構成要素を作
ることができると示した
 人による特徴量加工操作なしで訓練可能なシステムを
実現し、TTSシステムを作る過程をシンプルにした
21

22/22
今後の展望
 各構成要素の区別をなくして完全にend-to-endなTTSシ
ステムをつくる
 より大きいデータセットで訓練を行ったり、生成モデ
ルのテクニックを使ってDuration and Frequencyモデル
の性能を上げる
22

Deep voice

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (14)

Deep voice