[DL輪読会]Wavenet a generative model for raw audio

WAVENET
A GENERATIVE MODEL FOR RAW
AUDIO
中山研究室修士一年横田匡史

書誌情報
• Aaron et al (Deep Mind)
• arxiv
• 2016/9/12

従来の音声生成
・concatenative Text to Speech(TTS)
データベースから該当する音をつなぎあわせて音声を作っていく
音をつなぎ合わせているだけなので、強調・声色変更などができない
・parametric TTS
生成モデルを用いて単語や発話者の特徴量を抽出し音声を生成する。
単語毎に音の特徴量に変換していたので、英語のようなリエゾンのある
言語の音声生成は難しかった。
→WaveNetでは、生の波形から音声を生成する

入力
生の音声波形から、一次元の音のベクトルを入力とする。
しかし、16,000 samples/secとサンプル数が非常に多い。
→より多くの時系列データを高速に処理できるモデルが必要

波形データ変換
生の波形のデータはint16で表現されているため、とりうる値は65,536 個ある。
そのため、上式を用いて値を256個の値に量子化する。
μ-law companding transformation

出力の確率分布
𝑥𝑡: 時刻tでの音声波形の値
WaveNetでは全ての過去データから次の音声の値を予測をする

WaveNetの学習の流れ
1サンプル分
波形データ入力
モデルを用いて
音声波形を出力
出力と入力から
パラメータ更新

dilated causal convolutional layers
Dilationの大きさ毎に入力を飛ばしていくことで層が深くなるにつれてinputの
数を指数関数的に大きくすることができる。また、Dilationの上限を超えたら
次の層でDilationを1に戻すことで、計算の効率化している。
e.g.) 1,2,4,...,512,1,2,4,...,512,1,2,4,...,512.

なぜ、RNNではダメなのか？
dilated causal convolutional layersでは、
全ての出力を一度に計算することができる
→学習時間が短くすることができる
RNNでは、時系列に追ってデータを見ていく
必要があるので、1つのサンプルを見るのに
時間がかかってしまう。
→学習に非常に時間がかかる

WaveNetのモデル構造
各層にResnetの構造を持っている。また、skip-connectionのそれぞれの
コネクションには重みづけされている。

Conditional WaveNetのモデル構造
声色特徴
全てのレイヤーに対して、人の声色の特徴量を入力することで
出力の声色を変化させることができる。

MULTI-SPEAKER SPEECH GENERATION
・データセット
VCTK ：109人計44時間の音声データ
・入力
音声の波形データ
話者のID
・出力
音声の波形データ
・receptive field size (入力データサイズ)
およそ0.3sec(おそらく15〜16層)

MULTI-SPEAKER SPEECH GENERATION
US parametric US concatenate US wavenet
従来手法(parametric、concatenate)と比べてかなり自然に聞こえる。
CH parametric CH concatenate CH wavenet

TEXT-TO-SPEECH
Google’s North American English(24.6時間)
Mandarin Chinese TTS systems(34.8時間)
のそれぞれの単一話者のスピーチ
・入力
基本周波数 (log F0)
→信号を正弦波の合成（例えばフーリエ級数）で
表したときの最も低い周波数成分の周波数(wikipediaより)
単語の言語特徴量(音節・発音etc)
・出力
基本周波数 (log F0)
音節の長さ
・receptive field size (入力データサイズ)
およそ0.24sec(おそらく16層)

TEXT-TO-SPEECH
MOSとは…
”1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent”
それぞれのサンプルに対して人間が上記のスコアを付け
そのスコアを平均したもの

TEXT-TO-SPEECH
各モデルについて、人にどの音源が良いか選択してもらったもの。
No preferenceは、どれも気に入らなかった場合。

TEXT-TO-SPEECH
それぞれのサンプルで人間の発話に近い自然な音声が生成されている。
また、左のサンプルでは人間の息遣いまで生成されている！ただ、逆に
若干な感じが残っているという印象。
・Sample1 ・Sample2

MUSIC
MagnaTagATune datasets: 約200時間分の音楽データ
それぞれのデータにタグ(ジャンルetc)
モデル構成・評価などがなかったので、詳細は割愛します。
論文中ではMagnaTagATune datasetsに関してはタグで条件付けて音
を変化できたらしい(生成された音声のサンプル無し)。

MUSIC
YouTube piano dataset: 60時間のピアノ音楽データ
・生成音声
これも同様にモデル構成などが記載されていなかったので詳細は割愛します。
しかし、生成された音源データは公開されていました。

まとめ・感想
• 時系列データに対してRNNでなくCNNを用い、並列に計算する
ことで、学習時間を短くしている(面白い！)
• 各層に対し、話者の特徴量を入れることで、生成する音声を変
化させる事ができる。
• 生成した音源も人の息遣いなどリアルに再現できている。
• ただ、詳しいモデル構成が書かれていないのが残念。。

[DL輪読会]Wavenet a generative model for raw audio

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (16)

[DL輪読会]Wavenet a generative model for raw audio