[DL輪読会] Efficient Neural Audio Synthesis

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Eﬃcient Neural Audio Synthesis (ICML2018)
Hiroshiba Kazuyuki (Dwango Media Village)

Efficient Neural Audio Synthesis
 　一言で言うと
 　WaveNetを改修して、リアルタイムで波形生成可能なWaveRNNを提案
 　著者
 　Nal Kalchbrenner (DeepMind) · Erich Elsen (Google) · Karen Simonyan (DeepMind) ·
 　Seb Noury (DeepMind) · Norman Casagrande (DeepMind) · Edward Lockhart (DeepMind) ·
 　Florian Stimberg () · Aäron van den Oord (Google Deepmind) ·
 　Sander Dieleman (DeepMind) · koray kavukcuoglu (DeepMind)
 　ICML 2018
 　選択理由
 　最近リアルタイム声質変換をやっているので、どんな論文か気になった
 　URL: https://arxiv.org/pdf/1802.08435.pdf
2
https://arxiv.org/pdf/1802.08435.pdf

目次
 　概要
 　背景
 　WaveNet
 　Parallel WaveNet
 　手法
 　WaveRNN
 　Sparse WaveRNN
 　Subscale WaveRNN
 　実験・評価
3

概要
 　WaveNetはSoTAな音声合成手法
 　しかし、自己回帰生成モデルなので、生成が遅い
 　1秒の音声を生成するために24000回のサンプリングが必要
 　提案手法”WaveRNN”
 　ネットワークを大幅に小さくした
 　計算時間を短くする手法や、並列して生成可能な手法も提案
 　モバイルCPUでもリアルタイムで音声合成可能にした
4

背景：　WaveNet
 　TTS（Text To Speech）分野でSoTA
 　音声波形を1サンプルずつ作成する
 　自己回帰モデルなのが特徴的
 　精度は高い一方、生成が遅い
 　Softmax分布を推定
 　分布の最大値を出力
5
https://deepmind.com/blog/wavenet-generative-model-raw-audio/

背景：　Parallel WaveNet
 　訓練済みWaveNetを教師としてParallel WaveNetを訓練
 　自己回帰ではないため高速に生成可能
 　局所的な独立性を仮定している
 　順序モデルが崩壊してしまう
6
https://arxiv.org/pdf/1711.10433.pdf

手法：　WaveRNN
 　ネットワーク構造が小さい自己回帰モデル
 　１層のGRUと2層の全結合
 　Dual Softmax
 　1サンプル(16bit)推定を2段階に分ける
 　1段目で粗い8bitを推定
 　2段目で細かい8bitを推定
 　Nvidia P100 GPUでリアルタイムの4倍早く生成できた
 　WaveNetは0.3倍程度
 　GPUのレジスタを使って頑張って高速化している
7
粗い8bit
細かい8bit

手法：　WaveRNN
 　GPUを使ってリアルタイム音声合成できた
 　モバイルCPUを使いたい
 　もっと早くしたい
 　計算時間とオーバーヘッドを削減する手法を提案
 　Sparse WaveRNN
 　Subscale WaveRNN
8

手法：　Sparse WaveRNN
 　プルーニングする
 　訓練が進むと重みの大きさのスパース性が増加する
 　重みを大きさでソートして、小さいものからマスクをかけて省く
 　マスクをかける数はステップが進むに連れて増やす
 　ブロックごとにマスクをかけることで高速化
 　他にもGRUのシグモイド関数がモバイルCPUだと遅いのでソフトサイン関数にする、などの工夫
 　モバイルCPUでもリアルタイム音声合成可能になった
9

手法：　Subscale WaveRNN
 　系列データを飛ばし飛ばし生成することで、並列生成を可能にする
 　Bつ飛ばしで生成すれば、B並列で生成可能
10
B並列

 　1×N次元の時系列データをB×(N/B)次元に変形する
11
B並列

 　時系列的に過去のデータ（左下）から、Bつ飛ばしに生成する
12
B並列

 　時系列的に過去のデータ（左下）から、Bつ飛ばしに生成する
 　Fデータ生成後に、飛ばされたデータを並列して生成する
13
B並列

 　このxを生成するとき、生成済みのデータ（青と緑）はどれも条件として入力可能
 　ｘより左下のデータは過去、ｘより右にあるデータは未来のデータ
14

 　生成後、1×N次元の時系列データに戻す
15

実験条件
 　TTS（Text To Speech）タスク
 　24kHz、16bitサンプル
 　学習データは44時間の読み上げ音声
 　入力は ”conventional linguistic features” とピッチ
 　平均オピニオン評点（MOS）やABテストで主観評価
 　NLLで定性評価
 　Subscale WaveRNNには、10層のDilated CNNを用いる
16

実験条件：　Sparse WaveRNN
17

評価：　ABテスト
 　提案手法WaveRNNとのABテスト
 　Sparse WaveRNNは、SparseにしていないWaveRNNより劣る
 　Subscale WaveRNN（16並列生成が可能）は、WaveRNNと同等程度
18

まとめ
 　WaveNetと同程度のクオリティを持つ音声を高速に生成できるネットワーク、WaveRNNを提案
 　モバイルCPUでもリアルタイム音声合成できる手法、Sparse WaveRNNを提案
 　WaveRNNをより高速にする手法、Subscale WaveRNNを提案
20

[DL輪読会] Efficient Neural Audio Synthesis

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (8)

[DL輪読会] Efficient Neural Audio Synthesis