[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
GANSYNTH: ADVERSATIAL NEURAL AUDIO SYNTHESIS
Rei Mizuta, Graduate School of Mathematical Sciences, UT

書誌情報
• 著者:Jesse Engel, Kumar Krishna Agrawal, Shuo Chen, Ishaan
Gulrajani, Chris Donahue, Adam Roberts
• Google AIの方々
• ICLR 2019 waiting review
• openreview.netでの査読コメントを見る限りacceptされそう?
2

目的
• audio(=波形データ)で曲を学習、合成したい。
– ピアノの曲をヴァイオリンで再生するなど。
• audioデータは1秒に数万サンプリングされているが、周期的という特徴をうまく
捉えて学習したい。具体的には次のいずれかの戦略を使いたい
– Dilatedもしくは様々なスケールで畳み込む
– (窓)フーリエ変換後のベクトルをinputにする
• 既存手法より上手に合成したい
– 音程が変わっても、音色に一貫性を持たせたい
3

要点
(1)GANを使ってaudioを合成する手法で既存手法(WaveNet,WaveGAN)と比べて
実験でいい評価を得た。特に既存手法の改善点として合成後の音声データはス
ペクトルに偏りがあることを明らかにした。
(2)技術的な新規性は、周波数の位相の代わりに位相のずれを測るInstantaneous
Frequencyという量に注目したことである。これによってより画像データに近
いベクトルを生成した。
4

目次
1. 既存手法
1. WaveNet
2. WaveGan
2. 提案手法
1. Instantaneous Frequency
3. 各手法の評価
1. データセットと評価指標
2. アーキテクチャ
3. 結果
4. まとめと感想
5

1.1 WaveNet
Speech Synthesisに使われている既存手法としてWaveNet(Oord et al. ‘16)が
ある。
このネットワークの特徴は
• 入力がaudio、出力がaudio*256(本来は65536通りだが減らす)の確率値
• 固定長
• Dilationを使う
6
.wav形式だと最高で65536(16bit)

1.1 WaveNet
Speech Synthesisに使われている既存手法としてWaveNet(Oord et al. ‘16)が
ある。
このネットワークの特徴は
• 入力がaudio、出力がaudioサイズの確率
• 固定長
• Dilationを使う
7
hが特徴に関わるベクトルとして、Vで特徴を学習

1.2 WaveGan
• Audioデータに対してDCGANの手法を使って学習する。画像と音声データの違
いとして、周期的であることを考慮して、畳み込み層のレイヤーをDCGANよ
り増やす。
8
DCGANでの5*5の畳み込み層の代わりにWaveGANでは25*1の畳み込みをする

目次
1. 既存手法
1. WaveNet
2. WaveGan
2. 提案手法
3. 結果
9

2.1 Instantaneous Frequency
10
• (上)曲の一部をフーリエ変換した後の位相およびIFの表。(下)位相及びIFを各周
波数ごとに並べた「画像」
– IFの方が時間方向に周期的な要素が少なくより画像データに近いベクトルになっていると考え
られる

目次
1. 既存手法
1. WaveNet
2. WaveGan
2. 提案手法
3. 結果
11

3.1. データセットと評価指標
12
• 300000曲のデータセット（NSynth）。1曲は1000個の異なる楽器のうち一つの
みの演奏からなり、4秒間を64000箇所サンプリングする。
• このうちacoustic instrumentのみ、32~1000Hzの間にある70370曲で8割を学
習、2割をtestに使う
• 評価指標について、6種類あるが論文中で可視化されている2つのみ紹介する
– (Human Evaluation) 二つ聞かせてどちらが良いか答えさせる
– (Number of Different Bins;NDB) （Richardson & Weiss ‘18)で論じられている。画像をボ
ロノイ図にしてクラスタリングしたのちカテゴリに入った数の差を測る

3.2. アーキテクチャ
13
• magendaのデータ1曲が64000サンプルサイズであるのに対し、まず1024サイ
ズの窓で256箇所(窓)フーリエ変換する。周波数は512通りとる。結果的に
(256,512,2)サイズの「画像」が得られる。さらにオプションとして次のものを
試す。
– (Phase) 最後の2サイズは(log振幅、位相)
– (IF) 最後の2サイズは(log振幅、位相のInstantaneous Frequency)
• (IF-Mel) log振幅、位相のInstantaneous Frequency共にMel尺度にする
– (H) 2048サイズの窓で128箇所のFTをし(128,1024,2)サイズの画像を得る
• 「画像」から曲に変換するのは”the approximate inverse linear
transformation”を使うらしい(実装を見ないとわからない)。
Mel尺度算出式

3.3. 結果
14
提案手法に様々なオプションを
付けて実験。ほとんどの場合で
既存手法を上回る
既存手法(青色)はスペクトルに大きな偏りがある。
元データのスペクトル(のクラスタ)の分布は折れ線

3.3. 結果
15
赤色:既存手法、スペクトルに大きな偏りがある

3.3. 結果
16
• 論文より抜粋
• 実際に聞いてみましょう(スライドの最後にリンク有)

目次
1. 既存手法
1. WaveNet
2. WaveGan
2. 提案手法
3. 結果
17

まとめと感想
(1)audioデータを窓フーリエ変換したあと位相成分の微分を取ることで周期的でな
い(=画像に近い)ベクトルを生み出すことができた。
(2)GANSynthでは(1)で生み出したベクトルに対してGANを使うことにより曲の合
成を行った。
[感想]
- SpecGAN(WaveGANの論文にある別手法)との比較がない。特にスペクトルの分
布が気になる。
18

参考文献等
• WaveNetのデモ
– https://magenta.tensorflow.org/nsynth-fastgen, 19/3/15閲覧
• WaveGAN
– http://createwith.ai/paper/20180216/1192, 解説 19/3/15閲
覧
– https://chrisdonahue.com/wavegan_examples/, デモ
19/3/15閲覧
• GANSYNTH
– https://openreview.net/forum?id=H1xQVn09FX, 論文
– https://goo.gl/magenta/gansynth-demo, デモ
19

[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis