[DL輪読会]MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
MuseGAN:Multi-track Sequential Generative Adversarial
Networks for Symbolic Music Generation and
Accompaniment
Shu Kumata, Matsuo Lab

はじめに
• 本論⽂を選んだ理由
• ⾳楽⽣成に興味がある
• GANベースのモデルで⼊出⼒がピアノロール形式
• 書誌情報等
• Author
• Hao-Wen Dong,* Wen-Yi Hsiao,* Li-Chia Yang, and Yi-Hsuan Yang (*equal
contribution)
• Academia Sinica(China)
• AAAI2018

Agenda
• 概要
• 背景
• 既存研究
• 新規性
• 提案⼿法
• 実験と結果
• まとめ

概要
• GANをベースとした複数楽器(Multi-track)にまたがる楽曲を⽣
成するモデル MuseGAN を提案している論⽂
• ⼊出⼒データがピアノロール形式のsymbolicな⾳楽⽣成
• e.g. WaveNetは⾳源そのままを⼊出⼒としている
• GeneratorもDiscriminatorもCNNで構成

背景
• 既存研究
• RNNをベースにした⼿法が多く⾏われてきた。
• 近年、GANを⽤いた⼿法も増えてきた。
• ただ、問題を簡単にして、解いているものが多い
• ⼀楽器かつ単⾳の⾳楽を⽣成する
• 単⾳のメロディを組み合わせて複数の⾳のメロディを⽣成する、など
• 新規性
• 複数楽器かつ複数の⾳(コード等)を⽣成する。

提案⼿法
• 2x3=6パターンのモデルを提案
• 複数楽器についてのモデリング⼿法 3パターン
• 時間依存(⾳楽の⼀貫性)についてのモデリング⼿法 2パターン

提案⼿法 ‒複数楽器‒
1trackに対して1generator,
1discriminator
即興のセッションのイメージ
(Jam: ジャズの即興演奏)
track数に関わらず、1generator.
1discriminator
⼀⼈の作曲家が作曲するイメージ
1trackに対して1generator。track
数に関わらず1discriminator。
track間の⽣成に⼀貫性を持たせる
ためにinter-track random vector
も与える。
Jamming ModelとComposer
Modelのハイブリッド

提案⼿法 ‒時間依存‒
⾳楽をノイズからのみ⽣成する。(from scratch)
ノイズ𝒛を𝐺#$%&でシーケンスにすることで、⼀貫
性を持たせる。
動画⽣成で似たアイデアが⽤いられている(Saito,
Matsumoto, and Saito 2017)
ノイズに加えて、1track(実験ではピアノの⾳)だ
け ⃗𝑦として与えることで、⼀貫性を持たせる。
AIと共同で⼈間が⾳楽を作成することに応⽤でき
る。

提案⼿法全体像
説明した6つのパターンのモデルを1つで⽰すとこうなる

実験 ‒データ‒
• ⼊出⼒データはMIDIデータから変換したピアノロール形式
• Lakh MIDI dataset(LMD)(Raffel 2016)
• データの前処理として、⾳が少ないものやロック以外のジャン
ルを削除

実験 ‒評価指標‒
Intra-track
EB ⾳が無い割合
UPC
pitch class(ド, ド#, ...)が単位時間あたりどれくらい
使われているか
QN 32分⾳符以上の⾳の割合
DP ドラムの8beat, 16beatの割合
Inter-track TD
Tonal Distance(Harte, Sandler, and Gasser 2006)
と呼ばれるtrack間の調和度を測る指標。値が⼩さい
程良い。
上記の5つの指標について実際の⾳楽と⽐較を⾏う

実験結果 Intra-track
Jamming modelで⽣成された⾳楽がより実際の⾳楽に近い値を⽰した
→⼀つのgeneratorが⼀つの楽器だけを考慮すれば良いから
※Ablated model: batch normalizationを適⽤しなかったcomposer model

実験結果 Inter-track
Composer/Hybrid modelで⽣成された⾳楽が実際の⾳楽より良い値
を⽰した

実験結果
• https://salu133445.github.io/musegan/results

感想
• 指標が難しい
• その指標が良ければ本当にいい⾳楽なの？
• 被験者に回答してもらう形式もいいけど、⼈によって好みは異なる
• ⽬的も難しい
• いい⾳楽を作ることが⽬的なのか？
• 新しい今までにない⾳楽を作ることが⽬的なのか？

[DL輪読会]MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (7)

[DL輪読会]MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment