SlideShare a Scribd company logo
1 of 17
Download to read offline
【論文紹介】
Transformer VAE: A Hierarchical Model for
Structure-Aware and Interpretable Music
Representation Learning
日本大学文理学部情報科学科
植村あい子
2020/06/19
ICASSP2020 読み会
紹介論文
Transformer VAE: A Hierarchical Model for Structure-Aware
and Interpretable Music Representation Learning
著者: J. Jiang, G. G. Xia, D. B. Carlton, C. N. Anderson, R. H. Miyakawa
フレーズレベル(8小節)のメロディのMIDIデータを用いて、
Transformerで長期依存性、VAEで解釈可能な潜在表現を学習するモデルを
提案し、潜在表現の冗長性を低減しつつ、文脈に応じた表現を学習できた
研究でVAEを使っているし音楽生成系の論文であったため
2
概要
選んだ理由
背景・目的
音楽生成モデルに望まれる2つの特性
• 構造認識性
• さまざまな階層での繰り返しやバリエーションを含み、長期的な依存性を
持った自然で一貫性のある音楽を生成できる可能性
• 解釈可能性
• 複雑な計算モデルをインタラクティブな音楽演奏や作編曲のための制
御可能なインターフェースに変える手がかり
3
関連研究
• Music VAE [Roberts 2018]
• VAEでモデルの解釈可能性を扱う
→ 時系列構造をうまく扱うことができず、長期的なフレーズレベルなどの音
楽では性能が著しく低下
• Music Transformer[Huang 2019]やMuseNet[Payne 2019]
• Attentionを使って長期依存性を学習
→ 潜在状態を人間が解釈可能ではない
• T-cvae [Wang 2019]
→ 解釈可能性を目的としていない
4
構造認識性と解釈可能性を両立させるTransformer VAEを提案目的
エンコーダ
• T小節のメロディデータ 𝑥1…𝑇 を入力
• Local Encoders (3層の全結合層)で小
節レベル表現ℎ1…𝑇
𝑒
の取得
モデルの概要
5
ℎ1…𝑇
𝑒
潜在情報にℎ𝑖
𝑒
だけでなく他の小節
からの文脈情報を含んでいる
デコーダ
• 潜在表現と過去デコードされた小節レベ
ルの表現が入力される
Transformer [Vaswani 2017] との違い
• デコーダへの入力前にエンコーダ出力
にガウスノイズを付与
• すべてMasked Attentionになっている
モデルの概要
6
ℎ1…𝑇
𝑒
※ ℎ0
𝑑
は音楽の開始のための埋め込み表現
このモデルでうれしいこと
潜在表現に他の小節からの文脈情報を含んでいる!
例: 1小節目の繰り返しが5小節目に表れる場合
モデルは5小節目をエンコードする際に 「x5はx1と同じ」という単純な構造記
述になり、z5は再び同じ情報を格納する必要がない
デコーダ内のAttentionにおいて5番目の小節は1番目の小節から情報を持っ
てきて再構成してくれる
7
いくつかの小節のコンテキストを変更すると、
再構成された音楽全体もそれに応じて変更されることが期待
Masked attention
オリジナルのTransformerではデコーダのself-attentionにマスクを使用
8
マスクなし マスクあり
T=3の
依存グラフ
情報が一度だけ格納されるのが
わかってもz1に格納されるのか
z5に格納されるのか
半分ずつ格納されるのかわからない
エンコーダとデコーダ
全Attentionに上三角マスク
を導入
問題
Masked attention
エンコーダとデコーダ全Attentionに上三角マスクを導入し依存
関係の制御を行う
9
繰り返される小節情報を最初の出現時のみ格納し、構造解釈を
曖昧にしない
i番目の小節において
エンコーダは𝑥1⋯𝑖のコンテキストにだけアクセス
デコーダはො𝑥1⋯𝑖−1と𝑧1⋯𝑖にだけアクセス
Conditional VAEからの観点
最初の1つは無条件で、残りは前のコンテキストで条件付けされた
T個の異なる1小節のVAEの組み合わせとしてみなせる
マスク適用後の依存関係
10
↑ 3小節目について
理論的に等価なCVAE
前の小節が条件として機能する
実験: データセット
• HOOKTHEORY から 4/4 拍子の8小節分 16,142 メロディ を使
用
• 80%を学習、20%を評価
• -4半音から4半音の範囲内でデータオーギュメンテーション
• 40~84(E2~C6) 以外の音は削除
• 1小節は16分音符ごとのトークンで表現
• 45のオンセット+サステイン+無音 (1-hot形式)
11
実験: ハイパーパラメータ
• Transformerのエンコーダ・デコーダはN = 3層
• 隠れ層: 256
• ローカルエンコーダ・デコーダは3層の全結合層
• バッチサイズ: 16
• エポック数: 60
• Adamを使って学習が進むにつれて学習率を変化させる
• 損失関数 β-VAE(β=1)
12
↑再構成の誤差
(平均交差エントロピー)
↑KLダイバージェンス
比較手法
8小節のメロディを入力し、512次元の潜在表現を得る
13
手法 内容
Proposed+A
Transformer VAE で全Attentionに上三角
マスクを使用
Proposed-A
Transformer VAEでattentionが対角マスク
(つまりAttentionなし)
1×8-bar LSTM (ベースライン)
MusicVAE [Roberts 2018] で8小節のメロ
ディを512次元の潜在表現に直接エンコード
する階層的LSTM構造を使用
8×1-bar LSTM(ベースライン)
MusicVAE [Roberts 2018] が並列に動作し、
それぞれが1小節のメロディとし、エンコード
で64次元の潜在表現にする
結果: 再構成の精度とKL Loss
提案法のKL lossは最小になった
再構成の精度では従来手法の方が上
14
↑ 潜在表現の
冗長性を効果的に
低減できている
結果: Attention有無の比較
小節ごとの平均KL Lossによる比較
15
attention あり attention なし
2小節目以降の情報が
格納できている
生成結果
潜在表現の最初の1小節を入れ替える
16
原曲1
原曲2
• グローバルな構造を捉えられ、繰り返し構造がそのまま残っている
• ෤𝑥
(1)
は𝑥
(1)
の 1 小節目のリズムパターンを模倣
• ෤𝑥
(2)
のピッチレンジは𝑥
(1)
よりも高くなっている
生成結果
生成結果
𝑥
(1)
𝑥
(2)
෤𝑥
(1)
෤𝑥
(2)
例: ෤𝑥
(1)
= Decode (𝑧1
2
, 𝑧2
1
⋯ , 𝑧 𝑇
1
)
まとめ
フレーズレベルのメロディ表現学習のためのTransformer VAEモ
デルを提案
Transformerモデルの構造認識性とVAEの解釈可能性の利点
を組み合わせた
• 提案法のモデルでは潜在表現の冗長性を効果的に低減できた
依存関係をグローバルに捉え、文脈に応じた表現を学習
反復パターンに焦点を当てすぎて、調性進行や逆行性といっ
た複雑な関係は捉えられていない
17

More Related Content

Featured

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming LanguageSimplilearn
 

Featured (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

ICASSP2020読み会