バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」

バルセロナ在外研究報告
「統計モデルによるメロディのモデル化と
その自動作曲・自動編曲への応用」
日本大学文理学部
北原鉄朗
Twitter: @tetsurokitahara

概要
● 2016年8月29月～2017年2月10日
● 滞在先：Universitat Pompeu Fabra @ バルセロナ
●
その他、会議参加・研究室訪問のため数ヶ国滞在
●
日本大学中期海外派遣研究員制度としての出張

海外派遣研究員とは
●
日本大学（本部）が実施
● 長期：1年間、中期：半年、短期：3ヶ月
● 5年以上勤続する者が申請可能
● 枠あり（例：長期・中期は文理学部で各1名）
●
交通費・宿泊費・滞在費として一定の金額を支給
●
支給金の用途には、かなり厳しい制約あり
●
この間、他の研究費は執行できず（専念義務により）
●
一時帰国禁止
●
本制度利用後、一定期間退職を禁止されている

在外研究期間における目標
●
自動作編曲の研究をしっかり進める
（特に、即興演奏支援への応用）
●
様々な研究者と交流し、つながりを強化する
●
ディープラーニングを使って、何かやる

在外研究期間における目標
●
自動作編曲の研究をしっかり進める
（特に、即興演奏支援への応用）
●
様々な研究者と交流し、つながりを強化する
●
ディープラーニングを使って、何かやる
OK!
OK!
時間切れ
（日本で他大学との共同研究開始）

本日の話題
1. 滞在先の大学について
2. 研究内容について
3. 会議参加・研究室訪問について
4. バルセロナでの生活について
注意
本発表の内容は、すべて私の個人的経験に基づいており、
しかるべき資料や文献にて確認してはおりません。
正確性については保証しかねます。

滞在先の大学について

Universitat Pompeu Fabra (UPF)
●
バルセロナにある公立大学
● Times Higher Education によると、 7 fastest-rising
young universities in the world の1つらしい
（Wikipediaより）
● Department de Tecnologies de la Informació i les
Comunicacions に Music Technology Group が
ある
● 3つのキャンパスに分かれており、MTGのキャンパス
は、比較的バルセロナの中心部にある

Music Technology Group (MTG)
音楽信号処理、音楽情報検索などの世界的拠点の1つ
Audio Signal Processing Lab. Music Information Research Lab.
Music and Multi-modal
Interaction Lab.
Music and Machine Learning Lab.
Xavier Serra Emilia Gomeź
Singing voice synthesis
Source sepration
Sergi Jordà
Reactable
Rafael Ramirez
Expressive performance
Violin
Brain-machine
music interface
PostDoc, PhD studentsも入れると50人規模のグループ
画像は各研究者・プロジェクトのWebサイトから引用

MTGの教育プログラム
● 3学期制
– 1学期：9月第4週～、2学期：1月第2週から、3学期：4月～
– 各学期10週間の授業期間＋試験期間
– 1回の授業が2時間半のものが多い
● Master in Sound and Music Computing
– MTGが主宰するMaster course program
– 1年間full timeが基本（2年かけて修了してもいい）
– 1学期は授業中心、1学期の最後にthesis proposal発表
– 2学期からは研究中心に移行
– 学内インターンもある

MTGの人員構成・雰囲気
●
出身国
– 半分ぐらいがスペイン
– 残り半分は、他のヨーロッパかラテンアメリカが多い印象
– それ以外は少ない（インドからは数人来ていた）
– 外国から多くの学生が来ているため、日本の大学のように
「留学生」というくくり方はしない（印象）
●
言語
– 授業やlab meetingはすべて英語
– スペイン語話者同士の雑談などはスペイン語
– 秘書さんも含めて全員英語は流暢
● 4つのlab間の交流は思ったよりも少ない

今回の滞在のhost researcher
● 名前： Rafael Ramirez
● Music and Machine Learning Lab.を主宰
●
研究テーマ
– Expressive performance modeling
– Technology-enhanced learning of musical
instrument performance
– Brain-machine music interface
– Music interfaces for disabilities
– 現在は、audio signal processing, machine learning,
CV, EEG, EMGなどを使ってヴァイオリンの演奏を測定
し、演奏技能習得を支援する研究を大々的に展開

共同研究テーマの検討
●
議論の結果、次の共同研究を進めることになった
– 私の元学生が取り組んでいた、旋律概形に基づく旋律生
成手法 [土屋他、情報処理学会論文誌、2013] を実装し直す
– [土屋他、2013]の旋律生成モデルはパラメータを手動で
決めていたため、データドリブンにモデルを学習する
– Sergio Giraldo （MML Lab. の PostDoc）の演奏表情付
けモデルを導入し、表情付けされた演奏を生成する

動機
誰でもその人なりの音楽創作をできるようにしたい
特に、音楽的訓練を受けてない人
課題
Human Interface
ユーザは、直感的で簡単な
インタフェースでアイディア
を入力できる必要がある
Automatic music generation
システムは、ユーザの抽象的で
不完全な入力から、妥当な音楽
を生成しなければならない

私の昔の学生の研究
「旋律概形に基づくメロディ編集」
●
旋律が１本の連続的なカーブとして表される
●
ユーザは、このカーブを描き直すことで旋律を編集する

3つの拡張
●
リアルタイム化
– 「作曲」の支援から「即興演奏」の支援へ
●
生成されるメロディの改善
– 生成モデルのデータドリブン学習
– 音楽的ヒューリスティクスの導入
●
演奏表情付け
– Giraldo et al. (2016) のモデルとの統合

1) リアルタイム化
m番目の小節の領域
概形描画が次の小節に行くか、
ドラッグが終わったら、その小節の
旋律の生成が始まる

2) 生成される旋律の改善
●
ユーザが入力した旋律概形に沿っている
●
既存の（音楽的に妥当な）旋律と音の運び方が共通
●
伴奏と不協和にならない
●
単純すぎない
旋律は、次の性質を満たすのが望ましい
遺伝的アルゴリズム

リズム決定法
●
曲線の傾きが大きい → 短い音
●
曲線の傾きが小さい → 長い音
基本的なアイディア
3
アルゴリズムの詳細
0 リズム候補
3
33
3 3
33
1 仮のリズム決定
傾きの
しきい値処理
2 リズム決定
仮のリズムに
最も近いもの
を　から探す0
3

音高決定法
基本的なアイディア
曲線への近さ
両方を満たす音高列を
「遺伝的アルゴリズム」（GA）で探す
の 3
C A F
と音楽的妥当性
適合度の設計
F(N) = w0
sim(N) + w1
seq1
(N) + w2
seq2
(N)
+ w3
harm(N) + w4
ent(N)
旋律概形
への近さ P(ni
| ni-1
) P(ni
-ni-1
| ni-1
-ni-2
)
P(notes | chord) Entropy
音高の遷移の
もっともらしさ
音程の遷移の
もっともらしさ
コードを条件とした
音高のもっともらしさ
出現する
音高の豊富さ
個体の設計 N = (n0
, n1
, …, nL-1
) (ni
: note number)

Fitness functionにおける5つの要素
旋律概形への近さ
sim(N) = - Σ(ni
- y(ti
))2
音高の遷移のもっともらしさ
seq1
(N) = Σ log P(ni
| ni-1
)
(y(ti
): 旋律概形の時刻 t の音高）
音程（音高差）の遷移のもっともらしさ
seq2
(N) = Σ log P(ni
– ni-1
| ni-1
– ni-2
)
コードを条件とした音高のもっともらしさ
harm(N) = Σ log P(ni
| ci
, bi
)
(ci
: 時刻 ti
のコード)
(bi
: 時刻 ti
の拍節位置,
{head, on-beat, off-beat})出現する音高の豊富さ（エントロピー）
ent(N) = -(H(N) – Hmean
– ε)2

3) 演奏表情付け
● [Giraldo & Ramirez 2016] のモデルを使用
C
Feature extraction
for each note
k-NN, multilayer perceptron, ...
onset deviation
duration ratio
energy ratio
(Duration, onset, prev. duration,
next duration, prev. interval,
next interval, namour, chord, etc.)

学習データ
● 299個の様々なスタイルのジャズの旋律を収録
● 楽譜 (PDF), MIDI data, chord transcription
● sqlite3 を使ってデータの取り出しが可能
● http://jazzomat.hfm-weimar.de/
● Tonality-type が Blues の53個の旋律を使用
● あらかじめ C-major key に移調
Weimar Jazz Database

実装
Java
Groovy
Octave
MIDI Toolbox
WekaJamSketch
CrestMuse
Toolkit
Apache
Commons Math
Java
Octave
Estimation for
expression parameters
GA
Feature extraction
My main program

試用結果（現状では主観のみ）
● 1小節程度先回りして旋律概形を描くことで、
（ほぼ）リアルタイムに旋律生成・演奏表情付けが
なされ、即興演奏が可能であった
● 起動直後は、JVMの最適化が進んでいないため、
旋律生成・演奏表情付けに時間がかかる
● いわゆるブルーノート（E♭、G♭、B♭）が多用された
●
たまに不自然な旋律になることがある
– 特に、ブルーノートが長い音符に割り当てられるときなど
●
リズムの決定には、かなりの改善の余地がありそう

評価に向けて
● Usability test
– ユーザに使ってもらって、アンケート調査
● Melody quality test
– 即興演奏経験者が通常の楽器で即興演奏
– 即興演奏非経験者が本システムで即興演奏
– 第3者がどっちがどっちかを判定（Turing test的な）
– 今のところ、通常の楽器による即興演奏を2人分のみ収集
– 実験参加者の確保にご協力ください

身体障碍者に対する演奏支援への展開
● Play by head motion (PbHM)
– webcamで頭部の動きをトラッキング (CameraMouse)
– 頭部の動きが旋律概形に反映されて即興演奏ができる
– 頭部を動かせる必要がある
– eye tracking よりはロバスト
● Play by eye motion (PbEM)
– webcam または専用デバイスで視線をトラッキング
– 視線が旋律概形に反映されて即興演奏ができる
– 頭部を動かせる必要がない
– 通常の webcam ではトラッキングの精度は不十分
実験協力者・共同研究者募集中

Eye trackingを含めた実装
Java
Groovy
Octave
MIDI Toolbox
WekaJamSketch
CrestMuse
Toolkit
Apache
Commons Math
Java
Octave
GA
Feature extraction
My main program
OpenCV JavaCV
WebCam

会議参加・研究室訪問について

会議参加
● 31 August-3 September 2016
– Sound and Music Computing Conference (SMC 2016)
– Hamburg, Germany
● 6-9 September 2016
– International Conference on Artificial Neural Networks (ICANN
2016)
– Barcelona, Spain
● 19-23 September 2016
– European Conference on Machine Learning and Principles and
Practice of Knowledge Discovery (ECML-PKDD 2016)
– Incl. “International Workshop on Music and Machine Learning
(MML 2016)” （ポスター発表）
– Reva del Garda, Italy

● 28 November-2 December 2016 （招待講演）
– Joing Meeting of Acoustical Society of America (ASA) and
Acoustical Society of Japan (ASJ)
– Honolulu, USA
● 4 December 2016 （ポスター発表）
– Seminar on Music Knowledge Extraction Using Machine Learning
● 5-10 December 2016
– Annual Conference on Neural Information Processing Systems
(NIPS 2016)
– Incl. “Constructive Machine Learning Workshop” （ポスター発表）
● 20 December 2016 （ポスター発表）
– Digital Music Research Network One-day Workshop 2016
– London, UK

研究室訪問
● 7 November 2016
– IRCAM, Paris, France
– Dr. Tsubasa Tanaka
● 19 December 2016
– Queen Mary University
of London
– London, UK
– Dr. Eita Nakamura
● 28 December 2016
– Academia Sinica
– Taipei, Taiwan
– Dr. Yi-Hsuan Yang
● 27 January 2017
– University of the Basque
Country
– San Sebastian, Spain
– Prof. Darrell Conklin
● 2 February 2017
– Sony CSL Paris, Paris, France
– Dr. Francois Pachet
– Dr. Pierre Roy
● 3 February 2017
– Open University
– Milton Keynes, UK
– Prof. Simon Holland
– Prof. Robin Laney

SMC 2016
● Sound and Music Computing Conference
● ISMIRなどに比べるとレベルは高くない印象

ECML-PKDD 2016
● ECML: Europian Conf. on Machine Learning
● PKDD: Principle and Practice of Knowledge Discovery
● Google系の招待講演が目立った

MML 2016
● Int'l Workshop on Music and Machine Learning
● ECML-PKDDのワークショップとして実施
●
ポスター発表も行った

Joint Meeting of ASA/ASJ
● 10年に1度の日米音響学会合同の大会
● Music Signal Processingセッションで招待講演

NIPS 2016
● Neural Information Processing System
●
人工知能／機械学習ブームにともなって参加者急増中
● 当日参加受付一切なし、受付時にID提示の異例の体制

Constructive ML Workshop
●
分析・識別ではなく生成のための機械学習
●
主なドメインは音楽、ポエム、薬、料理など
● NIPSの１ワークショップとして実施
●
ポスター発表も行った

研究室訪問：Academia Sinica
● 訪問先：Dr. Yi-Hsuan Yang et al.
● 1時間程度の講演
● MIRや自動作曲研究の意見交換

研究室訪問：University of the Basque Country
● 訪問先：Prof. Darrell Conklin
● Music generation by transformation
M
A A’
M’
● 題材として trans music の chord progression
● San Sebastian はとても美しい街で、食べ物が旨い

研究室訪問：Sony CSL Paris
● 訪問先：Dr. Francois Pachet, Dr. Pierre Roy, et al.
● Flow Machines
– 自動作曲Webアプリケーション
– 種となる楽曲（群）を指定すると、マルコフモデルを学習
– 生成旋律の種楽曲への類似度をパラメータで制御可能
– 楽音のレンダリングも実装（プラグインがサーバ上で動作）
– 歌唱音響信号を指定し、その歌声で歌わせることも可能
● DeepBach
– 四声体和声の自動生成
– LSTMで動作

研究室訪問：Open University
● 訪問先：Prof. Simon Holland, Prof. Robin Laney
● Music Computing Lab.にて様々なプロジェクト実施
– Haptic Bracelets
– Harmony Space
– Modeling of polyrhythm perception
– Support of holding the violin for beginners
– Music programming language for beginners
– Embodied cognition theory improves musical
instruments
– Generating music for games

バルセロナでの生活について

アパート
● UPF から student residence を紹介してもらったが、
学生しか利用できないところも多く、断念
● 結局、AirBnBを利用
● 月々約15万円

携帯電話
● プリペイドSIMカードを購入（いたるところで売ってる）
● SIMロックフリーのスマートフォンなら普通に使える
● 主な通信会社：Vodafone, Orange, Lycamobile
– Orangeは問題なくテザリングできたが、
それ以外はうまくいかなかった
● 通信料：2GB/30daysで20euro（Orangeの場合）
– うち、5euroは税金（たぶん）
– 税金分はパンフレットには載ってないので注意
– 税金分はクレジットカードでは払えない
● 通話は、日本で契約したIPフォンを使用

食事（外食篇）
● いたるところにbarがあり、テラス席が人気（喫煙できるから?）
● スペインは昼食が遅い（14時前後）
– そのため、レストランは13時ぐらいにオープンする
– barはたいてい朝から夜までずっと開いている
● 庶民的なbarの典型的な価格設定
– ビール： 1.7～2.0 euro
– フライドポテト： 3 euro
– 海鮮系tapas： 6 euro～
– 定食系（肉、サラダ、パン）：
7～10 euro
– パエリア： 10～12 euro
– コーヒー： 2 euro
– クロワッサン：2 euro
– ビキーニ： 3 euro
– クロケッタス： 4 euro

バルセロナで和食を食べるには
●
バルセロナには和食レストランが大変多い
●
日本人経営店かどうかは謎
● ラーメン屋で一番有名なのはRamen-ya Hiro
– ただし、1時間待ちは当たり前
● おすすめは、Ramen Dining Yu

食事（自炊篇）
● 米が買える店：Tofu Catalan
– 米や自家製の豆腐、お弁当などを売ってる
– 若干割高な印象
●
鍋で米を炊くのは難しくない
– 1時間以上水につける→沸騰させる→弱火→むらす
– 面倒なのでやらなくなる（平日の朝は絶対やらない）
●
冷凍食品最高
– フライパンで炒めるだけのパエリア
– オープンで焼くだけのラザニア
● Asian supermarket （八方超市）がオススメ
– 冷凍餃子、最高!

食事（学食篇）
●
カフェ
– 営業時間：8:00～20:00（たぶん）
– パンとコーヒーで2.3euroぐらい
●
食事
– (1) パスタ系3種から1品（たまにパエリア、フィデウア）
– (2) 肉料理2種・魚料理1種から1品
– (3) 野菜系3種から2品
– (1)だけ → 4.8 euro、 (2)+(3) → 5.3 euro、
(1)+(2)+(3) → 7.15 euro （たぶん）
– パン、デザート、ドリンクはincluded

食事（補足）
● 多くの人の昼食開始が 13:30～14:00 ぐらいなので、
同僚と一緒に行こうと思うとしっかりとした朝食が必要
●
皆さん意外に少食
– (1)～(3) のすべてを注文する人は少ない
● 学食でたくさん食べて（(1)～(3)をすべて注文）、
夕飯をうんと少なくする方が、トータルの支出は少ない
●
学食は、まあまあおいしい

普段の生活リズム
日月火水木金土
睡眠
休暇
（後半は卒論
添削も）
朝食・支
度・通勤
支度・通勤
朝食・支度・通勤
支度・通勤
休暇・
買い物
（後半は卒論
添削も）
Skype
meeting
Skype
meeting研究
（後半は卒論
添削も）
Skype
meeting
研究
（後半は卒論
添削も）
休憩休憩
昼食昼食
Meeting 昼食
研究
研究
帰宅
睡眠
7:00
8:00
9:00
13:00
14:00
15:00
23:00
??:00
Skypeミーティングは、日本に置いてきた学生とのミーティング

居室
● Master students 用の部屋の1席を確保
● 11月頃までは誰も来ないことも多かった
●
ルームキーは初日に貸してもらえた

Skype meeting
●
日本に置いてきた学生の研究指導のために実施
●
全体ゼミ
– 持ち回りで学生が発表、所属学生全員が聴講
– 私はskypeの映像と音声を視聴
– スライドは発表者がGoogleドライブにアップロード
（skypeの映像ではスライドの細部が見えないため）
– 私からのコメントはskypeのチャットで発言
●
個別ミーティング
– 学生ごとに個別に実施
– 進捗報告する学生がGoogleドライブ上に資料用意
– Googleドライブの資料を見ながらskype通話で議論
– まれにカメラでホワイトボードを映して議論することも

トラブル発生
●
スーパーに行こうとして家を出たら鍵を穴に落とす
●
スマートフォンを持たずに家を出たため通信手段なし
● 大学に予備のノートPCが置いてあることを思い出す
●
大学に行くも、土曜の夜のため警備員に止められる
● なんとか頼み込んでノートPCを回収
●
大家にメールするも反応無し（大家は中国在住）
● とりあえずホステルに1泊
● 翌朝、管理会社に電話（ノートPCのIPフォンアプリで）
●
日曜なのに奇跡的に通じる
●
別の鍵を貸してもらう手筈整う

語学力
●
学内は、教員・学生・秘書さん皆英語は流暢
●
様々な国から集まっているため、アクセントは様々
● 1対1で自分の研究の議論をするのは何とかなる
● Lab meeting で他の人の研究の議論に口をはさむ
のはかなり難しい
●
いつも話す人のアクセントはすぐ慣れるが、
滅多に話さない人のアクセントには慣れない
→話者非依存音響モデルは獲得できず
●
単純な単語の組み合わせの方が、質問の意図が
つかみにくい場合がある

特に語学が苦手な学生さんへ
●
聞き返すことを恐れちゃいけない
– 話が進行すると、聞き返しようがなくなる
●
なんとなく分かったからといって、分かったふりをしない
●
話の輪に入らないと始まらない。
勇気を出して「何の話してるの?」と言ってみる
●
逆に、明らかにジョークという場合は聞き流すのもアリ
●
下手に質問の裏の意図を考えようとすると失敗する

学外での状況
●
ホテル／ホステルなどのスタッフは英語が通じる
●
飲食店は観光地にあるところは、まあ英語が通じる
● 住宅街のbarだと、英語での意思疎通は絶望的
●
英語が喋れる人も、まずはスペイン語で話してくる

私が覚えたスペイン語のすべて
● ¡Hola! (Hello!)
● ¡Gracias! (Thanks!)
● ¡Adios! (Bye!)
● ¡Muy bien! (Very good!)
● ¡Perfecto! (Perfect!)
あいさつ篇質問・お願い篇
● ～, por favor.
(～, please.)
● ¿Hay ～?
(Is there ～?)
● ¿Donde esta ～?
(Where is ～?)
飲食店で便利な単語篇
● esto (this)
● aquí (here)
● para llevar (take away)
● uno mas (one more)

● patata (potato)
● hamburguesería
(burger)
● pan (bread)
● atún (tuna)
● pollo (chicken)
食べ物篇
飲み物篇
● cerveza (beer)
● cerveza sin alcohol
(beer without alcohol)
● vino tinto (red wine)
● vino blanco (white wine)
● cava (sparkling wine)
● café (coffee)
● americano (American)
● café con leche
(coffee with milk)
● agua sin gas
(water without gas)
● agua con gas
(water with gas)

在外研究の成果
●
自動作曲関連のテーマで一定の進捗が得られた
●
アクティビティの高い研究グループを目の当たりに
し、様々な刺激を受けた
●
海外の研究者と交流し、日本国内のコミュニティに
とどまっていては、研究成果は活かされないことを
思い知った

在外研究の成果
●
自動作曲関連のテーマで一定の進捗が得られた
●
アクティビティの高い研究グループを目の当たりに
し、様々な刺激を受けた
●
海外の研究者と交流し、日本国内のコミュニティに
とどまっていては、研究成果は活かされないことを
思い知った
こんなスバらしい制度、使わないのはホントに損！

バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」

Recommended

Recommended

More Related Content

More from kthrlab

More from kthrlab (19)

バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」