身体動作による旋律線入力に基づく
音楽未経験者でも即興合奏可能な
演奏インタフェースの試作
名古屋工業大学 工学部 情報工学科
一ノ瀬 修吾, 白松 俊
本研究の目的
音楽知識を(比較的)
必要としない
音楽知識を
必要とする
• 音楽初心者でも背景楽曲に合わせて合奏可能なシステム
- 旋律はリズム、旋律線(旋律の上げ下げ) 、調性の3要素で認識される
- リズムと旋律線は初心者でも身体動作によって入力可能
- 調性(長調/短調、コードなど)は難しい
 リズムと旋律線を入力すると自動で調性を補う
合奏インタフェースの実現
システム構成図
RealSense SDK
手指検出
ジェスチャー認識
合奏支援システム
ジェスチャーによる
演奏音の制御
手の座標判定
音高決定器
背景楽曲
楽曲音
演奏音
RealSense
認識結果
ユーザ
映像
(身体動作)
調性制約
旋律線とリズムの
入力
不協和音にならない
音高の制約
(今回は人手で用意)
本研究で扱う課題
1. 直観的な身体動作による旋律線の入力手法
2. 持続音、減衰音の区別やオンセットのタイ
ミングを誤認識なく指定できる入力手法
3. 調性にあった音高の決定手法
本研究では特に1, 2を扱う
3は現段階では人手で予めデータを用意する
持続音と減衰音
持続音…バイオリン、笛など
減衰音…ピアノ、鉄琴、木琴など
なぜ必要なのか
↓
ユーザに表現のバリエーションを提供したい
提案手法持続音
ON
523Hz
494Hz
440Hz
392Hz
身体動作 旋律線
(手のひらの高さの時間変化)
調性制約を
満たす周波数
RealSenseで認識できるジェスチャー
thumb_upfist v_sign spreadfingers
two_fingers
pinch_open thumb_down
full_pinch tap waveswipe left swipe right
持続音 ON持続音 OFF
減衰音 ON
提案手法
thumb_up
減衰音 ON持続音 OFF持続音 ON
fist tap
なるべく似てないものを選んだ(誤認識防止)
直感的な意味づけを考慮して選んだ
調性制約を考慮した音高の決定手法
現状: コード進行に応じて人手で発音可能な音高を用意
(発音可能な周波数列をコード進行に応じて変化させる)
背景楽曲 調性制約
(ミリ秒, 周波数列) のリスト
人手でXMLを記述
(コード名の遷移と,
不協和にならない音名)
将来的には多重奏音楽音響信号からの調性制約の自動生成を目指す
背景楽曲 基本周波数(F0)
0 z3
z5
調性制約PFG Tonnetz
[Shiramatsu+ 15]
デモ動画
考察
持続音(thumb_up)と減衰音(tap)の誤認識はほとん
どない
持続音OFF(fist)の誤認識の改善が必要
-指の開閉度の閾値を経験的に設定⇒ある程度の改善
減衰音ON(tap)の認識漏れと遅延がある
-手の速度や深度により改善する可能性がある
音楽知識は必要ないがシステム操作の習熟が必要
-ジェスチャー認識の精度を高めれば改善する可能性
まとめと今後の課題
 直観的な身体動作による旋律線の入力
 操作性に関する知見
-持続音ON(thumb_up)と減衰音ON(tap)の誤認識は
ほとんどない
-開閉度の設定により持続音OFF(fist)の誤認識を改善
-減衰音ON(tap)の認識漏れと遅延について要改善
今後の課題
 tap認識の問題を改善
 音量変更機能の実装
 楽器音の使用を可能にする
音楽初心者にとって扱いやすいか
合奏している気分にはなった
旋律の上がり下がりを入力するだけなので
操作に覚えることはほとんどない
音楽知識は必要ないがシステムの操作に慣れが必要
持続音は隣り合った領域にしか移動できない
関連研究との違い
KAGURA
RealSenseを使い
身体を動かすだけで音楽を演奏することができる
本研究では背景の音楽と合奏ができる点で差別化
調性制約とは
背景楽曲
調性制約
(ミリ秒, 周波数列) のリスト
背景楽曲のコード進行やメロディ進行に対し
その時刻の調性に適合して発音可能な音のリスト
(明らかな不協和でない音,現段階では音楽知識のある人間が判断)
PFG Tonnetz: 周波数比の素数指数表現に
基づく調性のモデル [Shiramatsu+ SMC2015]
長三和音
短三和音
メジャー
セブンス
メジャー
ナインス
マイナー
セブンス
マイナー
ナインス
z3 (3の指数)
z5 (5の指数)
(-1,0)
(0,1)
(0,-1)
II
III
V
VI VII
#II#V
♭VII
#I
♭V♭♭III (II)
#VI#IV
0 (1,0)
I(主音)IV
(2,0)(-2,0)
012
532  
例えばドとファの周波数比 なら
⇒ 3の指数と5の指数で平面を構成
3
4
明るい和音
暗い和音
作業仮説: 基本周波数推定の倍音誤りに頑健な
調性認識が可能なモデル (未検証)

東海大会発表 0927

Editor's Notes

  • #3 たとえvば身体動作とかなら初心者でも扱いやすい
  • #7 両手で和音に対応している ここでジェスチャーで音の種類を替えられるといっておいて次のスライドで詳細 旋律線が入力されたら周波数が紐づけられた領域と照らし合わせ、音高が決定
  • #8 両手で和音に対応している ここでジェスチャーで音の種類を替えられるといっておいて次のスライドで詳細
  • #9 使えるジェスチャーを羅列する なぜこれか→似てないものを選んだ、直感的な意味も考慮 パーでやってたけどサムアップにしたら解決
  • #10 調性制約を考慮した音高の決定手法として、現状ではコード進行に応じて人手で発音可能な音高を用意しています。 つまり、発音可能な周波数列をコード進行に応じて変化させています。 まず、背景楽曲の楽譜を見ながら人手でXMLを記述します。コード名の遷移と、不協和にならない音名を書いていきます これをミリ秒と周波数列のリストに変換して、調性制約として使います。 将来的には多重奏音楽音響信号からの調性制約の自動生成を目指す予定です。 共著者の白松が提案しているPFG Tonnetzというモデルを使って調性制約を生成する手法を検討中です。
  • #13 音楽初心者にとって使いやすいのかどうか 調性の制約を用意していれば合奏はできる 今後は調性の制約を自動で用意して初心者でもどんな曲でも合奏できるようにする
  • #15 音楽初心者にとって使いやすいのかどうか 調性の制約を用意していれば合奏はできる 今後は調性の制約を自動で用意して初心者でもどんな曲でも合奏できるようにする