Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

勉強会資料 トピック紹介「音楽と機械学習」

1,203 views

Published on

勉強会資料

Published in: Technology
  • Be the first to comment

勉強会資料 トピック紹介「音楽と機械学習」

  1. 1. [TensorFow勉強会] 音楽と機械学習 音丸 格
  2. 2. 今日の内容 1. やりたいこと 2. 「音楽と機械学習」 3. 今後の展望
  3. 3. やりたいこと • 大学時代から、趣味でクラシックギターの演奏をしています。 • 演奏する曲を選ぶときに、しばしば直面する問題: – 弾きたい曲のクラシックギター譜がない(ことが多い) – 自分で編曲するスキルがない。スキルがあっても手間がかかる。 音源を聴かせたら、もしくは他の楽器の楽譜(ピアノ譜とか バンドスコアとか)を読み込ませたら、クラシックギター譜 に変換してくれるようなアプリが、欲しいなあ…
  4. 4. 今回 • 「自動楽譜生成」に取り組む第1歩として、「音楽と機械学習」[1] という記事を読み、先行研究を勉強した。 [1] 吉井和佳, 音楽と機械学習, 情報処理 vol. 57, no, 6, June 2016.
  5. 5. 機械が音楽を理解する • 本稿では、音楽の自動解析技術を中心に、音楽と機械学習の関わり合 いについて解説する。 1. 音楽解析における教師あり学習 – ジャンル・ムード・印象認識・和音推定・ビート解析 etc. – 同じジャンルに属する楽曲が持つ普遍的な情報を抽出しておくことで、新たな楽曲 に対応する。 2. 音楽解析における教師なし学習 – 自動採譜(いわゆる耳コピ):機械学習を用いた音楽情報処理タスクの花形 – 音楽音響信号と楽譜データの対応付けをあらかじめ覚えこませておかなくても可能で あると考えられている。
  6. 6. 教師あり学習 | ジャンル・ムード・印象認識 • 音楽音響信号をあらかじめ定められた複数のクラスのいずれかに分 類することは、教師あり学習の最も典型的な問題 – ジャンル・ムード・印象 etc. VA空間: 横軸がValence(Negative-Positive), 縦軸がArousal (Silent-Energetic) を示してお り、これらの組み合わせで様々な印象を表 現する。
  7. 7. 教師あり学習 | ジャンル・ムード・印象認識 • 通常の学習に基づく分類と同様、特徴量抽出と特徴量識別という2 つのステップから構成されている。 • 用いられる特徴量: – メル周波数ケプストラム係数(MFCC): 人間の知覚特性(低いところはよく分かる、高いところは大雑把)を考慮して 算出されたスペクトラムの概形。12次元程度のベクトル。 – 低レベル特徴量: zero-crossing rate(音声の波形を描いたときに、波が0をまたぐ頻度をカウント したもの)
  8. 8. メル周波数ケプストラム係数(MFCC) • メル(mel): 単に、刺激がk倍になったらk倍の大きさに知覚されるわけではない。例えば1000 mel の2倍の高さに感じる音を2,000 melとする尺度。 • MFCC:ある時刻におけるパワースペクトルの概形を表す特徴量。 http://abcpedia.acoustics.jp/acoustic_feature_2.pdf 人間の聴覚特性を 考慮したフィルタを掛け合わせ 離散コサイン変換
  9. 9. 教師あり学習 | 和音推定 • ルート音12種類と和音タイプ(major or minor)の2種類の組み合わ せに対し、無音などの非和音を含め、2×12+1 = 25 クラスの分類問 題 • 和音推定でも、DNNの利用が進められている • スペクトル系列を入力し、和音系列を直接出力するような再帰型 ニューラルネットワーク(RNN) を学習する試みもなされている
  10. 10. 教師なし学習 | 自動採譜 • 現状の(学習に基づかないアプローチとして)、一般的には、非負 値行列因子分解(NMF)が使用されている。 – しかし、得られる譜面自体の良さを評価する仕組みがないため、音楽として不 自然な配置が頻発する問題があった。 http://www.slideshare.net/NAIST_IS/div ergence-optimization-based-on- tradeoff-between-separation-and- extrapolation-abilities-in- superresolutionbased-nonnegative- matrix-factorization/2
  11. 11. 教師なし学習 | 自動採譜 • 最近のアプローチ: – 推定すべき楽譜自体の生成 過程を確立モデルで表現す ることで、楽譜の生成モデ ルを事前分布、音響信号の 生成モデルを尤度関数とみ なし、両者をベイズ的に統 合。
  12. 12. まとめ • 今回調べて思ったのだが、やりたいことは、音声処理というよりも、 言語における翻訳に近いタスクだなあ。 • 機械学習に基づかない方法も含め、既存研究をさらに調査してみよ うと思う。

×