非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法

総合研究大学院大学複合科学研究科情報学専攻修了
東京大学大学院情報理工学系研究科
システム情報学専攻特任助教
北村大地
2017年9月27日（水）16時10分
第22回長倉研究奨励賞第3次審査
Effective Optimization Algorithms for Blind and Supervised
Music Source Separation with Nonnegative Matrix Factorization
非負値行列因子分解に基づくブラインド及び
教師あり音楽音源分離の効果的最適化法

発表概要
• 背景
– 音源分離の意義と応用
– 音源分離の技術的俯瞰
• 音の時間周波数表現とモデル化
– 短時間フーリエ変換
– 低ランク近似：非負値行列因子分解（NMF）
• 優決定ブラインド音源分離
– 独立性に基づくブラインド音源分離の発展
– 音源間の独立性と各音源の低ランク構造を用いた音源分離
– 音源分離デモンストレーション
• さらなる音源分離を目指して
2

発表概要
• 背景
3

• 音源分離（audio source separation）
– 音響信号を対象とした信号処理技術の一つ
• 信号処理：観測信号から有益な意味や情報を引き出し活用する技術
• 知能情報学・機械学習の一大トピック
– 人の声，雑音，歌声，楽器音，機械音等の音源を「分離」
– 人間の持つカクテルパーティ効果を機械で実現：機械の耳
• カクテルパーティ効果：
うるさい場所でも特定の人物の
声に注意を向けて聞き取ること
ができる人間の能力
音源分離の工学的・社会的な重要性
4
観測信号
雑音の中に人の声がある！ただの雑音…

• 補聴器デバイス
– 雑音環境での聞きやすさを改善，健常者も対象
• 眼鏡と同じくらい補聴器は一般に普及するか
• 音声認識
– 耐雑音性向上，会議等の複数話者同時認識
• 自動採譜
– 楽器毎の楽譜を
音楽CDから直接作成
• ライブ音楽演奏の再編集
– 音楽演奏は一期一会，その場で音源が混合
– 音楽・芸術文化の興隆
– 芸術性を損なわない超高品音源分離
• 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか
音源分離の応用の一例
5
音楽CD
分離

音源分離の技術的俯瞰：観測条件
• 観測信号のマイク数（チャネル数）による条件の違い
– 単一チャネル信号（モノラル信号）
• 音源分離には最も困難な録音条件
– 応用範囲は最も広い
• 音色に関する情報しか得られない
– 劣決定条件（音源数マイク数）
• 2チャネル（ステレオ）等，混合されて
いる音源の方がチャネルよりも多い
• 単一チャネルでは得られなかった空間
的な情報が得られる
– 各マイクで観測した信号間の振幅差と位相差
– 優決定条件（音源数マイク数）
• 十分な数のマイクがある
– 録音装置は大規模化，煩雑化
• 得られる空間的な情報の量も多い
– 空間情報を使う音源分離は比較的高性能 6
音楽CD
L-ch
R-ch
ステレオ信号（2-ch）
モノラル録音
1ch
モノラル信号（1-ch）
マイクアレイ
1ch
Mch
多チャネル信号
2ch
…
…
難
易

音源分離の技術的俯瞰：前提条件
• 事前に用意できる外部からのヒント（教師情報）の有無
– 何もヒントがない「ブラインド音源分離」
• 複数の音源が既に混合された観測信号のみ利用可能
• 音源に関する何らかの「仮定や性質」を用いる必要あり
– 推測される音声の特徴や楽器音の特徴等
– 使えるヒントがある「教師あり音源分離」
• 音源分離問題を解くヒントがあれば分離性能は向上
• 利用可能な教師は様々
– 分離したい音源の音色サンプル（少量）
» 音色をそのままパーツとして用いる
– 分離したい音源の音色サンプル（大量）
» 近年発展している深層学習（AI）を適用
– マイク位置や音源位置等，録音時の空間的な情報
– その他，楽譜，ユーザからの指示，カメラからの情報等
• 博士論文では「優決定条件ブラインド音源分離」と「単一
チャネル教師あり音源分離」の二大トピックが対象 7
難
易

発表概要
• 背景
8

• 時間的に変化する音色（スペクトル）を表現したい
– 短時間フーリエ変換（Short-time Fourier transform: STFT）
音響信号の時間周波数表現
9
時間領域
窓関数
フーリエ変換長
シフト長
時間周波数領域
時間波形
…
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラム
複素数要素を持つ行列
周波数
時間
…
パワースペクトログラム
非負（ゼロ以上）の実数要素の行列
要素毎の
絶対値と二乗

音声のパワースペクトログラム
10

音楽のパワースペクトログラム
11

• 疎・スパース（音声も音楽も）
– パワーの強い成分（黄色の部分）は全体のごく一部分
– パワーの弱い成分（暗い青色部分）が支配的
• 連続的な軌跡（音声やボーカルのみ）
– 音色と音の高さは連続的にダイナミックに変動する
• 縦スジと横スジ・低ランク（特に音楽）
– 同じ音色，和音，メロディパターンの繰り返しが多い
各音響信号の特徴的な「構造」
12Speech Music

低ランク構造のモデリング手法
• 非負値行列因子分解（NMF） [Lee+, 1999]
– 音の時間周波数構造を少数の音色パーツで近似的に表現
• どのような音色の音が入っているかを推定可能
• 各音色パーツがどの時刻で生じるかも推定可能
– 例えば「ピアノのドの音」や「フルートのレの音」等が一つ一つ
パーツとして推定できる 13
Amplitude
Amplitude
入力の音響信号
（パワースペクトログラム）
基底行列
（音色パーツ）
アクティベーション行列
（出現タイミング）
Time
: 周波数
: 時間数
: 音色パーツ数
Time
Frequency
Frequency

発表概要
• 背景
14

• ブラインド音源分離の困難さ
– 未知が多すぎる問題事前学習やモデル（仮定）が必要
– 録音環境は部屋の形状，マイク位置，音源位置，気温等に依
存して変化してしまう
• 例：マイク位置が1 cmずれただけで「録音環境」は変わる
– 録音という行為はいつも一期一会，一度きりで再現不可能
– 「録音環境」の学習データを大量に集めることは通常不可能
• 事前学習を用いた解決法は取れない
– 観測信号とモデルのみを用いるブラインド音源分離が重要
優決定条件ブラインド音源分離の目的
15
混合系分離系
音源信号
（潜在因子）
混合信号
（観測情報）
分離信号
（推定対象）
未知未知既知

• ブラインド音源分離の歴史的発展
– 独立成分分析（ICA） [Common, 1994]
• 脳科学，無線工学，メディア信号処理，金融工学等の分野で発展
– 音響メディア信号処理（音源分離）はICAの数理理論を常に牽引（最先端）
• 音源モデルはスカラーの確率変数，非ガウスな確率分布モデル
– 独立ベクトル分析（IVA） [Kim+, 2006], [Hiroe, 2006]
• 音源モデルをベクトル変数に拡張，非ガウスな多変量確率分布モデル
– 独立低ランク行列分析（ILRMA） [Kitamura+, 2016]
• 音源モデルを低ランク行列変数に拡張，信号の時間周波数構造モデル
• 正確な音源信号のモデル高精度な分離を実現
歴史と独立低ランク行列分析
16
混合系
音源信号
（潜在因子）
混合信号
（観測情報）
互いに
独立
モデルの進化

独立低ランク行列分析（ILRMA）
17
• 音源分離に用いるモデル（仮定）
– 混合されている複数の音源は互いに独立（ICAやIVAと同様）
– 一つ一つの音源は低ランクな時間周波数構造を持つ
• 独立低ランク行列分析（ILRMA） [Kitamura, 2016]
周波数
時間周波数パーツ
パーツ
時間
時間周波数表現
頻出する
音色パーツ
各音色パーツ
の出現タイミング
NMFでブラインドに推定
混合系分離系音源信号混合信号分離信号
音源毎の
構造モデル

• 二大音源分離（IVAとMNMF）が深く関連する事実を証明
ブラインド音源分離の歴史と発展
18
1994
1998
2013
1999
2012
年代
パーミュテーション問題
解決法の検討
NMFの様々な問題への適用
生成モデル的解釈の発見
各種拡張手法
独立成分分析（ICA）
周波数領域ICA（FDICA）
板倉斎藤擬距離NMF（ISNMF）
独立ベクトル分析（IVA）
多チャネルNMF
独立低ランク行列分析（ILRMA）2016
2009
2006
2011 補助関数IVA（AuxIVA）
時変複素ガウスIVA
非負値行列因子分解（NMF）

音源分離デモンストレーション：音楽信号の例
• 音楽信号
– 楽曲：「Ultimate NZ tour」，3音源の混合
– イコライザ（音色の変更）では不可能な処理
19
Guitar
Vocal
Keyboard
Guitar
Vocal
Keyboard
提案法による
パートごとの
音源分離
3つのパートが鳴っていること
に注意して聞いてください

独立低ランク行列分析のこれまでの成果
20
• 学術的な成果
– 独立に提案された多チャネルNMF [Sawada+, 2013] とIVA [Kim+, 2007]
が密接に関連している事実を世界で初めて示す
• 工学的な成果
– 音声と音楽の両方で
高い分離精度
– IVAとほぼ同程度の
演算時間（高効率）
• 信号長は20秒
• 社会に与えたインパクトと応用可能性
– 掲載論文のダウンロード数で3度1位を獲得
– ACM Computing ReviewsのNotable Articles 2016に選ばれる
– 災害現場でのヘビ型被害者捜索ロボットに応用 [Bando+, 2016]
• 内閣府革新的研究開発推進プログラム（ImPACT），ロボット雑音除去
IEEE Xploreによる計測，
IEEE/ACM Trans. ASLP誌
14
12
10
8
6
4
2
0SDRimprovement[dB]
Music
Speech
IVA 多チャネルNMF ILRMA
演算時間
13秒
演算時間
5927秒
（1.6時間）
演算時間
16秒
Bad
Good

災害現場でのヘビ型被害者捜索ロボット
21
• 内閣府革新的研究開発推進プログラム（ImPACT）
– 災害現場での被害者捜索用ヘビ型ロボットに応用 [Bando+, 2016]
• 成果：プレスリリース，論文採録
処理前の観測音
（ロボットの駆動ノイズが大きい）
提案法による
音源分離
強調された音声信号

発表概要
• 背景
22

開拓された新しいブラインド音源分離の形
• 潜在因子への構造モデルの導入による発展可能性
– 確率分布モデルでは困難だった詳細な「操作（induce）」が可能
– ユーザとのインタラクション
• ユーザが分離の途中で構造モデルに介入
• 例：映画撮影等のプロ用途の音声強調
– 実現可能な学習データの活用
• 音楽信号では「楽譜」は強力な事前情報
• 楽譜の構造を直接モデルに反映可能
• 例：芸術性を損なわない超高品質な音楽編集
• その他の音源モデルの導入や最適モデルの自動獲得
23
時間区間の指定
領域の指定
周波数
時間
低ランク
周波数
時間
スパース
周波数
時間
グループスパースモデル自動学習

非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Daichi Kitamura

More from Daichi Kitamura (17)

非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法