Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
音源分離における音響モデリング
Acoustic modeling in audio source separation
東京大学大学院情報理工学系研究科
特任助教 北村大地
日本音響学会サマーセミナー@白馬
2017年9月11日(月)10:3...
今日のスライド
2
SlideShareで
「Daichi Kitamura」と
検索
該当アカウントの
スライド一覧にあり〼
Tips
SlideShareのアカウント
持っている方は
パワポ形式でダウンロー
ド可能
(音や動画が再生可)
自己紹介
• 名前: 北村大地(Daichi Kitamura)
• 年齢: 27(1990年3月11日生まれ)
• 経歴:
• Twitter: @UDN48_udon
3
香川高等専門学校(旧高松工業高等専門学校)(16 ~ 22)
電気情...
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源...
教科書の紹介(本日の内容をほぼ網羅する本)
• 「音のアレイ信号処理」
– 日本音響学会編 浅野太著 コロナ社
– アレイ信号処理の基礎と各技術で用いられる推定理論の
数学的準備をしっかり解説したうえで,ビームフォーマ(音
源分離),部分空間報...
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源...
• 音源分離(audio source separation)
– 音響メディアを対象とした信号処理技術の一つ
– 音声,ボーカル,楽器音,雑音,複数話者等を「分離」する
– 人間の持つカクテルパーティ効果を機械で実現:機械の耳
音源分離はどん...
音源分離はどんな技術?
• リアルタイム複数話者分離(奈良先端大旧鹿野研究室,独立成分分析)
8
音源分離はどんな技術?
• 音楽音源分離(東京大学猿渡研究室,独立低ランク行列分析)
9
ギター
ボーカル
キーボード
ギター
ボーカル
キーボード
音源分離
3つの音源があるこ
とに注意して聞いて
下さい
• 観測信号から「意味のある何か」を推定・抽出する技術
– 混ざっている各音源信号は「有意な潜在因子」
– 例:背景雑音のひどい信号から音声を推定
– 知能情報学・機械学習分野の一大トピック
• 機械にどうやって「音を理解」させるかという問題提...
• 音源分離の応用先(ただし一例)
– 補聴器(hearing aid)
• うるさい環境での聞きやすさを改善,健常者さえ対象
– 音声認識(automatic speech recognition: ASR)
• Siri, Google検索...
• 全然できていません!が,下記は実デバイスで稼働している一例
– スマホ等の複数マイクでの音源分離(音声強調・音声認識)
• 使われているのはほとんどMVDRビームフォーマ
– イヤホンのノイズキャンセリング機能(雑音抑圧)
• アクティブノ...
• 残響除去(dereverberation)
– 長い残響の含まれる信号から残響成分を除去して聞きやすく
• 例:駅や空港のアナウンス
– キーワード:逆フィルタ推定,(多チャネル)線形予測
• 音源定位・追跡(source localiza...
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源...
音源分離技術俯瞰:観測条件
• 得られる音響信号のチャネル数による条件の違い
– 単一チャネル信号(モノラル信号)
• 音源分離には最も困難な録音条件
– しかし最も手軽な録音方法
• 音色に関する情報しか得られない
– 劣決定条件(音源数 マ...
音源分離技術俯瞰:前提条件
• 事前に用意できる外部からのヒント(教師情報)の有無
– 何もヒントがないブラインド音源分離
• 単一チャネルでは何らかの仮定の下でのクラスタリング問題
• 劣決定条件では時間周波数マスキング
• 優決定条件では独...
音源分離技術俯瞰:問題解決のためのモデル化
• 何をモデル化するか
– 音源の音色構造をモデル化(音源モデル)
• 例:非負値行列因子分解,時間周波数マスキング,
– 空間的な伝達系をモデル化(空間モデル)
• 例:ビームフォーマ,方位クラスタ...
• チャネル数と教師情報の有無でカテゴリを分類
– 記載手法はごく一部(しかし有名なもの)
• 数多の拡張・応用がある
– 今日は赤文字の部分を簡単に解説します
音源分離技術俯瞰:できるだけカテゴライズ
18
条件 ブラインド 教師あり
単一
...
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源...
• 時間的に変化する音色(スペクトル)を表現したい
– 短時間フーリエ変換(Short-time Fourier transform: STFT)
音響信号の時間周波数表現
20
時間領域
窓関数
フーリエ変換長
シフト長
時間周波数領域
時間...
音声のパワースペクトログラム
21
音楽のパワースペクトログラム
22
• スパース(音声も音楽も)
– パワーの強い成分(黄色の部分)は全体のほんの一部
– パワーの弱い成分(暗い青色部分)が支配的
• 連続的な軌跡(音声やボーカルのみ)
– スペクトルは連続的にダイナミックに変動する
• 低ランク(特に音楽)
...
低ランク性の比較
24
ドラム ギター
ボーカル 音声
• 低ランク性の指標(行列の構造のシンプルさ)
– 累積特異値(cumulative singular value)で確認できる
• 行列を特異値分解して得られる特異値を大きい順に並べたときの累積
低ランク性の比較
25
95% line
7 ...
低ランク構造のモデリング手法
• 非負値行列因子分解(nonnegative matrix factorization: NMF)
– 非負制約付きの任意基底数( 本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出...
• NMFにおける変数の最適化
– 観測 とモデル の距離をコストとし変数について最小化
– 距離関数は任意
• 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・
– いずれの距離関数でも閉形式の解は未発見
– 効率的な反復更...
NMFによる低ランク近似と音源分離の例
• 例
28
Pf. and Cl.
ランク1の
スペクトログラムの和
NMFによる低ランク近似と音源分離の例
• 例
– Pf. と Cl. が分離された!
– 実際は30本等の基底で混合信号を分解
• どの基底がPf.でどの基底がCl.かを推定しなければならない
• NMF音源分離は「複数の基底を音源ごとにクラ...
• もし音源毎の学習(サンプル)データが用意できる場合
• 教師ありNMF(supervised NMF)
教師ありNMFによる音源分離
30
分離ステージ
学習ステージ
学習ステージで得られる辞書
Pf.の音色
(スペクトル)
の辞書
Oth...
• デモンストレーション
– 方位クラスタリングと教師ありNMFのハイブリッド音源分離
教師ありNMFによる音源分離例
31
原曲(混合音)
ピアノの
学習データ
分離された
ピアノ音源
ベースの
学習データ
分離された
ベース音源
• 学習データの音色が分離したい音源の音色と異なる場合
– スペクトルが異なるため音源分離の性能は大きく劣化
– 完璧な学習データを用意することは通常不可能
教師ありNMFによる音源分離の問題
32
混合信号
目的音源 別のピアノ
若干異なる
...
• 基底変形型教師ありNMF
– 学習した基底 に対して というスペクトル変形項を導入
基底変形型教師ありNMFによる音源分離
33
学習ステージ
正負の値をとるスペクトル変形項
若干
異なる
分離ステージ
学習ステージで得られる辞書
• スペクトルの変形範囲を制約
– スペクトルは変形するが近い音色を表す
– 別の楽器の音に変形されることを防ぐ
基底変形型教師ありNMFによる音源分離
34
混合信号
(本物のPf.とTb.)
分離信号
教師あり
NMF
分離信号
基底変形型...
• デモンストレーション
– 実際の楽器の演奏録音を人工的な学習データ(シンセサイ
ザーで作成)で分離
基底変形型教師ありNMFによる音源分離例
35
本楽曲の著作権はヤマハ株式会社が保有しております。無断で複製、頒布を行なう
と著作権法違反と...
音源のモデル化による音源分離まとめ
• スペクトログラムの低ランク性に基づく音源分離を紹介
– NMFを活用する手法が代表的
• スペクトログラムのモデル化いろいろ
• 音源のモデル化に成功すれば単一チャネルでも分離可
– 多チャネル観測信号の...
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源...
マイクロホンアレイと多チャネル観測信号
• マイクロホンアレイ(microphone array)
– 複数のマイクロホンを並べた録音機器
– 全マイクは同期状態で録音する(一つのAD変換器で処理)
• 「録音開始時刻やサンプリング周波数にズレ...
音のアレイ信号処理におけるビームフォーマ
• アレイ信号処理(array signal processing)
– センサアレイの多チャネル観測信号を対象とする信号処理
– マイクアレイ(音響),アンテナアレイ(無線通信),脳波センサア
レイ(...
• 時間領域ではフィルタ出力の和
• 周波数領域では周波数毎の複素線形結合
– ベクトル表現では
ビームフォーマの一般型
40
畳み込み演算
…
フィルタ
フィルタ
フィルタ
…
…
複素係数
複素係数
複素係数
…
は時間インデクス
は周波数...
固定ビームフォーマにおける空間的な物理モデル
• 音の到達時間差(time difference of arrival: TDOA)
– 物理モデル:音速 が一定の平面波(音源が十分遠方)
– 観測される信号
41
伝搬してきた
平面波
0°
...
遅延和ビームフォーマによる音源分離
• 遅延和ビームフォーマ(delay-and-sum beamforming)
– 方向から到来した音は位相が揃った状態で加算 強調
– 他方向から到来した音は位相が揃わず加算 抑圧
– 遅延を与えるフィルタ...
なぜ時間領域ではなく周波数領域で議論するか
• 時間領域では「時刻ズレ」,周波数領域では「位相ズレ」
• 時刻ズレはどの程度補償できる?
– サンプル周波数:16 kHz,音速:340 m/s,マイク間隔:20 cm,
音源の到来方向:30°の...
遅延和ビームフォーマの周波数特性
• より正確な遅延和ビームフォーマの記述
• 遅延和ビームフォーマは強調したい音源の方向 が分か
れば設計可能
– ステアリングベクトルは で与えられ,
TDOA は物理モデルから計算できるため
• マイクロホ...
遅延和ビームフォーマの指向性例(0°強調)
45
マイク数11個,アレイサイズ1m,マイク間隔10cm
マイク数5個,アレイサイズ1m,マイク間隔25cm
マイク数21個,アレイサイズ2m,マイク間隔10cm
マイク数5個,アレイサイズ1m,不...
遅延和ビームフォーマの欠点
• 遅延和ビームフォーマで良い周波数特性を作るために
– 低周波帯域で鋭い指向性(サイドローブが小さい)
– 高周波帯域で空間エイリアシングが起きない
– マイクアレイ及び録音機器の大規模化を招く
• 小規模な装置で...
• ヌルビームフォーマ(null beamforming)
– 方向から到来した音は位相が揃った状態で減算 抑圧
– 他方向から到来した音は位相が揃わず減算 少し歪む
– フィルタ設計は遅延和法と同じ,正負をかえるだけ
– マイクロホン数 に対...
• 依然として空間エイリアシングの問題はある
– 高周波帯域で目的方位のみにヌルを形成するためにはマイク
間隔を小さくする必要がある
• マイクロホンの個体差(感度の違い)の問題
– 実際には感度にばらつきがあるため,上図のような深いヌルを
形...
• 目的の音源方位が既知の場合
– 音の空間的な伝搬を物理モデルとして仮定した固定ビーム
フォーマがよく使われ,単純な原理で信頼性も高い
– マイクロホン配置が変わるとフィルタを設計しなおす必要あり
• 固定ビームフォーマの欠点
– 物理モデル...
• マイクロホンアレイで観測される信号を表現
– 伝達係数ベクトル はステアリングベクトル,アレイ・マニュ
フォールドベクトル,方向ベクトル,位置ベクトル等と呼ばれる
– 音源から各マイクまでの空間的な伝達系(振幅,位相の変化)
を複素数の係数...
• 最小分散無歪ビームフォーマ(minimum variance and
distortionless response (MVDR) beamforming)
– 目的の方位のフィルタ出力(応答)を無歪に制約し,その他の方
位の応答を最小化す...
• 最小分散無歪ビームフォーマ(minimum variance and
distortionless response (MVDR) beamforming)
– 求めるべきMVDRフィルタは
– 等式制約条件付き最小化問題なのでラグランジュ...
• 最小分散無歪ビームフォーマ(minimum variance and
distortionless response (MVDR) beamforming)
– これを拘束条件に代入して
– よってMVDRビームフォーマのフィルタは
MVD...
• MVDRビームフォーマの利点
– 物理モデル と観測信号のチャネル間相関行列 を活用
• 観測信号に対して最適なフィルタを設計可能
• 物理モデルの誤差の影響も最小限に抑えられる
– 複数方位の無歪化(複数拘束条件)も容易
• 例えば正面0...
• 固定ビームフォーマ
– 物理モデルのみに基づくシンプルな空間分離フィルタ
– 遅延和ビームフォーマ,ヌルビームフォーマ
• 適応ビームフォーマ
– 物理モデルと観測信号に基づく空間分離フィルタ
– 空間ウィナーフィルタ,最尤推定ビームフォー...
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源...
ブラインド音源分離と独立成分分析
• ブラインド音源分離(blind source separation: BSS)
– マイク位置や音源位置等の事前情報を用いずに混合系の逆系
(分離系)を推定する信号処理技術
• 話者分離,脳波の分離,画像の...
• 基礎理論とその拡張手法
独立成分分析に基づく音源分離の歴史と発展
58
1994
1998
2013
1999
2012
Age
パーミュテーション問題
解決法の検討
NMFの様々な問題への適用
生成モデル的解釈の発見
各種拡張手法
独立成...
Frequency
Time
IVAとNMFを融合した新しいBSS: ILRMA
• FDICA,IVA,及びILRMAの比較
59
Frequency
Time
FDICAの音源モデル
スカラー変数の非ガウス分布
(ラプラス分布)
ラプラスI...
音源の分布とは?
• 音声波形の分布
13
Amplitude
Time samples
0付近で急峻であり,裾が広
い分布
ガウス分布(正規分布)とは
全然違う,非ガウス分布
Amountofcomponents
Amplitude
0
0....
音源の分布とは?
• ピアノ音波形の分布
13
Amplitude
Time samples
やはりガウス分布より尖っ
ていて裾が広い
Amountofcomponents
Amplitude
0
0.1
0.2
0.3
0.4
0.5
0.6...
音源の分布とは?
• ドラム音の分布
13
Amplitude
Time samples
やはりガウス分布より尖っ
ていて裾が広い
Amountofcomponents
Amplitude
0
0.2
0.4
0.6
0.8
1
-5 -4 -...
中心極限定理の検証
63
• 音源の分布(生成モデル)は多くの場合非ガウスな分布
– しかし混合音しか観測できないので各音源の分布 は不明
• 「非ガウスな分布」としか分からないのに音源モデルとして活用できるか?
• 中心極限定理(centra...
中心極限定理の検証
64
• と を独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
– では という値はどのような分布に従うか?
Amount
Amount
中心極限定理の検証
65
• と を独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
– では はどうか?
Amount
もはや一様分布ではなくなる
中心極限定理の検証
66
• と を独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
Amount
Amount
中心極限定理の検証
67
• と を独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
– どんどんガウス分布に近づいてゆく(中心極限定理)
音響信号を用いた中心極限定理の検証
68
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
Amount
Amplitude
Amplitude
Time samples
Amount
A...
音響信号を用いた中心極限定理の検証
69
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude
音響信号を用いた中心極限定理の検証
70
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
Amount
Amplitude
Amplitude
Time samples
Amount
A...
音響信号を用いた中心極限定理の検証
71
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude
音響信号を用いた中心極限定理の検証
72
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude
ほぼ
ガウス分布
ICAの音源分離の原理
73
• 中心極限定理から言えること
– ガウス分布は「確率変数の混合の極限」にある
– もし各信号の非ガウス性を最大化することができたならば,
混合する前の信号を推定することができる(かもしれない)
ICAの音源分離の...
ICAの音源分離の原理
• ICAで用いられる仮定
– 1. 混合前の各音源は互いに独立である
– 2. 混合前の各音源は非ガウスな分布に従う
– 3. 混合系は時不変であり逆系(分離系)が存在する
混合系
未知の音源
1. 互いに独立
2. ...
ICAの音源分離の原理
• ICAの不確定性(統計的独立性最大化をしているだけ)
– 1. 分離信号のスケール(音量)は決定できない
– 2. 分離信号の順番(パーミュテーション)は決定できない
11
ICA
ICA
未知の音源
観測できる
混...
ICAの音源分離の原理
76
• ICAの動作原理を図解(直観的な理解のため)
ICAの音源分離の原理
77
• ICAの動作原理を図解(直観的な理解のため)
ICAの音源分離の原理
78
• ICAの動作原理を図解(直観的な理解のため)
– 混ざる前の2つのソース信号を2軸の散布図にしてみる
– 混合前は互いに独立なソース信号なので相関は無く,平面上に
円状に分布(すでに若干楕円なのは音量(分散)が...
• ICAの動作原理を図解(直観的な理解のため)
– 混ざった後の2つの混合信号を2軸の散布図にしてみる
– 混合後は独立性が失われ,信号間に相関が生じるので,平面上
に楕円状に分布
ICAの音源分離の原理
79
ICAの音源分離の原理
80
• ICAの動作原理を図解(直観的な理解のため)
– 1. 2つの観測信号(混合信号)を白色化する
• Whitening,sphering等と呼ばれ分散共分散を単位行列化する変換
• 主成分分析(PCA)+分散の...
ICAの音源分離の原理
81
• ICAの動作原理を図解(直観的な理解のため)
– 1. 2つの観測信号(混合信号)を白色化する
• 白色化は観測信号の分散共分散行列が単位行列となるように変換する
• 2つの観測信号 間の自己相関値 と相互相関...
ICAの音源分離の原理
82
• ICAの動作原理を図解(直観的な理解のため)
– 1. 2つの観測信号(混合信号)を白色化する
• 白色化は観測信号の分散共分散行列が単位行列となるように変換する
• 白色化の変換行列を とすると,白色化後の信...
ICAの音源分離の原理
83
• ICAの動作原理を図解(直観的な理解のため)
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• 白色化された観測信号が互いに独立になるように回転する
• 2次...
ICAの音源分離の原理
84
• ICAの動作原理を図解(直観的な理解のため)
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• 白色化された観測信号が互いに独立になるように回転する
• 1度...
ICAの音源分離の原理
85
• ICAの動作原理を図解(直観的な理解のため)
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• 白色化された観測信号が互いに独立になるように回転する
• 回転...
ICAの音源分離の原理
86
• ICAの動作原理を図解(直観的な理解のため)
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• 白色化された観測信号が互いに独立になるように回転する
• 回転...
ICAの音源分離の原理
87
• 先の例は事前に白色化(無相関化+分散の正規化)を
施し,ICAを回転行列を求める問題に落とし込んでいる
– 元々推定したかったのは混合された観測信号 を分離す
る分離行列 と分離信号
– 「独立化」という変換を...
ICAの音源分離の原理
88
• より一般的なICAの解法として,分離信号間の独立性を
最大化する を直接勾配法で求める最適化法を紹介
• 解くべき問題は「分離信号間の独立性の最大化」
– 現在の状態と独立になった状態の距離を近づける
– 確率...
ICAの音源分離の原理
89
• 独立性をKLダイバージェンスで測る目的関数は下記の
ように展開できる
結合エントロピー 周辺エントロピーの和
結合エントロピーの最大化
→分離信号間の関連をなくす
→白色化(無相関化)に対応
周辺エントロピーの...
ICAの音源分離の原理
90
• 目的関数を最小化する分離行列 は勾配法で推定
– 目的関数を で偏微分して勾配を求め少しずつ下っていく
勾配:
目的関数
勾配を下る更新:
非線形関数 の意味
混合前の独立成分の分布 を確率変数に
関して微分し...
ICAによる音源分離まとめ
91
• 混合系(空間的な物理モデル)が未知の状態でも分離系
を推定できる
– 「各音源が非ガウスである」という統計的音源モデルを活用
• 音源間の独立性最大化という最適化問題
– 最急降下法,自然勾配法,補助関数法...
• 実際の音響信号の混合
– 残響による畳み込み混合
• 例: 会議室では300ミリ秒,コンサートホールでは2秒等
– 時不変混合係数 が時不変混合フィルタ に変化
• 対残響性の向上
– 時間領域での逆フィルタ を推定
• 16 kHzサンプ...
耐残響性の向上:周波数領域ICA(FDICA)
• 周波数領域ICA(FDICA)
– 各周波数ビンの複素時系列に対して独立なICAを適用
93
スペクトログラム
ICA1
ICA2
ICA3
…
…
ICA
Frequencybin
Time...
耐残響性の向上:周波数領域ICA(FDICA)
94
ICA
全て時間周波数
領域の信号
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2
Time
• FDICAにおけるパーミュテーション問題
– ...
到来方向を用いたパーミュテーション解決
95
• FDICA+DOAクラスタリング
– 推定分離フィルタ から混合フィルタ を逆算
– 音源の到来方向(DOA)でクラスタリング
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
推定さ...
• FDICAで推定される分離フィルタ とは?
– 周波数領域での瞬時混合を仮定
– 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
– 適応ビームフォーミング(ABF)と本質的に等価
• ABF:妨害音のみがアクティブな時間の出力二乗誤...
FDICAの分離フィルタとABFの分離フィルタ
97
BSSの
空間分離
フィルタ
ABFの
空間分離
フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
独立ベクトル分析(IVA)
• よりエレガントなアプローチ
– 分離フィルタ推定(周波数毎のICAの最適化)
– パーミュテーション問題の解決(ポスト処理)
• 独立ベクトル分析(IVA)
– ICAを多変量(多次元)分布モデルへ拡張( )
–...
• FDICAとIVAの違いは非ガウス音源分布のみ
– 音源の事前分布が一変量か多変量か
• IVAの仮定する音源の事前分布
– 零平均ラプラス分布の例(音声信号のモデルとして一般的)
– 後者は (互いに無相関)の場合でも, が互いに依存
•...
• 球対称音源分布の(かなりざっくりとした)定性的な説明
– 周波数間で同じ時間変動を持つ成分を一つの音源としてまとめ
る傾向にある パーミュテーション問題の回避
IVAにおける音源分布と高次相関
100
x1とx2は互いに独立なラプラス分布
...
FDICAとIVAの分離原理比較
• FDICAの分離原理
• IVAの分離原理
101
観測信号
推定信号の分布形状があらかじめ仮定した非ガウス
な音源分布に近づくように分離フィルタを更新
推定信号
分離フィルタ
推定信号の
現在の分布形状
...
FDICA及びIVAの音源モデル拡張の動機
• ICAで仮定される非ガウスな音源分布
– 分離フィルタを推定する唯一の手がかり:音源モデル
– より正確な音源分布 → 高精度な分離フィルタの推定
– 確率分布というマクロなモデル
• 音源信号の...
• 球対称ラプラス分布IVA(再掲)
– 定常な球対称ラプラス分布を仮定
• 時変分散複素ガウス分布IVA
– 分散が時変なパラメトリックな複素ガウス分布を仮定
– 時間方向の音源アクティビティを時変分散でモデル化
103
非ガウス分布
複素ガ...
104
Frequency
Time
時変IVAの
音源モデル
Frequency
Time
周波数方向には一様な分散
時変な成分
Frequency
Basis
Basis
Time
基底数(音源モデルのランク数)は任意
Frequency
...
IVAとNMFを融合した新しいBSS: ILRMA
• 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA)
– 時間周波数で分散が変動する複素ガウス分布を仮定
– 分離音源が「互いに独...
Frequency
Time
IVAとNMFを融合した新しいBSS: ILRMA
• FDICA,IVA,及びILRMAの比較
106
Frequency
Time
FDICAの音源モデル
スカラー変数の非ガウス分布
(ラプラス分布)
ラプラス...
• 基礎理論とその拡張手法
独立成分分析に基づく音源分離の歴史と発展(再掲)
107
1994
1998
2013
1999
2012
Age
パーミュテーション問題
解決法の検討
NMFの様々な問題への適用
生成モデル的解釈の発見
各種拡張手...
• ILRMAのコスト(対数尤度)関数
– IVAの反復更新式
– NMFの反復更新式
• 音源の適切なランク数を潜在変数で推定することも可能
– Ex. ボーカルはあまり低ランクにならず,ドラムは低ランク
ILRMAのコスト関数と潜在変数の導...
ILRMAの最適化
• ILRMAの反復更新式(最尤推定)
– NMF変数の最適化は補助関数法に基づく乗法更新式
– 反復で尤度が単調増加することが保証されている
• 必ずどこかの局所解(停留点)へ収束
109
空間分離フィルタと分離信号の更新...
ILRMAの更新のイメージ
• 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
– 音源毎の時間周波数構造を正確に捉えることで,独立性基準
での線形時不変な空間分離の性能向上が期待できる
110
空間分離フィルタ
...
IVA,多チャネルNMF,ILRMAの関連性
• 多チャネルNMFからみると
– ランク1空間制約,逆システム(分離系)の推定問題に変換
– 決定条件(マイク数=音源数)ではILRMAと双対な問題
• 時変IVAからみると
– 音源分布の基底数...
• ラプラス分布IVA(オリジナル)
• 時変ガウス分布IVA
• 多チャネルNMF
• ILRMA
112
尤度関数の比較
時間周波数変動分散
(低ランク音源モデル)
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源...
まとめ
• 音源分離
– 混ざった音から混ざる前の音を推定する技術
– 観測信号のチャネル数,音源数,仮定等に応じて様々
– あらゆるモデル(仮定)を駆使して解く
– 全ての音信号を対象とした応用に活用できる重要な技術
• 音源モデル
– 音源...
Upcoming SlideShare
Loading in …5
×

音源分離における音響モデリング(Acoustic modeling in audio source separation)

4,286 views

Published on

北村大地, "音源分離における音響モデリング," 日本音響学会 サマーセミナー 招待講演, September 11th, 2017.
Daichi Kitamura, "Acoustic modeling in audio source separation," The Acoustical Society of Japan, Summer Seminar Invited Talk, September 11th, 2017.

Published in: Engineering
  • Be the first to comment

音源分離における音響モデリング(Acoustic modeling in audio source separation)

  1. 1. 音源分離における音響モデリング Acoustic modeling in audio source separation 東京大学大学院情報理工学系研究科 特任助教 北村大地 日本音響学会サマーセミナー@白馬 2017年9月11日(月)10:30-12:00
  2. 2. 今日のスライド 2 SlideShareで 「Daichi Kitamura」と 検索 該当アカウントの スライド一覧にあり〼 Tips SlideShareのアカウント 持っている方は パワポ形式でダウンロー ド可能 (音や動画が再生可)
  3. 3. 自己紹介 • 名前: 北村大地(Daichi Kitamura) • 年齢: 27(1990年3月11日生まれ) • 経歴: • Twitter: @UDN48_udon 3 香川高等専門学校(旧高松工業高等専門学校)(16 ~ 22) 電気情報工学科→専攻科(創造工学専攻), 学士(工学) 奈良先端科学技術大学院大学(22 ~ 24) 情報科学研究科, 修士(工学) 総合研究大学院大学(24 ~ 27) 複合科学研究科(情報学専攻),博士(情報学) サバゲー
  4. 4. 概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 4
  5. 5. 教科書の紹介(本日の内容をほぼ網羅する本) • 「音のアレイ信号処理」 – 日本音響学会編 浅野太著 コロナ社 – アレイ信号処理の基礎と各技術で用いられる推定理論の 数学的準備をしっかり解説したうえで,ビームフォーマ(音 源分離),部分空間報(音源定位),音源追跡,ブラインド 音源分離を網羅的に解説 • 「詳解 独立成分分析」 – アーポ・ヒバリネン他 東京電機大学出版局 – ブラインド音源分離の基礎理論である独立成分分析(ICA) について詳しく学びたい場合はこちら,統計的信号処理で 用いられる確率統計の基礎も詳しく解説されている • 「Nonnegative Matrix and Tensor Factorizations」 – アンジェイ・チホッキ他 WILEY – 非負値行列因子分解(NMF)の定式化,距離規範,各種 拡張,様々な最適化理論が紹介されているが求められる 知識レベルは若干高い,うれしいMATLABコード付き 5
  6. 6. 概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 6
  7. 7. • 音源分離(audio source separation) – 音響メディアを対象とした信号処理技術の一つ – 音声,ボーカル,楽器音,雑音,複数話者等を「分離」する – 人間の持つカクテルパーティ効果を機械で実現:機械の耳 音源分離はどんな技術? 7
  8. 8. 音源分離はどんな技術? • リアルタイム複数話者分離(奈良先端大旧鹿野研究室,独立成分分析) 8
  9. 9. 音源分離はどんな技術? • 音楽音源分離(東京大学猿渡研究室,独立低ランク行列分析) 9 ギター ボーカル キーボード ギター ボーカル キーボード 音源分離 3つの音源があるこ とに注意して聞いて 下さい
  10. 10. • 観測信号から「意味のある何か」を推定・抽出する技術 – 混ざっている各音源信号は「有意な潜在因子」 – 例:背景雑音のひどい信号から音声を推定 – 知能情報学・機械学習分野の一大トピック • 機械にどうやって「音を理解」させるかという問題提起 – CASA: computational auditory scene analysis • 「機械の耳」 – 音源分離はあらゆる音理解において必要な最初の信号処理 • いかなるシステムにおいても「雑音は直ちに抑圧されるべき」 • まずは分離,その後になにかしましょう – 音環境認識,音声認識,音楽理解,音の検知・追跡,… 音源分離はどんな技術? 10
  11. 11. • 音源分離の応用先(ただし一例) – 補聴器(hearing aid) • うるさい環境での聞きやすさを改善,健常者さえ対象 – 音声認識(automatic speech recognition: ASR) • Siri, Google検索, コルタナ, Amazon Echo, … – 自動採譜(automatic music transcription) • 楽器ごとに楽譜を作成 (Vo., Gt., Ba., …) – 生録音された(たった一度きりの)ライブ音源の再編集 • プロ用のもの(音質改善),個人が楽しむもの (DJのリミックス), … 音源分離は何に使える? 11 分離 自動採譜 CD 楽譜
  12. 12. • 全然できていません!が,下記は実デバイスで稼働している一例 – スマホ等の複数マイクでの音源分離(音声強調・音声認識) • 使われているのはほとんどMVDRビームフォーマ – イヤホンのノイズキャンセリング機能(雑音抑圧) • アクティブノイズコントロールと呼ばれる「適応フィルタ」の一つ – オーディオ機器の機能のボーカルキャンセラ(音楽再編集) • 位相反転によるキャンセルアウト(音源分離とは言い難い原始的手法) • 何ができていない? – ものすごくうるさい居酒屋でのストレスフリーな会話 • 眼鏡と同じくらい補聴器が普及するか – 品質を損なわないプロ用途に耐える音楽の超精密な分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか – 音響バーチャルリアリティ • 画像と違ってオクルージョンが起こらない音メディアはまず分離が必須 音源分離は今どこまでできる? 12
  13. 13. • 残響除去(dereverberation) – 長い残響の含まれる信号から残響成分を除去して聞きやすく • 例:駅や空港のアナウンス – キーワード:逆フィルタ推定,(多チャネル)線形予測 • 音源定位・追跡(source localization, source tracking) – 停止している音源や動いている音源の空間的な位置を推定 • 例:コウモリのエコーロケーション – 音源分離をやるか音源定位をやるか • 位置が分かれば音源分離は容易 • 音源分離できれば音源定位は容易 – キーワード • 音源定位:部分空間法(MUSIC法) • 音源追跡:カルマンフィルタ,パーティクルフィルタ 音源分離と切っても切れないご近所トピック 13 たまごが先か にわとりが先か
  14. 14. 概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 14
  15. 15. 音源分離技術俯瞰:観測条件 • 得られる音響信号のチャネル数による条件の違い – 単一チャネル信号(モノラル信号) • 音源分離には最も困難な録音条件 – しかし最も手軽な録音方法 • 音色に関する情報しか得られない – 劣決定条件(音源数 マイク数) • 2チャネル(ステレオ)等だが混合されて いる音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間 的な情報が得られる – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件(音源数 マイク数) • 十分な数のマイクがある – 録音はマイクの同期が大変,ケーブルの山! • 得られる空間的な情報の量も多い – 空間情報を使う音源分離は高性能になる 15 音楽CD L-ch R-ch ステレオ信号(2-ch) モノラル録音 1ch モノラル信号(1-ch) マイクアレイ 1ch Mch 多チャネル信号 2ch … …
  16. 16. 音源分離技術俯瞰:前提条件 • 事前に用意できる外部からのヒント(教師情報)の有無 – 何もヒントがないブラインド音源分離 • 単一チャネルでは何らかの仮定の下でのクラスタリング問題 • 劣決定条件では時間周波数マスキング • 優決定条件では独立成分分析 – マイクや音源の位置(空間情報)が分かる • マイクアレイを使うならばマイクの配置(間隔等)は分かるはず • 多チャネルの観測条件ではビームフォーマ – 音色のサンプルがある • 単一チャネルではクラスタリング問題を解くためのヒントになる • 教師あり非負値行列因子分解(サンプルが少ない場合) • ディープニューラルネットワーク(サンプルが大量にある場合) – その他の活用できるヒントがある • 定常雑音仮定,楽譜情報,ユーザアノテーション,カメラ等のセンサ,… 16
  17. 17. 音源分離技術俯瞰:問題解決のためのモデル化 • 何をモデル化するか – 音源の音色構造をモデル化(音源モデル) • 例:非負値行列因子分解,時間周波数マスキング, – 空間的な伝達系をモデル化(空間モデル) • 例:ビームフォーマ,方位クラスタリング • どのようにモデル化して解くか(cf. 前半の矢田部浩平先生の資料) – 統計モデル • 時間周波数領域での統計的な性質を仮定,生成モデル • 例:非負値行列因子分解,独立成分分析 – 物理モデル • 音波の空間伝達の物理現象を仮定(平面波仮定等) • 例:ビームフォーマ – 回路モデル • 次元圧縮による特徴量抽出,音源成分毎にクラスタリング • 例:ディープニューラルネットワーク 17 最尤推定,ベイズ推定等 最急降下法,ニュートン法等 誤差逆伝搬,確率的勾配法等
  18. 18. • チャネル数と教師情報の有無でカテゴリを分類 – 記載手法はごく一部(しかし有名なもの) • 数多の拡張・応用がある – 今日は赤文字の部分を簡単に解説します 音源分離技術俯瞰:できるだけカテゴライズ 18 条件 ブラインド 教師あり 単一 チャネル (モノラル信号) 時間周波数マスキング NMF+スペクトル分類 スペクトル情報の教師あり 空間情報の教師あり 音色的な情報 時間的な情報 音源位置 音響的な伝達系 教師ありNMF Denoising autoencoder Informed NMF 無し (モノラル信号の為) 無し (モノラル信号の為) 劣決定 (チャネル数< 音源数) スパースコーディング 時間周波数マスキング 方位クラスタリング 多チャネルNMF スペクトル情報の教師あり 空間情報の教師あり 音色的な情報 時間的な情報 音源位置 音響的な伝達系 多チャネル深層学習 教師あり多チャネル NMF User-guidedな 多チャネルNMF 時間周波数マスキング 空間辞書ベースの スパースモデリング 優決定 (チャネル数≧ 音源数) ICA 周波数領域ICA 独立ベクトル分析(IVA) スペクトル情報の教師あり 空間情報の教師あり 音色的な情報 時間的な情報 音源位置 音響的な伝達系 多チャネル深層学習 User-guided IVA 固定・適応ビーム フォーマ ロバスト適応ビーム フォーマ
  19. 19. 概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 19
  20. 20. • 時間的に変化する音色(スペクトル)を表現したい – 短時間フーリエ変換(Short-time Fourier transform: STFT) 音響信号の時間周波数表現 20 時間領域 窓関数 フーリエ変換長 シフト長 時間周波数領域 時間波形 … フーリエ変換 フーリエ変換 フーリエ変換 スペクトログラム 複素数要素を持つ行列 周波数 時間 … パワースペクトログラム 非負(ゼロ以上)の実数要素の行列 要素毎の 絶対値と二乗
  21. 21. 音声のパワースペクトログラム 21
  22. 22. 音楽のパワースペクトログラム 22
  23. 23. • スパース(音声も音楽も) – パワーの強い成分(黄色の部分)は全体のほんの一部 – パワーの弱い成分(暗い青色部分)が支配的 • 連続的な軌跡(音声やボーカルのみ) – スペクトルは連続的にダイナミックに変動する • 低ランク(特に音楽) – 同じスペクトルのパターンの繰り返しが多い 特徴的な構造 23Speech Music
  24. 24. 低ランク性の比較 24 ドラム ギター ボーカル 音声
  25. 25. • 低ランク性の指標(行列の構造のシンプルさ) – 累積特異値(cumulative singular value)で確認できる • 行列を特異値分解して得られる特異値を大きい順に並べたときの累積 低ランク性の比較 25 95% line 7 29 Around 90 累積特異値が95%に達するときの 基底の本数 (スペクトログラムのサイズは1025x1883) 「スペクトログラムが低ランク」という構造を モデルとして仮定して音源分離ができる
  26. 26. 低ランク構造のモデリング手法 • 非負値行列因子分解(nonnegative matrix factorization: NMF) – 非負制約付きの任意基底数( 本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 26 Amplitude Amplitude 混合された観測行列 (パワースペクトログラム) 基底行列 (スペクトルパターン) アクティベーション行列 (時間的強度変化) Time : 周波数ビン数 : 時間フレーム数 : 基底数 Time Frequency Frequency 基底 アクティベーション
  27. 27. • NMFにおける変数の最適化 – 観測 とモデル の距離をコストとし変数について最小化 – 距離関数は任意 • 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・ – いずれの距離関数でも閉形式の解は未発見 – 効率的な反復更新による最適化アルゴリズム • 補助関数法に基づく乗算型更新式(最も有名) NMFのパラメータ推定 27 (コスト関数が二乗ユークリッド距離 の時の更新式)
  28. 28. NMFによる低ランク近似と音源分離の例 • 例 28 Pf. and Cl. ランク1の スペクトログラムの和
  29. 29. NMFによる低ランク近似と音源分離の例 • 例 – Pf. と Cl. が分離された! – 実際は30本等の基底で混合信号を分解 • どの基底がPf.でどの基底がCl.かを推定しなければならない • NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」 • ブラインドでは難しい・・・(挑戦例もあり) 29 Pf. Cl. Pf. and Cl.
  30. 30. • もし音源毎の学習(サンプル)データが用意できる場合 • 教師ありNMF(supervised NMF) 教師ありNMFによる音源分離 30 分離ステージ 学習ステージ 学習ステージで得られる辞書 Pf.の音色 (スペクトル) の辞書 Other bases , , のみ最適化
  31. 31. • デモンストレーション – 方位クラスタリングと教師ありNMFのハイブリッド音源分離 教師ありNMFによる音源分離例 31 原曲(混合音) ピアノの 学習データ 分離された ピアノ音源 ベースの 学習データ 分離された ベース音源
  32. 32. • 学習データの音色が分離したい音源の音色と異なる場合 – スペクトルが異なるため音源分離の性能は大きく劣化 – 完璧な学習データを用意することは通常不可能 教師ありNMFによる音源分離の問題 32 混合信号 目的音源 別のピアノ 若干異なる 学習データ 60 40 20 0 -20 Amplitude[dB] 3.02.52.01.51.00.50.0 Frequency [kHz] Real sound Artificial sound by MIDI 音色の違いの例(人工ピアノと実ピアノ) 混合信号 (本物のPf.とTb.) 人工Pf.を学習データ に用いた教師あり NMFの結果 教師あり NMF
  33. 33. • 基底変形型教師ありNMF – 学習した基底 に対して というスペクトル変形項を導入 基底変形型教師ありNMFによる音源分離 33 学習ステージ 正負の値をとるスペクトル変形項 若干 異なる 分離ステージ 学習ステージで得られる辞書
  34. 34. • スペクトルの変形範囲を制約 – スペクトルは変形するが近い音色を表す – 別の楽器の音に変形されることを防ぐ 基底変形型教師ありNMFによる音源分離 34 混合信号 (本物のPf.とTb.) 分離信号 教師あり NMF 分離信号 基底変形型教師あり NMF 学習データは同じ (人工Pf.音) Frequency Frequency ±30% の場合
  35. 35. • デモンストレーション – 実際の楽器の演奏録音を人工的な学習データ(シンセサイ ザーで作成)で分離 基底変形型教師ありNMFによる音源分離例 35 本楽曲の著作権はヤマハ株式会社が保有しております。無断で複製、頒布を行なう と著作権法違反となりますので、ご注意くださいますようお願い申し上げます。 Copyright © 2014 Yamaha Corporation. All rights reserved. 原曲 (実際の楽器音) Sax.の学習データ (MIDIシンセで作成) Sax.の分離信号 Ba.の学習データ (MIDIシンセで作成) Ba.の分離信号 残りの信号(カラオケ) 残りの信号(カラオケ)
  36. 36. 音源のモデル化による音源分離まとめ • スペクトログラムの低ランク性に基づく音源分離を紹介 – NMFを活用する手法が代表的 • スペクトログラムのモデル化いろいろ • 音源のモデル化に成功すれば単一チャネルでも分離可 – 多チャネル観測信号の「空間的な情報」に頼らないため • 音源と空間の両方をモデル化する手法もある – 独立成分分析,独立ベクトル分析,独立低ランク行列分析 36 周波数 時間 低ランク 周波数 時間 スパース 周波数 時間 グループスパース NMF ロバストPCA 時間周波数マスキング ロバストPCA 調波打楽器音分離 (HPSS) モデル自動学習 Denoising autoencoder ディープクラスタリング
  37. 37. 概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 37
  38. 38. マイクロホンアレイと多チャネル観測信号 • マイクロホンアレイ(microphone array) – 複数のマイクロホンを並べた録音機器 – 全マイクは同期状態で録音する(一つのAD変換器で処理) • 「録音開始時刻やサンプリング周波数にズレが無い」ということが重要 • 「非同期マイクロホンアレイ」を対象とする研究も新しいトピック • 多チャネル観測信号(multichannel signal) – 各マイクの時系列信号の他にマイク間の情報(音量差,音色差, 時間差)が得られる(空間的な情報) – 「マイクアレイから見てどの方向から音波が到来したか」 38
  39. 39. 音のアレイ信号処理におけるビームフォーマ • アレイ信号処理(array signal processing) – センサアレイの多チャネル観測信号を対象とする信号処理 – マイクアレイ(音響),アンテナアレイ(無線通信),脳波センサア レイ(生体信号),地震センサアレイ(地震動)等 • ビームフォーマ又はビームフォーミング(beamforming) – アレイ信号処理の基礎 – 音源分離・音源定位の両方に応用可 – 固定ビームフォーマ(遅延和法,ヌルビームフォーマ等) • 空間の物理的なモデルのみから構成される空間フィルタ – 適応ビームフォーマ(空間ウィナーフィルタ,MVDR法等) • 観測信号に対して適応的に構成される空間フィルタ – 固定と適応の組み合わせ(一般化サイドローブキャンセラ) – 全て空間的な分離を達成する「フィルタ処理」 39 赤字を紹介します
  40. 40. • 時間領域ではフィルタ出力の和 • 周波数領域では周波数毎の複素線形結合 – ベクトル表現では ビームフォーマの一般型 40 畳み込み演算 … フィルタ フィルタ フィルタ … … 複素係数 複素係数 複素係数 … は時間インデクス は周波数インデクス 複素係数の掛算 エルミート (複素共役)転置 複素共役
  41. 41. 固定ビームフォーマにおける空間的な物理モデル • 音の到達時間差(time difference of arrival: TDOA) – 物理モデル:音速 が一定の平面波(音源が十分遠方) – 観測される信号 41 伝搬してきた 平面波 0° 伝搬距離差に基づく 到達時間差が生じる 伝搬距離差 伝搬距離差 時間領域 周波数領域 ディラックのデルタ関数
  42. 42. 遅延和ビームフォーマによる音源分離 • 遅延和ビームフォーマ(delay-and-sum beamforming) – 方向から到来した音は位相が揃った状態で加算 強調 – 他方向から到来した音は位相が揃わず加算 抑圧 – 遅延を与えるフィルタ設計 42 遅延フィルタ 遅延フィルタ 遅延フィルタ 適切な遅延により波形の位相が揃う 観測にかかるTDOAは このTDOAを 戻すフィルタステアリング ベクトル (後述)
  43. 43. なぜ時間領域ではなく周波数領域で議論するか • 時間領域では「時刻ズレ」,周波数領域では「位相ズレ」 • 時刻ズレはどの程度補償できる? – サンプル周波数:16 kHz,音速:340 m/s,マイク間隔:20 cm, 音源の到来方向:30°の場合 – TDOAはサンプリング間隔よりも短いので補償できない • 周波数領域での位相ズレを補償するフィルタを設計する 43 時間領域 周波数領域 s s 到達時間差 (TDOA) 1サンプル の時間間隔
  44. 44. 遅延和ビームフォーマの周波数特性 • より正確な遅延和ビームフォーマの記述 • 遅延和ビームフォーマは強調したい音源の方向 が分か れば設計可能 – ステアリングベクトルは で与えられ, TDOA は物理モデルから計算できるため • マイクロホンアレイの形状(マイクロホン数 とマイクロ ホン間隔 )に依存してフィルタの周波数特性(指向性) が決まる – 「空間エイリアシング」が原因 – より多くのマイクロホン,より高密度のマイクロホン間隔の方が 空間的な分離性能が良い 44 各マイクで観測される 音量の違いを考慮すると
  45. 45. 遅延和ビームフォーマの指向性例(0°強調) 45 マイク数11個,アレイサイズ1m,マイク間隔10cm マイク数5個,アレイサイズ1m,マイク間隔25cm マイク数21個,アレイサイズ2m,マイク間隔10cm マイク数5個,アレイサイズ1m,不規則アレイ 12.5cm37.5cm 赤色実線:0.5kHz 青色破線:1kHz 緑色破線:2kHz
  46. 46. 遅延和ビームフォーマの欠点 • 遅延和ビームフォーマで良い周波数特性を作るために – 低周波帯域で鋭い指向性(サイドローブが小さい) – 高周波帯域で空間エイリアシングが起きない – マイクアレイ及び録音機器の大規模化を招く • 小規模な装置で高性能の空間分離フィルタを作りたい – ヌルビームフォーマ • 原理は遅延和ビームフォーマとほぼ同じ • 遅延和ビームフォーマは特定の方位を強調 • ヌルビームフォーマは特定の方位を抑圧 • 空間的な死角(null)を作る空間分離フィルタ 46 アレイサイズを大きくする マイクロホン間隔を小さくして密に配置する
  47. 47. • ヌルビームフォーマ(null beamforming) – 方向から到来した音は位相が揃った状態で減算 抑圧 – 他方向から到来した音は位相が揃わず減算 少し歪む – フィルタ設計は遅延和法と同じ,正負をかえるだけ – マイクロホン数 に対して 個の方位に死角を形成可能 • たった2個のマイクでも特定の方位の音源を(原理的には)消せる ヌルビームフォーマによる音源分離 47 遅延フィルタ 遅延フィルタ 位相をそろえて差し引くことで出力を零にする 反転
  48. 48. • 依然として空間エイリアシングの問題はある – 高周波帯域で目的方位のみにヌルを形成するためにはマイク 間隔を小さくする必要がある • マイクロホンの個体差(感度の違い)の問題 – 実際には感度にばらつきがあるため,上図のような深いヌルを 形成することは困難 ヌルビームフォーマの指向性例(0°抑圧) 48 マイク数2個,アレイサイズ10cm,マイク間隔10cm マイク数2個,アレイサイズ20cm,マイク間隔20cm 赤色実線:0.5kHz 青色破線:1kHz 緑色破線:2kHz
  49. 49. • 目的の音源方位が既知の場合 – 音の空間的な伝搬を物理モデルとして仮定した固定ビーム フォーマがよく使われ,単純な原理で信頼性も高い – マイクロホン配置が変わるとフィルタを設計しなおす必要あり • 固定ビームフォーマの欠点 – 物理モデルのみに依存し観測信号を全く使わないため,マイク ロホン個体差や物理モデルの精度に敏感 • 室内音場(残響,反射,回折,気温変化),マイクロホン配置の誤差,マ イクロホン設置機構の干渉(反射,回折),マイクロホン相互の特性誤差 (指向性,周波数特性,感度)等 • 特にヌルビームフォーマではモデル誤差の影響は深刻 • 観測信号を用いた適応的なビームフォーマを考えてゆく – 特に最小分散無歪ビームフォーマ(MVDRビームフォーマ)は 多くの製品で実際に用いられている 固定ビームフォーマまとめ 49
  50. 50. • マイクロホンアレイで観測される信号を表現 – 伝達係数ベクトル はステアリングベクトル,アレイ・マニュ フォールドベクトル,方向ベクトル,位置ベクトル等と呼ばれる – 音源から各マイクまでの空間的な伝達系(振幅,位相の変化) を複素数の係数で表現する • 前述の遅延和ビームフォーマでは物理モデルからTDOAを計算しステア リングベクトルを記述した ステアリングベクトル 50 マイク アレイ 観測 信号 音源 伝達係数 ベクトル 観測ベクトル
  51. 51. • 最小分散無歪ビームフォーマ(minimum variance and distortionless response (MVDR) beamforming) – 目的の方位のフィルタ出力(応答)を無歪に制約し,その他の方 位の応答を最小化する空間分離フィルタ – 「観測信号の目的方位以外のパワー」を最小化するため,適応 ビームフォーマの一種 – 目的方位の無歪条件 – ビームフォーマの応答(平均出力パワー) MVDRビームフォーマによる音源分離 51 ステアリングベクトルは目的方位とマイクアレイ 形状から物理モデルを用いて計算できる (遅延和ビームフォーマと同じ) 観測のチャネル間相関行列, 空間相関行列等と呼ばれる ,フィルタ は時不変なので 簡便のため周波数 インデクスは省略
  52. 52. • 最小分散無歪ビームフォーマ(minimum variance and distortionless response (MVDR) beamforming) – 求めるべきMVDRフィルタは – 等式制約条件付き最小化問題なのでラグランジュの未定乗数 法で解ける – 制約が複素数なので実数化するとコスト関数は下記 – で偏微分=0を解く • 複素数の偏微分は「実部と虚部」を独立変数とみなす方法と「複素変数 とその共役」を独立変数とみなす方法があり,後者は簡便になる • cf. ウィルティンガーの微分 MVDRビームフォーマによる音源分離 52 は複素数の 未定乗数
  53. 53. • 最小分散無歪ビームフォーマ(minimum variance and distortionless response (MVDR) beamforming) – これを拘束条件に代入して – よってMVDRビームフォーマのフィルタは MVDRビームフォーマによる音源分離 53 但し (エルミート行列)
  54. 54. • MVDRビームフォーマの利点 – 物理モデル と観測信号のチャネル間相関行列 を活用 • 観測信号に対して最適なフィルタを設計可能 • 物理モデルの誤差の影響も最小限に抑えられる – 複数方位の無歪化(複数拘束条件)も容易 • 例えば正面0°だけでなく,その近傍の-5°と5°も無歪化することで強 調したい方位に少し幅を持った空間分離フィルタの設計などが可能 • MVDRビームフォーマの欠点 – 依然として分離したい目的音源の方位が既知 – 固定ビームフォーマよりも改善されているが,物理モデルの誤 差の影響はやはり避けられない • 目的音源方位が分からなくても音源分離できないか? – 空間モデルだけでなく音源モデルも考慮した独立成分分析の 理論へと発展 MVDRビームフォーマによる音源分離 54
  55. 55. • 固定ビームフォーマ – 物理モデルのみに基づくシンプルな空間分離フィルタ – 遅延和ビームフォーマ,ヌルビームフォーマ • 適応ビームフォーマ – 物理モデルと観測信号に基づく空間分離フィルタ – 空間ウィナーフィルタ,最尤推定ビームフォーマ,MVDRビーム フォーマ • 両者の組み合わせビームフォーマ – 一般化サイドローブキャンセラ • いずれにしても空間的な物理モデル誤差の影響は常に 問題となる ビームフォーマによる音源分離まとめ 55
  56. 56. 概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 56
  57. 57. ブラインド音源分離と独立成分分析 • ブラインド音源分離(blind source separation: BSS) – マイク位置や音源位置等の事前情報を用いずに混合系の逆系 (分離系)を推定する信号処理技術 • 話者分離,脳波の分離,画像の分離,電波の分離等 • 独立成分分析(independent component analysis:ICA) – 「音源が非ガウスな分布から生成されている」と「各音源は互い に独立である」という2つの音源モデルに基づき空間分離フィル タを推定する – 実はブラインドな条件のヌルビームフォーマと等価 57 分離系混合系
  58. 58. • 基礎理論とその拡張手法 独立成分分析に基づく音源分離の歴史と発展 58 1994 1998 2013 1999 2012 Age パーミュテーション問題 解決法の検討 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 独立成分分析(ICA) 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF(ISNMF) 独立ベクトル分析(IVA) 多チャネルNMF 独立低ランク行列分析(ILRMA) 代表的なもののみ記述 2016 2009 2006 2011 補助関数IVA(AuxIVA) 時変複素ガウスIVA 非負値行列因子分解(NMF)
  59. 59. Frequency Time IVAとNMFを融合した新しいBSS: ILRMA • FDICA,IVA,及びILRMAの比較 59 Frequency Time FDICAの音源モデル スカラー変数の非ガウス分布 (ラプラス分布) ラプラスIVAの音源モデル ベクトル変数の多変量な 球対称非ガウス分布 (多変量ラプラス分布) ILRMAの音源モデル NMFによる低ランクな 時間周波数構造 (時間周波数分散変動型 複素ガウス分布) 低ランクな時間周波数構造を 持つように分離フィルタを更新 観測信号 推定信号 分離 フィルタ
  60. 60. 音源の分布とは? • 音声波形の分布 13 Amplitude Time samples 0付近で急峻であり,裾が広 い分布 ガウス分布(正規分布)とは 全然違う,非ガウス分布 Amountofcomponents Amplitude 0 0.1 0.2 0.3 0.4 0.5 -5 -4 -3 -2 -1 0 1 2 3 4 5 ガウス分布(正規分布)
  61. 61. 音源の分布とは? • ピアノ音波形の分布 13 Amplitude Time samples やはりガウス分布より尖っ ていて裾が広い Amountofcomponents Amplitude 0 0.1 0.2 0.3 0.4 0.5 0.6 -5 -4 -3 -2 -1 0 1 2 3 4 5 ラプラス分布
  62. 62. 音源の分布とは? • ドラム音の分布 13 Amplitude Time samples やはりガウス分布より尖っ ていて裾が広い Amountofcomponents Amplitude 0 0.2 0.4 0.6 0.8 1 -5 -4 -3 -2 -1 0 1 2 3 4 5 コーシー分布
  63. 63. 中心極限定理の検証 63 • 音源の分布(生成モデル)は多くの場合非ガウスな分布 – しかし混合音しか観測できないので各音源の分布 は不明 • 「非ガウスな分布」としか分からないのに音源モデルとして活用できるか? • 中心極限定理(central limit theorem) – 「いかなる分布から生成される確率変数も足していくとガウス分 布に従う確率変数に近づいてゆく」※ • 信じられない? 0 0.1 0.2 0.3 0.4 0.5 0.6 -5 -4 -3 -2 -1 0 1 2 3 4 5 ラプラス分布 0 0.002 0.004 0.006 0.008 0.01 -5 -4 -3 -2 -1 0 1 2 3 4 5 一様分布 Generate r.v.s 正規分布 0 0.1 0.2 0.3 0.4 0.5 -5 -4 -3 -2 -1 0 1 2 3 4 5 ※ただし中心極限定理を満たさない確率分布もある (安定分布と呼ばれる)
  64. 64. 中心極限定理の検証 64 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – では という値はどのような分布に従うか? Amount Amount
  65. 65. 中心極限定理の検証 65 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – では はどうか? Amount もはや一様分布ではなくなる
  66. 66. 中心極限定理の検証 66 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 Amount Amount
  67. 67. 中心極限定理の検証 67 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – どんどんガウス分布に近づいてゆく(中心極限定理)
  68. 68. 音響信号を用いた中心極限定理の検証 68 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples Amount Amplitude Amplitude Time samples Amount Amplitude
  69. 69. 音響信号を用いた中心極限定理の検証 69 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude
  70. 70. 音響信号を用いた中心極限定理の検証 70 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples Amount Amplitude Amplitude Time samples Amount Amplitude
  71. 71. 音響信号を用いた中心極限定理の検証 71 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude
  72. 72. 音響信号を用いた中心極限定理の検証 72 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude ほぼ ガウス分布
  73. 73. ICAの音源分離の原理 73 • 中心極限定理から言えること – ガウス分布は「確率変数の混合の極限」にある – もし各信号の非ガウス性を最大化することができたならば, 混合する前の信号を推定することができる(かもしれない) ICAの音源分離の原理 非ガウス性を 最大化すること 各成分間の独立性 を最大化すること より一般的には 混ざることでガウス分布に 近づいてゆく(中心極限定理) 非ガウス性を最大化すること で分離されてゆく(ICA)
  74. 74. ICAの音源分離の原理 • ICAで用いられる仮定 – 1. 混合前の各音源は互いに独立である – 2. 混合前の各音源は非ガウスな分布に従う – 3. 混合系は時不変であり逆系(分離系)が存在する 混合系 未知の音源 1. 互いに独立 2. 非ガウスな分布 3. 時不変かつ 逆系が存在 10 観測できる 混合信号 逆行列
  75. 75. ICAの音源分離の原理 • ICAの不確定性(統計的独立性最大化をしているだけ) – 1. 分離信号のスケール(音量)は決定できない – 2. 分離信号の順番(パーミュテーション)は決定できない 11 ICA ICA 未知の音源 観測できる 混合信号 未知の音源 観測できる 混合信号 推定された 分離信号 推定された 分離信号
  76. 76. ICAの音源分離の原理 76 • ICAの動作原理を図解(直観的な理解のため)
  77. 77. ICAの音源分離の原理 77 • ICAの動作原理を図解(直観的な理解のため)
  78. 78. ICAの音源分離の原理 78 • ICAの動作原理を図解(直観的な理解のため) – 混ざる前の2つのソース信号を2軸の散布図にしてみる – 混合前は互いに独立なソース信号なので相関は無く,平面上に 円状に分布(すでに若干楕円なのは音量(分散)が同じでないため)
  79. 79. • ICAの動作原理を図解(直観的な理解のため) – 混ざった後の2つの混合信号を2軸の散布図にしてみる – 混合後は独立性が失われ,信号間に相関が生じるので,平面上 に楕円状に分布 ICAの音源分離の原理 79
  80. 80. ICAの音源分離の原理 80 • ICAの動作原理を図解(直観的な理解のため) – 1. 2つの観測信号(混合信号)を白色化する • Whitening,sphering等と呼ばれ分散共分散を単位行列化する変換 • 主成分分析(PCA)+分散の正規化で実現可能 – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • ICAの最適化アルゴリズムによって実現可能 混合前のソース信号 混合後の観測信号 混合行列 白色化後の観測信号 白色化行列 回転後の分離信号 回転行列 分離行列
  81. 81. ICAの音源分離の原理 81 • ICAの動作原理を図解(直観的な理解のため) – 1. 2つの観測信号(混合信号)を白色化する • 白色化は観測信号の分散共分散行列が単位行列となるように変換する • 2つの観測信号 間の自己相関値 と相互相関値 は • の分散共分散行列 は 但し, の固有値と固有ベクトルは左図 0.0095 0.0009 主成分 第二成分
  82. 82. ICAの音源分離の原理 82 • ICAの動作原理を図解(直観的な理解のため) – 1. 2つの観測信号(混合信号)を白色化する • 白色化は観測信号の分散共分散行列が単位行列となるように変換する • 白色化の変換行列を とすると,白色化後の信号は • の分散共分散行列 が単位行列になるような を求める – の固有値分解として とすると 白色化行列 混合後の観測信号 白色化後の観測信号 無相関かつ 分散が両信号とも1
  83. 83. ICAの音源分離の原理 83 • ICAの動作原理を図解(直観的な理解のため) – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 2次元における回転行列 は • 独立になるように回転=ばってんが十字になる角度で回転 – そのような角度 をどうやって求めるのか? 但し は反時 計回りを正と する 白色化後の観測信号 回転後の分離信号 両信号のカートシス が最大となる角度, すなわち両信号が 最も非ガウスになる 角度を見つける!
  84. 84. ICAの音源分離の原理 84 • ICAの動作原理を図解(直観的な理解のため) – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 1度回転毎に両信号のカートシスをプロットすると 白色化後の観測信号 のカートシス のカートシス ( のカートシス)+( のカートシス) 回転変換 0° 90° 180° 270° 338°
  85. 85. ICAの音源分離の原理 85 • ICAの動作原理を図解(直観的な理解のため) – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 回転行列 を とすると 白色化後の観測信号 回転後の分離信号 但し,分離信号 と スケールは適当に決めている
  86. 86. ICAの音源分離の原理 86 • ICAの動作原理を図解(直観的な理解のため) – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 回転行列 を とすると 白色化後の観測信号 回転後の分離信号 但し,分離信号 と スケールは適当に決めている
  87. 87. ICAの音源分離の原理 87 • 先の例は事前に白色化(無相関化+分散の正規化)を 施し,ICAを回転行列を求める問題に落とし込んでいる – 元々推定したかったのは混合された観測信号 を分離す る分離行列 と分離信号 – 「独立化」という変換を「白色化+座標回転」という問題に落とし 込み,求めるべき変換行列(分離行列)を回転行列に限定 • 白色化はデータのみに依存するため,何の基準も無しにできる • 推定パラメータを削減( の4つあったパラメータが のみ1つに) • 但し回転行列になるのは2次元の場合 • 一般的な次元の場合はユニタリ行列に限定されることに対応している – 回転角 を求める最適化を解くこともできるが,問題が限定的な ので本講演では割愛 を満たす行列
  88. 88. ICAの音源分離の原理 88 • より一般的なICAの解法として,分離信号間の独立性を 最大化する を直接勾配法で求める最適化法を紹介 • 解くべき問題は「分離信号間の独立性の最大化」 – 現在の状態と独立になった状態の距離を近づける – 確率分布間の距離=カルバック・ライブラ(KL)ダイバージェンス – 上記の2状態の距離を最小化する分離行列 を推定する 近づける分離信号の結合分布 独立信号の結合分布
  89. 89. ICAの音源分離の原理 89 • 独立性をKLダイバージェンスで測る目的関数は下記の ように展開できる 結合エントロピー 周辺エントロピーの和 結合エントロピーの最大化 →分離信号間の関連をなくす →白色化(無相関化)に対応 周辺エントロピーの和を最大化 →個々の分離信号を非ガウス化 →カートシスの和の最大化に対応 結合エントロピー 周辺エントロピー
  90. 90. ICAの音源分離の原理 90 • 目的関数を最小化する分離行列 は勾配法で推定 – 目的関数を で偏微分して勾配を求め少しずつ下っていく 勾配: 目的関数 勾配を下る更新: 非線形関数 の意味 混合前の独立成分の分布 を確率変数に 関して微分した関数 神のみぞ知る分布であるし,混合前の信号は 通常手に入らないので決めようがない しかし実用上は「カートシスがガウス分布より高 いか低いか」で決めて良く,ICAは十分動く 音声のようにカートシスの高い信号には Sigmoid関数や双曲線正接関数が用いられる 勾配法による最適化のイメージ
  91. 91. ICAによる音源分離まとめ 91 • 混合系(空間的な物理モデル)が未知の状態でも分離系 を推定できる – 「各音源が非ガウスである」という統計的音源モデルを活用 • 音源間の独立性最大化という最適化問題 – 最急降下法,自然勾配法,補助関数法が最適化アルゴリズムと して活用される • 音響信号をICAで分離する場合 – 残響による畳み込み混合を解くために,ICAは周波数領域の各 信号に適用される – 周波数領域ICAは「パーミュテーション問題」を引き起こす • 各周波数ビンにおいて分離信号の順番が決まらないため,100 Hzの信号 ではy1が音源1,y2が音源2として推定されるたのに,200 Hzの信号では y1が音源2,y2が音源1として推定されてしまう現象 • 全周波数帯域で分離信号の順番を整えるアラインメントが必要
  92. 92. • 実際の音響信号の混合 – 残響による畳み込み混合 • 例: 会議室では300ミリ秒,コンサートホールでは2秒等 – 時不変混合係数 が時不変混合フィルタ に変化 • 対残響性の向上 – 時間領域での逆フィルタ を推定 • 16 kHzサンプルでは300 msのフィルタ長が4800タップ(1音源あたり) • ICAで推定すべきパラメータが爆発的に増加→推定は困難 – 周波数領域でのICAの適用 • 周波数毎の分離行列 を周波数毎のICAで推定→推定は容易 • パーミュテーション問題に直面 耐残響性の向上:周波数領域ICA(FDICA) 92 残響長 (混合フィルタのタップ長) 瞬時混合 畳み込み混合
  93. 93. 耐残響性の向上:周波数領域ICA(FDICA) • 周波数領域ICA(FDICA) – 各周波数ビンの複素時系列に対して独立なICAを適用 93 スペクトログラム ICA1 ICA2 ICA3 … … ICA Frequencybin Time frame … 逆行列 周波数領域の時不変 瞬時混合行列
  94. 94. 耐残響性の向上:周波数領域ICA(FDICA) 94 ICA 全て時間周波数 領域の信号 音源1 音源2 観測1 観測2 Permutation Solver 分離信号1 分離信号2 Time • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる – 様々なパーミュテーションソルバが検討されている ※分散(スケール)もバラバラになるが,これは容易に戻すことが可能
  95. 95. 到来方向を用いたパーミュテーション解決 95 • FDICA+DOAクラスタリング – 推定分離フィルタ から混合フィルタ を逆算 – 音源の到来方向(DOA)でクラスタリング 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 DOA クラスタリング Source 1 Source 2 正面 左 右 音源 とマイクアレイ間の 伝達系を表す 「ステアリングベクトル」 混合行列の列ベクトル
  96. 96. • FDICAで推定される分離フィルタ とは? – 周波数領域での瞬時混合を仮定 – 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ – 適応ビームフォーミング(ABF)と本質的に等価 • ABF:妨害音のみがアクティブな時間の出力二乗誤差最小化 • 妨害音に対してヌル(感度0)を打つような空間分離 • ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要 – FDICAはブラインドな音源分離手法 • 混合系未知,アクティビティ検出不要 • 厳密な音源位置とマイク位置が既知の場合のビームフォーミングが FDICAの上限性能といえる FDICAによる音源分離のメカニズム 96 音源1 音源2 音源1の空間 分離フィルタ 音源1 分離フィルタのタップ長 はフーリエ変換の窓長 と同じ 空間分離 フィルタ
  97. 97. FDICAの分離フィルタとABFの分離フィルタ 97 BSSの 空間分離 フィルタ ABFの 空間分離 フィルタ TR = 0 ms TR = 300 ms TR = 0 ms TR = 300 ms
  98. 98. 独立ベクトル分析(IVA) • よりエレガントなアプローチ – 分離フィルタ推定(周波数毎のICAの最適化) – パーミュテーション問題の解決(ポスト処理) • 独立ベクトル分析(IVA) – ICAを多変量(多次元)分布モデルへ拡張( ) – 周波数をまとめたベクトル変数に対するICA 98 1個の問題の 最適化で実現したい … … 混合行列 … … … 観測信号 分離行列 推定信号 互いに独立 多変量非ガウス分布 互いに高次相関を持つ 同じ音源が一つの推定信号に自然にまとまる スカラー ベクトル
  99. 99. • FDICAとIVAの違いは非ガウス音源分布のみ – 音源の事前分布が一変量か多変量か • IVAの仮定する音源の事前分布 – 零平均ラプラス分布の例(音声信号のモデルとして一般的) – 後者は (互いに無相関)の場合でも, が互いに依存 • 球対称な分布を仮定していることに起因 • 高次相関性,高次依存性が生じる IVAにおける音源分布と高次相関 99 周波数毎に独立な 事前分布 周波数間で高次相 関をもつ事前分布 分散共分散行列 のとき ベクトルノルムにのみ依存
  100. 100. • 球対称音源分布の(かなりざっくりとした)定性的な説明 – 周波数間で同じ時間変動を持つ成分を一つの音源としてまとめ る傾向にある パーミュテーション問題の回避 IVAにおける音源分布と高次相関 100 x1とx2は互いに独立なラプラス分布 (条件付き分布はラプラス分布) x1とx2は互いに無相関だが 依存関係がある 球対称な 二変数ラプラ ス分布 互いに独立な 二変数ラプラス 分布
  101. 101. FDICAとIVAの分離原理比較 • FDICAの分離原理 • IVAの分離原理 101 観測信号 推定信号の分布形状があらかじめ仮定した非ガウス な音源分布に近づくように分離フィルタを更新 推定信号 分離フィルタ 推定信号の 現在の分布形状 非ガウスな 音源分布 STFT Frequency Time Frequency Time 観測信号 推定信号 分離フィルタ 推定信号の 現在の分布形状 STFT Frequency Time Frequency Time 非ガウスな 球対称多変量 音源分布 スカラーの 確率変数 ベクトルの多変量 確率変数 推定信号の分布形状があらかじめ仮定した非ガウスな 球対称の音源分布に近づくように分離フィルタを更新 中心極限定理より,混合信号 はガウス分布に近い信号 本来の音源信号は 非ガウス分布に従う 互いに 独立 互いに 独立
  102. 102. FDICA及びIVAの音源モデル拡張の動機 • ICAで仮定される非ガウスな音源分布 – 分離フィルタを推定する唯一の手がかり:音源モデル – より正確な音源分布 → 高精度な分離フィルタの推定 – 確率分布というマクロなモデル • 音源信号の持つ時間周波数の構造は考慮できない – 音楽信号では音源間の独立性が弱まる • 時間的な共起(リズム),周波数の重なり(ハーモニー) 等 • 時間周波数構造を分散の変動として表現したISNMF – 従来手法よりも正確な音源分布としてICAの推定に用いたい – ICAの高速・安定な最適化も受け継ぎたい • 多チャネルNMFの最適化はあまりにも非効率・不安定 • 時変分散複素ガウスIVA(時変IVA) • 独立低ランク行列分析(ILRMA) 102
  103. 103. • 球対称ラプラス分布IVA(再掲) – 定常な球対称ラプラス分布を仮定 • 時変分散複素ガウス分布IVA – 分散が時変なパラメトリックな複素ガウス分布を仮定 – 時間方向の音源アクティビティを時変分散でモデル化 103 非ガウス分布 複素ガウス分布 時変分散 非ガウス分布 (球対称ラプラス分布) 分散 ラプラスIVA 時変IVA 様々な非ガウス分布を仮定したIVA
  104. 104. 104 Frequency Time 時変IVAの 音源モデル Frequency Time 周波数方向には一様な分散 時変な成分 Frequency Basis Basis Time 基底数(音源モデルのランク数)は任意 Frequency Time ILRMAの 音源モデル 時間周波数上での分散の変動を ISNMFで低ランク表現 濃淡が分散の大小 分散の大小は音源のパワーの大小 「低ランク性」の音源モデルへの導入
  105. 105. IVAとNMFを融合した新しいBSS: ILRMA • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) – 時間周波数で分散が変動する複素ガウス分布を仮定 – 分離音源が「互いに独立」かつ「できるだけ低ランク」になる 105 イ ル マ 非ガウス分布 複素ガウス分布 Frequency Basis Basis Time 基底数(音源モデルのランク数)は任意 Frequency Time 提案手法の 音源モデル 時間周波数変動分散 (低ランク音源モデル)
  106. 106. Frequency Time IVAとNMFを融合した新しいBSS: ILRMA • FDICA,IVA,及びILRMAの比較 106 Frequency Time FDICAの音源モデル スカラー変数の非ガウス分布 (ラプラス分布) ラプラスIVAの音源モデル ベクトル変数の多変量な 球対称非ガウス分布 (多変量ラプラス分布) ILRMAの音源モデル NMFによる低ランクな 時間周波数構造 (時間周波数分散変動型 複素ガウス分布) 低ランクな時間周波数構造を 持つように分離フィルタを更新 観測信号 推定信号 分離 フィルタ
  107. 107. • 基礎理論とその拡張手法 独立成分分析に基づく音源分離の歴史と発展(再掲) 107 1994 1998 2013 1999 2012 Age パーミュテーション問題 解決法の検討 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 独立成分分析(ICA) 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF(ISNMF) 独立ベクトル分析(IVA) 多チャネルNMF 独立低ランク行列分析(ILRMA) 代表的なもののみ記述 2016 2009 2006 2011 補助関数IVA(AuxIVA) 時変複素ガウスIVA 非負値行列因子分解(NMF)
  108. 108. • ILRMAのコスト(対数尤度)関数 – IVAの反復更新式 – NMFの反復更新式 • 音源の適切なランク数を潜在変数で推定することも可能 – Ex. ボーカルはあまり低ランクにならず,ドラムは低ランク ILRMAのコスト関数と潜在変数の導入 108 分離信号: ISNMFのコスト関数 (音源モデルの推定に寄与) IVAのコスト関数 (空間分離フィルタの推定に寄与) 2つの交互最適化反復で 全変数を容易に推定可能 潜在変数の導入 0~1の値をとる潜在変数
  109. 109. ILRMAの最適化 • ILRMAの反復更新式(最尤推定) – NMF変数の最適化は補助関数法に基づく乗法更新式 – 反復で尤度が単調増加することが保証されている • 必ずどこかの局所解(停留点)へ収束 109 空間分離フィルタと分離信号の更新 音源モデルの更新 但し, , は 番目の要素のみ1で 他 は0の縦ベクトル
  110. 110. ILRMAの更新のイメージ • 音源毎の空間情報(空間モデル)と 各音源の音色構造(音源モデル)を交互に学習 – 音源毎の時間周波数構造を正確に捉えることで,独立性基準 での線形時不変な空間分離の性能向上が期待できる 110 空間分離フィルタ の学習 混合信号 分離信号 音源モデル の更新 NMF NMF 音源モデル の学習
  111. 111. IVA,多チャネルNMF,ILRMAの関連性 • 多チャネルNMFからみると – ランク1空間制約,逆システム(分離系)の推定問題に変換 – 決定条件(マイク数=音源数)ではILRMAと双対な問題 • 時変IVAからみると – 音源分布の基底数を1本から任意の本数に拡張 • 独立に発展した多チャネルNMFとIVAを統一的に捉える 新しい理論 111音源モデル 空間モデル 柔軟限定的 柔軟限定的 IVA 多チャネル NMF ILRMA NMFの音源 モデルを導入 空間相関行列の ランクを1に制限
  112. 112. • ラプラス分布IVA(オリジナル) • 時変ガウス分布IVA • 多チャネルNMF • ILRMA 112 尤度関数の比較 時間周波数変動分散 (低ランク音源モデル)
  113. 113. 概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 113
  114. 114. まとめ • 音源分離 – 混ざった音から混ざる前の音を推定する技術 – 観測信号のチャネル数,音源数,仮定等に応じて様々 – あらゆるモデル(仮定)を駆使して解く – 全ての音信号を対象とした応用に活用できる重要な技術 • 音源モデル – 音源の時間周波数構造の仮定(低ランク,スパース等) • 空間モデル – 物理的な音波の到来を仮定して数式で記述 114

×