音源分離における音響モデリング（Acoustic modeling in audio source separation）

音源分離における音響モデリング
Acoustic modeling in audio source separation
東京大学大学院情報理工学系研究科
特任助教北村大地
日本音響学会サマーセミナー@白馬
2017年9月11日（月）10:30-12:00

今日のスライド
2
SlideShareで
「Daichi Kitamura」と
検索
該当アカウントの
スライド一覧にあり〼
Tips
SlideShareのアカウント
持っている方は
パワポ形式でダウンロー
ド可能
（音や動画が再生可）

自己紹介
• 名前: 北村大地（Daichi Kitamura）
• 年齢: 27（1990年3月11日生まれ）
• 経歴:
• Twitter: @UDN48_udon
3
香川高等専門学校（旧高松工業高等専門学校）（16 ~ 22）
電気情報工学科→専攻科（創造工学専攻）, 学士（工学）
奈良先端科学技術大学院大学（22 ~ 24）
情報科学研究科, 修士（工学）
総合研究大学院大学（24 ~ 27）
複合科学研究科（情報学専攻），博士（情報学）
サバゲー

概要
• 音源分離の目的と応用
– どんな技術？何に使える？今どこまでできる？
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定，教師情報の有無，用いる仮定
• 1. 非負値行列因子分解（音源モデル化）
– 数理・最適化理論，教師ありNMF
• 2. ビームフォーミング（空間のモデル化）
– 遅延和法，ヌルビームフォーマ，MVDRビームフォーマ
• 3. 独立成分分析（音源と空間のモデル化）
– 周波数領域ICA，パーミュテーションソルバ，独立ベクトル分析
• まとめ
4

教科書の紹介（本日の内容をほぼ網羅する本）
• 「音のアレイ信号処理」
– 日本音響学会編浅野太著コロナ社
– アレイ信号処理の基礎と各技術で用いられる推定理論の
数学的準備をしっかり解説したうえで，ビームフォーマ（音
源分離），部分空間報（音源定位），音源追跡，ブラインド
音源分離を網羅的に解説
• 「詳解独立成分分析」
– アーポ・ヒバリネン他東京電機大学出版局
– ブラインド音源分離の基礎理論である独立成分分析（ICA）
について詳しく学びたい場合はこちら，統計的信号処理で
用いられる確率統計の基礎も詳しく解説されている
• 「Nonnegative Matrix and Tensor Factorizations」
– アンジェイ・チホッキ他 WILEY
– 非負値行列因子分解（NMF）の定式化，距離規範，各種
拡張，様々な最適化理論が紹介されているが求められる
知識レベルは若干高い，うれしいMATLABコード付き
5

概要
• まとめ
6

• 音源分離（audio source separation）
– 音響メディアを対象とした信号処理技術の一つ
– 音声，ボーカル，楽器音，雑音，複数話者等を「分離」する
– 人間の持つカクテルパーティ効果を機械で実現：機械の耳
音源分離はどんな技術？
7

• リアルタイム複数話者分離（奈良先端大旧鹿野研究室，独立成分分析）
8

• 音楽音源分離（東京大学猿渡研究室，独立低ランク行列分析）
9
ギター
ボーカル
キーボード
ギター
ボーカル
キーボード
音源分離
３つの音源があるこ
とに注意して聞いて
下さい

• 観測信号から「意味のある何か」を推定・抽出する技術
– 混ざっている各音源信号は「有意な潜在因子」
– 例：背景雑音のひどい信号から音声を推定
– 知能情報学・機械学習分野の一大トピック
• 機械にどうやって「音を理解」させるかという問題提起
– CASA: computational auditory scene analysis
• 「機械の耳」
– 音源分離はあらゆる音理解において必要な最初の信号処理
• いかなるシステムにおいても「雑音は直ちに抑圧されるべき」
• まずは分離，その後になにかしましょう
– 音環境認識，音声認識，音楽理解，音の検知・追跡，…
10

• 音源分離の応用先（ただし一例）
– 補聴器（hearing aid）
• うるさい環境での聞きやすさを改善，健常者さえ対象
– 音声認識（automatic speech recognition: ASR）
• Siri, Google検索, コルタナ, Amazon Echo, …
– 自動採譜（automatic music transcription）
• 楽器ごとに楽譜を作成 (Vo., Gt., Ba., …)
– 生録音された（たった一度きりの）ライブ音源の再編集
• プロ用のもの（音質改善），個人が楽しむもの (DJのリミックス), …
音源分離は何に使える？
11
分離
自動採譜
CD
楽譜

• 全然できていません！が，下記は実デバイスで稼働している一例
– スマホ等の複数マイクでの音源分離（音声強調・音声認識）
• 使われているのはほとんどMVDRビームフォーマ
– イヤホンのノイズキャンセリング機能（雑音抑圧）
• アクティブノイズコントロールと呼ばれる「適応フィルタ」の一つ
– オーディオ機器の機能のボーカルキャンセラ（音楽再編集）
• 位相反転によるキャンセルアウト（音源分離とは言い難い原始的手法）
• 何ができていない？
– ものすごくうるさい居酒屋でのストレスフリーな会話
• 眼鏡と同じくらい補聴器が普及するか
– 品質を損なわないプロ用途に耐える音楽の超精密な分離
• 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか
– 音響バーチャルリアリティ
• 画像と違ってオクルージョンが起こらない音メディアはまず分離が必須
音源分離は今どこまでできる？
12

• 残響除去（dereverberation）
– 長い残響の含まれる信号から残響成分を除去して聞きやすく
• 例：駅や空港のアナウンス
– キーワード：逆フィルタ推定，（多チャネル）線形予測
• 音源定位・追跡（source localization, source tracking）
– 停止している音源や動いている音源の空間的な位置を推定
• 例：コウモリのエコーロケーション
– 音源分離をやるか音源定位をやるか
• 位置が分かれば音源分離は容易
• 音源分離できれば音源定位は容易
– キーワード
• 音源定位：部分空間法（MUSIC法）
• 音源追跡：カルマンフィルタ，パーティクルフィルタ
音源分離と切っても切れないご近所トピック
13
たまごが先かにわとりが先か

概要
• まとめ
14

音源分離技術俯瞰：観測条件
• 得られる音響信号のチャネル数による条件の違い
– 単一チャネル信号（モノラル信号）
• 音源分離には最も困難な録音条件
– しかし最も手軽な録音方法
• 音色に関する情報しか得られない
– 劣決定条件（音源数マイク数）
• 2チャネル（ステレオ）等だが混合されて
いる音源の方がチャネルよりも多い
• 単一チャネルでは得られなかった空間
的な情報が得られる
– 各マイクで観測した信号間の振幅差と位相差
– 優決定条件（音源数マイク数）
• 十分な数のマイクがある
– 録音はマイクの同期が大変，ケーブルの山！
• 得られる空間的な情報の量も多い
– 空間情報を使う音源分離は高性能になる
15
音楽CD
L-ch
R-ch
ステレオ信号（2-ch）
モノラル録音
1ch
モノラル信号（1-ch）
マイクアレイ
1ch
Mch
多チャネル信号
2ch
…
…

音源分離技術俯瞰：前提条件
• 事前に用意できる外部からのヒント（教師情報）の有無
– 何もヒントがないブラインド音源分離
• 単一チャネルでは何らかの仮定の下でのクラスタリング問題
• 劣決定条件では時間周波数マスキング
• 優決定条件では独立成分分析
– マイクや音源の位置（空間情報）が分かる
• マイクアレイを使うならばマイクの配置（間隔等）は分かるはず
• 多チャネルの観測条件ではビームフォーマ
– 音色のサンプルがある
• 単一チャネルではクラスタリング問題を解くためのヒントになる
• 教師あり非負値行列因子分解（サンプルが少ない場合）
• ディープニューラルネットワーク（サンプルが大量にある場合）
– その他の活用できるヒントがある
• 定常雑音仮定，楽譜情報，ユーザアノテーション，カメラ等のセンサ，…
16

音源分離技術俯瞰：問題解決のためのモデル化
• 何をモデル化するか
– 音源の音色構造をモデル化（音源モデル）
• 例：非負値行列因子分解，時間周波数マスキング，
– 空間的な伝達系をモデル化（空間モデル）
• 例：ビームフォーマ，方位クラスタリング
• どのようにモデル化して解くか（cf. 前半の矢田部浩平先生の資料）
– 統計モデル
• 時間周波数領域での統計的な性質を仮定，生成モデル
• 例：非負値行列因子分解，独立成分分析
– 物理モデル
• 音波の空間伝達の物理現象を仮定（平面波仮定等）
• 例：ビームフォーマ
– 回路モデル
• 次元圧縮による特徴量抽出，音源成分毎にクラスタリング
• 例：ディープニューラルネットワーク 17
最尤推定，ベイズ推定等
最急降下法，ニュートン法等
誤差逆伝搬，確率的勾配法等

• チャネル数と教師情報の有無でカテゴリを分類
– 記載手法はごく一部（しかし有名なもの）
• 数多の拡張・応用がある
– 今日は赤文字の部分を簡単に解説します
音源分離技術俯瞰：できるだけカテゴライズ
18
条件ブラインド教師あり
単一
チャネル
（モノラル信号）
時間周波数マスキング
NMF＋スペクトル分類
スペクトル情報の教師あり空間情報の教師あり
音色的な情報時間的な情報音源位置音響的な伝達系
教師ありNMF
Denoising autoencoder
Informed NMF 無し
（モノラル信号の為）
無し
（モノラル信号の為）
劣決定
（チャネル数＜
音源数）
スパースコーディング
方位クラスタリング
多チャネルNMF
多チャネル深層学習
教師あり多チャネル
NMF
User-guidedな
多チャネルNMF
空間辞書ベースの
スパースモデリング
優決定
（チャネル数≧
音源数）
ICA
周波数領域ICA
独立ベクトル分析（IVA）
多チャネル深層学習 User-guided IVA
固定・適応ビーム
フォーマ
ロバスト適応ビーム
フォーマ

概要
• まとめ
19

• 時間的に変化する音色（スペクトル）を表現したい
– 短時間フーリエ変換（Short-time Fourier transform: STFT）
音響信号の時間周波数表現
20
時間領域
窓関数
フーリエ変換長
シフト長
時間周波数領域
時間波形
…
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラム
複素数要素を持つ行列
周波数
時間
…
パワースペクトログラム
非負（ゼロ以上）の実数要素の行列
要素毎の
絶対値と二乗

音声のパワースペクトログラム
21

音楽のパワースペクトログラム
22

• スパース（音声も音楽も）
– パワーの強い成分（黄色の部分）は全体のほんの一部
– パワーの弱い成分（暗い青色部分）が支配的
• 連続的な軌跡（音声やボーカルのみ）
– スペクトルは連続的にダイナミックに変動する
• 低ランク（特に音楽）
– 同じスペクトルのパターンの繰り返しが多い
特徴的な構造
23Speech Music

低ランク性の比較
24
ドラムギター
ボーカル音声

• 低ランク性の指標（行列の構造のシンプルさ）
– 累積特異値（cumulative singular value）で確認できる
• 行列を特異値分解して得られる特異値を大きい順に並べたときの累積
低ランク性の比較
25
95% line
7 29 Around 90
累積特異値が95％に達するときの
基底の本数
（スペクトログラムのサイズは1025x1883）
「スペクトログラムが低ランク」という構造を
モデルとして仮定して音源分離ができる

低ランク構造のモデリング手法
• 非負値行列因子分解（nonnegative matrix factorization: NMF）
– 非負制約付きの任意基底数（本）による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られるパワースペクトログラムに適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化
26
Amplitude Amplitude
混合された観測行列
(パワースペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底アクティベーション

• NMFにおける変数の最適化
– 観測とモデルの距離をコストとし変数について最小化
– 距離関数は任意
• 二乗ユークリッド距離，KLダイバージェンス，板倉斎藤擬距離，・・・
– いずれの距離関数でも閉形式の解は未発見
– 効率的な反復更新による最適化アルゴリズム
• 補助関数法に基づく乗算型更新式（最も有名）
NMFのパラメータ推定
27
（コスト関数が二乗ユークリッド距離の時の更新式）

NMFによる低ランク近似と音源分離の例
• 例
28
Pf. and Cl.
ランク1の
スペクトログラムの和

NMFによる低ランク近似と音源分離の例
• 例
– Pf. と Cl. が分離された！
– 実際は30本等の基底で混合信号を分解
• どの基底がPf.でどの基底がCl.かを推定しなければならない
• NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」
• ブラインドでは難しい・・・（挑戦例もあり） 29
Pf. Cl.
Pf. and Cl.

• もし音源毎の学習（サンプル）データが用意できる場合
• 教師ありNMF（supervised NMF）
教師ありNMFによる音源分離
30
分離ステージ
学習ステージ
学習ステージで得られる辞書
Pf.の音色
（スペクトル）
の辞書
Other bases
, , のみ最適化

• デモンストレーション
– 方位クラスタリングと教師ありNMFのハイブリッド音源分離
教師ありNMFによる音源分離例
31
原曲（混合音）
ピアノの
学習データ
分離された
ピアノ音源
ベースの
学習データ
分離された
ベース音源

• 学習データの音色が分離したい音源の音色と異なる場合
– スペクトルが異なるため音源分離の性能は大きく劣化
– 完璧な学習データを用意することは通常不可能
教師ありNMFによる音源分離の問題
32
混合信号
目的音源別のピアノ
若干異なる
学習データ
60
40
20
0
-20
Amplitude[dB]
3.02.52.01.51.00.50.0
Frequency [kHz]
Real sound
Artificial sound by MIDI
音色の違いの例（人工ピアノと実ピアノ）
混合信号
（本物のPf.とTb.）
人工Pf.を学習データ
に用いた教師あり
NMFの結果
教師あり
NMF

• 基底変形型教師ありNMF
– 学習した基底に対してというスペクトル変形項を導入
基底変形型教師ありNMFによる音源分離
33
学習ステージ
正負の値をとるスペクトル変形項
若干
異なる
分離ステージ
学習ステージで得られる辞書

• スペクトルの変形範囲を制約
– スペクトルは変形するが近い音色を表す
– 別の楽器の音に変形されることを防ぐ
基底変形型教師ありNMFによる音源分離
34
混合信号
（本物のPf.とTb.）
分離信号
教師あり
NMF
分離信号
基底変形型教師あり
NMF
学習データは同じ
（人工Pf.音）
Frequency Frequency
±30%
の場合

• デモンストレーション
– 実際の楽器の演奏録音を人工的な学習データ（シンセサイ
ザーで作成）で分離
基底変形型教師ありNMFによる音源分離例
35
本楽曲の著作権はヤマハ株式会社が保有しております。無断で複製、頒布を行なう
と著作権法違反となりますので、ご注意くださいますようお願い申し上げます。
Copyright © 2014 Yamaha Corporation. All rights reserved.
原曲
（実際の楽器音）
Sax.の学習データ
（MIDIシンセで作成）
Sax.の分離信号
Ba.の学習データ
（MIDIシンセで作成）
Ba.の分離信号
残りの信号（カラオケ）
残りの信号（カラオケ）

音源のモデル化による音源分離まとめ
• スペクトログラムの低ランク性に基づく音源分離を紹介
– NMFを活用する手法が代表的
• スペクトログラムのモデル化いろいろ
• 音源のモデル化に成功すれば単一チャネルでも分離可
– 多チャネル観測信号の「空間的な情報」に頼らないため
• 音源と空間の両方をモデル化する手法もある
– 独立成分分析，独立ベクトル分析，独立低ランク行列分析 36
周波数
時間
低ランク周波数
時間
スパース
周波数
時間
グループスパース
NMF
ロバストPCA
ロバストPCA
調波打楽器音分離
（HPSS）
モデル自動学習
Denoising autoencoder
ディープクラスタリング

概要
• まとめ
37

マイクロホンアレイと多チャネル観測信号
• マイクロホンアレイ（microphone array）
– 複数のマイクロホンを並べた録音機器
– 全マイクは同期状態で録音する（一つのAD変換器で処理）
• 「録音開始時刻やサンプリング周波数にズレが無い」ということが重要
• 「非同期マイクロホンアレイ」を対象とする研究も新しいトピック
• 多チャネル観測信号（multichannel signal）
– 各マイクの時系列信号の他にマイク間の情報（音量差，音色差，
時間差）が得られる（空間的な情報）
– 「マイクアレイから見てどの方向から音波が到来したか」 38

音のアレイ信号処理におけるビームフォーマ
• アレイ信号処理（array signal processing）
– センサアレイの多チャネル観測信号を対象とする信号処理
– マイクアレイ（音響），アンテナアレイ（無線通信），脳波センサア
レイ（生体信号），地震センサアレイ（地震動）等
• ビームフォーマ又はビームフォーミング（beamforming）
– アレイ信号処理の基礎
– 音源分離・音源定位の両方に応用可
– 固定ビームフォーマ（遅延和法，ヌルビームフォーマ等）
• 空間の物理的なモデルのみから構成される空間フィルタ
– 適応ビームフォーマ（空間ウィナーフィルタ，MVDR法等）
• 観測信号に対して適応的に構成される空間フィルタ
– 固定と適応の組み合わせ（一般化サイドローブキャンセラ）
– 全て空間的な分離を達成する「フィルタ処理」
39
赤字を紹介します

• 時間領域ではフィルタ出力の和
• 周波数領域では周波数毎の複素線形結合
– ベクトル表現では
ビームフォーマの一般型
40
畳み込み演算
…
フィルタ
フィルタ
フィルタ
…
…
複素係数
複素係数
複素係数
…
は時間インデクス
は周波数インデクス
複素係数の掛算
エルミート
（複素共役）転置
複素共役

固定ビームフォーマにおける空間的な物理モデル
• 音の到達時間差（time difference of arrival: TDOA）
– 物理モデル：音速が一定の平面波（音源が十分遠方）
– 観測される信号
41
伝搬してきた
平面波
0°
伝搬距離差に基づく
到達時間差が生じる
伝搬距離差
伝搬距離差
時間領域
周波数領域
ディラックのデルタ関数

遅延和ビームフォーマによる音源分離
• 遅延和ビームフォーマ（delay-and-sum beamforming）
– 方向から到来した音は位相が揃った状態で加算強調
– 他方向から到来した音は位相が揃わず加算抑圧
– 遅延を与えるフィルタ設計
42
遅延フィルタ
遅延フィルタ
遅延フィルタ
適切な遅延により波形の位相が揃う
観測にかかるTDOAはこのTDOAを
戻すフィルタステアリング
ベクトル
（後述）

なぜ時間領域ではなく周波数領域で議論するか
• 時間領域では「時刻ズレ」，周波数領域では「位相ズレ」
• 時刻ズレはどの程度補償できる？
– サンプル周波数：16 kHz，音速：340 m/s，マイク間隔：20 cm，
音源の到来方向：30°の場合
– TDOAはサンプリング間隔よりも短いので補償できない
• 周波数領域での位相ズレを補償するフィルタを設計する
43
時間領域
周波数領域
s
s
到達時間差
（TDOA）
1サンプル
の時間間隔

遅延和ビームフォーマの周波数特性
• より正確な遅延和ビームフォーマの記述
• 遅延和ビームフォーマは強調したい音源の方向が分か
れば設計可能
– ステアリングベクトルはで与えられ，
TDOA は物理モデルから計算できるため
• マイクロホンアレイの形状（マイクロホン数とマイクロ
ホン間隔）に依存してフィルタの周波数特性（指向性）
が決まる
– 「空間エイリアシング」が原因
– より多くのマイクロホン，より高密度のマイクロホン間隔の方が
空間的な分離性能が良い
44
各マイクで観測される
音量の違いを考慮すると

遅延和ビームフォーマの指向性例（0°強調）
45
マイク数11個，アレイサイズ1m，マイク間隔10cm
マイク数5個，アレイサイズ1m，不規則アレイ
12.5cm37.5cm
赤色実線：0.5kHz
青色破線：1kHz
緑色破線：2kHz

遅延和ビームフォーマの欠点
• 遅延和ビームフォーマで良い周波数特性を作るために
– 低周波帯域で鋭い指向性（サイドローブが小さい）
– 高周波帯域で空間エイリアシングが起きない
– マイクアレイ及び録音機器の大規模化を招く
• 小規模な装置で高性能の空間分離フィルタを作りたい
– ヌルビームフォーマ
• 原理は遅延和ビームフォーマとほぼ同じ
• 遅延和ビームフォーマは特定の方位を強調
• ヌルビームフォーマは特定の方位を抑圧
• 空間的な死角（null）を作る空間分離フィルタ
46
アレイサイズを大きくする
マイクロホン間隔を小さくして密に配置する

• ヌルビームフォーマ（null beamforming）
– 方向から到来した音は位相が揃った状態で減算抑圧
– 他方向から到来した音は位相が揃わず減算少し歪む
– フィルタ設計は遅延和法と同じ，正負をかえるだけ
– マイクロホン数に対して個の方位に死角を形成可能
• たった2個のマイクでも特定の方位の音源を（原理的には）消せる
ヌルビームフォーマによる音源分離
47
遅延フィルタ
遅延フィルタ
位相をそろえて差し引くことで出力を零にする
反転

• 依然として空間エイリアシングの問題はある
– 高周波帯域で目的方位のみにヌルを形成するためにはマイク
間隔を小さくする必要がある
• マイクロホンの個体差（感度の違い）の問題
– 実際には感度にばらつきがあるため，上図のような深いヌルを
形成することは困難
ヌルビームフォーマの指向性例（0°抑圧）
48
マイク数2個，アレイサイズ10cm，マイク間隔10cm マイク数2個，アレイサイズ20cm，マイク間隔20cm
赤色実線：0.5kHz
青色破線：1kHz
緑色破線：2kHz

• 目的の音源方位が既知の場合
– 音の空間的な伝搬を物理モデルとして仮定した固定ビーム
フォーマがよく使われ，単純な原理で信頼性も高い
– マイクロホン配置が変わるとフィルタを設計しなおす必要あり
• 固定ビームフォーマの欠点
– 物理モデルのみに依存し観測信号を全く使わないため，マイク
ロホン個体差や物理モデルの精度に敏感
• 室内音場（残響，反射，回折，気温変化），マイクロホン配置の誤差，マ
イクロホン設置機構の干渉（反射，回折），マイクロホン相互の特性誤差
（指向性，周波数特性，感度）等
• 特にヌルビームフォーマではモデル誤差の影響は深刻
• 観測信号を用いた適応的なビームフォーマを考えてゆく
– 特に最小分散無歪ビームフォーマ（MVDRビームフォーマ）は
多くの製品で実際に用いられている
固定ビームフォーマまとめ
49

• マイクロホンアレイで観測される信号を表現
– 伝達係数ベクトルはステアリングベクトル，アレイ・マニュ
フォールドベクトル，方向ベクトル，位置ベクトル等と呼ばれる
– 音源から各マイクまでの空間的な伝達系（振幅，位相の変化）
を複素数の係数で表現する
• 前述の遅延和ビームフォーマでは物理モデルからTDOAを計算しステア
リングベクトルを記述した
ステアリングベクトル
50
マイク
アレイ
観測
信号
音源
伝達係数
ベクトル
観測ベクトル

• 最小分散無歪ビームフォーマ（minimum variance and
distortionless response (MVDR) beamforming）
– 目的の方位のフィルタ出力（応答）を無歪に制約し，その他の方
位の応答を最小化する空間分離フィルタ
– 「観測信号の目的方位以外のパワー」を最小化するため，適応
ビームフォーマの一種
– 目的方位の無歪条件
– ビームフォーマの応答（平均出力パワー）
MVDRビームフォーマによる音源分離
51
ステアリングベクトルは目的方位とマイクアレイ
形状から物理モデルを用いて計算できる
（遅延和ビームフォーマと同じ）
観測のチャネル間相関行列，
空間相関行列等と呼ばれる
，フィルタは時不変なので
簡便のため周波数
インデクスは省略

– 求めるべきMVDRフィルタは
– 等式制約条件付き最小化問題なのでラグランジュの未定乗数
法で解ける
– 制約が複素数なので実数化するとコスト関数は下記
– で偏微分＝0を解く
• 複素数の偏微分は「実部と虚部」を独立変数とみなす方法と「複素変数
とその共役」を独立変数とみなす方法があり，後者は簡便になる
• cf. ウィルティンガーの微分
52
は複素数の
未定乗数

– これを拘束条件に代入して
– よってMVDRビームフォーマのフィルタは
53
但し（エルミート行列）

• MVDRビームフォーマの利点
– 物理モデルと観測信号のチャネル間相関行列を活用
• 観測信号に対して最適なフィルタを設計可能
• 物理モデルの誤差の影響も最小限に抑えられる
– 複数方位の無歪化（複数拘束条件）も容易
• 例えば正面0°だけでなく，その近傍の-5°と5°も無歪化することで強
調したい方位に少し幅を持った空間分離フィルタの設計などが可能
• MVDRビームフォーマの欠点
– 依然として分離したい目的音源の方位が既知
– 固定ビームフォーマよりも改善されているが，物理モデルの誤
差の影響はやはり避けられない
• 目的音源方位が分からなくても音源分離できないか？
– 空間モデルだけでなく音源モデルも考慮した独立成分分析の
理論へと発展
54

• 固定ビームフォーマ
– 物理モデルのみに基づくシンプルな空間分離フィルタ
– 遅延和ビームフォーマ，ヌルビームフォーマ
• 適応ビームフォーマ
– 物理モデルと観測信号に基づく空間分離フィルタ
– 空間ウィナーフィルタ，最尤推定ビームフォーマ，MVDRビーム
フォーマ
• 両者の組み合わせビームフォーマ
– 一般化サイドローブキャンセラ
• いずれにしても空間的な物理モデル誤差の影響は常に
問題となる
ビームフォーマによる音源分離まとめ
55

概要
• まとめ
56

ブラインド音源分離と独立成分分析
• ブラインド音源分離（blind source separation: BSS）
– マイク位置や音源位置等の事前情報を用いずに混合系の逆系
（分離系）を推定する信号処理技術
• 話者分離，脳波の分離，画像の分離，電波の分離等
• 独立成分分析（independent component analysis:ICA）
– 「音源が非ガウスな分布から生成されている」と「各音源は互い
に独立である」という2つの音源モデルに基づき空間分離フィル
タを推定する
– 実はブラインドな条件のヌルビームフォーマと等価
57
分離系混合系

• 基礎理論とその拡張手法
独立成分分析に基づく音源分離の歴史と発展
58
1994
1998
2013
1999
2012
Age
パーミュテーション問題
解決法の検討
NMFの様々な問題への適用
生成モデル的解釈の発見
各種拡張手法
独立成分分析（ICA）
周波数領域ICA（FDICA）
板倉斎藤擬距離NMF（ISNMF）
多チャネルNMF
独立低ランク行列分析（ILRMA）
代表的なもののみ記述
2016
2009
2006
2011 補助関数IVA（AuxIVA）
時変複素ガウスIVA
非負値行列因子分解（NMF）

Frequency
Time
IVAとNMFを融合した新しいBSS: ILRMA
• FDICA，IVA，及びILRMAの比較
59
Frequency
Time
FDICAの音源モデル
スカラー変数の非ガウス分布
（ラプラス分布）
ラプラスIVAの音源モデル
ベクトル変数の多変量な
球対称非ガウス分布
（多変量ラプラス分布）
ILRMAの音源モデル
NMFによる低ランクな
時間周波数構造
（時間周波数分散変動型
複素ガウス分布）
低ランクな時間周波数構造を
持つように分離フィルタを更新
観測信号推定信号
分離
フィルタ

音源の分布とは？
• 音声波形の分布
13
Amplitude
Time samples
0付近で急峻であり，裾が広
い分布
ガウス分布（正規分布）とは
全然違う，非ガウス分布
Amountofcomponents
Amplitude
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
ガウス分布（正規分布）

• ピアノ音波形の分布
13
Amplitude
Time samples
やはりガウス分布より尖っ
ていて裾が広い
Amountofcomponents
Amplitude
0
0.1
0.2
0.3
0.4
0.5
0.6
-5 -4 -3 -2 -1 0 1 2 3 4 5
ラプラス分布

• ドラム音の分布
13
Amplitude
Time samples
やはりガウス分布より尖っ
ていて裾が広い
Amountofcomponents
Amplitude
0
0.2
0.4
0.6
0.8
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
コーシー分布

中心極限定理の検証
63
• 音源の分布（生成モデル）は多くの場合非ガウスな分布
– しかし混合音しか観測できないので各音源の分布は不明
• 「非ガウスな分布」としか分からないのに音源モデルとして活用できるか？
• 中心極限定理（central limit theorem）
– 「いかなる分布から生成される確率変数も足していくとガウス分
布に従う確率変数に近づいてゆく」※
• 信じられない？
0
0.1
0.2
0.3
0.4
0.5
0.6
-5 -4 -3 -2 -1 0 1 2 3 4 5
ラプラス分布
0
0.002
0.004
0.006
0.008
0.01
-5 -4 -3 -2 -1 0 1 2 3 4 5
一様分布
Generate r.v.s
正規分布
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
※ただし中心極限定理を満たさない確率分布もある
（安定分布と呼ばれる）

64
• とを独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
– ではという値はどのような分布に従うか？
Amount
Amount

65
–
– でははどうか？
Amount
もはや一様分布ではなくなる

66
–
Amount
Amount

67
–
– どんどんガウス分布に近づいてゆく（中心極限定理）

音響信号を用いた中心極限定理の検証
68
• は番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
Amount
Amplitude
Amplitude
Time samples
Amount
Amplitude

69
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude

70
–
– , およそ3.3 s
Amplitude
Time samples
Amount
Amplitude
Amplitude
Time samples
Amount
Amplitude

71
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude

72
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude
ほぼ
ガウス分布

ICAの音源分離の原理
73
• 中心極限定理から言えること
– ガウス分布は「確率変数の混合の極限」にある
– もし各信号の非ガウス性を最大化することができたならば,
混合する前の信号を推定することができる（かもしれない）
非ガウス性を
最大化すること
各成分間の独立性
を最大化すること
より一般的には
混ざることでガウス分布に
近づいてゆく（中心極限定理）
非ガウス性を最大化すること
で分離されてゆく（ICA）

• ICAで用いられる仮定
– 1. 混合前の各音源は互いに独立である
– 2. 混合前の各音源は非ガウスな分布に従う
– 3. 混合系は時不変であり逆系（分離系）が存在する
混合系
未知の音源
1. 互いに独立
2. 非ガウスな分布
3. 時不変かつ
逆系が存在
10
観測できる
混合信号
逆行列

• ICAの不確定性（統計的独立性最大化をしているだけ）
– 1. 分離信号のスケール（音量）は決定できない
– 2. 分離信号の順番（パーミュテーション）は決定できない
11
ICA
ICA
未知の音源
観測できる
混合信号
未知の音源
観測できる
混合信号
推定された
分離信号
推定された
分離信号

76
• ICAの動作原理を図解（直観的な理解のため）

77

78
– 混ざる前の2つのソース信号を2軸の散布図にしてみる
– 混合前は互いに独立なソース信号なので相関は無く，平面上に
円状に分布（すでに若干楕円なのは音量（分散）が同じでないため）

– 混ざった後の2つの混合信号を2軸の散布図にしてみる
– 混合後は独立性が失われ，信号間に相関が生じるので，平面上
に楕円状に分布
79

80
– 1. 2つの観測信号（混合信号）を白色化する
• Whitening，sphering等と呼ばれ分散共分散を単位行列化する変換
• 主成分分析（PCA）＋分散の正規化で実現可能
– 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最
大）となるような回転行列を探す
• ICAの最適化アルゴリズムによって実現可能
混合前のソース信号混合後の観測信号
混合行列
白色化後の観測信号
白色化行列
回転後の分離信号
回転行列
分離行列

81
• 白色化は観測信号の分散共分散行列が単位行列となるように変換する
• 2つの観測信号間の自己相関値と相互相関値は
• の分散共分散行列は但し，
の固有値と固有ベクトルは左図
0.0095
0.0009 主成分
第二成分

82
• 白色化は観測信号の分散共分散行列が単位行列となるように変換する
• 白色化の変換行列をとすると，白色化後の信号は
• の分散共分散行列が単位行列になるようなを求める
– の固有値分解としてとすると
白色化行列
混合後の観測信号白色化後の観測信号
無相関かつ
分散が両信号とも1

83
• 白色化された観測信号が互いに独立になるように回転する
• 2次元における回転行列は
• 独立になるように回転＝ばってんが十字になる角度で回転
– そのような角度をどうやって求めるのか？
但しは反時
計回りを正と
する
白色化後の観測信号回転後の分離信号
両信号のカートシス
が最大となる角度,
すなわち両信号が
最も非ガウスになる
角度を見つける！

84
• 1度回転毎に両信号のカートシスをプロットすると
白色化後の観測信号
のカートシスのカートシス
（のカートシス）＋（のカートシス）
回転変換
0°
90°
180°
270°
338°

85
• 回転行列を
とすると
但し，分離信号とスケールは適当に決めている

86
• 回転行列を
とすると
但し，分離信号とスケールは適当に決めている

87
• 先の例は事前に白色化（無相関化＋分散の正規化）を
施し，ICAを回転行列を求める問題に落とし込んでいる
– 元々推定したかったのは混合された観測信号を分離す
る分離行列と分離信号
– 「独立化」という変換を「白色化＋座標回転」という問題に落とし
込み，求めるべき変換行列（分離行列）を回転行列に限定
• 白色化はデータのみに依存するため，何の基準も無しにできる
• 推定パラメータを削減（の4つあったパラメータがのみ1つに）
• 但し回転行列になるのは2次元の場合
• 一般的な次元の場合はユニタリ行列に限定されることに対応している
– 回転角を求める最適化を解くこともできるが，問題が限定的な
ので本講演では割愛
を満たす行列

88
• より一般的なICAの解法として，分離信号間の独立性を
最大化するを直接勾配法で求める最適化法を紹介
• 解くべき問題は「分離信号間の独立性の最大化」
– 現在の状態と独立になった状態の距離を近づける
– 確率分布間の距離＝カルバック・ライブラ（KL）ダイバージェンス
– 上記の2状態の距離を最小化する分離行列を推定する
近づける分離信号の結合分布独立信号の結合分布

89
• 独立性をKLダイバージェンスで測る目的関数は下記の
ように展開できる
結合エントロピー周辺エントロピーの和
結合エントロピーの最大化
→分離信号間の関連をなくす
→白色化（無相関化）に対応
周辺エントロピーの和を最大化
→個々の分離信号を非ガウス化
→カートシスの和の最大化に対応
結合エントロピー
周辺エントロピー

90
• 目的関数を最小化する分離行列は勾配法で推定
– 目的関数をで偏微分して勾配を求め少しずつ下っていく
勾配:
目的関数
勾配を下る更新:
非線形関数の意味
混合前の独立成分の分布を確率変数に
関して微分した関数
神のみぞ知る分布であるし，混合前の信号は
通常手に入らないので決めようがない
しかし実用上は「カートシスがガウス分布より高
いか低いか」で決めて良く，ICAは十分動く
音声のようにカートシスの高い信号には
Sigmoid関数や双曲線正接関数が用いられる
勾配法による最適化のイメージ

ICAによる音源分離まとめ
91
• 混合系（空間的な物理モデル）が未知の状態でも分離系
を推定できる
– 「各音源が非ガウスである」という統計的音源モデルを活用
• 音源間の独立性最大化という最適化問題
– 最急降下法，自然勾配法，補助関数法が最適化アルゴリズムと
して活用される
• 音響信号をICAで分離する場合
– 残響による畳み込み混合を解くために，ICAは周波数領域の各
信号に適用される
– 周波数領域ICAは「パーミュテーション問題」を引き起こす
• 各周波数ビンにおいて分離信号の順番が決まらないため，100 Hzの信号
ではy1が音源1，y2が音源2として推定されるたのに，200 Hzの信号では
y1が音源2，y2が音源1として推定されてしまう現象
• 全周波数帯域で分離信号の順番を整えるアラインメントが必要

• 実際の音響信号の混合
– 残響による畳み込み混合
• 例: 会議室では300ミリ秒，コンサートホールでは2秒等
– 時不変混合係数が時不変混合フィルタに変化
• 対残響性の向上
– 時間領域での逆フィルタを推定
• 16 kHzサンプルでは300 msのフィルタ長が4800タップ（1音源あたり）
• ICAで推定すべきパラメータが爆発的に増加→推定は困難
– 周波数領域でのICAの適用
• 周波数毎の分離行列を周波数毎のICAで推定→推定は容易
• パーミュテーション問題に直面
耐残響性の向上：周波数領域ICA（FDICA）
92
残響長
（混合フィルタのタップ長）
瞬時混合
畳み込み混合

• 周波数領域ICA（FDICA）
– 各周波数ビンの複素時系列に対して独立なICAを適用
93
スペクトログラム
ICA1
ICA2
ICA3
…
…
ICA
Frequencybin
Time frame
…
逆行列
周波数領域の時不変
瞬時混合行列

94
ICA
全て時間周波数
領域の信号
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2
Time
• FDICAにおけるパーミュテーション問題
– 各周波数ビンで推定信号の順序がバラバラになる
– 様々なパーミュテーションソルバが検討されている
※分散（スケール）もバラバラになるが，これは容易に戻すことが可能

到来方向を用いたパーミュテーション解決
95
• FDICA＋DOAクラスタリング
– 推定分離フィルタから混合フィルタを逆算
– 音源の到来方向（DOA）でクラスタリング
推定された
音源成分の頻度
到来方向（DOA）
正面左右
推定された
音源成分の頻度
到来方向（DOA）
正面左右
DOA
クラスタリング
Source 1 Source 2
正面
左右
音源とマイクアレイ間の
伝達系を表す
「ステアリングベクトル」
混合行列の列ベクトル

• FDICAで推定される分離フィルタとは？
– 周波数領域での瞬時混合を仮定
– 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
– 適応ビームフォーミング（ABF）と本質的に等価
• ABF：妨害音のみがアクティブな時間の出力二乗誤差最小化
• 妨害音に対してヌル（感度0）を打つような空間分離
• ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
– FDICAはブラインドな音源分離手法
• 混合系未知，アクティビティ検出不要
• 厳密な音源位置とマイク位置が既知の場合のビームフォーミングが
FDICAの上限性能といえる
FDICAによる音源分離のメカニズム
96
音源1
音源2
音源1の空間
分離フィルタ
音源1
分離フィルタのタップ長
はフーリエ変換の窓長
と同じ
空間分離
フィルタ

FDICAの分離フィルタとABFの分離フィルタ
97
BSSの
空間分離
フィルタ
ABFの
空間分離
フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms

• よりエレガントなアプローチ
– 分離フィルタ推定（周波数毎のICAの最適化）
– パーミュテーション問題の解決（ポスト処理）
• 独立ベクトル分析（IVA）
– ICAを多変量（多次元）分布モデルへ拡張（）
– 周波数をまとめたベクトル変数に対するICA
98
1個の問題の
最適化で実現したい
…
…
混合行列
…
…
…
観測信号
分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラーベクトル

• FDICAとIVAの違いは非ガウス音源分布のみ
– 音源の事前分布が一変量か多変量か
• IVAの仮定する音源の事前分布
– 零平均ラプラス分布の例（音声信号のモデルとして一般的）
– 後者は（互いに無相関）の場合でも，が互いに依存
• 球対称な分布を仮定していることに起因
• 高次相関性，高次依存性が生じる
IVAにおける音源分布と高次相関
99
周波数毎に独立な
事前分布
周波数間で高次相
関をもつ事前分布
分散共分散行列
のとき
ベクトルノルムにのみ依存

• 球対称音源分布の（かなりざっくりとした）定性的な説明
– 周波数間で同じ時間変動を持つ成分を一つの音源としてまとめ
る傾向にあるパーミュテーション問題の回避
IVAにおける音源分布と高次相関
100
x1とx2は互いに独立なラプラス分布
（条件付き分布はラプラス分布）
x1とx2は互いに無相関だが
依存関係がある
球対称な
二変数ラプラ
ス分布
互いに独立な
二変数ラプラス
分布

FDICAとIVAの分離原理比較
• FDICAの分離原理
• IVAの分離原理
101
観測信号
推定信号の分布形状があらかじめ仮定した非ガウス
な音源分布に近づくように分離フィルタを更新
推定信号
分離フィルタ
推定信号の
現在の分布形状
非ガウスな
音源分布
STFT
Frequency
Time
Frequency
Time
分離フィルタ
推定信号の
現在の分布形状
STFT
Frequency
Time
Frequency
Time
非ガウスな
球対称多変量
音源分布
スカラーの
確率変数
ベクトルの多変量
確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな
球対称の音源分布に近づくように分離フィルタを更新
中心極限定理より，混合信号
はガウス分布に近い信号
本来の音源信号は
非ガウス分布に従う
互いに
独立
互いに
独立

FDICA及びIVAの音源モデル拡張の動機
• ICAで仮定される非ガウスな音源分布
– 分離フィルタを推定する唯一の手がかり：音源モデル
– より正確な音源分布 → 高精度な分離フィルタの推定
– 確率分布というマクロなモデル
• 音源信号の持つ時間周波数の構造は考慮できない
– 音楽信号では音源間の独立性が弱まる
• 時間的な共起（リズム），周波数の重なり（ハーモニー）等
• 時間周波数構造を分散の変動として表現したISNMF
– 従来手法よりも正確な音源分布としてICAの推定に用いたい
– ICAの高速・安定な最適化も受け継ぎたい
• 多チャネルNMFの最適化はあまりにも非効率・不安定
• 時変分散複素ガウスIVA（時変IVA）
• 独立低ランク行列分析（ILRMA）
102

• 球対称ラプラス分布IVA（再掲）
– 定常な球対称ラプラス分布を仮定
• 時変分散複素ガウス分布IVA
– 分散が時変なパラメトリックな複素ガウス分布を仮定
– 時間方向の音源アクティビティを時変分散でモデル化
103
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布
（球対称ラプラス分布）
分散
ラプラスIVA
時変IVA
様々な非ガウス分布を仮定したIVA

104
Frequency
Time
時変IVAの
音源モデル
Frequency
Time
周波数方向には一様な分散
時変な成分
Frequency
Basis
Basis
Time
基底数（音源モデルのランク数）は任意
Frequency
Time
ILRMAの
音源モデル
時間周波数上での分散の変動を
ISNMFで低ランク表現
濃淡が分散の大小
分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入

• 独立低ランク行列分析（independent low-rank matrix analysis: ILRMA）
– 時間周波数で分散が変動する複素ガウス分布を仮定
– 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
105
イルマ
非ガウス分布
複素ガウス分布
Frequency
Basis
Basis
Time
基底数（音源モデルのランク数）は任意
Frequency
Time
提案手法の
音源モデル
時間周波数変動分散
（低ランク音源モデル）

Frequency
Time
• FDICA，IVA，及びILRMAの比較
106
Frequency
Time
FDICAの音源モデル
スカラー変数の非ガウス分布
（ラプラス分布）
ラプラスIVAの音源モデル
ベクトル変数の多変量な
球対称非ガウス分布
（多変量ラプラス分布）
ILRMAの音源モデル
NMFによる低ランクな
時間周波数構造
（時間周波数分散変動型
複素ガウス分布）
低ランクな時間周波数構造を
持つように分離フィルタを更新
分離
フィルタ

• 基礎理論とその拡張手法
独立成分分析に基づく音源分離の歴史と発展（再掲）
107
1994
1998
2013
1999
2012
Age
パーミュテーション問題
解決法の検討
NMFの様々な問題への適用
生成モデル的解釈の発見
各種拡張手法
独立成分分析（ICA）
周波数領域ICA（FDICA）
板倉斎藤擬距離NMF（ISNMF）
多チャネルNMF
独立低ランク行列分析（ILRMA）
代表的なもののみ記述
2016
2009
2006
2011 補助関数IVA（AuxIVA）
時変複素ガウスIVA
非負値行列因子分解（NMF）

• ILRMAのコスト（対数尤度）関数
– IVAの反復更新式
– NMFの反復更新式
• 音源の適切なランク数を潜在変数で推定することも可能
– Ex. ボーカルはあまり低ランクにならず，ドラムは低ランク
ILRMAのコスト関数と潜在変数の導入
108
分離信号：
ISNMFのコスト関数
（音源モデルの推定に寄与）
IVAのコスト関数
（空間分離フィルタの推定に寄与）
2つの交互最適化反復で
全変数を容易に推定可能
潜在変数の導入
0~1の値をとる潜在変数

ILRMAの最適化
• ILRMAの反復更新式（最尤推定）
– NMF変数の最適化は補助関数法に基づく乗法更新式
– 反復で尤度が単調増加することが保証されている
• 必ずどこかの局所解（停留点）へ収束
109
空間分離フィルタと分離信号の更新音源モデルの更新
但し， ,
は番目の要素のみ1で他
は0の縦ベクトル

ILRMAの更新のイメージ
• 音源毎の空間情報（空間モデル）と
各音源の音色構造（音源モデル）を交互に学習
– 音源毎の時間周波数構造を正確に捉えることで，独立性基準
での線形時不変な空間分離の性能向上が期待できる
110
空間分離フィルタ
の学習
混合信号
分離信号
音源モデル
の更新
NMF
NMF
音源モデル
の学習

IVA，多チャネルNMF，ILRMAの関連性
• 多チャネルNMFからみると
– ランク1空間制約，逆システム（分離系）の推定問題に変換
– 決定条件（マイク数＝音源数）ではILRMAと双対な問題
• 時変IVAからみると
– 音源分布の基底数を1本から任意の本数に拡張
• 独立に発展した多チャネルNMFとIVAを統一的に捉える
新しい理論
111音源モデル
空間モデル
柔軟限定的
柔軟限定的
IVA
多チャネル
NMF
ILRMA
NMFの音源
モデルを導入
空間相関行列の
ランクを1に制限

• ラプラス分布IVA（オリジナル）
• 時変ガウス分布IVA
• 多チャネルNMF
• ILRMA
112
尤度関数の比較
時間周波数変動分散
（低ランク音源モデル）

概要
• まとめ
113

まとめ
• 音源分離
– 混ざった音から混ざる前の音を推定する技術
– 観測信号のチャネル数，音源数，仮定等に応じて様々
– あらゆるモデル（仮定）を駆使して解く
– 全ての音信号を対象とした応用に活用できる重要な技術
• 音源モデル
– 音源の時間周波数構造の仮定（低ランク，スパース等）
• 空間モデル
– 物理的な音波の到来を仮定して数式で記述
114

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 音源分離における音響モデリング（Acoustic modeling in audio source separation）

Similar to 音源分離における音響モデリング（Acoustic modeling in audio source separation） (11)

More from Daichi Kitamura

More from Daichi Kitamura (20)

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Editor's Notes