SlideShare a Scribd company logo
1 of 114
音源分離における音響モデリング
Acoustic modeling in audio source separation
東京大学大学院情報理工学系研究科
特任助教 北村大地
日本音響学会サマーセミナー@白馬
2017年9月11日(月)10:30-12:00
今日のスライド
2
SlideShareで
「Daichi Kitamura」と
検索
該当アカウントの
スライド一覧にあり〼
Tips
SlideShareのアカウント
持っている方は
パワポ形式でダウンロー
ド可能
(音や動画が再生可)
自己紹介
• 名前: 北村大地(Daichi Kitamura)
• 年齢: 27(1990年3月11日生まれ)
• 経歴:
• Twitter: @UDN48_udon
3
香川高等専門学校(旧高松工業高等専門学校)(16 ~ 22)
電気情報工学科→専攻科(創造工学専攻), 学士(工学)
奈良先端科学技術大学院大学(22 ~ 24)
情報科学研究科, 修士(工学)
総合研究大学院大学(24 ~ 27)
複合科学研究科(情報学専攻),博士(情報学)
サバゲー
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源モデル化)
– 数理・最適化理論,教師ありNMF
• 2. ビームフォーミング(空間のモデル化)
– 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ
• 3. 独立成分分析(音源と空間のモデル化)
– 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析
• まとめ
4
教科書の紹介(本日の内容をほぼ網羅する本)
• 「音のアレイ信号処理」
– 日本音響学会編 浅野太著 コロナ社
– アレイ信号処理の基礎と各技術で用いられる推定理論の
数学的準備をしっかり解説したうえで,ビームフォーマ(音
源分離),部分空間報(音源定位),音源追跡,ブラインド
音源分離を網羅的に解説
• 「詳解 独立成分分析」
– アーポ・ヒバリネン他 東京電機大学出版局
– ブラインド音源分離の基礎理論である独立成分分析(ICA)
について詳しく学びたい場合はこちら,統計的信号処理で
用いられる確率統計の基礎も詳しく解説されている
• 「Nonnegative Matrix and Tensor Factorizations」
– アンジェイ・チホッキ他 WILEY
– 非負値行列因子分解(NMF)の定式化,距離規範,各種
拡張,様々な最適化理論が紹介されているが求められる
知識レベルは若干高い,うれしいMATLABコード付き
5
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源モデル化)
– 数理・最適化理論,教師ありNMF
• 2. ビームフォーミング(空間のモデル化)
– 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ
• 3. 独立成分分析(音源と空間のモデル化)
– 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析
• まとめ
6
• 音源分離(audio source separation)
– 音響メディアを対象とした信号処理技術の一つ
– 音声,ボーカル,楽器音,雑音,複数話者等を「分離」する
– 人間の持つカクテルパーティ効果を機械で実現:機械の耳
音源分離はどんな技術?
7
音源分離はどんな技術?
• リアルタイム複数話者分離(奈良先端大旧鹿野研究室,独立成分分析)
8
音源分離はどんな技術?
• 音楽音源分離(東京大学猿渡研究室,独立低ランク行列分析)
9
ギター
ボーカル
キーボード
ギター
ボーカル
キーボード
音源分離
3つの音源があるこ
とに注意して聞いて
下さい
• 観測信号から「意味のある何か」を推定・抽出する技術
– 混ざっている各音源信号は「有意な潜在因子」
– 例:背景雑音のひどい信号から音声を推定
– 知能情報学・機械学習分野の一大トピック
• 機械にどうやって「音を理解」させるかという問題提起
– CASA: computational auditory scene analysis
• 「機械の耳」
– 音源分離はあらゆる音理解において必要な最初の信号処理
• いかなるシステムにおいても「雑音は直ちに抑圧されるべき」
• まずは分離,その後になにかしましょう
– 音環境認識,音声認識,音楽理解,音の検知・追跡,…
音源分離はどんな技術?
10
• 音源分離の応用先(ただし一例)
– 補聴器(hearing aid)
• うるさい環境での聞きやすさを改善,健常者さえ対象
– 音声認識(automatic speech recognition: ASR)
• Siri, Google検索, コルタナ, Amazon Echo, …
– 自動採譜(automatic music transcription)
• 楽器ごとに楽譜を作成 (Vo., Gt., Ba., …)
– 生録音された(たった一度きりの)ライブ音源の再編集
• プロ用のもの(音質改善),個人が楽しむもの (DJのリミックス), …
音源分離は何に使える?
11
分離
自動採譜
CD
楽譜
• 全然できていません!が,下記は実デバイスで稼働している一例
– スマホ等の複数マイクでの音源分離(音声強調・音声認識)
• 使われているのはほとんどMVDRビームフォーマ
– イヤホンのノイズキャンセリング機能(雑音抑圧)
• アクティブノイズコントロールと呼ばれる「適応フィルタ」の一つ
– オーディオ機器の機能のボーカルキャンセラ(音楽再編集)
• 位相反転によるキャンセルアウト(音源分離とは言い難い原始的手法)
• 何ができていない?
– ものすごくうるさい居酒屋でのストレスフリーな会話
• 眼鏡と同じくらい補聴器が普及するか
– 品質を損なわないプロ用途に耐える音楽の超精密な分離
• 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか
– 音響バーチャルリアリティ
• 画像と違ってオクルージョンが起こらない音メディアはまず分離が必須
音源分離は今どこまでできる?
12
• 残響除去(dereverberation)
– 長い残響の含まれる信号から残響成分を除去して聞きやすく
• 例:駅や空港のアナウンス
– キーワード:逆フィルタ推定,(多チャネル)線形予測
• 音源定位・追跡(source localization, source tracking)
– 停止している音源や動いている音源の空間的な位置を推定
• 例:コウモリのエコーロケーション
– 音源分離をやるか音源定位をやるか
• 位置が分かれば音源分離は容易
• 音源分離できれば音源定位は容易
– キーワード
• 音源定位:部分空間法(MUSIC法)
• 音源追跡:カルマンフィルタ,パーティクルフィルタ
音源分離と切っても切れないご近所トピック
13
たまごが先か にわとりが先か
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源モデル化)
– 数理・最適化理論,教師ありNMF
• 2. ビームフォーミング(空間のモデル化)
– 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ
• 3. 独立成分分析(音源と空間のモデル化)
– 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析
• まとめ
14
音源分離技術俯瞰:観測条件
• 得られる音響信号のチャネル数による条件の違い
– 単一チャネル信号(モノラル信号)
• 音源分離には最も困難な録音条件
– しかし最も手軽な録音方法
• 音色に関する情報しか得られない
– 劣決定条件(音源数 マイク数)
• 2チャネル(ステレオ)等だが混合されて
いる音源の方がチャネルよりも多い
• 単一チャネルでは得られなかった空間
的な情報が得られる
– 各マイクで観測した信号間の振幅差と位相差
– 優決定条件(音源数 マイク数)
• 十分な数のマイクがある
– 録音はマイクの同期が大変,ケーブルの山!
• 得られる空間的な情報の量も多い
– 空間情報を使う音源分離は高性能になる
15
音楽CD
L-ch
R-ch
ステレオ信号(2-ch)
モノラル録音
1ch
モノラル信号(1-ch)
マイクアレイ
1ch
Mch
多チャネル信号
2ch
…
…
音源分離技術俯瞰:前提条件
• 事前に用意できる外部からのヒント(教師情報)の有無
– 何もヒントがないブラインド音源分離
• 単一チャネルでは何らかの仮定の下でのクラスタリング問題
• 劣決定条件では時間周波数マスキング
• 優決定条件では独立成分分析
– マイクや音源の位置(空間情報)が分かる
• マイクアレイを使うならばマイクの配置(間隔等)は分かるはず
• 多チャネルの観測条件ではビームフォーマ
– 音色のサンプルがある
• 単一チャネルではクラスタリング問題を解くためのヒントになる
• 教師あり非負値行列因子分解(サンプルが少ない場合)
• ディープニューラルネットワーク(サンプルが大量にある場合)
– その他の活用できるヒントがある
• 定常雑音仮定,楽譜情報,ユーザアノテーション,カメラ等のセンサ,…
16
音源分離技術俯瞰:問題解決のためのモデル化
• 何をモデル化するか
– 音源の音色構造をモデル化(音源モデル)
• 例:非負値行列因子分解,時間周波数マスキング,
– 空間的な伝達系をモデル化(空間モデル)
• 例:ビームフォーマ,方位クラスタリング
• どのようにモデル化して解くか(cf. 前半の矢田部浩平先生の資料)
– 統計モデル
• 時間周波数領域での統計的な性質を仮定,生成モデル
• 例:非負値行列因子分解,独立成分分析
– 物理モデル
• 音波の空間伝達の物理現象を仮定(平面波仮定等)
• 例:ビームフォーマ
– 回路モデル
• 次元圧縮による特徴量抽出,音源成分毎にクラスタリング
• 例:ディープニューラルネットワーク 17
最尤推定,ベイズ推定等
最急降下法,ニュートン法等
誤差逆伝搬,確率的勾配法等
• チャネル数と教師情報の有無でカテゴリを分類
– 記載手法はごく一部(しかし有名なもの)
• 数多の拡張・応用がある
– 今日は赤文字の部分を簡単に解説します
音源分離技術俯瞰:できるだけカテゴライズ
18
条件 ブラインド 教師あり
単一
チャネル
(モノラル信号)
時間周波数マスキング
NMF+スペクトル分類
スペクトル情報の教師あり 空間情報の教師あり
音色的な情報 時間的な情報 音源位置 音響的な伝達系
教師ありNMF
Denoising autoencoder
Informed NMF 無し
(モノラル信号の為)
無し
(モノラル信号の為)
劣決定
(チャネル数<
音源数)
スパースコーディング
時間周波数マスキング
方位クラスタリング
多チャネルNMF
スペクトル情報の教師あり 空間情報の教師あり
音色的な情報 時間的な情報 音源位置 音響的な伝達系
多チャネル深層学習
教師あり多チャネル
NMF
User-guidedな
多チャネルNMF
時間周波数マスキング
空間辞書ベースの
スパースモデリング
優決定
(チャネル数≧
音源数)
ICA
周波数領域ICA
独立ベクトル分析(IVA)
スペクトル情報の教師あり 空間情報の教師あり
音色的な情報 時間的な情報 音源位置 音響的な伝達系
多チャネル深層学習 User-guided IVA
固定・適応ビーム
フォーマ
ロバスト適応ビーム
フォーマ
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源モデル化)
– 数理・最適化理論,教師ありNMF
• 2. ビームフォーミング(空間のモデル化)
– 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ
• 3. 独立成分分析(音源と空間のモデル化)
– 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析
• まとめ
19
• 時間的に変化する音色(スペクトル)を表現したい
– 短時間フーリエ変換(Short-time Fourier transform: STFT)
音響信号の時間周波数表現
20
時間領域
窓関数
フーリエ変換長
シフト長
時間周波数領域
時間波形
…
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラム
複素数要素を持つ行列
周波数
時間
…
パワースペクトログラム
非負(ゼロ以上)の実数要素の行列
要素毎の
絶対値と二乗
音声のパワースペクトログラム
21
音楽のパワースペクトログラム
22
• スパース(音声も音楽も)
– パワーの強い成分(黄色の部分)は全体のほんの一部
– パワーの弱い成分(暗い青色部分)が支配的
• 連続的な軌跡(音声やボーカルのみ)
– スペクトルは連続的にダイナミックに変動する
• 低ランク(特に音楽)
– 同じスペクトルのパターンの繰り返しが多い
特徴的な構造
23Speech Music
低ランク性の比較
24
ドラム ギター
ボーカル 音声
• 低ランク性の指標(行列の構造のシンプルさ)
– 累積特異値(cumulative singular value)で確認できる
• 行列を特異値分解して得られる特異値を大きい順に並べたときの累積
低ランク性の比較
25
95% line
7 29 Around 90
累積特異値が95%に達するときの
基底の本数
(スペクトログラムのサイズは1025x1883)
「スペクトログラムが低ランク」という構造を
モデルとして仮定して音源分離ができる
低ランク構造のモデリング手法
• 非負値行列因子分解(nonnegative matrix factorization: NMF)
– 非負制約付きの任意基底数( 本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られるパワースペクトログラムに適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化
26
Amplitude Amplitude
混合された観測行列
(パワースペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底 アクティベーション
• NMFにおける変数の最適化
– 観測 とモデル の距離をコストとし変数について最小化
– 距離関数は任意
• 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・
– いずれの距離関数でも閉形式の解は未発見
– 効率的な反復更新による最適化アルゴリズム
• 補助関数法に基づく乗算型更新式(最も有名)
NMFのパラメータ推定
27
(コスト関数が二乗ユークリッド距離 の時の更新式)
NMFによる低ランク近似と音源分離の例
• 例
28
Pf. and Cl.
ランク1の
スペクトログラムの和
NMFによる低ランク近似と音源分離の例
• 例
– Pf. と Cl. が分離された!
– 実際は30本等の基底で混合信号を分解
• どの基底がPf.でどの基底がCl.かを推定しなければならない
• NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」
• ブラインドでは難しい・・・(挑戦例もあり) 29
Pf. Cl.
Pf. and Cl.
• もし音源毎の学習(サンプル)データが用意できる場合
• 教師ありNMF(supervised NMF)
教師ありNMFによる音源分離
30
分離ステージ
学習ステージ
学習ステージで得られる辞書
Pf.の音色
(スペクトル)
の辞書
Other bases
, , のみ最適化
• デモンストレーション
– 方位クラスタリングと教師ありNMFのハイブリッド音源分離
教師ありNMFによる音源分離例
31
原曲(混合音)
ピアノの
学習データ
分離された
ピアノ音源
ベースの
学習データ
分離された
ベース音源
• 学習データの音色が分離したい音源の音色と異なる場合
– スペクトルが異なるため音源分離の性能は大きく劣化
– 完璧な学習データを用意することは通常不可能
教師ありNMFによる音源分離の問題
32
混合信号
目的音源 別のピアノ
若干異なる
学習データ
60
40
20
0
-20
Amplitude[dB]
3.02.52.01.51.00.50.0
Frequency [kHz]
Real sound
Artificial sound by MIDI
音色の違いの例(人工ピアノと実ピアノ)
混合信号
(本物のPf.とTb.)
人工Pf.を学習データ
に用いた教師あり
NMFの結果
教師あり
NMF
• 基底変形型教師ありNMF
– 学習した基底 に対して というスペクトル変形項を導入
基底変形型教師ありNMFによる音源分離
33
学習ステージ
正負の値をとるスペクトル変形項
若干
異なる
分離ステージ
学習ステージで得られる辞書
• スペクトルの変形範囲を制約
– スペクトルは変形するが近い音色を表す
– 別の楽器の音に変形されることを防ぐ
基底変形型教師ありNMFによる音源分離
34
混合信号
(本物のPf.とTb.)
分離信号
教師あり
NMF
分離信号
基底変形型教師あり
NMF
学習データは同じ
(人工Pf.音)
Frequency Frequency
±30%
の場合
• デモンストレーション
– 実際の楽器の演奏録音を人工的な学習データ(シンセサイ
ザーで作成)で分離
基底変形型教師ありNMFによる音源分離例
35
本楽曲の著作権はヤマハ株式会社が保有しております。無断で複製、頒布を行なう
と著作権法違反となりますので、ご注意くださいますようお願い申し上げます。
Copyright © 2014 Yamaha Corporation. All rights reserved.
原曲
(実際の楽器音)
Sax.の学習データ
(MIDIシンセで作成)
Sax.の分離信号
Ba.の学習データ
(MIDIシンセで作成)
Ba.の分離信号
残りの信号(カラオケ)
残りの信号(カラオケ)
音源のモデル化による音源分離まとめ
• スペクトログラムの低ランク性に基づく音源分離を紹介
– NMFを活用する手法が代表的
• スペクトログラムのモデル化いろいろ
• 音源のモデル化に成功すれば単一チャネルでも分離可
– 多チャネル観測信号の「空間的な情報」に頼らないため
• 音源と空間の両方をモデル化する手法もある
– 独立成分分析,独立ベクトル分析,独立低ランク行列分析 36
周波数
時間
低ランク 周波数
時間
スパース
周波数
時間
グループスパース
NMF
ロバストPCA
時間周波数マスキング
ロバストPCA
調波打楽器音分離
(HPSS)
モデル自動学習
Denoising autoencoder
ディープクラスタリング
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源モデル化)
– 数理・最適化理論,教師ありNMF
• 2. ビームフォーミング(空間のモデル化)
– 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ
• 3. 独立成分分析(音源と空間のモデル化)
– 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析
• まとめ
37
マイクロホンアレイと多チャネル観測信号
• マイクロホンアレイ(microphone array)
– 複数のマイクロホンを並べた録音機器
– 全マイクは同期状態で録音する(一つのAD変換器で処理)
• 「録音開始時刻やサンプリング周波数にズレが無い」ということが重要
• 「非同期マイクロホンアレイ」を対象とする研究も新しいトピック
• 多チャネル観測信号(multichannel signal)
– 各マイクの時系列信号の他にマイク間の情報(音量差,音色差,
時間差)が得られる(空間的な情報)
– 「マイクアレイから見てどの方向から音波が到来したか」 38
音のアレイ信号処理におけるビームフォーマ
• アレイ信号処理(array signal processing)
– センサアレイの多チャネル観測信号を対象とする信号処理
– マイクアレイ(音響),アンテナアレイ(無線通信),脳波センサア
レイ(生体信号),地震センサアレイ(地震動)等
• ビームフォーマ又はビームフォーミング(beamforming)
– アレイ信号処理の基礎
– 音源分離・音源定位の両方に応用可
– 固定ビームフォーマ(遅延和法,ヌルビームフォーマ等)
• 空間の物理的なモデルのみから構成される空間フィルタ
– 適応ビームフォーマ(空間ウィナーフィルタ,MVDR法等)
• 観測信号に対して適応的に構成される空間フィルタ
– 固定と適応の組み合わせ(一般化サイドローブキャンセラ)
– 全て空間的な分離を達成する「フィルタ処理」
39
赤字を紹介します
• 時間領域ではフィルタ出力の和
• 周波数領域では周波数毎の複素線形結合
– ベクトル表現では
ビームフォーマの一般型
40
畳み込み演算
…
フィルタ
フィルタ
フィルタ
…
…
複素係数
複素係数
複素係数
…
は時間インデクス
は周波数インデクス
複素係数の掛算
エルミート
(複素共役)転置
複素共役
固定ビームフォーマにおける空間的な物理モデル
• 音の到達時間差(time difference of arrival: TDOA)
– 物理モデル:音速 が一定の平面波(音源が十分遠方)
– 観測される信号
41
伝搬してきた
平面波
0°
伝搬距離差に基づく
到達時間差が生じる
伝搬距離差
伝搬距離差
時間領域
周波数領域
ディラックのデルタ関数
遅延和ビームフォーマによる音源分離
• 遅延和ビームフォーマ(delay-and-sum beamforming)
– 方向から到来した音は位相が揃った状態で加算 強調
– 他方向から到来した音は位相が揃わず加算 抑圧
– 遅延を与えるフィルタ設計
42
遅延フィルタ
遅延フィルタ
遅延フィルタ
適切な遅延により波形の位相が揃う
観測にかかるTDOAは このTDOAを
戻すフィルタステアリング
ベクトル
(後述)
なぜ時間領域ではなく周波数領域で議論するか
• 時間領域では「時刻ズレ」,周波数領域では「位相ズレ」
• 時刻ズレはどの程度補償できる?
– サンプル周波数:16 kHz,音速:340 m/s,マイク間隔:20 cm,
音源の到来方向:30°の場合
– TDOAはサンプリング間隔よりも短いので補償できない
• 周波数領域での位相ズレを補償するフィルタを設計する
43
時間領域
周波数領域
s
s
到達時間差
(TDOA)
1サンプル
の時間間隔
遅延和ビームフォーマの周波数特性
• より正確な遅延和ビームフォーマの記述
• 遅延和ビームフォーマは強調したい音源の方向 が分か
れば設計可能
– ステアリングベクトルは で与えられ,
TDOA は物理モデルから計算できるため
• マイクロホンアレイの形状(マイクロホン数 とマイクロ
ホン間隔 )に依存してフィルタの周波数特性(指向性)
が決まる
– 「空間エイリアシング」が原因
– より多くのマイクロホン,より高密度のマイクロホン間隔の方が
空間的な分離性能が良い
44
各マイクで観測される
音量の違いを考慮すると
遅延和ビームフォーマの指向性例(0°強調)
45
マイク数11個,アレイサイズ1m,マイク間隔10cm
マイク数5個,アレイサイズ1m,マイク間隔25cm
マイク数21個,アレイサイズ2m,マイク間隔10cm
マイク数5個,アレイサイズ1m,不規則アレイ
12.5cm37.5cm
赤色実線:0.5kHz
青色破線:1kHz
緑色破線:2kHz
遅延和ビームフォーマの欠点
• 遅延和ビームフォーマで良い周波数特性を作るために
– 低周波帯域で鋭い指向性(サイドローブが小さい)
– 高周波帯域で空間エイリアシングが起きない
– マイクアレイ及び録音機器の大規模化を招く
• 小規模な装置で高性能の空間分離フィルタを作りたい
– ヌルビームフォーマ
• 原理は遅延和ビームフォーマとほぼ同じ
• 遅延和ビームフォーマは特定の方位を強調
• ヌルビームフォーマは特定の方位を抑圧
• 空間的な死角(null)を作る空間分離フィルタ
46
アレイサイズを大きくする
マイクロホン間隔を小さくして密に配置する
• ヌルビームフォーマ(null beamforming)
– 方向から到来した音は位相が揃った状態で減算 抑圧
– 他方向から到来した音は位相が揃わず減算 少し歪む
– フィルタ設計は遅延和法と同じ,正負をかえるだけ
– マイクロホン数 に対して 個の方位に死角を形成可能
• たった2個のマイクでも特定の方位の音源を(原理的には)消せる
ヌルビームフォーマによる音源分離
47
遅延フィルタ
遅延フィルタ
位相をそろえて差し引くことで出力を零にする
反転
• 依然として空間エイリアシングの問題はある
– 高周波帯域で目的方位のみにヌルを形成するためにはマイク
間隔を小さくする必要がある
• マイクロホンの個体差(感度の違い)の問題
– 実際には感度にばらつきがあるため,上図のような深いヌルを
形成することは困難
ヌルビームフォーマの指向性例(0°抑圧)
48
マイク数2個,アレイサイズ10cm,マイク間隔10cm マイク数2個,アレイサイズ20cm,マイク間隔20cm
赤色実線:0.5kHz
青色破線:1kHz
緑色破線:2kHz
• 目的の音源方位が既知の場合
– 音の空間的な伝搬を物理モデルとして仮定した固定ビーム
フォーマがよく使われ,単純な原理で信頼性も高い
– マイクロホン配置が変わるとフィルタを設計しなおす必要あり
• 固定ビームフォーマの欠点
– 物理モデルのみに依存し観測信号を全く使わないため,マイク
ロホン個体差や物理モデルの精度に敏感
• 室内音場(残響,反射,回折,気温変化),マイクロホン配置の誤差,マ
イクロホン設置機構の干渉(反射,回折),マイクロホン相互の特性誤差
(指向性,周波数特性,感度)等
• 特にヌルビームフォーマではモデル誤差の影響は深刻
• 観測信号を用いた適応的なビームフォーマを考えてゆく
– 特に最小分散無歪ビームフォーマ(MVDRビームフォーマ)は
多くの製品で実際に用いられている
固定ビームフォーマまとめ
49
• マイクロホンアレイで観測される信号を表現
– 伝達係数ベクトル はステアリングベクトル,アレイ・マニュ
フォールドベクトル,方向ベクトル,位置ベクトル等と呼ばれる
– 音源から各マイクまでの空間的な伝達系(振幅,位相の変化)
を複素数の係数で表現する
• 前述の遅延和ビームフォーマでは物理モデルからTDOAを計算しステア
リングベクトルを記述した
ステアリングベクトル
50
マイク
アレイ
観測
信号
音源
伝達係数
ベクトル
観測ベクトル
• 最小分散無歪ビームフォーマ(minimum variance and
distortionless response (MVDR) beamforming)
– 目的の方位のフィルタ出力(応答)を無歪に制約し,その他の方
位の応答を最小化する空間分離フィルタ
– 「観測信号の目的方位以外のパワー」を最小化するため,適応
ビームフォーマの一種
– 目的方位の無歪条件
– ビームフォーマの応答(平均出力パワー)
MVDRビームフォーマによる音源分離
51
ステアリングベクトルは目的方位とマイクアレイ
形状から物理モデルを用いて計算できる
(遅延和ビームフォーマと同じ)
観測のチャネル間相関行列,
空間相関行列等と呼ばれる
,フィルタ は時不変なので
簡便のため周波数
インデクスは省略
• 最小分散無歪ビームフォーマ(minimum variance and
distortionless response (MVDR) beamforming)
– 求めるべきMVDRフィルタは
– 等式制約条件付き最小化問題なのでラグランジュの未定乗数
法で解ける
– 制約が複素数なので実数化するとコスト関数は下記
– で偏微分=0を解く
• 複素数の偏微分は「実部と虚部」を独立変数とみなす方法と「複素変数
とその共役」を独立変数とみなす方法があり,後者は簡便になる
• cf. ウィルティンガーの微分
MVDRビームフォーマによる音源分離
52
は複素数の
未定乗数
• 最小分散無歪ビームフォーマ(minimum variance and
distortionless response (MVDR) beamforming)
– これを拘束条件に代入して
– よってMVDRビームフォーマのフィルタは
MVDRビームフォーマによる音源分離
53
但し (エルミート行列)
• MVDRビームフォーマの利点
– 物理モデル と観測信号のチャネル間相関行列 を活用
• 観測信号に対して最適なフィルタを設計可能
• 物理モデルの誤差の影響も最小限に抑えられる
– 複数方位の無歪化(複数拘束条件)も容易
• 例えば正面0°だけでなく,その近傍の-5°と5°も無歪化することで強
調したい方位に少し幅を持った空間分離フィルタの設計などが可能
• MVDRビームフォーマの欠点
– 依然として分離したい目的音源の方位が既知
– 固定ビームフォーマよりも改善されているが,物理モデルの誤
差の影響はやはり避けられない
• 目的音源方位が分からなくても音源分離できないか?
– 空間モデルだけでなく音源モデルも考慮した独立成分分析の
理論へと発展
MVDRビームフォーマによる音源分離
54
• 固定ビームフォーマ
– 物理モデルのみに基づくシンプルな空間分離フィルタ
– 遅延和ビームフォーマ,ヌルビームフォーマ
• 適応ビームフォーマ
– 物理モデルと観測信号に基づく空間分離フィルタ
– 空間ウィナーフィルタ,最尤推定ビームフォーマ,MVDRビーム
フォーマ
• 両者の組み合わせビームフォーマ
– 一般化サイドローブキャンセラ
• いずれにしても空間的な物理モデル誤差の影響は常に
問題となる
ビームフォーマによる音源分離まとめ
55
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源モデル化)
– 数理・最適化理論,教師ありNMF
• 2. ビームフォーミング(空間のモデル化)
– 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ
• 3. 独立成分分析(音源と空間のモデル化)
– 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析
• まとめ
56
ブラインド音源分離と独立成分分析
• ブラインド音源分離(blind source separation: BSS)
– マイク位置や音源位置等の事前情報を用いずに混合系の逆系
(分離系)を推定する信号処理技術
• 話者分離,脳波の分離,画像の分離,電波の分離等
• 独立成分分析(independent component analysis:ICA)
– 「音源が非ガウスな分布から生成されている」と「各音源は互い
に独立である」という2つの音源モデルに基づき空間分離フィル
タを推定する
– 実はブラインドな条件のヌルビームフォーマと等価
57
分離系混合系
• 基礎理論とその拡張手法
独立成分分析に基づく音源分離の歴史と発展
58
1994
1998
2013
1999
2012
Age
パーミュテーション問題
解決法の検討
NMFの様々な問題への適用
生成モデル的解釈の発見
各種拡張手法
独立成分分析(ICA)
周波数領域ICA(FDICA)
板倉斎藤擬距離NMF(ISNMF)
独立ベクトル分析(IVA)
多チャネルNMF
独立低ランク行列分析(ILRMA)
代表的なもののみ記述
2016
2009
2006
2011 補助関数IVA(AuxIVA)
時変複素ガウスIVA
非負値行列因子分解(NMF)
Frequency
Time
IVAとNMFを融合した新しいBSS: ILRMA
• FDICA,IVA,及びILRMAの比較
59
Frequency
Time
FDICAの音源モデル
スカラー変数の非ガウス分布
(ラプラス分布)
ラプラスIVAの音源モデル
ベクトル変数の多変量な
球対称非ガウス分布
(多変量ラプラス分布)
ILRMAの音源モデル
NMFによる低ランクな
時間周波数構造
(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を
持つように分離フィルタを更新
観測信号 推定信号
分離
フィルタ
音源の分布とは?
• 音声波形の分布
13
Amplitude
Time samples
0付近で急峻であり,裾が広
い分布
ガウス分布(正規分布)とは
全然違う,非ガウス分布
Amountofcomponents
Amplitude
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
ガウス分布(正規分布)
音源の分布とは?
• ピアノ音波形の分布
13
Amplitude
Time samples
やはりガウス分布より尖っ
ていて裾が広い
Amountofcomponents
Amplitude
0
0.1
0.2
0.3
0.4
0.5
0.6
-5 -4 -3 -2 -1 0 1 2 3 4 5
ラプラス分布
音源の分布とは?
• ドラム音の分布
13
Amplitude
Time samples
やはりガウス分布より尖っ
ていて裾が広い
Amountofcomponents
Amplitude
0
0.2
0.4
0.6
0.8
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
コーシー分布
中心極限定理の検証
63
• 音源の分布(生成モデル)は多くの場合非ガウスな分布
– しかし混合音しか観測できないので各音源の分布 は不明
• 「非ガウスな分布」としか分からないのに音源モデルとして活用できるか?
• 中心極限定理(central limit theorem)
– 「いかなる分布から生成される確率変数も足していくとガウス分
布に従う確率変数に近づいてゆく」※
• 信じられない?
0
0.1
0.2
0.3
0.4
0.5
0.6
-5 -4 -3 -2 -1 0 1 2 3 4 5
ラプラス分布
0
0.002
0.004
0.006
0.008
0.01
-5 -4 -3 -2 -1 0 1 2 3 4 5
一様分布
Generate r.v.s
正規分布
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
※ただし中心極限定理を満たさない確率分布もある
(安定分布と呼ばれる)
中心極限定理の検証
64
• と を独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
– では という値はどのような分布に従うか?
Amount
Amount
中心極限定理の検証
65
• と を独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
– では はどうか?
Amount
もはや一様分布ではなくなる
中心極限定理の検証
66
• と を独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
Amount
Amount
中心極限定理の検証
67
• と を独立な「サイコロの目」の確率変数とする
–
– おそらくどの目も生成確率は1/6
• それぞれのサイコロを100万回降った結果
– どんどんガウス分布に近づいてゆく(中心極限定理)
音響信号を用いた中心極限定理の検証
68
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
Amount
Amplitude
Amplitude
Time samples
Amount
Amplitude
音響信号を用いた中心極限定理の検証
69
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude
音響信号を用いた中心極限定理の検証
70
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
Amount
Amplitude
Amplitude
Time samples
Amount
Amplitude
音響信号を用いた中心極限定理の検証
71
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude
音響信号を用いた中心極限定理の検証
72
• は 番目の話者の音声信号
–
– , およそ3.3 s
Amplitude
Time samples
AmountAmplitude
ほぼ
ガウス分布
ICAの音源分離の原理
73
• 中心極限定理から言えること
– ガウス分布は「確率変数の混合の極限」にある
– もし各信号の非ガウス性を最大化することができたならば,
混合する前の信号を推定することができる(かもしれない)
ICAの音源分離の原理
非ガウス性を
最大化すること
各成分間の独立性
を最大化すること
より一般的には
混ざることでガウス分布に
近づいてゆく(中心極限定理)
非ガウス性を最大化すること
で分離されてゆく(ICA)
ICAの音源分離の原理
• ICAで用いられる仮定
– 1. 混合前の各音源は互いに独立である
– 2. 混合前の各音源は非ガウスな分布に従う
– 3. 混合系は時不変であり逆系(分離系)が存在する
混合系
未知の音源
1. 互いに独立
2. 非ガウスな分布
3. 時不変かつ
逆系が存在
10
観測できる
混合信号
逆行列
ICAの音源分離の原理
• ICAの不確定性(統計的独立性最大化をしているだけ)
– 1. 分離信号のスケール(音量)は決定できない
– 2. 分離信号の順番(パーミュテーション)は決定できない
11
ICA
ICA
未知の音源
観測できる
混合信号
未知の音源
観測できる
混合信号
推定された
分離信号
推定された
分離信号
ICAの音源分離の原理
76
• ICAの動作原理を図解(直観的な理解のため)
ICAの音源分離の原理
77
• ICAの動作原理を図解(直観的な理解のため)
ICAの音源分離の原理
78
• ICAの動作原理を図解(直観的な理解のため)
– 混ざる前の2つのソース信号を2軸の散布図にしてみる
– 混合前は互いに独立なソース信号なので相関は無く,平面上に
円状に分布(すでに若干楕円なのは音量(分散)が同じでないため)
• ICAの動作原理を図解(直観的な理解のため)
– 混ざった後の2つの混合信号を2軸の散布図にしてみる
– 混合後は独立性が失われ,信号間に相関が生じるので,平面上
に楕円状に分布
ICAの音源分離の原理
79
ICAの音源分離の原理
80
• ICAの動作原理を図解(直観的な理解のため)
– 1. 2つの観測信号(混合信号)を白色化する
• Whitening,sphering等と呼ばれ分散共分散を単位行列化する変換
• 主成分分析(PCA)+分散の正規化で実現可能
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• ICAの最適化アルゴリズムによって実現可能
混合前のソース信号 混合後の観測信号
混合行列
白色化後の観測信号
白色化行列
回転後の分離信号
回転行列
分離行列
ICAの音源分離の原理
81
• ICAの動作原理を図解(直観的な理解のため)
– 1. 2つの観測信号(混合信号)を白色化する
• 白色化は観測信号の分散共分散行列が単位行列となるように変換する
• 2つの観測信号 間の自己相関値 と相互相関値 は
• の分散共分散行列 は 但し,
の固有値と固有ベクトルは左図
0.0095
0.0009 主成分
第二成分
ICAの音源分離の原理
82
• ICAの動作原理を図解(直観的な理解のため)
– 1. 2つの観測信号(混合信号)を白色化する
• 白色化は観測信号の分散共分散行列が単位行列となるように変換する
• 白色化の変換行列を とすると,白色化後の信号は
• の分散共分散行列 が単位行列になるような を求める
– の固有値分解として とすると
白色化行列
混合後の観測信号 白色化後の観測信号
無相関かつ
分散が両信号とも1
ICAの音源分離の原理
83
• ICAの動作原理を図解(直観的な理解のため)
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• 白色化された観測信号が互いに独立になるように回転する
• 2次元における回転行列 は
• 独立になるように回転=ばってんが十字になる角度で回転
– そのような角度 をどうやって求めるのか?
但し は反時
計回りを正と
する
白色化後の観測信号 回転後の分離信号
両信号のカートシス
が最大となる角度,
すなわち両信号が
最も非ガウスになる
角度を見つける!
ICAの音源分離の原理
84
• ICAの動作原理を図解(直観的な理解のため)
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• 白色化された観測信号が互いに独立になるように回転する
• 1度回転毎に両信号のカートシスをプロットすると
白色化後の観測信号
のカートシス のカートシス
( のカートシス)+( のカートシス)
回転変換
0°
90°
180°
270°
338°
ICAの音源分離の原理
85
• ICAの動作原理を図解(直観的な理解のため)
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• 白色化された観測信号が互いに独立になるように回転する
• 回転行列 を
とすると
白色化後の観測信号 回転後の分離信号
但し,分離信号 と スケールは適当に決めている
ICAの音源分離の原理
86
• ICAの動作原理を図解(直観的な理解のため)
– 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最
大)となるような回転行列を探す
• 白色化された観測信号が互いに独立になるように回転する
• 回転行列 を
とすると
白色化後の観測信号 回転後の分離信号
但し,分離信号 と スケールは適当に決めている
ICAの音源分離の原理
87
• 先の例は事前に白色化(無相関化+分散の正規化)を
施し,ICAを回転行列を求める問題に落とし込んでいる
– 元々推定したかったのは混合された観測信号 を分離す
る分離行列 と分離信号
– 「独立化」という変換を「白色化+座標回転」という問題に落とし
込み,求めるべき変換行列(分離行列)を回転行列に限定
• 白色化はデータのみに依存するため,何の基準も無しにできる
• 推定パラメータを削減( の4つあったパラメータが のみ1つに)
• 但し回転行列になるのは2次元の場合
• 一般的な次元の場合はユニタリ行列に限定されることに対応している
– 回転角 を求める最適化を解くこともできるが,問題が限定的な
ので本講演では割愛
を満たす行列
ICAの音源分離の原理
88
• より一般的なICAの解法として,分離信号間の独立性を
最大化する を直接勾配法で求める最適化法を紹介
• 解くべき問題は「分離信号間の独立性の最大化」
– 現在の状態と独立になった状態の距離を近づける
– 確率分布間の距離=カルバック・ライブラ(KL)ダイバージェンス
– 上記の2状態の距離を最小化する分離行列 を推定する
近づける分離信号の結合分布 独立信号の結合分布
ICAの音源分離の原理
89
• 独立性をKLダイバージェンスで測る目的関数は下記の
ように展開できる
結合エントロピー 周辺エントロピーの和
結合エントロピーの最大化
→分離信号間の関連をなくす
→白色化(無相関化)に対応
周辺エントロピーの和を最大化
→個々の分離信号を非ガウス化
→カートシスの和の最大化に対応
結合エントロピー
周辺エントロピー
ICAの音源分離の原理
90
• 目的関数を最小化する分離行列 は勾配法で推定
– 目的関数を で偏微分して勾配を求め少しずつ下っていく
勾配:
目的関数
勾配を下る更新:
非線形関数 の意味
混合前の独立成分の分布 を確率変数に
関して微分した関数
神のみぞ知る分布であるし,混合前の信号は
通常手に入らないので決めようがない
しかし実用上は「カートシスがガウス分布より高
いか低いか」で決めて良く,ICAは十分動く
音声のようにカートシスの高い信号には
Sigmoid関数や双曲線正接関数が用いられる
勾配法による最適化のイメージ
ICAによる音源分離まとめ
91
• 混合系(空間的な物理モデル)が未知の状態でも分離系
を推定できる
– 「各音源が非ガウスである」という統計的音源モデルを活用
• 音源間の独立性最大化という最適化問題
– 最急降下法,自然勾配法,補助関数法が最適化アルゴリズムと
して活用される
• 音響信号をICAで分離する場合
– 残響による畳み込み混合を解くために,ICAは周波数領域の各
信号に適用される
– 周波数領域ICAは「パーミュテーション問題」を引き起こす
• 各周波数ビンにおいて分離信号の順番が決まらないため,100 Hzの信号
ではy1が音源1,y2が音源2として推定されるたのに,200 Hzの信号では
y1が音源2,y2が音源1として推定されてしまう現象
• 全周波数帯域で分離信号の順番を整えるアラインメントが必要
• 実際の音響信号の混合
– 残響による畳み込み混合
• 例: 会議室では300ミリ秒,コンサートホールでは2秒等
– 時不変混合係数 が時不変混合フィルタ に変化
• 対残響性の向上
– 時間領域での逆フィルタ を推定
• 16 kHzサンプルでは300 msのフィルタ長が4800タップ(1音源あたり)
• ICAで推定すべきパラメータが爆発的に増加→推定は困難
– 周波数領域でのICAの適用
• 周波数毎の分離行列 を周波数毎のICAで推定→推定は容易
• パーミュテーション問題に直面
耐残響性の向上:周波数領域ICA(FDICA)
92
残響長
(混合フィルタのタップ長)
瞬時混合
畳み込み混合
耐残響性の向上:周波数領域ICA(FDICA)
• 周波数領域ICA(FDICA)
– 各周波数ビンの複素時系列に対して独立なICAを適用
93
スペクトログラム
ICA1
ICA2
ICA3
…
…
ICA
Frequencybin
Time frame
…
逆行列
周波数領域の時不変
瞬時混合行列
耐残響性の向上:周波数領域ICA(FDICA)
94
ICA
全て時間周波数
領域の信号
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2
Time
• FDICAにおけるパーミュテーション問題
– 各周波数ビンで推定信号の順序がバラバラになる
– 様々なパーミュテーションソルバが検討されている
※分散(スケール)もバラバラになるが,これは容易に戻すことが可能
到来方向を用いたパーミュテーション解決
95
• FDICA+DOAクラスタリング
– 推定分離フィルタ から混合フィルタ を逆算
– 音源の到来方向(DOA)でクラスタリング
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
DOA
クラスタリング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の
伝達系を表す
「ステアリングベクトル」
混合行列の列ベクトル
• FDICAで推定される分離フィルタ とは?
– 周波数領域での瞬時混合を仮定
– 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
– 適応ビームフォーミング(ABF)と本質的に等価
• ABF:妨害音のみがアクティブな時間の出力二乗誤差最小化
• 妨害音に対してヌル(感度0)を打つような空間分離
• ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
– FDICAはブラインドな音源分離手法
• 混合系未知,アクティビティ検出不要
• 厳密な音源位置とマイク位置が既知の場合のビームフォーミングが
FDICAの上限性能といえる
FDICAによる音源分離のメカニズム
96
音源1
音源2
音源1の空間
分離フィルタ
音源1
分離フィルタのタップ長
はフーリエ変換の窓長
と同じ
空間分離
フィルタ
FDICAの分離フィルタとABFの分離フィルタ
97
BSSの
空間分離
フィルタ
ABFの
空間分離
フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
独立ベクトル分析(IVA)
• よりエレガントなアプローチ
– 分離フィルタ推定(周波数毎のICAの最適化)
– パーミュテーション問題の解決(ポスト処理)
• 独立ベクトル分析(IVA)
– ICAを多変量(多次元)分布モデルへ拡張( )
– 周波数をまとめたベクトル変数に対するICA
98
1個の問題の
最適化で実現したい
…
…
混合行列
…
…
…
観測信号
分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
• FDICAとIVAの違いは非ガウス音源分布のみ
– 音源の事前分布が一変量か多変量か
• IVAの仮定する音源の事前分布
– 零平均ラプラス分布の例(音声信号のモデルとして一般的)
– 後者は (互いに無相関)の場合でも, が互いに依存
• 球対称な分布を仮定していることに起因
• 高次相関性,高次依存性が生じる
IVAにおける音源分布と高次相関
99
周波数毎に独立な
事前分布
周波数間で高次相
関をもつ事前分布
分散共分散行列
のとき
ベクトルノルムにのみ依存
• 球対称音源分布の(かなりざっくりとした)定性的な説明
– 周波数間で同じ時間変動を持つ成分を一つの音源としてまとめ
る傾向にある パーミュテーション問題の回避
IVAにおける音源分布と高次相関
100
x1とx2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1とx2は互いに無相関だが
依存関係がある
球対称な
二変数ラプラ
ス分布
互いに独立な
二変数ラプラス
分布
FDICAとIVAの分離原理比較
• FDICAの分離原理
• IVAの分離原理
101
観測信号
推定信号の分布形状があらかじめ仮定した非ガウス
な音源分布に近づくように分離フィルタを更新
推定信号
分離フィルタ
推定信号の
現在の分布形状
非ガウスな
音源分布
STFT
Frequency
Time
Frequency
Time
観測信号 推定信号
分離フィルタ
推定信号の
現在の分布形状
STFT
Frequency
Time
Frequency
Time
非ガウスな
球対称多変量
音源分布
スカラーの
確率変数
ベクトルの多変量
確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな
球対称の音源分布に近づくように分離フィルタを更新
中心極限定理より,混合信号
はガウス分布に近い信号
本来の音源信号は
非ガウス分布に従う
互いに
独立
互いに
独立
FDICA及びIVAの音源モデル拡張の動機
• ICAで仮定される非ガウスな音源分布
– 分離フィルタを推定する唯一の手がかり:音源モデル
– より正確な音源分布 → 高精度な分離フィルタの推定
– 確率分布というマクロなモデル
• 音源信号の持つ時間周波数の構造は考慮できない
– 音楽信号では音源間の独立性が弱まる
• 時間的な共起(リズム),周波数の重なり(ハーモニー) 等
• 時間周波数構造を分散の変動として表現したISNMF
– 従来手法よりも正確な音源分布としてICAの推定に用いたい
– ICAの高速・安定な最適化も受け継ぎたい
• 多チャネルNMFの最適化はあまりにも非効率・不安定
• 時変分散複素ガウスIVA(時変IVA)
• 独立低ランク行列分析(ILRMA)
102
• 球対称ラプラス分布IVA(再掲)
– 定常な球対称ラプラス分布を仮定
• 時変分散複素ガウス分布IVA
– 分散が時変なパラメトリックな複素ガウス分布を仮定
– 時間方向の音源アクティビティを時変分散でモデル化
103
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布
(球対称ラプラス分布)
分散
ラプラスIVA
時変IVA
様々な非ガウス分布を仮定したIVA
104
Frequency
Time
時変IVAの
音源モデル
Frequency
Time
周波数方向には一様な分散
時変な成分
Frequency
Basis
Basis
Time
基底数(音源モデルのランク数)は任意
Frequency
Time
ILRMAの
音源モデル
時間周波数上での分散の変動を
ISNMFで低ランク表現
濃淡が分散の大小
分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
IVAとNMFを融合した新しいBSS: ILRMA
• 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA)
– 時間周波数で分散が変動する複素ガウス分布を仮定
– 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
105
イ ル マ
非ガウス分布
複素ガウス分布
Frequency
Basis
Basis
Time
基底数(音源モデルのランク数)は任意
Frequency
Time
提案手法の
音源モデル
時間周波数変動分散
(低ランク音源モデル)
Frequency
Time
IVAとNMFを融合した新しいBSS: ILRMA
• FDICA,IVA,及びILRMAの比較
106
Frequency
Time
FDICAの音源モデル
スカラー変数の非ガウス分布
(ラプラス分布)
ラプラスIVAの音源モデル
ベクトル変数の多変量な
球対称非ガウス分布
(多変量ラプラス分布)
ILRMAの音源モデル
NMFによる低ランクな
時間周波数構造
(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を
持つように分離フィルタを更新
観測信号 推定信号
分離
フィルタ
• 基礎理論とその拡張手法
独立成分分析に基づく音源分離の歴史と発展(再掲)
107
1994
1998
2013
1999
2012
Age
パーミュテーション問題
解決法の検討
NMFの様々な問題への適用
生成モデル的解釈の発見
各種拡張手法
独立成分分析(ICA)
周波数領域ICA(FDICA)
板倉斎藤擬距離NMF(ISNMF)
独立ベクトル分析(IVA)
多チャネルNMF
独立低ランク行列分析(ILRMA)
代表的なもののみ記述
2016
2009
2006
2011 補助関数IVA(AuxIVA)
時変複素ガウスIVA
非負値行列因子分解(NMF)
• ILRMAのコスト(対数尤度)関数
– IVAの反復更新式
– NMFの反復更新式
• 音源の適切なランク数を潜在変数で推定することも可能
– Ex. ボーカルはあまり低ランクにならず,ドラムは低ランク
ILRMAのコスト関数と潜在変数の導入
108
分離信号:
ISNMFのコスト関数
(音源モデルの推定に寄与)
IVAのコスト関数
(空間分離フィルタの推定に寄与)
2つの交互最適化反復で
全変数を容易に推定可能
潜在変数の導入
0~1の値をとる潜在変数
ILRMAの最適化
• ILRMAの反復更新式(最尤推定)
– NMF変数の最適化は補助関数法に基づく乗法更新式
– 反復で尤度が単調増加することが保証されている
• 必ずどこかの局所解(停留点)へ収束
109
空間分離フィルタと分離信号の更新 音源モデルの更新
但し, ,
は 番目の要素のみ1で 他
は0の縦ベクトル
ILRMAの更新のイメージ
• 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
– 音源毎の時間周波数構造を正確に捉えることで,独立性基準
での線形時不変な空間分離の性能向上が期待できる
110
空間分離フィルタ
の学習
混合信号
分離信号
音源モデル
の更新
NMF
NMF
音源モデル
の学習
IVA,多チャネルNMF,ILRMAの関連性
• 多チャネルNMFからみると
– ランク1空間制約,逆システム(分離系)の推定問題に変換
– 決定条件(マイク数=音源数)ではILRMAと双対な問題
• 時変IVAからみると
– 音源分布の基底数を1本から任意の本数に拡張
• 独立に発展した多チャネルNMFとIVAを統一的に捉える
新しい理論
111音源モデル
空間モデル
柔軟限定的
柔軟限定的
IVA
多チャネル
NMF
ILRMA
NMFの音源
モデルを導入
空間相関行列の
ランクを1に制限
• ラプラス分布IVA(オリジナル)
• 時変ガウス分布IVA
• 多チャネルNMF
• ILRMA
112
尤度関数の比較
時間周波数変動分散
(低ランク音源モデル)
概要
• 音源分離の目的と応用
– どんな技術?何に使える?今どこまでできる?
– 関連する音響信号処理技術の紹介
• 代表的な音源分離技術の俯瞰
– 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定
• 1. 非負値行列因子分解(音源モデル化)
– 数理・最適化理論,教師ありNMF
• 2. ビームフォーミング(空間のモデル化)
– 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ
• 3. 独立成分分析(音源と空間のモデル化)
– 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析
• まとめ
113
まとめ
• 音源分離
– 混ざった音から混ざる前の音を推定する技術
– 観測信号のチャネル数,音源数,仮定等に応じて様々
– あらゆるモデル(仮定)を駆使して解く
– 全ての音信号を対象とした応用に活用できる重要な技術
• 音源モデル
– 音源の時間周波数構造の仮定(低ランク,スパース等)
• 空間モデル
– 物理的な音波の到来を仮定して数式で記述
114

More Related Content

What's hot

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 

What's hot (20)

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 

Similar to 音源分離における音響モデリング(Acoustic modeling in audio source separation)

Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Daichi Kitamura
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化Kitamura Laboratory
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)Hajime Saito
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Daichi Kitamura
 
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習ymmt3-lab
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 

Similar to 音源分離における音響モデリング(Acoustic modeling in audio source separation) (11)

Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
 
静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 

More from Daichi Kitamura

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceDaichi Kitamura
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Daichi Kitamura
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Daichi Kitamura
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Daichi Kitamura
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Daichi Kitamura
 

More from Daichi Kitamura (20)

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
 

音源分離における音響モデリング(Acoustic modeling in audio source separation)

Editor's Notes

  1. You are drinking at the party. Of cause many people are simultaneously talking, BUT you can listen only one voice if you pay attention to that person, and if the person is very cute, right? Anyway, we all can separate many voices and make a chatting with one person even if the other people is talking in the same room. This is a special ability of a human being, which is called “Cocktail party effect.” But the question is, how can we do the same thing by a computer? How do we know the process of the audio source separation in brain? This is a deep question, and many researchers around the world are working to reveal the process of audio source separation, and simulate that by the computer.
  2. Before we dive into the details, I show some demonstrations of audio source separation. This is a video for real-time speech source separation, which is developed by Prof. Saruwatari, the boss of our laboratory. I’m sorry but the video is only in Japanese, but I think you can understand what’s going on. After Prof. Saruwatari got a patent of this device, Japanese police employed this device as their equipment. I heard that he was complaining because his wife monopolized much money.
  3. Anyway, the next one is a music source separation. Here we have a mixture signal of three parts. It’s just like a typical music. Please pay attention to listen three parts, guitar, vocal, and keyboard, OK? Let’s listen. Then, if we apply source separation, we can obtain this kind of signals. So, we can remix them, re-edit them, or anything we want. This is a source separation.
  4. If we could achieve such a thing, many applications could be realized. For example, So, the audio source separation can be used any of audio systems, as a front-end. Before we do something to the audio signal, it should be separated in each sound source.
  5. If we could achieve such a thing, many applications could be realized. For example, So, the audio source separation can be used any of audio systems, as a front-end. Before we do something to the audio signal, it should be separated in each sound source.
  6. If we could achieve such a thing, many applications could be realized. For example, So, the audio source separation can be used any of audio systems, as a front-end. Before we do something to the audio signal, it should be separated in each sound source.
  7. But in the audio signal processing, we apply a short-time Fourier transform, STFT, to see the time-varying frequency structure of audio signals. This is an audio waveform. In STFT, first, we split the waveform in a bunch of pieces with some overlaps like this. We call these length as shift length and FFT length. This is a very basic approach for audio signal processing. Almost all techniques for audio signals, we apply STFT first, then do something to the spectrogram.
  8. These properties can be used for modeling the power spectrogram, and such modeling enables us to do some processing, such as a source separation. Especially, the low-rankness is really useful for audio source separation. I will tell about that issue later, but let’s confirm the low-rank property from an objective view.
  9. ここから音楽信号にどのような特徴があるかについて,実例とともに直感的に説明します.これは頂いたコメントの修正に対応しております. これらはドラム,ギター,ボーカル,音声の4つの信号を時間と周波数で表現したパワースペクトログラムと呼ばれる図です.各時間での各周波数成分の強度を示しています. ドラムやギターといった楽器音信号は同じ音を何度も繰り返すという性質を持っていることが分かります.また,ボーカルや音声信号はダイナミックにピッチが変動している様子が見て取れます. 当然音声にも子音や母音,抑揚といった構造は存在しますが,それらは音楽信号の「同じパターンの繰り返しが多い」という構造よりもずっと複雑です. このような特質の違いは,これらを二次元の非負行列と考えたときに,ランク構造として現れます.
  10. 先に上から So, we don’t require an information of positions of each microphone, position of sources, or recording environment.
  11. This is a history of basic theories in audio BSS field. For acoustic signals, independent component analysis, ICA, was applied to the frequency domain signals as FDICA. After that, many permutation solvers for FDICA have been proposed, but eventually, an elegant solution, independent vector analysis, IVA was proposed. It is still extended to more flexible models. On the other hand, nonnegative matrix factorization, NMF, is also developed and extended to a multichannel signals for source separation problems. Recently, we have developed a new framework, which unifies these two powerful theories, called independent low-rank matrix analysis, ILRMA. I will explain about the detail.
  12. まず,混ざる前の音源信号は非ガウスな分布から生成されていると仮定します.この仮定は多くの場合に有効で,事実音声や楽器音などはガウス分布よりも裾の重い,とんがった優ガウスな分布に従います. このような音源信号が混ざった観測信号は,中心極限定理により,ガウス分布に近い信号になります. FDICAでは分離後の信号の時間周波数領域の周波数毎の時系列信号に対して,スカラーの生成モデルを考えています.はじめは分離フィルタが正しくないため,推定信号はまだ混ざった状態で,その信号の分布はガウス分布に近くなります.そこでICAは,この推定信号の分布形状が,あらかじめ仮定しておいた非ガウスな分布になるように分離フィルタを更新していきます.ここで,仮定しておく非ガウスな音源分布を「音源モデル」と呼び,これらは音源間で互いに独立と仮定しています. このように,ガウスな信号から遠ざけ,音源モデルに従う信号を推定することで,混ざる前の音源が推定できる,というのがICAの原理で,それを周波数成分ごとに動かしているのがFDICAです. IVAでも原理は同じですが,FDICAで周波数毎に独立に定義されていたスカラー確率変数をまとめて多変量なベクトルの時系列信号とし,この図のように球対称な多変量非ガウス分布に近づけます. こちらも初めは多変量ガウス分布だったものが,更新によってそれぞれの信号が非ガウスな音源モデルへと近づき,分離されるという仕組みです. IVAでは球対称な多変量分布を仮定することで,周波数間の依存関係も考慮されており,FDICAよりも高精度な分離が可能です. どちらも,音声の分離などではラプラス分布,あるいは多変量ラプラス分布などが音源モデルとして利用されています.
  13. この提案法を「独立低ランク行列分析」と名付け,以後ILRMAと呼びます. 図の通り,時間と周波数で分散が変動するような複素ガウス分布を音源モデルとして仮定しており,全体はやはり非ガウスな分布となっています. このようなモデルを音源ごとに与えることで,分離した音源が「互いに独立」かつ「できるだけ低ランクスペクトログラム」になるような仕組みとなっています.
  14. This is a history of basic theories in audio BSS field. For acoustic signals, independent component analysis, ICA, was applied to the frequency domain signals as FDICA. After that, many permutation solvers for FDICA have been proposed, but eventually, an elegant solution, independent vector analysis, IVA was proposed. It is still extended to more flexible models. On the other hand, nonnegative matrix factorization, NMF, is also developed and extended to a multichannel signals for source separation problems. Recently, we have developed a new framework, which unifies these two powerful theories, called independent low-rank matrix analysis, ILRMA. I will explain about the detail.
  15. 提案手法ILRMAの対数尤度関数はこのように得られます.ここで(クリック)青丸で囲った空間分離フィルタWと,赤丸で囲ったNMF音源モデルTVが求めるべき変数になります.(クリック) さらにこの式は,(クリック)前半が従来のIVAのコスト関数と等価であり,(クリック)後半が従来のNMFのコスト関数と等価です.(クリック) したがって,IVAとNMFの反復更新式を交互に反復することで全変数を容易に推定できます. さらに,音源毎に適切なランク数を潜在変数で適応的に決定することも可能です. これは,冒頭で示した通り,音楽信号といえどもボーカルはあまり低ランクにならず,ドラム信号は低ランク,といったことが起こりえますので,音源毎の適切なランクが変わります. そのような状況に対して尤度最大化の基準で自動的に基底を割り振るのがこの潜在変数の役割です.
  16. ILRMAの反復更新式はこのように導出できます. 空間分離フィルタの更新と音源モデルの更新を交互に行うことで,全変数が最適化されます. これらの反復計算で尤度が単調増加することが保証されているので,初期値近傍の局所解への収束が保証されています.
  17. つまり,提案手法はまず空間分離フィルタを学習し,それで分離された信号の音色構造をNMFで学習,その結果得られる音源モデルを空間分離フィルタの学習に再利用し,さらに高精度な分離信号が得られる,という反復になります. このプロセスを何度も更新することで,音源毎の明確な音色構造が捉えられ,空間分離フィルタの性能向上が期待できます.
  18. また,論文ではNMFの多チャネル信号への拡張手法である多チャネルNMFとILRMAが密接に関連しているという事実を明らかにしています. 簡単に説明いたしますと,従来の多チャネルNMFで定義されている空間情報に関するモデル「空間相関行列」のランクが1となる制約を課した場合とILRMAが等価となる,という事実です. ただし,多チャネルNMFは混合系を推定する手法であり,ILRMAやIVAのように分離系を推定する技術とは異なります.そのため,多チャネルNMFは計算効率や不安定性の観点から実用性にやや欠ける点があります.これに関しては比較実験で示します.