More Related Content More from Daichi Kitamura (17) 非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法2. 発表概要
• 背景
– 音源分離の意義と応用
– 音源分離の技術的俯瞰
• 音の時間周波数表現とモデル化
– 短時間フーリエ変換
– 低ランク近似:非負値行列因子分解(NMF)
• 優決定ブラインド音源分離
– 独立性に基づくブラインド音源分離の発展
– 音源間の独立性と各音源の低ランク構造を用いた音源分離
– 音源分離デモンストレーション
• さらなる音源分離を目指して
2
3. 発表概要
• 背景
– 音源分離の意義と応用
– 音源分離の技術的俯瞰
• 音の時間周波数表現とモデル化
– 短時間フーリエ変換
– 低ランク近似:非負値行列因子分解(NMF)
• 優決定ブラインド音源分離
– 独立性に基づくブラインド音源分離の発展
– 音源間の独立性と各音源の低ランク構造を用いた音源分離
– 音源分離デモンストレーション
• さらなる音源分離を目指して
3
4. • 音源分離(audio source separation)
– 音響信号を対象とした信号処理技術の一つ
• 信号処理:観測信号から有益な意味や情報を引き出し活用する技術
• 知能情報学・機械学習の一大トピック
– 人の声,雑音,歌声,楽器音,機械音等の音源を「分離」
– 人間の持つカクテルパーティ効果を機械で実現:機械の耳
• カクテルパーティ効果:
うるさい場所でも特定の人物の
声に注意を向けて聞き取ること
ができる人間の能力
音源分離の工学的・社会的な重要性
4
観測信号
雑音の中に人の声がある!ただの雑音…
5. • 補聴器デバイス
– 雑音環境での聞きやすさを改善,健常者も対象
• 眼鏡と同じくらい補聴器は一般に普及するか
• 音声認識
– 耐雑音性向上,会議等の複数話者同時認識
• 自動採譜
– 楽器毎の楽譜を
音楽CDから直接作成
• ライブ音楽演奏の再編集
– 音楽演奏は一期一会,その場で音源が混合
– 音楽・芸術文化の興隆
– 芸術性を損なわない超高品音源分離
• 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか
音源分離の応用の一例
5
音楽CD
分離
6. 音源分離の技術的俯瞰:観測条件
• 観測信号のマイク数(チャネル数)による条件の違い
– 単一チャネル信号(モノラル信号)
• 音源分離には最も困難な録音条件
– 応用範囲は最も広い
• 音色に関する情報しか得られない
– 劣決定条件(音源数 マイク数)
• 2チャネル(ステレオ)等,混合されて
いる音源の方がチャネルよりも多い
• 単一チャネルでは得られなかった空間
的な情報が得られる
– 各マイクで観測した信号間の振幅差と位相差
– 優決定条件(音源数 マイク数)
• 十分な数のマイクがある
– 録音装置は大規模化,煩雑化
• 得られる空間的な情報の量も多い
– 空間情報を使う音源分離は比較的高性能 6
音楽CD
L-ch
R-ch
ステレオ信号(2-ch)
モノラル録音
1ch
モノラル信号(1-ch)
マイクアレイ
1ch
Mch
多チャネル信号
2ch
…
…
難
易
7. 音源分離の技術的俯瞰:前提条件
• 事前に用意できる外部からのヒント(教師情報)の有無
– 何もヒントがない「ブラインド音源分離」
• 複数の音源が既に混合された観測信号のみ利用可能
• 音源に関する何らかの「仮定や性質」を用いる必要あり
– 推測される音声の特徴や楽器音の特徴等
– 使えるヒントがある「教師あり音源分離」
• 音源分離問題を解くヒントがあれば分離性能は向上
• 利用可能な教師は様々
– 分離したい音源の音色サンプル(少量)
» 音色をそのままパーツとして用いる
– 分離したい音源の音色サンプル(大量)
» 近年発展している深層学習(AI)を適用
– マイク位置や音源位置等,録音時の空間的な情報
– その他,楽譜,ユーザからの指示,カメラからの情報等
• 博士論文では「優決定条件ブラインド音源分離」と「単一
チャネル教師あり音源分離」の二大トピックが対象 7
難
易
8. 発表概要
• 背景
– 音源分離の意義と応用
– 音源分離の技術的俯瞰
• 音の時間周波数表現とモデル化
– 短時間フーリエ変換
– 低ランク近似:非負値行列因子分解(NMF)
• 優決定ブラインド音源分離
– 独立性に基づくブラインド音源分離の発展
– 音源間の独立性と各音源の低ランク構造を用いた音源分離
– 音源分離デモンストレーション
• さらなる音源分離を目指して
8
13. 低ランク構造のモデリング手法
• 非負値行列因子分解(NMF) [Lee+, 1999]
– 音の時間周波数構造を少数の音色パーツで近似的に表現
• どのような音色の音が入っているかを推定可能
• 各音色パーツがどの時刻で生じるかも推定可能
– 例えば「ピアノのドの音」や「フルートのレの音」等が一つ一つ
パーツとして推定できる 13
Amplitude
Amplitude
入力の音響信号
(パワースペクトログラム)
基底行列
(音色パーツ)
アクティベーション行列
(出現タイミング)
Time
: 周波数
: 時間数
: 音色パーツ数
Time
Frequency
Frequency
14. 発表概要
• 背景
– 音源分離の意義と応用
– 音源分離の技術的俯瞰
• 音の時間周波数表現とモデル化
– 短時間フーリエ変換
– 低ランク近似:非負値行列因子分解(NMF)
• 優決定ブラインド音源分離
– 独立性に基づくブラインド音源分離の発展
– 音源間の独立性と各音源の低ランク構造を用いた音源分離
– 音源分離デモンストレーション
• さらなる音源分離を目指して
14
15. • ブラインド音源分離の困難さ
– 未知が多すぎる問題 事前学習やモデル(仮定)が必要
– 録音環境は部屋の形状,マイク位置,音源位置,気温等に依
存して変化してしまう
• 例:マイク位置が1 cmずれただけで「録音環境」は変わる
– 録音という行為はいつも一期一会,一度きりで再現不可能
– 「録音環境」の学習データを大量に集めることは通常不可能
• 事前学習を用いた解決法は取れない
– 観測信号とモデルのみを用いるブラインド音源分離が重要
優決定条件ブラインド音源分離の目的
15
混合系 分離系
音源信号
(潜在因子)
混合信号
(観測情報)
分離信号
(推定対象)
未知 未知 既知
16. • ブラインド音源分離の歴史的発展
– 独立成分分析(ICA) [Common, 1994]
• 脳科学,無線工学,メディア信号処理,金融工学等の分野で発展
– 音響メディア信号処理(音源分離)はICAの数理理論を常に牽引(最先端)
• 音源モデルはスカラーの確率変数,非ガウスな確率分布モデル
– 独立ベクトル分析(IVA) [Kim+, 2006], [Hiroe, 2006]
• 音源モデルをベクトル変数に拡張,非ガウスな多変量確率分布モデル
– 独立低ランク行列分析(ILRMA) [Kitamura+, 2016]
• 音源モデルを低ランク行列変数に拡張,信号の時間周波数構造モデル
• 正確な音源信号のモデル 高精度な分離を実現
歴史と独立低ランク行列分析
16
混合系
音源信号
(潜在因子)
混合信号
(観測情報)
互いに
独立
モデルの進化
20. 独立低ランク行列分析のこれまでの成果
20
• 学術的な成果
– 独立に提案された多チャネルNMF [Sawada+, 2013] とIVA [Kim+, 2007]
が密接に関連している事実を世界で初めて示す
• 工学的な成果
– 音声と音楽の両方で
高い分離精度
– IVAとほぼ同程度の
演算時間(高効率)
• 信号長は20秒
• 社会に与えたインパクトと応用可能性
– 掲載論文のダウンロード数で3度1位を獲得
– ACM Computing ReviewsのNotable Articles 2016に選ばれる
– 災害現場でのヘビ型被害者捜索ロボットに応用 [Bando+, 2016]
• 内閣府 革新的研究開発推進プログラム(ImPACT),ロボット雑音除去
IEEE Xploreによる計測,
IEEE/ACM Trans. ASLP誌
14
12
10
8
6
4
2
0SDRimprovement[dB]
Music
Speech
IVA 多チャネルNMF ILRMA
演算時間
13秒
演算時間
5927秒
(1.6時間)
演算時間
16秒
Bad
Good
22. 発表概要
• 背景
– 音源分離の意義と応用
– 音源分離の技術的俯瞰
• 音の時間周波数表現とモデル化
– 短時間フーリエ変換
– 低ランク近似:非負値行列因子分解(NMF)
• 優決定ブラインド音源分離
– 独立性に基づくブラインド音源分離の発展
– 音源間の独立性と各音源の低ランク構造を用いた音源分離
– 音源分離デモンストレーション
• さらなる音源分離を目指して
22