More Related Content
PPTX
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... PPTX
PDF
PPTX
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m... PPTX
Music signal separation using supervised nonnegative matrix factorization wit... PPTX
Divergence optimization based on trade-off between separation and extrapolati... PPTX
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 PPTX
Study on optimal divergence for superresolution-based supervised nonnegative ... What's hot
PPTX
PPTX
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation) PPTX
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価 PPTX
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... PPTX
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... PDF
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea... PPTX
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) PPTX
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 PPTX
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... PPTX
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... PDF
PPTX
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia... PDF
PDF
PPTX
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 PPTX
Evaluation of separation accuracy for various real instruments based on super... PPTX
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... PPTX
Optimal divergence diversity for superresolution-based nonnegative matrix fac... PPTX
Discriminative SNMF EA201603 Viewers also liked
ODP
PPTX
PDF
英語リスニング研究最前線:実験音声学からのアプローチ PPTX
Blind Source Separation using Dictionary Learning PDF
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015) PDF
PDF
PDF
リスニング訓練法としての シャドーイングとリピーティング PDF
PDF
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価 PDF
音声を検索するための索引付け方式の紹介(初心者向け) PDF
PPTX
PPTX
PPTX
PPTX
SIGGRAPH 2014 Preview -"Shape Collection" Session PDF
破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜 PPTX
PDF
111228 speech organ_slides PDF
Similar to Kameoka2012 talk07 1
PDF
PPTX
PDF
ODP
PPTX
音楽信号処理における基本周波数推定を応用した心拍信号解析 PDF
分布あるいはモーメント間距離最小化に基づく統計的音声合成 PDF
PPTX
PPTX
周波数双方向再帰に基づく深層パーミュテーション解決法 PDF
Neural text-to-speech and voice conversion PDF
PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」 PDF
ICASSP 2019での音響信号処理分野の世界動向 PDF
PDF
PDF
PDF
Deep learning for acoustic modeling in parametric speech generation PDF
PDF
PDF
機械学習を用いた最近の聴覚研究(日本音響学会サマーセミナー講演資料) Kameoka2012 talk07 1
- 1.
- 2.
スパース表現 基底関数
基底関数 Dictionary
1.データ を の形のモデルで表現
2. がスパース (少数を除きほとんどが0)
低ランクモデル
複雑なデータセットを少ない基底で表現
データ数 基底数
基底のスパース正則化学習
データに混在する独立な情報を抽出
- 3.
スパース表現による音響信号処理
実世界音響信号処理
観測信号から現象を説明することが目的
いかに実世界音響信号の構成音をうまくモデル化できるか
メッセージ伝達媒体としての音
離散的なシンボル情報を波形で表現し伝達 実世界音響信号
音声 音素単位 (/a/, /i/, /u/, ... ) ...
音源A 音源B
音楽 音階単位 (ド,レ,ミ,ファ, ...)
各シンボルがどういう波形で表現されるかは
音源に固有(すなわち未知)
要素A 要素B ...
音源の仮定とモデル化
(仮定)
音源信号は限られた種類のシンボル単位 少ない基底関数の
に相当する未知の独立成分から成る スパースな重畳
- 4.
- 5.
- 6.
振幅スペクトログラムの分解表現
音響信号
周波数→
振幅スペクトログラム
短時間フーリエ変換
(時間周波数分解)
規則性が!
絶対値をとる
:時刻 に周波数 の成分が
どれほど含まれているか
各基底の
アクティビティ
時刻→
非負値行列因子分解 (NMF)
振幅スペクトル基底
周波数→
低ランクスペクトログラム 基底数10
基底数30
繰り返し生起する
振幅スペクトルパターンが表出
時刻→
- 7.
「複素NMF」の提案
音響信号 (波形同士は加法的)
短時間フーリエ変換
・・・線形な変換
(時間周波数分解)
(もちろん加法的)
絶対値をとる ・・・非線形な変換
:時刻 に周波数 の成分が
どれほど含まれているか
(振幅スペクトル
同士は非加法的)
NMFモデル
複素NMFモデル 振幅スペクトル?
複素スペクトログラム をモデル化
行列積の形にならない!
(新しいクラスのスパース表現モデル)
- 8.
- 9.
- 10.
- 11.
複素NMFアルゴリズム
補助関数法
を満たす任意の定数
subject to
回目の反復計算後のパラメータ値:
Step 1)
Step 2)
- 12.
複素NMFアルゴリズム
補助関数法
を満たす任意の定数
subject to
回目の反復計算後のパラメータ値:
Step 1)
Step 2)
は増加しない!
- 13.
複素NMFアルゴリズム
補助関数法
を満たす任意の定数
subject to
回目の反復計算後のパラメータ値:
Step 1)
Step 2)
は増加しない!
- 14.
NMFと等価となる条件
Step 1)
[条件1]
を に
Step 2) 初期設定する
は
Step1, Step2に対して
不動点になっている!
[条件2]
Step 3) を実行
を満たす任意の定数
- 15.
NMFと等価となる条件 複素NMFはNMFを包含
Step 1)
[条件1]
を に
Step 2) 初期設定する
は
Step1, Step2に対して
不動点になっている!
[条件2]
Step 3) を実行
を満たす任意の定数
Lee & Seungが導出したNMFアルゴリズム
[Lee & Seung 2000]と等価!
- 16.
- 18.
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
目的: ブラインド音声強調のための音声モデリング
音源分離/残響除去・・・室内伝達系と音声信号が未知
音声信号らしさの規準(モデル)をうまく仮定することが重要
(例) 非ガウス性 独立成分分析に基づくブラインド音源分離
観測モデルの例 (マイクロホン数: M, 音源数: M) [吉岡,中谷,三好 音講論(秋)’08]
観測信号の時間周波数成分 残響除去フィルタ
( : 周波数, : 時刻)
瞬時混合信号
分離行列 音源成分
音源の確率モデル を設計できれば...
観測モデルに従って密度関数の変数変換
- 25.
目的: ブラインド音声強調のための音声モデリング
音源分離/残響除去・・・室内伝達系と音声信号が未知
音声信号らしさの規準(モデル)をうまく仮定することが重要
(例) 非ガウス性 独立成分分析に基づくブラインド音源分離
観測モデルの例 (マイクロホン数: M, 音源数: M) [吉岡,中谷,三好 音講論(秋)’08]
観測信号の時間周波数成分 残響除去フィルタ
( : 周波数, : 時刻)
瞬時混合信号
分離行列 音源成分
音源の確率モデル を設計できれば...
観測モデルに従って密度関数の変数変換
仮定: と は独立
- 26.
目的: ブラインド音声強調のための音声モデリング
音源分離/残響除去・・・室内伝達系と音声信号が未知
音声信号らしさの規準(モデル)をうまく仮定することが重要
(例) 非ガウス性 独立成分分析に基づくブラインド音源分離
観測モデルの例 (マイクロホン数: M, 音源数: M) [吉岡,中谷,三好 音講論(秋)’08]
観測信号の時間周波数成分 残響除去フィルタ
( : 周波数, : 時刻)
瞬時混合信号
分離行列 音源成分
音源の確率モデル を設計できれば...
観測モデルに従って密度関数の変数変換
仮定: と は独立
- 27.
目的: ブラインド音声強調のための音声モデリング
音源分離/残響除去・・・室内伝達系と音声信号が未知
音声信号らしさの規準(モデル)をうまく仮定することが重要
(例) 非ガウス性 独立成分分析に基づくブラインド音源分離
観測モデルの例 (マイクロホン数: M, 音源数: M) [吉岡,中谷,三好 音講論(秋)’08]
観測信号の時間周波数成分 残響除去フィルタ
( : 周波数, : 時刻)
瞬時混合信号
分離行列 音源成分
音源の確率モデル を設計できれば...
観測モデルに従って密度関数の変数変換
仮定: と は独立
音源分離&残響除去: の最尤/MAP推定
- 28.
目的: ブラインド音声強調のための音声モデリング
音源分離/残響除去・・・室内伝達系と音声信号が未知
音声信号らしさの規準(モデル)をうまく仮定することが重要
(例) 非ガウス性 独立成分分析に基づくブラインド音源分離
観測モデルの例 (マイクロホン数: M, 音源数: M) [吉岡,中谷,三好 音講論(秋)’08]
音声の統計モデル
観測信号の時間周波数成分 残響除去フィルタ
“複合自己回帰系”
( : 周波数, : 時刻)
の提案
瞬時混合信号
分離行列 音源成分
音源の確率モデル を設計できれば...
観測モデルに従って密度関数の変数変換
仮定: と は独立
音源分離&残響除去: の最尤/MAP推定
- 29.
- 30.
- 31.
- 32.
- 33.
- 34.
音声生成モデル(ソースフィルタモデル)
自己回帰系による短時間フレーム 内の信号モデル
声帯による駆動源に対応 声道特性(音素)に対応
定常Gauss過程 次の全極型モデル
白色性 音声では...
音素の種類は
framewise自己回帰系
限られている! 複合自己回帰系
フィ フレームごとに別個 全フレームで高々J種類
ルタ の全極モデル の全極モデルを仮定
音声では...
白色性を仮定 パワースペクトル密度
ピッチの範囲は
(パワースペクトル 自体がパラメータ
入力 限られている!
密度が平坦) 全フレームで高々I種類
パワースペクトル密度(PSD) 実際は違う! のパワースペクトル密度
- 35.
- 36.
要素信号スペクトルの確率密度関数
全極型
駆動源特性 フィルタ 要素信号
PSD
PSD
PSD
Gauss雑音
・駆動信号スペクトル :
・声道フィルタ通過後 :
・アクティベート後 :
ここで, , とすると
- 37.
- 38.
- 39.
EMアルゴリズムによる最適化
M番目の話者の
音声パワースペクトル密度推定値
(Step 1: 音源分離) を固定
(Step 3: 音声パラメータ推定) を固定
(Step 2: 残響除去) を固定
をEMアルゴリズムにより行う!
- 40.
- 41.
残響環境下ブラインド音源分離実験
実験条件
パラメータの推定更新回数: 300回
信号 : 2種類の日本語発話音声
Src#1: 女性話者(8s),Src#2: 女性話者(8s)
マイクロホン4本
収音環境: 残響時間0.5ms
信号の混合条件 (Signal-to-Interference Ratio)
Mic#1 Mic#2 Mic#3 Mic#4
Src#1 -0.59 -0.32 -0.14 +0.57
Src#2 +0.59 +0.32 +0.14 -0.57 単位: [dB]
- 42.
残響環境下ブラインド音源分離実験
実験結果
・混合条件
Mic#1 Mic#2 Mic#3 Mic#4
Src#1 -0.59 -0.32 -0.14 +0.57
Src#2 +0.59 +0.32 +0.14 -0.57 単位: [dB]
・Src#1の分離性能 : SDR (Signal-to-Distortion ratio)
提案法 従来法
SIR +19.9 dB +17.2 dB
・Src#2の残響除去性能: DRR (Direct-to-Reverberate ratio)
提案法 従来法
DRR +13.5 dB +12.6 dB
- 43.
まとめ (1/2)
実世界音響信号処理へのアプローチ
実世界音響信号が何個かの統計的に独立な音源信号に
よって構成されると仮定するのと同様に,各音源信号もまた
何らかの離散的なシンボル情報に対応した何個かの独立
成分によって構成される,と仮定
実世界音響信号
実世界音響信号を階層的に独立
な成分に分解したモデルで簡潔 音源A 音源B ...
に記述し,現象をモデルパラメータ
最適化の視点から推論
要素A 要素B ...
- 44.