SlideShare a Scribd company logo
Study on a priori statistical model of target 
signal for binaural signal source separation 
バイノーラル信号音源分離における両耳事前分 
布モデルの考察 
☆室田勇騎*, 小山翔一**, 猿渡洋** 
北村大地***, 中村哲* 
* 奈良先端科学技術大学院大学
** 東京大学
*** 総研大
研究背景:バイノーラル音楽音源分離 
 音楽音源分離において,分離音の定位や残響など 
は保持されていることが望ましい 
頭部伝達関数(HRTF)などの空間情報を利用することが 
考えられる 
2 
目的音の分離空間情報の保持+ 目的音の分離
HRTF利用の問題点及びその解決案 
 HRTFの利用における問題点 
統計的視点からHRTF(もしくは伝達関数一般)を考える 
3 
• 基本的には未知の情報
• 事前計測のために大規模な装置が必要
• 未知のユーザを対象とした応用では利用困難
ねらい 
• 統計学的知見に基づき,,,,観測データからブライン
ドにHRTFのような両耳情報を求める
• 事前計測不要
• 未知のユーザに対しても適用可能
アプローチ 
頭部回折 
壁面反射 
波形波形 
ああ 
4 
p.d.f. 
p.d.f. 
音源に近い耳の受音波形p.d.f. : 急なピークを持つ 
音源に遠い耳の受音波形p.d.f. : 緩いピークを持つ 
HRTFの違いをp.d.f.の差によって表す
アプローチ 
研究目的: 
波形波形 
従来の決定論的なHRTF推定問題を,統計モデ 
ああ 
5 
ルのパラメータ推定問題に変換し,未知ユーザへ 
p.d.f. 
p.d.f. 
の適応を実現する. 
音源に近い側のp.d.f. : 急なピークを持つ 
バイノーラル信号音源分離において両耳の統計 
音源に遠い側のp.d.f. : ゆるやかを持つ 
モデルが与える影響を考察する.
先行研究 
 事前分布パラメータ推定を備えた一般化MMSE-STSA 
推定器[Y. Murota, et al., ICASSP2014] 
信号の混合モデル 
6 
: 観測音信号: 妨害音信号 
: 目的音信号
処理の流れ 
先行研究 
 妨害音の推定: NMF により妨害音の振幅スペクトルを推定 
 パラメータ推定: 高次統計量を用いた目的音事前分布推定 
 ポスト処理部: 一般化MMSE-STSA推定器により妨害音を抑圧 
7 
STFT 
Shape parameter 
estimation 
Target kurtosis 
estimation 
Non-target signal 
estimation by SNMF 
Spectral gain 
calculation 
A posteriori 
SNR estimation 
ISTFT 
A priori 
SNR estimation 
target kurt 
Interference signal 
estimator Generalized MMSE-STSA 
estimator
一般化MMSE-STSA推定器[Breithaupt, et al., 2008] 
 目的音の事前分布を仮定するベイズ推定器 
 目的音の振幅スペクトルはカイ分布に従うと仮定 
8 
カイ分布 
: : 信号xのp.d.f. 形状母数: ガンマ関数 
ρ = 1 : ガウス分布を仮定 
ρ が小さくなるほど,信号は優ガウス性の分布となる 
加法信号中での目的音の形状母数を直接計算する 
ことは困難
一般化MMSE-STSA推定器[Breithaupt, et al., 2008] 
 目的音の事前分布を仮定するベイズ推定器 
 目的音の振幅スペクトルはカイ分布に従うと仮定 
9 
カイ分布 
: : 信号xのp.d.f. 形状母数: ガンマ関数 
ρ = 1 : ガウス分布を仮定 
ρ が小さくなるほど,信号は優ガウス性の分布となる 
加法信号中での目的音の形状母数を直接計算する 
ことは困難
一般化MMSE-STSA推定器[Breithaupt, et al., 2008] 
 推定目的音は次のように表される 
10 
推定目的音 
: 推定目的音: ゲイン関数 
: : 形状母数ガンマ関数 
: 合流型超幾何関数 
: 事前SNR 
: 事後SNR 
: 忘却係数: 妨害音のパワースペクトル
一般化MMSE-STSA推定器[Breithaupt, et al., 2008] 
 推定目的音は次のように表される 
推定目的音 
: 推定目的音: ゲイン関数 
ブラインドに推定
: : 形状母数ガンマ関数 
: 合流型超幾何関数 
: 事後SNR 
: 忘却係数: 妨害音のパワースペクトル 
11 
: 事前SNR 
SNMFより推定
事前分布に着目したバイノーラル信号モデル 
NL (f,t) 
12 
左耳 
右耳 
NR(f,t) 
SL (f,t) 
SR(f,t) 
(a) 従来のバイノーラル 
決定論的信号モデル 
s(f,t) 
hL(f) 
hR(f) 
左耳: 
右耳: 
hL (f) 
hR (f) 
SL (f,t)+NL(f,t) 
SR(f,t)+NR(f,t) 
HRTF 
(b) 事前分布に着目した統計的信号モデル 
未知
SL (f,t)=hL(f)s(f,t) 
SR (f,t)=hR(f)s(f,t)
形状母数とカートシス 
13 
カイ分布の形状母数ρ 
: 目的音のカートシス 
: m次モーメント 
: 目的音の振幅スペクトル 
のp.d.f. 
左右個別の目的音振幅スペクトルのカートシスを求 
めることで形状母数が推定可能 
: 信号チャネル
目的音振幅スペクトルのカートシス推定 
[Murota, ICASSP2014] 
14 
目的音振幅スペクトルカートシス 
: 観測音の振幅スペクトル 
: 教師ありNMF(SNMF)によって 
得られる妨害音の振幅スペクトル 
観測音から計算可能SNMFより推定可能 
解析的に左右個別の目的音振幅スペクトル
カートシスが得られる
⇒ 左右個別の統計モデルが推定可能
実験条件(1/3) 
15 
楽器音(MIDI) Ob., Cl., Vc., Pf. 
観測音(MIDI) Obとその他1種類を選び等パワーで混合したもの 
目的音Ob. 
教師音(MIDI) 目的音の半音階で2 オクターブ上昇する24 音 
基底数目的音: 100 妨害音50 
反復回数学習時: 500 分離時: 400 
サンプリング周波数44100 
忘却係数α 0.97 
評価尺度 
Signal-to-distortion ratio (SDR) : 
分離度合と音質を考慮した評価尺度 
Target 
T 
I 
Interference 
90°
実験目的 
実験条件(2/3) 
適切な事前分布を用いることにより,分離精度がどのように変 
化するのかを確認する 
 比較手法 
 教師ありNMF(SNMF)のみの出力 
 SNMFとポストフィルタを組み合わせたもの(形状母数固定) 
 SNMFとポストフィルタを組み合わせたもの(形状母数推定) 
16 
SNMF - - 
SNMF+post filter 
(fixed prior) 
1 1 
SNMF+post filter 
(prior adapt.) 
データから推定 
( ≪1) 
データから推定 
( ≒1)
実験条件(3/3) 
 以下の三種類で妨害信号を推定し,妨害音の推定精 
度による差を比較する. 
1. 基底変形型教師ありNMF(Deformation SNMF) 
[Kitamura, 2013] 
• HRTFの情報を用いない推定法 
2. HRTFを畳み込んだ教師音を使用した 
SNMF(HRTF+SNMF) 
• HRTFを間接的に用いた推定法 
3. 真の妨害音(true noise) 
• 参考値として用いる 
17 
Bad 
Good
実験結果 
18 
Deformation SNMF HRTF+SNMF 
適切な事前分布を推定して分離 
性能が向上した 
true noise
まとめと今後の課題 
 まとめ 
バイノーラル音楽信号分離において,両耳間での目的信 
号分布の違いによる分離精度や音の知覚の影響を調べ 
るため,事前分布パラメータ推定を備えた一般化MMSE-STSA 
推定器をバイノーラル信号に拡張し実験を行った. 
– 目的音の事前分布を行うことで性能が改善 
 今後の課題 
音源の種類を増やして実験を行う 
主観評価(特に定位に関する評価) 
妨害音推定手法の改良 
19

More Related Content

What's hot

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
Kitamura Laboratory
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction
ToshihiroMISHIBA
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
Yuki Saito
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
 

What's hot (12)

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
ma99992006id365
ma99992006id365ma99992006id365
ma99992006id365
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 

Viewers also liked

Recurshare 〜インターネットレスにアプリ拡散〜
Recurshare 〜インターネットレスにアプリ拡散〜Recurshare 〜インターネットレスにアプリ拡散〜
Recurshare 〜インターネットレスにアプリ拡散〜
Ubi NAIST
 
不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳
奈良先端大 情報科学研究科
 
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
Ubi NAIST
 
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
奈良先端大 情報科学研究科
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
Shinya Takamaeda-Y
 
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
 
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
Hiroki Ouchi
 

Viewers also liked (8)

Recurshare 〜インターネットレスにアプリ拡散〜
Recurshare 〜インターネットレスにアプリ拡散〜Recurshare 〜インターネットレスにアプリ拡散〜
Recurshare 〜インターネットレスにアプリ拡散〜
 
変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成
 
不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳
 
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
 
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
 
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討
 
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
 

More from 奈良先端大 情報科学研究科

テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみようテレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
奈良先端大 情報科学研究科
 
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
 
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
奈良先端大 情報科学研究科
 
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
奈良先端大 情報科学研究科
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
奈良先端大 情報科学研究科
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
奈良先端大 情報科学研究科
 
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
奈良先端大 情報科学研究科
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
 
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
奈良先端大 情報科学研究科
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
奈良先端大 情報科学研究科
 
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
奈良先端大 情報科学研究科
 
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
奈良先端大 情報科学研究科
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
奈良先端大 情報科学研究科
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
奈良先端大 情報科学研究科
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
奈良先端大 情報科学研究科
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
 
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
奈良先端大 情報科学研究科
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
奈良先端大 情報科学研究科
 
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
奈良先端大 情報科学研究科
 
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
奈良先端大 情報科学研究科
 

More from 奈良先端大 情報科学研究科 (20)

テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみようテレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
 
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
 
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
 
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
 
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
 
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
 
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
 
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
 
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
 
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
 
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
 

Recently uploaded

Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
Takayuki Nakayama
 
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
company21
 
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツールMOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
TsuyoshiSaito7
 
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
Tetsuya Nihonmatsu
 
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
shogotaguchi
 
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
iPride Co., Ltd.
 
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
Hironori Washizaki
 
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
Tatsuya Ishikawa
 
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
TsuyoshiSaito7
 
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
Takuya Minagawa
 

Recently uploaded (10)

Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
 
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
 
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツールMOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
 
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
 
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
 
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
 
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
 
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
 
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
 
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
 

バイノーラル信号音源分離における両耳事前分布モデルの考察

  • 1. Study on a priori statistical model of target signal for binaural signal source separation バイノーラル信号音源分離における両耳事前分 布モデルの考察 ☆室田勇騎*, 小山翔一**, 猿渡洋** 北村大地***, 中村哲* * 奈良先端科学技術大学院大学 ** 東京大学 *** 総研大
  • 2. 研究背景:バイノーラル音楽音源分離 音楽音源分離において,分離音の定位や残響など は保持されていることが望ましい 頭部伝達関数(HRTF)などの空間情報を利用することが 考えられる 2 目的音の分離空間情報の保持+ 目的音の分離
  • 3. HRTF利用の問題点及びその解決案 HRTFの利用における問題点 統計的視点からHRTF(もしくは伝達関数一般)を考える 3 • 基本的には未知の情報 • 事前計測のために大規模な装置が必要 • 未知のユーザを対象とした応用では利用困難 ねらい • 統計学的知見に基づき,,,,観測データからブライン ドにHRTFのような両耳情報を求める • 事前計測不要 • 未知のユーザに対しても適用可能
  • 4. アプローチ 頭部回折 壁面反射 波形波形 ああ 4 p.d.f. p.d.f. 音源に近い耳の受音波形p.d.f. : 急なピークを持つ 音源に遠い耳の受音波形p.d.f. : 緩いピークを持つ HRTFの違いをp.d.f.の差によって表す
  • 5. アプローチ 研究目的: 波形波形 従来の決定論的なHRTF推定問題を,統計モデ ああ 5 ルのパラメータ推定問題に変換し,未知ユーザへ p.d.f. p.d.f. の適応を実現する. 音源に近い側のp.d.f. : 急なピークを持つ バイノーラル信号音源分離において両耳の統計 音源に遠い側のp.d.f. : ゆるやかを持つ モデルが与える影響を考察する.
  • 6. 先行研究 事前分布パラメータ推定を備えた一般化MMSE-STSA 推定器[Y. Murota, et al., ICASSP2014] 信号の混合モデル 6 : 観測音信号: 妨害音信号 : 目的音信号
  • 7. 処理の流れ 先行研究 妨害音の推定: NMF により妨害音の振幅スペクトルを推定 パラメータ推定: 高次統計量を用いた目的音事前分布推定 ポスト処理部: 一般化MMSE-STSA推定器により妨害音を抑圧 7 STFT Shape parameter estimation Target kurtosis estimation Non-target signal estimation by SNMF Spectral gain calculation A posteriori SNR estimation ISTFT A priori SNR estimation target kurt Interference signal estimator Generalized MMSE-STSA estimator
  • 8. 一般化MMSE-STSA推定器[Breithaupt, et al., 2008] 目的音の事前分布を仮定するベイズ推定器 目的音の振幅スペクトルはカイ分布に従うと仮定 8 カイ分布 : : 信号xのp.d.f. 形状母数: ガンマ関数 ρ = 1 : ガウス分布を仮定 ρ が小さくなるほど,信号は優ガウス性の分布となる 加法信号中での目的音の形状母数を直接計算する ことは困難
  • 9. 一般化MMSE-STSA推定器[Breithaupt, et al., 2008] 目的音の事前分布を仮定するベイズ推定器 目的音の振幅スペクトルはカイ分布に従うと仮定 9 カイ分布 : : 信号xのp.d.f. 形状母数: ガンマ関数 ρ = 1 : ガウス分布を仮定 ρ が小さくなるほど,信号は優ガウス性の分布となる 加法信号中での目的音の形状母数を直接計算する ことは困難
  • 10. 一般化MMSE-STSA推定器[Breithaupt, et al., 2008] 推定目的音は次のように表される 10 推定目的音 : 推定目的音: ゲイン関数 : : 形状母数ガンマ関数 : 合流型超幾何関数 : 事前SNR : 事後SNR : 忘却係数: 妨害音のパワースペクトル
  • 11. 一般化MMSE-STSA推定器[Breithaupt, et al., 2008] 推定目的音は次のように表される 推定目的音 : 推定目的音: ゲイン関数 ブラインドに推定 : : 形状母数ガンマ関数 : 合流型超幾何関数 : 事後SNR : 忘却係数: 妨害音のパワースペクトル 11 : 事前SNR SNMFより推定
  • 12. 事前分布に着目したバイノーラル信号モデル NL (f,t) 12 左耳 右耳 NR(f,t) SL (f,t) SR(f,t) (a) 従来のバイノーラル 決定論的信号モデル s(f,t) hL(f) hR(f) 左耳: 右耳: hL (f) hR (f) SL (f,t)+NL(f,t) SR(f,t)+NR(f,t) HRTF (b) 事前分布に着目した統計的信号モデル 未知 SL (f,t)=hL(f)s(f,t) SR (f,t)=hR(f)s(f,t)
  • 13. 形状母数とカートシス 13 カイ分布の形状母数ρ : 目的音のカートシス : m次モーメント : 目的音の振幅スペクトル のp.d.f. 左右個別の目的音振幅スペクトルのカートシスを求 めることで形状母数が推定可能 : 信号チャネル
  • 14. 目的音振幅スペクトルのカートシス推定 [Murota, ICASSP2014] 14 目的音振幅スペクトルカートシス : 観測音の振幅スペクトル : 教師ありNMF(SNMF)によって 得られる妨害音の振幅スペクトル 観測音から計算可能SNMFより推定可能 解析的に左右個別の目的音振幅スペクトル カートシスが得られる ⇒ 左右個別の統計モデルが推定可能
  • 15. 実験条件(1/3) 15 楽器音(MIDI) Ob., Cl., Vc., Pf. 観測音(MIDI) Obとその他1種類を選び等パワーで混合したもの 目的音Ob. 教師音(MIDI) 目的音の半音階で2 オクターブ上昇する24 音 基底数目的音: 100 妨害音50 反復回数学習時: 500 分離時: 400 サンプリング周波数44100 忘却係数α 0.97 評価尺度 Signal-to-distortion ratio (SDR) : 分離度合と音質を考慮した評価尺度 Target T I Interference 90°
  • 16. 実験目的 実験条件(2/3) 適切な事前分布を用いることにより,分離精度がどのように変 化するのかを確認する 比較手法 教師ありNMF(SNMF)のみの出力 SNMFとポストフィルタを組み合わせたもの(形状母数固定) SNMFとポストフィルタを組み合わせたもの(形状母数推定) 16 SNMF - - SNMF+post filter (fixed prior) 1 1 SNMF+post filter (prior adapt.) データから推定 ( ≪1) データから推定 ( ≒1)
  • 17. 実験条件(3/3) 以下の三種類で妨害信号を推定し,妨害音の推定精 度による差を比較する. 1. 基底変形型教師ありNMF(Deformation SNMF) [Kitamura, 2013] • HRTFの情報を用いない推定法 2. HRTFを畳み込んだ教師音を使用した SNMF(HRTF+SNMF) • HRTFを間接的に用いた推定法 3. 真の妨害音(true noise) • 参考値として用いる 17 Bad Good
  • 18. 実験結果 18 Deformation SNMF HRTF+SNMF 適切な事前分布を推定して分離 性能が向上した true noise
  • 19. まとめと今後の課題 まとめ バイノーラル音楽信号分離において,両耳間での目的信 号分布の違いによる分離精度や音の知覚の影響を調べ るため,事前分布パラメータ推定を備えた一般化MMSE-STSA 推定器をバイノーラル信号に拡張し実験を行った. – 目的音の事前分布を行うことで性能が改善 今後の課題 音源の種類を増やして実験を行う 主観評価(特に定位に関する評価) 妨害音推定手法の改良 19