SlideShare a Scribd company logo
Submit Search
Upload
深層パーミュテーション解決法の基礎的検討
Report
Share
Kitamura Laboratory
Kitamura Laboratory
Follow
•
0 likes
•
143 views
1
of
15
深層パーミュテーション解決法の基礎的検討
•
0 likes
•
143 views
Report
Share
Download Now
Download to read offline
Engineering
蓮池郁也, "深層パーミュテーション解決法の基礎的検討," 香川高等専門学校電気情報工学科 卒業研究論文, 61 pages, 2022年2月.
Read more
Kitamura Laboratory
Kitamura Laboratory
Follow
Recommended
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
1.5K views
•
91 slides
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
263 views
•
17 slides
信号の独立性に基づく多チャンネル音源分離 by
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
394 views
•
21 slides
実環境音響信号処理における収音技術 by
実環境音響信号処理における収音技術
Yuma Koizumi
2.1K views
•
76 slides
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
1K views
•
22 slides
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
5.9K views
•
27 slides
More Related Content
What's hot
音声の声質を変換する技術とその応用 by
音声の声質を変換する技術とその応用
NU_I_TODALAB
8.9K views
•
28 slides
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
3.5K views
•
23 slides
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析 by
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
56.5K views
•
17 slides
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
5.9K views
•
48 slides
非負値行列因子分解を用いた被り音の抑圧 by
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
135 views
•
33 slides
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離 by
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
奈良先端大 情報科学研究科
6.3K views
•
31 slides
What's hot
(20)
音声の声質を変換する技術とその応用 by NU_I_TODALAB
音声の声質を変換する技術とその応用
NU_I_TODALAB
•
8.9K views
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
•
3.5K views
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析 by Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
•
56.5K views
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by Daichi Kitamura
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
•
5.9K views
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
•
135 views
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離 by 奈良先端大 情報科学研究科
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
奈良先端大 情報科学研究科
•
6.3K views
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム) by Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
•
1.6K views
環境音の特徴を活用した音響イベント検出・シーン分類 by Keisuke Imoto
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
•
2.1K views
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
•
422 views
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~ by Yui Sudo
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
•
1.5K views
WaveNetが音声合成研究に与える影響 by NU_I_TODALAB
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
•
14.1K views
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
•
5.9K views
深層学習を利用した音声強調 by Yuma Koizumi
深層学習を利用した音声強調
Yuma Koizumi
•
2K views
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
Kitamura Laboratory
•
113 views
独立低ランク行列分析に基づく音源分離とその発展 by Kitamura Laboratory
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
•
205 views
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” by Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
•
1.2K views
深層生成モデルに基づく音声合成技術 by NU_I_TODALAB
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
•
943 views
Kameoka2017 ieice03 by kame_hirokazu
Kameoka2017 ieice03
kame_hirokazu
•
2.7K views
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ... by Yui Sudo
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
•
131 views
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Kitamura Laboratory
•
192 views
Similar to 深層パーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
Kitamura Laboratory
59 views
•
35 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
52 views
•
32 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
79 views
•
19 slides
スペクトログラム無矛盾性に基づく独立低ランク行列分析 by
スペクトログラム無矛盾性に基づく独立低ランク行列分析
Kitamura Laboratory
160 views
•
19 slides
多重解像度時間周波数表現に基づく独立低ランク行列分析, by
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Kitamura Laboratory
133 views
•
14 slides
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Daichi Kitamura
1.1K views
•
24 slides
Similar to 深層パーミュテーション解決法の基礎的検討
(7)
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
59 views
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
•
52 views
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
•
79 views
スペクトログラム無矛盾性に基づく独立低ランク行列分析 by Kitamura Laboratory
スペクトログラム無矛盾性に基づく独立低ランク行列分析
Kitamura Laboratory
•
160 views
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Kitamura Laboratory
•
133 views
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by Daichi Kitamura
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Daichi Kitamura
•
1.1K views
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by Kitamura Laboratory
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Kitamura Laboratory
•
82 views
More from Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
72 views
•
26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
67 views
•
23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
40 views
•
17 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
43 views
•
17 slides
Heart rate estimation of car driver using radar sensors and blind source sepa... by
Heart rate estimation of car driver using radar sensors and blind source sepa...
Kitamura Laboratory
62 views
•
23 slides
DNN-based frequency-domain permutation solver for multichannel audio source s... by
DNN-based frequency-domain permutation solver for multichannel audio source s...
Kitamura Laboratory
30 views
•
27 slides
More from Kitamura Laboratory
(19)
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
•
72 views
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
•
67 views
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
•
40 views
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
•
43 views
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...
Kitamura Laboratory
•
62 views
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...
Kitamura Laboratory
•
30 views
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
•
433 views
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
Kitamura Laboratory
•
128 views
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...
Kitamura Laboratory
•
126 views
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...
Kitamura Laboratory
•
99 views
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure models
Kitamura Laboratory
•
319 views
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測
Kitamura Laboratory
•
178 views
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
•
73 views
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム
Kitamura Laboratory
•
96 views
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価 by Kitamura Laboratory
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
Kitamura Laboratory
•
61 views
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用 by Kitamura Laboratory
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
Kitamura Laboratory
•
77 views
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用 by Kitamura Laboratory
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
Kitamura Laboratory
•
142 views
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発 by Kitamura Laboratory
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発
Kitamura Laboratory
•
65 views
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離 by Kitamura Laboratory
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離
Kitamura Laboratory
•
137 views
Recently uploaded
システム概要.pdf by
システム概要.pdf
Taira Shimizu
44 views
•
1 slide
onewedge_companyguide1 by
onewedge_companyguide1
ONEWEDGE1
66 views
•
22 slides
ウォーターフォール開発で生 産性を測る指標 by
ウォーターフォール開発で生 産性を測る指標
Kouhei Aoyagi
55 views
•
13 slides
SSH超入門 by
SSH超入門
Toru Miyahara
490 views
•
21 slides
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦
208 views
•
36 slides
概要.pdf by
概要.pdf
Taira Shimizu
6 views
•
1 slide
Recently uploaded
(7)
システム概要.pdf by Taira Shimizu
システム概要.pdf
Taira Shimizu
•
44 views
onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1
ONEWEDGE1
•
66 views
ウォーターフォール開発で生 産性を測る指標 by Kouhei Aoyagi
ウォーターフォール開発で生 産性を測る指標
Kouhei Aoyagi
•
55 views
SSH超入門 by Toru Miyahara
SSH超入門
Toru Miyahara
•
490 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦
•
208 views
概要.pdf by Taira Shimizu
概要.pdf
Taira Shimizu
•
6 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self Introduction
NajahMatsuo
•
10 views
深層パーミュテーション解決法の基礎的検討
1.
香川高専 電気情報工学科 卒業研究発表会 2022年3月2日
14:45〜15:00 深層パーミュテーション解決法の 基礎的検討 Basic Study for Deep Permutation Solver 香川高専 電気情報工学科 北村研究室 5年 蓮池 郁也
2.
2 • 音源分離とは • 音源分離の応用先 ⁃
音声認識 ⁃ AI スピーカー ⁃ 補聴器の高機能化 ⁃ ノイズキャンセリング etc. はじめに こんにちは Hello 音源分離 こんにちは Hello
3.
3 ブラインド音源分離 • ブラインド音源分離 (blind
source separation: BSS) – 混合系 が未知の条件で分離系 を推定 – 優決定BSS(マイク数≧分離したい音源の数) • 混合系が正方行列にできるので逆行列が定義可能 • 線形分離が可能なため分離音の音質が良い • 本研究では,優決定BSSについて取り扱う – 高音質であり,様々な分野に適用可能 例. 独立成分分析(ICA) [Comon, 1994] 例. 独立低ランク行列分析 (ILRMA) [Kitamura+, 2018] 例. 時間周波数マスクに基づくBSS (TFMBSS) [Yatabe+, 2019] 混合系 BSS 分離系
4.
4 • 独立成分分析(independent component
analysis: ICA)[Comon, 1994] – 混合行列 が未知の条件で分離行列 を推定 – 2つの仮定を用いて分離行列 を推定 • 1. 独立成分は互いに独立(音源は多くの場合独立) • 2. 混合行列は可逆で時不変(優決定,音源やマイクは移動しない) – 分離信号の順番(パーミュテーション)は決定できない 音源間の独立性に基づくBSS:ICA 混合行列 音源信号 混合信号 1. 互いに独立 2. 可逆で時不変 分離行列 逆行列 実際の混合は残響による畳み込み混合である
5.
5 ICAに基づくBSSの耐残響性の向上 • 周波数領域ICA(FDICA)[Smaragdis, 1998] –
各周波数ビンの複素時系列に対して独立なICAを適用 スペクトログラム ICA1 ICA2 ICA3 … … ICA Frequency Time … 逆行列 周波数領域の時不変 瞬時混合行列
6.
6 • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる 周波数領域ICA(FDICA) ICA 全て時間周波数 領域の信号 音源1 音源2 観測1 観測2 Permutation Solver 分離信号1 分離信号2 Time パーミュテーション 不整合信号1 パーミュテーション 不整合信号2 各周波数では音源分離されているが,分離信号の順序が周波数間 で不揃いになっている状態(パーミュテーション問題)
7.
7 提案手法の概要 • パーミュテーション不整合信号を並び替えるようなパー ミュテーション行列をDNNを用いて予測 – 行列積を用いて分離信号を推定 DNNを用いて推定 行列積
8.
8 ReLU ReLU Softmax Softmax Softmax 提案手法におけるDNNの入出力 • パーミュテーション不整合信号 から局所時間のスペク トログラム
を抽出 • DNNは入力層,隠れ層3層,出力層の計5層で構成 DNN 入力ベクトル 予測ベクトル 出力層 出力層 全結合層 全結合層 3層の隠れ層 パーミュテーション不整合信号
9.
9 推定パーミュテーション行列の導出 • DNNの出力値(確率値)を用いて,局所時間振幅スペク トログラムに対する推定パーミュテーション行列 を作 成 –
パーミュテーション不整合信号の正しい並び替えを推定パー ミュテーション行列によって行う 入力 出力 推定パーミュテーション 行列へ変換 予測エラー
10.
10 損失の導出方法 • 推定パーミュテーション行列とパーミュテーション不整合 信号との間で行列積を行い推定分離信号を作成 – 推定分離信号と完全分離信号との間で平均二乗誤差(mean squared
error: MSE)を導入 – 分離信号の順序は予測の対象としないため,順序不変学習 (permutation invariant training: PIT) [Yu+, 2017]を導入 行列積 MSE & PIT
11.
11 Frequency Time Frequency Time テストデータに対する多数決処理 • 各局所時間スペクトログラムに対してDNNで予測を行い 多数決処理を施す 多数決処理 パーミュテーション 行列へ変換 パーミュテーション 行列へ変換 パーミュテーション 行列へ変換
12.
12 • 音声信号と音楽信号に対する実験を行った • 学習データ –
音声信号及び音楽信号の時間周波数信号を16行1セットにし てランダムに入れ替えたデータ – ブロックパーミュテーション問題を模擬 • 検証データ(テストデータ) – 学習データにはないパターンでランダムに入れ替えたデータ 実験条件 音響信号 SiSEC2011にある男女の音声信号及びドラムとピアノの音楽信号 FFT長 2048 点 (ハミング窓) スライド長 1024 点 客観評価値 各周波数ビンにおける並び替えの正答率 ランダムにシャッフル ランダムにシャッフル ランダムにシャッフル
13.
13 実験結果(音声信号) 正答率 92.5%
14.
14 実験結果(音楽信号) 正答率 97.3%
15.
15 まとめ • パーミュテーション問題に対して深層学習を用いて解決 する手法を提案した • 提案手法の有効性を評価するために音声及び音楽信号 を用意して,周波数成分に対する並び替えの正答率を評 価した •
実験結果より,音声及び音楽信号に対して高い精度で分 離を行うことができた 15
Editor's Notes
【0:35】 初めに,音源分離について説明します. 音源分離とは,例えば複数の話者が同時に喋っている環境下から個別の音声を抽出するような技術です.この他にも,電車やバス等の雑音化の中で雑音を排除し,特定の音声のみを抽出するようなことも音源分離と呼びます. 音源分離の応用先としては,音声認識,AIスピーカー,ノイズキャンセリング等があります.
【1:20】 次にブラインド音源分離について説明します. ブラインド音源分離とは混合系Aが未知の条件で分離系Wを推定する手法でありBSSと呼ばれます. BSSには,優決定BSSと呼ばれる条件があり.優決定BSSとはマイク数が分離したい音源の数以上であることを指します. 例えば2人の声を2つのマイクで観測すると、優決定となります. 一般的に,優決定BSSは分離精度が良く,様々な分野に応用可能となっています. 本研究ではこの優決定BSSについて取り扱います. コメント: ILRMAでは,ブロックパーミュテーション等が起きる. これらの解決にも僕の研究が役に立つと思われる. 劣決定を除ける 本研究では,優決定BSSについて扱うことを説明する.
【2:00】 優決定BSSである独立成分分析,通称ICAとは混合行列が未知の条件で分離行列Wを推定する技術です. 音源は独立,混合行列は可逆で時不変であるといった2つの仮定を用いAの逆行列であるWを推定します. ICAでは分離信号の順番はどうなるかわからず,この図の赤と青の信号もどちらの順番で出力されるかは定まっていません. また,一般的に音響信号には残響があるので残響の影響を取り除くため、周波数領域に持っていく必要があります。
【2:30】 時間領域では畳み込み信号でも,周波数領域に持っていくことで単なる掛け算にすることができます. そこで新たに生み出された手法がFDICAと呼ばれる手法です. この図は奥行きがマイクロフォン数,縦軸が周波数,横軸が時間を表しています. この手法は各周波数ビンの複素時系列に対して独立なICAを適用することで音源分離を行う手法になります. スペクトログラムの説明をする. 時間信号を時間周波数信号にすること!フーリエ変換の技!であることを伝える
【3:20】 ただ,FDICAには問題点があります. この図は奥行きが周波数で横軸が時間を示しています. FDICAは各周波数成分に対して独立なICAを行います.ICAは先ほどお伝えしたように出力の順番を問わないため,FDICAに適用した際に周波数毎に順番がバラバラになってしまう問題が生じます. これは,一般的にパーミュテーション問題と呼ばれ,この問題を解決するような手法が現在求められています. ここで,Y1とY2のように周波数ごとに成分がバラバラになっている信号を今後パーミュテーション不整合信号と定義します. 私はこのパーミュテーション問題に対して現在広い分野で用いられている深層学習(DNN)を用いて解決する手法を新たに提案します. %Y1とY2が周波数と時間になる..ICAが時間と周波数になっているのではない.
【4:20】 提案手法の概要です. 提案手法では,パーミュテーション問題を解決するために,DNNを用いてパーミュテーション不整合信号を並び替えるようなパーミュテーション行列を求めます. パーミュテーション行列とは順番を並び替える役割を持つ行列です. 一番上の行列は1,0,0,1のパーミュテーション行列となっており,これは,信号をそのままの順番で出力する行列です. 一方で一番下の行列では0,1,1,0のパーミュテーション行列となっており,これは信号を逆順に出力する行列です. このように2つの音源に対しては2種類のパーミュテーション行列が存在します. 提案手法では,DNNを用いて予測したパーミュテーション行列とパーミュテーション不整合信号との間で行列積を取ることで,推定分離信号を求めるような手法となっています. %Piの一番下の行列を0110の行列にしてパーミュテーション行列の説明をわかりやすくする.
【5:10】 提案手法におけるDNNの入出力について説明します. こちらの図は,パーミュテーション不整合信号を上から見たような図となっています. 縦軸が周波数,横軸が時間を表します. パーミュテーション問題が生じている信号から参照時間をランダムで設定した後,時間方向に対して局所的な部分を抽出し,一次元にベクトル化したものをDNNの入力として用います. DNNの構造は,入力層,隠れ層3層,出力層の計5層の多層パーセプトロン(全結合)となっています. 活性化関数には,ReLU関数を用いて,出力層にはSoftmax関数を用いて,確率値を出力するようにしています.
【5:40】 次に,推定パーミュテーション行列を求める方法について説明します. 先ほど,DNNの出力として確率値を出力すると説明しました.この確率値は,各周波数成分に対して足して1になるように制約しています. この確率値は各周波数成分が第一音源の成分である確率と,第2音源の成分である確率値を示しています. この確率値を用いて,推定パーミュテーション行列への変換を行います.
【6:30】 損失の導出方法についてです. 先ほど,作成した推定パーミュテーション行列とパーミュテーション不整合信号との間で,行列積を行い,推定分離信号を作成します. 作成した推定分離信号と完全分離信号との間で平均二乗誤差MSEを用いて損失を計上します. DNNはここで得た損失値を用いて,誤差逆伝播を行い最適なモデルを作成するように学習を行います. また,分離信号の順序は予測の対象としないため,順序不変学習,通称PITと呼ばれる手法を用いました. PITとMSEを用いたLossの取得に関する式はこちらになります. 全ての信号に対して総当たり的に損失を求めることとなり,推定分離信号の順序に関わらず常に最小のLossを計上することができます. コメント:
【7:20】 また,テストデータに対してDNNの予測精度の向上のため時間方向に対する多数決処理を行いました. パーミュテーション不整合信号に対して時間方向にストライドしていくことで複数の局所時間スペクトログラムを抽出します. その後,それぞれの局所時間スペクトログラムに対して,DNNの学習とパーミュテーション行列への変換を行います. ここで求めた複数の推定パーミュテーション行列に対して多数決処理を行うことで,最終的に0か1で形成されたパーミュテーション行列を導き出します. この行列とパーミュテーション不整合信号との間で行列積を取ることで推定分離信号を求めることができます.
【8:20】 次に実験条件についてです, 本実験では,音声信号と音楽信号に対する実験を行いました. 使用した音響信号はSiSEC2011にある男女の音声信号とドラムとピアノの音楽信号です. 客観評価値として,各周波数ビンにおける並び替えの正答率を用いました. 学習データは,音声信号及び音楽信号を16行毎をセットとして考えランダムに入れ替えたデータを用いています. これは,ブロックパーミュテーション問題と呼ばれる,各周波数単位ではなくブロック単位で音源の周波数成分が異なる問題を模擬しています. ランダムにシャッフルするパターンは学習データに対して300パターンに設定しています. 検証データ及びテストデータには,学習データにはないパターンで16行毎にランダムで周波数成分を入れ替えたデータとしています, コメント:がんま=16と図に記載する ブロック単位のパーミュテーション問題を模擬 表の縦線は引かないでも良いかも.表の上を太線にしない IVAやILRMAではブロック単位でパーミュテーション問題が起きているので,それ模擬した.各行にシャッフルしてできなかったのは言わない. 出力したスペクトログラムを新たにDNNの入力として使ってみても面白いかも
【9:00】 こちらは音声信号に対する実験結果です.上の2つのスペクトログラムはパーミュテーション不整合信号を示しています. 下の2つのスペクトログラムはDNNの予測を用いてパーミュテーション不整合信号を並び替えた信号です. 下の2つのスペクトログラムに注目すると,隣接する周波数成分に対して連続性が見られ,高精度で分離ができていることがわかります. 各周波数に対する並び替えの正答率は92.5%であり,この数値よりも高精度で分離できていることがわかります.
【9:30】 音楽信号に対する実験結果です. こちらも先ほどと同様に上の2つのスペクトログラムはパーミュテーション不整合信号を表し,下の2つのスペクトログラムはDNNの予測を用いてパーミュテーション不整合信号を並び替えた信号です. 音楽信号の場合も隣接する周波数成分に対して連続性が見られ,高精度で分離できていることがわかります. 各周波数成分における並び替えの正答率は97.3%でした.
【9:50】 最後にまとめです. パーミュテーション問題に対して深層学習を用いて解決する手法を提案しました. 提案手法の有効性を評価するために音声及び音楽信号を用意して,周波数成分に対する並び替えの正答率を評価しました. 実験結果より,音声及び音楽信号に対して高い精度で分離を行うことができました.
先行研究として,局所時間周波数構造に基づく深層パーミュテーション解決法が提案されました. この手法はサブバンド領域と呼ばれる,周波数方向に対しても時間方向に対しても局所的な部分を抽出してDNNに入力する手法です. さらに,この手法では参照周波数に対して同一成分であるか否かの2値分類を行なっており,かなり複雑なアルゴリズムとなっています. 3音源以上になると,参照周波数成分に対して異なる値となっていても残りの2つの音源のどちらと一致するかが簡単に判断できないため,複数音源に対する汎用性に欠けるといった課題があります. そこで,私は新たに音源数が増えてもアルゴリズムが複雑にならない手法を新たに提案し,新たな手法が実用的であるかどうかを判断します. 本発表の目的のスライドをこのスライドの前に入れる.(パーミュテーション問題は,DNNを用いて解くことを考える.) 先行研究はなかったものにして考えれば良い. このスライドは無しにする.
DNNの説明をする。人工知能の界隈で、有名な手法です。
また,テストデータに対してDNNの予測精度の向上のため時間方向に対する多数決処理を行いました. パーミュテーション不整合信号を時間方向に対してストライドしていくことで複数の局所時間スペクトログラムを抽出します. その後,それぞれの局所時間スペクトログラムに対して,DNNの学習とパーミュテーション行列への変換を行います. 最終的には多数決処理を行うことで0か1で形成されたパーミュテーション行列を導き出し,パーミュテーション不整合信号との間で行列積を取ることで推定分離信号を求めることができます.