1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DNN-based Source Enhancement to Increase
Objective Sound Quality Assessment Score
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “DNN-based Source Enhancement to Increase Objective Sound Quality
Assessment Score”
(IEEE Transaction on Audio Speech and Language Processing, 2017)
• Author: Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, Y. Haneda
NTT Media Intelligence Laboratories, NTT Corporation
2
アジェンダ
• 論文概要
• 音声エンハンスメントとは
• 既存手法:MLを目的関数に使ったDNN
• 提案手法:OSQA客観的音品評価ベースの目的関数を使ったDNN
• 評価結果
• まとめ
3
論文概要
• DNNを利用した音声エンハンスメントに,聴覚音質特性を反映した
Objective Sound Quality Assessment Score(OSQA*: 客観的音品評価)をベース
にした目的関数を用いて,ノイズ除去後の音質や明瞭度を向上させた.
* OSQAの代表例は以下の2つがある.本報告では、これらを使用する.
PESQ: Perceptual Evaluation of Speech Quality, ITU-T P.862
STOI: Short-time Intelligibility Measure (短時間明瞭度測定)
– 従来:目的関数はMean Square Error(平均二乗誤差)やMaximum Likelihood(ML):
微分可能 ⇒Back Propagation(BP)利用可能
– 問題点:分離再構成音の音質評価はOSQAであるPESQやSTOIを使っている
– 要求:目的関数をPESQやSTOIなどのOSQAにしたい:微分不可(∵Black Box関数)
– 解決策:RLで実績のある 方策勾配法を使い微分係数をサンプリングで近似
⇒BP利用可能
4
音源エンハンスメントとは
• 雑音に紛れた音声から背景雑音(雑音、他の音声)を除去すること
– 学習時:DNNはMask Rateを教師あり学習
– テスト時:DNNでMask Rateを推定し
𝑠1
𝑒𝑠𝑡
𝑡 = 𝑀1
𝑒𝑠𝑡
・Y
から雑音除去済みの音声を得る
5
既存手法:Maximum Likelihood(ML)法(1)
6
• Phase Sensitive Maskの定義
– 目的音声フーリエ変換: 背景ノイズ:
ω={1,2,…,Ω}:周波数,τ={1,2,…,T}:時間
– ノイズ込み音声: T-F Mask: ノイズ削減音声
– ここでは、T-F MaskとしてPhase Sensitive Mask
を使う.位相を考慮したMask.
Sω,τ Xω,τ
実数
θω,τ
(𝑠)
θω,τ
(𝑋)
虚数
既存手法:Maximum Likelihood(ML)法(2)
– 𝑝(𝑆τ|𝑋τ, θ): 観測信号𝑋τが与えられた時の目的音声Sτの条件付確率
θ:DNNのパラメータ
– 目的関数はLog-最尤度𝐽 𝑀𝐿(θ):ES,X ln 𝑝 𝑆τ 𝑋τ, 𝜃
– この目的関数のθに対する微分は、解析的には求まらない
⇒この計算を、学習データの平均求めよう
– このθでの微分は,
– 𝑝 𝑆τ 𝑋τ, θ を,
𝑆ω,τ − ෠𝐺ω,τ・𝑋ω,τの誤差はすべての周波数binで独立な平均が0で分散がσω,τ
2
のgaussian ノイズと見なせる. 7
8
既存手法:Maximum Likelihood(ML)法(3)
– よって、DNNの学習は、𝐺ω,τとσω.τ
2 が
出力になる.
– すなわち
– と定義して、以下が3本のDNNがあることになる。これを教師有り学習する.
– DNNのパラメータθは𝑊(・),𝑏(・)である.Φ 𝑔: sigmoid, Φσ: 𝑒𝑥𝑝𝑜𝑛𝑒𝑛𝑡𝑖𝑎𝑙
– (11)に求まった𝐺ω,τとσω.τ
2 と教師データ𝑆ω,τ を代入して,(12)から微分を得る.
𝑧τ
1 = 𝑥τ
提案手法
• 目的:
Objective Sound Quality Assessment Score(OSQA: 客観的音品評価)の
EM(Expectation Maximization)をDNNの目的関数に使い、ノイズ除去システ
ムの性能を良くしたい。
• 現方法の問題点
– 現方法:目的関数は、二乗誤差,ML最尤度など
– ノイズ除去システム性能評価:聴覚性能評価である
OSQAが使われている
• OSQAのEMを使った目的関数の課題
– 目的関数がBlack-Box関数なので、DNNのパラメータに関する微分が求まらず
• 解決の方策
– 方策勾配法を適用して,OSQAのEMを使った目的関数の微分をサンプリングアル
ゴリズムに基づいて計算する
9
DNNの最適解が聴
覚評価上の最適解
にならず
OSQAの例:PESQ
• 電話回線の聴覚に基づく音質評価の客観的評価法
– 2つの音声信号の相対的な音質の差を数値で表す
• 主観的評価ではなく客観的評価が望ましいのか:
– 主観評価は、評価者が必要で人的リソースの負担がかかる
– DNNの目的関数の計算は膨大な回数である
– 目的関数に聴覚に基づく計算を適用した場合,毎回、人を使った主観的評価を行うことは不可
能.
– 主観評価をシミュレートする客観的評価法がある.
– DNNの目的関数の計算に客観的評価を使いたい
10
ノイズ音声𝑋
ノイズ除去音声 መ𝑆
OSQA Scoreと目的関数の定義
• 𝐵( መ𝑆,X): OSQA Score関数と呼ぶ
– 観測値𝑋の時、ノイズ除去後音声 መ𝑆の音質を数量化する関数
• 分離の性能評価指標: 𝐵( መ𝑆,X)のEM(Expectation Maximization)
• ベイズの定理から、
• そして、DNNの目的関数 𝐽(θ)を分離の性能評価指標とする
とする. 𝐵( መ𝑆,X)はθでは微分不可能なので、解析的にBPが使えない.
11
方策勾配法による微分の求め方(1)
• どうすればよいか?
⇒ 方策勾配法を用いる:Black-box関数の微分を求めることができる。
– 前提: 𝐵( መ𝑆,X) は መ𝑆,Xの連続関数,で መ𝑆,X に関して微分可能
𝑝(𝑆τ|𝑋τ, θ)はθに関して微分可能
この時,
は, が成立することから
12
方策勾配法による微分の求め方(2)
– (22)は期待値であるが,解析的には解けないので
• Xの期待値は平均で表現し, መ𝑆の平均はサンプリングアルゴリズムで求めた
• OSQAスコアは、たくさんの時間点で図る方式だが,すべての時間点で測れないので,τの平
均をやめて発声を複数回行いその発声の回数の平均を採用する。
i番目の発声の観測値を
i番目の発声を行った時のk番目のサンプリング出力を
13
OSQA Scoreの安定化の方策
• OSQA Score関数の安定化のための方策:
– 微分の分散は小さい方が安定して学習する.しかし(25)(26)から、微分をサンプ
リングで求めるで、微分の分散は大きくなり、不安定になりやすい.
– 微分の分散が大きい理由のひとつは、 𝐵( መ𝑆,X)の分散が大きいこと⇒正規化する
– もう一つの理由は、OSQA Scoreの入力 መ𝑆にノイズがあること⇒入力に依存する
OSQA Scoreの平均を引き去る
– 生のOSQA Score:
– 安定化のために定義するOSQA Score: 𝐵( መ𝑆,X)
14
T-F Maskのサンプリング時の補正
• (24)のサンプリングアルゴリズムで得た መ𝑆ω,τ
(𝑖,𝑘)
は,観測値𝑋ω,τ
(𝑖)
との比であ
るT-F Maskが,必ずしも本来あるべき実数でないことが起こる.
• これは、 𝑝 𝑆τ 𝑋τ, 𝜃 が複素数だからで実数への補正必要.
• そこで、以下の方法で補正して正しT-F Maskを得る.
– まず、 DNNで𝑝 𝑆τ 𝑋τ, 𝜃 の出力として ෠𝐺ω,τ
(𝑖)
を得る
– (24)に基づいてサンプリングして ሚ𝑆ω,τ
(𝑖,𝑘)
を得る(k=1,…,K)
– そこで、各サンプル点から以下の෡Gω,τ
(𝑖,𝑘)
を計算し、
መ𝑆ω,τ
(𝑖,𝑘)
を得る.
15
今回の提案手法:全体ブロック
16
提案手法の学習全容(1)
①観測データ(ノイジー音声):𝑋ω,τ
(𝑖)
= 𝑆ω,τ
(𝑖)
+ 𝑁ω,τ
(𝑖)
②DNNのforwardでT-F Mask𝐺(𝑥τ
𝑖
)と分散σ(𝑥τ
𝑖
)を求める:
Φ 𝑔: sigmoid, Φσ: 𝑒𝑥𝑝𝑜𝑛𝑒𝑛𝑡𝑖𝑎𝑙 17
𝑧τ
1 = 𝑥τ
①
②
提案手法の学習全容(2)
③ T-Fサンプリングして ෠𝐺ω,τ
𝑖,𝑘
を求める
– DNN出力の𝐺 𝑥τ
𝑖
(= ෠𝐺ω,τ
𝑖
: 右図参照)を利用して
– 以下のサンプリング手法で ሚ𝑆ω,τ
(𝑖,𝑘)
を生成
– 以下の方法で ෠𝐺ω,τ
𝑖,𝑘
を求める
④ ෠Sω,τ
𝑖,𝑘
を求める
18
③ ④
提案手法の学習全容(3)
⑤𝑍( መ𝑆,X)と𝐵( መ𝑆,X)を計算
⑥目的関数𝐽(θ)の微分∇θ 𝐽(θ)を求める
⑦BPでDNNの係数を更新
19
⑤⑥
⑦
評価:目的(1)
① 提案手法がOSQA Scoreを向上するように学習できているか?
② 提案手法と従来手法の性能比較をSDRとOSQAの指標で評価
• 7つの手法を比較
• PSA MMSEの目的関数を使う手法:MMSE
• MLベースの目的関数を使う手法:ML
• PESQのEMを目的関数に使うがGがテンプレート選択である手法:C-PESQ
• STOIのEMを目的関数に使うがGがテンプレート選択である手法:C-STOI
• PESQのEMを目的関数に使った手法:P-PESQ
• STOIのEMを目的関数に使った手法:P-STOI
• PESQのEMとSTOIのEMの寄与を50%ずつにした目的関数を使った手法:P-MIX
• テストデータを上記7つ手法に入力して得られた出力 መ𝑆を2つのOSQAで評価
• PESQ
• STOI
• テストデータに混入するノイズ4つ
• 空港,アミューズメントパーク,事務所,宴会部屋 20
評価:目的(2)
③人的な主観的評価をOSQAベース手法のテスト出力に適用
主観評価でOSQAベース手法は既存手法(MLなど)と比較して優秀か?
• 音質評価:ノイズ性など全体の印象を評価
• 評価指標
• Speech mean-opinion-score (S-MOS):音声部分の音質を5段階で評価
• Subjective-noise mean-opinion-score (N-MOS):ノイズ部分が存在するかを5段階で評価
• Overall mean-opinion-score (G-MOS):音質全体を5段階で評価
• 評価人数: 16名
• 対象手法:ML, P-PESQ,P-STOI
• 明瞭度評価:単語の音韻の明瞭度を評価
• 指標: 単語明瞭度
• 単語数
• 低頻出単語50語
• 日本語4モーラ語
• 評価人数: 16名
21
評価:データセットと実験条件
• データセット
– 学習及びValidation用
• ATR日本語データベース:
– 全体:6640発声, 男性11名,女性11名
– 学習データ:5976発声, Validationデータ:664発声,
• CHiME-3 ノイズデータベース:
– 背景ノイズ4種類:カフェ,交差点,公共交通機関,歩道
• 日本語発声ファイルとノイズファイルをランダムに選択
• 両者のSNRを振る(-6dB, 0dB, 6dB, 12dB)
– テスト用
• 日本データベース:
– 300発声,男性3名,女性3名
• ノイズデータベース:
– 背景ノイズ4種類:空港,アミューズメントパーク,事務所,
宴会部屋
• 実験条件:右表
22
①提案手法がOSQA Scoreを向上するように学習できているか?
• 右図: P-PESQあるいはP-STOI手法で学
習したシステムにテストデータを入
力しPSEQあるいはSTOI指標で評価
– 上段
• 縦軸:テストデータにおける評価指標
(PESQあるいはSTOI)の改善度
• 横軸:指標の更新回数
⇒指標の更新回数とともに指標は改善して
いる.本手法は,PESQあるいはSTOI指標
を改善している
– 下段
• 縦軸 (a) P-PESQ手法でMSEを測定,
(b)P-STOI手法でMSEを測定
• 横軸:指標の更新回数
⇒MSEは更新回数の増加と一致せず.
• 下図 :P-PESQあるいはSTOI手法で学
習したシステムにテストデータを入
力.PSEQあるいはSTOI指標で評価し
た結果とMSE指標の結果は相関無し
⇒MSE指標で評価しても聴覚評価と一
致しない
23
②提案手法と従来手法の性能比較をSDRとOSQA指標で評価
• 指標がPESQあるいはSTOIで
はその指標のEMを目的関
数にした手法かP-MIXが従
来手法より性能が良い.
• 指標がSDRではSNRが低い
場合に従来手法が本手法よ
り性能がよいことがある.
24
②提案手法と従来手法の性能比較をSDRとOSQA指標で評価
• P-PESQは音声
部を歪ませて
でも残雑音を
除去しようと
する.
• P-STOIは音声
部に歪を起こ
さないように
するため無音
部の雑音の削
除が控えめ.
• P-MIXは上記
の良いとこ取
り.
25
𝑆ω,τ 𝑋ω,τ
෠Sω,τ
𝐺ω,τ
MMSE ML P-PESQ P-STOI P-MIX
③人的な主観的評価をOSQAベース手法のテスト出力に適用
• 主観評価
– 主観的音質評価指標S-MOS,N-MOS,G-MOSではP-PESQやP-STOIなどOSQA
をベースにした手法がスコアーが良い⇒ OSQAベースの手法の方が非OSQAベー
スの手法よりも高音質のノイズ削減を実現.
– 明瞭度評価ではP-STOI手法が最も良く,続いてP-PESQ,P-STOIの順.明瞭度に
焦点をあてたP-STOIベースの手法が明瞭度性能が良いのは妥当である.
26
まとめ
• PESQやSTOIなどのOSQA Scoreベースの目的関数を持つDNNベースの音声
エンハンスメントを学習する手法を提案した
• OSQA Scoreベースの目的関数では,直接はDNNパラメータに関する微分
が求まらないが、方策勾配法によるサンプリングで微分を求めることが
できる.
• 方策勾配法で微分を求めたOSQA Scoreベース目的関数を持つ音声エンハ
ンスメントはMMSEやMLなどの従来の目的関数をもつエンハンスメント
よりも良い音質や明瞭度を提供する.
27
END
28
C-PESQ, C-STOI手法(筆者らの一世代前の手法)
• T-F Maskの選択が128個のテンプレートから選ぶ方式
29
P-PESQ,P-
STOIとの
差異部分

[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score