実環境音響信号処理における収音技術

Copyright©2018 NTT corp. All Rights Reserved.
2018/06/17 @ 音学シンポジウム2018
1
NTTメディアインテリジェンス研究所
小泉悠馬
【招待講演】
実環境音響信号処理における収音技術

Copyright©2018 NTT corp. All Rights Reserved. 2
皆さん初めまして！
SIGMUSの皆さん
お久しぶりです！

About me
 小泉悠馬（こいずみゆうま）
 専門：音楽情報処理（修士まで）
⇒ 電気音響（会社から）
略歴
 2014年: 法政大学情報科学研究科修了
 2014年: NTTメディアインテリジェンス研究所入所
 2017年: 博士（工学）（電気通信大学）
研究内容
 音響信号処理 × 機械学習の基礎研究と実用化
 収音技術：うるさい中から欲しい音だけ取り出したい！
 異常検知：周囲の異変を音から検知したい！
指導教官
伊藤克亘教授
指導教官
羽田陽一教授

Special thanks
丹羽健太博士小林和則博士日岡祐輔准教授
川瀬智子博士齊藤翔一郎氏
羽田陽一教授
本日の講演は、下記の方々の研究成果も紹介します
伊藤弘章氏原田登博士

実環境での音情報処理サービス
計算機/通信の発達で音情報処理技術はどんどん身近に
音声認識
エンターテイメント
異常音検知
音声通信
5

実環境における雑音の影響
雑音が音情報処理性能を低下させる
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識スポーツ中継

今日の話
実環境で
欲しい音だけ収録するには
どうすればいいのか？

収音技術
観測音から目的音を抽出する信号処理
 音源強調、音源分離、雑音抑圧など、様々な小分類がある
 本講演では以降、「音源強調」で統一する
観測音目的音雑音
※ 説明の簡単のために、周波数領
域の瞬時混合を仮定し伝達特性を
省略
目的音
雑音 …
観測音
収音技術
出力音
マイク

フィルタリングによる音源強調（一般形）
線形フィルタリング（e.g. ビームフォーミング, ICA, IVA）
非線形フィルタリング（e.g. 時間周波数マスク, NMF）
…
…
 周波数領域の時不変な複素線形結合（例外あり）
 周波数領域の時変な(複素/実数)係数の乗算
フィルタ推定

線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
正面から到来する音は、
ほぼ時間差なく到達

正面から以外から到来する音は、
時間差をもって到達

複数の方向からの音が混ざると、
複雑な波形となる

到達時間/ゲイン差を利用し、所望の音を強調/抑圧
例）正面の音は同じタイミングで到達するので、
全マイクの音を加算すると強められる

目的音＝人間の声
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法

雑音＝サックス

混ざってしまうと、どれが目的音かわからない
?? ??

例：ウィナーフィルタ

残念ながら（私の知る限り）
万能なフィルタ設計法は存在しない
どうフィルタを設計すれば良い？

手法着眼点受音構造制約フレーム処理抑圧量/目的音歪計算コスト
Spectrum subtraction
[Boll+, 1979]など
信号統計量/時間周
波数構造
なし可能大/大軽量
Beamforming 音源方向
マルチチャネル
（dense）
可能小/小軽量
音響エコーキャンセラー音源位置（座標）雑音源が既知可能
線形：中/小
非線形：大/大
逐次更新
分散マイクロホンアレー
[Arabi, 2003][Ono+, 2009]
音源位置（座標）
（distributed）
可能
線形：中/小
非線形：大/大
手法依存
球面調和関数展開
[Haneda+, 2014]
音源距離中空球面アレー可能大/高域大軽量
NMF
[Smaragdis+, 2003]
波数構造
なし不可中/中反復更新
FDICA[Smaragdis+, 1998]
/IVA[Hiroe+, 2006]
信号統計量/音源方
向
（優決定）
不可中/小反復更新
MNMF
[Sawada+, 2013]など
音源方向/信号統計
量/時間周波数構造
（dense）
不可大/小反復更新
ILRMA
[Kitamura+, 2016]など
音源方向/信号統計
量/時間周波数構造
（優決定）
不可大/小反復更新
深層学習/機械学習ベース
[Erdogan+, 2015]など
波数構造
学習時と一致す
る必要
可能大/中要事前学習
代表的な音源強調（※主観的なまとめ）

実環境では問題の事前知識は「ある」場合が多数
問題によって【求められる/求められない】性能は異なる
収音技術の性能要件を明確にする
=「問題を定義する」ことが大切
 目的音と雑音の違いは？
 どの程度の雑音抑圧性能が必要？（抑圧量/音の歪み）
 計算リソースはどれくらい使える？
 ハードウェアや設置条件に制限はある？
 リアルタイム処理は必要？
 事前学習は可能？（環境の変動は大きい？）
技術開発チェックリスト

1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
実環境で利用した収音技術の紹介
5. まとめ

もくじ
5. まとめ

目的音と雑音の「方向」が異なる例
対話ロボット
話しかける人は
たいてい正面に立つ

目的音と雑音の「方向」が異なる例
雑音は様々な方向から
やってくる
対話ロボット

到達時間/ゲイン差を利用し、所望の音を強調/抑圧
ビームフォーミング

ビームフォーマ設計の例（最尤BF）
 観測信号のモデル化
目的音から各マイクまでの伝達特性ベクトル
 雑音がガウス雑音と仮定すると、尤度関数は雑音の空間相関行列
 この尤度関数を最大化する出力音と BF は以下で求められる
: 雑音の方向に死角を形成
: 目的音の方向に山を形成
 やは未知のため、ステアリングベクトルを代用
⇨ 音源強調性能が低下

ビームフォーミングの精度向上のために
音声認識の精度上げたい！
うるさい中でも通話をしたい！
 音声は歪ませたくない
 計算量は多少使える
 「音声」だけ強調できればいい
 とにかく雑音を消したい
 計算量は数百MIPS程度
 どんな音かわからない

うるさい中でも通話をしたい！
→ 方向
→ YES
→ 通話向けだからとにかく雑音を消したい
→ No
→ DSPチップに乗る程度
→ コスト面から、マイクは数個のみ

…
30
非線形フィルタリングを後段に組み合わせる
1. 通話向けの拡張（抑圧量大/歪み大/演算量小）
BF１
BF-1
時間周波数マスク処理
時間周波数マスク設計
BF-2
BF-L
…
ポストフィルタの利用
[Kaneda+, 1984], [Zelinski, ICASSP-1988], [McCowan+, 2003]

♪
目的音
BF出力からの時間周波数マスク設計
雑音マイクロホンアレー
BF単体での雑音抑圧性能は 15 dB 程度

♪
目的音雑音マイクロホンアレー
BFを複数組み合わせれば、見かけ上の
ゲイン差が増える

♪
目的音雑音マイクロホンアレー
目的音側 BF =
雑音側 BF =
＋
♪＋
♪ 目的音側 BF – α × 雑音側 BF=
雑音側 BF – β×目的音側 BF=♪
減算係数はどのように決めれば良いだろう？
減算して得られた目的音/雑音のパワースペクト
ルから時間周波数マスクを設計

PSD-estimation-in-beamspace
[Hioka, et al., IEEE Trans., 2013]
減算係数を各BFの角度周波数特性から決定
 複数のBFの出力を、各方向毎の音源群の線形和で近似
 減算係数を角度周波数応答行列の一般化逆行列で求める
非常にシンプルなモデル
なものの、実環境では強
力, 安定かつ高速に動作
※ 安定動作条件は [Niwa+, IWAENC-2016] を参照

Demo Video
100 dB の騒音下で目的音を抽出＆音声認識

音声認識の精度上げたい！
→ 方向
→ 多少、計算機パワーは使える
→ YES
→ 音声認識向けだから歪ませたくない！
→ 音声の特徴は学習可能

時間周波数マスクを利用した空間相関行列の推定
2. 音声認識向けの拡張（抑圧量小/歪み小/演算量大）
…
T-Fマスク推定＆
マスク処理
ビームフォーミング
ビームフォーマ設計
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
空間相関行列の推定

空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
得られるのは観測信号のみで
ノイズの情報を得ることはできない

0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
39
0 1 2 3 4
0
2
4
6
8
目的音を推定する T-F マスク設計法を利用

0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
T-F マスクを ”ひっくり返せば”
雑音の推定値を得ることもできる

0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8

もくじ
5. まとめ

目的音と雑音の「位置」が異なるケース
広い部屋での会議
お誕生日席が遠くて
強調できない！

なぜ、遠い音の分離が難しいのか
Target
Noise
𝜃1
Mic. array
𝜃2
マイクロホンからの距離が遠いほど、見込み角が小さくなる

分散マイクロホンアレー
Target
Noise
Microphones
複数のマイクロホンを dense に配置するのやめよう
マイクロホンを各音源の近くに配置すればいい！

スマホマイクアレー
複数のスマホをマイクロホンアレーとして連携
問題点１：サンプリングの同期が取れない
問題点２：マイクの相対位置が不明
[Ono+, WASPAA-2009]など

伝達関数ゲイン推定
伝達ゲイン（各マイクロホンの感度比）の推定問題
[Chiba+, IWAENC-2014], [Kako+, WASPAA-2015]など
PSDの瞬時混合でモデル化
 発話者が一人の時は、
各マイクロホンの音量比で求まる!!
[Kako+, 2015] のアルゴリズム（計算量小/リアルタイム）
1. VADを行い、発話者が一人の区間を検出
2. 各マイクロホンについて、感度比を推定
3. 感度比を並べた行列の疑似逆行列を求め、目的音のPSDを推定

Demo Video
これまで紹介した技術を組み合わせた
車内での通話や音声認識のデモ
複数個所に取り付けたマイクロホンアレーを連携させて音声強調

 歓声やPAが雑音源
 野球中継で聞いている音
はパラボラマイクの音
パラボラマイク
場内アナウンス
（ＰＡスピーカ）
応援団
競技音
49
目的音と雑音が離れている場合は？

瞬時混合が成り立たない（距離による伝搬遅延や長残響）
時間周波数
マスク設計
×

瞬時混合が成り立たない（距離による伝搬遅延や長残響）
時間周波数
マスク設計
×
遅延＆
残響推定

Multi-delay noise model
振幅領域での伝搬遅延/長残響のモデル化
Time-frame
delay
Gain ,
Gain ,1
Gain ,
1
1
……
,
1
,
2
,
,
Multi-delay
noise model
Multi-delay
noise model
,
1
Time-frequency
mask calc.
𝐺 ,
,
残響伝搬遅延
 Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張
 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)

物理的制約を事前分布においた残響/遅延のMAP推定
 残響：音のパワーは非負＆指数的に減衰 → 指数分布
 伝搬遅延：距離と音速から概算できる自然数 → ポアソン分布
概算フレーム遅延
パワーの指数減衰

Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク（ホームベース）
ショットガンマイク（外野スタンド）
処理音
ストラーイク！
ミット音
Time [s]
野球場での動作デモ
審判の声や捕球音を強調

もくじ
5. まとめ

目的音と雑音の「音色」が異なるケース
マイクアレイ
競技音歓声雑音
雑音が全方位から到来し、目的音の近くにマイク配置できない
目的音と雑音の音色の違いに着目して音源強調できないか

音色が異なると観測音はどう変化する？
 サッカーボールのキック音 @ ゴール前
0 2 4 6 8 10
0
2
4
6
8
Time [s]
Frequency[kHz]
キック音歓声応援＆太鼓

Demo Video
大歓声の中でキック音を強調
周囲のスピーカーで
競技場の歓声を再現
アルゴリズム
1. 突発音を検出し、その中からキック音を検出
2. キック音だけを強調する時間周波数マスクをルールベース設計

もう少し高度化できないものだろうか？
ルールベース処理＝回帰関数の手作業設計
観測音
時間周波数マスク
1. 突発音検知＝閾値判定
2. フィルタ設計
=マッピング
ルール設計やパラメータ調整を自動化したい
⇨ 機械学習ベースの手法へ

もくじ
5. まとめ

(D)NN音源強調
DNNを回帰関数として利用
 時間周波数マスク or Log-amplitude-spectrum の推定が主流
…
……
……
……
……
…
……
𝐒
源信号
𝐍
雑音 𝐗
観測信号
𝐒
目的関数
(MMSE)
学習
データ
[Xie, et al., 1994], [Nadarayan, et al., ICASSP-2013]

様々なDNN音源強調の研究
バッチ処理系
リアルタイム処理系
 Deep clustering [Hershey+, 2016]
 Permutation Invariant Training (PIT) [Dong Yu+, 2017]
 雑音の種類が目的音と同じでも分離可能（speech + speechなど）
 線形フィルタのパラメータ推定、音声認識との相性が良い
 空間相関行列推定 [Ochiai+, 2017]
 Independent Deep Learning Matrix Analysis (IDLMA) [北村+, 2018]
 マイク数や利用環境に依存しない基礎研究が多い
 新しい時間周波数マスク
 ブラックボックスな指標を利用した最適化 [Koizumi+, 2017]
 Phase Sensitive Mask (PSM) [Erdogan+, 2015]
 Complex Ideal Ratio Mask (cIRM) [Williamson+, 2016]
 MDCT-Mask [Koizumi+, 2018]

DNN音源強調における目的関数の重要性
DNNにどんな「情報」を推定して欲しいのか？
 DNNは、ただの柔軟な回帰関数
 出力の信号的/統計的性質を決めるのは、学習に用いる目的関数
システムの最終目的は「歪みの最小化」なのか？
代表的な目的関数＝歪み最小化
Phase-Sensitive-Cost [Erdogan+, 2015]
 対話の「満足度」を上げたい
 人が聞いて「良い」と思える音を出力したい
実用上、性能指標が解析的に記述できないことも

解析的でない（微分できない）目的関数
主観的な音質評価を最大化したい
ブラックボックス関数は微分不可能（Backprop.が困難）
？？？

DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Game
score
Reward func.Action selector
Action
candi-
dates
Action
…
…
…
…
ゲームスコアさえあれば
DNNが学習できる
ビデオゲームや囲碁の学習に成功している！
音源強調に応用できないか？

Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
スコアを主観評価と
捉えれば最適化できる？
学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…

Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
人間の主観評価を模擬した定量
評価指標を利用 (e.g. PESQ)
PC上のシミュレーションで完結

聴感評点の例
68
音質の定量指標の例
明瞭度（単語の聞き取りやすさ）の定量指標の例
 PESQ: Perceptual Evaluation of Speech Quality
 音声符号化などで使われる音質の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の音質評価（MOS）を模擬した値
⇒ PESQを上げ、出力音の音質向上を狙う
 STOI: Short-Time Objective Intelligibility
 音声強調などで使われる明瞭度の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の単語正解率を模擬した値
⇒ STOIを上げ、出力音の明瞭度向上を狙う

DNNを用いて目的関数を定義
サンプリングを用いた勾配の近似計算（policy gradient）
出力音の条件付き分布を
DNNで記述
聴感評点の最大化を
目的関数とする

評価実験
70
定量評価実験
主観評価実験
【確認ポイント】聴感評点を向上させるようにDNNを学習できるか？
【確認ポイント】聴感評点と対応した主観品質が向上するか？
実験１：学習回数と聴感評点の関係を調査
実験２：従来法と聴感評点の値を比較
実験１：PESQを向上させたときの音質（MOS）を評価
実験２：STOIを向上させたときの明瞭度（単語了解度）を評価
※時間の都合上、詳細な実装/実験/結果は、以下の文献をご参照ください
Y. Koizumi, et al., “DNN-based Source Enhancement to Increase Objective Sound Quality
Assessment Score,” IEEE Trans. ASLP, 2018.

評価実験 1/2（定量評価実験）
71
音質指標
PESQの向上値
【実験１】：学習回数が進むに従い、聴感評点が向上
明瞭度指標
STOIの向上値
学習回数学習回数
【実験２】：学習に利用した聴感評点が、従来法より優位に向上
SDR [dB]（歪み） PESQ （音質） STOI [%]（明瞭度）
PSM [Erdogan,2015] 9.40 2.27 83.3
提案法（PESQ） 9.19 2.37 83.4
提案法（STOI） 9.74 2.20 87.3
 学習が進むにつれ、目標としてい
る聴感評点も向上
 学習に用いた聴感評点は従来法より
も優位に向上
（Input SNR: 0dB, Open test）
 聴感評点を向上させるDNN学習に成功
 従来技術と比べ、聴感評点が優位に向上

評価実験 2/2（主観評価実験）
72
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験１】
出力音の音質を5段階で絶対評価
（PESQが模擬している試験）
良
悪
良
悪
【実験２】
親密度の低い単語の聞き取り正解率
（STOIが模擬している試験）
従来法
提案法
(PESQ)
提案法
(STOI)
従来法提案法(PESQ) 従来法提案法(STOI)
PESQ最大化で
音質が向上
STOI最大化で
明瞭度が向上
 聴感評点に対応する主観品質も、従来法と比べ優位に向上

評価実験 2/2（主観評価実験）
73
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験１】
出力音の音質を5段階で絶対評価
（PESQが模擬している試験）
良
悪
良
悪
【実験２】
親密度の低い単語の聞き取り正解率
（STOIが模擬している試験）
従来法
提案法
(PESQ)
提案法
(STOI)
従来法提案法(PESQ)
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
従来法提案法(STOI)
正解は「タカドノ」
従来法の正答率：31%, 提案法の正答率：81％
従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が
低下しため、「ハカドノ」などと誤回答

もくじ
5. まとめ

まとめ
収音技術の性能要件を明確にする
=「問題を定義する」ことが大切
さあ、現場に行ってみましょう！

Thank you!!

実環境音響信号処理における収音技術

More Related Content

What's hot

Similar to 実環境音響信号処理における収音技術

Recently uploaded

実環境音響信号処理における収音技術