Copyright©2018 NTT corp. All Rights Reserved.
2018/06/17 @ 音学シンポジウム2018
1
NTTメディアインテリジェンス研究所
小泉 悠馬
【招待講演】
実環境音響信号処理における収音技術
Copyright©2018 NTT corp. All Rights Reserved. 2
皆さん初めまして!
SIGMUSの皆さん
お久しぶりです!
Copyright©2018 NTT corp. All Rights Reserved. 3
About me
 小泉 悠馬(こいずみ ゆうま)
 専門:音楽情報処理(修士まで)
⇒ 電気音響(会社から)
略歴
 2014年: 法政大学 情報科学研究科 修了
 2014年: NTTメディアインテリジェンス研究所 入所
 2017年: 博士(工学) (電気通信大学)
研究内容
 音響信号処理 × 機械学習の基礎研究と実用化
 収音技術:うるさい中から欲しい音だけ取り出したい!
 異常検知:周囲の異変を音から検知したい!
指導教官
伊藤 克亘教授
指導教官
羽田 陽一教授
Copyright©2018 NTT corp. All Rights Reserved. 4
Special thanks
丹羽 健太博士 小林 和則博士日岡 祐輔准教授
川瀬 智子博士齊藤 翔一郎氏
羽田 陽一教授
本日の講演は、下記の方々の研究成果も紹介します
伊藤 弘章氏 原田 登博士
Copyright©2018 NTT corp. All Rights Reserved. 5
実環境での音情報処理サービス
計算機/通信の発達で音情報処理技術はどんどん身近に
音声認識
エンターテイメント
異常音検知
音声通信
5
Copyright©2018 NTT corp. All Rights Reserved. 6
実環境における雑音の影響
雑音が音情報処理性能を低下させる
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識 スポーツ中継
Copyright©2018 NTT corp. All Rights Reserved. 7
今日の話
実環境で
欲しい音だけ収録するには
どうすればいいのか?
Copyright©2018 NTT corp. All Rights Reserved. 8
収音技術
観測音から目的音を抽出する信号処理
 音源強調、音源分離、雑音抑圧など、様々な小分類がある
 本講演では以降、「音源強調」で統一する
観測音 目的音 雑音
※ 説明の簡単のために、周波数領
域の瞬時混合を仮定し伝達特性を
省略
目的音
雑音 …
観測音
収音技術
出力音
マイク
Copyright©2018 NTT corp. All Rights Reserved. 9
フィルタリングによる音源強調(一般形)
線形フィルタリング(e.g. ビームフォーミング, ICA, IVA)
非線形フィルタリング(e.g. 時間周波数マスク, NMF)
…
…
 周波数領域の時不変な複素線形結合(例外あり)
 周波数領域の時変な(複素/実数)係数の乗算
フィルタ推定
Copyright©2018 NTT corp. All Rights Reserved. 10
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
正面から到来する音は、
ほぼ時間差なく到達
Copyright©2018 NTT corp. All Rights Reserved. 11
正面から以外から到来する音は、
時間差をもって到達
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
Copyright©2018 NTT corp. All Rights Reserved. 12
複数の方向からの音が混ざると、
複雑な波形となる
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
Copyright©2018 NTT corp. All Rights Reserved. 13
到達時間/ゲイン差を利用し、所望の音を強調/抑圧
例)正面の音は同じタイミングで到達するので、
全マイクの音を加算すると強められる
線形フィルタリング
Copyright©2018 NTT corp. All Rights Reserved. 14
目的音=人間の声
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 15
雑音=サックス
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 16
混ざってしまうと、どれが目的音かわからない
?? ??
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 17
例:ウィナーフィルタ
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 18
例:ウィナーフィルタ
非線形フィルタリング
時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
Copyright©2018 NTT corp. All Rights Reserved. 19
残念ながら(私の知る限り)
万能なフィルタ設計法は存在しない
どうフィルタを設計すれば良い?
Copyright©2018 NTT corp. All Rights Reserved. 20
手法 着眼点 受音構造制約 フレーム処理 抑圧量/目的音歪 計算コスト
Spectrum subtraction
[Boll+, 1979]など
信号統計量/時間周
波数構造
なし 可能 大/大 軽量
Beamforming 音源方向
マルチチャネル
(dense)
可能 小/小 軽量
音響エコーキャンセラー 音源位置(座標) 雑音源が既知 可能
線形:中/小
非線形:大/大
逐次更新
分散マイクロホンアレー
[Arabi, 2003][Ono+, 2009]
音源位置(座標)
マルチチャネル
(distributed)
可能
線形:中/小
非線形:大/大
手法依存
球面調和関数展開
[Haneda+, 2014]
音源距離 中空球面アレー 可能 大/高域大 軽量
NMF
[Smaragdis+, 2003]
信号統計量/時間周
波数構造
なし 不可 中/中 反復更新
FDICA[Smaragdis+, 1998]
/IVA[Hiroe+, 2006]
信号統計量/音源方
向
マルチチャネル
(優決定)
不可 中/小 反復更新
MNMF
[Sawada+, 2013]など
音源方向/信号統計
量/時間周波数構造
マルチチャネル
(dense)
不可 大/小 反復更新
ILRMA
[Kitamura+, 2016]など
音源方向/信号統計
量/時間周波数構造
マルチチャネル
(優決定)
不可 大/小 反復更新
深層学習/機械学習ベース
[Erdogan+, 2015]など
信号統計量/時間周
波数構造
学習時と一致す
る必要
可能 大/中 要事前学習
代表的な音源強調(※主観的なまとめ)
Copyright©2018 NTT corp. All Rights Reserved. 21
実環境では問題の事前知識は「ある」場合が多数
問題によって【求められる/求められない】性能は異なる
収音技術の性能要件を明確にする
=「問題を定義する」ことが大切
 目的音と雑音の違いは?
 どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
 計算リソースはどれくらい使える?
 ハードウェアや設置条件に制限はある?
 リアルタイム処理は必要?
 事前学習は可能?(環境の変動は大きい?)
技術開発チェックリスト
Copyright©2018 NTT corp. All Rights Reserved. 22
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
実環境で利用した収音技術の紹介
5. まとめ
Copyright©2018 NTT corp. All Rights Reserved. 23
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright©2018 NTT corp. All Rights Reserved. 24
目的音と雑音の「方向」が異なる例
対話ロボット
話しかける人は
たいてい正面に立つ
Copyright©2018 NTT corp. All Rights Reserved. 25
目的音と雑音の「方向」が異なる例
雑音は様々な方向から
やってくる
対話ロボット
Copyright©2018 NTT corp. All Rights Reserved. 26
到達時間/ゲイン差を利用し、所望の音を強調/抑圧
ビームフォーミング
Copyright©2018 NTT corp. All Rights Reserved. 27
ビームフォーマ設計の例(最尤BF)
 観測信号のモデル化
目的音から各マイクまでの伝達特性ベクトル
 雑音がガウス雑音と仮定すると、尤度関数は 雑音の空間相関行列
 この尤度関数を最大化する出力音と BF は以下で求められる
: 雑音の方向に死角を形成
: 目的音の方向に山を形成
 や は未知のため、ステアリングベクトルを代用
⇨ 音源強調性能が低下
Copyright©2018 NTT corp. All Rights Reserved. 28
ビームフォーミングの精度向上のために
音声認識の精度上げたい!
うるさい中でも通話をしたい!
 音声は歪ませたくない
 計算量は多少使える
 「音声」だけ強調できればいい
 とにかく雑音を消したい
 計算量は数百MIPS程度
 どんな音かわからない
Copyright©2018 NTT corp. All Rights Reserved. 29
うるさい中でも通話をしたい!
 目的音と雑音の違いは?
 どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
 計算リソースはどれくらい使える?
 ハードウェアや設置条件に制限はある?
 事前学習は可能?(環境の変動は大きい?)
 リアルタイム処理は必要?
→ 方向
→ YES
→ 通話向けだからとにかく雑音を消したい
→ No
→ DSPチップに乗る程度
→ コスト面から、マイクは数個のみ
Copyright©2018 NTT corp. All Rights Reserved.
…
30
非線形フィルタリングを後段に組み合わせる
1. 通話向けの拡張(抑圧量大/歪み大/演算量小)
BF1
BF-1
時間周波数マスク処理
時間周波数マスク設計
BF-2
BF-L
…
ポストフィルタの利用
[Kaneda+, 1984], [Zelinski, ICASSP-1988], [McCowan+, 2003]
Copyright©2018 NTT corp. All Rights Reserved. 31
♪
目的音
BF出力からの時間周波数マスク設計
雑音マイクロホンアレー
BF単体での雑音抑圧性能は 15 dB 程度
Copyright©2018 NTT corp. All Rights Reserved. 32
♪
BF出力からの時間周波数マスク設計
目的音 雑音マイクロホンアレー
BFを複数組み合わせれば、見かけ上の
ゲイン差が増える
Copyright©2018 NTT corp. All Rights Reserved. 33
BF出力からの時間周波数マスク設計
♪
目的音 雑音マイクロホンアレー
目的音側 BF =
雑音側 BF =
+
♪+
♪ 目的音側 BF – α × 雑音側 BF=
雑音側 BF – β×目的音側 BF=♪
減算係数はどのように決めれば良いだろう?
減算して得られた目的音/雑音のパワースペクト
ルから時間周波数マスクを設計
Copyright©2018 NTT corp. All Rights Reserved. 34
PSD-estimation-in-beamspace
[Hioka, et al., IEEE Trans., 2013]
減算係数を各BFの角度周波数特性から決定
 複数のBFの出力を、各方向毎の音源群の線形和で近似
 減算係数を角度周波数応答行列の一般化逆行列 で求める
非常にシンプルなモデル
なものの、実環境では強
力, 安定かつ高速に動作
※ 安定動作条件は [Niwa+, IWAENC-2016] を参照
Copyright©2018 NTT corp. All Rights Reserved. 35
Demo Video
100 dB の騒音下で目的音を抽出&音声認識
Copyright©2018 NTT corp. All Rights Reserved. 36
音声認識の精度上げたい!
 目的音と雑音の違いは?
 どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
 計算リソースはどれくらい使える?
 ハードウェアや設置条件に制限はある?
 事前学習は可能?(環境の変動は大きい?)
 リアルタイム処理は必要?
→ 方向
→ 多少、計算機パワーは使える
→ YES
→ 音声認識向けだから歪ませたくない!
→ 音声の特徴は学習可能
Copyright©2018 NTT corp. All Rights Reserved. 37
時間周波数マスクを利用した空間相関行列の推定
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
…
T-Fマスク推定&
マスク処理
ビームフォーミング
ビームフォーマ設計
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
空間相関行列の推定
Copyright©2018 NTT corp. All Rights Reserved. 38
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
得られるのは観測信号のみで
ノイズの情報を得ることはできない
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright©2018 NTT corp. All Rights Reserved.
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
39
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
目的音を推定する T-F マスク設計法を利用
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright©2018 NTT corp. All Rights Reserved. 40
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
T-F マスクを ”ひっくり返せば”
雑音の推定値を得ることもできる
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright©2018 NTT corp. All Rights Reserved. 41
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright©2018 NTT corp. All Rights Reserved. 42
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright©2018 NTT corp. All Rights Reserved. 43
目的音と雑音の「位置」が異なるケース
広い部屋での会議
お誕生日席が遠くて
強調できない!
Copyright©2018 NTT corp. All Rights Reserved. 44
なぜ、遠い音の分離が難しいのか
Target
Noise
𝜃1
Mic. array
𝜃2
マイクロホンからの距離が遠いほど、見込み角が小さくなる
Copyright©2018 NTT corp. All Rights Reserved. 45
分散マイクロホンアレー
Target
Noise
Microphones
複数のマイクロホンを dense に配置するのやめよう
マイクロホンを各音源の近くに配置すればいい!
Copyright©2018 NTT corp. All Rights Reserved. 46
スマホマイクアレー
複数のスマホをマイクロホンアレーとして連携
問題点1:サンプリングの同期が取れない
問題点2:マイクの相対位置が不明
[Ono+, WASPAA-2009]など
Copyright©2018 NTT corp. All Rights Reserved. 47
伝達関数ゲイン推定
伝達ゲイン(各マイクロホンの感度比)の推定問題
[Chiba+, IWAENC-2014], [Kako+, WASPAA-2015]など
PSDの瞬時混合でモデル化
 発話者が一人の時は、
各マイクロホンの音量比で求まる!!
[Kako+, 2015] のアルゴリズム(計算量小/リアルタイム)
1. VADを行い、発話者が一人の区間を検出
2. 各マイクロホンについて、感度比を推定
3. 感度比を並べた行列の疑似逆行列を求め、目的音のPSDを推定
Copyright©2018 NTT corp. All Rights Reserved. 48
Demo Video
これまで紹介した技術を組み合わせた
車内での通話や音声認識のデモ
複数個所に取り付けたマイクロホンアレーを連携させて音声強調
Copyright©2018 NTT corp. All Rights Reserved.
 歓声やPAが雑音源
 野球中継で聞いている音
はパラボラマイクの音
パラボラマイク
場内アナウンス
(PAスピーカ)
応援団
競技音
49
目的音と雑音が離れている場合は?
Copyright©2018 NTT corp. All Rights Reserved. 50
目的音と雑音が離れている場合は?
瞬時混合が成り立たない(距離による伝搬遅延や長残響)
時間周波数
マスク設計
×
Copyright©2018 NTT corp. All Rights Reserved. 51
目的音と雑音が離れている場合は?
瞬時混合が成り立たない(距離による伝搬遅延や長残響)
時間周波数
マスク設計
×
遅延&
残響推定
Copyright©2018 NTT corp. All Rights Reserved. 52
Multi-delay noise model
振幅領域での伝搬遅延/長残響のモデル化
Time-frame
delay
Gain ,
Gain ,1
Gain ,
1
1
……
,
1
,
2
,
Multi-delay noise model
,
Multi-delay
noise model
Multi-delay
noise model
,
1
Time-frequency
mask calc.
𝐺 ,
,
残響 伝搬遅延
Multi-delay noise model
 Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張
 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
Copyright©2018 NTT corp. All Rights Reserved. 53
Multi-delay noise model
物理的制約を事前分布においた残響/遅延のMAP推定
 残響:音のパワーは非負&指数的に減衰 → 指数分布
 伝搬遅延:距離と音速から概算できる自然数 → ポアソン分布
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
概算フレーム遅延
パワーの指数減衰
Copyright©2018 NTT corp. All Rights Reserved. 54
Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク(ホームベース)
ショットガンマイク(外野スタンド)
処理音
ストラーイク!
ミット音
Time [s]
野球場での動作デモ
審判の声や捕球音を強調
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
Copyright©2018 NTT corp. All Rights Reserved. 55
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright©2018 NTT corp. All Rights Reserved. 56
目的音と雑音の「音色」が異なるケース
マイクアレイ
競技音歓声雑音
雑音が全方位から到来し、目的音の近くにマイク配置できない
目的音と雑音の音色の違いに着目して音源強調できないか
Copyright©2018 NTT corp. All Rights Reserved. 57
音色が異なると観測音はどう変化する?
 サッカーボールのキック音 @ ゴール前
0 2 4 6 8 10
0
2
4
6
8
Time [s]
Frequency[kHz]
キック音 歓声応援&太鼓
Copyright©2018 NTT corp. All Rights Reserved. 58
Demo Video
大歓声の中でキック音を強調
周囲のスピーカーで
競技場の歓声を再現
アルゴリズム
1. 突発音を検出し、その中からキック音を検出
2. キック音だけを強調する時間周波数マスクをルールベース設計
Copyright©2018 NTT corp. All Rights Reserved. 59
もう少し高度化できないものだろうか?
ルールベース処理 = 回帰関数の手作業設計
観測音
時間周波数マスク
1. 突発音検知=閾値判定
2. フィルタ設計
=マッピング
ルール設計やパラメータ調整を自動化したい
⇨ 機械学習ベースの手法へ
Copyright©2018 NTT corp. All Rights Reserved. 60
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
Copyright©2018 NTT corp. All Rights Reserved. 61
(D)NN音源強調
DNNを回帰関数として利用
 時間周波数マスク or Log-amplitude-spectrum の推定が主流
…
……
……
……
……
…
……
𝐒
源信号
𝐍
雑音 𝐗
観測信号
𝐒
目的関数
(MMSE)
学習
データ
[Xie, et al., 1994], [Nadarayan, et al., ICASSP-2013]
Copyright©2018 NTT corp. All Rights Reserved.
様々なDNN音源強調の研究
バッチ処理系
リアルタイム処理系
 Deep clustering [Hershey+, 2016]
 Permutation Invariant Training (PIT) [Dong Yu+, 2017]
 雑音の種類が目的音と同じでも分離可能(speech + speechなど)
 線形フィルタのパラメータ推定、音声認識との相性が良い
 空間相関行列推定 [Ochiai+, 2017]
 Independent Deep Learning Matrix Analysis (IDLMA) [北村+, 2018]
 マイク数や利用環境に依存しない基礎研究が多い
 新しい時間周波数マスク
 ブラックボックスな指標を利用した最適化 [Koizumi+, 2017]
 Phase Sensitive Mask (PSM) [Erdogan+, 2015]
 Complex Ideal Ratio Mask (cIRM) [Williamson+, 2016]
 MDCT-Mask [Koizumi+, 2018]
Copyright©2018 NTT corp. All Rights Reserved. 63
DNN音源強調における目的関数の重要性
DNNにどんな「情報」を推定して欲しいのか?
 DNNは、ただの柔軟な回帰関数
 出力の信号的/統計的性質を決めるのは、学習に用いる目的関数
システムの最終目的は「歪みの最小化」なのか?
代表的な目的関数 = 歪み最小化
Phase-Sensitive-Cost [Erdogan+, 2015]
 対話の「満足度」を上げたい
 人が聞いて「良い」と思える音を出力したい
実用上、性能指標が解析的に記述できないことも
Copyright©2018 NTT corp. All Rights Reserved. 64
解析的でない(微分できない)目的関数
主観的な音質評価を最大化したい
ブラックボックス関数は微分不可能 (Backprop.が困難)
???
Copyright©2018 NTT corp. All Rights Reserved. 65
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Game
score
Reward func.Action selector
Action
candi-
dates
Action
…
…
…
…
ゲームスコアさえあれば
DNNが学習できる
ビデオゲームや囲碁の学習に成功している!
音源強調に応用できないか?
Copyright©2018 NTT corp. All Rights Reserved. 66
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
スコアを主観評価と
捉えれば最適化できる?
学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい…
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Copyright©2018 NTT corp. All Rights Reserved. 67
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
人間の主観評価を模擬した定量
評価指標を利用 (e.g. PESQ)
PC上のシミュレーションで完結
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Copyright©2018 NTT corp. All Rights Reserved.
聴感評点の例
68
音質の定量指標の例
明瞭度(単語の聞き取りやすさ)の定量指標の例
 PESQ: Perceptual Evaluation of Speech Quality
 音声符号化などで使われる音質の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の音質評価(MOS)を模擬した値
⇒ PESQを上げ、出力音の音質向上を狙う
 STOI: Short-Time Objective Intelligibility
 音声強調などで使われる明瞭度の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の単語正解率を模擬した値
⇒ STOIを上げ、出力音の明瞭度向上を狙う
Copyright©2018 NTT corp. All Rights Reserved. 69
DNN音源強調のブラックボックス最適化
DNNを用いて目的関数を定義
サンプリングを用いた勾配の近似計算(policy gradient)
出力音の条件付き分布を
DNNで記述
聴感評点の最大化を
目的関数とする
Copyright©2018 NTT corp. All Rights Reserved.
評価実験
70
定量評価実験
主観評価実験
【確認ポイント】聴感評点を向上させるようにDNNを学習できるか?
【確認ポイント】聴感評点と対応した主観品質が向上するか?
実験1:学習回数と聴感評点の関係を調査
実験2:従来法と聴感評点の値を比較
実験1:PESQを向上させたときの 音質(MOS) を評価
実験2:STOIを向上させたときの 明瞭度(単語了解度) を評価
※時間の都合上、詳細な実装/実験/結果は、以下の文献をご参照ください
Y. Koizumi, et al., “DNN-based Source Enhancement to Increase Objective Sound Quality
Assessment Score,” IEEE Trans. ASLP, 2018.
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 1/2(定量評価実験)
71
音質指標
PESQの向上値
【実験1】:学習回数が進むに従い、聴感評点が向上
明瞭度指標
STOIの向上値
学習回数 学習回数
【実験2】:学習に利用した聴感評点が、従来法より優位に向上
SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度)
PSM [Erdogan,2015] 9.40 2.27 83.3
提案法(PESQ) 9.19 2.37 83.4
提案法(STOI) 9.74 2.20 87.3
 学習が進むにつれ、目標としてい
る聴感評点も向上
 学習に用いた聴感評点は従来法より
も優位に向上
(Input SNR: 0dB, Open test)
 聴感評点を向上させるDNN学習に成功
 従来技術と比べ、聴感評点が優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
72
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ) 従来法 提案法(STOI)
PESQ最大化で
音質が向上
STOI最大化で
明瞭度が向上
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
Copyright©2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
73
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ)
 聴感評点に対応する主観品質も、従来法と比べ優位に向上
従来法 提案法(STOI)
正解は「タカドノ」
従来法の正答率:31%, 提案法の正答率:81%
従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が
低下しため、「ハカドノ」などと誤回答
Copyright©2018 NTT corp. All Rights Reserved. 74
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright©2018 NTT corp. All Rights Reserved. 75
まとめ
収音技術の性能要件を明確にする
=「問題を定義する」ことが大切
 目的音と雑音の違いは?
 どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
 計算リソースはどれくらい使える?
 ハードウェアや設置条件に制限はある?
 リアルタイム処理は必要?
 事前学習は可能?(環境の変動は大きい?)
さあ、現場に行ってみましょう!
Copyright©2018 NTT corp. All Rights Reserved. 76
Thank you!!

実環境音響信号処理における収音技術

  • 1.
    Copyright©2018 NTT corp.All Rights Reserved. 2018/06/17 @ 音学シンポジウム2018 1 NTTメディアインテリジェンス研究所 小泉 悠馬 【招待講演】 実環境音響信号処理における収音技術
  • 2.
    Copyright©2018 NTT corp.All Rights Reserved. 2 皆さん初めまして! SIGMUSの皆さん お久しぶりです!
  • 3.
    Copyright©2018 NTT corp.All Rights Reserved. 3 About me  小泉 悠馬(こいずみ ゆうま)  専門:音楽情報処理(修士まで) ⇒ 電気音響(会社から) 略歴  2014年: 法政大学 情報科学研究科 修了  2014年: NTTメディアインテリジェンス研究所 入所  2017年: 博士(工学) (電気通信大学) 研究内容  音響信号処理 × 機械学習の基礎研究と実用化  収音技術:うるさい中から欲しい音だけ取り出したい!  異常検知:周囲の異変を音から検知したい! 指導教官 伊藤 克亘教授 指導教官 羽田 陽一教授
  • 4.
    Copyright©2018 NTT corp.All Rights Reserved. 4 Special thanks 丹羽 健太博士 小林 和則博士日岡 祐輔准教授 川瀬 智子博士齊藤 翔一郎氏 羽田 陽一教授 本日の講演は、下記の方々の研究成果も紹介します 伊藤 弘章氏 原田 登博士
  • 5.
    Copyright©2018 NTT corp.All Rights Reserved. 5 実環境での音情報処理サービス 計算機/通信の発達で音情報処理技術はどんどん身近に 音声認識 エンターテイメント 異常音検知 音声通信 5
  • 6.
    Copyright©2018 NTT corp.All Rights Reserved. 6 実環境における雑音の影響 雑音が音情報処理性能を低下させる 雑音が大きく 音声認識できない 競技音が埋もれ 臨場感が伝わらない 音声認識 スポーツ中継
  • 7.
    Copyright©2018 NTT corp.All Rights Reserved. 7 今日の話 実環境で 欲しい音だけ収録するには どうすればいいのか?
  • 8.
    Copyright©2018 NTT corp.All Rights Reserved. 8 収音技術 観測音から目的音を抽出する信号処理  音源強調、音源分離、雑音抑圧など、様々な小分類がある  本講演では以降、「音源強調」で統一する 観測音 目的音 雑音 ※ 説明の簡単のために、周波数領 域の瞬時混合を仮定し伝達特性を 省略 目的音 雑音 … 観測音 収音技術 出力音 マイク
  • 9.
    Copyright©2018 NTT corp.All Rights Reserved. 9 フィルタリングによる音源強調(一般形) 線形フィルタリング(e.g. ビームフォーミング, ICA, IVA) 非線形フィルタリング(e.g. 時間周波数マスク, NMF) … …  周波数領域の時不変な複素線形結合(例外あり)  周波数領域の時変な(複素/実数)係数の乗算 フィルタ推定
  • 10.
    Copyright©2018 NTT corp.All Rights Reserved. 10 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる 正面から到来する音は、 ほぼ時間差なく到達
  • 11.
    Copyright©2018 NTT corp.All Rights Reserved. 11 正面から以外から到来する音は、 時間差をもって到達 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる
  • 12.
    Copyright©2018 NTT corp.All Rights Reserved. 12 複数の方向からの音が混ざると、 複雑な波形となる 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる
  • 13.
    Copyright©2018 NTT corp.All Rights Reserved. 13 到達時間/ゲイン差を利用し、所望の音を強調/抑圧 例)正面の音は同じタイミングで到達するので、 全マイクの音を加算すると強められる 線形フィルタリング
  • 14.
    Copyright©2018 NTT corp.All Rights Reserved. 14 目的音=人間の声 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 15.
    Copyright©2018 NTT corp.All Rights Reserved. 15 雑音=サックス 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 16.
    Copyright©2018 NTT corp.All Rights Reserved. 16 混ざってしまうと、どれが目的音かわからない ?? ?? 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 17.
    Copyright©2018 NTT corp.All Rights Reserved. 17 例:ウィナーフィルタ 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 18.
    Copyright©2018 NTT corp.All Rights Reserved. 18 例:ウィナーフィルタ 非線形フィルタリング 時間周波数マスク 0 ≤ 𝐺𝑡,𝑓 ≤ 1 を乗じる音源強調法
  • 19.
    Copyright©2018 NTT corp.All Rights Reserved. 19 残念ながら(私の知る限り) 万能なフィルタ設計法は存在しない どうフィルタを設計すれば良い?
  • 20.
    Copyright©2018 NTT corp.All Rights Reserved. 20 手法 着眼点 受音構造制約 フレーム処理 抑圧量/目的音歪 計算コスト Spectrum subtraction [Boll+, 1979]など 信号統計量/時間周 波数構造 なし 可能 大/大 軽量 Beamforming 音源方向 マルチチャネル (dense) 可能 小/小 軽量 音響エコーキャンセラー 音源位置(座標) 雑音源が既知 可能 線形:中/小 非線形:大/大 逐次更新 分散マイクロホンアレー [Arabi, 2003][Ono+, 2009] 音源位置(座標) マルチチャネル (distributed) 可能 線形:中/小 非線形:大/大 手法依存 球面調和関数展開 [Haneda+, 2014] 音源距離 中空球面アレー 可能 大/高域大 軽量 NMF [Smaragdis+, 2003] 信号統計量/時間周 波数構造 なし 不可 中/中 反復更新 FDICA[Smaragdis+, 1998] /IVA[Hiroe+, 2006] 信号統計量/音源方 向 マルチチャネル (優決定) 不可 中/小 反復更新 MNMF [Sawada+, 2013]など 音源方向/信号統計 量/時間周波数構造 マルチチャネル (dense) 不可 大/小 反復更新 ILRMA [Kitamura+, 2016]など 音源方向/信号統計 量/時間周波数構造 マルチチャネル (優決定) 不可 大/小 反復更新 深層学習/機械学習ベース [Erdogan+, 2015]など 信号統計量/時間周 波数構造 学習時と一致す る必要 可能 大/中 要事前学習 代表的な音源強調(※主観的なまとめ)
  • 21.
    Copyright©2018 NTT corp.All Rights Reserved. 21 実環境では問題の事前知識は「ある」場合が多数 問題によって【求められる/求められない】性能は異なる 収音技術の性能要件を明確にする =「問題を定義する」ことが大切  目的音と雑音の違いは?  どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)  計算リソースはどれくらい使える?  ハードウェアや設置条件に制限はある?  リアルタイム処理は必要?  事前学習は可能?(環境の変動は大きい?) 技術開発チェックリスト
  • 22.
    Copyright©2018 NTT corp.All Rights Reserved. 22 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 実環境で利用した収音技術の紹介 5. まとめ
  • 23.
    Copyright©2018 NTT corp.All Rights Reserved. 23 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 24.
    Copyright©2018 NTT corp.All Rights Reserved. 24 目的音と雑音の「方向」が異なる例 対話ロボット 話しかける人は たいてい正面に立つ
  • 25.
    Copyright©2018 NTT corp.All Rights Reserved. 25 目的音と雑音の「方向」が異なる例 雑音は様々な方向から やってくる 対話ロボット
  • 26.
    Copyright©2018 NTT corp.All Rights Reserved. 26 到達時間/ゲイン差を利用し、所望の音を強調/抑圧 ビームフォーミング
  • 27.
    Copyright©2018 NTT corp.All Rights Reserved. 27 ビームフォーマ設計の例(最尤BF)  観測信号のモデル化 目的音から各マイクまでの伝達特性ベクトル  雑音がガウス雑音と仮定すると、尤度関数は 雑音の空間相関行列  この尤度関数を最大化する出力音と BF は以下で求められる : 雑音の方向に死角を形成 : 目的音の方向に山を形成  や は未知のため、ステアリングベクトルを代用 ⇨ 音源強調性能が低下
  • 28.
    Copyright©2018 NTT corp.All Rights Reserved. 28 ビームフォーミングの精度向上のために 音声認識の精度上げたい! うるさい中でも通話をしたい!  音声は歪ませたくない  計算量は多少使える  「音声」だけ強調できればいい  とにかく雑音を消したい  計算量は数百MIPS程度  どんな音かわからない
  • 29.
    Copyright©2018 NTT corp.All Rights Reserved. 29 うるさい中でも通話をしたい!  目的音と雑音の違いは?  どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)  計算リソースはどれくらい使える?  ハードウェアや設置条件に制限はある?  事前学習は可能?(環境の変動は大きい?)  リアルタイム処理は必要? → 方向 → YES → 通話向けだからとにかく雑音を消したい → No → DSPチップに乗る程度 → コスト面から、マイクは数個のみ
  • 30.
    Copyright©2018 NTT corp.All Rights Reserved. … 30 非線形フィルタリングを後段に組み合わせる 1. 通話向けの拡張(抑圧量大/歪み大/演算量小) BF1 BF-1 時間周波数マスク処理 時間周波数マスク設計 BF-2 BF-L … ポストフィルタの利用 [Kaneda+, 1984], [Zelinski, ICASSP-1988], [McCowan+, 2003]
  • 31.
    Copyright©2018 NTT corp.All Rights Reserved. 31 ♪ 目的音 BF出力からの時間周波数マスク設計 雑音マイクロホンアレー BF単体での雑音抑圧性能は 15 dB 程度
  • 32.
    Copyright©2018 NTT corp.All Rights Reserved. 32 ♪ BF出力からの時間周波数マスク設計 目的音 雑音マイクロホンアレー BFを複数組み合わせれば、見かけ上の ゲイン差が増える
  • 33.
    Copyright©2018 NTT corp.All Rights Reserved. 33 BF出力からの時間周波数マスク設計 ♪ 目的音 雑音マイクロホンアレー 目的音側 BF = 雑音側 BF = + ♪+ ♪ 目的音側 BF – α × 雑音側 BF= 雑音側 BF – β×目的音側 BF=♪ 減算係数はどのように決めれば良いだろう? 減算して得られた目的音/雑音のパワースペクト ルから時間周波数マスクを設計
  • 34.
    Copyright©2018 NTT corp.All Rights Reserved. 34 PSD-estimation-in-beamspace [Hioka, et al., IEEE Trans., 2013] 減算係数を各BFの角度周波数特性から決定  複数のBFの出力を、各方向毎の音源群の線形和で近似  減算係数を角度周波数応答行列の一般化逆行列 で求める 非常にシンプルなモデル なものの、実環境では強 力, 安定かつ高速に動作 ※ 安定動作条件は [Niwa+, IWAENC-2016] を参照
  • 35.
    Copyright©2018 NTT corp.All Rights Reserved. 35 Demo Video 100 dB の騒音下で目的音を抽出&音声認識
  • 36.
    Copyright©2018 NTT corp.All Rights Reserved. 36 音声認識の精度上げたい!  目的音と雑音の違いは?  どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)  計算リソースはどれくらい使える?  ハードウェアや設置条件に制限はある?  事前学習は可能?(環境の変動は大きい?)  リアルタイム処理は必要? → 方向 → 多少、計算機パワーは使える → YES → 音声認識向けだから歪ませたくない! → 音声の特徴は学習可能
  • 37.
    Copyright©2018 NTT corp.All Rights Reserved. 37 時間周波数マスクを利用した空間相関行列の推定 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大) … T-Fマスク推定& マスク処理 ビームフォーミング ビームフォーマ設計 [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 空間相関行列の推定
  • 38.
    Copyright©2018 NTT corp.All Rights Reserved. 38 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 得られるのは観測信号のみで ノイズの情報を得ることはできない 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 39.
    Copyright©2018 NTT corp.All Rights Reserved. 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 39 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 目的音を推定する T-F マスク設計法を利用 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 40.
    Copyright©2018 NTT corp.All Rights Reserved. 40 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 T-F マスクを ”ひっくり返せば” 雑音の推定値を得ることもできる 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 41.
    Copyright©2018 NTT corp.All Rights Reserved. 41 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 42.
    Copyright©2018 NTT corp.All Rights Reserved. 42 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 43.
    Copyright©2018 NTT corp.All Rights Reserved. 43 目的音と雑音の「位置」が異なるケース 広い部屋での会議 お誕生日席が遠くて 強調できない!
  • 44.
    Copyright©2018 NTT corp.All Rights Reserved. 44 なぜ、遠い音の分離が難しいのか Target Noise 𝜃1 Mic. array 𝜃2 マイクロホンからの距離が遠いほど、見込み角が小さくなる
  • 45.
    Copyright©2018 NTT corp.All Rights Reserved. 45 分散マイクロホンアレー Target Noise Microphones 複数のマイクロホンを dense に配置するのやめよう マイクロホンを各音源の近くに配置すればいい!
  • 46.
    Copyright©2018 NTT corp.All Rights Reserved. 46 スマホマイクアレー 複数のスマホをマイクロホンアレーとして連携 問題点1:サンプリングの同期が取れない 問題点2:マイクの相対位置が不明 [Ono+, WASPAA-2009]など
  • 47.
    Copyright©2018 NTT corp.All Rights Reserved. 47 伝達関数ゲイン推定 伝達ゲイン(各マイクロホンの感度比)の推定問題 [Chiba+, IWAENC-2014], [Kako+, WASPAA-2015]など PSDの瞬時混合でモデル化  発話者が一人の時は、 各マイクロホンの音量比で求まる!! [Kako+, 2015] のアルゴリズム(計算量小/リアルタイム) 1. VADを行い、発話者が一人の区間を検出 2. 各マイクロホンについて、感度比を推定 3. 感度比を並べた行列の疑似逆行列を求め、目的音のPSDを推定
  • 48.
    Copyright©2018 NTT corp.All Rights Reserved. 48 Demo Video これまで紹介した技術を組み合わせた 車内での通話や音声認識のデモ 複数個所に取り付けたマイクロホンアレーを連携させて音声強調
  • 49.
    Copyright©2018 NTT corp.All Rights Reserved.  歓声やPAが雑音源  野球中継で聞いている音 はパラボラマイクの音 パラボラマイク 場内アナウンス (PAスピーカ) 応援団 競技音 49 目的音と雑音が離れている場合は?
  • 50.
    Copyright©2018 NTT corp.All Rights Reserved. 50 目的音と雑音が離れている場合は? 瞬時混合が成り立たない(距離による伝搬遅延や長残響) 時間周波数 マスク設計 ×
  • 51.
    Copyright©2018 NTT corp.All Rights Reserved. 51 目的音と雑音が離れている場合は? 瞬時混合が成り立たない(距離による伝搬遅延や長残響) 時間周波数 マスク設計 × 遅延& 残響推定
  • 52.
    Copyright©2018 NTT corp.All Rights Reserved. 52 Multi-delay noise model 振幅領域での伝搬遅延/長残響のモデル化 Time-frame delay Gain , Gain ,1 Gain , 1 1 …… , 1 , 2 , Multi-delay noise model , Multi-delay noise model Multi-delay noise model , 1 Time-frequency mask calc. 𝐺 , , 残響 伝搬遅延 Multi-delay noise model  Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張  物理的制約を事前分布におき、残響/遅延パラメータをMAP推定 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
  • 53.
    Copyright©2018 NTT corp.All Rights Reserved. 53 Multi-delay noise model 物理的制約を事前分布においた残響/遅延のMAP推定  残響:音のパワーは非負&指数的に減衰 → 指数分布  伝搬遅延:距離と音速から概算できる自然数 → ポアソン分布 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear) 概算フレーム遅延 パワーの指数減衰
  • 54.
    Copyright©2018 NTT corp.All Rights Reserved. 54 Modeling …! ホームベース付近に パラボラマイク 外野スタンドに ショットガンマイク Time [s] Freq.[kHz]Freq.[kHz]Freq.[kHz] パラボラマイク(ホームベース) ショットガンマイク(外野スタンド) 処理音 ストラーイク! ミット音 Time [s] 野球場での動作デモ 審判の声や捕球音を強調 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
  • 55.
    Copyright©2018 NTT corp.All Rights Reserved. 55 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 56.
    Copyright©2018 NTT corp.All Rights Reserved. 56 目的音と雑音の「音色」が異なるケース マイクアレイ 競技音歓声雑音 雑音が全方位から到来し、目的音の近くにマイク配置できない 目的音と雑音の音色の違いに着目して音源強調できないか
  • 57.
    Copyright©2018 NTT corp.All Rights Reserved. 57 音色が異なると観測音はどう変化する?  サッカーボールのキック音 @ ゴール前 0 2 4 6 8 10 0 2 4 6 8 Time [s] Frequency[kHz] キック音 歓声応援&太鼓
  • 58.
    Copyright©2018 NTT corp.All Rights Reserved. 58 Demo Video 大歓声の中でキック音を強調 周囲のスピーカーで 競技場の歓声を再現 アルゴリズム 1. 突発音を検出し、その中からキック音を検出 2. キック音だけを強調する時間周波数マスクをルールベース設計
  • 59.
    Copyright©2018 NTT corp.All Rights Reserved. 59 もう少し高度化できないものだろうか? ルールベース処理 = 回帰関数の手作業設計 観測音 時間周波数マスク 1. 突発音検知=閾値判定 2. フィルタ設計 =マッピング ルール設計やパラメータ調整を自動化したい ⇨ 機械学習ベースの手法へ
  • 60.
    Copyright©2018 NTT corp.All Rights Reserved. 60 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ
  • 61.
    Copyright©2018 NTT corp.All Rights Reserved. 61 (D)NN音源強調 DNNを回帰関数として利用  時間周波数マスク or Log-amplitude-spectrum の推定が主流 … …… …… …… …… … …… 𝐒 源信号 𝐍 雑音 𝐗 観測信号 𝐒 目的関数 (MMSE) 学習 データ [Xie, et al., 1994], [Nadarayan, et al., ICASSP-2013]
  • 62.
    Copyright©2018 NTT corp.All Rights Reserved. 様々なDNN音源強調の研究 バッチ処理系 リアルタイム処理系  Deep clustering [Hershey+, 2016]  Permutation Invariant Training (PIT) [Dong Yu+, 2017]  雑音の種類が目的音と同じでも分離可能(speech + speechなど)  線形フィルタのパラメータ推定、音声認識との相性が良い  空間相関行列推定 [Ochiai+, 2017]  Independent Deep Learning Matrix Analysis (IDLMA) [北村+, 2018]  マイク数や利用環境に依存しない基礎研究が多い  新しい時間周波数マスク  ブラックボックスな指標を利用した最適化 [Koizumi+, 2017]  Phase Sensitive Mask (PSM) [Erdogan+, 2015]  Complex Ideal Ratio Mask (cIRM) [Williamson+, 2016]  MDCT-Mask [Koizumi+, 2018]
  • 63.
    Copyright©2018 NTT corp.All Rights Reserved. 63 DNN音源強調における目的関数の重要性 DNNにどんな「情報」を推定して欲しいのか?  DNNは、ただの柔軟な回帰関数  出力の信号的/統計的性質を決めるのは、学習に用いる目的関数 システムの最終目的は「歪みの最小化」なのか? 代表的な目的関数 = 歪み最小化 Phase-Sensitive-Cost [Erdogan+, 2015]  対話の「満足度」を上げたい  人が聞いて「良い」と思える音を出力したい 実用上、性能指標が解析的に記述できないことも
  • 64.
    Copyright©2018 NTT corp.All Rights Reserved. 64 解析的でない(微分できない)目的関数 主観的な音質評価を最大化したい ブラックボックス関数は微分不可能 (Backprop.が困難) ???
  • 65.
    Copyright©2018 NTT corp.All Rights Reserved. 65 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018] Game score Reward func.Action selector Action candi- dates Action … … … … ゲームスコアさえあれば DNNが学習できる ビデオゲームや囲碁の学習に成功している! 音源強調に応用できないか?
  • 66.
    Copyright©2018 NTT corp.All Rights Reserved. 66 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … スコアを主観評価と 捉えれば最適化できる? 学習には大量の試行が必要 ⇒ 主観評価そのままの利用は厳しい… [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
  • 67.
    Copyright©2018 NTT corp.All Rights Reserved. 67 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … 人間の主観評価を模擬した定量 評価指標を利用 (e.g. PESQ) PC上のシミュレーションで完結 [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
  • 68.
    Copyright©2018 NTT corp.All Rights Reserved. 聴感評点の例 68 音質の定量指標の例 明瞭度(単語の聞き取りやすさ)の定量指標の例  PESQ: Perceptual Evaluation of Speech Quality  音声符号化などで使われる音質の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の音質評価(MOS)を模擬した値 ⇒ PESQを上げ、出力音の音質向上を狙う  STOI: Short-Time Objective Intelligibility  音声強調などで使われる明瞭度の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の単語正解率を模擬した値 ⇒ STOIを上げ、出力音の明瞭度向上を狙う
  • 69.
    Copyright©2018 NTT corp.All Rights Reserved. 69 DNN音源強調のブラックボックス最適化 DNNを用いて目的関数を定義 サンプリングを用いた勾配の近似計算(policy gradient) 出力音の条件付き分布を DNNで記述 聴感評点の最大化を 目的関数とする
  • 70.
    Copyright©2018 NTT corp.All Rights Reserved. 評価実験 70 定量評価実験 主観評価実験 【確認ポイント】聴感評点を向上させるようにDNNを学習できるか? 【確認ポイント】聴感評点と対応した主観品質が向上するか? 実験1:学習回数と聴感評点の関係を調査 実験2:従来法と聴感評点の値を比較 実験1:PESQを向上させたときの 音質(MOS) を評価 実験2:STOIを向上させたときの 明瞭度(単語了解度) を評価 ※時間の都合上、詳細な実装/実験/結果は、以下の文献をご参照ください Y. Koizumi, et al., “DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE Trans. ASLP, 2018.
  • 71.
    Copyright©2018 NTT corp.All Rights Reserved. 評価実験 1/2(定量評価実験) 71 音質指標 PESQの向上値 【実験1】:学習回数が進むに従い、聴感評点が向上 明瞭度指標 STOIの向上値 学習回数 学習回数 【実験2】:学習に利用した聴感評点が、従来法より優位に向上 SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度) PSM [Erdogan,2015] 9.40 2.27 83.3 提案法(PESQ) 9.19 2.37 83.4 提案法(STOI) 9.74 2.20 87.3  学習が進むにつれ、目標としてい る聴感評点も向上  学習に用いた聴感評点は従来法より も優位に向上 (Input SNR: 0dB, Open test)  聴感評点を向上させるDNN学習に成功  従来技術と比べ、聴感評点が優位に向上
  • 72.
    Copyright©2018 NTT corp.All Rights Reserved. 評価実験 2/2(主観評価実験) 72 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 従来法 提案法(STOI) PESQ最大化で 音質が向上 STOI最大化で 明瞭度が向上  聴感評点に対応する主観品質も、従来法と比べ優位に向上
  • 73.
    Copyright©2018 NTT corp.All Rights Reserved. 評価実験 2/2(主観評価実験) 73 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ)  聴感評点に対応する主観品質も、従来法と比べ優位に向上 従来法 提案法(STOI) 正解は「タカドノ」 従来法の正答率:31%, 提案法の正答率:81% 従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が 低下しため、「ハカドノ」などと誤回答
  • 74.
    Copyright©2018 NTT corp.All Rights Reserved. 74 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 75.
    Copyright©2018 NTT corp.All Rights Reserved. 75 まとめ 収音技術の性能要件を明確にする =「問題を定義する」ことが大切  目的音と雑音の違いは?  どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)  計算リソースはどれくらい使える?  ハードウェアや設置条件に制限はある?  リアルタイム処理は必要?  事前学習は可能?(環境の変動は大きい?) さあ、現場に行ってみましょう!
  • 76.
    Copyright©2018 NTT corp.All Rights Reserved. 76 Thank you!!