空気/体内伝導マイクロフォンを用いた
雑音環境下における
自己発声音強調/抑圧法
☆高田萌絵,関 翔悟,戸田智基
名古屋大学
2018/9/14 日本音響学会@大分大学 1
研究背景
小型高性能なウェアラブル音声収録機器の開発
手首や頭部まわりに装着
音情報処理の発展
音環境理解:周囲の状況把握や音イベントの検出
音声処理:音声認識,ライフログ
2018/9/14 日本音響学会@大分大学 2
ウェアラブルな音声インターフェースの実現へ
ウェアラブル機器で音声を収録
様々な音が混ざり合っている混合音
対象とする音を抽出する音源分離が有効
2018/9/14 日本音響学会@大分大学 3
ウェアラブル
システム
環境音
自分の声
(自己発声音)
環境音ログ
発話ログ
雑音環境下の自己発声音強調・抑圧処理に着目
従来の音源分離
通常発話の多チャネル空気伝導音に対して音源分離
2018/9/14 日本音響学会@大分大学 4
空気伝導音
劣決定
ブラインド音源分離
自己発声音
環境音
自己発声音の影響が大きく分離性能が落ちてしまう
空気伝導マイクロフォン
体内・空気伝導音用劣決定ブラインド音源分離
通常発話の空気・体内伝導音に対して音源分離
2018/9/14 日本音響学会@大分大学 5
空気伝導音 体内・空気伝導音用
劣決定
ブラインド音源分離
分離フィルタ
体内伝導音
体内伝導音の情報を利用して空気伝導音の分離フィルタを推定
 より高精度に自己発声音を強調・抑圧する
空気伝導マイクロフォン
NAMマイクロフォン
空気伝導音と体内伝導音
空気伝導マイクロフォンによる収録音
非可聴つぶやき(NAM)マイクロフォンによる収録音
周囲の環境音の混入を低減した音声を収録
自己発声音によって支配的に構成
音声の品質が劣化
2018/9/14 日本音響学会@大分大学 6
提案法の流れ
体内・空気伝導音を併用し従来法を応用した手法
2018/9/14 日本音響学会@大分大学 7
Independent
Low-Rank
Matrix Analysis
Wiener
filtering
Ambient environment
sound signal
Self-produced speech
signal
Self-produced
speech
discrimination
体内伝導音
独立低ランク
行列分析
自己発声音
判別
フィルタリング
周囲の音
自己発声音
空気伝導音
NMF
独立低ランク行列分析 [D. Kitamura+, 2016]
IVAの音源モデルにNMFを導入
線形分離フィルタと各音源の音源モデルを学習
2018/9/14 日本音響学会@大分大学 8
混合信号
自己発声音
環境音
線形分離
フィルタ
時間変動
周
波
数
パ
タ
ー
ン
時間変動
周
波
数
パ
タ
ー
ン
音源モデル
IVA
自己発声音判別
ILRMAにより推定された複数音源を持つ多チャネルの
分離信号を自己発声音と環境音に分ける
体内伝導音に相当するチャネルにおいて信号のパワー
が最大となる信号を自己発声音とする
2018/9/14 日本音響学会@大分大学 9
独
立
低
ラ
ン
ク
行
列
分
析
分離信号
プ
ロ
ジ
ェ
ク
シ
ョ
ン
バ
ッ
ク
[N. Murata+, 2001]
体内伝導 空気伝導1 空気伝導2
フィルタリング
ILRMAによる多チャネルの分離信号𝑦𝑖𝑗,𝑚
(s)
, 𝑦𝑖𝑗,𝑚
(n)
を用いて
各チャネルのシングルチャネルウィナーフィルタを推定
観測空気伝導音にウィナーフィルタを掛け合わせること
で自己発声音の強調・抑圧
劣決定音源分離など線形フィルタによって観測信号を
効果的に分離できない場合に高い分離精度を得ることが
可能
2018/9/14 日本音響学会@大分大学 10
𝐺𝑖𝑗,𝑚
(s)
=
𝑃 𝑦𝑖𝑗,𝑚
(s)
𝑃 𝑦𝑖𝑗,𝑚
(s)
+ 𝑃 𝑦𝑖𝑗,𝑚
(n)
𝐺𝑖𝑗,𝑚
(s)
:自己発声音強調フィルタ
𝑃(∙):パワー
𝑖: 周波数インデックス
𝑗: 時間インデックス
𝑚:チャネルインデックス
実験的評価
体内伝導音を利用する有効性を確認
音声データ
自己発声音と環境音の混合音
ネックバンド型のウェアラブルデバイスを使用
周囲に雑音源を等間隔に設置
評価値
SDR(分離信号の統合的な音質)を採用
2018/9/14 日本音響学会@大分大学 11
空気伝導マイクロフォン
NAMマイクロフォン
60°
実験条件
従来法:空気伝導音 5 ch
提案法:空気伝導音 4 ch + 体内伝導音 1 ch
2018/9/14 日本音響学会@大分大学 12
Evaluation data 18 sentences
Sampling frequency 48 kHz
Frame size 11.6 ms (512 pt)
Shift size 5.8 ms (256 pt)
Number of iteration 100
Number of basis vectors 200
Number of channels 5 ch
自己発声音に対応する音源数 (1src , 2src)
ウィナーフィルタを適用する効果
実験結果
2018/9/14 日本音響学会@大分大学 13
-1
0
1
2
3
4
5
2src w/ WF 1src w/ WF 1src w/o WF conventional
(1src w/ WF)
conventional
(1src w/o WF)
air- and body-conducted signals air-conducted signals
SDRimprovement[dB]
Speech
Environment
まとめ
環境音と自己発声音との分離における空気伝導音と
体内伝導音を用いて分離フィルタを推定するための手法
について提案
提案法による分離性能が向上を確認
1. 体内伝導音は強調・抑圧処理において有効であること
2. 線形分離フィルタとウィナーフィルタの組み合わせは提案法に
おいて有効でないこと
今後の方針
空気・体内伝導音のモデル化のためのより適切な混合過程を
検討
2018/9/14 日本音響学会@大分大学 14

空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法