実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調

2017/05/25
実環境下におけるサイレント音声通話の実現に向けた
雑音環境変動に頑健な非可聴つぶやき強調
第3回サイレント音声認識ワークショップ
10月14日セッションA 13：45～14：00
○田尻祐介1，亀岡弘和2 ，戸田智基1
1 名古屋大学，2 NTTコミュニケーション科学基礎研究所
空気／体内伝導マイク実環境収録 in 梅田駅

サイレント音声インタフェースが描く未来
2017/05/25 2
音声コミュニケーションの問題点
発声を躊躇するような場面が存在
• 人混みの中 ⇒ 秘匿性の高い会話は困難
• 公共スペース ⇒ 周囲にとって迷惑
サイレント音声インタフェースの登場
周囲に内容を知られることなく音声を入力
いつでも、どこででも音声通話や音声操作が可能に！

非可聴つぶやき（NAM）マイク
2017/05/25 3
非常に微弱なささやき声を体表から収録
[Nakajima et al., 2006]
声道内の
空気振動
筋肉皮膚
骨
口腔振動センサ
遮音カバー
軟シリコン
使用時のイメージ
ボソボソ
ゲイン調整
or
音声強調
もしもし！
音声に近い信号を扱うため、音声情報の抽出が比較的容易

0
1
2
3
4
5
works in silence
works for
laryngectomy
non-invasive
low cost
market ready
works in noise
メリット： ①小型で安価に製造可能
⇒ 次世代の標準的な音声インタフェースにしたい！
他のインタフェースとの比較
2017/05/25 4
未完成の技術であり、認識精度等での比較は困難
⇒ 適用性や潜在的な可能性をスコア付け
[Denby et al., 2010]
NAM 超音波画像／口唇画像顔面筋電位
0
1
2
3
4
5
0
1
2
3
4
5
①②
見や目や装着性は改善済
デメリット： ①発声が必要、②外部雑音の問題が未解決
①

実用化に向けた課題
2017/05/25 5
実環境には必ず外部雑音が存在
雑音処理
認識
強調NAM
＋
外部雑音
NAM
音声通話
音声操作本発表の内容
次発表の内容
音楽
アナウンス
人の声
エンジン音
走行時の
騒音
雑音処理が不可欠

空気伝導マイクによる外部雑音モニタリング
2017/05/25 6
 放射される音声の微弱性に着目
• 空気伝導マイクをNAMマイク付近に配置
１） NAM信号の漏れ込みを抑制
２） NAMマイクに混入するものと近い雑音を収録
• 空気伝導信号を雑音の参照信号として使用
空気伝導信号＝空気伝導NAM＋空気伝導外部雑音
≈ 空気伝導外部雑音
NAM
マイク
空気伝導
マイク
体内伝導信号＝体内伝導NAM＋体内伝導外部雑音
非常に微弱
空気／体内伝導信号間の特性を補正するフィルタを推定
[Tajiri et al., 2016]

本研究で取り組んだ課題
2017/05/25 7
従来法：セミブラインド信号分離（Semi-BSS)により
線形時不変な補正フィルタを推定
⇒ 周囲環境が変動する中、線形時不変フィルタで
雑音信号間の特性を補正するのは本質的に困難
外部雑音モニタリングの枠組みにおいて
実環境雑音に対しても有効な雑音抑圧法を提案
頭の回転雑音源・ユーザ移動

音源が移動すると？
2017/05/25 8
観測モデル
観測複素
スペクトログラム
各音源の
複素スペクトログラム
伝達特性
マイク１
マイク2
移動
マイク間距離 ≪ マイク-音源間距離であれば
振幅成分のみ比較的安定していると仮定するのは妥当
伝達特性が時変に！

振幅情報のみを用いた音源分離法の例
2017/05/25 9
非負値行列因子分解（NMF）
• 振幅（or パワー）スペクトルに加法性を仮定
※複素スペクトルではないため厳密には不成立
• 観測行列（非負）を低ランク行列（非負）の積で近似
＝
観測行列
（音源数＝２）
係数行列基底行列
音源２に対応
音源１に対応
スペクトル距離最小化によるパラメータ推定は
観測データの背後に特定の分布を仮定し、最尤推定することに相当
[Lee and Seung, 2001]

提案法およびNMFとの関係
2017/05/25 10
観測モデル（再記）
時刻に非依存時刻に依存
振幅成分と位相成分に分解
確率変数として扱う
（位相は周辺化）新たに定義
ここで、各音源のパワースペクトログラムにNMFの構造を仮定すると
パラメータの最尤推定＝観測パワースペクトログラムに対する非負値テンソル分解
の分布をと仮定

提案法の概略図
2017/05/25 11
観測パワースペクトログラム音源パワースペクトログラム
NMF
(1ch)
1
1
体内伝導雑音
体内伝導NAM体内伝導信号
提案法
(2ch)
1
?
空気伝導雑音
体内伝導NAM
1
0
体内伝導信号
空気伝導信号
赤：固定パラメータ青：推定パラメータ

実験的評価
2017/05/25 12
 男性話者1名のNAM（50文）を防音室で収録
 3種類の雑音を防音室で収録
※雑音は固定した1台のスピーカーから提示
• crowd60dB: 60 dBAの人混み雑音
• booth70dB: 70 dBAの展示場の雑音
• station80dB: 80 dBAの駅構内の雑音
 4種類の雑音を実環境で収録
• crowd5dB_SNR: 人混み雑音を5 dBで重畳
• traffic5dB_SNR: 高架下の雑音を5 dBで重畳
• restaurant0dB_SNR: 飲食店の雑音を0 dBで重畳
• station0dB_SNR: 駅構内の雑音を0 dBで重畳
 評価対象
• Semi-BSS (自然勾配法を使用)
• NMF
• 提案法（NTF)
処理前後のSN比を比較
NAM基底は事前に学習（1個抜き交差検証）
板倉齋藤擬距離規準
各音源の基底数20、更新回数50

処理前後のSN比（防音室収録の場合）
2017/05/25 13
雑音源が一つかつ固定されていればSemi-BSSが有効
雑音の種類
SN比[dB]
-5
0
5
10
15
crowd60dB booth70dB station80dB
未処理 Semi-BSS NMF NTF
悪い
良い
補正フィルタの時不変性が
成立するため！

処理前後のSN比（実環境収録の場合）
2017/05/25 14
全ての雑音に対してNTFが最も有効
外部雑音情報の活用により、NMF＜NTF
0
2
4
6
8
10
12
crowd_in5dB traffic5dB restaurant0dB station0dB
未処理 Semi-BSS NMF NTF
雑音の種類
SN比[dB]
悪い
良い推定すべきフィルタが時不変のため

さらなる改善に向けた取り組み
2017/05/25 15
オンライン化
フレーム毎にパラメータを推定
⇒ リアルタイム化
⇒ 雑音環境変動に追従
 正則化導入
後段処理で使用する特徴量を補償
⇒ 変換処理・認識処理の性能改善に直結

まとめ
2017/05/25 16
目的
雑音環境変動に対して頑健な雑音抑圧処理の実現
 提案法
伝達特性の位相成分を周辺化した観測モデル
観測パワースペクトログラムに対するNTF
 実験的評価結果
提案法は実環境収録雑音に対しても有効
 今後の展望
オンライン化、後段処理を考慮した正則化の導入

実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調

Recommended

Recommended

More Related Content

More from NU_I_TODALAB

More from NU_I_TODALAB (20)

実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調