SlideShare a Scribd company logo
1 of 16
2017/05/25
実環境下におけるサイレント音声通話の実現に向けた
雑音環境変動に頑健な非可聴つぶやき強調
第3回 サイレント音声認識ワークショップ
10月14日 セッションA 13:45~14:00
○田尻祐介1,亀岡弘和2 ,戸田智基1
1 名古屋大学,2 NTTコミュニケーション科学基礎研究所
空気/体内伝導マイク 実環境収録 in 梅田駅
サイレント音声インタフェースが描く未来
2017/05/25 2
音声コミュニケーションの問題点
発声を躊躇するような場面が存在
• 人混みの中 ⇒ 秘匿性の高い会話は困難
• 公共スペース ⇒ 周囲にとって迷惑
サイレント音声インタフェースの登場
周囲に内容を知られることなく音声を入力
いつでも、どこででも音声通話や音声操作が可能に!
非可聴つぶやき(NAM)マイク
2017/05/25 3
非常に微弱なささやき声を体表から収録
[Nakajima et al., 2006]
声道内の
空気振動
筋肉 皮膚
骨
口腔 振動センサ
遮音カバー
軟シリコン
使用時のイメージ
ボソボソ
ゲイン調整
or
音声強調
もしもし!
音声に近い信号を扱うため、音声情報の抽出が比較的容易
0
1
2
3
4
5
works in silence
works for
laryngectomy
non-invasive
low cost
market ready
works in noise
メリット: ①小型で安価に製造可能
⇒ 次世代の標準的な音声インタフェースにしたい!
他のインタフェースとの比較
2017/05/25 4
未完成の技術であり、認識精度等での比較は困難
⇒ 適用性や潜在的な可能性をスコア付け
[Denby et al., 2010]
NAM 超音波画像/口唇画像 顔面筋電位
0
1
2
3
4
5
0
1
2
3
4
5
①②
見や目や装着性は改善済
デメリット: ①発声が必要、②外部雑音の問題が未解決
①
実用化に向けた課題
2017/05/25 5
実環境には必ず外部雑音が存在
雑音処理
認識
強調NAM
+
外部雑音
NAM
音声通話
音声操作本発表の内容
次発表の内容
音楽
アナウンス
人の声
エンジン音
走行時の
騒音
雑音処理が不可欠
空気伝導マイクによる外部雑音モニタリング
2017/05/25 6
 放射される音声の微弱性に着目
• 空気伝導マイクをNAMマイク付近に配置
1) NAM信号の漏れ込みを抑制
2) NAMマイクに混入するものと近い雑音を収録
• 空気伝導信号を雑音の参照信号として使用
空気伝導信号=空気伝導NAM+空気伝導外部雑音
≈ 空気伝導外部雑音
NAM
マイク
空気伝導
マイク
体内伝導信号=体内伝導NAM+体内伝導外部雑音
非常に微弱
空気/体内伝導信号間の特性を補正するフィルタを推定
[Tajiri et al., 2016]
本研究で取り組んだ課題
2017/05/25 7
従来法: セミブラインド信号分離(Semi-BSS)により
線形時不変な補正フィルタを推定
⇒ 周囲環境が変動する中、線形時不変フィルタで
雑音信号間の特性を補正するのは本質的に困難
外部雑音モニタリングの枠組みにおいて
実環境雑音に対しても有効な雑音抑圧法を提案
頭の回転雑音源・ユーザ移動
音源が移動すると?
2017/05/25 8
観測モデル
観測複素
スペクトログラム
各音源の
複素スペクトログラム
伝達特性
マイク1
マイク2
移動
マイク間距離 ≪ マイク-音源間距離であれば
振幅成分のみ比較的安定していると仮定するのは妥当
伝達特性が時変に!
振幅情報のみを用いた音源分離法の例
2017/05/25 9
非負値行列因子分解(NMF)
• 振幅(or パワー)スペクトルに加法性を仮定
※複素スペクトルではないため厳密には不成立
• 観測行列(非負)を低ランク行列(非負)の積で近似
=
観測行列
(音源数=2)
係数行列基底行列
音源2に対応
音源1に対応
スペクトル距離最小化によるパラメータ推定は
観測データの背後に特定の分布を仮定し、最尤推定することに相当
[Lee and Seung, 2001]
提案法およびNMFとの関係
2017/05/25 10
観測モデル(再記)
時刻に非依存 時刻に依存
振幅成分と位相成分に分解
確率変数として扱う
(位相は周辺化)新たに定義
ここで、各音源のパワースペクトログラム にNMFの構造を仮定すると
パラメータの最尤推定=観測パワースペクトログラムに対する非負値テンソル分解
の分布を と仮定
提案法の概略図
2017/05/25 11
観測パワースペクトログラム 音源パワースペクトログラム
NMF
(1ch)
1
1
体内伝導雑音
体内伝導NAM体内伝導信号
提案法
(2ch)
1
?
空気伝導雑音
体内伝導NAM
1
0
体内伝導信号
空気伝導信号
赤: 固定パラメータ 青: 推定パラメータ
実験的評価
2017/05/25 12
 男性話者1名のNAM(50文)を防音室で収録
 3種類の雑音を防音室で収録
※雑音は固定した1台のスピーカーから提示
• crowd60dB: 60 dBAの人混み雑音
• booth70dB: 70 dBAの展示場の雑音
• station80dB: 80 dBAの駅構内の雑音
 4種類の雑音を実環境で収録
• crowd5dB_SNR: 人混み雑音を5 dBで重畳
• traffic5dB_SNR: 高架下の雑音を5 dBで重畳
• restaurant0dB_SNR: 飲食店の雑音を0 dBで重畳
• station0dB_SNR: 駅構内の雑音を0 dBで重畳
 評価対象
• Semi-BSS (自然勾配法を使用)
• NMF
• 提案法(NTF)
処理前後のSN比を比較
NAM基底は事前に学習(1個抜き交差検証)
板倉齋藤擬距離規準
各音源の基底数20、更新回数50
処理前後のSN比(防音室収録の場合)
2017/05/25 13
雑音源が一つかつ固定されていればSemi-BSSが有効
雑音の種類
SN比[dB]
-5
0
5
10
15
crowd60dB booth70dB station80dB
未処理 Semi-BSS NMF NTF
悪い
良い
補正フィルタの時不変性が
成立するため!
処理前後のSN比(実環境収録の場合)
2017/05/25 14
全ての雑音に対してNTFが最も有効
外部雑音情報の活用により、NMF<NTF
0
2
4
6
8
10
12
crowd_in5dB traffic5dB restaurant0dB station0dB
未処理 Semi-BSS NMF NTF
雑音の種類
SN比[dB]
悪い
良い 推定すべきフィルタが時不変のため
さらなる改善に向けた取り組み
2017/05/25 15
オンライン化
フレーム毎にパラメータを推定
⇒ リアルタイム化
⇒ 雑音環境変動に追従
 正則化導入
後段処理で使用する特徴量を補償
⇒ 変換処理・認識処理の性能改善に直結
まとめ
2017/05/25 16
目的
雑音環境変動に対して頑健な雑音抑圧処理の実現
 提案法
伝達特性の位相成分を周辺化した観測モデル
観測パワースペクトログラムに対するNTF
 実験的評価結果
提案法は実環境収録雑音に対しても有効
 今後の展望
オンライン化、後段処理を考慮した正則化の導入

More Related Content

More from NU_I_TODALAB

CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 

More from NU_I_TODALAB (20)

CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 

実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調