Monta v2

音声検出を用いたCNNによる
環境音識別方法の研究
人工知能第１研究室
17E3018 門田夏樹
2019年2月6日
古家賢一教授
第2会場(108号教室)
：
：
：
：
：
所属
発表者
発表日
指導教員
発表会場

目次
•研究背景
•研究目的
•従来研究
•提案手法
•実験
•まとめ
•今後の課題
1

研究背景
•マイクロホンを搭載した端末による音声認識が広く普及
•様々な雑音環境下では認識率が不十分
2
引用
https://www.nttdocomo.co.jp/binary/pdf/support/trouble/manual/down
load/SH-01G_J_OP_01.pdf
マイクロ
ホン
長野へは
･･･
名古屋への
行き方

環境音識別
•近年では音識別技術の研究が発展
•環境音識別技術は以下のような応用が可能
-音声認識時の雑音の低減
この音に最適
な抑圧方法で
抑圧しよう
■■駅付近の
類似度高
環境識別
音声分析
はい
△△さん
もしもし
○○さん
もしもし
○○さん

研究目的
•携帯端末を用いた際の音声認識場面を想定
•多様な環境音に対して、頑健な識別が可能な識別器の
作成
4
識
別
・
分
類
・
・

従来研究
Deep Convolutional Neural Networks and Data
Augmentation for Environmental Sound Classification
(J. Salamon 2016)
•学習・識別
CNN(畳み込みニューラルネットワーク)を使用
•平均識別率が約79%
データ拡張を導入
5

従来研究におけるシステム構成
6
変換識別
学習
テスト
音源
識別結果
CNNを利用
メルスペクトログラムに変換
データ拡張変換
データ拡張
処理された
音源
学習フェーズ
テストフェーズ
学習
音源
変換後の
音源
変換後の音源
学習処理後
の音源

畳み込みニューラルネットワーク
(Convolutional Neural Network)
• 何層もの層をもつニューラルネットワークのひとつ
• 従来のニューラルネットワークに
-畳み込み層
-プーリング処理
などといった特徴的な層を積み重ねて実装
7
0 50 100
猫
犬
兎
鼠
猫
引用：
https://jp.mathworks.com/discovery
/convolutional-neural-network.html
全
結
合
層
全
結
合
層
畳
み
込
み
層
畳
み
込
み
層
畳
み
込
み
層
プ
ー
リ
ン
グ
処
理
プ
ー
リ
ン
グ
処
理
例:
出力入力

学習データを増やすには？
•深層学習においては、大量のデータが必要
-人間が大量のデータを見て覚えるのと同様
少数データから大量のデータを生成できないか？
8
大量に
記憶・
学習して
名古屋
と認識
・
・
・

データ拡張(Data Augmentation)
•学習用データセットの学習回数、項目を増やす技術
学習データに加工、変形処理⇒学習量:1⇒4
用意するデータ自体は少数
加工、変形を施すことで、データとして増やすことが可能
少数データで学習量を増やすことが可能に
9
女性の原画像伸縮回転明るさ変化

データ拡張に利用した手法
•信号処理ライブラリMUDA Libraryを使用して次の5種類
のデータ拡張を実施
10
検討項目略記パラメータ
時間伸縮 TS 0.81,0.93,1.07,1.23
ピッチシフト PS1 -2,-1,1,2
ピッチシフト PS2 -3.5,-2.5,2.5,3.5
ダイナミックレンジ圧縮 DRC 標準的な音楽、標準的な映画
スピーチ、ラジオ
背景雑音 BG 街の歩行者、街の交通
街の人々、公園

クラス別識別精度(従来法)
•平均識別精度は79%
最高：銃声:94%
最低：エアコン:49%
11
0
0.2
0.4
0.6
0.8
1
AI CA CH DO DR EN GU JA SI ST
クラス別分類精度

従来法の課題
従来法
-UrbanSound8Kを使用
-明瞭な発話、音楽が含まれたデータはなし
課題
・発話状態における識別率の検討がされていない
・音声認識時においてはそのままでは不向きでは？
12

提案法
音声混入に対する処理
非音声区間を検出し、検出箇所を特徴量として使用
13
変換分類
学習
分類結果
CNNを利用
メルスペクトログラムに変換
変換
データ拡張
処理された
音源
学習フェーズ
テストフェーズ
学習音源
変換後の
音源
学習後
の音源
テスト音源
(音声混入)
非音声区間
検出
データ拡張
区間検出
処理後の音源
変換後の
音源

非音声区間の検出
•環境音の識別時は、音声も同時に入力される
•入力されるオーディオファイルから音声区間を検出し、
その区間を利用しない特徴量の行列で表現
•ゼロ交差数を利用して検出
14
音声区間⇒棄却音声区間⇒棄却非音声区間⇒利用

ゼロ交差数
•音声信号の波形では音圧ゼロの軸を横切る回数
が多いという特徴を利用
•一定のレベルを越える振幅について交差数が一定数を
越えたときに音声と判別
15
ゼロ交差：少
ゼロ交差：多

音声区間検出
•Juliusを用いて音声区間検出を実施
16
非音声区間音声区間
加工した非音声区間の環境音に対して特徴量抽出

実験
•提案手法の有効性を確認するために、環境音に音声を
付加した状態における環境音の識別実験を実施
Salamonらの従来法に
-音声を付加したもの⇒従来法
-音声区間処理を行ったもの⇒提案法
環境音の識別性能
-適合率、再現率、F 値の評価尺度にて評価
17

評価指標の算出
Xに属する Yに属する
Xと識別 A B
Yと識別 C D
18
適合率 =
𝑨
𝑨 + 𝑩
再現率 =
𝑨
𝑨 + 𝑪
Ｆ値 =
𝟐(再現率 × 適合率)
再現率 + 適合率
実際の状態
分類器によ
る
識別結果

環境音の種類
19
•研究用環境音データベースUrbanSound8Kより、以下の
環境音を使用
種類略記
エアコン AI
車の警笛 CA
子どもの遊び CH
犬の鳴き声 DO
掘削音 DR
エンジンの空ぶかし EN
銃声 GU
削岩機 JA
サイレン SI
街の音楽 ST

環境音データベースの仕様
•以下の条件にて実験を実施
20
検討項目パラメータ
使用音源 UrbanSound8K(環境音)
CHiME Challenge 4(混合音声)
データ数環境音:8732/混合音声:16
学習／テストデータ数 Fold1(学習:7859/テスト:873)
Fold2(学習:7844/テスト:888)
Fold3(学習:7807/テスト:925)
録音形式 Waveフォーマット
サンプリングレート 44100Hz
入力SNR(dB) -10, -5, 0, 5, 10
データ拡張(MUDA Library) PitchShift(-2, -1, 1, 2)
環境音クリップ長さ最大4s

畳み込みニューラルネットワークの仕様
•深層学習用ライブラリkerasを使用
•10種類の環境音に対して以下の条件にて実施
21
検討項目パラメータ
層の構造 3畳み込み層+2全結合層
ストライドサイズ(1,2層) (4,2)
学習率 0.01
エポック数 50
ペナルティ項 0.001
入力次元 128×128
活性化関数 ReLU関数(1,2,3,4層目)
Softmax関数(5層目)

結果(適合率10クラス平均)
•平均における提案法による改善は見られなかった
22

結果(再現率10クラス平均)
•-5dB, 0dB, 5dBによる改善が見られた
23

結果(F値10クラス平均)
•平均における提案法による改善は見られなかった
24

結果(クラス別適合率)
•AI、CA、CH、EN、SI、STにて改善を確認
25

結果(クラス別再現率)
•AI、CA、EN、GU、SIにて改善を確認
26

結果(クラス別F値)
•AI、CA、CH、DO、EN、GU、SI、STにて改善を確認
27

結果(クラス別)のまとめ
•適合率
-改善: AI、CA、CH、EN、SI、ST
-有意差あり: AI、ST
•再現率
-改善: AI、CA、EN、GU、SI
-有意差あり: GU、SI
•F値
-改善: AI、CA、CH、DO、EN、GU、SI、ST
-有意差あり: GU、SI
28

考察
•dB が小さいほど、従来手法と提案手法での差が小さい
-影響は人間の音声が大きいほど現れやすい
•GU とSI 以外では有意差が確認されなかった
定常音に近いサイレンや短い時間の銃声
⇒非音声区間の切り出し時の不連続さが発生しにくい
それ以外の音源
⇒経時的な変化を伴うため、切り出した際の不自然さが発生し
たのではないか
•サイレンや銃声のような音源とは別に、経時的な変化を
伴う音源に対しては別途対策が必要では？
29

まとめ
•目的
-多様な環境音に対して頑健に識別可能な識別器の作成
•従来法
-データ拡張を用いたCNNによる環境音識別
-音声付加時における考慮はなし
•提案法
-音声付加時における音声区間検出の導入
•実験
-音声付加時の識別率、音声区間検出の効果の検証
-一部クラスにおいて有効性を確認
30

今後の課題
•音声区間検出
-今回はゼロ交差数を適用
-他の方法について検討
•学習方法
-本研究ではニューラルネットワークの構造についての変更なし
-層の大きさ、層の数について検討
•テスト回数
-より増やしてさらに検証
31

Monta v2

More Related Content

Similar to Monta v2

Monta v2

Editor's Notes