Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Monta v2

72 views

Published on

音声検出を用いたCNNによる環境音識別方法の研究

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Monta v2

  1. 1. 音声検出を用いたCNNによる 環境音識別方法の研究 人工知能第1研究室 17E3018 門田 夏樹 2019年2月6日 古家 賢一 教授 第2会場(108号教室) : : : : : 所 属 発 表 者 発 表 日 指 導 教 員 発 表 会 場
  2. 2. 目次 •研究背景 •研究目的 •従来研究 •提案手法 •実験 •まとめ •今後の課題 1
  3. 3. 研究背景 •マイクロホンを搭載した端末による音声認識が広く普及 •様々な雑音環境下では認識率が不十分 2 引用 https://www.nttdocomo.co.jp/binary/pdf/support/trouble/manual/down load/SH-01G_J_OP_01.pdf マイクロ ホン 長野へは ・・・ 名古屋への 行き方
  4. 4. 環境音識別 •近年では音識別技術の研究が発展 •環境音識別技術は以下のような応用が可能 -音声認識時の雑音の低減 この音に最適 な抑圧方法で 抑圧しよう ■■駅付近の 類似度高 環境識別 音声分析 はい △△さん もしもし ○○さん もしもし ○○さん
  5. 5. 研究目的 •携帯端末を用いた際の音声認識場面を想定 •多様な環境音に対して、頑健な識別が可能な識別器の 作成 4 識 別 ・ 分 類 ・ ・
  6. 6. 従来研究 Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification (J. Salamon 2016) •学習・識別 CNN(畳み込みニューラルネットワーク)を使用 •平均識別率が約79% データ拡張を導入 5
  7. 7. 従来研究におけるシステム構成 6 変換 識別 学習 テスト 音源 識別結果 CNNを利用 メルスペクトログラムに変換 データ拡張 変換 データ拡張 処理された 音源 学習フェーズ テストフェーズ 学習 音源 変換後の 音源 変換後の音源 学習処理後 の音源
  8. 8. 畳み込みニューラルネットワーク (Convolutional Neural Network) • 何層もの層をもつニューラルネットワークのひとつ • 従来のニューラルネットワークに -畳み込み層 -プーリング処理 などといった特徴的な層を積み重ねて実装 7 0 50 100 猫 犬 兎 鼠 猫 引用: https://jp.mathworks.com/discovery /convolutional-neural-network.html 全 結 合 層 全 結 合 層 畳 み 込 み 層 畳 み 込 み 層 畳 み 込 み 層 プ ー リ ン グ 処 理 プ ー リ ン グ 処 理 例: 出力入力
  9. 9. 学習データを増やすには? •深層学習においては、大量のデータが必要 -人間が大量のデータを見て覚えるのと同様 少数データから大量のデータを生成できないか? 8 大量に 記憶・ 学習して 名古屋 と認識 ・ ・ ・
  10. 10. データ拡張(Data Augmentation) •学習用データセットの学習回数、項目を増やす技術 学習データに加工、変形処理⇒学習量:1⇒4 用意するデータ自体は少数 加工、変形を施すことで、データとして増やすことが可能 少数データで学習量を増やすことが可能に 9 女性の原画像 伸縮 回転 明るさ変化
  11. 11. データ拡張に利用した手法 •信号処理ライブラリMUDA Libraryを使用して次の5種類 のデータ拡張を実施 10 検討項目 略記 パラメータ 時間伸縮 TS 0.81,0.93,1.07,1.23 ピッチシフト PS1 -2,-1,1,2 ピッチシフト PS2 -3.5,-2.5,2.5,3.5 ダイナミックレンジ圧縮 DRC 標準的な音楽、標準的な映画 スピーチ、ラジオ 背景雑音 BG 街の歩行者、街の交通 街の人々、公園
  12. 12. クラス別識別精度(従来法) •平均識別精度は79% 最高:銃声:94% 最低:エアコン:49% 11 0 0.2 0.4 0.6 0.8 1 AI CA CH DO DR EN GU JA SI ST クラス別分類精度
  13. 13. 従来法の課題 従来法 -UrbanSound8Kを使用 -明瞭な発話、音楽が含まれたデータはなし 課題 ・発話状態における識別率の検討がされていない ・音声認識時においてはそのままでは不向きでは? 12
  14. 14. 提案法 音声混入に対する処理 非音声区間を検出し、検出箇所を特徴量として使用 13 変換 分類 学習 分類結果 CNNを利用 メルスペクトログラムに変換 変換 データ拡張 処理された 音源 学習フェーズ テストフェーズ 学習音源 変換後の 音源 学習後 の音源 テスト音源 (音声混入) 非音声区間 検出 データ拡張 区間検出 処理後の音源 変換後の 音源
  15. 15. 非音声区間の検出 •環境音の識別時は、音声も同時に入力される •入力されるオーディオファイルから音声区間を検出し、 その区間を利用しない特徴量の行列で表現 •ゼロ交差数を利用して検出 14 音声区間⇒棄却 音声区間⇒棄却非音声区間⇒利用
  16. 16. ゼロ交差数 •音声信号の波形では音圧ゼロの軸を横切る回数 が多いという特徴を利用 •一定のレベルを越える振幅について交差数が一定数を 越えたときに音声と判別 15 ゼロ交差:少 ゼロ交差:多
  17. 17. 音声区間検出 •Juliusを用いて音声区間検出を実施 16 非音声区間 音声区間 加工した非音声区間の環境音に対して特徴量抽出
  18. 18. 実験 •提案手法の有効性を確認するために、環境音に音声を 付加した状態における環境音の識別実験を実施 Salamonらの従来法に -音声を付加したもの⇒従来法 -音声区間処理を行ったもの⇒提案法 環境音の識別性能 -適合率、再現率、F 値の評価尺度にて評価 17
  19. 19. 評価指標の算出 Xに属する Yに属する Xと識別 A B Yと識別 C D 18 適合率 = 𝑨 𝑨 + 𝑩 再現率 = 𝑨 𝑨 + 𝑪 F値 = 𝟐(再現率 × 適合率) 再現率 + 適合率 実際の状態 分類器によ る 識別結果
  20. 20. 環境音の種類 19 •研究用環境音データベースUrbanSound8Kより、以下の 環境音を使用 種類 略記 エアコン AI 車の警笛 CA 子どもの遊び CH 犬の鳴き声 DO 掘削音 DR エンジンの空ぶかし EN 銃声 GU 削岩機 JA サイレン SI 街の音楽 ST
  21. 21. 環境音データベースの仕様 •以下の条件にて実験を実施 20 検討項目 パラメータ 使用音源 UrbanSound8K(環境音) CHiME Challenge 4(混合音声) データ数 環境音:8732/混合音声:16 学習/テスト データ数 Fold1(学習:7859/テスト:873) Fold2(学習:7844/テスト:888) Fold3(学習:7807/テスト:925) 録音形式 Waveフォーマット サンプリングレート 44100Hz 入力SNR(dB) -10, -5, 0, 5, 10 データ拡張(MUDA Library) PitchShift(-2, -1, 1, 2) 環境音クリップ長さ 最大4s
  22. 22. 畳み込みニューラルネットワークの仕様 •深層学習用ライブラリkerasを使用 •10種類の環境音に対して以下の条件にて実施 21 検討項目 パラメータ 層の構造 3畳み込み層+2全結合層 ストライドサイズ(1,2層) (4,2) 学習率 0.01 エポック数 50 ペナルティ項 0.001 入力次元 128×128 活性化関数 ReLU関数(1,2,3,4層目) Softmax関数(5層目)
  23. 23. 結果(適合率10クラス平均) •平均における提案法による改善は見られなかった 22
  24. 24. 結果(再現率10クラス平均) •-5dB, 0dB, 5dBによる改善が見られた 23
  25. 25. 結果(F値10クラス平均) •平均における提案法による改善は見られなかった 24
  26. 26. 結果(クラス別適合率) •AI、CA、CH、EN、SI、STにて改善を確認 25
  27. 27. 結果(クラス別再現率) •AI、CA、EN、GU、SIにて改善を確認 26
  28. 28. 結果(クラス別F値) •AI、CA、CH、DO、EN、GU、SI、STにて改善を確認 27
  29. 29. 結果(クラス別)のまとめ •適合率 -改善: AI、CA、CH、EN、SI、ST -有意差あり: AI、ST •再現率 -改善: AI、CA、EN、GU、SI -有意差あり: GU、SI •F値 -改善: AI、CA、CH、DO、EN、GU、SI、ST -有意差あり: GU、SI 28
  30. 30. 考察 •dB が小さいほど、従来手法と提案手法での差が小さい -影響は人間の音声が大きいほど現れやすい •GU とSI 以外では有意差が確認されなかった 定常音に近いサイレンや短い時間の銃声 ⇒非音声区間の切り出し時の不連続さが発生しにくい それ以外の音源 ⇒経時的な変化を伴うため、切り出した際の不自然さが発生し たのではないか •サイレンや銃声のような音源とは別に、経時的な変化を 伴う音源に対しては別途対策が必要では? 29
  31. 31. まとめ •目的 -多様な環境音に対して頑健に識別可能な識別器の作成 •従来法 -データ拡張を用いたCNNによる環境音識別 -音声付加時における考慮はなし •提案法 -音声付加時における音声区間検出の導入 •実験 -音声付加時の識別率、音声区間検出の効果の検証 -一部クラスにおいて有効性を確認 30
  32. 32. 今後の課題 •音声区間検出 -今回はゼロ交差数を適用 -他の方法について検討 •学習方法 -本研究ではニューラルネットワークの構造についての変更なし -層の大きさ、層の数について検討 •テスト回数 -より増やしてさらに検証 31

×