Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Interspeech2020 reading

Interspeech2020 論文読み会(オンライン) #interspeech2020jp

  • Be the first to comment

  • Be the first to like this

Interspeech2020 reading

  1. 1. ©Yuki Saito, Nov. 20, 2020. Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion 東京大学 D3 齋藤 佑樹 INTERSPEECH2020 論文読み会 (オンライン)
  2. 2. /131 自己紹介  齋藤 佑樹 (SAITO Yuki) – 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研 現在D3) – HP: http://sython.org/  専門: 音声合成・声質変換 – + 統計的機械学習理論 (GAN 音声合成, VAE 声質変換) – + Human computation (human-in-the-loop 話者埋め込み)  その他 – D論予備審査を終えました
  3. 3. /132 本日紹介する論文  Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion – J. Szep(University of Arizona) & S. Hariri(University of Arizona)  3行まとめ – The INTERSPEECH 2020 ComParE* Mask Sub-Challenge (MSC) で優勝 – 音声スペクトログラムから, その話者がマスクを着用しているか判定 – 複数の認識モデルからの予測結果のアンサンブルで性能改善  選んだ動機 – タイムリーな話題だったから *Computational Paralinguistics ChallengE
  4. 4. /133 1. Introduction  COVID-19 の大流行 – マスクを着用した状態での音声コミュニケーションの機会が増加 – 音声情報だけからマスク着用の有無を識別する技術の需要  本論文: Pre-trained large image classifiers + data fusion – 大規模画像認識モデル (例: VGGNet [Simonyan+15]) を MSC に適応 – 音声スペクトログラム (SP) を入力し, マスク着用の有無を識別 • 複数の分析条件により得られた SP を fusion して入力 • 複数モデルの予測結果をアンサンブルして最終結果を出力 – Discussion として, どの音声周波数帯域が重要なのか調査 SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  5. 5. /134 2. Experimental framework: Dataset  Mask Augsburg Speech Corpus (MASC) – 32名の独語母語話者によるマスク着用/非着用での音声発話 – 男性話者16名/女性話者16名, 1秒間の音声セグメント × 36,554 – 3つのサブセット (Train, Dev, Test) 間で, 話者の重複はなし SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
  6. 6. /135 2. Experimental framework: SP analysis  音声スペクトログラム (SP) の分析 – 音声を時間 (横軸), 周波数, (縦軸), 強度 (色)で可視化した表現 – 分析時のパラメータ (特に窓長) 設定が重要 • 時間/周波数分解能の両立は原理的に不可能 (左図 & 中央図) – 本論文では, 異なるパラメータによる分析結果を多チャネル化 (右図) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  7. 7. /136 2. Experimental framework: Image classifiers  事前学習済み大規模画像認識モデルを用いた転移学習 – 音声からの話者認識 [Chung+18] や感情推定 [Amiriparian+17] 等で有効 – 本論文では, 以下のモデルを採用 • VGGNet (VG19)[Simonyan+15] • ResNet (ResNet-50, ResNet-101)[He+15] • DenseNet (DenseNet-121) [Huang+18] SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  8. 8. /137 2. Experimental framework: Ensemble learning  複数の認識モデルによる予測結果を統合 – 異なるアーキテクチャ, 異なる入力の良いとこ取り • Averaging: 各モデルの出力確率を平均 • Voting: 各モデルの予測結果で多数決  その他の機械学習的テクニック等 – データ拡張 (回転, 拡大, 照度変更, 伸縮) – 周期的な学習率 (1.5e-3 ~ 2.0e-5 で変動) – Gradually trainable layers (出力層に近い部分から順に更新) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
  9. 9. /138 3. Experimental results: 'Training at daylight'  Train データで学習 & Dev データで検証 – 評価指標: 各 SP & 各モデルの UAR* (正例/負例ごとの Recall の平均) – Linear SP > others (MSS: Mel & ConstQ: Log) – 3CH SP > 1CH SP, Narrowband SP (8, 15, 30) [ms] ≈ Wideband SP (5, 15, 50) [ms] *Unweighted Average Recall 以後の評価では, 表中の太字で示された SP & モデルの組合せのみを使用
  10. 10. /139 3. Experimental results: 'Training in the darkness'  Train データ と Dev データを混合して 5-fold cross validation – 評価指標: 各 SP & 各モデルの UAR – Validation データに学習データの話者が含まれる可能性あり • 実際に想定している test の環境とギャップがあるが, • 単に使えるデータの数を増やした時の影響を調べたかっただけ (らしい) – (参考程度の結果でしかないが) 90%を超える UAR を達成
  11. 11. /1310 3. Experimental results: Data fusion & final result  Data fusion: 3 SPs × 4 models のアンサンブルで予測 – 評価指標: アンサンブル予測の UAR & Accuracy – 'Daylight' 設定で Dev データに対する UAR が 73.0% • オーガナイザーから提供されたベースライン特徴量を加えると 73.3% に  最終的な Test データに対する予測結果 – 'Darkness' 設定で 80.1% UAR (8.3% higher than the baseline) • → Validation データに対する UAR (92.5% よりも低い)
  12. 12. /1311 4. Discussion: Class Activation Mapping (CAM)  CAM: 認識時にモデルが画像中のどこを注視しているか可視化 – モデルの特徴抽出部における最終出力をチャネル方向に平均 • → MSC において, どの周波数レンジが重要なのかを示唆する情報
  13. 13. /1312 4. Discussion: CAM analysis  3CH SP を入力した際の各モデルの CAM を可視化 – 1,000 サンプルで平均した結果 (右図) → 3 ~ 5 [kHz] にピークを観測 • Mel や Log スケールだとこの帯域の情報が軽視されるので, Linear SP が識別に適していたという結果とも対応
  14. 14. /1313 5. Conclusion  本論文: 音声スペクトログラムからのマスク着用識別 – 事前学習済み画像認識モデルを, マスク着用識別タスク (MSC) に適応 – 複数入力・複数モデルのアンサンブル • 異なる分析パラメータを用いた場合の音声スペクトログラム • 様々な学習済みモデル (VGGNet, ResNet, DenseNet)  結果 – Test データに対して 80.3% の UAR を達成 • Baseline よりも 8.3% 改善 & MSC で優勝 – MSC では, 3 ~ 5 [kHz] の周波数帯域の情報が重要であることを示唆 • Mel や Log ではなく, Linear スケールのスペクトログラムが better  感想 – 実データに対してどれだけ動くのか気になる

×