©Yuki Saito, Nov. 20, 2020.
Paralinguistic Classification of Mask Wearing by
Image Classifiers and Fusion
東京大学 D3 齋藤 佑樹
INTERSPEECH2020 論文読み会 (オンライン)
/131
自己紹介
 齋藤 佑樹 (SAITO Yuki)
– 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研 現在D3)
– HP: http://sython.org/
 専門: 音声合成・声質変換
– + 統計的機械学習理論 (GAN 音声合成, VAE 声質変換)
– + Human computation (human-in-the-loop 話者埋め込み)
 その他
– D論予備審査を終えました
/132
本日紹介する論文
 Paralinguistic Classification of Mask Wearing by Image
Classifiers and Fusion
– J. Szep(University of Arizona) & S. Hariri(University of Arizona)
 3行まとめ
– The INTERSPEECH 2020 ComParE* Mask Sub-Challenge (MSC) で優勝
– 音声スペクトログラムから, その話者がマスクを着用しているか判定
– 複数の認識モデルからの予測結果のアンサンブルで性能改善
 選んだ動機
– タイムリーな話題だったから
*Computational Paralinguistics ChallengE
/133
1. Introduction
 COVID-19 の大流行
– マスクを着用した状態での音声コミュニケーションの機会が増加
– 音声情報だけからマスク着用の有無を識別する技術の需要
 本論文: Pre-trained large image classifiers + data fusion
– 大規模画像認識モデル (例: VGGNet [Simonyan+15]) を MSC に適応
– 音声スペクトログラム (SP) を入力し, マスク着用の有無を識別
• 複数の分析条件により得られた SP を fusion して入力
• 複数モデルの予測結果をアンサンブルして最終結果を出力
– Discussion として, どの音声周波数帯域が重要なのか調査
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
/134
2. Experimental framework: Dataset
 Mask Augsburg Speech Corpus (MASC)
– 32名の独語母語話者によるマスク着用/非着用での音声発話
– 男性話者16名/女性話者16名, 1秒間の音声セグメント × 36,554
– 3つのサブセット (Train, Dev, Test) 間で, 話者の重複はなし
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
/135
2. Experimental framework: SP analysis
 音声スペクトログラム (SP) の分析
– 音声を時間 (横軸), 周波数, (縦軸), 強度 (色)で可視化した表現
– 分析時のパラメータ (特に窓長) 設定が重要
• 時間/周波数分解能の両立は原理的に不可能 (左図 & 中央図)
– 本論文では, 異なるパラメータによる分析結果を多チャネル化 (右図)
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
/136
2. Experimental framework: Image classifiers
 事前学習済み大規模画像認識モデルを用いた転移学習
– 音声からの話者認識 [Chung+18] や感情推定 [Amiriparian+17] 等で有効
– 本論文では, 以下のモデルを採用
• VGGNet (VG19)[Simonyan+15]
• ResNet (ResNet-50, ResNet-101)[He+15]
• DenseNet (DenseNet-121) [Huang+18]
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
/137
2. Experimental framework: Ensemble learning
 複数の認識モデルによる予測結果を統合
– 異なるアーキテクチャ, 異なる入力の良いとこ取り
• Averaging: 各モデルの出力確率を平均
• Voting: 各モデルの予測結果で多数決
 その他の機械学習的テクニック等
– データ拡張 (回転, 拡大, 照度変更, 伸縮)
– 周期的な学習率 (1.5e-3 ~ 2.0e-5 で変動)
– Gradually trainable layers (出力層に近い部分から順に更新)
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
/138
3. Experimental results: 'Training at daylight'
 Train データで学習 & Dev データで検証
– 評価指標: 各 SP & 各モデルの UAR* (正例/負例ごとの Recall の平均)
– Linear SP > others (MSS: Mel & ConstQ: Log)
– 3CH SP > 1CH SP, Narrowband SP (8, 15, 30) [ms] ≈ Wideband SP (5, 15, 50) [ms]
*Unweighted Average Recall
以後の評価では, 表中の太字で示された SP & モデルの組合せのみを使用
/139
3. Experimental results: 'Training in the darkness'
 Train データ と Dev データを混合して 5-fold cross validation
– 評価指標: 各 SP & 各モデルの UAR
– Validation データに学習データの話者が含まれる可能性あり
• 実際に想定している test の環境とギャップがあるが,
• 単に使えるデータの数を増やした時の影響を調べたかっただけ (らしい)
– (参考程度の結果でしかないが) 90%を超える UAR を達成
/1310
3. Experimental results: Data fusion & final result
 Data fusion: 3 SPs × 4 models のアンサンブルで予測
– 評価指標: アンサンブル予測の UAR & Accuracy
– 'Daylight' 設定で Dev データに対する UAR が 73.0%
• オーガナイザーから提供されたベースライン特徴量を加えると 73.3% に
 最終的な Test データに対する予測結果
– 'Darkness' 設定で 80.1% UAR (8.3% higher than the baseline)
• → Validation データに対する UAR (92.5% よりも低い)
/1311
4. Discussion: Class Activation Mapping (CAM)
 CAM: 認識時にモデルが画像中のどこを注視しているか可視化
– モデルの特徴抽出部における最終出力をチャネル方向に平均
• → MSC において, どの周波数レンジが重要なのかを示唆する情報
/1312
4. Discussion: CAM analysis
 3CH SP を入力した際の各モデルの CAM を可視化
– 1,000 サンプルで平均した結果 (右図) → 3 ~ 5 [kHz] にピークを観測
• Mel や Log スケールだとこの帯域の情報が軽視されるので,
Linear SP が識別に適していたという結果とも対応
/1313
5. Conclusion
 本論文: 音声スペクトログラムからのマスク着用識別
– 事前学習済み画像認識モデルを, マスク着用識別タスク (MSC) に適応
– 複数入力・複数モデルのアンサンブル
• 異なる分析パラメータを用いた場合の音声スペクトログラム
• 様々な学習済みモデル (VGGNet, ResNet, DenseNet)
 結果
– Test データに対して 80.3% の UAR を達成
• Baseline よりも 8.3% 改善 & MSC で優勝
– MSC では, 3 ~ 5 [kHz] の周波数帯域の情報が重要であることを示唆
• Mel や Log ではなく, Linear スケールのスペクトログラムが better
 感想
– 実データに対してどれだけ動くのか気になる

Interspeech2020 reading

  • 1.
    ©Yuki Saito, Nov.20, 2020. Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion 東京大学 D3 齋藤 佑樹 INTERSPEECH2020 論文読み会 (オンライン)
  • 2.
    /131 自己紹介  齋藤 佑樹(SAITO Yuki) – 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研 現在D3) – HP: http://sython.org/  専門: 音声合成・声質変換 – + 統計的機械学習理論 (GAN 音声合成, VAE 声質変換) – + Human computation (human-in-the-loop 話者埋め込み)  その他 – D論予備審査を終えました
  • 3.
    /132 本日紹介する論文  Paralinguistic Classificationof Mask Wearing by Image Classifiers and Fusion – J. Szep(University of Arizona) & S. Hariri(University of Arizona)  3行まとめ – The INTERSPEECH 2020 ComParE* Mask Sub-Challenge (MSC) で優勝 – 音声スペクトログラムから, その話者がマスクを着用しているか判定 – 複数の認識モデルからの予測結果のアンサンブルで性能改善  選んだ動機 – タイムリーな話題だったから *Computational Paralinguistics ChallengE
  • 4.
    /133 1. Introduction  COVID-19の大流行 – マスクを着用した状態での音声コミュニケーションの機会が増加 – 音声情報だけからマスク着用の有無を識別する技術の需要  本論文: Pre-trained large image classifiers + data fusion – 大規模画像認識モデル (例: VGGNet [Simonyan+15]) を MSC に適応 – 音声スペクトログラム (SP) を入力し, マスク着用の有無を識別 • 複数の分析条件により得られた SP を fusion して入力 • 複数モデルの予測結果をアンサンブルして最終結果を出力 – Discussion として, どの音声周波数帯域が重要なのか調査 SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  • 5.
    /134 2. Experimental framework:Dataset  Mask Augsburg Speech Corpus (MASC) – 32名の独語母語話者によるマスク着用/非着用での音声発話 – 男性話者16名/女性話者16名, 1秒間の音声セグメント × 36,554 – 3つのサブセット (Train, Dev, Test) 間で, 話者の重複はなし SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
  • 6.
    /135 2. Experimental framework:SP analysis  音声スペクトログラム (SP) の分析 – 音声を時間 (横軸), 周波数, (縦軸), 強度 (色)で可視化した表現 – 分析時のパラメータ (特に窓長) 設定が重要 • 時間/周波数分解能の両立は原理的に不可能 (左図 & 中央図) – 本論文では, 異なるパラメータによる分析結果を多チャネル化 (右図) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  • 7.
    /136 2. Experimental framework:Image classifiers  事前学習済み大規模画像認識モデルを用いた転移学習 – 音声からの話者認識 [Chung+18] や感情推定 [Amiriparian+17] 等で有効 – 本論文では, 以下のモデルを採用 • VGGNet (VG19)[Simonyan+15] • ResNet (ResNet-50, ResNet-101)[He+15] • DenseNet (DenseNet-121) [Huang+18] SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  • 8.
    /137 2. Experimental framework:Ensemble learning  複数の認識モデルによる予測結果を統合 – 異なるアーキテクチャ, 異なる入力の良いとこ取り • Averaging: 各モデルの出力確率を平均 • Voting: 各モデルの予測結果で多数決  その他の機械学習的テクニック等 – データ拡張 (回転, 拡大, 照度変更, 伸縮) – 周期的な学習率 (1.5e-3 ~ 2.0e-5 で変動) – Gradually trainable layers (出力層に近い部分から順に更新) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
  • 9.
    /138 3. Experimental results:'Training at daylight'  Train データで学習 & Dev データで検証 – 評価指標: 各 SP & 各モデルの UAR* (正例/負例ごとの Recall の平均) – Linear SP > others (MSS: Mel & ConstQ: Log) – 3CH SP > 1CH SP, Narrowband SP (8, 15, 30) [ms] ≈ Wideband SP (5, 15, 50) [ms] *Unweighted Average Recall 以後の評価では, 表中の太字で示された SP & モデルの組合せのみを使用
  • 10.
    /139 3. Experimental results:'Training in the darkness'  Train データ と Dev データを混合して 5-fold cross validation – 評価指標: 各 SP & 各モデルの UAR – Validation データに学習データの話者が含まれる可能性あり • 実際に想定している test の環境とギャップがあるが, • 単に使えるデータの数を増やした時の影響を調べたかっただけ (らしい) – (参考程度の結果でしかないが) 90%を超える UAR を達成
  • 11.
    /1310 3. Experimental results:Data fusion & final result  Data fusion: 3 SPs × 4 models のアンサンブルで予測 – 評価指標: アンサンブル予測の UAR & Accuracy – 'Daylight' 設定で Dev データに対する UAR が 73.0% • オーガナイザーから提供されたベースライン特徴量を加えると 73.3% に  最終的な Test データに対する予測結果 – 'Darkness' 設定で 80.1% UAR (8.3% higher than the baseline) • → Validation データに対する UAR (92.5% よりも低い)
  • 12.
    /1311 4. Discussion: ClassActivation Mapping (CAM)  CAM: 認識時にモデルが画像中のどこを注視しているか可視化 – モデルの特徴抽出部における最終出力をチャネル方向に平均 • → MSC において, どの周波数レンジが重要なのかを示唆する情報
  • 13.
    /1312 4. Discussion: CAManalysis  3CH SP を入力した際の各モデルの CAM を可視化 – 1,000 サンプルで平均した結果 (右図) → 3 ~ 5 [kHz] にピークを観測 • Mel や Log スケールだとこの帯域の情報が軽視されるので, Linear SP が識別に適していたという結果とも対応
  • 14.
    /1313 5. Conclusion  本論文:音声スペクトログラムからのマスク着用識別 – 事前学習済み画像認識モデルを, マスク着用識別タスク (MSC) に適応 – 複数入力・複数モデルのアンサンブル • 異なる分析パラメータを用いた場合の音声スペクトログラム • 様々な学習済みモデル (VGGNet, ResNet, DenseNet)  結果 – Test データに対して 80.3% の UAR を達成 • Baseline よりも 8.3% 改善 & MSC で優勝 – MSC では, 3 ~ 5 [kHz] の周波数帯域の情報が重要であることを示唆 • Mel や Log ではなく, Linear スケールのスペクトログラムが better  感想 – 実データに対してどれだけ動くのか気になる