Interspeech2020 reading

©Yuki Saito, Nov. 20, 2020.
Paralinguistic Classification of Mask Wearing by
Image Classifiers and Fusion
東京大学 D3 齋藤佑樹
INTERSPEECH2020 論文読み会 (オンライン)

/131
自己紹介
 齋藤佑樹 (SAITO Yuki)
– 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研現在D3)
– HP: http://sython.org/
 専門: 音声合成・声質変換
– + 統計的機械学習理論 (GAN 音声合成, VAE 声質変換)
– + Human computation (human-in-the-loop 話者埋め込み)
 その他
– D論予備審査を終えました

/132
本日紹介する論文
 Paralinguistic Classification of Mask Wearing by Image
Classifiers and Fusion
– J. Szep(University of Arizona) & S. Hariri(University of Arizona)
 3行まとめ
– The INTERSPEECH 2020 ComParE* Mask Sub-Challenge (MSC) で優勝
– 音声スペクトログラムから, その話者がマスクを着用しているか判定
– 複数の認識モデルからの予測結果のアンサンブルで性能改善
 選んだ動機
– タイムリーな話題だったから
*Computational Paralinguistics ChallengE

/133
1. Introduction
 COVID-19 の大流行
– マスクを着用した状態での音声コミュニケーションの機会が増加
– 音声情報だけからマスク着用の有無を識別する技術の需要
 本論文: Pre-trained large image classifiers + data fusion
– 大規模画像認識モデル (例: VGGNet [Simonyan+15]) を MSC に適応
– 音声スペクトログラム (SP) を入力し, マスク着用の有無を識別
• 複数の分析条件により得られた SP を fusion して入力
• 複数モデルの予測結果をアンサンブルして最終結果を出力
– Discussion として, どの音声周波数帯域が重要なのか調査
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble

/134
2. Experimental framework: Dataset
 Mask Augsburg Speech Corpus (MASC)
– 32名の独語母語話者によるマスク着用/非着用での音声発話
– 男性話者16名/女性話者16名, 1秒間の音声セグメント × 36,554
– 3つのサブセット (Train, Dev, Test) 間で, 話者の重複はなし
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
表は [Schuller+20] (オーガナイザーによるタスク説明) より引用

/135
2. Experimental framework: SP analysis
 音声スペクトログラム (SP) の分析
– 音声を時間 (横軸), 周波数, (縦軸), 強度 (色)で可視化した表現
– 分析時のパラメータ (特に窓長) 設定が重要
• 時間/周波数分解能の両立は原理的に不可能 (左図 & 中央図)
– 本論文では, 異なるパラメータによる分析結果を多チャネル化 (右図)
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble

/136
2. Experimental framework: Image classifiers
 事前学習済み大規模画像認識モデルを用いた転移学習
– 音声からの話者認識 [Chung+18] や感情推定 [Amiriparian+17] 等で有効
– 本論文では, 以下のモデルを採用
• VGGNet (VG19)[Simonyan+15]
• ResNet (ResNet-50, ResNet-101)[He+15]
• DenseNet (DenseNet-121) [Huang+18]
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble

/137
2. Experimental framework: Ensemble learning
 複数の認識モデルによる予測結果を統合
– 異なるアーキテクチャ, 異なる入力の良いとこ取り
• Averaging: 各モデルの出力確率を平均
• Voting: 各モデルの予測結果で多数決
 その他の機械学習的テクニック等
– データ拡張 (回転, 拡大, 照度変更, 伸縮)
– 周期的な学習率 (1.5e-3 ~ 2.0e-5 で変動)
– Gradually trainable layers (出力層に近い部分から順に更新)
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
表は [Schuller+20] (オーガナイザーによるタスク説明) より引用

/138
3. Experimental results: 'Training at daylight'
 Train データで学習 & Dev データで検証
– 評価指標: 各 SP & 各モデルの UAR* (正例/負例ごとの Recall の平均)
– Linear SP > others (MSS: Mel & ConstQ: Log)
– 3CH SP > 1CH SP, Narrowband SP (8, 15, 30) [ms] ≈ Wideband SP (5, 15, 50) [ms]
*Unweighted Average Recall
以後の評価では, 表中の太字で示された SP & モデルの組合せのみを使用

/139
3. Experimental results: 'Training in the darkness'
 Train データと Dev データを混合して 5-fold cross validation
– 評価指標: 各 SP & 各モデルの UAR
– Validation データに学習データの話者が含まれる可能性あり
• 実際に想定している test の環境とギャップがあるが,
• 単に使えるデータの数を増やした時の影響を調べたかっただけ (らしい)
– (参考程度の結果でしかないが) 90%を超える UAR を達成

/1310
3. Experimental results: Data fusion & final result
 Data fusion: 3 SPs × 4 models のアンサンブルで予測
– 評価指標: アンサンブル予測の UAR & Accuracy
– 'Daylight' 設定で Dev データに対する UAR が 73.0%
• オーガナイザーから提供されたベースライン特徴量を加えると 73.3% に
 最終的な Test データに対する予測結果
– 'Darkness' 設定で 80.1% UAR (8.3% higher than the baseline)
• → Validation データに対する UAR (92.5% よりも低い)

/1311
4. Discussion: Class Activation Mapping (CAM)
 CAM: 認識時にモデルが画像中のどこを注視しているか可視化
– モデルの特徴抽出部における最終出力をチャネル方向に平均
• → MSC において, どの周波数レンジが重要なのかを示唆する情報

/1312
4. Discussion: CAM analysis
 3CH SP を入力した際の各モデルの CAM を可視化
– 1,000 サンプルで平均した結果 (右図) → 3 ~ 5 [kHz] にピークを観測
• Mel や Log スケールだとこの帯域の情報が軽視されるので,
Linear SP が識別に適していたという結果とも対応

/1313
5. Conclusion
 本論文: 音声スペクトログラムからのマスク着用識別
– 事前学習済み画像認識モデルを, マスク着用識別タスク (MSC) に適応
– 複数入力・複数モデルのアンサンブル
• 異なる分析パラメータを用いた場合の音声スペクトログラム
• 様々な学習済みモデル (VGGNet, ResNet, DenseNet)
 結果
– Test データに対して 80.3% の UAR を達成
• Baseline よりも 8.3% 改善 & MSC で優勝
– MSC では, 3 ~ 5 [kHz] の周波数帯域の情報が重要であることを示唆
• Mel や Log ではなく, Linear スケールのスペクトログラムが better
 感想
– 実データに対してどれだけ動くのか気になる

Interspeech2020 reading

More Related Content

What's hot

Similar to Interspeech2020 reading

More from Yuki Saito

Interspeech2020 reading