Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
YS
Uploaded by
Yuki Saito
186 views
Interspeech2020 reading
Interspeech2020 論文読み会(オンライン) #interspeech2020jp
Science
◦
Related topics:
Deep Learning
•
Read more
0
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 14
2
/ 14
3
/ 14
4
/ 14
5
/ 14
6
/ 14
7
/ 14
8
/ 14
9
/ 14
10
/ 14
11
/ 14
12
/ 14
13
/ 14
14
/ 14
More Related Content
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
PDF
ICASSP読み会2020
by
Yuki Saito
PDF
Saito19asj_s
by
Yuki Saito
PDF
ICASSP2020 論文読み会 資料 上乃聖
by
SeiUeno
PDF
End-to-End音声認識ためのMulti-Head Decoderネットワーク
by
NU_I_TODALAB
PDF
Nakai22sp03 presentation
by
Yuki Saito
PDF
Deep learning for acoustic modeling in parametric speech generation
by
Yuki Saito
PDF
Saito18sp03
by
Yuki Saito
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
ICASSP読み会2020
by
Yuki Saito
Saito19asj_s
by
Yuki Saito
ICASSP2020 論文読み会 資料 上乃聖
by
SeiUeno
End-to-End音声認識ためのMulti-Head Decoderネットワーク
by
NU_I_TODALAB
Nakai22sp03 presentation
by
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
by
Yuki Saito
Saito18sp03
by
Yuki Saito
What's hot
PDF
全力解説!Transformer
by
Arithmer Inc.
PDF
ドメイン適応の原理と応用
by
Yoshitaka Ushiku
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
by
Yuta Kikuchi
PDF
ACL2020
by
Arithmer Inc.
PDF
3次元レジストレーション(PCLデモとコード付き)
by
Toru Tamaki
PDF
DNN音響モデルにおける特徴量抽出の諸相
by
Takuya Yoshioka
PDF
機械学習ゴリゴリ派のための数学とPython
by
Kimikazu Kato
PDF
Saito19asjAutumn_DeNA
by
Yuki Saito
PPTX
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
by
KoueiYamaoka
PDF
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
by
Eiji Uchibe
PDF
Skip gram shirakawa_20141121
by
Mathematical Systems Inc.
PDF
音情報処理における特徴表現
by
NU_I_TODALAB
PPTX
海鳥の経路予測のための逆強化学習
by
Tsubasa Hirakawa
PPTX
Globally and Locally Consistent Image Completion
by
harmonylab
PDF
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
by
Tomoki Hayashi
PDF
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
by
Shunya Ueta
PDF
Connecting embedding for knowledge graph entity typing
by
禎晃 山崎
PDF
STAIR Lab Seminar 202105
by
Sho Takase
PDF
Saito20asj_autumn
by
Yuki Saito
PDF
Dataset cartography mapping and diagnosing datasets with training dynamics
by
禎晃 山崎
全力解説!Transformer
by
Arithmer Inc.
ドメイン適応の原理と応用
by
Yoshitaka Ushiku
最近のDeep Learning (NLP) 界隈におけるAttention事情
by
Yuta Kikuchi
ACL2020
by
Arithmer Inc.
3次元レジストレーション(PCLデモとコード付き)
by
Toru Tamaki
DNN音響モデルにおける特徴量抽出の諸相
by
Takuya Yoshioka
機械学習ゴリゴリ派のための数学とPython
by
Kimikazu Kato
Saito19asjAutumn_DeNA
by
Yuki Saito
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
by
KoueiYamaoka
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
by
Eiji Uchibe
Skip gram shirakawa_20141121
by
Mathematical Systems Inc.
音情報処理における特徴表現
by
NU_I_TODALAB
海鳥の経路予測のための逆強化学習
by
Tsubasa Hirakawa
Globally and Locally Consistent Image Completion
by
harmonylab
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
by
Tomoki Hayashi
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
by
Shunya Ueta
Connecting embedding for knowledge graph entity typing
by
禎晃 山崎
STAIR Lab Seminar 202105
by
Sho Takase
Saito20asj_autumn
by
Yuki Saito
Dataset cartography mapping and diagnosing datasets with training dynamics
by
禎晃 山崎
Similar to Interspeech2020 reading
PDF
自己教師あり学習を導入した局所拡張型異常生成による異常検知の高精度化
by
MILab
PDF
[Whisper論文紹介]Robust Speech Recognition via Large-Scale Weak Supervision
by
xxkuboxx0
PDF
Deep learning for_extreme_multi-label_text_classification
by
Junya Kamura
PDF
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
by
Tenki Lee
PPTX
DNNの曖昧性に関する研究動向
by
Naoki Matsunaga
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
by
貴史 益子
PDF
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
PDF
Interspeech2022 参加報告
by
Yuki Saito
PDF
Contrastive learning 20200607
by
ぱんいち すみもと
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
by
Yusuke Iwasawa
PDF
深層学習入門
by
Danushka Bollegala
PPTX
機械学習を民主化する取り組み
by
Yoshitaka Ushiku
PDF
音声認識と深層学習
by
Preferred Networks
PPTX
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
by
ARISE analytics
PDF
Kaggle RSNA Pneumonia Detection Challenge 解法紹介
by
理 秋山
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
by
Deep Learning JP
PPTX
You Only Learn One Representation: Unified Network for Multiple Tasks
by
harmonylab
PDF
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
by
Yasutomo Kawanishi
PDF
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
by
Yusuke Iwasawa
PDF
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
by
Deep Learning JP
自己教師あり学習を導入した局所拡張型異常生成による異常検知の高精度化
by
MILab
[Whisper論文紹介]Robust Speech Recognition via Large-Scale Weak Supervision
by
xxkuboxx0
Deep learning for_extreme_multi-label_text_classification
by
Junya Kamura
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
by
Tenki Lee
DNNの曖昧性に関する研究動向
by
Naoki Matsunaga
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
by
貴史 益子
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
Interspeech2022 参加報告
by
Yuki Saito
Contrastive learning 20200607
by
ぱんいち すみもと
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
by
Yusuke Iwasawa
深層学習入門
by
Danushka Bollegala
機械学習を民主化する取り組み
by
Yoshitaka Ushiku
音声認識と深層学習
by
Preferred Networks
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
by
ARISE analytics
Kaggle RSNA Pneumonia Detection Challenge 解法紹介
by
理 秋山
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
by
Deep Learning JP
You Only Learn One Representation: Unified Network for Multiple Tasks
by
harmonylab
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
by
Yasutomo Kawanishi
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
by
Yusuke Iwasawa
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
by
Deep Learning JP
More from Yuki Saito
PDF
Neural text-to-speech and voice conversion
by
Yuki Saito
PDF
GAN-based statistical speech synthesis (in Japanese)
by
Yuki Saito
PDF
Saito20asj s slide_published
by
Yuki Saito
PDF
miyoshi17sp07
by
Yuki Saito
PDF
nakai22apsipa_presentation.pdf
by
Yuki Saito
PDF
Saito21asj Autumn Meeting
by
Yuki Saito
PDF
hirai23slp03.pdf
by
Yuki Saito
PDF
fujii22apsipa_asc
by
Yuki Saito
PDF
Nishimura22slp03 presentation
by
Yuki Saito
PDF
Saito2017icassp
by
Yuki Saito
PDF
saito22research_talk_at_NUS
by
Yuki Saito
PDF
Saito2103slp
by
Yuki Saito
PDF
Une18apsipa
by
Yuki Saito
PDF
Saito17asjA
by
Yuki Saito
PDF
saito2017asj_vc
by
Yuki Saito
PDF
Slp201702
by
Yuki Saito
PDF
Saito18asj_s
by
Yuki Saito
PDF
miyoshi2017asj
by
Yuki Saito
PDF
saito2017asj_tts
by
Yuki Saito
PPTX
釧路高専情報工学科向け進学説明会
by
Yuki Saito
Neural text-to-speech and voice conversion
by
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
by
Yuki Saito
Saito20asj s slide_published
by
Yuki Saito
miyoshi17sp07
by
Yuki Saito
nakai22apsipa_presentation.pdf
by
Yuki Saito
Saito21asj Autumn Meeting
by
Yuki Saito
hirai23slp03.pdf
by
Yuki Saito
fujii22apsipa_asc
by
Yuki Saito
Nishimura22slp03 presentation
by
Yuki Saito
Saito2017icassp
by
Yuki Saito
saito22research_talk_at_NUS
by
Yuki Saito
Saito2103slp
by
Yuki Saito
Une18apsipa
by
Yuki Saito
Saito17asjA
by
Yuki Saito
saito2017asj_vc
by
Yuki Saito
Slp201702
by
Yuki Saito
Saito18asj_s
by
Yuki Saito
miyoshi2017asj
by
Yuki Saito
saito2017asj_tts
by
Yuki Saito
釧路高専情報工学科向け進学説明会
by
Yuki Saito
Interspeech2020 reading
1.
©Yuki Saito, Nov.
20, 2020. Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion 東京大学 D3 齋藤 佑樹 INTERSPEECH2020 論文読み会 (オンライン)
2.
/131 自己紹介 齋藤 佑樹
(SAITO Yuki) – 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研 現在D3) – HP: http://sython.org/ 専門: 音声合成・声質変換 – + 統計的機械学習理論 (GAN 音声合成, VAE 声質変換) – + Human computation (human-in-the-loop 話者埋め込み) その他 – D論予備審査を終えました
3.
/132 本日紹介する論文 Paralinguistic Classification
of Mask Wearing by Image Classifiers and Fusion – J. Szep(University of Arizona) & S. Hariri(University of Arizona) 3行まとめ – The INTERSPEECH 2020 ComParE* Mask Sub-Challenge (MSC) で優勝 – 音声スペクトログラムから, その話者がマスクを着用しているか判定 – 複数の認識モデルからの予測結果のアンサンブルで性能改善 選んだ動機 – タイムリーな話題だったから *Computational Paralinguistics ChallengE
4.
/133 1. Introduction COVID-19
の大流行 – マスクを着用した状態での音声コミュニケーションの機会が増加 – 音声情報だけからマスク着用の有無を識別する技術の需要 本論文: Pre-trained large image classifiers + data fusion – 大規模画像認識モデル (例: VGGNet [Simonyan+15]) を MSC に適応 – 音声スペクトログラム (SP) を入力し, マスク着用の有無を識別 • 複数の分析条件により得られた SP を fusion して入力 • 複数モデルの予測結果をアンサンブルして最終結果を出力 – Discussion として, どの音声周波数帯域が重要なのか調査 SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
5.
/134 2. Experimental framework:
Dataset Mask Augsburg Speech Corpus (MASC) – 32名の独語母語話者によるマスク着用/非着用での音声発話 – 男性話者16名/女性話者16名, 1秒間の音声セグメント × 36,554 – 3つのサブセット (Train, Dev, Test) 間で, 話者の重複はなし SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
6.
/135 2. Experimental framework:
SP analysis 音声スペクトログラム (SP) の分析 – 音声を時間 (横軸), 周波数, (縦軸), 強度 (色)で可視化した表現 – 分析時のパラメータ (特に窓長) 設定が重要 • 時間/周波数分解能の両立は原理的に不可能 (左図 & 中央図) – 本論文では, 異なるパラメータによる分析結果を多チャネル化 (右図) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
7.
/136 2. Experimental framework:
Image classifiers 事前学習済み大規模画像認識モデルを用いた転移学習 – 音声からの話者認識 [Chung+18] や感情推定 [Amiriparian+17] 等で有効 – 本論文では, 以下のモデルを採用 • VGGNet (VG19)[Simonyan+15] • ResNet (ResNet-50, ResNet-101)[He+15] • DenseNet (DenseNet-121) [Huang+18] SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
8.
/137 2. Experimental framework:
Ensemble learning 複数の認識モデルによる予測結果を統合 – 異なるアーキテクチャ, 異なる入力の良いとこ取り • Averaging: 各モデルの出力確率を平均 • Voting: 各モデルの予測結果で多数決 その他の機械学習的テクニック等 – データ拡張 (回転, 拡大, 照度変更, 伸縮) – 周期的な学習率 (1.5e-3 ~ 2.0e-5 で変動) – Gradually trainable layers (出力層に近い部分から順に更新) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
9.
/138 3. Experimental results:
'Training at daylight' Train データで学習 & Dev データで検証 – 評価指標: 各 SP & 各モデルの UAR* (正例/負例ごとの Recall の平均) – Linear SP > others (MSS: Mel & ConstQ: Log) – 3CH SP > 1CH SP, Narrowband SP (8, 15, 30) [ms] ≈ Wideband SP (5, 15, 50) [ms] *Unweighted Average Recall 以後の評価では, 表中の太字で示された SP & モデルの組合せのみを使用
10.
/139 3. Experimental results:
'Training in the darkness' Train データ と Dev データを混合して 5-fold cross validation – 評価指標: 各 SP & 各モデルの UAR – Validation データに学習データの話者が含まれる可能性あり • 実際に想定している test の環境とギャップがあるが, • 単に使えるデータの数を増やした時の影響を調べたかっただけ (らしい) – (参考程度の結果でしかないが) 90%を超える UAR を達成
11.
/1310 3. Experimental results:
Data fusion & final result Data fusion: 3 SPs × 4 models のアンサンブルで予測 – 評価指標: アンサンブル予測の UAR & Accuracy – 'Daylight' 設定で Dev データに対する UAR が 73.0% • オーガナイザーから提供されたベースライン特徴量を加えると 73.3% に 最終的な Test データに対する予測結果 – 'Darkness' 設定で 80.1% UAR (8.3% higher than the baseline) • → Validation データに対する UAR (92.5% よりも低い)
12.
/1311 4. Discussion: Class
Activation Mapping (CAM) CAM: 認識時にモデルが画像中のどこを注視しているか可視化 – モデルの特徴抽出部における最終出力をチャネル方向に平均 • → MSC において, どの周波数レンジが重要なのかを示唆する情報
13.
/1312 4. Discussion: CAM
analysis 3CH SP を入力した際の各モデルの CAM を可視化 – 1,000 サンプルで平均した結果 (右図) → 3 ~ 5 [kHz] にピークを観測 • Mel や Log スケールだとこの帯域の情報が軽視されるので, Linear SP が識別に適していたという結果とも対応
14.
/1313 5. Conclusion 本論文:
音声スペクトログラムからのマスク着用識別 – 事前学習済み画像認識モデルを, マスク着用識別タスク (MSC) に適応 – 複数入力・複数モデルのアンサンブル • 異なる分析パラメータを用いた場合の音声スペクトログラム • 様々な学習済みモデル (VGGNet, ResNet, DenseNet) 結果 – Test データに対して 80.3% の UAR を達成 • Baseline よりも 8.3% 改善 & MSC で優勝 – MSC では, 3 ~ 5 [kHz] の周波数帯域の情報が重要であることを示唆 • Mel や Log ではなく, Linear スケールのスペクトログラムが better 感想 – 実データに対してどれだけ動くのか気になる
Download