SlideShare a Scribd company logo
1 of 52
Download to read offline
国際会議 Interspeech2022参加報告
第254回自然言語処理・第144回音声言語情報処理合同研究発表会
佐藤 宏1*, 齋藤 佑樹2*
1日本電信電話株式会社 NTT 人間情報研究所
2東京大学 猿渡・小山研究室
1
発表者自己紹介
 名前
◼ 佐藤 宏(さとう ひろし)
 所属
◼ 日本電信電話株式会社(NTT)
 研究分野
◼ 音声強調、パラ言語認識
 名前
◼ 齋藤 佑樹(さいとう ゆうき)
 所属
◼ 東京大学 猿渡・小山研究室
 研究分野
◼ 音声合成、声質変換
2
Interspeech2022
 会議の概要
◼主催: ISCA (International Speech Communication Association)
◼対象分野: 音声を扱う研究全般
 今年の開催形態
◼ハイブリッド (韓国・仁川会場 & オンライン会場)
 開催日程
◼ 2022年9月18日 - 2022年9月22日
 採択率
◼ 52.4 % (1,121 / 2,140)
 投稿論文
◼ オンラインで無償公開(https://www.isca-speech.org/archive/)
https://www.interspeech2022.org/general/
3
カバーする技術分野の全体像
https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より
音声認識
24%
音声合成
15%
話者・
パラ言語
15%
音声分析・
表現抽出
15%
対話・言語
処理
11%
音声強調・
符号化
9%
その他
(計測・
聴覚等)
11%
+113%
各Topic Areaの投稿数推移
4
現地 or リモート?
https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より
 現地参加者は全体の68%, リモート参加が少数派となった
◼ 昨年のInterspeech2021では現地参加は18%
5
国別の投稿数&採択数
日本
https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より
 採録数1位と2位がInterspeech2021年から逆転, 中国が最多に
 日本は中国・アメリカに次いで3番目
中国 > アメリカ > 日本 > インド > 韓国
Reject
Accept
6
音声認識・強調・パラ言語(佐藤 宏,NTT)
7
所感
 自身の発表について
◼ オンライン・ポスター形式
◼ 15分の発表動画を作成 + 2時間オンラインポスター
◼ オンラインはいずれのセッションも人が少なかった
 トレンド
◼ 音声の教師なし事前学習(self-supervised learning: SSL)とその活用に関する研究が多数
◼ ストリーミング (オンライン) 動作を対象としたRNN-Transducer型の音声認識の検討が比較的
多数. 機能を拡張する系の研究は多岐にわたり, 軽量化も盛ん
◼ マルチモーダル, ゼロリソース, 多言語音声認識, 音声翻訳も多数発表されている
 本日の内容
◼ Interspeech2022の発表紹介
» 音声の教師なし事前学習 x2
» 音声認識
» 音声強調 (自身の発表内容)
virtual poster
8
教師なし事前学習 (SSL) とは?
 音声の教師なし事前学習とは?
◼ ラベルなし音声データを用いて, 音声から良い潜在表現を得るモデルを構築する技術
◼ ラベルのあるペアデータが少量でも, 精度よく各タスクの学習を行うことが可能
◼ Tutorial: https://sites.google.com/view/tutorial-ssl-speech
 近年の有力な枠組み
◼ Wav2vec 2.0: [Baevski+ 2020/6]
◼ HuBERT: [Hsu+ 2021/6]
◼ WavLM: [Chen+ 2021/10]
 Interspeech2022の関連発表 (抜粋)
◼ SSLモデル自体の改良
» 多言語化・データ大規模化: XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
» モデルの小型化: TRILLsson: Distilled Universal Paralinguistic Speech Representations
◼ 各ダウンストリームタスクへの活用
» 音声認識: End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation
» 音声強調: Boosting Self-Supervised Embeddings for Speech Enhancement
» パラ言語: Improving Speech Emotion Recognition Using Self-Supervised Learning with Domain-Specific Audiovisual Tasks
従来の枠組み
教師なし事前学習の活用
STEP1: pretrain STEP2: finetune
ペアデータ ペアデータ
教師なし音声データ
事前学習
モデル
各タスクの
モデル
事前学習
モデル
各タスクの
モデル
Tutorial
SSL for Speech Processing
9
XLS-R: Self-supervised Cross-lingual Speech
Representation Learning at Scale (1/4)
 概要
◼ 著者: Arun Babu, Changhan Wang, 他 (Meta, Google, Outreach, Hugging Face)
◼ SSLモデルそのものの改良
◼ 多言語化・データとモデルの大規模化
 モチベーション
◼ SSLモデルは, あらゆるタスク/ドメインに対する良い表現を獲得していてほしい
» SSLモデルがこれ1個あれば, どんな言語のどんなタスクに適応してもうまく行く, というのが理想
◼ この研究は特に言語依存性を解決しようとするもの
 ポイント
◼ 大規模な多言語データの活用
» 128言語のパブリックデータ
◼ 大規模なモデルの導入
» パラメータ数は2B
◼ 様々なダウンストリームタスクでベンチマーク
STEP1: pretrain STEP2: finetune
ペアデータ
教師なし音声データ
事前学習
モデル
事前学習
モデル
各タスクの
モデル
10
XLS-R: Self-supervised Cross-lingual Speech
Representation Learning at Scale (2/4)
 事前学習手法はWav2Vec 2.0と同じ
◼ 音声の量子化と音声からの潜在表現を同時に学習する
» ① 量子化: 音声の各フレームをグループに分類する (直積量子化)
» ② 潜在表現抽出:音声の各フレームからマスクされた部分を補うように潜在表現を抽出する
◼ Contrastive lossで学習
» マスクされたフレームの潜在表現が, 同じフレームの量子化表現に近く, 別のフレームの量子化表現
と遠くなるように学習
Mask
CNNベースのEncoder
①量子化
②潜在表現の抽出
入力はRaw waveform
11
XLS-R: Self-supervised Cross-lingual Speech
Representation Learning at Scale (3/4)
 大規模多言語データを用いた事前学習
◼ 436,000 h, 128言語の音声データ (↔ wav2vec 2.0: 53,200 h ほぼ英語)
» VoxPopuli: 372kh, 欧州23か国の議会データ
» Multilingual Librispeech: 50kh. 主に英語, 欧州言語も含む
» Common Voice: 7kh, 60言語
» VoxLingua107: 6.6kh, 107言語, YouTube
» BABEL: 1kh, アフリカアジア17か国, 電話対話
>1k時間: 24言語
>100時間: 17言語
≤100時間: 88言語
12
XLS-R: Self-supervised Cross-lingual Speech
Representation Learning at Scale (4/4)
 結果 (抜粋)
◼ 音声認識 (BABEL) (↓)
言語
ペアデータ量
SSL
◼ 言語識別 (VoxLingua107) (↓)
 ペアデータの限られた条件で大幅な性能向上を実現
→ 言語にまたがる共通知識をうまく活用することで, リソースの少ない言語でも高精度
 一方, 英語音声認識のようなペアデータの多いタスクでは,
多言語の事前学習が効果的でない場合があるという結果も示されている
SSL
データのバリエーション
が少ない既存研究
as: アッサム語
tl: タガログ語
sw: スワヒリ語
lo: ラオ語
ka: ジョージア語
※
※
13
TRILLsson: Distilled Universal Paralinguistic Speech
Representations (1/4)
 基本情報
◼ 著者: Joel Shor (Verily Life Science), Subhashini Venugopalan (Google Research)
 モチベーション
◼ 有力なSSLモデルはいずれも巨大。例えばオンデバイス動作への適用が困難
» 例: wav2vec 2.0 (HuggingFace) は1.2 GB
◼ SSLモデルをできるだけ性能を保ったまま小型化したい
 ポイント
◼ パラ言語タスクで有力なCAPモデルを, 軽量な他のモデルアーキテクチャに知識蒸留
◼ 知識蒸留にはpublic dataのみを用いて, モデルを公開
 結果
◼ 15%のモデルサイズで元のモデルの96%の精度
◼ 1%のモデルサイズで元のモデルの90%の精度
14
TRILLsson: Distilled Universal Paralinguistic Speech
Representations (2/4)
 知識蒸留 (knowledge distilation)
◼ 性能をできるだけ損なわずにモデルを小型化する手法
» 教師モデル (大型) の出力に, 生徒モデル (小型) の出力が近づくように学習
◼ 58 khのpublic dataで知識蒸留
 教師モデル: CAP (Conformer applied to Paralinguistics) [J. Shor+, ICASSP 2022]
◼ Wav2vec2.0の損失で学習, Conformerベースのモデル構造, 入力はFbank特徴量
◼ 960 khのYoutube等の音声データを用いて構築
 生徒モデル: 3つのアーキテクチャ・異なる5サイズ
◼ Audio Spectrogram Transformer (AST) [Y. Gong+, Interspeech 2021]
» 音声のスペクトログラムを画像として扱う, Transformerベースのモデル
◼ EfficientNetv2 [M. Tan+, 2021]
» 画像処理分野で用いられる高速・軽量なモデル
◼ Resnetish [S, Hershey+, 2017]
» ResNet-50 をベースとしたモデル
15
TRILLsson: Distilled Universal Paralinguistic Speech
Representations (3/4)
 各手法のモデルサイズと性能
◼ 15%のモデルサイズで元のモデルの96%の精度
◼ 1%のモデルサイズで元のモデルの90%の精度
14.2 %
10.2 %
4.5 %
1.9 %
1.0 %
圧縮率
提案法
生徒モデル
教師モデル
従来の
SSLモデル
※評価指標: NOSS (non-semantic speech) benchmark
・Voxceleb1: 話者識別 (1251クラス)
・Voxforge: 言語識別 (6クラス)
・Speech Commands: コマンド識別 (12クラス)
・ASVSpoof: 合成 or not (2クラス)
・Euphonia-QC: 音声の了解度 (5クラス)
・CREMA-D: 感情識別 (6クラス)
・IEMOCAP: 感情識別 (4クラス)
16
TRILLsson: Distilled Universal Paralinguistic Speech
Representations (4/4)
 精度とモデルサイズのトレードオフ
◼ 従来法 (点) と比較して, 提案法 (線) は同じモデルサイズで高い性能が得られている
7タスクのスコアを
統合した評価尺度
teacher
17
End-to-End Integration of Speech Recognition, Speech Enhancement,
and Self-Supervised Learning Representation (1/5)
 基本情報
◼ 著者: Xuankai Chang, et al (CMU, Yahoo Japan)
 タスク
◼ ノイズロバスト音声認識
 ポイント
◼ 頑健性を高めるためにend2end音声認識とSSL、音声強調の組み合わせを検討
 結果
◼ CHiME-4 データセット (single channel) でSoTA
18
End-to-End Integration of Speech Recognition, Speech Enhancement,
and Self-Supervised Learning Representation (2/5)
 データセット (CHiME4)
◼ 雑音環境下で収録したWSJ0コーパスの読み上げ音声
◼ タブレット型の端末で収録
 関連研究
◼ 雑音に対する頑健性を向上する方式は大きく2つ
1. 雑音を重畳した音声で音声認識モデルを学習する (データ拡張)
2. 音声認識のフロントエンドとして音声強調を導入する
» 音声強調による処理歪みが認識に悪影響を与えるため, 1chではデータ拡張の方が有効とされてきた
◼ SSLを用いた音声認識
» Wav2vec 2.0, HuBERTの公開モデルは低雑音のデータで学習されており,
雑音下音声に対する頑健性が不十分
» 一方教師なし事前学習モデルの再学習は計算リソースのコストが高い
https://spandh.dcs.shef.ac.uk/chime_chall
enge/chime2015/data.html
19
End-to-End Integration of Speech Recognition, Speech Enhancement,
and Self-Supervised Learning Representation (3/5)
 提案法 IRIS: 音声強調, SSLモデル, 音声認識のパイプライン
 各モジュールのモデル
◼ 音声強調: Conv-TasNet
◼ SSL: WavLM
» 雑音を含む音声でも学習されているため, 配布されているモデルの時点で雑音に頑健
◼ 音声認識: Joint CTC / attention-based encoder-decoder framework
 学習方法
◼ STEP1: SE, SSLを個別に学習, SSLモデルの出力を用いたASRを学習
◼ STEP2: SSLモジュールのパラメータは固定して, 他のモジュールをjointで学習
» 損失は音声認識と音声強調のマルチタスク損失
20
End-to-End Integration of Speech Recognition, Speech Enhancement,
and Self-Supervised Learning Representation (4/5)
System Model
Dev Real
WER [%] (↓)
Test Real
WER [%] (↓)
Yang et al. (Previous SoTA) Hybrid 3.35 6.25
Wav2Vec-Switch E2E 3.5 6.6
IRIS (提案法) E2E 2.03 3.92
 CHiME4データでSoTAを更新
21
End-to-End Integration of Speech Recognition, Speech Enhancement,
and Self-Supervised Learning Representation (5/5)
SE
SSL/
Feature
Finetune
SE
Finetune
ASR
Dev Real
WER [%] (↓)
Test Real
WER [%] (↓)
✘ HuBERT - - 9.13 20.41
✘ WavLM - - 4.03 4.47
✓ WavLM ✘ ✘ 4.37 12.11
✓ WavLM ✓ ✘ 2.27 4.90
✓ WavLM ✓ ✓ 2.03 3.92
 WavLMの雑音頑健性の高さにより, HuBERTに対して大幅に性能改善
 音声強調 (SE) の導入により, さらに性能が改善
 ただしモデルのミスマッチを防ぐために, finetuningが必須
22
Copyright 2022 NTT CORPORATION
Strategies to Improve Robustness of Target Speech Extraction to
Enrollment Variations [自身の発表] (1/3)
 基本情報
◼ 著者: Hiroshi Sato (私). et al (NTT)
 タスク
◼ 目的話者抽出(音声強調)
 ポイント
◼ 事前登録発話の選び方によって強調の成否が左右される場合が多数ある
◼ 事前登録発話の選択に対する頑健性を向上させる学習方法を提案
 結果
◼ 抽出の失敗率を相対で35%削減
23
Copyright 2022 NTT CORPORATION
 タスク: 目的話者抽出 (音声強調)
◼ 干渉発話, ノイズを含む観測信号から事前登録した目的話者の音声を抽出
 課題
◼ 事前登録発話の選び方によって
抽出の成否が左右される
» 平均性能は良くても, “難しい”事前
登録発話に対して著しく性能が劣化
◼ どんな事前登録発話でもある程度
抽出に成功してほしい
Strategies to Improve Robustness of Target Speech Extraction to
Enrollment Variations [自身の発表] (2/3)
24
Copyright 2022 NTT CORPORATION
 提案法のポイント
◼ (1) WE-SDR基準学習の提案:
» 抽出の最低性能を重視した学習方法を提案
» K個の事前登録発話集合に対する, 抽出の最低性能を損失として採用
◼ (2) 話者識別補助タスクの導入:
» 補助タスクとして話者識別を導入し, 話者境界に近い難しい事前登録発話への頑健性を高める
 結果
◼ K=10発話の事前登録発話候補に対する抽出性能の最悪値を提案法によって改善
◼ 困難なケースを重視する学習により
平均的な失敗率も相対35%削減
◼ 2手法の組み合わせが最も高性能
手法 SDRi[dB] (↑) 失敗率 (SDRi<5dB) [%] (↓)
(1) (2) 最悪値 最悪値 平均値
13.3 7.7 2.0
✓ 14.0 4.8 1.4
✓ 14.1 4.7 1.3
✓ ✓ 14.2 4.4 1.3
Strategies to Improve Robustness of Target Speech Extraction to
Enrollment Variations [自身の発表] (3/3)
音声合成分野の研究潮流 (齋藤 佑樹, 東京大学)
26
INTERSPEECH (IS) 2022
⚫ 音声言語情報処理研究の最高峰国際会議
• 今年の採択率: 1,102/2,140 = 51.5%
- c.f.) IS2021の採択率: 963/1,990 = 48.4%
- 国ごとの投稿数の上位5件: CN > US > JP > IN > KR
⚫ 開催形態: 現地 (仁川, 韓国) & バーチャルのハイブリッド
• オンサイト議論の充実 バーチャル参加者の軽視?
27
⚫ IS2021から音声合成系の論文投稿数が大幅増加
分野ごとの投稿数 (Opening Ceremony より引用)
https://www.youtube.com/watch?v=OjiX57c5l3E
28
本日紹介するトピック
⚫ 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成
• テキスト書き起こしがないデータを活用して音声合成を学習
⚫ 拡散モデル (diffusion model) に基づく音声合成
• Lengevin 動力学を用いて音声波形の生成過程を定式化
注: 齋藤の個人的な主観・解釈を大いに含みます.
29
音声合成 (speech synthesis)
⚫ コンピュータで人間の声を合成・変換する技術
⚫ 近年の主流: DNN を用いた音声合成の統計モデリング
• 高品質な合成音声 大量の (text, speech) データが必要
- 音声合成の zero-shot 適応 (少数発話からの合成) では特に深刻
テキスト音声合成 (TTS)
Text Speech
音声変換 (VC)
Output
speech
Input
speech
Hello Hello
30
One approach: テキスト書き起こしなしデータの活用
⚫ 音声合成のためのデータセットに要求されること
• 高品質 (スタジオ録音程度) & 書き起こしあり → 高コスト
⚫ Core idea: 疑似書き起こしデータを用いた学習
• c.f. 教師なし音声認識 (wav2vec-U)
• 同様のアイデアを
TTS にも使えないか?
A. Baevski et al., Unsupervised Speech Recognition
31
書き起こしなし大規模音声データを活用した転移学習
⚫ IS2022 の Best Student Paper Award
M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
32
書き起こしなし大規模音声データを活用した転移学習
⚫ Step 1: 音声データのみを用いた事前学習
M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
33
書き起こしなし大規模音声データを活用した転移学習
⚫ Step 2: テキストと音声のペアデータで fine-tuning (FT)
M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
34
書き起こしなし大規模音声データを活用した転移学習
⚫ Step 3: 推論 or zero-shot TTS
話者情報の
抽出
M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
35
書き起こしなし大規模音声データを活用した転移学習
⚫ 実験1: 単一話者 TTS
• データ: LJSpeech (24h)
- 事前学習: 23h, FT / 評価: 残りデータ
- Proposed 以外は残りデータだけで学習
• 結果: すべてのケースで提案法が最良
- FT データが少なくなるにつれて,
手法間の違いが明確に
(データ量がそもそも違うので unfair?)
M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
36
書き起こしなし大規模音声データを活用した転移学習
M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
⚫ 実験2: Zero-shot 多話者 TTS
• データ
- 事前学習: LibriTTS (245h, 1,151話者)
- FT / 評価: LJSpeech & VCTK
- 評価では, VCTK の未知話者音声を使用
• 結果: 未知話者の音声も高品質に合成
- LJSpeech 30分データのみ の FT で,
それなりの品質の zero-shot TTS
- 音声だけでも話者を十分にカバーすれば
そこそこ汎化性能がある TTS が可能
37
類似アイデアを用いた研究
A. H. Liu et al., Simple & Effective Unsupervised Speech Synthesis J. Ni et al., Unsupervised TTS Synthesis by Unsupervised ASR
H. Siuzdak et al., WavThuVec C. Du et al., VQTTS
38
本日紹介するトピック
⚫ 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成
• テキスト書き起こしがないデータを活用して音声合成を学習
⚫ 拡散モデル (diffusion model) に基づく音声合成
• Lengevin 動力学を用いて音声波形の生成過程を定式化
注: 齋藤の個人的な主観・解釈を大いに含みます.
39
拡散モデル (diffusion model)
⚫ 雑音 ⇔ データの相互変換を表現する生成モデル
• Forward (diffusion) process: データに Gaussian 雑音を付加
- 数式で書くと:
• Reverse process: 雑音からデータを復元
- 数式で書くと:
- 𝜃: DNN のモデルパラメータ
J. Ho et al., Denoising Diffusion Probabilistic Models
𝑡 に対して単調増加
𝛽𝑡 に依存する
対角等分散行列で表現
40
メディア生成における拡散モデルのアプリケーション
⚫ Prompt からの画像生成: ここ数年で目覚ましい進歩
⚫ 音声合成: 未だ発展途上?
• 波形生成モデル: WaveGrad [N. Chen+21], DiffWave [Z. Kong+21]
• TTS/VC モデル: Grad-TTS [V. Popov+21], Diff-VC [V. Popov+22]
C. Saharia et al., Imagen
R. Rombach et al., Stable Diffusion
A. Ramesh et al., DaLL-E2
41
拡散モデルにおけるコアとなる数式 (導出は省略)
⚫ 時刻 𝒕 での diffusion process: 𝐱𝑡 = ത
𝛼𝑡𝐱0 + 1 − ത
𝛼𝑡𝝐
• クリーンなデータ 𝐱0 から生成可能 ( ത
𝛼𝑡 は 𝛽𝑡 から計算可能)
⚫ 時刻 𝒕 での reverse process: 𝝁𝜃 𝐱𝑡, 𝑡 =
1
ഥ
𝛼𝑡
𝐱𝑡 −
𝛽𝑡
1−ഥ
𝛼𝑡
𝝐
• 雑音 𝝐 がわかれば, 復元のための平均ベクトルを計算可能
ノイジーなデータ 𝐱𝑡 と時刻 𝑡 から 𝝐 を予測する DNN を用意
⚫ 学習時の損失関数: ℒ = 𝝐 − 𝝐𝜃 𝐱𝑡, 𝑡 1 (注: 大幅な簡略化あり)
⚫ 推論 (サンプリング): 𝐱𝑡−1 =
1
ഥ
𝛼𝑡
𝐱𝑡 −
𝛽𝑡
1−ഥ
𝛼𝑡
𝝐𝜃 𝐱𝑡, 𝑡 + 𝜎𝑡𝒛
• 𝜎𝑡 は 𝛽𝑡 から計算可能, 𝒛 ∼ 𝒩(𝟎, 𝑰)
𝝐𝜽 𝐱𝑡, 𝑡
42
{Wave, Prior, Spec}Grad: 拡散モデルによる波形生成
⚫ 共通アイデア: reverse process を音響特徴量で条件付け
• 音響特徴量 = 対数メルスペクトログラム (log-mel sp)
⚫ 手法間の違い: 雑音の事前分布をどう定義するか
Y. Koizumi et al., SpecGrad
• 雑音のスペクトル包絡を
log-mel sp から制御
• Gaussian 雑音への
フィルタリング &
推定雑音への
逆フィルタリング
- 実装上は (I)STFT で計算
43
SpecGrad: 実験と結果
⚫ データ
• 学習: 21名 (男性10, 女性11), En, 184h, 24kHz sampled
• 評価:↑から holdout した1,000サンプル
⚫ 結果: {Wave, Prior}Grad よりも高品質な音声を合成
• 推論時の反復回数が6でも
それなりの合成音声品質
• 高域での位相歪み軽減に
起因?
• 音声強調実験でも有効
Y. Koizumi et al., SpecGrad
44
連続時間表現における拡散モデル
⚫ Diffusion/Reverse process を連続時間に拡張
• 確率微分方程式 (SDE) で定式化 → 任意のソルバで計算可能
• スコア関数 𝛁𝐱 log 𝑝𝑡 𝐱 は未知なので, DNN で近似
- 雑音 𝝐 の推定 ≃ 対数尤度関数の勾配の推定
Y. Song et al., Score-Based Generative Modeling through Stochastic Differential Equations
45
Grad-TTS: 連続時間拡散モデルを用いた音声合成
⚫ 定式化 (導出等の詳細は省略)
• Forward SDE: 𝑑𝐱𝑡 =
1
2
𝛽𝑡 𝝁 − 𝐱𝑡 𝑑𝑡 + 𝛽𝑡𝑑𝐰𝑡
• Reverse SDE: 𝑑𝐱𝑡 =
1
2
𝝁 − 𝐱𝑡 − 𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 𝛽𝑡𝑑𝑡 + 𝛽𝑡𝑑𝒘𝑡
V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
学習の対象
46
Grad-TTS: 連続時間拡散モデルを用いた音声合成
⚫ 各モジュールの役割
• Encoder: テキストから雑音事前分布の平均 𝝁 を予測
- Duration Predictor (DP) の予測をもとにテキスト-音声を alignment
- Alignment の尤度に基づく損失関数を定義して学習
• Aligner: Encoder 出力を DP の予測結果分だけ複製
V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
47
Grad-TTS: 連続時間拡散モデルを用いた音声合成
⚫ 各モジュールの役割
• Decoder: 平均 𝝁, 時刻 𝑡, データ 𝐱𝑡 からスコア関数を推定
- 𝐱𝑡 = 𝐱0𝑒−
1
2
‫׬‬0
𝑡
𝛽𝑠𝑑𝑠
+ 𝝁 1 − 𝑒−
1
2
‫׬‬
0
𝑡
𝛽𝑠𝑑𝑠
+ 𝜆𝑡𝝃 (𝜆𝑡 は 𝛽𝑠 から計算可能)
- Score Matching loss: ℒsm = ‫׬‬
0
1
𝔼𝐱0,𝝃 𝜆𝑡𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 + 𝝃 2
2
𝑑𝑡
V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
Gaussian
雑音
48
Grad-TTS: 連続時間拡散モデルを用いた音声合成
⚫ 推論: Reverse SDE を ODE にして solver で解く
• ODE: 𝑑𝐱𝑡 =
1
2
𝝁 − 𝐱𝑡 − 𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 𝛽𝑡𝑑𝑡 + 𝛽𝑡𝑑𝒘𝑡
⚫ Limitations
• Euler-丸山ソルバ → 低速, 単一話者 TTS のみでの評価
V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
omitted
49
Grad-TTS の改良版・亜種に関する研究 (1/2)
⚫ Fast Grad-TTS [V. Popov+22]
• 推論時のサンプリングが遅い問題を
解決するアプローチをいくつか提案
- 最尤 SDE ソルバ, 漸進的モデル蒸留,
敵対学習に基づく中間状態分布整合
⚫ TTS と VC の joint modeling [T. Sadekova+22]
• Text/mel から平均声の雑音事前分布を予測し,
話者情報を考慮して復元
• VC を学習してから
TTS 向けに適応
話者情報の抽出
50
Grad-TTS の改良版・亜種に関する研究 (2/2)
⚫ EdiTTS [J. Tae+22]
• ピッチシフト & 音声発話内容の修正が可能な Grad-TTS
• 基本的に,
- 編集しない領域のマスキング
- 領域を分割し, 領域ごとの勾配を soft weighting して加算
51
まとめ
⚫ 本発表
• IS2022 における音声合成研究のホットトピックを紹介
- 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成
- 拡散モデル (diffusion model) に基づく音声合成
⚫ その他, アクティブな (気がする) 研究分野
• 合成音声の表現力向上, 低品質データを用いた学習,
TTS/VC モデルの制御性向上・軽量化, コーパス構築・整備

More Related Content

What's hot

画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 

What's hot (20)

【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 

Similar to Interspeech2022 参加報告

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 
イノベーションスプリント2011 nttデータにおける制約理論を活用した分散アジャイル開発~アジャイルとtocの融合
イノベーションスプリント2011 nttデータにおける制約理論を活用した分散アジャイル開発~アジャイルとtocの融合イノベーションスプリント2011 nttデータにおける制約理論を活用した分散アジャイル開発~アジャイルとtocの融合
イノベーションスプリント2011 nttデータにおける制約理論を活用した分散アジャイル開発~アジャイルとtocの融合
InnovationSprint2011
 

Similar to Interspeech2022 参加報告 (20)

Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Sig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_otaSig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_ota
 
対話システム, 南泰浩
対話システム, 南泰浩対話システム, 南泰浩
対話システム, 南泰浩
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Slp201702
Slp201702Slp201702
Slp201702
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Interop2017
Interop2017Interop2017
Interop2017
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
イノベーションスプリント2011 nttデータにおける制約理論を活用した分散アジャイル開発~アジャイルとtocの融合
イノベーションスプリント2011 nttデータにおける制約理論を活用した分散アジャイル開発~アジャイルとtocの融合イノベーションスプリント2011 nttデータにおける制約理論を活用した分散アジャイル開発~アジャイルとtocの融合
イノベーションスプリント2011 nttデータにおける制約理論を活用した分散アジャイル開発~アジャイルとtocの融合
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
eXtremeProgramming入門
eXtremeProgramming入門eXtremeProgramming入門
eXtremeProgramming入門
 
ACL2020
ACL2020ACL2020
ACL2020
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
 

More from Yuki Saito

More from Yuki Saito (20)

fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 

Interspeech2022 参加報告

  • 1. 国際会議 Interspeech2022参加報告 第254回自然言語処理・第144回音声言語情報処理合同研究発表会 佐藤 宏1*, 齋藤 佑樹2* 1日本電信電話株式会社 NTT 人間情報研究所 2東京大学 猿渡・小山研究室
  • 2. 1 発表者自己紹介  名前 ◼ 佐藤 宏(さとう ひろし)  所属 ◼ 日本電信電話株式会社(NTT)  研究分野 ◼ 音声強調、パラ言語認識  名前 ◼ 齋藤 佑樹(さいとう ゆうき)  所属 ◼ 東京大学 猿渡・小山研究室  研究分野 ◼ 音声合成、声質変換
  • 3. 2 Interspeech2022  会議の概要 ◼主催: ISCA (International Speech Communication Association) ◼対象分野: 音声を扱う研究全般  今年の開催形態 ◼ハイブリッド (韓国・仁川会場 & オンライン会場)  開催日程 ◼ 2022年9月18日 - 2022年9月22日  採択率 ◼ 52.4 % (1,121 / 2,140)  投稿論文 ◼ オンラインで無償公開(https://www.isca-speech.org/archive/) https://www.interspeech2022.org/general/
  • 4. 3 カバーする技術分野の全体像 https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より 音声認識 24% 音声合成 15% 話者・ パラ言語 15% 音声分析・ 表現抽出 15% 対話・言語 処理 11% 音声強調・ 符号化 9% その他 (計測・ 聴覚等) 11% +113% 各Topic Areaの投稿数推移
  • 5. 4 現地 or リモート? https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より  現地参加者は全体の68%, リモート参加が少数派となった ◼ 昨年のInterspeech2021では現地参加は18%
  • 6. 5 国別の投稿数&採択数 日本 https://www.youtube.com/watch?v=OjiX57c5l3E (opening session) より  採録数1位と2位がInterspeech2021年から逆転, 中国が最多に  日本は中国・アメリカに次いで3番目 中国 > アメリカ > 日本 > インド > 韓国 Reject Accept
  • 8. 7 所感  自身の発表について ◼ オンライン・ポスター形式 ◼ 15分の発表動画を作成 + 2時間オンラインポスター ◼ オンラインはいずれのセッションも人が少なかった  トレンド ◼ 音声の教師なし事前学習(self-supervised learning: SSL)とその活用に関する研究が多数 ◼ ストリーミング (オンライン) 動作を対象としたRNN-Transducer型の音声認識の検討が比較的 多数. 機能を拡張する系の研究は多岐にわたり, 軽量化も盛ん ◼ マルチモーダル, ゼロリソース, 多言語音声認識, 音声翻訳も多数発表されている  本日の内容 ◼ Interspeech2022の発表紹介 » 音声の教師なし事前学習 x2 » 音声認識 » 音声強調 (自身の発表内容) virtual poster
  • 9. 8 教師なし事前学習 (SSL) とは?  音声の教師なし事前学習とは? ◼ ラベルなし音声データを用いて, 音声から良い潜在表現を得るモデルを構築する技術 ◼ ラベルのあるペアデータが少量でも, 精度よく各タスクの学習を行うことが可能 ◼ Tutorial: https://sites.google.com/view/tutorial-ssl-speech  近年の有力な枠組み ◼ Wav2vec 2.0: [Baevski+ 2020/6] ◼ HuBERT: [Hsu+ 2021/6] ◼ WavLM: [Chen+ 2021/10]  Interspeech2022の関連発表 (抜粋) ◼ SSLモデル自体の改良 » 多言語化・データ大規模化: XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale » モデルの小型化: TRILLsson: Distilled Universal Paralinguistic Speech Representations ◼ 各ダウンストリームタスクへの活用 » 音声認識: End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation » 音声強調: Boosting Self-Supervised Embeddings for Speech Enhancement » パラ言語: Improving Speech Emotion Recognition Using Self-Supervised Learning with Domain-Specific Audiovisual Tasks 従来の枠組み 教師なし事前学習の活用 STEP1: pretrain STEP2: finetune ペアデータ ペアデータ 教師なし音声データ 事前学習 モデル 各タスクの モデル 事前学習 モデル 各タスクの モデル Tutorial SSL for Speech Processing
  • 10. 9 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (1/4)  概要 ◼ 著者: Arun Babu, Changhan Wang, 他 (Meta, Google, Outreach, Hugging Face) ◼ SSLモデルそのものの改良 ◼ 多言語化・データとモデルの大規模化  モチベーション ◼ SSLモデルは, あらゆるタスク/ドメインに対する良い表現を獲得していてほしい » SSLモデルがこれ1個あれば, どんな言語のどんなタスクに適応してもうまく行く, というのが理想 ◼ この研究は特に言語依存性を解決しようとするもの  ポイント ◼ 大規模な多言語データの活用 » 128言語のパブリックデータ ◼ 大規模なモデルの導入 » パラメータ数は2B ◼ 様々なダウンストリームタスクでベンチマーク STEP1: pretrain STEP2: finetune ペアデータ 教師なし音声データ 事前学習 モデル 事前学習 モデル 各タスクの モデル
  • 11. 10 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (2/4)  事前学習手法はWav2Vec 2.0と同じ ◼ 音声の量子化と音声からの潜在表現を同時に学習する » ① 量子化: 音声の各フレームをグループに分類する (直積量子化) » ② 潜在表現抽出:音声の各フレームからマスクされた部分を補うように潜在表現を抽出する ◼ Contrastive lossで学習 » マスクされたフレームの潜在表現が, 同じフレームの量子化表現に近く, 別のフレームの量子化表現 と遠くなるように学習 Mask CNNベースのEncoder ①量子化 ②潜在表現の抽出 入力はRaw waveform
  • 12. 11 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (3/4)  大規模多言語データを用いた事前学習 ◼ 436,000 h, 128言語の音声データ (↔ wav2vec 2.0: 53,200 h ほぼ英語) » VoxPopuli: 372kh, 欧州23か国の議会データ » Multilingual Librispeech: 50kh. 主に英語, 欧州言語も含む » Common Voice: 7kh, 60言語 » VoxLingua107: 6.6kh, 107言語, YouTube » BABEL: 1kh, アフリカアジア17か国, 電話対話 >1k時間: 24言語 >100時間: 17言語 ≤100時間: 88言語
  • 13. 12 XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale (4/4)  結果 (抜粋) ◼ 音声認識 (BABEL) (↓) 言語 ペアデータ量 SSL ◼ 言語識別 (VoxLingua107) (↓)  ペアデータの限られた条件で大幅な性能向上を実現 → 言語にまたがる共通知識をうまく活用することで, リソースの少ない言語でも高精度  一方, 英語音声認識のようなペアデータの多いタスクでは, 多言語の事前学習が効果的でない場合があるという結果も示されている SSL データのバリエーション が少ない既存研究 as: アッサム語 tl: タガログ語 sw: スワヒリ語 lo: ラオ語 ka: ジョージア語 ※ ※
  • 14. 13 TRILLsson: Distilled Universal Paralinguistic Speech Representations (1/4)  基本情報 ◼ 著者: Joel Shor (Verily Life Science), Subhashini Venugopalan (Google Research)  モチベーション ◼ 有力なSSLモデルはいずれも巨大。例えばオンデバイス動作への適用が困難 » 例: wav2vec 2.0 (HuggingFace) は1.2 GB ◼ SSLモデルをできるだけ性能を保ったまま小型化したい  ポイント ◼ パラ言語タスクで有力なCAPモデルを, 軽量な他のモデルアーキテクチャに知識蒸留 ◼ 知識蒸留にはpublic dataのみを用いて, モデルを公開  結果 ◼ 15%のモデルサイズで元のモデルの96%の精度 ◼ 1%のモデルサイズで元のモデルの90%の精度
  • 15. 14 TRILLsson: Distilled Universal Paralinguistic Speech Representations (2/4)  知識蒸留 (knowledge distilation) ◼ 性能をできるだけ損なわずにモデルを小型化する手法 » 教師モデル (大型) の出力に, 生徒モデル (小型) の出力が近づくように学習 ◼ 58 khのpublic dataで知識蒸留  教師モデル: CAP (Conformer applied to Paralinguistics) [J. Shor+, ICASSP 2022] ◼ Wav2vec2.0の損失で学習, Conformerベースのモデル構造, 入力はFbank特徴量 ◼ 960 khのYoutube等の音声データを用いて構築  生徒モデル: 3つのアーキテクチャ・異なる5サイズ ◼ Audio Spectrogram Transformer (AST) [Y. Gong+, Interspeech 2021] » 音声のスペクトログラムを画像として扱う, Transformerベースのモデル ◼ EfficientNetv2 [M. Tan+, 2021] » 画像処理分野で用いられる高速・軽量なモデル ◼ Resnetish [S, Hershey+, 2017] » ResNet-50 をベースとしたモデル
  • 16. 15 TRILLsson: Distilled Universal Paralinguistic Speech Representations (3/4)  各手法のモデルサイズと性能 ◼ 15%のモデルサイズで元のモデルの96%の精度 ◼ 1%のモデルサイズで元のモデルの90%の精度 14.2 % 10.2 % 4.5 % 1.9 % 1.0 % 圧縮率 提案法 生徒モデル 教師モデル 従来の SSLモデル ※評価指標: NOSS (non-semantic speech) benchmark ・Voxceleb1: 話者識別 (1251クラス) ・Voxforge: 言語識別 (6クラス) ・Speech Commands: コマンド識別 (12クラス) ・ASVSpoof: 合成 or not (2クラス) ・Euphonia-QC: 音声の了解度 (5クラス) ・CREMA-D: 感情識別 (6クラス) ・IEMOCAP: 感情識別 (4クラス)
  • 17. 16 TRILLsson: Distilled Universal Paralinguistic Speech Representations (4/4)  精度とモデルサイズのトレードオフ ◼ 従来法 (点) と比較して, 提案法 (線) は同じモデルサイズで高い性能が得られている 7タスクのスコアを 統合した評価尺度 teacher
  • 18. 17 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (1/5)  基本情報 ◼ 著者: Xuankai Chang, et al (CMU, Yahoo Japan)  タスク ◼ ノイズロバスト音声認識  ポイント ◼ 頑健性を高めるためにend2end音声認識とSSL、音声強調の組み合わせを検討  結果 ◼ CHiME-4 データセット (single channel) でSoTA
  • 19. 18 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (2/5)  データセット (CHiME4) ◼ 雑音環境下で収録したWSJ0コーパスの読み上げ音声 ◼ タブレット型の端末で収録  関連研究 ◼ 雑音に対する頑健性を向上する方式は大きく2つ 1. 雑音を重畳した音声で音声認識モデルを学習する (データ拡張) 2. 音声認識のフロントエンドとして音声強調を導入する » 音声強調による処理歪みが認識に悪影響を与えるため, 1chではデータ拡張の方が有効とされてきた ◼ SSLを用いた音声認識 » Wav2vec 2.0, HuBERTの公開モデルは低雑音のデータで学習されており, 雑音下音声に対する頑健性が不十分 » 一方教師なし事前学習モデルの再学習は計算リソースのコストが高い https://spandh.dcs.shef.ac.uk/chime_chall enge/chime2015/data.html
  • 20. 19 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (3/5)  提案法 IRIS: 音声強調, SSLモデル, 音声認識のパイプライン  各モジュールのモデル ◼ 音声強調: Conv-TasNet ◼ SSL: WavLM » 雑音を含む音声でも学習されているため, 配布されているモデルの時点で雑音に頑健 ◼ 音声認識: Joint CTC / attention-based encoder-decoder framework  学習方法 ◼ STEP1: SE, SSLを個別に学習, SSLモデルの出力を用いたASRを学習 ◼ STEP2: SSLモジュールのパラメータは固定して, 他のモジュールをjointで学習 » 損失は音声認識と音声強調のマルチタスク損失
  • 21. 20 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (4/5) System Model Dev Real WER [%] (↓) Test Real WER [%] (↓) Yang et al. (Previous SoTA) Hybrid 3.35 6.25 Wav2Vec-Switch E2E 3.5 6.6 IRIS (提案法) E2E 2.03 3.92  CHiME4データでSoTAを更新
  • 22. 21 End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation (5/5) SE SSL/ Feature Finetune SE Finetune ASR Dev Real WER [%] (↓) Test Real WER [%] (↓) ✘ HuBERT - - 9.13 20.41 ✘ WavLM - - 4.03 4.47 ✓ WavLM ✘ ✘ 4.37 12.11 ✓ WavLM ✓ ✘ 2.27 4.90 ✓ WavLM ✓ ✓ 2.03 3.92  WavLMの雑音頑健性の高さにより, HuBERTに対して大幅に性能改善  音声強調 (SE) の導入により, さらに性能が改善  ただしモデルのミスマッチを防ぐために, finetuningが必須
  • 23. 22 Copyright 2022 NTT CORPORATION Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations [自身の発表] (1/3)  基本情報 ◼ 著者: Hiroshi Sato (私). et al (NTT)  タスク ◼ 目的話者抽出(音声強調)  ポイント ◼ 事前登録発話の選び方によって強調の成否が左右される場合が多数ある ◼ 事前登録発話の選択に対する頑健性を向上させる学習方法を提案  結果 ◼ 抽出の失敗率を相対で35%削減
  • 24. 23 Copyright 2022 NTT CORPORATION  タスク: 目的話者抽出 (音声強調) ◼ 干渉発話, ノイズを含む観測信号から事前登録した目的話者の音声を抽出  課題 ◼ 事前登録発話の選び方によって 抽出の成否が左右される » 平均性能は良くても, “難しい”事前 登録発話に対して著しく性能が劣化 ◼ どんな事前登録発話でもある程度 抽出に成功してほしい Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations [自身の発表] (2/3)
  • 25. 24 Copyright 2022 NTT CORPORATION  提案法のポイント ◼ (1) WE-SDR基準学習の提案: » 抽出の最低性能を重視した学習方法を提案 » K個の事前登録発話集合に対する, 抽出の最低性能を損失として採用 ◼ (2) 話者識別補助タスクの導入: » 補助タスクとして話者識別を導入し, 話者境界に近い難しい事前登録発話への頑健性を高める  結果 ◼ K=10発話の事前登録発話候補に対する抽出性能の最悪値を提案法によって改善 ◼ 困難なケースを重視する学習により 平均的な失敗率も相対35%削減 ◼ 2手法の組み合わせが最も高性能 手法 SDRi[dB] (↑) 失敗率 (SDRi<5dB) [%] (↓) (1) (2) 最悪値 最悪値 平均値 13.3 7.7 2.0 ✓ 14.0 4.8 1.4 ✓ 14.1 4.7 1.3 ✓ ✓ 14.2 4.4 1.3 Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations [自身の発表] (3/3)
  • 27. 26 INTERSPEECH (IS) 2022 ⚫ 音声言語情報処理研究の最高峰国際会議 • 今年の採択率: 1,102/2,140 = 51.5% - c.f.) IS2021の採択率: 963/1,990 = 48.4% - 国ごとの投稿数の上位5件: CN > US > JP > IN > KR ⚫ 開催形態: 現地 (仁川, 韓国) & バーチャルのハイブリッド • オンサイト議論の充実 バーチャル参加者の軽視?
  • 28. 27 ⚫ IS2021から音声合成系の論文投稿数が大幅増加 分野ごとの投稿数 (Opening Ceremony より引用) https://www.youtube.com/watch?v=OjiX57c5l3E
  • 29. 28 本日紹介するトピック ⚫ 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成 • テキスト書き起こしがないデータを活用して音声合成を学習 ⚫ 拡散モデル (diffusion model) に基づく音声合成 • Lengevin 動力学を用いて音声波形の生成過程を定式化 注: 齋藤の個人的な主観・解釈を大いに含みます.
  • 30. 29 音声合成 (speech synthesis) ⚫ コンピュータで人間の声を合成・変換する技術 ⚫ 近年の主流: DNN を用いた音声合成の統計モデリング • 高品質な合成音声 大量の (text, speech) データが必要 - 音声合成の zero-shot 適応 (少数発話からの合成) では特に深刻 テキスト音声合成 (TTS) Text Speech 音声変換 (VC) Output speech Input speech Hello Hello
  • 31. 30 One approach: テキスト書き起こしなしデータの活用 ⚫ 音声合成のためのデータセットに要求されること • 高品質 (スタジオ録音程度) & 書き起こしあり → 高コスト ⚫ Core idea: 疑似書き起こしデータを用いた学習 • c.f. 教師なし音声認識 (wav2vec-U) • 同様のアイデアを TTS にも使えないか? A. Baevski et al., Unsupervised Speech Recognition
  • 32. 31 書き起こしなし大規模音声データを活用した転移学習 ⚫ IS2022 の Best Student Paper Award M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  • 33. 32 書き起こしなし大規模音声データを活用した転移学習 ⚫ Step 1: 音声データのみを用いた事前学習 M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  • 34. 33 書き起こしなし大規模音声データを活用した転移学習 ⚫ Step 2: テキストと音声のペアデータで fine-tuning (FT) M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  • 35. 34 書き起こしなし大規模音声データを活用した転移学習 ⚫ Step 3: 推論 or zero-shot TTS 話者情報の 抽出 M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  • 36. 35 書き起こしなし大規模音声データを活用した転移学習 ⚫ 実験1: 単一話者 TTS • データ: LJSpeech (24h) - 事前学習: 23h, FT / 評価: 残りデータ - Proposed 以外は残りデータだけで学習 • 結果: すべてのケースで提案法が最良 - FT データが少なくなるにつれて, 手法間の違いが明確に (データ量がそもそも違うので unfair?) M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
  • 37. 36 書き起こしなし大規模音声データを活用した転移学習 M. Kim et al., Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus ⚫ 実験2: Zero-shot 多話者 TTS • データ - 事前学習: LibriTTS (245h, 1,151話者) - FT / 評価: LJSpeech & VCTK - 評価では, VCTK の未知話者音声を使用 • 結果: 未知話者の音声も高品質に合成 - LJSpeech 30分データのみ の FT で, それなりの品質の zero-shot TTS - 音声だけでも話者を十分にカバーすれば そこそこ汎化性能がある TTS が可能
  • 38. 37 類似アイデアを用いた研究 A. H. Liu et al., Simple & Effective Unsupervised Speech Synthesis J. Ni et al., Unsupervised TTS Synthesis by Unsupervised ASR H. Siuzdak et al., WavThuVec C. Du et al., VQTTS
  • 39. 38 本日紹介するトピック ⚫ 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成 • テキスト書き起こしがないデータを活用して音声合成を学習 ⚫ 拡散モデル (diffusion model) に基づく音声合成 • Lengevin 動力学を用いて音声波形の生成過程を定式化 注: 齋藤の個人的な主観・解釈を大いに含みます.
  • 40. 39 拡散モデル (diffusion model) ⚫ 雑音 ⇔ データの相互変換を表現する生成モデル • Forward (diffusion) process: データに Gaussian 雑音を付加 - 数式で書くと: • Reverse process: 雑音からデータを復元 - 数式で書くと: - 𝜃: DNN のモデルパラメータ J. Ho et al., Denoising Diffusion Probabilistic Models 𝑡 に対して単調増加 𝛽𝑡 に依存する 対角等分散行列で表現
  • 41. 40 メディア生成における拡散モデルのアプリケーション ⚫ Prompt からの画像生成: ここ数年で目覚ましい進歩 ⚫ 音声合成: 未だ発展途上? • 波形生成モデル: WaveGrad [N. Chen+21], DiffWave [Z. Kong+21] • TTS/VC モデル: Grad-TTS [V. Popov+21], Diff-VC [V. Popov+22] C. Saharia et al., Imagen R. Rombach et al., Stable Diffusion A. Ramesh et al., DaLL-E2
  • 42. 41 拡散モデルにおけるコアとなる数式 (導出は省略) ⚫ 時刻 𝒕 での diffusion process: 𝐱𝑡 = ത 𝛼𝑡𝐱0 + 1 − ത 𝛼𝑡𝝐 • クリーンなデータ 𝐱0 から生成可能 ( ത 𝛼𝑡 は 𝛽𝑡 から計算可能) ⚫ 時刻 𝒕 での reverse process: 𝝁𝜃 𝐱𝑡, 𝑡 = 1 ഥ 𝛼𝑡 𝐱𝑡 − 𝛽𝑡 1−ഥ 𝛼𝑡 𝝐 • 雑音 𝝐 がわかれば, 復元のための平均ベクトルを計算可能 ノイジーなデータ 𝐱𝑡 と時刻 𝑡 から 𝝐 を予測する DNN を用意 ⚫ 学習時の損失関数: ℒ = 𝝐 − 𝝐𝜃 𝐱𝑡, 𝑡 1 (注: 大幅な簡略化あり) ⚫ 推論 (サンプリング): 𝐱𝑡−1 = 1 ഥ 𝛼𝑡 𝐱𝑡 − 𝛽𝑡 1−ഥ 𝛼𝑡 𝝐𝜃 𝐱𝑡, 𝑡 + 𝜎𝑡𝒛 • 𝜎𝑡 は 𝛽𝑡 から計算可能, 𝒛 ∼ 𝒩(𝟎, 𝑰) 𝝐𝜽 𝐱𝑡, 𝑡
  • 43. 42 {Wave, Prior, Spec}Grad: 拡散モデルによる波形生成 ⚫ 共通アイデア: reverse process を音響特徴量で条件付け • 音響特徴量 = 対数メルスペクトログラム (log-mel sp) ⚫ 手法間の違い: 雑音の事前分布をどう定義するか Y. Koizumi et al., SpecGrad • 雑音のスペクトル包絡を log-mel sp から制御 • Gaussian 雑音への フィルタリング & 推定雑音への 逆フィルタリング - 実装上は (I)STFT で計算
  • 44. 43 SpecGrad: 実験と結果 ⚫ データ • 学習: 21名 (男性10, 女性11), En, 184h, 24kHz sampled • 評価:↑から holdout した1,000サンプル ⚫ 結果: {Wave, Prior}Grad よりも高品質な音声を合成 • 推論時の反復回数が6でも それなりの合成音声品質 • 高域での位相歪み軽減に 起因? • 音声強調実験でも有効 Y. Koizumi et al., SpecGrad
  • 45. 44 連続時間表現における拡散モデル ⚫ Diffusion/Reverse process を連続時間に拡張 • 確率微分方程式 (SDE) で定式化 → 任意のソルバで計算可能 • スコア関数 𝛁𝐱 log 𝑝𝑡 𝐱 は未知なので, DNN で近似 - 雑音 𝝐 の推定 ≃ 対数尤度関数の勾配の推定 Y. Song et al., Score-Based Generative Modeling through Stochastic Differential Equations
  • 46. 45 Grad-TTS: 連続時間拡散モデルを用いた音声合成 ⚫ 定式化 (導出等の詳細は省略) • Forward SDE: 𝑑𝐱𝑡 = 1 2 𝛽𝑡 𝝁 − 𝐱𝑡 𝑑𝑡 + 𝛽𝑡𝑑𝐰𝑡 • Reverse SDE: 𝑑𝐱𝑡 = 1 2 𝝁 − 𝐱𝑡 − 𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 𝛽𝑡𝑑𝑡 + 𝛽𝑡𝑑𝒘𝑡 V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech 学習の対象
  • 47. 46 Grad-TTS: 連続時間拡散モデルを用いた音声合成 ⚫ 各モジュールの役割 • Encoder: テキストから雑音事前分布の平均 𝝁 を予測 - Duration Predictor (DP) の予測をもとにテキスト-音声を alignment - Alignment の尤度に基づく損失関数を定義して学習 • Aligner: Encoder 出力を DP の予測結果分だけ複製 V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
  • 48. 47 Grad-TTS: 連続時間拡散モデルを用いた音声合成 ⚫ 各モジュールの役割 • Decoder: 平均 𝝁, 時刻 𝑡, データ 𝐱𝑡 からスコア関数を推定 - 𝐱𝑡 = 𝐱0𝑒− 1 2 ‫׬‬0 𝑡 𝛽𝑠𝑑𝑠 + 𝝁 1 − 𝑒− 1 2 ‫׬‬ 0 𝑡 𝛽𝑠𝑑𝑠 + 𝜆𝑡𝝃 (𝜆𝑡 は 𝛽𝑠 から計算可能) - Score Matching loss: ℒsm = ‫׬‬ 0 1 𝔼𝐱0,𝝃 𝜆𝑡𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 + 𝝃 2 2 𝑑𝑡 V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech Gaussian 雑音
  • 49. 48 Grad-TTS: 連続時間拡散モデルを用いた音声合成 ⚫ 推論: Reverse SDE を ODE にして solver で解く • ODE: 𝑑𝐱𝑡 = 1 2 𝝁 − 𝐱𝑡 − 𝒔𝜃 𝐱𝑡, 𝝁, 𝑡 𝛽𝑡𝑑𝑡 + 𝛽𝑡𝑑𝒘𝑡 ⚫ Limitations • Euler-丸山ソルバ → 低速, 単一話者 TTS のみでの評価 V. Popov et al., Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech omitted
  • 50. 49 Grad-TTS の改良版・亜種に関する研究 (1/2) ⚫ Fast Grad-TTS [V. Popov+22] • 推論時のサンプリングが遅い問題を 解決するアプローチをいくつか提案 - 最尤 SDE ソルバ, 漸進的モデル蒸留, 敵対学習に基づく中間状態分布整合 ⚫ TTS と VC の joint modeling [T. Sadekova+22] • Text/mel から平均声の雑音事前分布を予測し, 話者情報を考慮して復元 • VC を学習してから TTS 向けに適応 話者情報の抽出
  • 51. 50 Grad-TTS の改良版・亜種に関する研究 (2/2) ⚫ EdiTTS [J. Tae+22] • ピッチシフト & 音声発話内容の修正が可能な Grad-TTS • 基本的に, - 編集しない領域のマスキング - 領域を分割し, 領域ごとの勾配を soft weighting して加算
  • 52. 51 まとめ ⚫ 本発表 • IS2022 における音声合成研究のホットトピックを紹介 - 自己教師あり学習 (SSL) 由来の特徴量を用いた音声合成 - 拡散モデル (diffusion model) に基づく音声合成 ⚫ その他, アクティブな (気がする) 研究分野 • 合成音声の表現力向上, 低品質データを用いた学習, TTS/VC モデルの制御性向上・軽量化, コーパス構築・整備