JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス

AVATAR SYMBIOTIC SOCIETY
JTubeSpeech:
音声認識と話者照合のために
YouTube から構築される日本語音声コーパス
◯高道慎之介 (東大), Kürzinger Ludwig (ミュンヘン工科大),
佐伯高明 (東大), 塩田さやか (都立大), 渡部晋治 (CMU)
言語処理学会第28回年次大会 (NLP2022)
G8:音声言語処理 G8-1

概要
• オープンコーパスは，機械学習を用いた音声言語研究の要
• 音声認識（自動書き起こし）や話者照合（発話者の照合）など
• しかし，英語・中国語以外のオープンコーパス整備は遅れ気味
• YouTube動画からコーパスを自動構築できるか？
• 言語依存の処理 [galvez21など] を回避したい
• 2019年の著作権法改正(日本)で，著作物の利用可能範囲が拡大
• （ほぼ）言語非依存でコーパスを自動構築する方法を提案
• 日本語の音声認識・話者照合を例に構築
• 利用した動画リスト等はプロジェクトページで公開（後述）
2

手順
1. データ収集 (data collection)
a. 指定された言語から，データ候補を収集
2. 音声認識 (ASR)・話者照合 (ASV) のためのデータ洗練
a. 各用途に応じてデータを選択
4

データ収集
• 動画検索フレーズの作成
• Wikipedia 記事から，ハイパーリンク付きのフレーズを抽出
• Google Trends から，10年分の「急上昇検索フレーズ」を抽出
• 字幕付き動画の取得
• 上記のフレーズから，該当する動画IDを取得
• そのうち，手動字幕（動画作成者による字幕）付きのものを抽出
• 自動字幕（動画提供者による音声認識結果）は使用しない
• 該当動画の音声と字幕をダウンロード
開始・終了時刻　手動字幕
5

音声認識のためのデータ洗練
• 目的
• よく対応した，音声とテキストの対データを作成したい
• テキストと音声のアライメント（時間対応付け）
• 学習済みモデルに基づくCTCセグメンテーション [Kürzinger20]
• end-to-end 方式の恩恵を受け，生文字を利用可能
• ただし，事前に数字列を読みに変換 (ここだけ言語依存)
• 元々の字幕の時刻も修正
• Transformer と RNN の併用で，長い（数時間〜）音声も処理可能
• スコアリングとデータ洗練
• CTCスコア（推論文字の確率の対数）に対して閾値を設定
• 閾値以下のデータを削除
6

話者照合のためのデータ洗練
• 目的
• よく対応した，音声と話者の対データを作成したい
• 単一話者動画（独話の動画）の抽出
• 学習済みモデルを用いた話者ベクトル（話者の数値表現）を利用
• 動画による違い
• 単一話者 … 1つのクラスタ
• 複数話者 … 2つ以上のクラスタ
• 合成音声 … 縮退したクラスタ
• スコアリングとデータ洗練
• 共分散行列の行列式を計算
• 閾値を設定
7

データ収集における評価：収集データの統計量
要素値
収集期間 2021年2月〜3月
対象言語日本語
検索キーワード 2.34M フレーズ
検索で取得した動画数 11.9M 動画 (5.09動画/フレーズ)
手動字幕を含む動画数 0.11M 動画（0.92%）
自動字幕を含む動画数(参考) 4.96M 動画 (41.7%)
9

言語タスクコーパス名オープン
ソース
サイズ
[時間]
Ja ASR/ASV JNAS [Itou99] No 60
Ja ASR LaboroTVspeech [Ando21] Yes 2,000
Ja ASV Liveness [Shiota15] No 2
Ja ASR/ASV JTubeSpeech (ours) Yes 1,300/900
En ASR GigaSpeech [Chen21] Yes 10,000
En ASV VoxCeleb [Nagrani19] Yes 2,800
Zh ASR AISHELL-2 [Du18] Yes 1,000
Zh ASV CN-Celeb [Fan19] Yes 1,000
データ収集における評価：他のコーパスとの比較
• 英語のコーパス規模には劣るものの，中国語のそれらと同程度
• 日本語話者照合の初のオープンコーパス 10

音声認識における評価：評価データのデザイン
要素値
学習データ CTCスコアの閾値を変えて5種類
（12, 24, 71, 362, 1376時間）
開発データ・評価データ CTCスコアの閾値を変えて2種類
(easy & norm．easy のほうが高い閾値)
学習済み音声認識モデル ESPnet LaboroTVspeechレシピ [Watanabe20]
音声認識モデル構造 ESPnet JTubeSpeechを参照
評価基準文字誤り率（CER）
11

easy
dev/test
学習データ量
[時間]
音声認識における評価：音声認識の性能
12 24 71 362 1376
0
10
20
30
文字誤り率
[%]
normal
dev/test
• 閾値を下げてノイジーなデータを入れても，性能は依然向上
• 最終的な性能は5.2% (easy test) で他の日本語コーパスと同程度
• 性能は easy < normal で，閾値による難易度付けは妥当
12

話者照合における評価：データ洗練の評価
• 共分散行列の行列式を計算
• 2箇所の急さな変化を観測
• 閾値を設定しラベリング
• ”TTS”
• “single speaker”
• “multi speakers”
13

話者照合における評価：データ洗練と照合性能
• ラベルは正しい？ 300動画をランダム抽出しアノテーション
• およそ正しいことを確認．多話者動画を排除できている．
• 話者照合性能は？
• 特徴量やモデルの特徴は論文を参照．
• Equal error rate (EER) 10.9%
• 英語話者照合コーパス VoxCeleb1 と同程度の性能を達成可能
アノテーション
ラベル
TTS single speaker multi speakers
TTS 20 80 0
single speaker 5 95 0
multi speakers 1 36 63
14

まとめ
• 提案内容
• 言語非依存で音声認識・話者照合用の日本語コーパスを構築
• 今後の予定
• 本技術を他の言語に適用
• 公開内容（https://github.com/sarulab-speech/jtubespeech）
• 本論文の内容
• 日本語の字幕付き動画IDリスト
• コーパスデータ（近日中に頒布予定）
• 追加内容
• 30言語分の字幕付き動画IDリスト
• 自動字幕の取得スクリプト
15

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス

Similar to JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス (7)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (15)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス