More Related Content
Similar to 論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages (20)
More from Shinnosuke Takamichi (20)
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
- 3. /15
研究背景:rich resource から low resource へ
音声言語処理の高精度化
– 音声言語資源の豊富な言語 (rich-resource language) では高精度化
– 世界中のあらゆる言語のカバーへ
• 文化保存,多様性
希少言語 (low-resource language) に向けたプロジェクト
– UNESCO 2019年を先住民族言語年に [URL]
– DARPA LORELEI [URL] (アメリカ)
– 科研費「日本語諸方言コーパスの構築とコーパスを使った方言研究
の開拓」(国語研 木部先生)
– 科研費「多方言音声合成のための地理情報を利用した音韻・アクセ
ントモデリングに関する研究」(高道)
3
- 9. /15
Section 2: User interface (UI)
ハイライト
– 研究者とアノテータの両方にとって簡単なUIを用意
全自動の前処理
– HTMLタグや絵文字の自動除去
– 音声区間検出(VAD)により長い発話を自動分割
– 前処理後に共有可能な固有リンクを生成
研究者・アノテータ間の進捗共有
– 固有リンクを共有すると互いの進捗が分かる
– 複数のアノテータによる処理も可能
9
- 10. /15
Section 3: Utterance ranking
今までのアノノーションツール
– 対象音声を順々にアノテーションするしかなかった
しかし実際には,音声のアノテーション優先度が存在する
– アノテーションが簡単な音声や,音響モデル(構築)に有効な音声を
優先的にアノテーションすべき
– 雑音の多い音声の優先度は低い
2つの ranking 機能を搭載 (次ページ)
– Audio ranking (アノテーション時に動作)
– Text ranking (レコーディング時に動作)
10
- 11. /15
Audio ranking
Step 1: sort by duration
– 発話の短い音声ほどアノテーションしやすい
– 発話長でソート (VADが入っているかは不明)
Step 2: signal-to-noise (SN ratio) calculation
– SN比の高い音声ほどアノテーションしやすい
– Step 1の ranking の結果を,SN比の結果で補正
• アルゴリズムの詳細は不明
Step 3: ranking by phoneme overlaps
– 大量のテキスト・音声で学習すると似たような発話が入る(英語の
“year,” “no” など)が,これは音響モデルの学習精度を落とす
– 当該発話の音素が他の発話の音素と強く重複する場合,rankを落とす
• 英語の pre-trained 音響モデルでアライメント
11
- 12. /15
Text ranking
Step 1: sort by perplexity
– 希少単語よりも頻用単語の方が発話しやすい
– テキストから言語モデルを構築,文毎のパープレキシティを計算
– パープレキシティの小さい順にソート
• 直感的には,頻用単語の多い順にソート
Step 2: text overlap calculation
– アノテータに多様な音声を発話させるため
– Audio ranking と同じように,他の発話とテキストが重複している
ものは,ランクを下げる
12