論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages

11/24/2019©Shinnosuke Takamichi,
The University of Tokyo
SANTLR: Speech Annotation Toolkit
for Low Resource Languages
高道慎之介 (東京大学)
Interspeech2019&サテライト読み会

/15
自己紹介
2
高道慎之介
東京大学猿渡研助教 @forthshinji
他の情報はググってください

/15
研究背景：rich resource から low resource へ
 音声言語処理の高精度化
– 音声言語資源の豊富な言語 (rich-resource language) では高精度化
– 世界中のあらゆる言語のカバーへ
• 文化保存，多様性
 希少言語 (low-resource language) に向けたプロジェクト
– UNESCO 2019年を先住民族言語年に [URL]
– DARPA LORELEI [URL] (アメリカ)
– 科研費「日本語諸方言コーパスの構築とコーパスを使った方言研究
の開拓」(国語研木部先生)
– 科研費「多方言音声合成のための地理情報を利用した音韻・アクセ
ントモデリングに関する研究」(高道)
3

/15
希少言語の音声言語処理に向けた研究
 統計モデルの学習法
– Rich-resource language からの転移学習
– 音声言語規則の教師なし推定
 音声言語資源の収集
– WikiMatrix: 1,620言語の対訳テキスト
– CMU WMSD: 700言語の音声コーパス
 アノテーション技術
– SPICE (2007)
– SANTLR (本発表)
4

SANTLR: Speech Annotation Toolkit
for Low Resource Languages
X. Li (CMU) et al., Interspeech
5
Paper Code (公開予定?) Demo

/15
概要と機能
 概要：
– ウェブベースのアノテーションツール
– (希少)言語の収集・アノテーションを容易に
– “very user-friendly user interface”
 機能1：transcription
– 提供された音声を容易にアノテートできる
 機能2：recording
– 提供されたテキストを容易に収録できる
6

/15
デモ
8
https://www.dictate.app/

/15
Section 2: User interface (UI)
 ハイライト
– 研究者とアノテータの両方にとって簡単なUIを用意
 全自動の前処理
– HTMLタグや絵文字の自動除去
– 音声区間検出(VAD)により長い発話を自動分割
– 前処理後に共有可能な固有リンクを生成
 研究者・アノテータ間の進捗共有
– 固有リンクを共有すると互いの進捗が分かる
– 複数のアノテータによる処理も可能
9

/15
Section 3: Utterance ranking
 今までのアノノーションツール
– 対象音声を順々にアノテーションするしかなかった
 しかし実際には，音声のアノテーション優先度が存在する
– アノテーションが簡単な音声や，音響モデル(構築)に有効な音声を
優先的にアノテーションすべき
– 雑音の多い音声の優先度は低い
 2つの ranking 機能を搭載 (次ページ)
– Audio ranking (アノテーション時に動作)
– Text ranking (レコーディング時に動作)
10

/15
Audio ranking
 Step 1: sort by duration
– 発話の短い音声ほどアノテーションしやすい
– 発話長でソート (VADが入っているかは不明)
 Step 2: signal-to-noise (SN ratio) calculation
– SN比の高い音声ほどアノテーションしやすい
– Step 1の ranking の結果を，SN比の結果で補正
• アルゴリズムの詳細は不明
 Step 3: ranking by phoneme overlaps
– 大量のテキスト・音声で学習すると似たような発話が入る(英語の
“year,” “no” など)が，これは音響モデルの学習精度を落とす
– 当該発話の音素が他の発話の音素と強く重複する場合，rankを落とす
• 英語の pre-trained 音響モデルでアライメント
11

/15
Text ranking
 Step 1: sort by perplexity
– 希少単語よりも頻用単語の方が発話しやすい
– テキストから言語モデルを構築，文毎のパープレキシティを計算
– パープレキシティの小さい順にソート
• 直感的には，頻用単語の多い順にソート
 Step 2: text overlap calculation
– アノテータに多様な音声を発話させるため
– Audio ranking と同じように，他の発話とテキストが重複している
ものは，ランクを下げる
12

/15
Section 4: Experiments
13
(30min: transcription, 30min: recording)
高い計算機リテラシーを持ったアノテータならもっと早くこなせる．
そうでない場合はユーザガイドが必要．(論文の意訳)

/15
まとめ
 アノテーションツールSANTLR
– 音声収録・アノテーション
– やさしいUI
– アノテーション優先度の計算
 個人的な見解
– 強力なモデル(DNNなど)の登場によって我々のできることは拡大．
– だからこそ高品質・安価・大量のアノテーション法の確立が必須．
– 次の課題は「プロの専門技術をどうやってマイクロ化するか」
• 論文中でも近いことが言及されている
14

/15
その他の関連発表
15
https://www.isca-speech.org/archive/Interspeech_2019/

論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages

More Related Content

What's hot

More from Shinnosuke Takamichi

Recently uploaded

論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages