11/24/2019©Shinnosuke Takamichi,
The University of Tokyo
SANTLR: Speech Annotation Toolkit
for Low Resource Languages
高道 慎之介 (東京大学)
Interspeech2019&サテライト読み会
/15
自己紹介
2
高道 慎之介
東京大学 猿渡研 助教 @forthshinji
他の情報はググってください
/15
研究背景:rich resource から low resource へ
 音声言語処理の高精度化
– 音声言語資源の豊富な言語 (rich-resource language) では高精度化
– 世界中のあらゆる言語のカバーへ
• 文化保存,多様性
 希少言語 (low-resource language) に向けたプロジェクト
– UNESCO 2019年を先住民族言語年に [URL]
– DARPA LORELEI [URL] (アメリカ)
– 科研費「日本語諸方言コーパスの構築とコーパスを使った方言研究
の開拓」(国語研 木部先生)
– 科研費「多方言音声合成のための地理情報を利用した音韻・アクセ
ントモデリングに関する研究」(高道)
3
/15
希少言語の音声言語処理に向けた研究
 統計モデルの学習法
– Rich-resource language からの転移学習
– 音声言語規則の教師なし推定
 音声言語資源の収集
– WikiMatrix: 1,620言語の対訳テキスト
– CMU WMSD: 700言語の音声コーパス
 アノテーション技術
– SPICE (2007)
– SANTLR (本発表)
4
SANTLR: Speech Annotation Toolkit
for Low Resource Languages
X. Li (CMU) et al., Interspeech
5
Paper Code (公開予定?) Demo
/15
概要と機能
 概要:
– ウェブベースのアノテーションツール
– (希少)言語の収集・アノテーションを容易に
– “very user-friendly user interface”
 機能1:transcription
– 提供された音声を容易にアノテートできる
 機能2:recording
– 提供されたテキストを容易に収録できる
6
/15
ポスター
7
/15
デモ
8
https://www.dictate.app/
/15
Section 2: User interface (UI)
 ハイライト
– 研究者とアノテータの両方にとって簡単なUIを用意
 全自動の前処理
– HTMLタグや絵文字の自動除去
– 音声区間検出(VAD)により長い発話を自動分割
– 前処理後に共有可能な固有リンクを生成
 研究者・アノテータ間の進捗共有
– 固有リンクを共有すると互いの進捗が分かる
– 複数のアノテータによる処理も可能
9
/15
Section 3: Utterance ranking
 今までのアノノーションツール
– 対象音声を順々にアノテーションするしかなかった
 しかし実際には,音声のアノテーション優先度が存在する
– アノテーションが簡単な音声や,音響モデル(構築)に有効な音声を
優先的にアノテーションすべき
– 雑音の多い音声の優先度は低い
 2つの ranking 機能を搭載 (次ページ)
– Audio ranking (アノテーション時に動作)
– Text ranking (レコーディング時に動作)
10
/15
Audio ranking
 Step 1: sort by duration
– 発話の短い音声ほどアノテーションしやすい
– 発話長でソート (VADが入っているかは不明)
 Step 2: signal-to-noise (SN ratio) calculation
– SN比の高い音声ほどアノテーションしやすい
– Step 1の ranking の結果を,SN比の結果で補正
• アルゴリズムの詳細は不明
 Step 3: ranking by phoneme overlaps
– 大量のテキスト・音声で学習すると似たような発話が入る(英語の
“year,” “no” など)が,これは音響モデルの学習精度を落とす
– 当該発話の音素が他の発話の音素と強く重複する場合,rankを落とす
• 英語の pre-trained 音響モデルでアライメント
11
/15
Text ranking
 Step 1: sort by perplexity
– 希少単語よりも頻用単語の方が発話しやすい
– テキストから言語モデルを構築,文毎のパープレキシティを計算
– パープレキシティの小さい順にソート
• 直感的には,頻用単語の多い順にソート
 Step 2: text overlap calculation
– アノテータに多様な音声を発話させるため
– Audio ranking と同じように,他の発話とテキストが重複している
ものは,ランクを下げる
12
/15
Section 4: Experiments
13
(30min: transcription, 30min: recording)
高い計算機リテラシーを持ったアノテータならもっと早くこなせる.
そうでない場合はユーザガイドが必要.(論文の意訳)
/15
まとめ
 アノテーションツールSANTLR
– 音声収録・アノテーション
– やさしいUI
– アノテーション優先度の計算
 個人的な見解
– 強力なモデル(DNNなど)の登場によって我々のできることは拡大.
– だからこそ高品質・安価・大量のアノテーション法の確立が必須.
– 次の課題は「プロの専門技術をどうやってマイクロ化するか」
• 論文中でも近いことが言及されている
14
/15
その他の関連発表
15
https://www.isca-speech.org/archive/Interspeech_2019/

論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages

  • 1.
    11/24/2019©Shinnosuke Takamichi, The Universityof Tokyo SANTLR: Speech Annotation Toolkit for Low Resource Languages 高道 慎之介 (東京大学) Interspeech2019&サテライト読み会
  • 2.
    /15 自己紹介 2 高道 慎之介 東京大学 猿渡研助教 @forthshinji 他の情報はググってください
  • 3.
    /15 研究背景:rich resource からlow resource へ  音声言語処理の高精度化 – 音声言語資源の豊富な言語 (rich-resource language) では高精度化 – 世界中のあらゆる言語のカバーへ • 文化保存,多様性  希少言語 (low-resource language) に向けたプロジェクト – UNESCO 2019年を先住民族言語年に [URL] – DARPA LORELEI [URL] (アメリカ) – 科研費「日本語諸方言コーパスの構築とコーパスを使った方言研究 の開拓」(国語研 木部先生) – 科研費「多方言音声合成のための地理情報を利用した音韻・アクセ ントモデリングに関する研究」(高道) 3
  • 4.
    /15 希少言語の音声言語処理に向けた研究  統計モデルの学習法 – Rich-resourcelanguage からの転移学習 – 音声言語規則の教師なし推定  音声言語資源の収集 – WikiMatrix: 1,620言語の対訳テキスト – CMU WMSD: 700言語の音声コーパス  アノテーション技術 – SPICE (2007) – SANTLR (本発表) 4
  • 5.
    SANTLR: Speech AnnotationToolkit for Low Resource Languages X. Li (CMU) et al., Interspeech 5 Paper Code (公開予定?) Demo
  • 6.
    /15 概要と機能  概要: – ウェブベースのアノテーションツール –(希少)言語の収集・アノテーションを容易に – “very user-friendly user interface”  機能1:transcription – 提供された音声を容易にアノテートできる  機能2:recording – 提供されたテキストを容易に収録できる 6
  • 7.
  • 8.
  • 9.
    /15 Section 2: Userinterface (UI)  ハイライト – 研究者とアノテータの両方にとって簡単なUIを用意  全自動の前処理 – HTMLタグや絵文字の自動除去 – 音声区間検出(VAD)により長い発話を自動分割 – 前処理後に共有可能な固有リンクを生成  研究者・アノテータ間の進捗共有 – 固有リンクを共有すると互いの進捗が分かる – 複数のアノテータによる処理も可能 9
  • 10.
    /15 Section 3: Utteranceranking  今までのアノノーションツール – 対象音声を順々にアノテーションするしかなかった  しかし実際には,音声のアノテーション優先度が存在する – アノテーションが簡単な音声や,音響モデル(構築)に有効な音声を 優先的にアノテーションすべき – 雑音の多い音声の優先度は低い  2つの ranking 機能を搭載 (次ページ) – Audio ranking (アノテーション時に動作) – Text ranking (レコーディング時に動作) 10
  • 11.
    /15 Audio ranking  Step1: sort by duration – 発話の短い音声ほどアノテーションしやすい – 発話長でソート (VADが入っているかは不明)  Step 2: signal-to-noise (SN ratio) calculation – SN比の高い音声ほどアノテーションしやすい – Step 1の ranking の結果を,SN比の結果で補正 • アルゴリズムの詳細は不明  Step 3: ranking by phoneme overlaps – 大量のテキスト・音声で学習すると似たような発話が入る(英語の “year,” “no” など)が,これは音響モデルの学習精度を落とす – 当該発話の音素が他の発話の音素と強く重複する場合,rankを落とす • 英語の pre-trained 音響モデルでアライメント 11
  • 12.
    /15 Text ranking  Step1: sort by perplexity – 希少単語よりも頻用単語の方が発話しやすい – テキストから言語モデルを構築,文毎のパープレキシティを計算 – パープレキシティの小さい順にソート • 直感的には,頻用単語の多い順にソート  Step 2: text overlap calculation – アノテータに多様な音声を発話させるため – Audio ranking と同じように,他の発話とテキストが重複している ものは,ランクを下げる 12
  • 13.
    /15 Section 4: Experiments 13 (30min:transcription, 30min: recording) 高い計算機リテラシーを持ったアノテータならもっと早くこなせる. そうでない場合はユーザガイドが必要.(論文の意訳)
  • 14.
    /15 まとめ  アノテーションツールSANTLR – 音声収録・アノテーション –やさしいUI – アノテーション優先度の計算  個人的な見解 – 強力なモデル(DNNなど)の登場によって我々のできることは拡大. – だからこそ高品質・安価・大量のアノテーション法の確立が必須. – 次の課題は「プロの専門技術をどうやってマイクロ化するか」 • 論文中でも近いことが言及されている 14
  • 15.