Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Saito20asj s slide_published

272 views

Published on

日本音響学会 2020年春季研究発表会で発表予定だったものを,ASJ beginner's seminar in VR で発表したものです

Published in: Science
  • Be the first to comment

  • Be the first to like this

Saito20asj s slide_published

  1. 1. ©Yuki Saito, Mar. 15, 2020. SMASHコーパス: ゲーム動画の後付け実況解説音声収録に基づく 自発発話音声コーパス ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) ASJ beginner’s seminar in VR オーラルセッション 講演6 日本音響学会 2020年春季研究発表会 1-2-14
  2. 2. /161 本発表の概要  自発発話音声: 事前にテキストを準備せずに発話された音声 – 音声言語情報処理研究の進展に必要不可欠 – 日本語の自発発話音声コーパスは非常に少数*  本発表: SMASHコーパスの構築と解説 – スマブラSPの対戦動画への後付け実況解説音声を収録 • 対戦シーンを正確に説明 & 視聴者を盛り上げる音声 – コーパスの構成要素 • 対戦動画と実況解説音声のパラレルデータ (約4時間) • テキスト書き起こし (約110万語)  音声認識による自動書き起こしを手修正 • 発話内容のトピックタグ *例えば, 日本語話し言葉コーパス [Maekawa+, 2000] など
  3. 3. /162 応用展開など (予定)  実況解説音声の自動生成 – 適切なトピック選択 & 文生成, 感情表現, etc... – 実況正確性・感情喚起度のトレードオフ?  他言語の話者による実況解説音声収録 – ゲームのコンテキストを共有した, 多種多様な音声表現 – 盛り上がりどころは万国共通? Audio commentary generation Gameplay video Speaker ID
  4. 4. /163 SMASHコーパスの構築
  5. 5. /164 大乱闘スマッシュブラザーズSPECIAL (スマブラSP)  任天堂から発売された世界的に有名な大人気格闘ゲーム – 非常に高いアドリブ性 → 実況向き  基本ルール – ダメージを与えて, 相手のファイターを場外にふっとばす
  6. 6. /165 1. スマブラSP対戦動画の収録  4ペアの (non-professional) プレイヤーを雇用 – 男性2名 (MM), 女性2名 (FF), 男女4名 (MF1 & MF2)  各ペアにつき, 約1時間の対戦動画を収録 – 対戦ルール: 時間制乱闘 (約2分30秒 / 1試合) • 前半30分: プレイヤー同士による1対1の対戦 • 後半30分: プレイヤーとNPC*による2対2のチーム戦 *NPC: Non-Player Character 試合数 プレイヤー 収録時間 1対1 2対2 MM 60分32秒 9 9 FF 59分40秒 9 8 MF1 58分41秒 9 8 MF2 58分18秒 9 8
  7. 7. /166 2. 後付け実況解説音声の収録  2名の男性実況解説者 (MC1 & MC2) を雇用 – MC1: MM, FF, MF1 のプレイ動画の実況解説 – MC2: MF2 のプレイ動画の実況解説
  8. 8. /167 SMASHコーパスのアノテーション
  9. 9. /168 アノテーションの前処理  本発表でのアノテーション対象: 対戦シーンのみ – ステージ/キャラクター選択シーンは除外  対戦シーンの構成要素 1. ファイター紹介 (約3秒) 2. 乱闘 (約2分45秒) 3. リザルト画面 (約10秒)
  10. 10. /169 1. 発話内容の自動書き起こし  自発発話音声の書き起こし: 非常に困難 – そもそも正確な聞き取りが困難  本発表では, クラウドベースの音声認識を活用 – Google Cloud STT* で, おおまかな発話内容を自動生成  自動書き起こし結果に基づき, 実況音声をセグメントに分割 – 発話の長さやブレスの挿入などを考慮 – 分割後の合計セグメント数: 1,612 (MC1) + 456 (MC2) – 1試合あたりの平均セグメント数: 30 *https://cloud.google.com/speech-to-text/?hl=ja
  11. 11. /1610 2. 自動書き起こし修正 & 発話トピックタグ付け  4名のアノテータを雇用し, 以下のタスクを依頼  自動書き起こし修正 – 対戦動画を見ながら, 音声認識誤りなどを修正 – 句読点や, 完全に欠落したフィラーの挿入は禁止 – 自信のない固有名詞はカタカナで表記するように指示  発話トピックタグ付け – 実況解説者が, 何について話しているかをタグ付け – 本発表では, Fighter, Stage, Item, Pokémon, Assist Trophy, Match, Result, Chat のトピックタグを定義 • より適切なタグ & 階層化が必要かも (要検討)
  12. 12. /1611 アノテーション結果
  13. 13. /1612 動画シーンと対応付けられたアノテーション ID 自動書き起こし* 修正後の書き起こし タグ 1 もうねメトロイドのエンディング でね中身が女性だっていうことが 分かるんですけれども もうねメトロイドのエンディング でね中身が女性だっていうことが 分かるんですけれども Fighter 2 さあサドンデスなりましたどっち が勝つのか さあサドンデスなりましたどっち が勝つのか Match 3 もうねおじさんになってくるキャ ラクターの名前が覚えられないん でね もうねおじさんになってくると キャラクターの名前が覚えられな いんでね Chat 4 さあ多い古いと出ましたね さあおおイフリート出ましたね Stage ID = 1 ID = 2 ID = 3 ID = 4 *自動書き起こしの認識エラー率 (Word Error Rate) = 10.3 %
  14. 14. /1613 おまけ: 盛大に音声認識エラーした例 自動書き起こし 修正後の書き起こし タグ ジミー大西全部載ってる写真が撮 れましたね 地味にしずえが全部持ってるんで すよしずえが揃えましたね Fighter 神に感謝はもう定番キャラクター ですね カービィに関してはもう定番キャ ラクターですね Fighter アルコンパンチョ狙いすまして 言ったの字は熱も取れなかった ファルコンパンチを狙いすまして 行ったあの技は戻れなかった Match おばあちゃんファイターのアキラ 出てますね おーバーチャファイターのアキラ 出てますね Assist Trophy ただ接近戦の得意な鍵ではありま すが相手に aiko がいるのでやは りちょっとその ただ接近戦の得意なケンではあり ますが相手にアイクがいるのでや はりちょっとその Fighter ここで糞が落ちてしまいましたね ここでフシギソウが落ちてしまい ましたね Match 壁に Vine 壁にバインバイン当たってました けど Match
  15. 15. /1614 実況トピック遷移の例 Fighter Stage Item Pokémon Assist Trophy Match Result Chat 最後の切り札による トピック割り込み
  16. 16. /1615 発話トピックタグの分布 ここでは, プレイヤーペア毎に結果を集計して表示 実況解説者: MC1 同じ解説者 → 似たようなタグ分布 & 異なる解説者 → 異なるタグ分布 実況解説者: MC2
  17. 17. /1616 まとめ & 今後の予定  目的: 新たな日本語自発発話音声コーパスの構築  本発表: SMASHコーパスの構築 & 解説 – スマブラSP対戦動画の後付け実況解説音声を収録 • 動画 + 実況解説音声のマルチモーダルコーパス – 自動/手動テキスト書き起こし & トピックタグを付与  アノテーション結果 – 音声認識の利用により, テキスト書き起こしの負担を軽減 – 実況解説者の違いは, トピックタグの分布に大きく影響  今後の予定 – さらなる実況解説音声 & 対戦動画の収録 & 感情タグ付与 – English version will be presented at LREC 2020!!
  18. 18. /1617 関連研究: 既存の日本語自発発話音声コーパス  日本語話し言葉コーパス [Maekawa+, 2000] – 最大規模の日本語自発発話音声コーパス – 1,417話者による, 約660時間の音声発話を収録 – 多様な発話スタイル (講演, 課題志向対話, etc...) – 豊富なアノテーション (非流暢性, フィラー, トーンラベル, etc...) • 音声合成にも活用可能 [Koriyama+, 2011][Yamashita+, LREC2020]  Online Gaming Voice Chat (OGVC) コーパス [Arimoto+, 2012] – オンラインゲームをプレイ中の音声チャットを収録 – 音声チャット ≈ 一人称視点からの対話的な実況 • SMASH コーパスは, 三人称視点からの解説的な実況 おまけ

×