SlideShare a Scribd company logo
1 of 18
Download to read offline
©Yuki Saito, Mar. 15, 2020.
SMASHコーパス:
ゲーム動画の後付け実況解説音声収録に基づく
自発発話音声コーパス
◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工)
ASJ beginner’s seminar in VR オーラルセッション 講演6
日本音響学会 2020年春季研究発表会 1-2-14
/161
本発表の概要
 自発発話音声: 事前にテキストを準備せずに発話された音声
– 音声言語情報処理研究の進展に必要不可欠
– 日本語の自発発話音声コーパスは非常に少数*
 本発表: SMASHコーパスの構築と解説
– スマブラSPの対戦動画への後付け実況解説音声を収録
• 対戦シーンを正確に説明 & 視聴者を盛り上げる音声
– コーパスの構成要素
• 対戦動画と実況解説音声のパラレルデータ (約4時間)
• テキスト書き起こし (約110万語)
 音声認識による自動書き起こしを手修正
• 発話内容のトピックタグ
*例えば, 日本語話し言葉コーパス [Maekawa+, 2000] など
/162
応用展開など (予定)
 実況解説音声の自動生成
– 適切なトピック選択 & 文生成, 感情表現, etc...
– 実況正確性・感情喚起度のトレードオフ?
 他言語の話者による実況解説音声収録
– ゲームのコンテキストを共有した, 多種多様な音声表現
– 盛り上がりどころは万国共通?
Audio
commentary
generation
Gameplay
video
Speaker ID
/163
SMASHコーパスの構築
/164
大乱闘スマッシュブラザーズSPECIAL
(スマブラSP)
 任天堂から発売された世界的に有名な大人気格闘ゲーム
– 非常に高いアドリブ性 → 実況向き
 基本ルール
– ダメージを与えて, 相手のファイターを場外にふっとばす
/165
1. スマブラSP対戦動画の収録
 4ペアの (non-professional) プレイヤーを雇用
– 男性2名 (MM), 女性2名 (FF), 男女4名 (MF1 & MF2)
 各ペアにつき, 約1時間の対戦動画を収録
– 対戦ルール: 時間制乱闘 (約2分30秒 / 1試合)
• 前半30分: プレイヤー同士による1対1の対戦
• 後半30分: プレイヤーとNPC*による2対2のチーム戦
*NPC: Non-Player Character
試合数
プレイヤー 収録時間 1対1 2対2
MM 60分32秒 9 9
FF 59分40秒 9 8
MF1 58分41秒 9 8
MF2 58分18秒 9 8
/166
2. 後付け実況解説音声の収録
 2名の男性実況解説者 (MC1 & MC2) を雇用
– MC1: MM, FF, MF1 のプレイ動画の実況解説
– MC2: MF2 のプレイ動画の実況解説
/167
SMASHコーパスのアノテーション
/168
アノテーションの前処理
 本発表でのアノテーション対象: 対戦シーンのみ
– ステージ/キャラクター選択シーンは除外
 対戦シーンの構成要素
1. ファイター紹介
(約3秒)
2. 乱闘
(約2分45秒)
3. リザルト画面
(約10秒)
/169
1. 発話内容の自動書き起こし
 自発発話音声の書き起こし: 非常に困難
– そもそも正確な聞き取りが困難

本発表では, クラウドベースの音声認識を活用
– Google Cloud STT* で, おおまかな発話内容を自動生成
 自動書き起こし結果に基づき, 実況音声をセグメントに分割
– 発話の長さやブレスの挿入などを考慮
– 分割後の合計セグメント数: 1,612 (MC1) + 456 (MC2)
– 1試合あたりの平均セグメント数: 30
*https://cloud.google.com/speech-to-text/?hl=ja
/1610
2. 自動書き起こし修正 & 発話トピックタグ付け
 4名のアノテータを雇用し, 以下のタスクを依頼
 自動書き起こし修正
– 対戦動画を見ながら, 音声認識誤りなどを修正
– 句読点や, 完全に欠落したフィラーの挿入は禁止
– 自信のない固有名詞はカタカナで表記するように指示
 発話トピックタグ付け
– 実況解説者が, 何について話しているかをタグ付け
– 本発表では, Fighter, Stage, Item, Pokémon, Assist
Trophy, Match, Result, Chat のトピックタグを定義
• より適切なタグ & 階層化が必要かも (要検討)
/1611
アノテーション結果
/1612
動画シーンと対応付けられたアノテーション
ID 自動書き起こし* 修正後の書き起こし タグ
1 もうねメトロイドのエンディング
でね中身が女性だっていうことが
分かるんですけれども
もうねメトロイドのエンディング
でね中身が女性だっていうことが
分かるんですけれども
Fighter
2 さあサドンデスなりましたどっち
が勝つのか
さあサドンデスなりましたどっち
が勝つのか
Match
3 もうねおじさんになってくるキャ
ラクターの名前が覚えられないん
でね
もうねおじさんになってくると
キャラクターの名前が覚えられな
いんでね
Chat
4 さあ多い古いと出ましたね さあおおイフリート出ましたね Stage
ID = 1 ID = 2 ID = 3 ID = 4
*自動書き起こしの認識エラー率 (Word Error Rate) = 10.3 %
/1613
おまけ: 盛大に音声認識エラーした例
自動書き起こし 修正後の書き起こし タグ
ジミー大西全部載ってる写真が撮
れましたね
地味にしずえが全部持ってるんで
すよしずえが揃えましたね
Fighter
神に感謝はもう定番キャラクター
ですね
カービィに関してはもう定番キャ
ラクターですね
Fighter
アルコンパンチョ狙いすまして
言ったの字は熱も取れなかった
ファルコンパンチを狙いすまして
行ったあの技は戻れなかった
Match
おばあちゃんファイターのアキラ
出てますね
おーバーチャファイターのアキラ
出てますね
Assist
Trophy
ただ接近戦の得意な鍵ではありま
すが相手に aiko がいるのでやは
りちょっとその
ただ接近戦の得意なケンではあり
ますが相手にアイクがいるのでや
はりちょっとその
Fighter
ここで糞が落ちてしまいましたね ここでフシギソウが落ちてしまい
ましたね
Match
壁に Vine 壁にバインバイン当たってました
けど
Match
/1614
実況トピック遷移の例
Fighter
Stage
Item
Pokémon
Assist Trophy
Match
Result
Chat
最後の切り札による
トピック割り込み
/1615
発話トピックタグの分布
ここでは, プレイヤーペア毎に結果を集計して表示
実況解説者:
MC1
同じ解説者 → 似たようなタグ分布
&
異なる解説者 → 異なるタグ分布
実況解説者:
MC2
/1616
まとめ & 今後の予定
 目的: 新たな日本語自発発話音声コーパスの構築
 本発表: SMASHコーパスの構築 & 解説
– スマブラSP対戦動画の後付け実況解説音声を収録
• 動画 + 実況解説音声のマルチモーダルコーパス
– 自動/手動テキスト書き起こし & トピックタグを付与
 アノテーション結果
– 音声認識の利用により, テキスト書き起こしの負担を軽減
– 実況解説者の違いは, トピックタグの分布に大きく影響
 今後の予定
– さらなる実況解説音声 & 対戦動画の収録 & 感情タグ付与
– English version will be presented at LREC 2020!!
/1617
関連研究: 既存の日本語自発発話音声コーパス
 日本語話し言葉コーパス [Maekawa+, 2000]
– 最大規模の日本語自発発話音声コーパス
– 1,417話者による, 約660時間の音声発話を収録
– 多様な発話スタイル (講演, 課題志向対話, etc...)
– 豊富なアノテーション (非流暢性, フィラー, トーンラベル, etc...)
• 音声合成にも活用可能 [Koriyama+, 2011][Yamashita+, LREC2020]
 Online Gaming Voice Chat (OGVC) コーパス [Arimoto+, 2012]
– オンラインゲームをプレイ中の音声チャットを収録
– 音声チャット ≈ 一人称視点からの対話的な実況
• SMASH コーパスは, 三人称視点からの解説的な実況
おまけ

More Related Content

More from Yuki Saito

More from Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 

Saito20asj s slide_published

  • 1. ©Yuki Saito, Mar. 15, 2020. SMASHコーパス: ゲーム動画の後付け実況解説音声収録に基づく 自発発話音声コーパス ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) ASJ beginner’s seminar in VR オーラルセッション 講演6 日本音響学会 2020年春季研究発表会 1-2-14
  • 2. /161 本発表の概要  自発発話音声: 事前にテキストを準備せずに発話された音声 – 音声言語情報処理研究の進展に必要不可欠 – 日本語の自発発話音声コーパスは非常に少数*  本発表: SMASHコーパスの構築と解説 – スマブラSPの対戦動画への後付け実況解説音声を収録 • 対戦シーンを正確に説明 & 視聴者を盛り上げる音声 – コーパスの構成要素 • 対戦動画と実況解説音声のパラレルデータ (約4時間) • テキスト書き起こし (約110万語)  音声認識による自動書き起こしを手修正 • 発話内容のトピックタグ *例えば, 日本語話し言葉コーパス [Maekawa+, 2000] など
  • 3. /162 応用展開など (予定)  実況解説音声の自動生成 – 適切なトピック選択 & 文生成, 感情表現, etc... – 実況正確性・感情喚起度のトレードオフ?  他言語の話者による実況解説音声収録 – ゲームのコンテキストを共有した, 多種多様な音声表現 – 盛り上がりどころは万国共通? Audio commentary generation Gameplay video Speaker ID
  • 6. /165 1. スマブラSP対戦動画の収録  4ペアの (non-professional) プレイヤーを雇用 – 男性2名 (MM), 女性2名 (FF), 男女4名 (MF1 & MF2)  各ペアにつき, 約1時間の対戦動画を収録 – 対戦ルール: 時間制乱闘 (約2分30秒 / 1試合) • 前半30分: プレイヤー同士による1対1の対戦 • 後半30分: プレイヤーとNPC*による2対2のチーム戦 *NPC: Non-Player Character 試合数 プレイヤー 収録時間 1対1 2対2 MM 60分32秒 9 9 FF 59分40秒 9 8 MF1 58分41秒 9 8 MF2 58分18秒 9 8
  • 7. /166 2. 後付け実況解説音声の収録  2名の男性実況解説者 (MC1 & MC2) を雇用 – MC1: MM, FF, MF1 のプレイ動画の実況解説 – MC2: MF2 のプレイ動画の実況解説
  • 9. /168 アノテーションの前処理  本発表でのアノテーション対象: 対戦シーンのみ – ステージ/キャラクター選択シーンは除外  対戦シーンの構成要素 1. ファイター紹介 (約3秒) 2. 乱闘 (約2分45秒) 3. リザルト画面 (約10秒)
  • 10. /169 1. 発話内容の自動書き起こし  自発発話音声の書き起こし: 非常に困難 – そもそも正確な聞き取りが困難  本発表では, クラウドベースの音声認識を活用 – Google Cloud STT* で, おおまかな発話内容を自動生成  自動書き起こし結果に基づき, 実況音声をセグメントに分割 – 発話の長さやブレスの挿入などを考慮 – 分割後の合計セグメント数: 1,612 (MC1) + 456 (MC2) – 1試合あたりの平均セグメント数: 30 *https://cloud.google.com/speech-to-text/?hl=ja
  • 11. /1610 2. 自動書き起こし修正 & 発話トピックタグ付け  4名のアノテータを雇用し, 以下のタスクを依頼  自動書き起こし修正 – 対戦動画を見ながら, 音声認識誤りなどを修正 – 句読点や, 完全に欠落したフィラーの挿入は禁止 – 自信のない固有名詞はカタカナで表記するように指示  発話トピックタグ付け – 実況解説者が, 何について話しているかをタグ付け – 本発表では, Fighter, Stage, Item, Pokémon, Assist Trophy, Match, Result, Chat のトピックタグを定義 • より適切なタグ & 階層化が必要かも (要検討)
  • 13. /1612 動画シーンと対応付けられたアノテーション ID 自動書き起こし* 修正後の書き起こし タグ 1 もうねメトロイドのエンディング でね中身が女性だっていうことが 分かるんですけれども もうねメトロイドのエンディング でね中身が女性だっていうことが 分かるんですけれども Fighter 2 さあサドンデスなりましたどっち が勝つのか さあサドンデスなりましたどっち が勝つのか Match 3 もうねおじさんになってくるキャ ラクターの名前が覚えられないん でね もうねおじさんになってくると キャラクターの名前が覚えられな いんでね Chat 4 さあ多い古いと出ましたね さあおおイフリート出ましたね Stage ID = 1 ID = 2 ID = 3 ID = 4 *自動書き起こしの認識エラー率 (Word Error Rate) = 10.3 %
  • 14. /1613 おまけ: 盛大に音声認識エラーした例 自動書き起こし 修正後の書き起こし タグ ジミー大西全部載ってる写真が撮 れましたね 地味にしずえが全部持ってるんで すよしずえが揃えましたね Fighter 神に感謝はもう定番キャラクター ですね カービィに関してはもう定番キャ ラクターですね Fighter アルコンパンチョ狙いすまして 言ったの字は熱も取れなかった ファルコンパンチを狙いすまして 行ったあの技は戻れなかった Match おばあちゃんファイターのアキラ 出てますね おーバーチャファイターのアキラ 出てますね Assist Trophy ただ接近戦の得意な鍵ではありま すが相手に aiko がいるのでやは りちょっとその ただ接近戦の得意なケンではあり ますが相手にアイクがいるのでや はりちょっとその Fighter ここで糞が落ちてしまいましたね ここでフシギソウが落ちてしまい ましたね Match 壁に Vine 壁にバインバイン当たってました けど Match
  • 16. /1615 発話トピックタグの分布 ここでは, プレイヤーペア毎に結果を集計して表示 実況解説者: MC1 同じ解説者 → 似たようなタグ分布 & 異なる解説者 → 異なるタグ分布 実況解説者: MC2
  • 17. /1616 まとめ & 今後の予定  目的: 新たな日本語自発発話音声コーパスの構築  本発表: SMASHコーパスの構築 & 解説 – スマブラSP対戦動画の後付け実況解説音声を収録 • 動画 + 実況解説音声のマルチモーダルコーパス – 自動/手動テキスト書き起こし & トピックタグを付与  アノテーション結果 – 音声認識の利用により, テキスト書き起こしの負担を軽減 – 実況解説者の違いは, トピックタグの分布に大きく影響  今後の予定 – さらなる実況解説音声 & 対戦動画の収録 & 感情タグ付与 – English version will be presented at LREC 2020!!
  • 18. /1617 関連研究: 既存の日本語自発発話音声コーパス  日本語話し言葉コーパス [Maekawa+, 2000] – 最大規模の日本語自発発話音声コーパス – 1,417話者による, 約660時間の音声発話を収録 – 多様な発話スタイル (講演, 課題志向対話, etc...) – 豊富なアノテーション (非流暢性, フィラー, トーンラベル, etc...) • 音声合成にも活用可能 [Koriyama+, 2011][Yamashita+, LREC2020]  Online Gaming Voice Chat (OGVC) コーパス [Arimoto+, 2012] – オンラインゲームをプレイ中の音声チャットを収録 – 音声チャット ≈ 一人称視点からの対話的な実況 • SMASH コーパスは, 三人称視点からの解説的な実況 おまけ