Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Saito20asj s slide_published
Report
Yuki Saito
Follow
Mar. 15, 2020
•
0 likes
0 likes
×
Be the first to like this
Show More
•
600 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Yuki Saito
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
Yuki Saito
Neural text-to-speech and voice conversion
Yuki Saito
Nishimura22slp03 presentation
Yuki Saito
Nakai22sp03 presentation
Yuki Saito
1
of
18
Top clipped slide
Saito20asj s slide_published
Mar. 15, 2020
•
0 likes
0 likes
×
Be the first to like this
Show More
•
600 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Science
日本音響学会 2020年春季研究発表会で発表予定だったものを,ASJ beginner's seminar in VR で発表したものです
Yuki Saito
Follow
Advertisement
Advertisement
Advertisement
Recommended
お絵かきのお話(~nw構成図ってどんな感じで書いてます?~)
Tatsuya Maruno
9.3K views
•
24 slides
これからはじめるインフラエンジニア
外道 父
103.2K views
•
61 slides
中の下のエンジニアを脱出するための目標設定
空宙 小笠原
4.6K views
•
29 slides
Router chat for np
Okuya Igarashi
2.8K views
•
10 slides
新入社員のための大規模ゲーム開発入門 サーバサイド編
infinite_loop
47.5K views
•
91 slides
Proxy War
zaki4649
14.6K views
•
106 slides
More Related Content
More from Yuki Saito
(20)
hirai23slp03.pdf
Yuki Saito
•
37 views
Interspeech2022 参加報告
Yuki Saito
•
415 views
fujii22apsipa_asc
Yuki Saito
•
41 views
nakai22apsipa_presentation.pdf
Yuki Saito
•
38 views
saito22research_talk_at_NUS
Yuki Saito
•
43 views
Neural text-to-speech and voice conversion
Yuki Saito
•
967 views
Nishimura22slp03 presentation
Yuki Saito
•
265 views
Nakai22sp03 presentation
Yuki Saito
•
235 views
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
889 views
Saito21asj Autumn Meeting
Yuki Saito
•
238 views
Saito2103slp
Yuki Saito
•
236 views
Interspeech2020 reading
Yuki Saito
•
164 views
Saito20asj_autumn
Yuki Saito
•
381 views
ICASSP読み会2020
Yuki Saito
•
689 views
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
759 views
Saito19asj_s
Yuki Saito
•
488 views
Une18apsipa
Yuki Saito
•
422 views
Saito18sp03
Yuki Saito
•
1.1K views
Saito18asj_s
Yuki Saito
•
341 views
Recently uploaded
(20)
留学生案例《新学院学位毕业证书和学士文凭》
uijn12a
•
2 views
留学生案例《卡内基梅隆大学学位毕业证书和学士文凭》
15sdasd
•
2 views
☀️【帝国理工学院毕业证成绩单留学生首选】
25mjhd12
•
3 views
《威斯康星大学绿湾分校毕业证|学位证书校内仿真版本》
d520dasw12
•
2 views
学分不够购买《麦考瑞大学毕业证成绩单办理案例》
12kjlas
•
4 views
Promotion of Migration from Urban to Local Areas in Mongolia
Kunio Minato
•
39 views
国外学历【萨德伯里大学研究生文凭毕业证留学生首选】
ewq15a
•
2 views
在哪里可以做《堪萨斯大学文凭证书|毕业证》
lobd15
•
2 views
★可查可存档〖制作东伦敦大学文凭证书毕业证〗
mmmm282537
•
3 views
在哪里可以做《利兹贝克特大学文凭证书|毕业证》
25ds12d
•
3 views
留学生案例《堪萨斯大学学位毕业证书和学士文凭》
15sdasd
•
2 views
在哪里可以做《麦考瑞大学文凭证书|毕业证》
kjds1245
•
2 views
留学生案例《犹他大学学位毕业证书和学士文凭》
uijn12a
•
2 views
在哪里可以做《西雅图大学文凭证书|毕业证》
20das12
•
2 views
留信网认证可查【麻省大学波士顿分校文凭证书毕业证购买】
hh123hh1
•
2 views
本科/硕士《法国普尔潘工程师学校大学毕业证成绩单》
21dadasda
•
3 views
web3 x 科学
Hiro Hamada
•
19 views
在哪里可以做《马里兰大学帕克分校文凭证书|毕业证》
lobd15
•
2 views
《威得恩大学毕业证|学位证书校内仿真版本》
w124dsa
•
2 views
学分不够购买《马努卡理工学院毕业证成绩单办理案例》
12kjlas
•
6 views
Advertisement
Saito20asj s slide_published
©Yuki Saito, Mar.
15, 2020. SMASHコーパス: ゲーム動画の後付け実況解説音声収録に基づく 自発発話音声コーパス ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) ASJ beginner’s seminar in VR オーラルセッション 講演6 日本音響学会 2020年春季研究発表会 1-2-14
/161 本発表の概要 自発発話音声: 事前にテキストを準備せずに発話された音声 –
音声言語情報処理研究の進展に必要不可欠 – 日本語の自発発話音声コーパスは非常に少数* 本発表: SMASHコーパスの構築と解説 – スマブラSPの対戦動画への後付け実況解説音声を収録 • 対戦シーンを正確に説明 & 視聴者を盛り上げる音声 – コーパスの構成要素 • 対戦動画と実況解説音声のパラレルデータ (約4時間) • テキスト書き起こし (約110万語) 音声認識による自動書き起こしを手修正 • 発話内容のトピックタグ *例えば, 日本語話し言葉コーパス [Maekawa+, 2000] など
/162 応用展開など (予定) 実況解説音声の自動生成 –
適切なトピック選択 & 文生成, 感情表現, etc... – 実況正確性・感情喚起度のトレードオフ? 他言語の話者による実況解説音声収録 – ゲームのコンテキストを共有した, 多種多様な音声表現 – 盛り上がりどころは万国共通? Audio commentary generation Gameplay video Speaker ID
/163 SMASHコーパスの構築
/164 大乱闘スマッシュブラザーズSPECIAL (スマブラSP) 任天堂から発売された世界的に有名な大人気格闘ゲーム – 非常に高いアドリブ性
→ 実況向き 基本ルール – ダメージを与えて, 相手のファイターを場外にふっとばす
/165 1. スマブラSP対戦動画の収録 4ペアの
(non-professional) プレイヤーを雇用 – 男性2名 (MM), 女性2名 (FF), 男女4名 (MF1 & MF2) 各ペアにつき, 約1時間の対戦動画を収録 – 対戦ルール: 時間制乱闘 (約2分30秒 / 1試合) • 前半30分: プレイヤー同士による1対1の対戦 • 後半30分: プレイヤーとNPC*による2対2のチーム戦 *NPC: Non-Player Character 試合数 プレイヤー 収録時間 1対1 2対2 MM 60分32秒 9 9 FF 59分40秒 9 8 MF1 58分41秒 9 8 MF2 58分18秒 9 8
/166 2. 後付け実況解説音声の収録 2名の男性実況解説者
(MC1 & MC2) を雇用 – MC1: MM, FF, MF1 のプレイ動画の実況解説 – MC2: MF2 のプレイ動画の実況解説
/167 SMASHコーパスのアノテーション
/168 アノテーションの前処理 本発表でのアノテーション対象: 対戦シーンのみ –
ステージ/キャラクター選択シーンは除外 対戦シーンの構成要素 1. ファイター紹介 (約3秒) 2. 乱闘 (約2分45秒) 3. リザルト画面 (約10秒)
/169 1. 発話内容の自動書き起こし 自発発話音声の書き起こし:
非常に困難 – そもそも正確な聞き取りが困難 本発表では, クラウドベースの音声認識を活用 – Google Cloud STT* で, おおまかな発話内容を自動生成 自動書き起こし結果に基づき, 実況音声をセグメントに分割 – 発話の長さやブレスの挿入などを考慮 – 分割後の合計セグメント数: 1,612 (MC1) + 456 (MC2) – 1試合あたりの平均セグメント数: 30 *https://cloud.google.com/speech-to-text/?hl=ja
/1610 2. 自動書き起こし修正 &
発話トピックタグ付け 4名のアノテータを雇用し, 以下のタスクを依頼 自動書き起こし修正 – 対戦動画を見ながら, 音声認識誤りなどを修正 – 句読点や, 完全に欠落したフィラーの挿入は禁止 – 自信のない固有名詞はカタカナで表記するように指示 発話トピックタグ付け – 実況解説者が, 何について話しているかをタグ付け – 本発表では, Fighter, Stage, Item, Pokémon, Assist Trophy, Match, Result, Chat のトピックタグを定義 • より適切なタグ & 階層化が必要かも (要検討)
/1611 アノテーション結果
/1612 動画シーンと対応付けられたアノテーション ID 自動書き起こし* 修正後の書き起こし
タグ 1 もうねメトロイドのエンディング でね中身が女性だっていうことが 分かるんですけれども もうねメトロイドのエンディング でね中身が女性だっていうことが 分かるんですけれども Fighter 2 さあサドンデスなりましたどっち が勝つのか さあサドンデスなりましたどっち が勝つのか Match 3 もうねおじさんになってくるキャ ラクターの名前が覚えられないん でね もうねおじさんになってくると キャラクターの名前が覚えられな いんでね Chat 4 さあ多い古いと出ましたね さあおおイフリート出ましたね Stage ID = 1 ID = 2 ID = 3 ID = 4 *自動書き起こしの認識エラー率 (Word Error Rate) = 10.3 %
/1613 おまけ: 盛大に音声認識エラーした例 自動書き起こし 修正後の書き起こし
タグ ジミー大西全部載ってる写真が撮 れましたね 地味にしずえが全部持ってるんで すよしずえが揃えましたね Fighter 神に感謝はもう定番キャラクター ですね カービィに関してはもう定番キャ ラクターですね Fighter アルコンパンチョ狙いすまして 言ったの字は熱も取れなかった ファルコンパンチを狙いすまして 行ったあの技は戻れなかった Match おばあちゃんファイターのアキラ 出てますね おーバーチャファイターのアキラ 出てますね Assist Trophy ただ接近戦の得意な鍵ではありま すが相手に aiko がいるのでやは りちょっとその ただ接近戦の得意なケンではあり ますが相手にアイクがいるのでや はりちょっとその Fighter ここで糞が落ちてしまいましたね ここでフシギソウが落ちてしまい ましたね Match 壁に Vine 壁にバインバイン当たってました けど Match
/1614 実況トピック遷移の例 Fighter Stage Item Pokémon Assist Trophy Match Result Chat 最後の切り札による トピック割り込み
/1615 発話トピックタグの分布 ここでは, プレイヤーペア毎に結果を集計して表示 実況解説者: MC1 同じ解説者 →
似たようなタグ分布 & 異なる解説者 → 異なるタグ分布 実況解説者: MC2
/1616 まとめ & 今後の予定
目的: 新たな日本語自発発話音声コーパスの構築 本発表: SMASHコーパスの構築 & 解説 – スマブラSP対戦動画の後付け実況解説音声を収録 • 動画 + 実況解説音声のマルチモーダルコーパス – 自動/手動テキスト書き起こし & トピックタグを付与 アノテーション結果 – 音声認識の利用により, テキスト書き起こしの負担を軽減 – 実況解説者の違いは, トピックタグの分布に大きく影響 今後の予定 – さらなる実況解説音声 & 対戦動画の収録 & 感情タグ付与 – English version will be presented at LREC 2020!!
/1617 関連研究: 既存の日本語自発発話音声コーパス 日本語話し言葉コーパス
[Maekawa+, 2000] – 最大規模の日本語自発発話音声コーパス – 1,417話者による, 約660時間の音声発話を収録 – 多様な発話スタイル (講演, 課題志向対話, etc...) – 豊富なアノテーション (非流暢性, フィラー, トーンラベル, etc...) • 音声合成にも活用可能 [Koriyama+, 2011][Yamashita+, LREC2020] Online Gaming Voice Chat (OGVC) コーパス [Arimoto+, 2012] – オンラインゲームをプレイ中の音声チャットを収録 – 音声チャット ≈ 一人称視点からの対話的な実況 • SMASH コーパスは, 三人称視点からの解説的な実況 おまけ
Advertisement