J-KAC：日本語オーディオブック・紙芝居朗読音声コーパス

日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
概要
● 高難易度な音声合成タスクとコーパスを整備したい
○ 普通の短文読み上げ音声は十分に高品質化した
○ タスクを定め，誰でも使えるコーパスを提供したい
○ 　
● オーディオブック音声合成
○ 多様な感情，キャラクタ，情景
○ 短文読み上げよりも深い言語理解が必要
○ 　
● J-KAC (Japanese Kamishibai and audiobook corpus)
○ 小説25作品，紙芝居17作品
○ 章・節・段落などに構造化されたテキスト
○ 男性声優1名による9時間の音声
■ オーディオブック音声合成の国際コンペの量と同程度
○ 刊行物の挿絵・平絵
○ 無償で公開中 (リンクは論文を参照)

概要
内容物
評価
展望
内容物
● 作品の選定 (抜粋)
○ 文と絵の著作権が消滅した小説
(左表) … 青空文庫など
○ 著作権の存続している紙芝居(右表) … 著者の許諾を得て利用
● 音声収録と後処理
○ 文章を章・段落などに構造化
○ 再帰CTCセグメンテーションで文
アライメントを獲得
● 挿絵・平絵
○ キャラクタや情景の画像
○ 著者と出版社の許諾のもとで
スキャンしてディジタル化
著者 (文・絵) タイトル
田中六大むしにごようじん
大島妙子おばけいぬのおハナちゃん
ようふゆかありくんとかえるくん
著者 (文) タイトル
新美南吉ごん狐
楠山正雄花咲かじじい
太宰治桜桃
chapt000: # 章
　parag000: # 段落
　　style000: # 文種
　　　sent: ある日の事でございます。
　　　　time: [0.96, 3.32] # 開始終了時刻
[蜘蛛の糸.yaml (芥川龍之介)] 宮沢賢治(作)
茂田井武(絵)
福音館書店(刊)
“セロひきのゴーシュ”
終盤の演奏場面

概要
内容物
評価
展望
評価
● コーパスで音声合成モデルを学習して評価
○ 構造化テキストで得られる隣接文は，音声合成に有効か？
○ 言語モデルBERT [Devlin19] ＆音声合成モデルTacotron2 [Shen18]
■ 詳細は既発表原稿[中田21] と本原稿参照
当該文だけを使って音声合成隣接文も使って音声合成
0.302 vs 0.698
(朗読としての適切さに関するプリファレンス ABテスト．40名が参加)

概要
内容物
評価
展望
展望
○ 物語の文脈を理解して音声に反映？
○ 文章からキャラクタ，感情，情景を推定
○ 　
○ 画像で人物や情景情報を補助？
○ 例：“セロひきのゴーシュ”の演奏会の画像を見ると
我々は観客の規模と声援を想像できる
○ 　
● 音声言語理解に基づく画像合成
○ 合成音声に同期して絵を動かす？
○ 例：演奏シーンに同期して，画像のゴーシュ
(演奏者)を動かす？

J-KAC：日本語オーディオブック・紙芝居朗読音声コーパス

More Related Content

What's hot

More from Shinnosuke Takamichi

J-KAC：日本語オーディオブック・紙芝居朗読音声コーパス