AVATAR SYMBIOTIC
SOCIETY
音声合成のコーパスをつくろう
高道 慎之介 (東京大学)
Tokyo BISH Bash #05
AVATAR SYMBIOTIC
SOCIETY
自己紹介
• 名前
• 高道 慎之介 (たかみち しんのすけ)
•
• 現職
• 東京大学 助教
•  
• 経歴
• 熊本高専 → 長岡技大 → NAIST
•
• 専門
• 音声{信号,情報}処理
2
AVATAR SYMBIOTIC
SOCIETY
最近は,人間と音声合成技術の融合が好き
自然に間違う音声・歌声合成 [Tamaru20]
“自分で聞く自分の声 ”をキャラに変えると
そのキャラの演技がうまくなる [Kurata21]
人間を騙して学習される “人間GAN” [Ueda21]
リアルタイムなりきり
ボイスチェンジャー [Arakawa19]
* 演出の都合上,意図的に遅延させています.
最新版[Saeki21]は48kHz, 20msec遅延で変換
3
AVATAR SYMBIOTIC
SOCIETY
色んなコーパスを作って公開してきました
(コーパス = 音声データベース)
JSUT
(音声合成)
JSUT-song
(歌声合成)
JVS
(多話者
音声変換)
JVS-MuSiC
(多歌唱者
歌声合成)
PJS
(音声歌声
変換)
JSSS
(多タスク
音声合成)
北岡 他: “フォトリアルCGエー
ジェントとの マルチモーダル対
話システムの構築,” 音響学会
春, 2021.
(事前学習に利用)
https://twitter.com/SHA
CHI_NEUTRINO/status
/127207370729745203
2?s=20
https://twitter.com/hiho_karuta
/status/122826647470951219
4?s=20
https://github.com/espnet/espnet
2017 2018 2019 2020
音声処理オープンソース
ESPnet
CGエージェント
SAYA
歌声合成エンジン
NEUTRINO
ボイスチェンジャー
Seiren Voice
4
AVATAR SYMBIOTIC
SOCIETY
コーパスを作って公開する理由(表)
• 新規勢の参入障壁を下げる
• 新規勢の増えない文化は衰退して巨大勢力に淘汰される
•  
• 歴史を残す
• 音声は歴史のスナップショット
•   
• 研究と産業の両方に貢献できる
• コーパスを売って新しいコーパスを作る
•  
• 次の音声合成の種になるために
• 転移学習など
5
AVATAR SYMBIOTIC
SOCIETY
コーパスを作って公開する理由(裏)
• 研究グループの知名度を上げたかった
• D修了1年目(当時)で,グループは教員1人+学生1人だけだった
•  
• 研究予算ほしい
• アカポス着任1年目あるある
•
• 深層学習競争めんどい
• 優秀な人がなんとかしてくれる.若者はいつも優秀.
•  
• 収録たのしい!
• あとで収録エッセンスを少し共有します
6
AVATAR SYMBIOTIC
SOCIETY
世界と日本のコーパス事情
7
AVATAR SYMBIOTIC
SOCIETY
世界のコーパス事情:
人類の共有資源としての音声コーパスへ
https://commonvoice.mozilla.org/ja http://festvox.org/cmu_wilderness/map.html
Common Voice
誰でも使えるように声を寄贈
CMU Wilderness Corpus
世界700言語の音声コーパス
8
AVATAR SYMBIOTIC
SOCIETY
世界の音声合成コーパス事情:
最近の国際会議では
9
コーパス名 言語 サイズ[時間]
LibriTTS [Zen19] 英語 585 (多話者)
Hi-Fi TTS [Bakhturina21] 英語 292 (多話者)
CSMSC [China17] 中国語 12
DiDiSpeech [Guo21] 中国語 800 (多話者)
RUSLAN [Gabdrakhmanov19] ロシア語 31
IndicSpeech [Srivastava20] ベンガル語など 22
KSS dataset [Park20] 韓国語 12
この2~3年で,主要言語の音声合成コーパスがだいぶ整備されてきた
AVATAR SYMBIOTIC
SOCIETY
日本のコーパス事情:
キャラボイス関連
つくよみちゃんさんら有志による
キャラボイス読み上げ
https://tyc.rei-yumesaki.net/material/corpus/
明治大学 森勢先生らによる
歌声合成と歌声コーパスの民主化
https://www.dtmstation.com/archives/34636.html
10
AVATAR SYMBIOTIC
SOCIETY
日本のコーパス事情
最近の国内会議では
11
コーパス名 ドメイン サイズ[時間]
JSUT [Sonobe17] 話声 10
JVS [Takamichi19] 話声 30 (多話者)
ITA [Koguchi21] 話声 0.5
JSUT-song [Takamichi18] 歌声 0.5
LJSong [Fujimura21] 歌声 5
PJS [Koguchi20] 歌声 0.5
国内だと,東京大学,東北大学,明治大学あたりが頑張っている
AVATAR SYMBIOTIC
SOCIETY
自前のコーパスをつくりたい!
12
AVATAR SYMBIOTIC
SOCIETY
音声コーパスを作ろう
• タスクによってコーパスの条件が違う (将来的には共通になる)
• 音声認識 … 少人数より多人数,クリーン環境より実環境
• 音声合成 … 多人数より少人数,実環境よりクリーン環境
•
• 必要な役割
• 前準備:設計者
• 音声収録:話者,音響エンジニア,音響監督
• 後処理:アノテータ
•
• 音声収録は,基本的にプロに依頼したほうが良いです
• プロはすごい.自分でやると質の悪さに絶望する.
• 音声収録の基本技術は本を参考にして下さい
• アナウンス教本やPA技術書など
13
AVATAR SYMBIOTIC
SOCIETY
朗読内容を決めよう
• 設計者として
• 誰がどんなスタイルで読む?
• ある意味で一番大事
• 一昔前より,話者の声色と音声技術の相性問題はだいぶ緩和
•  
• 何のテキストをどれくらい読む?
• 10分前後 … ちょっと少なめ (すごい転移学習が必要)
• 1時間 … いい感じ (ふつうの転移学習が必要)
• 10時間 … すごい (転移学習なしでもイケる)
•
• 既存のテキスト (多いほど良い)
• 声優統計コーパス100文 … 15分前後
• ITAコーパス330文 … 30分前後
• JSUTコーパス basic5000 … 6時間
● 参考:日本語の話速はひらがな 5~7文字/秒
● JSUTコーパスなどでモデルを事前学習する前提
14
AVATAR SYMBIOTIC
SOCIETY
録音しよう
• 話者として
• 求められている内容に即して発話することが大事
• リップノイズ,ポップノイズ,椅子の音などを避ける
•  
• 音響エンジニアとして
• コンデンサマイク (1~3万円で十分),オーディオインターフェース
• 騒音源の除去,遮音材の設置
• 動作させると騒音源になるものもあるので注意 (PCとか)
•  
• 音響監督として
• 発音やアクセントは正しい?
• NHKアクセント新辞典は必需品
• 1日4時間収録,1時間に10分休憩,録れ高は収録時間の⅛ ~ ¼前後
• 例: JSUT (素人10時間) を週2.5日ペースで収録すると8週間
15
AVATAR SYMBIOTIC
SOCIETY
宣伝 (これが初出)
16
AVATAR SYMBIOTIC
SOCIETY
本が出ます
Pythonで学ぶ
音声合成
山本 龍一 (LINE)
高道 慎之介 (東大)
Coming soon...
https://www.amazon.co.jp/dp/B0
94WX3BKW
https://www.amazon.co.jp/dp/B0
8GLDRSYR
17
近々発売される(はず)
AVATAR SYMBIOTIC
SOCIETY
コーパスも出ます
18
JMD
(多方言
音声合成)
J-KAC
(オーディオ
ブック)
Coming
soon
JSSS
(多タスク
音声合成)
〜2020
Coming
soon
Coming
soon
2021/06 2021/07
2021/06 2021/08? 2021/10?
研究者のみ
研究者のみ (同梱内容の都合で)
一般公開 (随時追加予定)
一般公開 一般公開
熊本弁:なっだけスマートフォン
いっちょで身ん回りば全部
かじめようとしとっとだろ
大阪弁:できるだけスマートフォン
ひとつで身の回りのことみんな
片付けようとしてるみたいやで.
画像
宮沢 賢治・茂田井 武
福音館書店 セロひきのゴーシュ
音声
構造化文章
AVATAR SYMBIOTIC
SOCIETY
まとめ
19
AVATAR SYMBIOTIC
SOCIETY
まとめ
• 音声コーパス作りは楽しい!
• 作るのも楽しい
• 公開して他人が使っているのを見るのも楽しい
•  
• どんどん公開しよう!
• 個人情報保護法と著作権法に気をつけて.
20

音声合成のコーパスをつくろう