人間を利用する音声言語処理の試み（NL研究会招待講演）

10/25/2019©Shinnosuke Takamichi,
The University of Tokyo
人間を利用する音声言語処理の試み
高道慎之介
(@forthshinji)
第242回自然言語処理研究会招待講演 (2019/10/25)

/30
自己紹介
 経歴
– 2009年熊本電波高専電子工学科卒業
– 2011年長岡技科大工学部卒業
– 2016年奈良先端大博士課程修了 (中村研)
• NAIST中村先生・松本先生，CMU グラム先生…がD論審査委員
– 2016年～東京大学猿渡・小山研助教 (2018年まで特任助教)
• IPSJ関連だと推薦博士論文(2016)・山下記念賞(2020)など
 専門
– 音声情報処理・統計的音声合成変換など
2

/30
猿渡・小山研究室
3
 猿渡洋(教授)

専門分野
音メディアシステム
教師無し最適化
統計・機械学習論的
信号処理
協力教員郡山知樹先生
中村友彦先生
研究員高宗さん
秘書丹治さん
専門分野
音響信号処理
音場再生・伝送
（音響ホログラフ）
スパース信号処理
小山翔一(講師) 高道慎之介(助教)
専門分野
音声信号処理
統計的音声合成
声質変換
深層学習 (DNN)
北村大地(客員研究員)
専門分野
音メディア信号処理
統計・機械学習論的
信号処理
音楽信号処理
博士課程学生4名
修士課程学生6＋7名
柏野研学生1名
香川高専

/30
私の研究グループの目標
4
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して

/30
2019年に発表した技術
5
DNN音源モデルの音源分離[IEEE19]
ボコーダフリー音声合成[CSL19]
中国語訛り日本語音声合成[IEICE19]
音声による認知症検出[GerMed19] 受聴者の信頼度[AST19]
ランダム性を持つ音声合成[SSW19]
音声合成のための言語単位[SSW19]
リアルタイムDNN声質変換[SSW19]
マスク型声質変換デバイス[UIST19]
主観的話者埋め込み[SSW19]
話者V2S攻撃[SSW19]
EEG音質予測[Interspeech19]
ニューラルダブルトラック[ICASSP19]
高齢者見守り音声合成[IWSDS19]
DNN短タップフィルタ学習[ASJ19]
環境音合成[ASJ19]DNN位相推定[ASJ19]
人間GAN [IBIS19]
音源分離・雑音抑圧
言語教育・スクリーニング
セキュリティ
インタラクション
音声合成基礎
ヒューマンコンピュテーション
AAFテンション補償[CHI19]
低ミュージカルノイズ雑音抑圧[ASJ19]
歌声情報処理
深層学習による信号処理最適化
多言語化・多様化

/30
講演のテーマ
6
計算資源と人的資源を利用した音声言語処理
~人間を利用したDNN埋め込みと敵対的学習を例にして~

その前にデモ
~NL研に関係するものを中心に~
7

/30
本人より流暢な英語音声合成
8
Conventional
Ours
Japanese-accented English
uttered by a Japanese undergraduate
“I can see that knife now.”
Text Text-to-speech
Voice building
Make the voice fluent.
[Oshima15][Sekizawa19]

/30
クラウドソーシング対訳方言コーパスと
方言音声合成
9
Iyo, Aawa, Tosa
Iwaki, Saitama
Izumo, Hiroshima, Okayama
Fukuoka, Miyazaki,
Morokata
Kanazawa, Fukui,
Osaka, Nara,
Kyoto, Kyo-kotoba
Hokkaido, Tsugaru, Akita
Common language
合成音声 (話者は東京方言話者)
自然音声 (宮崎弁ネイティブ話者)
[Takamichi18][Akiyama18]

/30
リアルタイムDNN音声変換
10
https://www.youtube.com/watch?v=P9rGqoYnfCg
[Arakawa19]
音声合成・変換コンペ (2015, 2016) で品質世界一になった技術を応用．
普通の laptop PC で50msレイテンシで動作．
更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ

計算資源と人的資源を利用した
音声言語処理
11

/30
背景
 研究における資源
– 計算資源：CPU ，GPU，TPU，(量子コンピュータ) …
– 人的資源：クラウドソーシング
 音声研究における人的資源の活用
– 聴覚・経験・環境などで変化する音声の感性評定
– 人間に尋ねないと分からないことが多々ある
→ 大量のデータではなく，大量の人間で解決できる問題
 本発表では，音声研究における我々の試みを紹介
– 話者埋め込み (speaker embedding) の学習
– 敵対的生成ネットワーク (GAN) の学習
12

話者埋め込みにおける利用
[Saito19SSW]
13

/30
話者埋め込み：喋る人を数値表現する技術
14
話者選択話者作成
クロスリンガル話者検索
＋＝
Suzuki-san
Katoh-san
female, 20s …
female, 50s …

/30
話者埋め込み (話者のベクトル表現)
 話者の情報をどう数値化する？
– 多話者音声合成や話者選択・補間に有効．
– Interpretable な表現は可能か？
 従来の連続表現：識別型 or 自己符号型
15
Discrete Continuous
Discriminative Auto-encoding
話者間の距離を無視音声特徴量が近い≠知覚的に近い

/30
クラウドソーシングを利用した話者類似度評価
16
4000名超によるスコアリング
[Saito19]

/3017
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
話者の配置は類似度スコアを用いた多次元尺度構成法で決定
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127
[Saito19]

/30
話者情報の行列埋め込み
18
𝑺
Matrix
representation
Kernelized
Gram
matrix
Speaker vector
Minimize for
DNN training
𝑲 − 𝑺 𝐹
2
𝑲
話者ベクトル間距離が知覚的距離に一致するようにDNNを学習
→ 知覚的距離に相関する話者ベクトルが得られる(はず)
[Saito19]

/30
話者空間の距離と知覚的な距離の相関
19
Speaker-vector distance
Perceptualdistance
Conventional
Proposed
(vec. embed)
Proposed
(mat. embed)
Proposed
(mat. embed’)
Open
speakers
Closed
speakers
Far Close
DissimilarSimilar
オープンな話者に対しても
知覚的距離に相関する話者ベクトルが得られる
[Saito19]

/30
考察
 簡潔に言えば
– 埋め込み空間における距離を，人間の感じる距離に対応させる
 「人間は相対差を見つける方が得意」なことを利用
– 音声に関する絶対評価（例えば，かっこよさ・かわいさ）値は，
同一評価者でも安定しにくい
– 2つのサンプル間の評価は比較的安定
 2つのベクトルを補間しても頑健に動く（人間らしい声になる）
20

敵対的学習における利用
[Fujii19arXiv] (更なる詳細はIBIS2019@名古屋で!)
21

/30
実在データ分布と知覚分布
 GAN (敵対的生成ネットワーク) [Goodfellow14]
– 複雑な確率分布を表現する深層生成モデル
– 実在データ(学習データ)と生成データを識別する識別器を騙して学習
 人間が許容できるのは実在データ分布だけか？
– 人間はメディアの逸脱に対して許容範囲を持つ
• 例：ボイスチェンジャで非実在の音声を作っても，我々はそれに
人格を認めることができる
– GANではこの範囲を表現できない
– 人間を騙せばよいのでは．
22
人間の許容できるデータの範囲 (=知覚分布) を
表現できるGANは作れるか？

/30
GANと人間GAN
23
Prior
distr.
Generated
data
Generator Discriminator
Natu-
ral
Train to fool computer-based
discriminator.
GAN
Training
Distribution of training data
Generation
Crowdworkers
Natu-
ral
Train to fool crowdworkers
(= crowd-based discriminator).
HumanGAN (proposed)
Training
Distribution of human perception
Generation
[Fujii19]

/30
GAN：DNNで記述される識別器を騙す
24
Natural
Generated
⋯
⋯
⋯
⋯
Generator
Natural
Generated
Discri-
minator
Prior
distr.
生成モデルも識別モデルも微分可能なので，
backpropagation で学習可能
[Goodfellow14]

/30
人間の知覚する話者性(明るいほど「人間らし
い声」と主観的に評価された合成音声)
25
1st dim. of speech feature
2nddim.ofspeechfeature
実在音声の分布
(GANで表現可能)
知覚分布
(GANで表現不可．
人が評価しないと
分からない)
生成モデルは微分可能だが識別モデル (=人間) は微分不可能．
どうやって生成モデルを学習する？
[Fujii19]

/30
人間を「事後確率差分を出力するblack-box」と
みなし，勾配を近似
26
生成データに微少な摂動を加え，摂動の影響を人間に評価させる．
それらの比で勾配を近似して生成モデルを学習
[Fujii19]

/30
人間GAN：人間で記述される識別器を騙す
27
⋯
⋯
⋯
⋯
Generator
Generated
Prior
distr.
Crowdworkers
* 学習時にカラーマップを使用しないことに注意
[Fujii19]

/30
考察
 学習データは一切登場しない
– 識別モデル（人間）は学習済みのため
– (「これまで人間が観測したメディア」が学習データ？)
 Human-in-the-loop 型機械学習技術
– データの観測だけでは解決できない人間の感性をモデル化できる？
 スケーラビリティの問題は未解決
– プログラムの for loop で，GPUではなく人間が働く
– データ数・次元数による金銭的負担の増大が課題
28

/30
まとめと今後の展望
 まとめ：人間を活用した音声研究
– 話者埋め込みにおける利用
– 敵対的生成ネットワークにおける利用
 今後の展望
– Human-in-the-loop 深層学習の進化
– 総務省SCOPE「ストレスフリーリアルタイム音声変換」(2019~)
• ボイスチェンジ音声をユーザにリアルタイムフィードバックして
「自分の聴く自分の声」を制御，人間の制御へ
30
JVSコーパス
100名の声優・俳優さんによる音声コーパス．テキスト・話者間類似度付き．
End-to-end音声処理ツール ESPnet にレシピあり．

人間を利用する音声言語処理の試み（NL研究会招待講演）

Recommended

Recommended

More Related Content

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (12)