Onoma-to-wave:
オノマトペを利⽤した環境⾳合成⼿法の提案
☆ 岡本 悠希1,井本 桂右2,1,⾼道 慎之介3,⼭⻄ 良典4,1,福森 隆寛1,⼭下 洋⼀1
⽴命館⼤学1,同志社⼤学2,東⼤院3,関⻄⼤学4
Mar. 11, 2021
⽇本⾳響学会 2021年春季研究発表会 2-2-5
概要
背景︓
u 環境⾳を統計的に合成する技術に関する研究
ü 応⽤例︓背景⾳・効果⾳の作成,環境⾳認識のためのデータ拡張 etc.
u 従来の環境⾳合成では,⽣成⾳の多様性(⾳⾼や⾳⾊など)に⽋ける
u⽣成⾳の多様性を⾃由に制御可能な環境⾳合成⼿法の実現が⽬的
提案法︓
u 系列変換モデルを⽤いたオノマトペからの環境⾳合成
ü ⾳の特徴を模倣したオノマトペを⼊⼒とすることで⽣成⾳の多様性を制御
2/13
提案法により生成音の多様性の制御を実現!!
深層学習を用いた従来の環境音合成
u ⾳響イベントラベルを⼊⼒とする環境⾳合成 [Okamoto+, 2019]
「⾵の⾳」,「⾬⾳」といった⾳の種類を表すラベル
3/13
ベルの音
ひげ剃りの動作音
太鼓の音
笛の音
目覚まし時計の音
紙を引き裂く音
Input: Sound event label Output: synthesized sound
WaveNet
生成する音の種類(音響イベント)が制御可能
生成する音の多様性(音高,音色など)が制御困難
→ 環境音は同じ音響イベントでも音の特徴は多様
柔軟に生成音を制御できる手法が必要!
オノマトペからの環境音合成
u オノマトペは⾳の特徴を表現する⼿段として有効
ü オノマトペ︓⾳の特徴を⾃然⾔語を使⽤して表現したもの(例︓カンカンカン)
ü 環境⾳の検索など幅広い⽤途で使⽤されてる
u オノマトペを⼊⼒とすることで⾳の多様性の制御を期待
ü オノマトペにより⾳⾼や⾳⾊の違いを表現
4/13
図1:オノマトペを入力とする環境音合成の概要
カンカンカンカン ザァー
ブロロロロ
Input: オノマトペ
環境音合成モデル
Output: 合成された環境音
ピー ビイイイ
同じ笛の音でも吹き方によって音の特徴
(音高,音色など)は多様に存在
オノマトペを用いることで音の特徴を表現可能
図2:オノマトペで制御が期待できる音情報の例
提案法の概要
5/13
⾳響特徴量を波形に復元
本研究ではGriffin-Limアルゴリズムを利⽤
⾳響モデルとオノマトペより⾳響特徴量を推定
⾳響特徴量として振幅スペクトログラムを使⽤
学習部において⾳響モデルを作成
オノマトペと⾳響特徴量の対応関係を深層学習にて学習
図3:環境音合成システムの概要
モデル学習
音響モデル
環境音データ オノマトペ
学習部
波形生成
合成音
オノマトペ
合成部
音響特徴量抽出 オノマトペを音素列に変換
音響特徴量推定 オノマトペを音素列に変換
カンカンカン
提案①:オノマトペのみを入力とするモデル学習
u オノマトペのみを⼊⼒とする環境⾳合成の⼿法
ü ⾳⾼や⾳⾊など⾳の多様性の制御を期待
u Sequence-to-sequence学習の利⽤
ü ⼊出⼒の系列間の関係性を学習
ü Encoder-Decoderより構成
• Encoder
• ⼊⼒されたオノマトペより特徴ベクトルを抽出
• Decoder
• Encoderで抽出された特徴ベクトルより⾳響特徴量を推定
6/13
Input: Onomatopoeia
LSTM
Bi-directional
LSTM
<BOS> O1
O2
O3
Output: Acoustic features
O1
O2
O3
<EOS>
LSTM
k / a / N / k / a / N / k / a / N
Encoder
Decoder
図4:オノマトペのみを入力とするモデル学習の概要
提案②:オノマトペ + 音響イベントラベル
を入力とするモデル学習
u オノマトペだけでは音響イベントの種類を制御困難
ü 同一オノマトペが複数の音響イベントに対応することもある
• e.g.) ⾵船が割れる⾳「パン」
ピストルの⾳ 「パン」
uオノマトペに加え⾳響イベントラベルも使⽤
ü Encoderの出⼒に⾳響イベントの情報を付加
• ⾳響イベントラベルをOne-hot表現して利⽤
7/13
図5:オノマトペ + 音響イベントラベル を入
力とするモデル学習
オノマトペのみを⼊⼒とする
とどちらの⾳響イベントの⾳
か制御困難
Input: Onomatopoeia
LSTM
Bi-directional
LSTM
<BOS>
Output: Acoustic features
LSTM
Fully
connected
Concat
c
Sound
Event
label
Event label Conditioning
Fully
connected
Concat
k / a / N / k / a / N / k / a / N
Encoder
Decoder
l1
l2
l3
l4
l5
lT
o1
o2
o3
oT'
o1
o2
oT'-1
音響イベントの種類の制御を期待
合成音の品質に関する評価実験
u 主観評価実験を実施
ü 実験Ⅰ︓環境⾳の品質に関する評価
ü 実験Ⅱ︓オノマトペに対する環境⾳の評価
ü 実験Ⅲ︓⾳響イベントラベルを加えることによる⽣成⾳の変化の検証
u 各実験における1⼿法あたりの評価数
ü 実験Ⅰ︓1,500サンプル(50⾳×30⼈)
ü 実験Ⅱ︓3,000サンプル(100⾳×30⼈)
ü 実験Ⅲ︓1,300サンプル(26⾳×50⼈)
u モデル学習に使⽤したデータセット
ü ⾳データ︓RWCP 実環境⾳声・⾳響データベース[Nakamura+, 1999]
• 合計950⾳ (10種類×95⾳)
ü オノマトペ︓RWCP-SSD-Onomatopoeia [Okamoto+, 2020]
• 合計14,250個のオノマトペを使⽤ (950⾳×15オノマトペ)
8/13
表2:実験条件
表1:使用した音響イベント
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
W
a
v
e
N
e
t
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
MOS
score
on
naturalness
非常に自然である
非常に不自然である
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
○
-
システムへの入力
実験Ⅰ:環境音の品質に関する評価
9/13
WaveNetによる合成音と同程度の品質を獲得
図6:環境音の全体的な印象に関する平均スコアと標準偏差 図7:環境音の自然性に関する平均スコアと標準偏差
u 内容︓⾳を被験者に提⽰し,各指標5段階で評価
Natural sounds:
・データセットに含まれる⾳
WaveNet:
・⾳響イベントラベルのみを⼊⼒とする⼿法
KanaWave:
・オノマトペから環境⾳を⽣成する従来法
・オノマトペと環境⾳が1対1で対応づいており,
波形接続のような⽅式で⾳を⽣成
Seq2Seq:
・オノマトペのみを⼊⼒とした提案⼿法
Seq2Seq + Event Conditioning︓
・オノマトペと⾳響イベントラベルを⼊⼒とし
た提案⼿法
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
W
a
v
e
N
e
t
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
MOS
score
on
overall
impression
非常に良い
非常に悪い
Natural Sound
Conventional
Proposed
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
○
-
システムへの入力
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
Expressiveness
score
非常に表現できている
非常に表現できていない
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
システムへの入力
実験Ⅱ:オノマトペに対する環境音の評価
10/13
u 内容︓オノマトペと⾳を被験者に提⽰し,各指標5段階で評価
Natural sounds:
・データセットに含まれる⾳
KanaWave:
・オノマトペから環境⾳を⽣成する従来法
Seq2seq:
・オノマトペのみを⼊⼒とした提案⼿法
Seq2seq + Event Conditioning︓
・オノマトペと⾳響イベントラベルを⼊⼒
とした提案⼿法
従来法 (KanaWave)よりも許容度,表現性ともに高いスコアを獲得
図9:オノマトペに対する環境音の表現性の平均スコアと標準偏差
図8:オノマトペに対する環境音の許容度の平均と標準偏差
⼊⼒オノマトペ︓「ティリリリリリンッ」
⾳響イベント︓「⽬覚まし時計の⾳」
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
Acceptance
score
Natural Sound
Conventional
Proposed
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
システムへの入力
非常に許容できる
非常に許容できない
実験Ⅲ:音響イベントラベルを加えることによる生成音の変化
の検証
11/13
u 内容︓被験者に⾳を提⽰し,10種類の⾳響イベントラベルから最も当てはまる
と思うラベル1つ選択してもらう
音響イベントラベルも使用することで同一オノマトペから様々な音響イベントを表現可能!!
図10:提案手法における各生成音に対して付与された音響イベントラベルの分布
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
Percentage
of
each
sound
event
label
(%)
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
Sound synthesized by seq2seq with event labels
Sound synthesized by seq2seq
Input onomatopoeia: / b i b i b i b i b i /
Input onomatopoeia: / c h i: q / Input Onomatopoeia: / d u: N /
Input onomatopoeia: / sh a r i sh a r i /
Sound event label: Drum, Trashbox
Sound event label: Clock1, Tearing, Maracas, Coffmill
Sound event label: Shaver, Trashbox
Sound event label: Cup1, Shaver, Tearing, Whistle3
同一オノマトペに対する生成音の多様性に関する分析
12/13
音響イベントラベルを加えることで複数の音響イベントを表現可能に!!
図11:オノマトペ 「ビーイッ」を入力とした各手法における生成音のスペクトログラム
同一オノマトペに対しては類似した音ば
かり生成される
複数の音響イベントを表現できない
音響イベントラベルも用いる
ことで音響イベントの種類の
制御が可能に!!
Natural sound
Whistle3 Shaver Tearing paper
Frequency
(kHz)
0.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.0 1.5
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
Synthesized sound by Seq2Seq with event labels
Whistle3 Shaver Tearing paper
Frequency
(kHz)
0.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.0 1.5
Time (s)
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
Synthesized sound by Seq2Seq
Frequency
(kHz)
0.0 0.5 1.0
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0.0 0.5 1.0 0.0 0.5 1.0
0
1
2
3
4
5
6
7
8
まとめ
u オノマトペからの環境⾳合成⼿法を提案
ü ⼿法①︓オノマトペのみを⼊⼒とする合成⼿法
ü オノマトペを表現した⾳の⽣成を実現
ü ⼿法②︓オノマトペと⾳響イベントラベルを⼊⼒とする⼿法
ü オノマトペでの制御に加え,⾳響イベントの制御も可能に︕︕
u 環境⾳に対する品質評価にて,従来法よりも⾼い合成品質を獲得
u オノマトペに対する環境⾳の評価にて,従来法より⾼いスコアを獲得
⾳響イベントごとに⽣成⾳の詳細な分析を⾏う
13/13
今後の予定
https://y-okamoto1221.github.io/IJCNN_Demonstration_jp/
生成音のデモ

Onoma-to-wave: オノマトペを利用した環境音合成手法の提案