SlideShare a Scribd company logo
Onoma-to-wave:
オノマトペを利⽤した環境⾳合成⼿法の提案
☆ 岡本 悠希1,井本 桂右2,1,⾼道 慎之介3,⼭⻄ 良典4,1,福森 隆寛1,⼭下 洋⼀1
⽴命館⼤学1,同志社⼤学2,東⼤院3,関⻄⼤学4
Mar. 11, 2021
⽇本⾳響学会 2021年春季研究発表会 2-2-5
概要
背景︓
u 環境⾳を統計的に合成する技術に関する研究
ü 応⽤例︓背景⾳・効果⾳の作成,環境⾳認識のためのデータ拡張 etc.
u 従来の環境⾳合成では,⽣成⾳の多様性(⾳⾼や⾳⾊など)に⽋ける
u⽣成⾳の多様性を⾃由に制御可能な環境⾳合成⼿法の実現が⽬的
提案法︓
u 系列変換モデルを⽤いたオノマトペからの環境⾳合成
ü ⾳の特徴を模倣したオノマトペを⼊⼒とすることで⽣成⾳の多様性を制御
2/13
提案法により生成音の多様性の制御を実現!!
深層学習を用いた従来の環境音合成
u ⾳響イベントラベルを⼊⼒とする環境⾳合成 [Okamoto+, 2019]
「⾵の⾳」,「⾬⾳」といった⾳の種類を表すラベル
3/13
ベルの音
ひげ剃りの動作音
太鼓の音
笛の音
目覚まし時計の音
紙を引き裂く音
Input: Sound event label Output: synthesized sound
WaveNet
生成する音の種類(音響イベント)が制御可能
生成する音の多様性(音高,音色など)が制御困難
→ 環境音は同じ音響イベントでも音の特徴は多様
柔軟に生成音を制御できる手法が必要!
オノマトペからの環境音合成
u オノマトペは⾳の特徴を表現する⼿段として有効
ü オノマトペ︓⾳の特徴を⾃然⾔語を使⽤して表現したもの(例︓カンカンカン)
ü 環境⾳の検索など幅広い⽤途で使⽤されてる
u オノマトペを⼊⼒とすることで⾳の多様性の制御を期待
ü オノマトペにより⾳⾼や⾳⾊の違いを表現
4/13
図1:オノマトペを入力とする環境音合成の概要
カンカンカンカン ザァー
ブロロロロ
Input: オノマトペ
環境音合成モデル
Output: 合成された環境音
ピー ビイイイ
同じ笛の音でも吹き方によって音の特徴
(音高,音色など)は多様に存在
オノマトペを用いることで音の特徴を表現可能
図2:オノマトペで制御が期待できる音情報の例
提案法の概要
5/13
⾳響特徴量を波形に復元
本研究ではGriffin-Limアルゴリズムを利⽤
⾳響モデルとオノマトペより⾳響特徴量を推定
⾳響特徴量として振幅スペクトログラムを使⽤
学習部において⾳響モデルを作成
オノマトペと⾳響特徴量の対応関係を深層学習にて学習
図3:環境音合成システムの概要
モデル学習
音響モデル
環境音データ オノマトペ
学習部
波形生成
合成音
オノマトペ
合成部
音響特徴量抽出 オノマトペを音素列に変換
音響特徴量推定 オノマトペを音素列に変換
カンカンカン
提案①:オノマトペのみを入力とするモデル学習
u オノマトペのみを⼊⼒とする環境⾳合成の⼿法
ü ⾳⾼や⾳⾊など⾳の多様性の制御を期待
u Sequence-to-sequence学習の利⽤
ü ⼊出⼒の系列間の関係性を学習
ü Encoder-Decoderより構成
• Encoder
• ⼊⼒されたオノマトペより特徴ベクトルを抽出
• Decoder
• Encoderで抽出された特徴ベクトルより⾳響特徴量を推定
6/13
Input: Onomatopoeia
LSTM
Bi-directional
LSTM
<BOS> O1
O2
O3
Output: Acoustic features
O1
O2
O3
<EOS>
LSTM
k / a / N / k / a / N / k / a / N
Encoder
Decoder
図4:オノマトペのみを入力とするモデル学習の概要
提案②:オノマトペ + 音響イベントラベル
を入力とするモデル学習
u オノマトペだけでは音響イベントの種類を制御困難
ü 同一オノマトペが複数の音響イベントに対応することもある
• e.g.) ⾵船が割れる⾳「パン」
ピストルの⾳ 「パン」
uオノマトペに加え⾳響イベントラベルも使⽤
ü Encoderの出⼒に⾳響イベントの情報を付加
• ⾳響イベントラベルをOne-hot表現して利⽤
7/13
図5:オノマトペ + 音響イベントラベル を入
力とするモデル学習
オノマトペのみを⼊⼒とする
とどちらの⾳響イベントの⾳
か制御困難
Input: Onomatopoeia
LSTM
Bi-directional
LSTM
<BOS>
Output: Acoustic features
LSTM
Fully
connected
Concat
c
Sound
Event
label
Event label Conditioning
Fully
connected
Concat
k / a / N / k / a / N / k / a / N
Encoder
Decoder
l1
l2
l3
l4
l5
lT
o1
o2
o3
oT'
o1
o2
oT'-1
音響イベントの種類の制御を期待
合成音の品質に関する評価実験
u 主観評価実験を実施
ü 実験Ⅰ︓環境⾳の品質に関する評価
ü 実験Ⅱ︓オノマトペに対する環境⾳の評価
ü 実験Ⅲ︓⾳響イベントラベルを加えることによる⽣成⾳の変化の検証
u 各実験における1⼿法あたりの評価数
ü 実験Ⅰ︓1,500サンプル(50⾳×30⼈)
ü 実験Ⅱ︓3,000サンプル(100⾳×30⼈)
ü 実験Ⅲ︓1,300サンプル(26⾳×50⼈)
u モデル学習に使⽤したデータセット
ü ⾳データ︓RWCP 実環境⾳声・⾳響データベース[Nakamura+, 1999]
• 合計950⾳ (10種類×95⾳)
ü オノマトペ︓RWCP-SSD-Onomatopoeia [Okamoto+, 2020]
• 合計14,250個のオノマトペを使⽤ (950⾳×15オノマトペ)
8/13
表2:実験条件
表1:使用した音響イベント
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
W
a
v
e
N
e
t
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
MOS
score
on
naturalness
非常に自然である
非常に不自然である
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
○
-
システムへの入力
実験Ⅰ:環境音の品質に関する評価
9/13
WaveNetによる合成音と同程度の品質を獲得
図6:環境音の全体的な印象に関する平均スコアと標準偏差 図7:環境音の自然性に関する平均スコアと標準偏差
u 内容︓⾳を被験者に提⽰し,各指標5段階で評価
Natural sounds:
・データセットに含まれる⾳
WaveNet:
・⾳響イベントラベルのみを⼊⼒とする⼿法
KanaWave:
・オノマトペから環境⾳を⽣成する従来法
・オノマトペと環境⾳が1対1で対応づいており,
波形接続のような⽅式で⾳を⽣成
Seq2Seq:
・オノマトペのみを⼊⼒とした提案⼿法
Seq2Seq + Event Conditioning︓
・オノマトペと⾳響イベントラベルを⼊⼒とし
た提案⼿法
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
W
a
v
e
N
e
t
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
MOS
score
on
overall
impression
非常に良い
非常に悪い
Natural Sound
Conventional
Proposed
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
○
-
システムへの入力
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
Expressiveness
score
非常に表現できている
非常に表現できていない
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
システムへの入力
実験Ⅱ:オノマトペに対する環境音の評価
10/13
u 内容︓オノマトペと⾳を被験者に提⽰し,各指標5段階で評価
Natural sounds:
・データセットに含まれる⾳
KanaWave:
・オノマトペから環境⾳を⽣成する従来法
Seq2seq:
・オノマトペのみを⼊⼒とした提案⼿法
Seq2seq + Event Conditioning︓
・オノマトペと⾳響イベントラベルを⼊⼒
とした提案⼿法
従来法 (KanaWave)よりも許容度,表現性ともに高いスコアを獲得
図9:オノマトペに対する環境音の表現性の平均スコアと標準偏差
図8:オノマトペに対する環境音の許容度の平均と標準偏差
⼊⼒オノマトペ︓「ティリリリリリンッ」
⾳響イベント︓「⽬覚まし時計の⾳」
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
Acceptance
score
Natural Sound
Conventional
Proposed
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
システムへの入力
非常に許容できる
非常に許容できない
実験Ⅲ:音響イベントラベルを加えることによる生成音の変化
の検証
11/13
u 内容︓被験者に⾳を提⽰し,10種類の⾳響イベントラベルから最も当てはまる
と思うラベル1つ選択してもらう
音響イベントラベルも使用することで同一オノマトペから様々な音響イベントを表現可能!!
図10:提案手法における各生成音に対して付与された音響イベントラベルの分布
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
Percentage
of
each
sound
event
label
(%)
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
Sound synthesized by seq2seq with event labels
Sound synthesized by seq2seq
Input onomatopoeia: / b i b i b i b i b i /
Input onomatopoeia: / c h i: q / Input Onomatopoeia: / d u: N /
Input onomatopoeia: / sh a r i sh a r i /
Sound event label: Drum, Trashbox
Sound event label: Clock1, Tearing, Maracas, Coffmill
Sound event label: Shaver, Trashbox
Sound event label: Cup1, Shaver, Tearing, Whistle3
同一オノマトペに対する生成音の多様性に関する分析
12/13
音響イベントラベルを加えることで複数の音響イベントを表現可能に!!
図11:オノマトペ 「ビーイッ」を入力とした各手法における生成音のスペクトログラム
同一オノマトペに対しては類似した音ば
かり生成される
複数の音響イベントを表現できない
音響イベントラベルも用いる
ことで音響イベントの種類の
制御が可能に!!
Natural sound
Whistle3 Shaver Tearing paper
Frequency
(kHz)
0.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.0 1.5
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
Synthesized sound by Seq2Seq with event labels
Whistle3 Shaver Tearing paper
Frequency
(kHz)
0.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.0 1.5
Time (s)
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
Synthesized sound by Seq2Seq
Frequency
(kHz)
0.0 0.5 1.0
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0.0 0.5 1.0 0.0 0.5 1.0
0
1
2
3
4
5
6
7
8
まとめ
u オノマトペからの環境⾳合成⼿法を提案
ü ⼿法①︓オノマトペのみを⼊⼒とする合成⼿法
ü オノマトペを表現した⾳の⽣成を実現
ü ⼿法②︓オノマトペと⾳響イベントラベルを⼊⼒とする⼿法
ü オノマトペでの制御に加え,⾳響イベントの制御も可能に︕︕
u 環境⾳に対する品質評価にて,従来法よりも⾼い合成品質を獲得
u オノマトペに対する環境⾳の評価にて,従来法より⾼いスコアを獲得
⾳響イベントごとに⽣成⾳の詳細な分析を⾏う
13/13
今後の予定
https://y-okamoto1221.github.io/IJCNN_Demonstration_jp/
生成音のデモ

More Related Content

What's hot

ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World ModelsDeep Learning JP
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 

What's hot (20)

ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 

Similar to Onoma-to-wave: オノマトペを利用した環境音合成手法の提案

英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチKosuke Sugai
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vcYuki Saito
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理Takaaki Saeki
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法Yuma Koizumi
 

Similar to Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 (9)

英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Slp201702
Slp201702Slp201702
Slp201702
 
キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法
 

Recently uploaded

部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員Sadaomi Nishi
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayersToru Tamaki
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...atsushi061452
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationToru Tamaki
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizesatsushi061452
 
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑Akihiro Kadohata
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)keikoitakurag
 
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )iwashiira2ctf
 
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521Satoshi Makita
 
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一瑛一 西口
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptxssuserbefd24
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdfAyachika Kitazaki
 

Recently uploaded (12)

部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
 
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )
 
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
 
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
 

Onoma-to-wave: オノマトペを利用した環境音合成手法の提案