SlideShare a Scribd company logo
Onoma-to-wave:
オノマトペを利⽤した環境⾳合成⼿法の提案
☆ 岡本 悠希1,井本 桂右2,1,⾼道 慎之介3,⼭⻄ 良典4,1,福森 隆寛1,⼭下 洋⼀1
⽴命館⼤学1,同志社⼤学2,東⼤院3,関⻄⼤学4
Mar. 11, 2021
⽇本⾳響学会 2021年春季研究発表会 2-2-5
概要
背景︓
u 環境⾳を統計的に合成する技術に関する研究
ü 応⽤例︓背景⾳・効果⾳の作成,環境⾳認識のためのデータ拡張 etc.
u 従来の環境⾳合成では,⽣成⾳の多様性(⾳⾼や⾳⾊など)に⽋ける
u⽣成⾳の多様性を⾃由に制御可能な環境⾳合成⼿法の実現が⽬的
提案法︓
u 系列変換モデルを⽤いたオノマトペからの環境⾳合成
ü ⾳の特徴を模倣したオノマトペを⼊⼒とすることで⽣成⾳の多様性を制御
2/13
提案法により生成音の多様性の制御を実現!!
深層学習を用いた従来の環境音合成
u ⾳響イベントラベルを⼊⼒とする環境⾳合成 [Okamoto+, 2019]
「⾵の⾳」,「⾬⾳」といった⾳の種類を表すラベル
3/13
ベルの音
ひげ剃りの動作音
太鼓の音
笛の音
目覚まし時計の音
紙を引き裂く音
Input: Sound event label Output: synthesized sound
WaveNet
生成する音の種類(音響イベント)が制御可能
生成する音の多様性(音高,音色など)が制御困難
→ 環境音は同じ音響イベントでも音の特徴は多様
柔軟に生成音を制御できる手法が必要!
オノマトペからの環境音合成
u オノマトペは⾳の特徴を表現する⼿段として有効
ü オノマトペ︓⾳の特徴を⾃然⾔語を使⽤して表現したもの(例︓カンカンカン)
ü 環境⾳の検索など幅広い⽤途で使⽤されてる
u オノマトペを⼊⼒とすることで⾳の多様性の制御を期待
ü オノマトペにより⾳⾼や⾳⾊の違いを表現
4/13
図1:オノマトペを入力とする環境音合成の概要
カンカンカンカン ザァー
ブロロロロ
Input: オノマトペ
環境音合成モデル
Output: 合成された環境音
ピー ビイイイ
同じ笛の音でも吹き方によって音の特徴
(音高,音色など)は多様に存在
オノマトペを用いることで音の特徴を表現可能
図2:オノマトペで制御が期待できる音情報の例
提案法の概要
5/13
⾳響特徴量を波形に復元
本研究ではGriffin-Limアルゴリズムを利⽤
⾳響モデルとオノマトペより⾳響特徴量を推定
⾳響特徴量として振幅スペクトログラムを使⽤
学習部において⾳響モデルを作成
オノマトペと⾳響特徴量の対応関係を深層学習にて学習
図3:環境音合成システムの概要
モデル学習
音響モデル
環境音データ オノマトペ
学習部
波形生成
合成音
オノマトペ
合成部
音響特徴量抽出 オノマトペを音素列に変換
音響特徴量推定 オノマトペを音素列に変換
カンカンカン
提案①:オノマトペのみを入力とするモデル学習
u オノマトペのみを⼊⼒とする環境⾳合成の⼿法
ü ⾳⾼や⾳⾊など⾳の多様性の制御を期待
u Sequence-to-sequence学習の利⽤
ü ⼊出⼒の系列間の関係性を学習
ü Encoder-Decoderより構成
• Encoder
• ⼊⼒されたオノマトペより特徴ベクトルを抽出
• Decoder
• Encoderで抽出された特徴ベクトルより⾳響特徴量を推定
6/13
Input: Onomatopoeia
LSTM
Bi-directional
LSTM
<BOS> O1
O2
O3
Output: Acoustic features
O1
O2
O3
<EOS>
LSTM
k / a / N / k / a / N / k / a / N
Encoder
Decoder
図4:オノマトペのみを入力とするモデル学習の概要
提案②:オノマトペ + 音響イベントラベル
を入力とするモデル学習
u オノマトペだけでは音響イベントの種類を制御困難
ü 同一オノマトペが複数の音響イベントに対応することもある
• e.g.) ⾵船が割れる⾳「パン」
ピストルの⾳ 「パン」
uオノマトペに加え⾳響イベントラベルも使⽤
ü Encoderの出⼒に⾳響イベントの情報を付加
• ⾳響イベントラベルをOne-hot表現して利⽤
7/13
図5:オノマトペ + 音響イベントラベル を入
力とするモデル学習
オノマトペのみを⼊⼒とする
とどちらの⾳響イベントの⾳
か制御困難
Input: Onomatopoeia
LSTM
Bi-directional
LSTM
<BOS>
Output: Acoustic features
LSTM
Fully
connected
Concat
c
Sound
Event
label
Event label Conditioning
Fully
connected
Concat
k / a / N / k / a / N / k / a / N
Encoder
Decoder
l1
l2
l3
l4
l5
lT
o1
o2
o3
oT'
o1
o2
oT'-1
音響イベントの種類の制御を期待
合成音の品質に関する評価実験
u 主観評価実験を実施
ü 実験Ⅰ︓環境⾳の品質に関する評価
ü 実験Ⅱ︓オノマトペに対する環境⾳の評価
ü 実験Ⅲ︓⾳響イベントラベルを加えることによる⽣成⾳の変化の検証
u 各実験における1⼿法あたりの評価数
ü 実験Ⅰ︓1,500サンプル(50⾳×30⼈)
ü 実験Ⅱ︓3,000サンプル(100⾳×30⼈)
ü 実験Ⅲ︓1,300サンプル(26⾳×50⼈)
u モデル学習に使⽤したデータセット
ü ⾳データ︓RWCP 実環境⾳声・⾳響データベース[Nakamura+, 1999]
• 合計950⾳ (10種類×95⾳)
ü オノマトペ︓RWCP-SSD-Onomatopoeia [Okamoto+, 2020]
• 合計14,250個のオノマトペを使⽤ (950⾳×15オノマトペ)
8/13
表2:実験条件
表1:使用した音響イベント
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
W
a
v
e
N
e
t
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
MOS
score
on
naturalness
非常に自然である
非常に不自然である
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
○
-
システムへの入力
実験Ⅰ:環境音の品質に関する評価
9/13
WaveNetによる合成音と同程度の品質を獲得
図6:環境音の全体的な印象に関する平均スコアと標準偏差 図7:環境音の自然性に関する平均スコアと標準偏差
u 内容︓⾳を被験者に提⽰し,各指標5段階で評価
Natural sounds:
・データセットに含まれる⾳
WaveNet:
・⾳響イベントラベルのみを⼊⼒とする⼿法
KanaWave:
・オノマトペから環境⾳を⽣成する従来法
・オノマトペと環境⾳が1対1で対応づいており,
波形接続のような⽅式で⾳を⽣成
Seq2Seq:
・オノマトペのみを⼊⼒とした提案⼿法
Seq2Seq + Event Conditioning︓
・オノマトペと⾳響イベントラベルを⼊⼒とし
た提案⼿法
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
W
a
v
e
N
e
t
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
MOS
score
on
overall
impression
非常に良い
非常に悪い
Natural Sound
Conventional
Proposed
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
○
-
システムへの入力
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
Expressiveness
score
非常に表現できている
非常に表現できていない
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
システムへの入力
実験Ⅱ:オノマトペに対する環境音の評価
10/13
u 内容︓オノマトペと⾳を被験者に提⽰し,各指標5段階で評価
Natural sounds:
・データセットに含まれる⾳
KanaWave:
・オノマトペから環境⾳を⽣成する従来法
Seq2seq:
・オノマトペのみを⼊⼒とした提案⼿法
Seq2seq + Event Conditioning︓
・オノマトペと⾳響イベントラベルを⼊⼒
とした提案⼿法
従来法 (KanaWave)よりも許容度,表現性ともに高いスコアを獲得
図9:オノマトペに対する環境音の表現性の平均スコアと標準偏差
図8:オノマトペに対する環境音の許容度の平均と標準偏差
⼊⼒オノマトペ︓「ティリリリリリンッ」
⾳響イベント︓「⽬覚まし時計の⾳」
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
Acceptance
score
Natural Sound
Conventional
Proposed
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
システムへの入力
非常に許容できる
非常に許容できない
実験Ⅲ:音響イベントラベルを加えることによる生成音の変化
の検証
11/13
u 内容︓被験者に⾳を提⽰し,10種類の⾳響イベントラベルから最も当てはまる
と思うラベル1つ選択してもらう
音響イベントラベルも使用することで同一オノマトペから様々な音響イベントを表現可能!!
図10:提案手法における各生成音に対して付与された音響イベントラベルの分布
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
Percentage
of
each
sound
event
label
(%)
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
Sound synthesized by seq2seq with event labels
Sound synthesized by seq2seq
Input onomatopoeia: / b i b i b i b i b i /
Input onomatopoeia: / c h i: q / Input Onomatopoeia: / d u: N /
Input onomatopoeia: / sh a r i sh a r i /
Sound event label: Drum, Trashbox
Sound event label: Clock1, Tearing, Maracas, Coffmill
Sound event label: Shaver, Trashbox
Sound event label: Cup1, Shaver, Tearing, Whistle3
同一オノマトペに対する生成音の多様性に関する分析
12/13
音響イベントラベルを加えることで複数の音響イベントを表現可能に!!
図11:オノマトペ 「ビーイッ」を入力とした各手法における生成音のスペクトログラム
同一オノマトペに対しては類似した音ば
かり生成される
複数の音響イベントを表現できない
音響イベントラベルも用いる
ことで音響イベントの種類の
制御が可能に!!
Natural sound
Whistle3 Shaver Tearing paper
Frequency
(kHz)
0.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.0 1.5
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
Synthesized sound by Seq2Seq with event labels
Whistle3 Shaver Tearing paper
Frequency
(kHz)
0.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.0 1.5
Time (s)
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
Synthesized sound by Seq2Seq
Frequency
(kHz)
0.0 0.5 1.0
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0.0 0.5 1.0 0.0 0.5 1.0
0
1
2
3
4
5
6
7
8
まとめ
u オノマトペからの環境⾳合成⼿法を提案
ü ⼿法①︓オノマトペのみを⼊⼒とする合成⼿法
ü オノマトペを表現した⾳の⽣成を実現
ü ⼿法②︓オノマトペと⾳響イベントラベルを⼊⼒とする⼿法
ü オノマトペでの制御に加え,⾳響イベントの制御も可能に︕︕
u 環境⾳に対する品質評価にて,従来法よりも⾼い合成品質を獲得
u オノマトペに対する環境⾳の評価にて,従来法より⾼いスコアを獲得
⾳響イベントごとに⽣成⾳の詳細な分析を⾏う
13/13
今後の予定
https://y-okamoto1221.github.io/IJCNN_Demonstration_jp/
生成音のデモ

More Related Content

What's hot

深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
 
DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器
hirono kawashima
 

What's hot (20)

深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器
 

Similar to Onoma-to-wave: オノマトペを利用した環境音合成手法の提案

英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
Kosuke Sugai
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
Yuki Saito
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 
Slp201702
Slp201702Slp201702
Slp201702
Yuki Saito
 
キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法
Yuma Koizumi
 

Similar to Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 (9)

英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Slp201702
Slp201702Slp201702
Slp201702
 
キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法
 

Recently uploaded

単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 

Recently uploaded (15)

単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 

Onoma-to-wave: オノマトペを利用した環境音合成手法の提案