SlideShare a Scribd company logo
1 of 39
名古屋大学
情報基盤センター/情報科学研究科
音情報処理における特徴表現
戸田 智基
2016年8月3日
010000111・・・0
音信号 特徴表現 音情報処理
認識,変換,合成・・・
名古屋大学
情報基盤センター/情報科学研究科
音情報処理における特徴表現
戸田 智基
2016年8月3日
010000111・・・0
音信号 特徴表現 音情報処理
認識,変換,合成・・・
略歴:
1999 名古屋大学 工学部 卒
2003 奈良先端大 博士後期課程了
2003 学振特別研究員-PD
(ATR,CMU,名古屋工業大学)
2005 奈良先端大 助手(⇒助教)
2011 奈良先端大 准教授
2015 名古屋大学 教授
研究分野:
音情報処理
- 音声言語情報処理
(特に,音声変換や音声合成)
- 音楽情報処理
- 音響イベント処理
画像・音情報処理における特徴表現
1
物理性質を表す
特徴表現
勾配(変化)の
特徴表現
集積の
特徴表現
データに基づく
識別的な
特徴表現
反射の表現(BRDF)
画像局所特徴
(SIFT,二値特徴量)
局所特徴の集合
表現(BoF)
機械学習による
• 特徴選択
( (Harr-like + Adaboost)
• 特徴獲得(Deep Learning)
画像情報処理音学シンポで 音情報処理
?
MIRUで
?
?
?
音声波形
a r a y u rsil u g e N j i ts u
音素系列
あらゆる 現実無音
単語系列
はじめに・・・音信号の特徴
文 「あらゆる現実を全て自分の方へ・・・」
• 一例として音声に着目すると・・・
• 時系列データである.
• 確率的なゆらぎを持つ.
• 内部に階層的な構造を持つ.
などなど・・・
2
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
3
(固定次元)
系列特徴量
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
3
(固定次元)
系列特徴量
スペクトル包絡
周波数
パワー
1. 物理性質:生成過程を考慮する
• 短時間フレーム分析
• 短時間区間において定常性を仮定して特徴量を抽出
)(zH
)(ne
)(*)()( nenhnx 
励振源周期音源
非周期音源
音信号
音源生成(ソース)部 共振(フィルタ)部



 M
m
m
zmc
K
zH
1
)(1
)(
線形時不変フィルタ



M
m
m
zmczH
0
)(exp)(
時間
周波数
基本周波数
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/ 4
線形予測分析
ケプストラム分析
切り出し
[板倉 他, 1966]
[今井 他, 1987]
生成過程を考慮すると何ができる?
• 物理性質に沿った変形をパラメータに与えることで
直感的な音声加工処理が可能
5
リアルタイム
音声変換ソフト(Herium)
名城大学 坂野秀樹先生作
音源生成部パラメータ(基本周波数)
間隔を短くすると
長くすると
高い声になる!
低い声になる!
時間
時間
時間
周波数軸を
伸ばすと
縮めると
太い声に(声道長が
長く)なる!
周波数
パワー
周波数
パワー
周波数
パワー
共振部パラメータ(スペクトル包絡)
子供っぽい声に
(声道長が短く)なる!
周波数
時間
振幅スペクトル
• 低周波数帯域を重視
• オールパスフィルタによる周波数軸伸縮
• メルフィルタバンク
2. 物理性質:聴覚特性を考慮する
伸縮後の周波数(rad)
周波数 (rad)
伸縮関数
メルスケール


2

0 2/
フィルタバンク出力
1
周波数
※HTS Slides より一部引用
http://hts.sp.nitech.ac.jp/
※豊橋技科大 山本一公先生の資料から引用
http://www.slp.cs.tut.ac.jp/~kyama/Lecture/AdvSLP/slide/AdvSLP_02.pdf
パワー
周波数 周波数
パワー
メルフィルタバンク出力
バンクID
時間
6
MFCC (Mel-Frequency
Cepstral Coefficient)
[Oppenheim et al., 1972]
[Davis et al., 1980]
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
(3)
(固定次元)
系列特徴量
2. 変化:局所的時間変化を捉える
• 特徴量のセグメント化(各時間フレームにて隣接フレームの結合)
• 各時間フレーム付近における特徴量の時間変化を表現
• 特徴量の次元数は結合フレーム数倍へと増加!
t-1 t
tx 1tx 2tx1tx2tx
7
t+1
=
結合
to
2. 変化:局所的時間変化を捉える
• 特徴量のセグメント化(各時間フレームにて隣接フレームの結合)
• 各時間フレーム付近における特徴量の時間変化を表現
• 特徴量の次元数は結合フレーム数倍へと増加!
• 動的(デルタ)特徴量の利用:関数フィッティング [Furui, 1981]
t-1 t
tx 1tx 2tx1tx2tx
tx
tx
tx
to 1to2to 1to 2to


線形変換
7
t+1
t
0-1-2 1 2
tt bfx  )0(
tt afx 2)0(  
ttt cbaf   2
)(二次関数:
一次微分:
二次微分:
前後2フレーム
(計5フレーム)
を使う場合の例
=
結合
?
局所的時間変化を捉えると何ができる?
• 適切に変化する特徴量系列の合成/変換処理が可能
8
TXtX2X1X
Tyˆ1
ˆy 2
ˆy tyˆ
入力特徴量系列
(テキスト,音声,など)
予測分布系列 1y 2y ty Ty
1y 2y ty Ty
変換特徴量系列
?
局所的時間変化を捉えると何ができる?
• 適切に変化する特徴量系列の合成/変換処理が可能
8
TXtX2X1X
Tyˆ1
ˆy 2
ˆy tyˆ
   

T
t
ttttT pp
T
1
,,
1 ||maxargˆ,,ˆ
1
XyXyyy
yy 

目標特徴量に
対する予測分布
局所的変化特徴量
に対する予測分布
特徴量系列の関数
変換
特徴量系列
生成処理 [Tokuda et al., 1995]
入力特徴量系列
(テキスト,音声,など)
予測分布系列 1y 2y ty Ty
フレーム毎に
予測しても・・・
系列単位の
予測が可能!
リアルタイム
統計的音声変換ソフト
奈良先端科学技術大学院大学
小林和弘さん作
1y 2y ty Ty
変換特徴量系列
 TTp XXyy ,,|,, 11 
2. 変化:大局的時間変動量を捉える
• 特徴量系列全体における変動量を抽出
0 1 2 3
Time [sec]
特徴量系列 特徴量の各次元における分散
 考慮しない:誤差,音質
(=特徴量系列に対する非線形
変換により得られる特徴量)
9
   

T
t
tt pp
T
1
,,1
maxarg yy
yy 
     ),,(maxarg 1
1
,,1
T
T
t
tt fppp
T
yyyy
yy




 考慮する:誤差,音質
[Toda et al., 2007]
2. 変化:大局的時間変動量を捉える
• 特徴量系列全体における変動量を抽出
0 1 2 3
Time [sec]
特徴量系列
変調周波数
0 Hz
0.25 Hz
0.5 Hz
~ Hz




=…
特徴量の各次元における分散
 考慮しない:誤差,音質
特徴量系列の変調スペクトル
へと拡張
(特徴量系列を各変調周波数
成分に分解して分散を計算)
(=特徴量系列に対する非線形
変換により得られる特徴量)
9
   

T
t
tt pp
T
1
,,1
maxarg yy
yy 
     ),,(maxarg 1
1
,,1
T
T
t
tt fppp
T
yyyy
yy




 考慮する:誤差,音質
[Toda et al., 2007]
[Takamichi et al., 2016]
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
(3)
(固定次元)
系列特徴量
• 系列中のフレーム特徴量は独立同分布に従うと仮定
• 混合正規分布モデル(GMM)による確率密度のモデル化
• 例:音声の話者性を捉える特徴量を抽出
3. 集積:フレーム特徴量を集積する
       

T
t
M
m
m
s
m
s
tm
T
t
ss
t
ss
T
s
PP
1 1
)()(
1
)()()()()(
1 ,;||,, Σμxλxλxx N
M個の正規分布の足し合わせ
= 音韻依存性を周辺化により緩和
話者 s の特徴量系列
(音韻・話者依存)
混合重み
(音韻依存)
平均ベクトル
(音韻・話者依存)
共分散行列
(音韻依存)
系列中の全ての
特徴量をまとめ上げ
10
• 系列中のフレーム特徴量は独立同分布に従うと仮定
• 混合正規分布モデル(GMM)による確率密度のモデル化
• 例:音声の話者性を捉える特徴量を抽出
• 平均ベクトルセットを系列単位の特徴量として使用
• 音韻系列が異なる場合,異なるモデル間で
各混合要素の対応をとるのは困難
3. 集積:フレーム特徴量を集積する
       

T
t
M
m
m
s
m
s
tm
T
t
ss
t
ss
T
s
PP
1 1
)()(
1
)()()()()(
1 ,;||,, Σμxλxλxx N
M個の正規分布の足し合わせ
= 音韻依存性を周辺化により緩和
話者 s の特徴量系列
(音韻・話者依存)
混合重み
(音韻依存)
平均ベクトル
(音韻・話者依存)
共分散行列
(音韻依存)
系列中の全ての
特徴量をまとめ上げ
音韻A
音韻B
音韻C
音韻C
音韻A
音韻C
?
10
3. 集積:因子分解を行う
スーパーベクトル
=平均ベクトルの連結
(音韻・話者依存)










































)(
)(
2
)(
1
)1(
)1(
2
)1(
1
,,
J
M
J
J
M b
b
b
b
b
b


 









)(
)(
1
s
J
s
w
w















)0(
)0(
2
)0(
1
Mb
b
b

(s)
バイアスベクトル
=平均的な話者性
(音韻依存)
+
重みベクトル
(話者依存)×
+×
基底ベクトルセット
=代表的な話者性
(音韻依存)
=
このベクトルのみを制御














)(
)(
2
)(
1
s
M
s
s
μ
μ
μ

=
=
+
11
(s)
• 平均ベクトルセットに対して制約を導入 [Dehak et al., 2011]
• 知覚的な情報を操作して特徴量系列を加工することが可能
例.多数の歌唱者の歌声データに対して知覚年齢を付与しておき・・・
知覚年齢を説明変数として平均ベクトルセットをモデル化すると・・・
知覚年齢操作を可能とするボーカルエフェクターが完成
系列単位の特徴を使うと何ができる?
15歳 50歳35歳
変換処理
知覚年齢若い声色 老いた声色
歌唱者 変換処理
12
(s)
+×=
(s)
35歳
50歳
[Kobayashi et al., 2014]
情報源と対応付け
複数フレームの連結
特徴表現を得る代表的なアプローチ
音信号
特徴量系列
1. 物理性質を考慮する!
2. 変化の特徴を捉える!
3. 系列全体で集積して
所望の情報を取り出す!
4. 最適な特徴表現を
自動的に獲得する!
(データに語らせる!)
セグメント
特徴量系列
短時間フレーム分析
記号系列 /n//o/ /s//i/
識別特徴量系列
情報処理の結果を反映
同時最適化
(3)
(固定次元)
系列特徴量
4. 特徴獲得:データから特徴表現を得る
• 後段の情報処理に適した特徴表現をデータから獲得
• (識別)精度が高くなるように特徴量を変換
/s/
セグメント
特徴量
変換関数
識別的
特徴量 精度評価情報処理
13
4. 特徴獲得:データから特徴表現を得る
• 後段の情報処理に適した特徴表現をデータから獲得
• (識別)精度が高くなるように特徴量を変換
• 線形変換の最適化
• 非線形変換の導入:複数線形変換の重み付け和
  

M
m
mtmtt mP
1
| bxAxy
/s/
混合正規分布モデル
による事後確率計算
各分布に依存した
線形変換
識別的
特徴量
bAxy  tt
入力特徴量
線形判別分析などで最適化
識別精度が向上
するように最適化
セグメント
特徴量
変換関数
識別的
特徴量 精度評価情報処理
13
音声認識における識別的特徴獲得
14
音素/a/
GMM
識別的特徴への変換関数
)|( tt sp y
)|( wyp
1x 2x 3x 4x
1y 2y 4y3y
音響モデル
• 単語列 w に対応した音響特徴量
系列 y をモデル化
• 隠れマルコフモデル(HMM)&GMM
  

M
m
mtmtt mP
1
| bxAxy
識別的
特徴量系列
セグメント
特徴量系列
HMM
音声認識における識別的特徴獲得
14
音素/a/
GMM
識別的特徴への変換関数
)|( tt sp y
)|( wyp
1x 2x 3x 4x
1y 2y 4y3y
音響モデル
• 単語列 w に対応した音響特徴量
系列 y をモデル化
• 隠れマルコフモデル(HMM)&GMM
)(wp 言語モデル
•単語列 w の生起確率をモデル化
• N-gram(マルコフモデル)
単語グラフ
認識処理
  

M
m
mtmtt mP
1
| bxAxy
識別的
特徴量系列
セグメント
特徴量系列
HMM
)|(maxarg yw
w
p
音声認識における識別的特徴獲得
14
音素/a/
GMM
識別的特徴への変換関数
)|( tt sp y
)|( wyp
)()|( )()( rr
pp wwy
  )|(ln; )(
ywwy r
pI 
w
wwy )()|( pp
正解単語系列に対する確率
候補単語系列に対する確率
相互情報量最大化基準による
変換関数最適化
1x 2x 3x 4x
1y 2y 4y3y
音響モデル
• 単語列 w に対応した音響特徴量
系列 y をモデル化
• 隠れマルコフモデル(HMM)&GMM
)(wp 言語モデル
•単語列 w の生起確率をモデル化
• N-gram(マルコフモデル)
単語グラフ
認識処理
  

M
m
mtmtt mP
1
| bxAxy
識別的
特徴量系列
セグメント
特徴量系列
HMM


w
wwy
wwy
)()|(
)()|(
ln
)()(
pp
pp rr
)|(maxarg yw
w
p
[Povey et al., 2008]
4. 特徴獲得:深層学習で同時最適化する
• 情報処理部と(特徴抽出用)変換関数を同時最適化
Productモデルによる高い表現力!
(隠れ層のノード数が N なら
分布数 2N 個の混合モデル!)
活性化(事後確率)
の共起関係をさらに
Productモデルで表現
セグメント
特徴量
変換関数
識別的
特徴量 精度評価情報処理
15
生成モデル
(無向グラフ)
としてみると・・・
4. 特徴獲得:深層学習で同時最適化する
• 情報処理部と(特徴抽出用)変換関数を同時最適化
Productモデルによる高い表現力!
(隠れ層のノード数が N なら
分布数 2N 個の混合モデル!)
記号(列)の事後確率
活性化(事後確率)
の共起関係をさらに
Productモデルで表現
出力層手前の特徴表現
入力層の特徴表現
※名古屋大学情報科学研究科
林知樹さんの修士論文から引用
セグメント
特徴量
変換関数
識別的
特徴量 精度評価情報処理
15
記号(列)の識別率が
高くなるように最適化
生成モデル
(無向グラフ)
としてみると・・・
深層学習が音声認識に与えたインパクト
1990年 2011年2000年
http://itl.nist.gov/iad/mig/publications/ASRhistory/index.html
音声認識性能評価の歴史
27.4%
単語誤り率(%)
L. Deng & D. Yu, “Deep Learning: Methods
and Applications,” Now Publishers , 2014.
16
Deepな
深層学習が音声認識に与えたインパクト
1990年 2011年2000年
http://itl.nist.gov/iad/mig/publications/ASRhistory/index.html
音声認識性能評価の歴史
27.4%
18.5%
単語誤り率(%)
L. Deng & D. Yu, “Deep Learning: Methods
and Applications,” Now Publishers , 2014.
16
Deepな
• 各フレームにおいて各HMM状態出力確率をDNNで推定(脱GMM)
• フレーム単位の多クラス分類問題としてDNNを学習
• 各フレームに対してHMM状態を割り当て
• クロスエントロピー最小化により最適化
研究動向1:ハイブリッドアプローチ
17
Deep Neural
Network (DNN)
音素/a/ 音素/r/
各HMM状態の
事後確率を推定
)(
)|(
)|(
t
tt
tt
sp
sp
sp
y
y HMM状態の出力確率密度:
DNNで直接推定
学習データから事前に計算
音素/a/音素/r/
出力確率:DNNでフレーム毎に計算
遷移確率:HMMにより計算
[Seide et al., 2011]
研究動向2:複雑なネットワーク構造へ
• Recurrent Neural Network (RNN) の導入
• 広範囲なフレーム間相関を考慮した
特徴量抽出の実現
• Long short-term memory (LSTM) による
最適化の実現
DNN
全結合層
識別的特徴量
へと変換
HMM状態事後確率
18
研究動向2:複雑なネットワーク構造へ
• Recurrent Neural Network (RNN) の導入
• 広範囲なフレーム間相関を考慮した
特徴量抽出の実現
• Long short-term memory (LSTM) による
最適化の実現
DNN
全結合層
識別的特徴量
へと変換
LSTM-RNN
LSTM-RNN
RNN層
時間変化の
モデル化
HMM状態事後確率
18
研究動向2:複雑なネットワーク構造へ
• Recurrent Neural Network (RNN) の導入
• 広範囲なフレーム間相関を考慮した
特徴量抽出の実現
• Long short-term memory (LSTM) による
最適化の実現
• Convolutional Neural Network (CNN) の導入
• 周波数方向のシフト(および時間方向の
変動)に頑健な特徴量抽出
• 各フレームのセグメント特徴量を入力
DNN
[Sainath et al., 2015]
全結合層
識別的特徴量
へと変換
LSTM-RNN
LSTM-RNN
RNN層
時間変化の
モデル化
CNN
CNN
畳み込み層
変動に頑健な
特徴抽出
HMM状態事後確率
畳み込み
部分サンプリング
画像情報処理の知見を活用!
18
研究動向3:系列レベルの最適化へ
• HMMとのハイブリッドシステムの性能改善
• これまでに培われた最適化手法を適用可能
• 系列レベルの識別学習
• 言語モデルも考慮した最適化が可能
19
HMM状態系列
特徴量系列
出力系列
[Vesely et al., 2013]
研究動向3:系列レベルの最適化へ
• HMMとのハイブリッドシステムの性能改善
• これまでに培われた最適化手法を適用可能
• 系列レベルの識別学習
• 言語モデルも考慮した最適化が可能
• HMMをRNNで置き換え(脱HMM)
• Connectionist Temporal Classification (CTC)
• 空文字を挿入することで系列長の違いを吸収
例.青い⇒/a o i/⇒/aφφ oφφ i/, /aφ o φφφ i/
/a oφφφφ i/, /aφφφφ o i/,・・・
• HMM同様Forward-Backwardアルゴリズムを適用可
19
HMM状態系列
特徴量系列
出力系列
拡張音素系列
特徴量系列
出力系列
[Vesely et al., 2013]
[Graves et al., 2006]
研究動向3:系列レベルの最適化へ
• HMMとのハイブリッドシステムの性能改善
• これまでに培われた最適化手法を適用可能
• 系列レベルの識別学習
• 言語モデルも考慮した最適化が可能
• HMMをRNNで置き換え(脱HMM)
• Connectionist Temporal Classification (CTC)
• 空文字を挿入することで系列長の違いを吸収
例.青い⇒/a o i/⇒/aφφ oφφ i/, /aφ o φφφ i/
/a oφφφφ i/, /aφφφφ o i/,・・・
• HMM同様Forward-Backwardアルゴリズムを適用可
• 特徴量系列から音素系列に変換(ブラックボックス化)
• AttentionベースEncoder-Decoderの適用
• 全処理をニューラルネットワークで表現
画像情報処理との距離はどんどん縮まっている!
19
HMM状態系列
特徴量系列
出力系列
拡張音素系列
特徴量系列
出力系列
出力系列
特徴量系列
[Vesely et al., 2013]
[Graves et al., 2006]
[Bahdanau et al., 2016]
まとめ:画像・音情報処理における特徴表現
20
音情報処理
物理性質を表す
特徴表現
勾配(変化)の
特徴表現
集積の
特徴表現
データに基づく
識別的な
特徴表現
反射の表現(BRDF)
画像局所特徴
(SIFT,二値特徴量)
局所特徴の集合
表現(BoF)
機械学習による
• 特徴選択
( (Harr-like + Adaboost)
• 特徴獲得(Deep Learning)
画像情報処理音学シンポで 音情報処理
?
MIRUで
?
?
?
• 生成過程に基づく特徴
• 聴覚特性に基づく特徴
• 局所的な時間変化特徴
• 大局的な時間変動特徴
• フレーム特徴量集合の
確率分布表現(BoG)
• 因子分解に基づく特徴
• 識別的特徴獲得
• Deep Learning による
同時最適化

More Related Content

What's hot

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にRyosuke Tachibana
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 

What's hot (20)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 

Similar to 音情報処理における特徴表現

Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1kame_hirokazu
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
招待講演(鶴岡)
招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)nozomuhamada
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Shinnosuke Takamichi
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成Akinori Ito
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理Takaaki Saeki
 
B4学生の 深層学習への挑戦(未完)
B4学生の深層学習への挑戦(未完)B4学生の深層学習への挑戦(未完)
B4学生の 深層学習への挑戦(未完)良太 西村
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
Nishimoto110126 v15-light2
Nishimoto110126 v15-light2Nishimoto110126 v15-light2
Nishimoto110126 v15-light2Takuya Nishimoto
 
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)Hajime Saito
 

Similar to 音情報処理における特徴表現 (20)

Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
招待講演(鶴岡)
招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 
変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成
 
pyssp
pyssppyssp
pyssp
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
B4学生の 深層学習への挑戦(未完)
B4学生の深層学習への挑戦(未完)B4学生の深層学習への挑戦(未完)
B4学生の 深層学習への挑戦(未完)
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
Nishimoto110126 v15-light
Nishimoto110126 v15-lightNishimoto110126 v15-light
Nishimoto110126 v15-light
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Nishimoto110126 v15-light2
Nishimoto110126 v15-light2Nishimoto110126 v15-light2
Nishimoto110126 v15-light2
 
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
 

More from NU_I_TODALAB

信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 

More from NU_I_TODALAB (20)

信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 

音情報処理における特徴表現