SlideShare a Scribd company logo
1 of 25
名古屋大学 情報基盤センター / JST,さきがけ
音声信号の分析と加工
音声を自在に変換するには?
戸田 智基
2017年3月15日
+ 音声変換 =
音声変換とは?
出力音声入力音声
音声変換
• 入力音声に対して,発話内容を保持しつつ,他の所望の情報を意図的に
変換する処理を施す技術
Q1.音声変換はどのように実現されるのか?
Q2.音声変換は一体何の役に立つのか?
はじめに
例えば,他の所望の話者によって
発声されたように変換する!
概説する内容
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
目次
音声変換の面白さと奥深さをお伝えできればと思います!
概説する内容
目次
1.音声変換の仕組みや用途
Q1.「どのように実現されるのか? 」
Q2.「一体何の役に立つのか? 」
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
こんにちはこんにちはこんにちは
こんにちは!
• 物理的な生成過程
• 音声に埋め込まれる情報
音声の生成
言語情報
パラ言語情報
非言語情報
音声信号意図
音韻成分
声質成分
身体的制約
非言語情報は
限定される.
音源生成 調音 音声信号
声帯振動による
周期信号の生成
声道形状に応じた
共振特性の付与
1.仕組みや用途:1
共振特性音源信号の特徴
時間
周波数
基本周波数&有声無声 スペクトル包絡
周波数
パワー
Q1.音声変換はどう実現されるのか?
出力音声入力音声
変換
処理
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
音声変換 = 信号処理 + 変換処理
1.仕組みや用途:2
身体的制約を
超えた音源生成
身体的制約を
超えた調音
所望の身体的制約下での
音声生成過程を実現!
Q2.音声変換は何の役に立つのか?
音源生成 調音
物理的な生成過程 + 音声変換 ⇒ 音声生成機能拡張
音声信号
音声変換
変換音声信号
こんにちはこんにちはこんにちは
こんにちは!
正常な発声器官を仮想的に移植!一部の発声器官の
機能を消失しても・・・
非言語情報も
意図的に制御可能!
1.仕組みや用途:3
1.音声変換の仕組みや用途
2.音声変換の要素技術
A.音声信号の分析技術
B.音声信号の合成技術
C.音声パラメータの変換技術
3.音声変換の応用例
4.技術的課題と将来の展望
変換
処理
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
概説する内容
目次
• 確率的分析法(線形予測分析 [板倉 他],メル一般化ケプストラム分析 [徳田 他])
• 確率的生成モデルのパラメータ推定問題として定式化
• 決定的分析法(STRAIGHT [河原 他],WORLD [森勢 他],aQHM [Stylianou et al.])
• 音声信号を正確に表現/再現するパラメータを推定
A.音声信号の分析技術
音声信号 ⇒ 音源信号 * 共振特性
e[n]:音源信号
(ガウス雑音)
H(z):共振モデル
(スペクトル包絡)
x[n]:音声信号
(観測データ)
推定
x[n]:音声信号
(観測データ)
基本周波数の抽出
音源信号の
周期成分を除去
共振特性
(スペクトル包絡)
2.要素技術:1
A.音声信号の分析技術の比較
• 確率的分析法
• 利点:音声信号の揺らぎを確率的に表現可能
• 欠点:モデリングによる近似誤差
• 決定的分析法
• 利点:高い表現力を持つ高精度な音声パラメータの抽出可能
• 欠点:音声信号の揺らぎ成分の取り扱いが困難
雑音環境下における性能や分析速度や計算量も重要!
2.要素技術:2
スペクトル包絡
励振源波形
パルス列
白色雑音
再合成音声波形
合成フィルタ
)(zH
励振源生成部 共振付与部
][*][][ nenhnx 
基本周波数&有声無声
音声パラメータ(音声波形 から抽出)
][ne
ボコーダ:音源信号 * 共振特性 ⇒ 音声波形
B.音声信号の合成技術
歪んだ音声パラメータ
への対応も重要!
• 利点:音声波形の特徴を容易に制御可能
• 欠点:モデリングによる近似誤差
2.要素技術:3
C.音声パラメータの変換法:規則を活用
リアルタイム
音声変換ソフト(Herium)
名城大学 坂野秀樹先生作
音源パラメータ(基本周波数)
間隔を短くすると
長くすると
高い声になる!
低い声になる!
時間
時間
時間
周波数軸を
伸ばすと
縮めると
太い声に(声道長が
長く)なる!
周波数
パワー
周波数
パワー
周波数
パワー
共振パラメータ(スペクトル包絡)
子供っぽい声に
(声道長が短く)なる!
入力音声パラメータ
規則に基づく変換処理
(時不変な変換関数)
変換音声パラメータ
2.要素技術:4
C.音声パラメータの変換法:統計的手法
学習データ
入力音声パラメータ
統計的な変換処理
(非線形変換関数)
変換音声パラメータ
• 回帰問題として音声パラメータ変換処理を定式化
• 声質変換(Voice Conversion)技術として進展
フレーム単位の変換 [阿部 他]
代表点の対応
付け [阿部 他]
確率モデルの
導入 [Stylianou et al.]
高精度化
 DNN/RNN
 事例ベース
所望の特徴を変換する
変換関数が得られるように
学習データを設計
1990 1995 2000 2005 2010 2015
系列単位の変換 [戸田 他]
確率的変動/揺らぎ成分の
モデル化 [戸田 他][高道 他]
回帰問題ではあるが誤差最小が良いとは限らない!
音声信号の確率的変動/揺らぎ成分を消失させ,
変換音声の音質劣化を招く傾向あり!
2.要素技術:5
C.音声パラメータの変換法の比較
• 規則に基づく変換法
• 利点:高品質な変換処理
• 欠点:変換音声の特徴は限定的
• 統計的手法に基づく変換法
• 利点:所望の特徴を持つ音声へと変換可能
• 欠点:複雑な変換処理による品質劣化
リアルタイム
統計的音声変換ソフト
奈良先端科学技術大学院大学
小林和弘さん作
2.要素技術:6
※ http://licca.takaratomy.co.jp/official/profile/
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
概説する内容
目次
音声変換の応用例
• 統計的音声変換における学習データを適切に設計することで
様々な変換処理を実現可能
• 例:音声生成機能拡張 [戸田 他]
• 音声入力の利点(瞬時性)を活用
• リアルタイム音声変換処理を音声コミュニケーション拡張に適用
身体的制約を
超える発声補助
環境的制約を
超える通話
能力的制約を
超える表現獲得
不可能を可能として未知の体験をもたらす応用例が存在!
発声障碍者
の音声を
より自然な
音声へ
聞きとれないほど
微弱な音声を
より明瞭な
音声へ
現時点での
歌声を
若返った歌声へ
年老いた歌声へ
3.応用例
概説する内容
目次
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
A.変換音声の品質改善
B.手法の評価
C.人の適応能力の活用
A.変換音声の品質改善
• 音声信号の確率的揺らぎを如何に再現するか?
• DNN/RNNの生成学習 [Chen et al.]や敵対的学習 [齋藤 他][金子 他]
• 波形合成(ボコーダ)処理による劣化を如何に抑えるか?
• 波形加工処理による脱ボコーダ [小林 他]
出力音声入力音声
学習
データ
波形加工
処理
統計的
変換処理
学習データ
分析
処理
音声
パラメータ
加工パラメータ
4.課題と展望:1
A.高品質波形生成モデルの登場
• ニューラルネットワークを用いた非線形自己回帰モデルによる波形生成法
(WaveNet [van den Oord et al., 2016],Sample RNN [Mehri et al., 2017])
• 音声波形を離散シンボル系列として表現(=波形接続型方式)
• 離散シンボル系列の確率分布をモデル化(=確率的生成モデル方式)
• 音声信号の揺らぎ成分を高精度に表現可能!
• 信号処理と統計的変換処理を統合した統計的波形変換処理の実現へ!
出力音声入力音声
学習
データ
統計的波形変換処理
学習データ
4.課題と展望:2
生成された過去の
音声波形シンボル系列
非線形自己回帰
モデル(CNN/RNN)
現時点の音声波形
シンボルをランダム生成
][ˆ nx]1[ˆ],2[ˆ,  nxnx
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
4.課題と展望:3
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
正解率 = 75%
MOS = 3.5
4.課題と展望:3
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
正解率 = 75%
MOS = 3.5
4.課題と展望:3
ユーザによる入力調整
聴覚フィードバック
C.人の適応能力の活用
出力音声入力音声
統計的
変換処理
学習
データ
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
入力動作
分析
処理
動作
パラメータ
• 人とシステムが協調することでより良い出力音声の生成を実現
• 補助入力情報としてユーザの動作信号を活用する枠組みの構築
• 人が持つ高い適応能力を最大限に活用する枠組みの構築
• 共創的音声生成機能拡張の実現へ(JSTさきがけ 2016.12~2020.03)
4.課題と展望:4
まとめ
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
音声変換の面白さと奥深さを
感じて頂けたら幸いです!
まとめ
まとめ
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
音声変換の面白さと奥深さを
感じて頂けたら幸いです!
音声変換技術は危険性を含んでいます!
• なりすましの助長
• 変換音声自動検出技術と変換技術はイタチごっこ
音声変換技術の普及に向け正しい社会的認知を得ることが必要です.
音声変換技術を「包丁」として認めてもらうための
研究活動ならびに社会活動が重要な課題となります.
まとめ
+ 音声変換 =

More Related Content

What's hot

テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析Junya Koguchi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech SynthesisDeep Learning JP
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...Deep Learning JP
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成Genki Ishibashi
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 

What's hot (20)

テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 

More from NU_I_TODALAB

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 

More from NU_I_TODALAB (18)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 

音声信号の分析と加工 - 音声を自在に変換するには?