SlideShare a Scribd company logo
1 of 25
名古屋大学 情報基盤センター / JST,さきがけ
音声信号の分析と加工
音声を自在に変換するには?
戸田 智基
2017年3月15日
+ 音声変換 =
音声変換とは?
出力音声入力音声
音声変換
• 入力音声に対して,発話内容を保持しつつ,他の所望の情報を意図的に
変換する処理を施す技術
Q1.音声変換はどのように実現されるのか?
Q2.音声変換は一体何の役に立つのか?
はじめに
例えば,他の所望の話者によって
発声されたように変換する!
概説する内容
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
目次
音声変換の面白さと奥深さをお伝えできればと思います!
概説する内容
目次
1.音声変換の仕組みや用途
Q1.「どのように実現されるのか? 」
Q2.「一体何の役に立つのか? 」
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
こんにちはこんにちはこんにちは
こんにちは!
• 物理的な生成過程
• 音声に埋め込まれる情報
音声の生成
言語情報
パラ言語情報
非言語情報
音声信号意図
音韻成分
声質成分
身体的制約
非言語情報は
限定される.
音源生成 調音 音声信号
声帯振動による
周期信号の生成
声道形状に応じた
共振特性の付与
1.仕組みや用途:1
共振特性音源信号の特徴
時間
周波数
基本周波数&有声無声 スペクトル包絡
周波数
パワー
Q1.音声変換はどう実現されるのか?
出力音声入力音声
変換
処理
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
音声変換 = 信号処理 + 変換処理
1.仕組みや用途:2
身体的制約を
超えた音源生成
身体的制約を
超えた調音
所望の身体的制約下での
音声生成過程を実現!
Q2.音声変換は何の役に立つのか?
音源生成 調音
物理的な生成過程 + 音声変換 ⇒ 音声生成機能拡張
音声信号
音声変換
変換音声信号
こんにちはこんにちはこんにちは
こんにちは!
正常な発声器官を仮想的に移植!一部の発声器官の
機能を消失しても・・・
非言語情報も
意図的に制御可能!
1.仕組みや用途:3
1.音声変換の仕組みや用途
2.音声変換の要素技術
A.音声信号の分析技術
B.音声信号の合成技術
C.音声パラメータの変換技術
3.音声変換の応用例
4.技術的課題と将来の展望
変換
処理
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
概説する内容
目次
• 確率的分析法(線形予測分析 [板倉 他],メル一般化ケプストラム分析 [徳田 他])
• 確率的生成モデルのパラメータ推定問題として定式化
• 決定的分析法(STRAIGHT [河原 他],WORLD [森勢 他],aQHM [Stylianou et al.])
• 音声信号を正確に表現/再現するパラメータを推定
A.音声信号の分析技術
音声信号 ⇒ 音源信号 * 共振特性
e[n]:音源信号
(ガウス雑音)
H(z):共振モデル
(スペクトル包絡)
x[n]:音声信号
(観測データ)
推定
x[n]:音声信号
(観測データ)
基本周波数の抽出
音源信号の
周期成分を除去
共振特性
(スペクトル包絡)
2.要素技術:1
A.音声信号の分析技術の比較
• 確率的分析法
• 利点:音声信号の揺らぎを確率的に表現可能
• 欠点:モデリングによる近似誤差
• 決定的分析法
• 利点:高い表現力を持つ高精度な音声パラメータの抽出可能
• 欠点:音声信号の揺らぎ成分の取り扱いが困難
雑音環境下における性能や分析速度や計算量も重要!
2.要素技術:2
スペクトル包絡
励振源波形
パルス列
白色雑音
再合成音声波形
合成フィルタ
)(zH
励振源生成部 共振付与部
][*][][ nenhnx 
基本周波数&有声無声
音声パラメータ(音声波形 から抽出)
][ne
ボコーダ:音源信号 * 共振特性 ⇒ 音声波形
B.音声信号の合成技術
歪んだ音声パラメータ
への対応も重要!
• 利点:音声波形の特徴を容易に制御可能
• 欠点:モデリングによる近似誤差
2.要素技術:3
C.音声パラメータの変換法:規則を活用
リアルタイム
音声変換ソフト(Herium)
名城大学 坂野秀樹先生作
音源パラメータ(基本周波数)
間隔を短くすると
長くすると
高い声になる!
低い声になる!
時間
時間
時間
周波数軸を
伸ばすと
縮めると
太い声に(声道長が
長く)なる!
周波数
パワー
周波数
パワー
周波数
パワー
共振パラメータ(スペクトル包絡)
子供っぽい声に
(声道長が短く)なる!
入力音声パラメータ
規則に基づく変換処理
(時不変な変換関数)
変換音声パラメータ
2.要素技術:4
C.音声パラメータの変換法:統計的手法
学習データ
入力音声パラメータ
統計的な変換処理
(非線形変換関数)
変換音声パラメータ
• 回帰問題として音声パラメータ変換処理を定式化
• 声質変換(Voice Conversion)技術として進展
フレーム単位の変換 [阿部 他]
代表点の対応
付け [阿部 他]
確率モデルの
導入 [Stylianou et al.]
高精度化
 DNN/RNN
 事例ベース
所望の特徴を変換する
変換関数が得られるように
学習データを設計
1990 1995 2000 2005 2010 2015
系列単位の変換 [戸田 他]
確率的変動/揺らぎ成分の
モデル化 [戸田 他][高道 他]
回帰問題ではあるが誤差最小が良いとは限らない!
音声信号の確率的変動/揺らぎ成分を消失させ,
変換音声の音質劣化を招く傾向あり!
2.要素技術:5
C.音声パラメータの変換法の比較
• 規則に基づく変換法
• 利点:高品質な変換処理
• 欠点:変換音声の特徴は限定的
• 統計的手法に基づく変換法
• 利点:所望の特徴を持つ音声へと変換可能
• 欠点:複雑な変換処理による品質劣化
リアルタイム
統計的音声変換ソフト
奈良先端科学技術大学院大学
小林和弘さん作
2.要素技術:6
※ http://licca.takaratomy.co.jp/official/profile/
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
概説する内容
目次
音声変換の応用例
• 統計的音声変換における学習データを適切に設計することで
様々な変換処理を実現可能
• 例:音声生成機能拡張 [戸田 他]
• 音声入力の利点(瞬時性)を活用
• リアルタイム音声変換処理を音声コミュニケーション拡張に適用
身体的制約を
超える発声補助
環境的制約を
超える通話
能力的制約を
超える表現獲得
不可能を可能として未知の体験をもたらす応用例が存在!
発声障碍者
の音声を
より自然な
音声へ
聞きとれないほど
微弱な音声を
より明瞭な
音声へ
現時点での
歌声を
若返った歌声へ
年老いた歌声へ
3.応用例
概説する内容
目次
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
A.変換音声の品質改善
B.手法の評価
C.人の適応能力の活用
A.変換音声の品質改善
• 音声信号の確率的揺らぎを如何に再現するか?
• DNN/RNNの生成学習 [Chen et al.]や敵対的学習 [齋藤 他][金子 他]
• 波形合成(ボコーダ)処理による劣化を如何に抑えるか?
• 波形加工処理による脱ボコーダ [小林 他]
出力音声入力音声
学習
データ
波形加工
処理
統計的
変換処理
学習データ
分析
処理
音声
パラメータ
加工パラメータ
4.課題と展望:1
A.高品質波形生成モデルの登場
• ニューラルネットワークを用いた非線形自己回帰モデルによる波形生成法
(WaveNet [van den Oord et al., 2016],Sample RNN [Mehri et al., 2017])
• 音声波形を離散シンボル系列として表現(=波形接続型方式)
• 離散シンボル系列の確率分布をモデル化(=確率的生成モデル方式)
• 音声信号の揺らぎ成分を高精度に表現可能!
• 信号処理と統計的変換処理を統合した統計的波形変換処理の実現へ!
出力音声入力音声
学習
データ
統計的波形変換処理
学習データ
4.課題と展望:2
生成された過去の
音声波形シンボル系列
非線形自己回帰
モデル(CNN/RNN)
現時点の音声波形
シンボルをランダム生成
][ˆ nx]1[ˆ],2[ˆ,  nxnx
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
4.課題と展望:3
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
正解率 = 75%
MOS = 3.5
4.課題と展望:3
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
正解率 = 75%
MOS = 3.5
4.課題と展望:3
ユーザによる入力調整
聴覚フィードバック
C.人の適応能力の活用
出力音声入力音声
統計的
変換処理
学習
データ
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
入力動作
分析
処理
動作
パラメータ
• 人とシステムが協調することでより良い出力音声の生成を実現
• 補助入力情報としてユーザの動作信号を活用する枠組みの構築
• 人が持つ高い適応能力を最大限に活用する枠組みの構築
• 共創的音声生成機能拡張の実現へ(JSTさきがけ 2016.12~2020.03)
4.課題と展望:4
まとめ
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
音声変換の面白さと奥深さを
感じて頂けたら幸いです!
まとめ
まとめ
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
音声変換の面白さと奥深さを
感じて頂けたら幸いです!
音声変換技術は危険性を含んでいます!
• なりすましの助長
• 変換音声自動検出技術と変換技術はイタチごっこ
音声変換技術の普及に向け正しい社会的認知を得ることが必要です.
音声変換技術を「包丁」として認めてもらうための
研究活動ならびに社会活動が重要な課題となります.
まとめ
+ 音声変換 =

More Related Content

What's hot

Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―Akinori Ito
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 

What's hot (20)

Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
音声分析合成[2].pptx
音声分析合成[2].pptx音声分析合成[2].pptx
音声分析合成[2].pptx
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 

More from NU_I_TODALAB

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 

More from NU_I_TODALAB (15)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 

音声信号の分析と加工 - 音声を自在に変換するには?