SlideShare a Scribd company logo
1 of 29
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DNN-based Source Enhancement to Increase
Objective Sound Quality Assessment Score
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “DNN-based Source Enhancement to Increase Objective Sound Quality
Assessment Score”
(IEEE Transaction on Audio Speech and Language Processing, 2017)
• Author: Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, Y. Haneda
NTT Media Intelligence Laboratories, NTT Corporation
2
アジェンダ
• 論文概要
• 音声エンハンスメントとは
• 既存手法:MLを目的関数に使ったDNN
• 提案手法:OSQA客観的音品評価ベースの目的関数を使ったDNN
• 評価結果
• まとめ
3
論文概要
• DNNを利用した音声エンハンスメントに,聴覚音質特性を反映した
Objective Sound Quality Assessment Score(OSQA*: 客観的音品評価)をベース
にした目的関数を用いて,ノイズ除去後の音質や明瞭度を向上させた.
* OSQAの代表例は以下の2つがある.本報告では、これらを使用する.
PESQ: Perceptual Evaluation of Speech Quality, ITU-T P.862
STOI: Short-time Intelligibility Measure (短時間明瞭度測定)
– 従来:目的関数はMean Square Error(平均二乗誤差)やMaximum Likelihood(ML):
微分可能 ⇒Back Propagation(BP)利用可能
– 問題点:分離再構成音の音質評価はOSQAであるPESQやSTOIを使っている
– 要求:目的関数をPESQやSTOIなどのOSQAにしたい:微分不可(∵Black Box関数)
– 解決策:RLで実績のある 方策勾配法を使い微分係数をサンプリングで近似
⇒BP利用可能
4
音源エンハンスメントとは
• 雑音に紛れた音声から背景雑音(雑音、他の音声)を除去すること
– 学習時:DNNはMask Rateを教師あり学習
– テスト時:DNNでMask Rateを推定し
𝑠1
𝑒𝑠𝑡
𝑡 = 𝑀1
𝑒𝑠𝑡
・Y
から雑音除去済みの音声を得る
5
既存手法:Maximum Likelihood(ML)法(1)
6
• Phase Sensitive Maskの定義
– 目的音声フーリエ変換: 背景ノイズ:
ω={1,2,…,Ω}:周波数,τ={1,2,…,T}:時間
– ノイズ込み音声: T-F Mask: ノイズ削減音声
– ここでは、T-F MaskとしてPhase Sensitive Mask
を使う.位相を考慮したMask.
Sω,τ Xω,τ
実数
θω,τ
(𝑠)
θω,τ
(𝑋)
虚数
既存手法:Maximum Likelihood(ML)法(2)
– 𝑝(𝑆τ|𝑋τ, θ): 観測信号𝑋τが与えられた時の目的音声Sτの条件付確率
θ:DNNのパラメータ
– 目的関数はLog-最尤度𝐽 𝑀𝐿(θ):ES,X ln 𝑝 𝑆τ 𝑋τ, 𝜃
– この目的関数のθに対する微分は、解析的には求まらない
⇒この計算を、学習データの平均求めよう
– このθでの微分は,
– 𝑝 𝑆τ 𝑋τ, θ を,
𝑆ω,τ − ෠𝐺ω,τ・𝑋ω,τの誤差はすべての周波数binで独立な平均が0で分散がσω,τ
2
のgaussian ノイズと見なせる. 7
8
既存手法:Maximum Likelihood(ML)法(3)
– よって、DNNの学習は、𝐺ω,τとσω.τ
2 が
出力になる.
– すなわち
– と定義して、以下が3本のDNNがあることになる。これを教師有り学習する.
– DNNのパラメータθは𝑊(・),𝑏(・)である.Φ 𝑔: sigmoid, Φσ: 𝑒𝑥𝑝𝑜𝑛𝑒𝑛𝑡𝑖𝑎𝑙
– (11)に求まった𝐺ω,τとσω.τ
2 と教師データ𝑆ω,τ を代入して,(12)から微分を得る.
𝑧τ
1 = 𝑥τ
提案手法
• 目的:
Objective Sound Quality Assessment Score(OSQA: 客観的音品評価)の
EM(Expectation Maximization)をDNNの目的関数に使い、ノイズ除去システ
ムの性能を良くしたい。
• 現方法の問題点
– 現方法:目的関数は、二乗誤差,ML最尤度など
– ノイズ除去システム性能評価:聴覚性能評価である
OSQAが使われている
• OSQAのEMを使った目的関数の課題
– 目的関数がBlack-Box関数なので、DNNのパラメータに関する微分が求まらず
• 解決の方策
– 方策勾配法を適用して,OSQAのEMを使った目的関数の微分をサンプリングアル
ゴリズムに基づいて計算する
9
DNNの最適解が聴
覚評価上の最適解
にならず
OSQAの例:PESQ
• 電話回線の聴覚に基づく音質評価の客観的評価法
– 2つの音声信号の相対的な音質の差を数値で表す
• 主観的評価ではなく客観的評価が望ましいのか:
– 主観評価は、評価者が必要で人的リソースの負担がかかる
– DNNの目的関数の計算は膨大な回数である
– 目的関数に聴覚に基づく計算を適用した場合,毎回、人を使った主観的評価を行うことは不可
能.
– 主観評価をシミュレートする客観的評価法がある.
– DNNの目的関数の計算に客観的評価を使いたい
10
ノイズ音声𝑋
ノイズ除去音声 መ𝑆
OSQA Scoreと目的関数の定義
• 𝐵( መ𝑆,X): OSQA Score関数と呼ぶ
– 観測値𝑋の時、ノイズ除去後音声 መ𝑆の音質を数量化する関数
• 分離の性能評価指標: 𝐵( መ𝑆,X)のEM(Expectation Maximization)
• ベイズの定理から、
• そして、DNNの目的関数 𝐽(θ)を分離の性能評価指標とする
とする. 𝐵( መ𝑆,X)はθでは微分不可能なので、解析的にBPが使えない.
11
方策勾配法による微分の求め方(1)
• どうすればよいか?
⇒ 方策勾配法を用いる:Black-box関数の微分を求めることができる。
– 前提: 𝐵( መ𝑆,X) は መ𝑆,Xの連続関数,で መ𝑆,X に関して微分可能
𝑝(𝑆τ|𝑋τ, θ)はθに関して微分可能
この時,
は, が成立することから
12
方策勾配法による微分の求め方(2)
– (22)は期待値であるが,解析的には解けないので
• Xの期待値は平均で表現し, መ𝑆の平均はサンプリングアルゴリズムで求めた
• OSQAスコアは、たくさんの時間点で図る方式だが,すべての時間点で測れないので,τの平
均をやめて発声を複数回行いその発声の回数の平均を採用する。
i番目の発声の観測値を
i番目の発声を行った時のk番目のサンプリング出力を
13
OSQA Scoreの安定化の方策
• OSQA Score関数の安定化のための方策:
– 微分の分散は小さい方が安定して学習する.しかし(25)(26)から、微分をサンプ
リングで求めるで、微分の分散は大きくなり、不安定になりやすい.
– 微分の分散が大きい理由のひとつは、 𝐵( መ𝑆,X)の分散が大きいこと⇒正規化する
– もう一つの理由は、OSQA Scoreの入力 መ𝑆にノイズがあること⇒入力に依存する
OSQA Scoreの平均を引き去る
– 生のOSQA Score:
– 安定化のために定義するOSQA Score: 𝐵( መ𝑆,X)
14
T-F Maskのサンプリング時の補正
• (24)のサンプリングアルゴリズムで得た መ𝑆ω,τ
(𝑖,𝑘)
は,観測値𝑋ω,τ
(𝑖)
との比であ
るT-F Maskが,必ずしも本来あるべき実数でないことが起こる.
• これは、 𝑝 𝑆τ 𝑋τ, 𝜃 が複素数だからで実数への補正必要.
• そこで、以下の方法で補正して正しT-F Maskを得る.
– まず、 DNNで𝑝 𝑆τ 𝑋τ, 𝜃 の出力として ෠𝐺ω,τ
(𝑖)
を得る
– (24)に基づいてサンプリングして ሚ𝑆ω,τ
(𝑖,𝑘)
を得る(k=1,…,K)
– そこで、各サンプル点から以下の෡Gω,τ
(𝑖,𝑘)
を計算し、
መ𝑆ω,τ
(𝑖,𝑘)
を得る.
15
今回の提案手法:全体ブロック
16
提案手法の学習全容(1)
①観測データ(ノイジー音声):𝑋ω,τ
(𝑖)
= 𝑆ω,τ
(𝑖)
+ 𝑁ω,τ
(𝑖)
②DNNのforwardでT-F Mask𝐺(𝑥τ
𝑖
)と分散σ(𝑥τ
𝑖
)を求める:
Φ 𝑔: sigmoid, Φσ: 𝑒𝑥𝑝𝑜𝑛𝑒𝑛𝑡𝑖𝑎𝑙 17
𝑧τ
1 = 𝑥τ
①
②
提案手法の学習全容(2)
③ T-Fサンプリングして ෠𝐺ω,τ
𝑖,𝑘
を求める
– DNN出力の𝐺 𝑥τ
𝑖
(= ෠𝐺ω,τ
𝑖
: 右図参照)を利用して
– 以下のサンプリング手法で ሚ𝑆ω,τ
(𝑖,𝑘)
を生成
– 以下の方法で ෠𝐺ω,τ
𝑖,𝑘
を求める
④ ෠Sω,τ
𝑖,𝑘
を求める
18
③ ④
提案手法の学習全容(3)
⑤𝑍( መ𝑆,X)と𝐵( መ𝑆,X)を計算
⑥目的関数𝐽(θ)の微分∇θ 𝐽(θ)を求める
⑦BPでDNNの係数を更新
19
⑤⑥
⑦
評価:目的(1)
① 提案手法がOSQA Scoreを向上するように学習できているか?
② 提案手法と従来手法の性能比較をSDRとOSQAの指標で評価
• 7つの手法を比較
• PSA MMSEの目的関数を使う手法:MMSE
• MLベースの目的関数を使う手法:ML
• PESQのEMを目的関数に使うがGがテンプレート選択である手法:C-PESQ
• STOIのEMを目的関数に使うがGがテンプレート選択である手法:C-STOI
• PESQのEMを目的関数に使った手法:P-PESQ
• STOIのEMを目的関数に使った手法:P-STOI
• PESQのEMとSTOIのEMの寄与を50%ずつにした目的関数を使った手法:P-MIX
• テストデータを上記7つ手法に入力して得られた出力 መ𝑆を2つのOSQAで評価
• PESQ
• STOI
• テストデータに混入するノイズ4つ
• 空港,アミューズメントパーク,事務所,宴会部屋 20
評価:目的(2)
③人的な主観的評価をOSQAベース手法のテスト出力に適用
主観評価でOSQAベース手法は既存手法(MLなど)と比較して優秀か?
• 音質評価:ノイズ性など全体の印象を評価
• 評価指標
• Speech mean-opinion-score (S-MOS):音声部分の音質を5段階で評価
• Subjective-noise mean-opinion-score (N-MOS):ノイズ部分が存在するかを5段階で評価
• Overall mean-opinion-score (G-MOS):音質全体を5段階で評価
• 評価人数: 16名
• 対象手法:ML, P-PESQ,P-STOI
• 明瞭度評価:単語の音韻の明瞭度を評価
• 指標: 単語明瞭度
• 単語数
• 低頻出単語50語
• 日本語4モーラ語
• 評価人数: 16名
21
評価:データセットと実験条件
• データセット
– 学習及びValidation用
• ATR日本語データベース:
– 全体:6640発声, 男性11名,女性11名
– 学習データ:5976発声, Validationデータ:664発声,
• CHiME-3 ノイズデータベース:
– 背景ノイズ4種類:カフェ,交差点,公共交通機関,歩道
• 日本語発声ファイルとノイズファイルをランダムに選択
• 両者のSNRを振る(-6dB, 0dB, 6dB, 12dB)
– テスト用
• 日本データベース:
– 300発声,男性3名,女性3名
• ノイズデータベース:
– 背景ノイズ4種類:空港,アミューズメントパーク,事務所,
宴会部屋
• 実験条件:右表
22
①提案手法がOSQA Scoreを向上するように学習できているか?
• 右図: P-PESQあるいはP-STOI手法で学
習したシステムにテストデータを入
力しPSEQあるいはSTOI指標で評価
– 上段
• 縦軸:テストデータにおける評価指標
(PESQあるいはSTOI)の改善度
• 横軸:指標の更新回数
⇒指標の更新回数とともに指標は改善して
いる.本手法は,PESQあるいはSTOI指標
を改善している
– 下段
• 縦軸 (a) P-PESQ手法でMSEを測定,
(b)P-STOI手法でMSEを測定
• 横軸:指標の更新回数
⇒MSEは更新回数の増加と一致せず.
• 下図 :P-PESQあるいはSTOI手法で学
習したシステムにテストデータを入
力.PSEQあるいはSTOI指標で評価し
た結果とMSE指標の結果は相関無し
⇒MSE指標で評価しても聴覚評価と一
致しない
23
②提案手法と従来手法の性能比較をSDRとOSQA指標で評価
• 指標がPESQあるいはSTOIで
はその指標のEMを目的関
数にした手法かP-MIXが従
来手法より性能が良い.
• 指標がSDRではSNRが低い
場合に従来手法が本手法よ
り性能がよいことがある.
24
②提案手法と従来手法の性能比較をSDRとOSQA指標で評価
• P-PESQは音声
部を歪ませて
でも残雑音を
除去しようと
する.
• P-STOIは音声
部に歪を起こ
さないように
するため無音
部の雑音の削
除が控えめ.
• P-MIXは上記
の良いとこ取
り.
25
𝑆ω,τ 𝑋ω,τ
෠Sω,τ
𝐺ω,τ
MMSE ML P-PESQ P-STOI P-MIX
③人的な主観的評価をOSQAベース手法のテスト出力に適用
• 主観評価
– 主観的音質評価指標S-MOS,N-MOS,G-MOSではP-PESQやP-STOIなどOSQA
をベースにした手法がスコアーが良い⇒ OSQAベースの手法の方が非OSQAベー
スの手法よりも高音質のノイズ削減を実現.
– 明瞭度評価ではP-STOI手法が最も良く,続いてP-PESQ,P-STOIの順.明瞭度に
焦点をあてたP-STOIベースの手法が明瞭度性能が良いのは妥当である.
26
まとめ
• PESQやSTOIなどのOSQA Scoreベースの目的関数を持つDNNベースの音声
エンハンスメントを学習する手法を提案した
• OSQA Scoreベースの目的関数では,直接はDNNパラメータに関する微分
が求まらないが、方策勾配法によるサンプリングで微分を求めることが
できる.
• 方策勾配法で微分を求めたOSQA Scoreベース目的関数を持つ音声エンハ
ンスメントはMMSEやMLなどの従来の目的関数をもつエンハンスメント
よりも良い音質や明瞭度を提供する.
27
END
28
C-PESQ, C-STOI手法(筆者らの一世代前の手法)
• T-F Maskの選択が128個のテンプレートから選ぶ方式
29
P-PESQ,P-
STOIとの
差異部分

More Related Content

What's hot

Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学Akinori Ito
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 

What's hot (20)

Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 

Similar to [DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score

[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Brains Consulting, Inc.
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
 
Deep nlp 4.2-4.3_0309
Deep nlp 4.2-4.3_0309Deep nlp 4.2-4.3_0309
Deep nlp 4.2-4.3_0309cfiken
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1Masayoshi Kondo
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesSatoru Katsumata
 

Similar to [DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score (10)

[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
Deep nlp 4.2-4.3_0309
Deep nlp 4.2-4.3_0309Deep nlp 4.2-4.3_0309
Deep nlp 4.2-4.3_0309
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation pieces
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score