Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会]SEGAN Speech Enhancement Generative Adversarial Network

411 views

Published on

020/02/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/2

Published in: Technology
  • Be the first to comment

[DL輪読会]SEGAN Speech Enhancement Generative Adversarial Network

  1. 1. SEGAN Speech Enhancement Generative Adversarial Network okamura masaki
  2. 2. 目次 1.書誌事項 2.タスクの目的 3.GAN 4.提案手法(SEGAN) 5.実験結果 6.まとめ
  3. 3. 書誌事項 year:2017 Santiago Pascual, Antonio Bonafonte, Joan Serra - Universitat Politecnica de Catalunya,Telefonica Research(spain) project page :(http://veu.talp.cat/segan/) コードも公開:(https://github.com/santi-pdp/segan)
  4. 4. タスクの目的 雑音下の音声をクリーンにする。 音声 雑音・騒音
  5. 5. GAN データセット (real data) ノイズ (乱数などから生成) Generator Discriminator 本物 偽物
  6. 6. GAN Generator:G(x) を最小化へ Discriminator:D(x),1-D(G(z))を最大化へ ① ②
  7. 7. CGAN (conditional GAN) y:追加の条件を与えるベクトル 新たな特徴を加えることが可能
  8. 8. LSGAN (least-suquares GAN) 学習が安定化 (a,b,c)=(-1,1,0),(0,1,1)が例として挙げられている。
  9. 9. 提案手法(SEGAN)① ①Generator Encoder-Decoder 構造 noisy speech enhancement speech ②Discriminator enhancement signal noisy signal Discriminator real fake
  10. 10. 提案手法② -Generator 青:encoder 特徴を表す “c”を生み出すため 緑:decoder (z,c)をもとに、clean speechを生成するため 損失関数 input noise signal clean signal:
  11. 11. 提案手法(SEGAN)③ - Discriminator 損失関数 D(x) input noisy signal enhancement signal noisy signal Discriminator real fake
  12. 12. 提案手法(SEGAN)④ - 工夫 Discriminator - 最小2乗誤差を用いて導出 (LSGANを参考) Generator - λ=100,L1 norm (距離を表す指標)を利用
  13. 13. 提案手法(SEGAN)④ - コードより Discriminator loss # TRAIN D to recognize clean audio as clean # TRAIN D to recognize generated audio as noisy Generator loss # TRAIN G so that D recognizes G(z) as real leftthomasさんのgit hub(https://github.com/leftthomas/SEGAN)からの引用
  14. 14. 実験結果 1.Objective evaluation PESQを除いて、性能が上がった 2.Subjective evaluation 1~5の点数をつけてもらった結果 (1が最低、5が最高)
  15. 15. まとめ 1.音声処理とGANの組み合わせはまだまだ増えていきそうな ので注目していきたい。 2.自分のプロジェクトにも機械学習を取り入れていきたい。 3.貴重な発表機会を与えていただきありがとうございました。
  16. 16. 参照 ・論文(https://arxiv.org/pdf/1703.09452.pdf) ・プロジェクトページ(http://veu.talp.cat/segan/) ・ Lsgan(https://arxiv.org/pdf/1611.04076.pdf),(https://qiita.com/inoudayo/items/a98da29b735c610fd7de) ・cGAN(https://arxiv.org/pdf/1411.1784.pdf) ・PESQに関して(https://www.ntt.co.jp/qos/technology/sound/04_2.html)

×