Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
NT
Uploaded by
Naoya Takahashi
1,509 views
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
近年格段に性能が向上し、実用化が進んでいるDNNベースの音源分離について、基礎原理、国際コンペでベストスコアを記録した技術、弊社での応用事例、最新の研究など幅広く紹介します。
Technology
◦
Read more
2
Save
Share
Embed
Embed presentation
Download
Downloaded 16 times
1
/ 22
2
/ 22
3
/ 22
4
/ 22
5
/ 22
6
/ 22
7
/ 22
Most read
8
/ 22
9
/ 22
10
/ 22
11
/ 22
12
/ 22
Most read
13
/ 22
14
/ 22
15
/ 22
16
/ 22
17
/ 22
Most read
18
/ 22
19
/ 22
20
/ 22
21
/ 22
22
/ 22
More Related Content
PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
by
Daichi Kitamura
PDF
深層学習と音響信号処理
by
Yuma Koizumi
PPTX
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
by
Daichi Kitamura
PPTX
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
by
Yui Sudo
PDF
環境音の特徴を活用した音響イベント検出・シーン分類
by
Keisuke Imoto
PPTX
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
by
Daichi Kitamura
PDF
信号の独立性に基づく多チャンネル音源分離
by
NU_I_TODALAB
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
by
Daichi Kitamura
深層学習と音響信号処理
by
Yuma Koizumi
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
by
Daichi Kitamura
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
by
Yui Sudo
環境音の特徴を活用した音響イベント検出・シーン分類
by
Keisuke Imoto
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
by
Daichi Kitamura
信号の独立性に基づく多チャンネル音源分離
by
NU_I_TODALAB
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
What's hot
PDF
ICASSP 2019での音響信号処理分野の世界動向
by
Yuma Koizumi
PPTX
スペクトログラム無矛盾性に基づく独立低ランク行列分析
by
Kitamura Laboratory
PPTX
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
by
Daichi Kitamura
PPTX
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
by
Yui Sudo
PDF
実環境音響信号処理における収音技術
by
Yuma Koizumi
PPTX
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
by
Daichi Kitamura
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
PDF
Asj2017 3invited
by
SaruwatariLabUTokyo
PPTX
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
by
Daichi Kitamura
PPTX
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
by
Kitamura Laboratory
PPTX
ILRMA 20170227 danwakai
by
SaruwatariLabUTokyo
PDF
深層生成モデルに基づく音声合成技術
by
NU_I_TODALAB
PDF
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
by
Daichi Kitamura
PDF
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
by
Kitamura Laboratory
PPTX
深層パーミュテーション解決法の基礎的検討
by
Kitamura Laboratory
PDF
異常音検知に対する深層学習適用事例
by
NU_I_TODALAB
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
by
Atsushi_Ando
PDF
ELBO型VAEのダメなところ
by
KCS Keio Computer Society
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
by
Deep Learning JP
ICASSP 2019での音響信号処理分野の世界動向
by
Yuma Koizumi
スペクトログラム無矛盾性に基づく独立低ランク行列分析
by
Kitamura Laboratory
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
by
Daichi Kitamura
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
by
Yui Sudo
実環境音響信号処理における収音技術
by
Yuma Koizumi
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
by
Daichi Kitamura
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
Asj2017 3invited
by
SaruwatariLabUTokyo
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
by
Daichi Kitamura
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
by
Kitamura Laboratory
ILRMA 20170227 danwakai
by
SaruwatariLabUTokyo
深層生成モデルに基づく音声合成技術
by
NU_I_TODALAB
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
by
Daichi Kitamura
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
by
Kitamura Laboratory
深層パーミュテーション解決法の基礎的検討
by
Kitamura Laboratory
異常音検知に対する深層学習適用事例
by
NU_I_TODALAB
音声感情認識の分野動向と実用化に向けたNTTの取り組み
by
Atsushi_Ando
ELBO型VAEのダメなところ
by
KCS Keio Computer Society
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
by
Deep Learning JP
Similar to 音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
PDF
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
by
Deep Learning Lab(ディープラーニング・ラボ)
PDF
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
by
Deep Learning JP
PDF
DNN音響モデルにおける特徴量抽出の諸相
by
Takuya Yoshioka
PDF
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
by
RyoAIHARA1
PPTX
20190313_Introduction of ai development neural network console which became f...
by
Sony Network Communications Inc.
PPTX
NIPS2017報告 SPEECH & AUDIO
by
Koichiro Mori
PDF
SpakerBeam:深層学習に基づく音声の選択的特徴_Single Channel Target Speaker Extraction and Reco...
by
Taira Shimizu
PDF
ICASSP2019論文読み会_PHASEBOOK
by
Atsushi_Ando
PDF
【Deep Learning研修】 音声認識・音声合成技術とその応用 -基礎から最新動向まで-
by
Sony - Neural Network Libraries
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
by
Deep Learning Lab(ディープラーニング・ラボ)
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
by
Deep Learning JP
DNN音響モデルにおける特徴量抽出の諸相
by
Takuya Yoshioka
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
by
RyoAIHARA1
20190313_Introduction of ai development neural network console which became f...
by
Sony Network Communications Inc.
NIPS2017報告 SPEECH & AUDIO
by
Koichiro Mori
SpakerBeam:深層学習に基づく音声の選択的特徴_Single Channel Target Speaker Extraction and Reco...
by
Taira Shimizu
ICASSP2019論文読み会_PHASEBOOK
by
Atsushi_Ando
【Deep Learning研修】 音声認識・音声合成技術とその応用 -基礎から最新動向まで-
by
Sony - Neural Network Libraries
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
1.
Copyright 2020 Sony
Corporation 音源分離 ~DNN音源分離の基礎から最新技術まで~ 2020/10/14 Tokyo BISH Bash #03 with IYS2020 SONY R&Dセンター Tokyo Laboratory 21 高橋直也
2.
R&Dセンター © 2020
Sony Corporation 自己紹介 2015年 スイス連邦工科大学チューリッヒ(ETH Zurich) 客員研究員 2020年 博士課程後期 筑波大学 コンピュータサイエンス専攻 現在 ソニー株式会社 R&Dセンター Tokyo Laboratory21 経歴 Pickup SiSEC 2016, 2018ベストスコア Sony Outstanding Engineer Award 2018 たかはし なおや 高橋直也 博士(工学) 研究領域 音源分離,音響イベント認識,ビデオ解析,音声認識,声質変換 Linkedin: www.linkedin.com/in/naoyatakahashi Twitter:https://twitter.com/zuNaoya 2
3.
R&Dセンター © 2020
Sony Corporation 本日の話の流れ 音源分離とは ソニーでの事例紹介 製品 映画 音楽 技術紹介 基本的なフレームワーク 研究紹介 3
4.
R&Dセンター © 2020
Sony Corporation 音源分離とは アカデミアで50年以上、非常に困難な問題として扱われてきた。 2013年、ソニーはAIを用いた音源分離に着手 ➡ この分野では先駆者 音源分離 混合している音源 分離された音源 4
5.
R&Dセンター © 2020
Sony Corporation 応用例 音楽・映画 音声 雑音の抑圧 音声同士の分離 旧譜のリミックス チャネル方式 ➡ オブジェクト方式 5
6.
R&Dセンター © 2020
Sony Corporation 三期連続ベストスコア 国際コンペSignal Separation Evaluation Campaign(SiSEC)に参加 2015–2018年、三期連続でベストスコアを獲得 [1]F.-R. Stöter, A. Liutkus, and N. Ito. "The 2018 Signal Separation Evaluation Campaign." LVA/ICA, 2018 [2]D. Ward et al. "SISEC 2018: state of the art in musical audio source separation - Subjective selection of the best algorithm." Proceedings of the 4th Workshop on Intelligent Music Production, 2018. 信号と残差の比率[dB] Sony 聴感指標 Upper Bound Other entries 客観評価実験 [1] 聴感評価実験 [2] 6
7.
R&Dセンター © 2020
Sony Corporation 分離結果のWeb公開 分離結果は以下のサイトから試聴できます。 https://sisec18.unmix.app/#/ 7
8.
事例紹介
9.
R&Dセンター © 2020
Sony Corporation 屋外における動画撮影への応用 スマホを使ったコンテンツクリエーションが増加 外部マイクではなくスマホマイクで録音すると風雑音が混入 | 9 音源分離 風雑音入りの音 抽出された風雑音 風雑音以外の音
10.
R&Dセンター © 2020
Sony Corporation クリーンな音声収録における応用 スタジオにおける音声収録と同様、自宅における音声収録のニーズあり 収録された音声品質は自宅環境に依存 | 10 音源分離 雑音入りの音声 雑音 音声
11.
R&Dセンター © 2020
Sony Corporation 映画のアップミックスにおける応用 映画用に学習されたAIを用いて、古いマスターテープから音源を抽出 新しい音響フォーマットにアップミックス | 11 音源分離 音が混合している マスターテープ 馬が走る音 ヘリコプターが飛ぶ音 銃が鳴る音
12.
R&Dセンター © 2020
Sony Corporation リアルタイムカラオケ スマートフォン上でリアルタイムでボーカル除去 | 12 音楽 ボーカル カラオケ 音源分離
13.
R&Dセンター © 2020
Sony Corporation 音源分離のオープンソース『Open-Unmix』 仏国立機関INRIAとソニーの共同プロジェクト 推論、学習用コード 学習済みモデル Neural Network Libraries, PyTorch | 13 参考論文: Open-Unmix - A Reference Implementation for Music Source Separation, Journal of OSS https://joss.theoj.org/papers/10.21105/joss.01667 ♦ ◆ https://open.unmix.app ◆ ♦
14.
技術紹介
15.
R&Dセンター © 2020
Sony Corporation 音源分離の手がかり・既存手法 振幅スペクトルの(統計的)パターン 楽器 個人性 時間連続性 チャネル間のバランス・方向 追加情報 言語情報 音楽理論・スコア 画像 etc. 既存手法 実際の音楽や音声では… 音源に対する仮定が強い 不明瞭・膨大なパターン 線形モデルでは表現しきれない ⇒Deep Neural Networksの利用 分離の手がかり NMF(非負値行列因子分解) 繰返しパターン ICA(独立成分分析) 音源の独立性 etc. 15
16.
R&Dセンター © 2020
Sony Corporation DNNを用いた音源分離のフレームワーク DNN ③ Training data Train DNN though data ① Network architecture ② Training method 𝐿𝐿 = � 𝑠𝑠𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 − 𝑓𝑓 𝑥𝑥 2 𝑥𝑥 𝑠𝑠𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑓𝑓 𝑥𝑥 error |STFT| Mixture |STFT| Sources ④ Loss function ※この他、時間領域の手法もある 16
17.
R&Dセンター © 2020
Sony Corporation Network Architecture ( MMDenseLSTM ) Recurrent units Dense connections Multi-scaled Multi-band input output … Full band Band N Band 1 Dense block freq. time Dense LSTM block [1] N. Takahashi, et. al. , “MMDenseLSTM: an Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source Separation”, IWAENC 2018 17
18.
R&Dセンター © 2020
Sony Corporation 位相復元 (PhaseNet) 振幅推定 DNN 混合音 振幅スペクトル 混合音 位相スペクトルSTFT iSTFT Mixture Source 位相推定 DNN |・| ∠ [2] N. Takahashi ,et. al. , “PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation”, Interspeech 2018 Regression [-π, π] Re Im 非連続 θ θ Classification 位相推定を分類問題として解く ことで位相の非連続問題を回避 18
19.
R&Dセンター © 2020
Sony Corporation 音声認識の利用 音声認識は音源分離性能改善に有用か? Features End-to-end 音声認識 テキスト 音声分離 音声分離 音声認識からの特徴量が 分離性能を改善 音楽音源分離 on MUSDB18 [3] N.Takahashi, et. al. , “Improving Voice Separation by Incorporating End-to-end Speech Recognition”, ICASSP2020 19
20.
R&Dセンター © 2020
Sony Corporation 音源数未知の場合の話者分離 問題:あらかじめ決められた音源数を超えると正しく分離できない 一話者ずつ再帰的に分離 Mixture 𝑥𝑥(𝑡𝑡) ̂𝑠𝑠1(𝑡𝑡) ̂𝑠𝑠2(𝑡𝑡) ̂𝑟𝑟1(𝑡𝑡) ̂𝑟𝑟2(𝑡𝑡) One and rest speech separation One and rest speech separation Speech or not? ̂𝑠𝑠3(𝑡𝑡) ̂𝑟𝑟3(𝑡𝑡) One and rest speech separation Speech or not? Speech or not? 学習で一度も見ていない 4話者の分離に成功 20
21.
R&Dセンター © 2020
Sony Corporation 音源分離の頑健性・コンテンツ保護 Adversarial example:知覚困難な微小なノイズがDNNを誤動作させる Mixture Adversarial noise 元の分離結果 元とは大きく異なる分離結果に 音声分離 音声分離 + 入力に与える影響分離音に与える影響 N. Takahashi and Y. Mitsufuji, “Adversarial attacks on audio source separation”, arXiv 21
22.
R&Dセンター © 2020
Sony Corporation DNN音源分離参考文献 Year Title Conference 2015 DNN Based Instrument Extraction from Music † ICASSP 2016 Multichannel Blind Source Separation Based on Non-negative Tensor Factorization in Wavenumber Domain ICASSP 2017 Supervised Monaural Source Separation Based on Autoencoders ICASSP Improving Music Source Separation Based on DNNs through Data Augmentation and Network Blending *† ICASSP Multi-Scale Multi-Band DenseNets for Audio Source Separation *† WASPAA 2018 PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation INTERSPEECH Improving DNN-based Music Source Separation using Phase Features ICML workshop MMDenseLstm: An Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source Separation *† IWAENC 2019 Recursive Speech Separation for Unknown Number of Speakers INTERSPEECH Open-Unmix - A Reference Implementation for Music Source Separation Journal of OSS 2020 Improving Voice Separation by Incorporating End-to-end Speech Recognition ICASSP Adversarial attacks on audio source separation arXiv D3Net: Densely connected dilated DenseNet for Music source separation arXiv * 国際コンペでベストスコアを記録したモデルの参考文献 † 50本以上の引用がある論文 22
Download