SlideShare a Scribd company logo

深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~

Yui Sudo
Yui Sudo

音の情報から周囲の環境を理解するためには、「いつ、どこから、何の音が鳴っているか」という情報を推定する必要がある。従来、音源定位や音源分離、分類といった手法が個別に研究されてきたのに対し、深層学習を用いた統合的なアプローチが提案されている。本発表では、音源定位、音源分離、クラス分類を深層学習で同時に扱う際に生じる問題とその回避策に関する研究を紹介する。

1 of 26
深層学習を用いた音源定位、音源分離、クラス分類の統合
~環境音セグメンテーション手法の紹介~
2021/6/23
Tokyo BISH Bash #05
Honda Research Institute Japan
Research Division
周藤 唯
2
自己紹介
周藤 唯 博士(工学)
略歴
- 2011年~2012年 本田技研工業 株式会社
- 2012年~2018年 ホンダエンジニアリング 株式会社
- 2018年~2021年 東京工業大学 博士後期課程
- 2019年~2020年 株式会社 本田技術研究所
- 2020年~現在 Honda Research Institute Japan
量産開発
工場向け検査装置、自律移動搬送ロボット(回路設計、作動音検査)
研究領域
音環境理解、ロボット聴覚、音声認識
1.Honda Research Institute Japan(HRI-JP)の紹介
HRI-EU
HRI-JP
HRI-US
San Jose, California
Wako, Saitama
Offenbach, Germany
Honda Research Institute設立の狙い
『21世紀の最先端技術で、価値の高い技術を最速で創造し、未来の社会に貢献』
2003年
日本、米国、ヨーロッパ(ドイツ)の3拠点に設立
4
取り組み紹介(ホンダコミュニケーションアシスタンスシステム)
HRI-JPで研究していた音声認識技術を応用し、
聴覚障がい者と健聴者のコミュニケーションをサポートする『ホンダコミュニケーションアシスタンスシステム』を開発
5
東京工業大学 工学院 システム制御系 中臺研究室の紹介
AI・機械学習,ロボティクス,信号・音声処理といったバックグラウンドをベースに
「音」をキーワードに、基礎研究から応用研究まで広く扱っています。
https://www.nakadai.org/
6
目次
1. 背景、目的(環境音セグメンテーションとは)
2. 関連研究、技術課題
3. マルチチャンネル環境音セグメンテーション手法
4. まとめ
Ad

Recommended

環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用Yuma Koizumi
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 

More Related Content

What's hot

独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件Shinobu KINJO
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習Yuma Koizumi
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 

What's hot (20)

独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 

Similar to 深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~

【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONRyoAIHARA1
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究Hirokatsu Kataoka
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
招待講演(鶴岡)
招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)nozomuhamada
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2nlab_utokyo
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究Takashi Kishida
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
検索可能暗号の概観と今後の展望(第2回次世代セキュア情報基盤ワークショップ)
検索可能暗号の概観と今後の展望(第2回次世代セキュア情報基盤ワークショップ)検索可能暗号の概観と今後の展望(第2回次世代セキュア情報基盤ワークショップ)
検索可能暗号の概観と今後の展望(第2回次世代セキュア情報基盤ワークショップ)Akira Kanaoka
 
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...cvpaper. challenge
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化Kitamura Laboratory
 
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈Eli Kaminuma
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 

Similar to 深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~ (20)

【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
招待講演(鶴岡)
招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
検索可能暗号の概観と今後の展望(第2回次世代セキュア情報基盤ワークショップ)
検索可能暗号の概観と今後の展望(第2回次世代セキュア情報基盤ワークショップ)検索可能暗号の概観と今後の展望(第2回次世代セキュア情報基盤ワークショップ)
検索可能暗号の概観と今後の展望(第2回次世代セキュア情報基盤ワークショップ)
 
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
【ECCV 2018】Audio-Visual Scene Analysis with Self-Supervised Multisensory Feat...
 
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
 
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 

Recently uploaded

解説: Token Extensions - Solana Developer Hub Online #SolDevHub
解説: Token Extensions - Solana Developer Hub Online #SolDevHub解説: Token Extensions - Solana Developer Hub Online #SolDevHub
解説: Token Extensions - Solana Developer Hub Online #SolDevHubK Kinzal
 
scikit-learn以外の分類器でpipelineを作ってみた! いずみん
scikit-learn以外の分類器でpipelineを作ってみた! いずみんscikit-learn以外の分類器でpipelineを作ってみた! いずみん
scikit-learn以外の分類器でpipelineを作ってみた! いずみんtoshinori622
 
オリジナルNFTを発行するブロックチェーン開発ハンズオン(NFTの発行に必要なツールから実装まで)
オリジナルNFTを発行するブロックチェーン開発ハンズオン(NFTの発行に必要なツールから実装まで)オリジナルNFTを発行するブロックチェーン開発ハンズオン(NFTの発行に必要なツールから実装まで)
オリジナルNFTを発行するブロックチェーン開発ハンズオン(NFTの発行に必要なツールから実装まで)Kanta Sasaki
 
HarukiShinkawa_果樹農家が期待する行動への変容を促す仕掛け設計のための収穫作業体験者の行動観察とモデル化_仕掛学2024.pdf
HarukiShinkawa_果樹農家が期待する行動への変容を促す仕掛け設計のための収穫作業体験者の行動観察とモデル化_仕掛学2024.pdfHarukiShinkawa_果樹農家が期待する行動への変容を促す仕掛け設計のための収穫作業体験者の行動観察とモデル化_仕掛学2024.pdf
HarukiShinkawa_果樹農家が期待する行動への変容を促す仕掛け設計のための収穫作業体験者の行動観察とモデル化_仕掛学2024.pdfMatsushita Laboratory
 
20240222_Neko_IoTLT_vol9_kitazaki_v1.pdf
20240222_Neko_IoTLT_vol9_kitazaki_v1.pdf20240222_Neko_IoTLT_vol9_kitazaki_v1.pdf
20240222_Neko_IoTLT_vol9_kitazaki_v1.pdfAyachika Kitazaki
 
AWS (Amazon Web Services) を勉強してみる おさらい 2024/02/16の勉強会で発表されたものです。
AWS (Amazon Web Services) を勉強してみる おさらい 2024/02/16の勉強会で発表されたものです。AWS (Amazon Web Services) を勉強してみる おさらい 2024/02/16の勉強会で発表されたものです。
AWS (Amazon Web Services) を勉強してみる おさらい 2024/02/16の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (6)

解説: Token Extensions - Solana Developer Hub Online #SolDevHub
解説: Token Extensions - Solana Developer Hub Online #SolDevHub解説: Token Extensions - Solana Developer Hub Online #SolDevHub
解説: Token Extensions - Solana Developer Hub Online #SolDevHub
 
scikit-learn以外の分類器でpipelineを作ってみた! いずみん
scikit-learn以外の分類器でpipelineを作ってみた! いずみんscikit-learn以外の分類器でpipelineを作ってみた! いずみん
scikit-learn以外の分類器でpipelineを作ってみた! いずみん
 
オリジナルNFTを発行するブロックチェーン開発ハンズオン(NFTの発行に必要なツールから実装まで)
オリジナルNFTを発行するブロックチェーン開発ハンズオン(NFTの発行に必要なツールから実装まで)オリジナルNFTを発行するブロックチェーン開発ハンズオン(NFTの発行に必要なツールから実装まで)
オリジナルNFTを発行するブロックチェーン開発ハンズオン(NFTの発行に必要なツールから実装まで)
 
HarukiShinkawa_果樹農家が期待する行動への変容を促す仕掛け設計のための収穫作業体験者の行動観察とモデル化_仕掛学2024.pdf
HarukiShinkawa_果樹農家が期待する行動への変容を促す仕掛け設計のための収穫作業体験者の行動観察とモデル化_仕掛学2024.pdfHarukiShinkawa_果樹農家が期待する行動への変容を促す仕掛け設計のための収穫作業体験者の行動観察とモデル化_仕掛学2024.pdf
HarukiShinkawa_果樹農家が期待する行動への変容を促す仕掛け設計のための収穫作業体験者の行動観察とモデル化_仕掛学2024.pdf
 
20240222_Neko_IoTLT_vol9_kitazaki_v1.pdf
20240222_Neko_IoTLT_vol9_kitazaki_v1.pdf20240222_Neko_IoTLT_vol9_kitazaki_v1.pdf
20240222_Neko_IoTLT_vol9_kitazaki_v1.pdf
 
AWS (Amazon Web Services) を勉強してみる おさらい 2024/02/16の勉強会で発表されたものです。
AWS (Amazon Web Services) を勉強してみる おさらい 2024/02/16の勉強会で発表されたものです。AWS (Amazon Web Services) を勉強してみる おさらい 2024/02/16の勉強会で発表されたものです。
AWS (Amazon Web Services) を勉強してみる おさらい 2024/02/16の勉強会で発表されたものです。
 

深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~

Editor's Notes

  1. My name is Yui Sudo from Tokyo Institute of Technology. I am going to talk about “Environmental sound セグメンテーション utilizing Mask U-Net”. 10s
  2. Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  3. まず、弊社の紹介ですが、 ホンダリサーチインスティチュートは「21世紀の最先端技術で、価値の高い技術を最速で創造し、未来の社会に貢献」を狙い、 2003年に日本、アメリカ、ドイツの3拠点に設立されました。 その日本の拠点になりますのが、ホンダ・リサーチ・インスティチュート・ジャパンとなります。 以下HRI-JPと略させていただきます。
  4. Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  5. Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  6. Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  7. Robots in real environment must recognize many kinds of sounds like speech in a noisy environment. Or sometimes not only speech but also music, bird singing and so on. So many methods have been developed for example noise reduction, sound source localization and separation. However, these conventional methods are used in カスケード like this block diagram. The biggest drawback of the カスケード system is that 誤差 which occurred at each function block are accumulated. Therefore it is necessary to develop end-to-end system in order to actualize overall optimized and more general method. Of simultaneous section detection classification and separation. 1’00
  8. I’ll review some related work of 音響イベント検出. This slide shows a one of the popular approach of 音響イベント検出 which is a CNN based method. This method applies CRNN to spectrogram and detect on-set and off-set of each class sound event. However this SED method cannot remain frequency information by using frequency pooling. So this method cannot separate each sound event. 30s
  9. I’ll review some related work of 音響イベント検出. This slide shows a one of the popular approach of 音響イベント検出 which is a CNN based method. This method applies CRNN to spectrogram and detect on-set and off-set of each class sound event. However this SED method cannot remain frequency information by using frequency pooling. So this method cannot separate each sound event. 30s
  10. Subsequently, Let me introduce some more related works of sound source separation. One traditional approach is NMF based method which uses NMF. Computational cost is low, its performance is also low compared to DNN based approach. Additionally, it is difficult to deal with many classes like environmental sounds. Second is Deep learning-based approach. U-Net which is originally proposed for image semantic セグメンテーション has been proposed for vocal separation. This method predicts mask spectrograms for separating singing voice and is possible to train end-to-end. However the number of classes is also small, vocal and instrument. And additionally, it is pointed out in the previous study of image semantic セグメンテーション that when the object size is very huge, the performance will be low for example bed and pillow. So it is difficult to simply apply this method to envitonmental sound セグメンテーション which have a lot of classes. 1’15
  11. Subsequently, Let me introduce some more related works of sound source separation. One traditional approach is NMF based method which uses NMF. Computational cost is low, its performance is also low compared to DNN based approach. Additionally, it is difficult to deal with many classes like environmental sounds. Second is Deep learning-based approach. U-Net which is originally proposed for image semantic セグメンテーション has been proposed for vocal separation. This method predicts mask spectrograms for separating singing voice and is possible to train end-to-end. However the number of classes is also small, vocal and instrument. And additionally, it is pointed out in the previous study of image semantic セグメンテーション that when the object size is very huge, the performance will be low for example bed and pillow. So it is difficult to simply apply this method to envitonmental sound セグメンテーション which have a lot of classes. 1’15
  12. Subsequently, Let me introduce some more related works of sound source separation. One traditional approach is NMF based method which uses NMF. Computational cost is low, its performance is also low compared to DNN based approach. Additionally, it is difficult to deal with many classes like environmental sounds. Second is Deep learning-based approach. U-Net which is originally proposed for image semantic セグメンテーション has been proposed for vocal separation. This method predicts mask spectrograms for separating singing voice and is possible to train end-to-end. However the number of classes is also small, vocal and instrument. And additionally, it is pointed out in the previous study of image semantic セグメンテーション that when the object size is very huge, the performance will be low for example bed and pillow. So it is difficult to simply apply this method to envitonmental sound セグメンテーション which have a lot of classes. 1’15
  13. This slide shows the complete architecture of environmental sound セグメンテーション consists of three blocks, 特徴抽出, セグメンテーション and reconstruction. In the 特徴抽出 block STFT is applied to the mixed waveforms and divided into spectral and 空間特徴s. These features are input into the セグメンテーション block. This block predicts a mask spectrogram for separating each class from the input spectrogram. Then an inverse STFT is applied to reconstruct the time domain signal using predicted amplitude spectrogram and phase spectrogram obtained from mixed waveform. The differences between the conventional method and our model are Input features are extended to multi-channel input Deeplabv3+ was applied instead of U-Net based method. These difference are expected that improve the performance on overlapping sound and robustness of large variation in sound event length. 1’10
  14. This slide shows the complete architecture of environmental sound セグメンテーション consists of three blocks, 特徴抽出, セグメンテーション and reconstruction. In the 特徴抽出 block STFT is applied to the mixed waveforms and divided into spectral and 空間特徴s. These features are input into the セグメンテーション block. This block predicts a mask spectrogram for separating each class from the input spectrogram. Then an inverse STFT is applied to reconstruct the time domain signal using predicted amplitude spectrogram and phase spectrogram obtained from mixed waveform. The differences between the conventional method and our model are Input features are extended to multi-channel input Deeplabv3+ was applied instead of U-Net based method. These difference are expected that improve the performance on overlapping sound and robustness of large variation in sound event length. 1’10
  15. We evaluate our method by conducting some simulation experiments using three custom データセットs. We created these custom データセットs using 10 corpuses contaning many classes of dry source. セグメンテーション 結果s are evaluated by calculating RMSE. Then I will show you the few example and discuss the effect of Deeplabv3+ and 空間特徴s. 30s
  16. This figure and this table shows the experimental settings for the numerical simulations. Three dry sources are randomly selected from these 10 corpuses. and the impulse response was convolved like this mixed spectrogram. Then, diffuse noise were added to all time frames. We created 10,000 training set 1,000 評価 set. 30s
  17. I’ll review some related work of 音響イベント検出. This slide shows a one of the popular approach of 音響イベント検出 which is a CNN based method. This method applies CRNN to spectrogram and detect on-set and off-set of each class sound event. However this SED method cannot remain frequency information by using frequency pooling. So this method cannot separate each sound event. 30s
  18. I’ll review some related work of 音響イベント検出. This slide shows a one of the popular approach of 音響イベント検出 which is a CNN based method. This method applies CRNN to spectrogram and detect on-set and off-set of each class sound event. However this SED method cannot remain frequency information by using frequency pooling. So this method cannot separate each sound event. 30s
  19. This table shows the まとめ of the simulation 結果. First, Let’s see the 結果 of データセット1 containing three classes of sound. Regarding deep learning models, Deeplabv3+ showed higher performance than conventional models. As for input features, by using sinIPD and cosIP, RMSE was obviously improved especially on CRNN and UNet. And these figure shows an example. This example contains overlapping sound as shown in blue spectra behind green and yellow spectra. As you can see these colored spectrogram, every model look good. However 1’00
  20. 30s
  21. 30s