SlideShare a Scribd company logo
1 of 25
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Gestalt Principles Emerge When Learning
Universal Sound Source Separation
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “Gestalt Principles Emerge When Learning Universal Sound
Source Separation”
H. Li, K. Chen and B. U. Seeber, IEEE/ACM Transactions on Audio, Speech, and Language
Processing, vol. 30, pp. 1877-1891, 2022, doi: 10.1109/TASLP.2022.3178233
https://ieeexplore.ieee.org/document/9783204
• 概要
– 一般的な音響源(音声、楽曲、環境音)の重複音響信号の分離を、教
師あり深層学習することで、脳内に生来存在すると言われている
Gestalt principleが出現することを初めて確認
– Gestalt principleとは:脳内の感覚機能(視覚、聴覚、嗅覚など)に関
して、重畳刺激から、proximity, continuity, similarity等の原則に従って、
感覚情景物体(外界の刺激発生源に対応する脳内の源)を脳内にグ
ルーピングして形成するという考え
• 動機
– 複数音声分離のメカニズムに興味
2
アジェンダ
• 背景
– Gestalt principle
– Auditory Scene Analysis (ASA)
– Computational Scene Analysis (CASA)
– Deep learning手法によるConv-TasNet
• 提案手法:一般音響の重畳入力でのモデル学習
• 評価結果:一般音響の重畳分離性能
• モデルの心理音響実験と評価結果
• まとめ
• 感想
3
背景: 重畳音響分離研究の2つの流れ
• 聴覚のメカニズムを解析して工学的に実現しようとする流れ
– 脳内の感覚器の構造に関する原則:Gestalt principle
↓
– 聴覚の重畳分離メカニズムの知見を集める研究:Auditory Scene Analysis (ASA)
• 被験者に心理音響的実験を行い、その振る舞いから知見を集める
↓
– 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計して構築
する:Computational Scene Analysis (CASA)
• 手設計のため、key-pointの取りこぼしなど有り→分離性能を評価は限定的
• 分離メカニズムの中身は考えずにdata-drivenで分離タスクを実現しようする
深層学習の流れ
– 2010年以降のDeep-Learningの教師あり学習を使う
– 音響統計に基づく分離タスクを達成することで、分離性能は改善している(SOTA)
4
背景: 重畳音響分離研究の2つの流れ
• 本論では、深層学習の流れで学習したモデルを被験対象にして、
Auditory Scene Analysis (ASA)の心理音響的実験を施したところ、人間の被
験者と同様の振る舞いを示した
– Auditory Scene Analysis (ASA)の元になるGestalt principleが学習モデル内に
獲得できたことになる。
– 何故、獲得できたのか、理由は解析中
5
背景:Gestalt principle
• 感覚器(目、耳、鼻、etc)が受ける、複数発生源からの同時外界刺激から、発生
源単体の感覚情景物体を、個別にグループ化し分離する仕組みが、生来、脳内
で組み込まれている
• ドイツの心理学者・ヴェルトハイマー(1880~1943)から生まれた「ゲシュタ
ルト心理学」における中心的な概念
近接の法則(Law of Proximity):「距離が近い特徴は同じグループ」
類同の法則(Law of Similarity):「色や形が似ている特徴は同じグループ)
連続の法則(Law of Continuity):「連続的に変化する特徴は離散的に変化する特徴
よりも同じグループ」
共通運命の法則(Law of Common Fate):「同じ方向に動いている特徴や、同じ周
期で点滅している特徴は同じグループ」
6
網
膜
光
視覚の場合
Gestalt
principle
視覚シーン
神経励起
信号
犬の
鳴声
風の音
人の声
蝸
牛
視覚情景
物体
特徴
抽出
Gestalt
principle
特徴
抽出
神経励起
信号
聴覚シーン 聴覚の場合
犬の
鳴声
風の音
人の声
聴覚情景
物体
背景:Auditory Scene Analysis (ASA)
• Gestalt principleをベースに、聴覚の重畳分離メカニズムの知見を集める研究
- Bregman, A. S.: Auditory Scene Analysis : The Perceptual
Organization of Sound, MIT Press, Cambridge, Massachusetts,
U.S.A. (1990).
- Middlebrooks, J. C., Simon, J. Z., Popper, A. N. and Fay, R. R.
:The Auditory System at the Cocktail Party, Springer
Handbook of Auditory Research, Springer Nature Switzerland
AG., Cham, Switzerland, (2017).
• 心理学音響実験による知見
– 被験者:人間
– 入力音:種々のトーン
– 被験者の判断:単一音or複数音に知覚
• 2つのパス
– Primitive Grouping: Bottom-up process
• Simultaneous Grouping:ピッチ、調音、onset、AM、FM
• Sequential Grouping:上記特徴量のproximity,
continuity, similarity, common fateをベースにgrouping
– Schema-driven: Top-down process
• Attention: 注目する発声体に脳内の振る舞いが注力
7
(抜粋) The Auditory System at
the Cocktail Party
背景: Computational Scene Analysis (CASA)
• 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計
- D. Wang and G. J. Brown, “Fundamentals of computational auditory
scene analysis,” in Computational Auditory Scene Analysis: Principles,
Algorithms, and Applications, D. Wang and G. J. Brown, Eds., Hoboken
• ASAのPrimitive Grouping: Bottom-up processを2つ工程から作る
– Segmentation、Grouping:
• 聴覚器官の工程を細分化し、それぞれ数理モデル化し、設計後、接続してシ
ステムにする→音声を実用で分離可能なレベルでは無い
8
(抜粋) M. Elhilali
and S. A. Shamma, “A
cocktail party with a
cortical twist:
Howcortical
mechanisms contribute
to sound segregation,” J.
Acoust. Soc.
Amer., vol. 124, no. 6,
pp. 3751–3771, 2008
背景:Conv-TasNet
9
• 重畳音声(音声ー音声)分離モデル
• Network構成
– Encoder-Separator-decoder構造
– Encoder/Decoder: 1-D Conv
– Separator: 複数 Dilated 1-D
Convolution Blockベースの分割マスク
推定法
• 入力信号:重畳音声 𝑦(𝑡)
• 出力:分離後の単話者音声 Ƹ
𝑠𝑖, 𝑖 =
1, ⋯ , 𝐶: 話者数𝐶
• Loss関数:SI-SNR
(抜粋 )Luo, Y. and Mesgarani, N.: Conv-TasNet: Surpassing Ideal
Time-Frequency Magnitude Masking for Speech Separation,
IEEE/ACM Transactions on Audio, Speech, and Language
Processing, Vol. 27, No. 8, pp. 1256–1266 (2019).
提案手法:一般音響の重畳入力でのモデル学習
• Data set
– 一般的な音響信号全般
• 音声:LibriSpeech
• 楽曲:musan
• 環境音:BBC sound effect
– 上記3つカテゴリから重複を許して2つ選び、重畳するクリップを作成
• 計6通り
– 重畳音響信号のSNRは-5dB~5dBからランダム
– 訓練data:126000クリップ(150時間)、Validation data: 36000クリップ(30時間)、テスト data:
18000クリップ(15時間)
• Conv-TasNetを学習data/validation dataで学習して、test dataで分離後音声品質改善
度(SiSNRi)でモデルを評価する
– これで、Conv-TasNetが一般音響信号の混在環境を学習した
10
評価結果:評価結果:一般音響の重畳分離性能その1
• 結果
– Conv-TasNetは、音声を含むdatasetの分類で性能が高い。
– Conv-TasNetはIRMよりも良い → Conv-TasNetがユニークな調音構造を学習できているから
– 音声を含む場合は、Windows長は短い2msecから順番に分離性能がよい→音声には2msec程ま
での時間解像度が必要
– 楽曲ー楽曲のpairが悪い
11
評価結果:評価結果:一般音響の重畳分離性能その2
• 入力SNRが悪いものほど、改善幅Si-SNRiは良くなる:
– 全カテゴリーに共通
• 分離後のspectrogram上も、上手く分離できていることが確認できた。
12
評価方法:モデルの心理音響実験
• 一般重畳音響で学習したConv-TasNetモデルを被
験者に置き換えて、Gestalt princileから導かれた
Auditort Scene Anaysis(ASA)で用いる心理音響実験
を行う
• 目的は、学習したモデルにgestaltな原則が学習で
きているか否かを評価する
• ASAにおけるbottom-up processに関する実験
– Simultaneous Groupingに関する実験(実験1)
– Sequential Groupingに関する実験(実験2)
– 2つのGroupingメカニズムが同時に起こる場合に、
協調するか競合するかを確認する実験(実験3)
– 調音を持つ複雑入力(音声)を使ったGroupingの実
験(実験4)→理解が不十分のため今回割愛します
13
実験1: Simultaneous Groupingに関する実験その1
• 聴覚のおける知見:調音構造になっている音は一つの音
• (実験1-1)調音の入力に対する振る舞い
– 2つのトーン(各トーンは3つの調音(整数倍の周波数成分)を
持つ)は一つの音かそれとも2つの音か?(F0=110Hz, 165Hz)
• 実験の入出力:onset時間差は0
• 実験結果
– 2つのトーンが調音を共有する時は
1つの音に聞こえる
– 2つのトーンが調音を共有しない時は
2つの音に聞こえる
• 人間の聴覚の振る舞いと同じ 14
学習後の
Conv-TasNet
推定音響1
推定音響2
実験1: Simultaneous Groupingに関する実験その2
• 聴覚における知見:onsetの時間差は調音とは独立に判定
• (実験1-2)onsetのズレに対する振る舞い
– 2つのトーン(各トーンは3つの調音(整数倍の周波数成分)を持
つ)がonset時間に差が有るとき、一つの音かそれとも2つの音か?
• 実験の入出力
• 実験結果
– 2つの入力トーンの基本周波数の差ΔF0によって、振る舞いが違う
• (例)Δfoが小さい場合は一音にしか聞こえなかいが、onsetが大きいと二音
– Onsetの時間差は調音とは独立だ
• 人間の聴覚の振る舞いと同じ 15
学習後の
Conv-TasNet
推定音響1
推定音響2
一音から二音
へ認知が変化
実験1: Simultaneous Groupingに関する実験その3
• 聴覚による知見:同じAMやFMが掛かる信号等は、一音に
なる→共通運命(fate principle)の法則に従う
• (実験1-3)AMやFMが掛かる場合の振る舞い
• 実験の入出力
– 一トーンの全調音にのみ同じAMあるいはFMを適用
• 実験結果
– 2つのトーンが調音を共有していて、AMでもFMでも
rate=0,depth=0では強い調音関係のために一音だったものが、
一方のトーンにのみAMあるいはFMを施すと途端に2音に認識す
る
– 共通運命の法則に従っている
• 人間の聴覚と同じ(音節に相当する約3Hzにpeakあり)
16
学習後の
Conv-TasNet
推定音響1
推定音響2
音節に相当の約3Hzにpeak
実験2: Sequential Groupingに関する実験その1
• 聴覚における知見:ΔF0とTRTでvan Noordenのtemporal
coherence boundaryが観測される→周波数と時間の両
方で近いcomponentは一音になる(近接(proximity)
の法則)
• (実験2-1)近接の法則が効いているか?
• 実験の入出力
• 実験結果
– temporal coherence boundary と類似の境界線が得られた
• 聴覚と同じ近接の法則が効いている 17
学習後の
Conv-TasNet
推定音響1
推定音響2
実験2: Sequential Groupingに関する実験その2
• 聴覚における知見:連続的な同じ動きをする
ものは一音(連続(Continuityの法則)
• (実験2-2)連続の法則が効いているか
– 2つのトーン間の遷移時に周波数を連続的にかえる
と、離散にかえるとの差が有るか
• 実験の入出力
• 実験結果
– 同一の連続時遷移のものは、離散的な遷移と比較し
て一音として見られ易い
– 連続の法則が効いている
• 聴覚と類似の連続の法則が効いている 18
学習後の
Conv-TasNet
推定音響1
推定音響2
実験2: Sequential Groupingに関する実験その3
• 聴覚における知見:音色が違い(調音の度数の組み合わせの違いが一音か二音
かに影響するか(類似(similarity)の法則)
• (実験2-3)
– 2つのトーンは同じ基本周波数を持つが、この2つは異なる連続した3つ度数の調音を
持っている時、一音か二音か?(例)T1~T10の異なるトーンを作っておく T1:F0+調度
1+2+3 T2:F0+調度2+3+4, ….
• 実験の入出力
• 実験結果
– 度数の組み合わせが類似のものは、一音。違うものは、二音。
– 類似の法則に従う
• 聴覚と類似の類似の法則に従う 19
学習後の
Conv-TasNet
推定音響1
推定音響2
実験3: SimulaneousとSequential が同時発生の実験
• 聴覚での知見:現在の特徴のなかで直前の状態の連続線上にあると考
えられものはそのまま居続けてよい
• (実験3-1)
– 同じ発生源が複数の特徴量を生成するときは、simultaneousとsequential
groupingの両方が同時に発声することがある。その時の振る舞いを実験する
• 実験の入出力
– BをAとCの両方が自分の方に取り込んで一音にしようとする
– B:周波数固定、
– A:Seq groupingのProximity入力(対BでΔF0とTRTが可動)
– C:Sim groupingの入力
(対BでΔF0とΔonsetが
可動)
20
学習後の
Conv-TasNet
推定音響1
推定音響2
実験3: SimulaneousとSequential が同時発生の実験
• 実験結果
–a, b) A対B+C
• Sim: 強. BとCは一音
• Seq: 強. AとBは二音
→SimとSeq: A対B+Cで共同
–C)AとCはBを巡って拮抗し
ている
–C1)A+B対C
• Sim: 強い. BとCは一音
• Seq: 最強:continuity AとBは連
続法則に従うために一音
→ seq > simのため、 A+B対C
–C2)A対B+C
• Sim: 強.B+Cは一音
• Seq: 弱.
→ seq < simのため、 A対B+C
21
–c3)A+B対C
• Sim: 弱. BとCは二音
• Seq: 中:AとBは一音
→ seq > simのため、A+B対
C
d)A+B+Cが一音
Sim: 弱.BとCは二音
Seq: 弱. A+Bは一音
→ TRT:大では、seqが支配的な
ため、A+B+Cが一音
実験3: SimulaneousとSequential が同時発生の実験
• 実験結果続き
– Simultaneousとsequentialのどちらが主導権を握るかは、場合によるので、一概
に言えない
22
著者たちの考察
• 本論は、分離メカニズムの中身は考えずにdata-drivenで分離タスクを実
現しようする深層学習の流れに乗った研究に基づく
– 教師あり深層学習でSOTAを出す名覚まし成果が上がってきている
– しかし、これらの深層学習モデルは、音響統計をベースにした重畳音響分離タス
クを最適化するモデルであり、生物学的に望ましいnetworkをモデルに採用する
努力はしていない
– それでも、一般音響重畳入力の音響統計ベースに即して学習したモデルが、心理
音響実験において、Simultaneous GroupingやSequential Groupingなど、
gestalt principleに基づく人間の聴覚の分離メカニズムに従った振る舞いを示す
ことが初めて分かった。
– 深層学習のゴールは、人間と同様な最適解を自発的に学習することなのか?それ
は可能なのか?この問いに対して、今回のモデルが、純粋に信号処理をベースに
したことだけで、聴覚の音声分離メカニズムが自発的に出現したということを深
く掘りさげると、深層学習や聴覚脳神経学の今後の研究に有益な示唆をあたえる
ものと信じている。
23
まとめと感想
• まとめ
– 一般音響重畳入力の音響統計をベースにしたConv-TasNetに、一般的な重畳音響を分離する教
師あり学習をさせたところ、心理音響実験で、Gestalt principleに基づく人間の聴覚の分離メカ
ニズムに従った振る舞いを示すことが初めて分かった
– 何故、Conv-Tasnetで起こったのか、明確な理由はわかっていない。今後の研究課題である
• 感想
– Conv-TasNetのどの部分が貢献して、Gestalt principleに従う分離メカニズムが構築されるのか?
一つはseparatorの構造が1D-dilated-Convのblockが多重になっており, Temporary Convolution
Network(TCN)と呼ぶ構造を持っている。これは、受容野を最大1秒まで広げる効果があり、
simultaneousとsequential groupingの時系列パターンの形成に役立っていることは確かだ。しか
し、それだけで、聴覚のGestalt principleに基づく分離メカニズムを自発的に学習するとは本当
か?
– Conv-TasNet以外のNetworkでは同様なGestalt principleに基づく人間の聴覚の分離メカニズムを
示すものはあるのか?
24
END
25

More Related Content

What's hot

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知Chihiro Kusunoki
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 西岡 賢一郎
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 

What's hot (20)

Point net
Point netPoint net
Point net
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 

Similar to 【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation”

[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Plot Hong
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
Speech discrimination test with mixed noise SY11-3
Speech discrimination test with mixed noise SY11-3Speech discrimination test with mixed noise SY11-3
Speech discrimination test with mixed noise SY11-3TeruKamogashira
 
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational AutoencodersDeep Learning JP
 
INTERSPEECH2022yomi.pdf
INTERSPEECH2022yomi.pdfINTERSPEECH2022yomi.pdf
INTERSPEECH2022yomi.pdfHayato Futami
 
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響Keiichi Yasu
 
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...Deep Learning JP
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio SynthesisDeep Learning JP
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 

Similar to 【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation” (17)

[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
Speech discrimination test with mixed noise SY11-3
Speech discrimination test with mixed noise SY11-3Speech discrimination test with mixed noise SY11-3
Speech discrimination test with mixed noise SY11-3
 
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
 
INTERSPEECH2022yomi.pdf
INTERSPEECH2022yomi.pdfINTERSPEECH2022yomi.pdf
INTERSPEECH2022yomi.pdf
 
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
 
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
 
Nishimoto110111twcu p2
Nishimoto110111twcu p2Nishimoto110111twcu p2
Nishimoto110111twcu p2
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Slp201702
Slp201702Slp201702
Slp201702
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 

Recently uploaded (11)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation”

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Gestalt Principles Emerge When Learning Universal Sound Source Separation Hiroshi Sekiguchi, Morikawa Lab
  • 2. 書誌情報 • “Gestalt Principles Emerge When Learning Universal Sound Source Separation” H. Li, K. Chen and B. U. Seeber, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 1877-1891, 2022, doi: 10.1109/TASLP.2022.3178233 https://ieeexplore.ieee.org/document/9783204 • 概要 – 一般的な音響源(音声、楽曲、環境音)の重複音響信号の分離を、教 師あり深層学習することで、脳内に生来存在すると言われている Gestalt principleが出現することを初めて確認 – Gestalt principleとは:脳内の感覚機能(視覚、聴覚、嗅覚など)に関 して、重畳刺激から、proximity, continuity, similarity等の原則に従って、 感覚情景物体(外界の刺激発生源に対応する脳内の源)を脳内にグ ルーピングして形成するという考え • 動機 – 複数音声分離のメカニズムに興味 2
  • 3. アジェンダ • 背景 – Gestalt principle – Auditory Scene Analysis (ASA) – Computational Scene Analysis (CASA) – Deep learning手法によるConv-TasNet • 提案手法:一般音響の重畳入力でのモデル学習 • 評価結果:一般音響の重畳分離性能 • モデルの心理音響実験と評価結果 • まとめ • 感想 3
  • 4. 背景: 重畳音響分離研究の2つの流れ • 聴覚のメカニズムを解析して工学的に実現しようとする流れ – 脳内の感覚器の構造に関する原則:Gestalt principle ↓ – 聴覚の重畳分離メカニズムの知見を集める研究:Auditory Scene Analysis (ASA) • 被験者に心理音響的実験を行い、その振る舞いから知見を集める ↓ – 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計して構築 する:Computational Scene Analysis (CASA) • 手設計のため、key-pointの取りこぼしなど有り→分離性能を評価は限定的 • 分離メカニズムの中身は考えずにdata-drivenで分離タスクを実現しようする 深層学習の流れ – 2010年以降のDeep-Learningの教師あり学習を使う – 音響統計に基づく分離タスクを達成することで、分離性能は改善している(SOTA) 4
  • 5. 背景: 重畳音響分離研究の2つの流れ • 本論では、深層学習の流れで学習したモデルを被験対象にして、 Auditory Scene Analysis (ASA)の心理音響的実験を施したところ、人間の被 験者と同様の振る舞いを示した – Auditory Scene Analysis (ASA)の元になるGestalt principleが学習モデル内に 獲得できたことになる。 – 何故、獲得できたのか、理由は解析中 5
  • 6. 背景:Gestalt principle • 感覚器(目、耳、鼻、etc)が受ける、複数発生源からの同時外界刺激から、発生 源単体の感覚情景物体を、個別にグループ化し分離する仕組みが、生来、脳内 で組み込まれている • ドイツの心理学者・ヴェルトハイマー(1880~1943)から生まれた「ゲシュタ ルト心理学」における中心的な概念 近接の法則(Law of Proximity):「距離が近い特徴は同じグループ」 類同の法則(Law of Similarity):「色や形が似ている特徴は同じグループ) 連続の法則(Law of Continuity):「連続的に変化する特徴は離散的に変化する特徴 よりも同じグループ」 共通運命の法則(Law of Common Fate):「同じ方向に動いている特徴や、同じ周 期で点滅している特徴は同じグループ」 6 網 膜 光 視覚の場合 Gestalt principle 視覚シーン 神経励起 信号 犬の 鳴声 風の音 人の声 蝸 牛 視覚情景 物体 特徴 抽出 Gestalt principle 特徴 抽出 神経励起 信号 聴覚シーン 聴覚の場合 犬の 鳴声 風の音 人の声 聴覚情景 物体
  • 7. 背景:Auditory Scene Analysis (ASA) • Gestalt principleをベースに、聴覚の重畳分離メカニズムの知見を集める研究 - Bregman, A. S.: Auditory Scene Analysis : The Perceptual Organization of Sound, MIT Press, Cambridge, Massachusetts, U.S.A. (1990). - Middlebrooks, J. C., Simon, J. Z., Popper, A. N. and Fay, R. R. :The Auditory System at the Cocktail Party, Springer Handbook of Auditory Research, Springer Nature Switzerland AG., Cham, Switzerland, (2017). • 心理学音響実験による知見 – 被験者:人間 – 入力音:種々のトーン – 被験者の判断:単一音or複数音に知覚 • 2つのパス – Primitive Grouping: Bottom-up process • Simultaneous Grouping:ピッチ、調音、onset、AM、FM • Sequential Grouping:上記特徴量のproximity, continuity, similarity, common fateをベースにgrouping – Schema-driven: Top-down process • Attention: 注目する発声体に脳内の振る舞いが注力 7 (抜粋) The Auditory System at the Cocktail Party
  • 8. 背景: Computational Scene Analysis (CASA) • 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計 - D. Wang and G. J. Brown, “Fundamentals of computational auditory scene analysis,” in Computational Auditory Scene Analysis: Principles, Algorithms, and Applications, D. Wang and G. J. Brown, Eds., Hoboken • ASAのPrimitive Grouping: Bottom-up processを2つ工程から作る – Segmentation、Grouping: • 聴覚器官の工程を細分化し、それぞれ数理モデル化し、設計後、接続してシ ステムにする→音声を実用で分離可能なレベルでは無い 8 (抜粋) M. Elhilali and S. A. Shamma, “A cocktail party with a cortical twist: Howcortical mechanisms contribute to sound segregation,” J. Acoust. Soc. Amer., vol. 124, no. 6, pp. 3751–3771, 2008
  • 9. 背景:Conv-TasNet 9 • 重畳音声(音声ー音声)分離モデル • Network構成 – Encoder-Separator-decoder構造 – Encoder/Decoder: 1-D Conv – Separator: 複数 Dilated 1-D Convolution Blockベースの分割マスク 推定法 • 入力信号:重畳音声 𝑦(𝑡) • 出力:分離後の単話者音声 Ƹ 𝑠𝑖, 𝑖 = 1, ⋯ , 𝐶: 話者数𝐶 • Loss関数:SI-SNR (抜粋 )Luo, Y. and Mesgarani, N.: Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 27, No. 8, pp. 1256–1266 (2019).
  • 10. 提案手法:一般音響の重畳入力でのモデル学習 • Data set – 一般的な音響信号全般 • 音声:LibriSpeech • 楽曲:musan • 環境音:BBC sound effect – 上記3つカテゴリから重複を許して2つ選び、重畳するクリップを作成 • 計6通り – 重畳音響信号のSNRは-5dB~5dBからランダム – 訓練data:126000クリップ(150時間)、Validation data: 36000クリップ(30時間)、テスト data: 18000クリップ(15時間) • Conv-TasNetを学習data/validation dataで学習して、test dataで分離後音声品質改善 度(SiSNRi)でモデルを評価する – これで、Conv-TasNetが一般音響信号の混在環境を学習した 10
  • 11. 評価結果:評価結果:一般音響の重畳分離性能その1 • 結果 – Conv-TasNetは、音声を含むdatasetの分類で性能が高い。 – Conv-TasNetはIRMよりも良い → Conv-TasNetがユニークな調音構造を学習できているから – 音声を含む場合は、Windows長は短い2msecから順番に分離性能がよい→音声には2msec程ま での時間解像度が必要 – 楽曲ー楽曲のpairが悪い 11
  • 13. 評価方法:モデルの心理音響実験 • 一般重畳音響で学習したConv-TasNetモデルを被 験者に置き換えて、Gestalt princileから導かれた Auditort Scene Anaysis(ASA)で用いる心理音響実験 を行う • 目的は、学習したモデルにgestaltな原則が学習で きているか否かを評価する • ASAにおけるbottom-up processに関する実験 – Simultaneous Groupingに関する実験(実験1) – Sequential Groupingに関する実験(実験2) – 2つのGroupingメカニズムが同時に起こる場合に、 協調するか競合するかを確認する実験(実験3) – 調音を持つ複雑入力(音声)を使ったGroupingの実 験(実験4)→理解が不十分のため今回割愛します 13
  • 14. 実験1: Simultaneous Groupingに関する実験その1 • 聴覚のおける知見:調音構造になっている音は一つの音 • (実験1-1)調音の入力に対する振る舞い – 2つのトーン(各トーンは3つの調音(整数倍の周波数成分)を 持つ)は一つの音かそれとも2つの音か?(F0=110Hz, 165Hz) • 実験の入出力:onset時間差は0 • 実験結果 – 2つのトーンが調音を共有する時は 1つの音に聞こえる – 2つのトーンが調音を共有しない時は 2つの音に聞こえる • 人間の聴覚の振る舞いと同じ 14 学習後の Conv-TasNet 推定音響1 推定音響2
  • 15. 実験1: Simultaneous Groupingに関する実験その2 • 聴覚における知見:onsetの時間差は調音とは独立に判定 • (実験1-2)onsetのズレに対する振る舞い – 2つのトーン(各トーンは3つの調音(整数倍の周波数成分)を持 つ)がonset時間に差が有るとき、一つの音かそれとも2つの音か? • 実験の入出力 • 実験結果 – 2つの入力トーンの基本周波数の差ΔF0によって、振る舞いが違う • (例)Δfoが小さい場合は一音にしか聞こえなかいが、onsetが大きいと二音 – Onsetの時間差は調音とは独立だ • 人間の聴覚の振る舞いと同じ 15 学習後の Conv-TasNet 推定音響1 推定音響2 一音から二音 へ認知が変化
  • 16. 実験1: Simultaneous Groupingに関する実験その3 • 聴覚による知見:同じAMやFMが掛かる信号等は、一音に なる→共通運命(fate principle)の法則に従う • (実験1-3)AMやFMが掛かる場合の振る舞い • 実験の入出力 – 一トーンの全調音にのみ同じAMあるいはFMを適用 • 実験結果 – 2つのトーンが調音を共有していて、AMでもFMでも rate=0,depth=0では強い調音関係のために一音だったものが、 一方のトーンにのみAMあるいはFMを施すと途端に2音に認識す る – 共通運命の法則に従っている • 人間の聴覚と同じ(音節に相当する約3Hzにpeakあり) 16 学習後の Conv-TasNet 推定音響1 推定音響2 音節に相当の約3Hzにpeak
  • 17. 実験2: Sequential Groupingに関する実験その1 • 聴覚における知見:ΔF0とTRTでvan Noordenのtemporal coherence boundaryが観測される→周波数と時間の両 方で近いcomponentは一音になる(近接(proximity) の法則) • (実験2-1)近接の法則が効いているか? • 実験の入出力 • 実験結果 – temporal coherence boundary と類似の境界線が得られた • 聴覚と同じ近接の法則が効いている 17 学習後の Conv-TasNet 推定音響1 推定音響2
  • 18. 実験2: Sequential Groupingに関する実験その2 • 聴覚における知見:連続的な同じ動きをする ものは一音(連続(Continuityの法則) • (実験2-2)連続の法則が効いているか – 2つのトーン間の遷移時に周波数を連続的にかえる と、離散にかえるとの差が有るか • 実験の入出力 • 実験結果 – 同一の連続時遷移のものは、離散的な遷移と比較し て一音として見られ易い – 連続の法則が効いている • 聴覚と類似の連続の法則が効いている 18 学習後の Conv-TasNet 推定音響1 推定音響2
  • 19. 実験2: Sequential Groupingに関する実験その3 • 聴覚における知見:音色が違い(調音の度数の組み合わせの違いが一音か二音 かに影響するか(類似(similarity)の法則) • (実験2-3) – 2つのトーンは同じ基本周波数を持つが、この2つは異なる連続した3つ度数の調音を 持っている時、一音か二音か?(例)T1~T10の異なるトーンを作っておく T1:F0+調度 1+2+3 T2:F0+調度2+3+4, …. • 実験の入出力 • 実験結果 – 度数の組み合わせが類似のものは、一音。違うものは、二音。 – 類似の法則に従う • 聴覚と類似の類似の法則に従う 19 学習後の Conv-TasNet 推定音響1 推定音響2
  • 20. 実験3: SimulaneousとSequential が同時発生の実験 • 聴覚での知見:現在の特徴のなかで直前の状態の連続線上にあると考 えられものはそのまま居続けてよい • (実験3-1) – 同じ発生源が複数の特徴量を生成するときは、simultaneousとsequential groupingの両方が同時に発声することがある。その時の振る舞いを実験する • 実験の入出力 – BをAとCの両方が自分の方に取り込んで一音にしようとする – B:周波数固定、 – A:Seq groupingのProximity入力(対BでΔF0とTRTが可動) – C:Sim groupingの入力 (対BでΔF0とΔonsetが 可動) 20 学習後の Conv-TasNet 推定音響1 推定音響2
  • 21. 実験3: SimulaneousとSequential が同時発生の実験 • 実験結果 –a, b) A対B+C • Sim: 強. BとCは一音 • Seq: 強. AとBは二音 →SimとSeq: A対B+Cで共同 –C)AとCはBを巡って拮抗し ている –C1)A+B対C • Sim: 強い. BとCは一音 • Seq: 最強:continuity AとBは連 続法則に従うために一音 → seq > simのため、 A+B対C –C2)A対B+C • Sim: 強.B+Cは一音 • Seq: 弱. → seq < simのため、 A対B+C 21 –c3)A+B対C • Sim: 弱. BとCは二音 • Seq: 中:AとBは一音 → seq > simのため、A+B対 C d)A+B+Cが一音 Sim: 弱.BとCは二音 Seq: 弱. A+Bは一音 → TRT:大では、seqが支配的な ため、A+B+Cが一音
  • 22. 実験3: SimulaneousとSequential が同時発生の実験 • 実験結果続き – Simultaneousとsequentialのどちらが主導権を握るかは、場合によるので、一概 に言えない 22
  • 23. 著者たちの考察 • 本論は、分離メカニズムの中身は考えずにdata-drivenで分離タスクを実 現しようする深層学習の流れに乗った研究に基づく – 教師あり深層学習でSOTAを出す名覚まし成果が上がってきている – しかし、これらの深層学習モデルは、音響統計をベースにした重畳音響分離タス クを最適化するモデルであり、生物学的に望ましいnetworkをモデルに採用する 努力はしていない – それでも、一般音響重畳入力の音響統計ベースに即して学習したモデルが、心理 音響実験において、Simultaneous GroupingやSequential Groupingなど、 gestalt principleに基づく人間の聴覚の分離メカニズムに従った振る舞いを示す ことが初めて分かった。 – 深層学習のゴールは、人間と同様な最適解を自発的に学習することなのか?それ は可能なのか?この問いに対して、今回のモデルが、純粋に信号処理をベースに したことだけで、聴覚の音声分離メカニズムが自発的に出現したということを深 く掘りさげると、深層学習や聴覚脳神経学の今後の研究に有益な示唆をあたえる ものと信じている。 23
  • 24. まとめと感想 • まとめ – 一般音響重畳入力の音響統計をベースにしたConv-TasNetに、一般的な重畳音響を分離する教 師あり学習をさせたところ、心理音響実験で、Gestalt principleに基づく人間の聴覚の分離メカ ニズムに従った振る舞いを示すことが初めて分かった – 何故、Conv-Tasnetで起こったのか、明確な理由はわかっていない。今後の研究課題である • 感想 – Conv-TasNetのどの部分が貢献して、Gestalt principleに従う分離メカニズムが構築されるのか? 一つはseparatorの構造が1D-dilated-Convのblockが多重になっており, Temporary Convolution Network(TCN)と呼ぶ構造を持っている。これは、受容野を最大1秒まで広げる効果があり、 simultaneousとsequential groupingの時系列パターンの形成に役立っていることは確かだ。しか し、それだけで、聴覚のGestalt principleに基づく分離メカニズムを自発的に学習するとは本当 か? – Conv-TasNet以外のNetworkでは同様なGestalt principleに基づく人間の聴覚の分離メカニズムを 示すものはあるのか? 24