【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation”

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Gestalt Principles Emerge When Learning
Universal Sound Source Separation
Hiroshi Sekiguchi, Morikawa Lab

書誌情報
• “Gestalt Principles Emerge When Learning Universal Sound
Source Separation”
H. Li, K. Chen and B. U. Seeber, IEEE/ACM Transactions on Audio, Speech, and Language
Processing, vol. 30, pp. 1877-1891, 2022, doi: 10.1109/TASLP.2022.3178233
https://ieeexplore.ieee.org/document/9783204
• 概要
– 一般的な音響源（音声、楽曲、環境音）の重複音響信号の分離を、教
師あり深層学習することで、脳内に生来存在すると言われている
Gestalt principleが出現することを初めて確認
– Gestalt principleとは：脳内の感覚機能（視覚、聴覚、嗅覚など）に関
して、重畳刺激から、proximity, continuity, similarity等の原則に従って、
感覚情景物体（外界の刺激発生源に対応する脳内の源）を脳内にグ
ルーピングして形成するという考え
• 動機
– 複数音声分離のメカニズムに興味
2

アジェンダ
• 背景
– Gestalt principle
– Auditory Scene Analysis (ASA)
– Computational Scene Analysis (CASA)
– Deep learning手法によるConv-TasNet
• 提案手法：一般音響の重畳入力でのモデル学習
• 評価結果：一般音響の重畳分離性能
• モデルの心理音響実験と評価結果
• まとめ
• 感想
3

背景: 重畳音響分離研究の２つの流れ
• 聴覚のメカニズムを解析して工学的に実現しようとする流れ
– 脳内の感覚器の構造に関する原則：Gestalt principle
↓
– 聴覚の重畳分離メカニズムの知見を集める研究：Auditory Scene Analysis (ASA)
• 被験者に心理音響的実験を行い、その振る舞いから知見を集める
↓
– 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計して構築
する：Computational Scene Analysis (CASA)
• 手設計のため、key-pointの取りこぼしなど有り→分離性能を評価は限定的
• 分離メカニズムの中身は考えずにdata-drivenで分離タスクを実現しようする
深層学習の流れ
– 2010年以降のDeep-Learningの教師あり学習を使う
– 音響統計に基づく分離タスクを達成することで、分離性能は改善している(SOTA)
4

背景: 重畳音響分離研究の２つの流れ
• 本論では、深層学習の流れで学習したモデルを被験対象にして、
Auditory Scene Analysis (ASA)の心理音響的実験を施したところ、人間の被
験者と同様の振る舞いを示した
– Auditory Scene Analysis (ASA)の元になるGestalt principleが学習モデル内に
獲得できたことになる。
– 何故、獲得できたのか、理由は解析中
5

背景:Gestalt principle
• 感覚器(目、耳、鼻、etc)が受ける、複数発生源からの同時外界刺激から、発生
源単体の感覚情景物体を、個別にグループ化し分離する仕組みが、生来、脳内
で組み込まれている
• ドイツの心理学者・ヴェルトハイマー（1880～1943）から生まれた「ゲシュタ
ルト心理学」における中心的な概念
近接の法則（Law of Proximity）:「距離が近い特徴は同じグループ」
類同の法則（Law of Similarity）:「色や形が似ている特徴は同じグループ）
連続の法則（Law of Continuity）:「連続的に変化する特徴は離散的に変化する特徴
よりも同じグループ」
共通運命の法則（Law of Common Fate）：「同じ方向に動いている特徴や、同じ周
期で点滅している特徴は同じグループ」
6
網
膜
光
視覚の場合
Gestalt
principle
視覚シーン
神経励起
信号
犬の
鳴声
風の音
人の声
蝸
牛
視覚情景
物体
特徴
抽出
Gestalt
principle
特徴
抽出
神経励起
信号
聴覚シーン聴覚の場合
犬の
鳴声
風の音
人の声
聴覚情景
物体

背景：Auditory Scene Analysis (ASA)
• Gestalt principleをベースに、聴覚の重畳分離メカニズムの知見を集める研究
- Bregman, A. S.: Auditory Scene Analysis : The Perceptual
Organization of Sound, MIT Press, Cambridge, Massachusetts,
U.S.A. (1990).
- Middlebrooks, J. C., Simon, J. Z., Popper, A. N. and Fay, R. R.
:The Auditory System at the Cocktail Party, Springer
Handbook of Auditory Research, Springer Nature Switzerland
AG., Cham, Switzerland, (2017).
• 心理学音響実験による知見
– 被験者：人間
– 入力音：種々のトーン
– 被験者の判断：単一音or複数音に知覚
• ２つのパス
– Primitive Grouping: Bottom-up process
• Simultaneous Grouping：ピッチ、調音、onset、AM、FM
• Sequential Grouping：上記特徴量のproximity,
continuity, similarity, common fateをベースにgrouping
– Schema-driven: Top-down process
• Attention: 注目する発声体に脳内の振る舞いが注力
7
(抜粋) The Auditory System at
the Cocktail Party

背景: Computational Scene Analysis (CASA)
• 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計
- D. Wang and G. J. Brown, “Fundamentals of computational auditory
scene analysis,” in Computational Auditory Scene Analysis: Principles,
Algorithms, and Applications, D. Wang and G. J. Brown, Eds., Hoboken
• ASAのPrimitive Grouping: Bottom-up processを２つ工程から作る
– Segmentation、Grouping:
• 聴覚器官の工程を細分化し、それぞれ数理モデル化し、設計後、接続してシ
ステムにする→音声を実用で分離可能なレベルでは無い
8
（抜粋） M. Elhilali
and S. A. Shamma, “A
cocktail party with a
cortical twist:
Howcortical
mechanisms contribute
to sound segregation,” J.
Acoust. Soc.
Amer., vol. 124, no. 6,
pp. 3751–3771, 2008

背景：Conv-TasNet
9
• 重畳音声（音声ー音声）分離モデル
• Network構成
– Encoder-Separator-decoder構造
– Encoder/Decoder: 1-D Conv
– Separator: 複数 Dilated 1-D
Convolution Blockベースの分割マスク
推定法
• 入力信号：重畳音声 𝑦(𝑡)
• 出力：分離後の単話者音声 Ƹ
𝑠𝑖, 𝑖 =
1, ⋯ , 𝐶: 話者数𝐶
• Loss関数：SI-SNR
(抜粋 )Luo, Y. and Mesgarani, N.: Conv-TasNet: Surpassing Ideal
Time-Frequency Magnitude Masking for Speech Separation,
IEEE/ACM Transactions on Audio, Speech, and Language
Processing, Vol. 27, No. 8, pp. 1256–1266 (2019).

提案手法：一般音響の重畳入力でのモデル学習
• Data set
– 一般的な音響信号全般
• 音声：LibriSpeech
• 楽曲：musan
• 環境音：BBC sound effect
– 上記3つカテゴリから重複を許して２つ選び、重畳するクリップを作成
• 計6通り
– 重畳音響信号のSNRは-5dB～5dBからランダム
– 訓練data：126000クリップ（150時間）、Validation data: 36000クリップ(30時間）、テスト data:
18000クリップ(15時間)
• Conv-TasNetを学習data/validation dataで学習して、test dataで分離後音声品質改善
度（SiSNRi)でモデルを評価する
– これで、Conv-TasNetが一般音響信号の混在環境を学習した
10

評価結果：評価結果：一般音響の重畳分離性能その１
• 結果
– Conv-TasNetは、音声を含むdatasetの分類で性能が高い。
– Conv-TasNetはIRMよりも良い → Conv-TasNetがユニークな調音構造を学習できているから
– 音声を含む場合は、Windows長は短い2msecから順番に分離性能がよい→音声には2msec程ま
での時間解像度が必要
– 楽曲ー楽曲のpairが悪い
11

評価結果：評価結果：一般音響の重畳分離性能その２
• 入力SNRが悪いものほど、改善幅Si-SNRiは良くなる：
– 全カテゴリーに共通
• 分離後のspectrogram上も、上手く分離できていることが確認できた。
12

評価方法：モデルの心理音響実験
• 一般重畳音響で学習したConv-TasNetモデルを被
験者に置き換えて、Gestalt princileから導かれた
Auditort Scene Anaysis(ASA)で用いる心理音響実験
を行う
• 目的は、学習したモデルにgestaltな原則が学習で
きているか否かを評価する
• ASAにおけるbottom-up processに関する実験
– Simultaneous Groupingに関する実験（実験１）
– Sequential Groupingに関する実験（実験２）
– ２つのGroupingメカニズムが同時に起こる場合に、
協調するか競合するかを確認する実験（実験３）
– 調音を持つ複雑入力（音声）を使ったGroupingの実
験（実験４）→理解が不十分のため今回割愛します
13

実験１： Simultaneous Groupingに関する実験その１
• 聴覚のおける知見：調音構造になっている音は一つの音
• （実験１－１）調音の入力に対する振る舞い
– ２つのトーン（各トーンは３つの調音（整数倍の周波数成分）を
持つ）は一つの音かそれとも２つの音か？（F0=110Hz, 165Hz)
• 実験の入出力：onset時間差は0
• 実験結果
– ２つのトーンが調音を共有する時は
１つの音に聞こえる
– ２つのトーンが調音を共有しない時は
２つの音に聞こえる
• 人間の聴覚の振る舞いと同じ 14
学習後の
Conv-TasNet
推定音響１
推定音響２

実験１： Simultaneous Groupingに関する実験その２
• 聴覚における知見：onsetの時間差は調音とは独立に判定
• （実験１－２）onsetのズレに対する振る舞い
– ２つのトーン（各トーンは３つの調音（整数倍の周波数成分）を持
つ）がonset時間に差が有るとき、一つの音かそれとも２つの音か？
• 実験の入出力
• 実験結果
– ２つの入力トーンの基本周波数の差ΔF0によって、振る舞いが違う
• （例）Δfoが小さい場合は一音にしか聞こえなかいが、onsetが大きいと二音
– Onsetの時間差は調音とは独立だ
• 人間の聴覚の振る舞いと同じ 15
学習後の
Conv-TasNet
推定音響１
推定音響２
一音から二音
へ認知が変化

実験１： Simultaneous Groupingに関する実験その３
• 聴覚による知見：同じAMやFMが掛かる信号等は、一音に
なる→共通運命（fate principle)の法則に従う
• （実験１－３）AMやFMが掛かる場合の振る舞い
– 一トーンの全調音にのみ同じAMあるいはFMを適用
• 実験結果
– ２つのトーンが調音を共有していて、AMでもFMでも
rate=0,depth=0では強い調音関係のために一音だったものが、
一方のトーンにのみAMあるいはFMを施すと途端に2音に認識す
る
– 共通運命の法則に従っている
• 人間の聴覚と同じ（音節に相当する約3Hzにpeakあり）
16
学習後の
Conv-TasNet
推定音響１
推定音響２
音節に相当の約3Hzにpeak

実験２： Sequential Groupingに関する実験その１
• 聴覚における知見：ΔF0とTRTでvan Noordenのtemporal
coherence boundaryが観測される→周波数と時間の両
方で近いcomponentは一音になる（近接（proximity）
の法則）
• （実験２－１）近接の法則が効いているか？
• 実験結果
– temporal coherence boundary と類似の境界線が得られた
• 聴覚と同じ近接の法則が効いている 17
学習後の
Conv-TasNet
推定音響１
推定音響２

実験２： Sequential Groupingに関する実験その２
• 聴覚における知見：連続的な同じ動きをする
ものは一音（連続（Continuityの法則）
• （実験２－２）連続の法則が効いているか
– ２つのトーン間の遷移時に周波数を連続的にかえる
と、離散にかえるとの差が有るか
• 実験結果
– 同一の連続時遷移のものは、離散的な遷移と比較し
て一音として見られ易い
– 連続の法則が効いている
• 聴覚と類似の連続の法則が効いている 18
学習後の
Conv-TasNet
推定音響１
推定音響２

実験２： Sequential Groupingに関する実験その３
• 聴覚における知見：音色が違い（調音の度数の組み合わせの違いが一音か二音
かに影響するか（類似（similarity)の法則）
• （実験２－３）
– ２つのトーンは同じ基本周波数を持つが、この２つは異なる連続した３つ度数の調音を
持っている時、一音か二音か？（例）T1～T10の異なるトーンを作っておく T1:F0+調度
1+2+3 T2:F0+調度2+3+4, ….
• 実験結果
– 度数の組み合わせが類似のものは、一音。違うものは、二音。
– 類似の法則に従う
• 聴覚と類似の類似の法則に従う 19
学習後の
Conv-TasNet
推定音響１
推定音響２

実験３： SimulaneousとSequential が同時発生の実験
• 聴覚での知見：現在の特徴のなかで直前の状態の連続線上にあると考
えられものはそのまま居続けてよい
• （実験３－１）
– 同じ発生源が複数の特徴量を生成するときは、simultaneousとsequential
groupingの両方が同時に発声することがある。その時の振る舞いを実験する
– BをAとCの両方が自分の方に取り込んで一音にしようとする
– B：周波数固定、
– A：Seq groupingのProximity入力（対BでΔF0とTRTが可動）
– C：Sim groupingの入力
(対BでΔF0とΔonsetが
可動）
20
学習後の
Conv-TasNet
推定音響１
推定音響２

• 実験結果
–a, b) A対B＋C
• Sim: 強. BとCは一音
• Seq: 強. AとBは二音
→SimとSeq: A対B＋Cで共同
–C)AとCはBを巡って拮抗し
ている
–C1）A＋B対C
• Sim: 強い. BとCは一音
• Seq: 最強：continuity AとBは連
続法則に従うために一音
→ seq > simのため、 A＋B対C
–C2）A対B＋C
• Sim: 強．B＋Cは一音
• Seq: 弱.
→ seq < simのため、 A対B＋C
21
–c3）A＋B対C
• Sim: 弱. BとCは二音
• Seq: 中：AとBは一音
→ seq > simのため、A＋B対
C
d）A＋B＋Cが一音
Sim: 弱．BとCは二音
Seq: 弱. A＋Bは一音
→ TRT:大では、seqが支配的な
ため、A＋B＋Cが一音

• 実験結果続き
– Simultaneousとsequentialのどちらが主導権を握るかは、場合によるので、一概
に言えない
22

著者たちの考察
• 本論は、分離メカニズムの中身は考えずにdata-drivenで分離タスクを実
現しようする深層学習の流れに乗った研究に基づく
– 教師あり深層学習でSOTAを出す名覚まし成果が上がってきている
– しかし、これらの深層学習モデルは、音響統計をベースにした重畳音響分離タス
クを最適化するモデルであり、生物学的に望ましいnetworkをモデルに採用する
努力はしていない
– それでも、一般音響重畳入力の音響統計ベースに即して学習したモデルが、心理
音響実験において、Simultaneous GroupingやSequential Groupingなど、
gestalt principleに基づく人間の聴覚の分離メカニズムに従った振る舞いを示す
ことが初めて分かった。
– 深層学習のゴールは、人間と同様な最適解を自発的に学習することなのか？それ
は可能なのか？この問いに対して、今回のモデルが、純粋に信号処理をベースに
したことだけで、聴覚の音声分離メカニズムが自発的に出現したということを深
く掘りさげると、深層学習や聴覚脳神経学の今後の研究に有益な示唆をあたえる
ものと信じている。
23

まとめと感想
• まとめ
– 一般音響重畳入力の音響統計をベースにしたConv-TasNetに、一般的な重畳音響を分離する教
師あり学習をさせたところ、心理音響実験で、Gestalt principleに基づく人間の聴覚の分離メカ
ニズムに従った振る舞いを示すことが初めて分かった
– 何故、Conv-Tasnetで起こったのか、明確な理由はわかっていない。今後の研究課題である
• 感想
– Conv-TasNetのどの部分が貢献して、Gestalt principleに従う分離メカニズムが構築されるのか？
一つはseparatorの構造が1D-dilated-Convのblockが多重になっており, Temporary Convolution
Network(TCN)と呼ぶ構造を持っている。これは、受容野を最大1秒まで広げる効果があり、
simultaneousとsequential groupingの時系列パターンの形成に役立っていることは確かだ。しか
し、それだけで、聴覚のGestalt principleに基づく分離メカニズムを自発的に学習するとは本当
か？
– Conv-TasNet以外のNetworkでは同様なGestalt principleに基づく人間の聴覚の分離メカニズムを
示すものはあるのか？
24

【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation”

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation”

Similar to 【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation” (17)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (11)

【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separation”