7. 背景:Auditory Scene Analysis (ASA)
• Gestalt principleをベースに、聴覚の重畳分離メカニズムの知見を集める研究
- Bregman, A. S.: Auditory Scene Analysis : The Perceptual
Organization of Sound, MIT Press, Cambridge, Massachusetts,
U.S.A. (1990).
- Middlebrooks, J. C., Simon, J. Z., Popper, A. N. and Fay, R. R.
:The Auditory System at the Cocktail Party, Springer
Handbook of Auditory Research, Springer Nature Switzerland
AG., Cham, Switzerland, (2017).
• 心理学音響実験による知見
– 被験者:人間
– 入力音:種々のトーン
– 被験者の判断:単一音or複数音に知覚
• 2つのパス
– Primitive Grouping: Bottom-up process
• Simultaneous Grouping:ピッチ、調音、onset、AM、FM
• Sequential Grouping:上記特徴量のproximity,
continuity, similarity, common fateをベースにgrouping
– Schema-driven: Top-down process
• Attention: 注目する発声体に脳内の振る舞いが注力
7
(抜粋) The Auditory System at
the Cocktail Party
8. 背景: Computational Scene Analysis (CASA)
• 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計
- D. Wang and G. J. Brown, “Fundamentals of computational auditory
scene analysis,” in Computational Auditory Scene Analysis: Principles,
Algorithms, and Applications, D. Wang and G. J. Brown, Eds., Hoboken
• ASAのPrimitive Grouping: Bottom-up processを2つ工程から作る
– Segmentation、Grouping:
• 聴覚器官の工程を細分化し、それぞれ数理モデル化し、設計後、接続してシ
ステムにする→音声を実用で分離可能なレベルでは無い
8
(抜粋) M. Elhilali
and S. A. Shamma, “A
cocktail party with a
cortical twist:
Howcortical
mechanisms contribute
to sound segregation,” J.
Acoust. Soc.
Amer., vol. 124, no. 6,
pp. 3751–3771, 2008
9. 背景:Conv-TasNet
9
• 重畳音声(音声ー音声)分離モデル
• Network構成
– Encoder-Separator-decoder構造
– Encoder/Decoder: 1-D Conv
– Separator: 複数 Dilated 1-D
Convolution Blockベースの分割マスク
推定法
• 入力信号:重畳音声 𝑦(𝑡)
• 出力:分離後の単話者音声 Ƹ
𝑠𝑖, 𝑖 =
1, ⋯ , 𝐶: 話者数𝐶
• Loss関数:SI-SNR
(抜粋 )Luo, Y. and Mesgarani, N.: Conv-TasNet: Surpassing Ideal
Time-Frequency Magnitude Masking for Speech Separation,
IEEE/ACM Transactions on Audio, Speech, and Language
Processing, Vol. 27, No. 8, pp. 1256–1266 (2019).