[DL Hacks]“Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy”<LT>

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Spiking network optimized for noise robust word
recognition approaches human-level performance
and predicts auditory system hierarchy” <LT>
Hiroshi Sekiguchi, Morikawa Lab

アジェンダ
• 論文緒言
• 聴覚生理学で見られる階層的聴覚路(内耳～聴覚大脳皮質)の特性
• Hierarchical Spiking neural network
• シミュレーションの目的
• 評価
• まとめ
2

論文緒言
• タイトル：“Spiking network optimized for noise robust word recognition approaches
human-level performance and predicts auditory system hierarchy”
• 著者：Fatemeh Khatami and Monty A. Escabí
• 所属：Dept. of Biomedical Engineering, Depart. of Electrical and Computer Engineering, and
Dept. of Psychological Sciences, University of Connecticut, Storrs, CT
• 要旨
– 環境音や障害音声などの雑音下における聴覚の目標音声聞き取り能力は、そのメカニズムが未
だ解明できていない．
– 聴覚生理学で見られる，階層的聴覚路（内耳～聴覚大脳皮質）の時間分解能・周波数選択性・
励起電圧閾値の層間変化傾向は，雑音下音源分離に重要働きをしているという．この層間変化
傾向が．各層の音声信号コーディングをSpiking Neural Networkモデルで表現して雑音下で単語
認識を最適にした際のネットワーク特性で再現できることを示す．
– 雑音環境下での聴覚の特性は、同環境下で言語の認知を得る過程で形成されると考えられる
• 紹介するにあたっての動機
– 聴覚脳神経系の階層的聴覚路前半部が司る聴覚音声特徴量抽出機能の抽出方法を種々探してい
る．これを使って、重畳音声の分離の特徴抽出部としたい．
3

P𝑟(𝑦|𝑧):
聴覚生理学で見られる階層的聴覚路(内耳～聴覚大脳皮質)の特性
• 聴覚路：複数層のネットワーク
各層の物理特性が層間で、特定の傾向で連続的に変化する
• 物理特性：・時間解像度：層間の違いは大きい
内耳に近い層：1000Hz，大脳皮質に近い層：～25Hz
・周波数選択性
層間の変化は少ない．
前層の特定の入力
の組み合わせを
選択する機構あり．
4
第1層
階層的聴覚路
第2層・・・・第N層
内耳に近い聴覚大脳皮質近い
時間解像度τ
外
界
音
（
STFT)
脳
内
聴
覚
信
号
周
波
数
解
像
度

Hierarchical Spiking neural network (HSNN)(1)
• 聴覚生理学的に触発されたNetwork
• 蝸牛での周波数分析に類似したBPF群
• 各層のNeuronの位置は蝸牛の
周波数要素の並びをそのまま周到
• 各層のNeuronはシノプシスに類似
して前層と2種類の結合で繋がる
• 励起結合（Excitatory Connection)
• 𝑤𝑙,𝑚,𝑛
𝐸
=
1
2𝜋σ 𝐸
2
・𝑒−(𝑥 𝑙,𝑚−𝑥𝑙+1,𝑛)2/σ 𝐸
2
• 抑制結合（Inhibitory Connection)
• 𝑤𝑙,𝑚,𝑛
𝐼
=
1
2𝜋σ 𝐼
2
・𝑒−(𝑥 𝑙,𝑚−𝑥𝑙+1,𝑛)2/σ 𝐼
2
• 時間解像度（τ𝑙）→ τ𝐼 = 1.5 τ 𝐸 ，τ 𝐸 = τ𝑙
• 周波数選択性（σ𝑙）→ σ𝐼 = 1.5 σ 𝐸, σ 𝐸 = σ𝑙
• 励起電圧閾値（𝑁𝑙) 5
• 6層HSNNの出力：Spike Pattern
• 時間-周波数での励起強度パターン
• 単語認識分類器：
• シンプルなベイジアン分類器

6
• 音声データ：TI46LDC Corpus，英語10数字，合計8名(男女各4名)，
10回発声/話者・数字 → データ数：10単x8話x10＝800発声
• 音声＋障害音声（babble speech)： SNR＝-5,0,5,10,15,20dB
蝸
牛
時
点
SpikePattern
同じ話者の異なる単語の発声異なる話者の同じ単語の発声

• Modified leaky integrate-and –fire (LIF) neuronの動作
• 𝑙 + 1層のLIF Neuron 𝑛のintracellular電圧：
𝑣𝑙+1,𝑛 𝑡 = σ 𝑚 𝑤𝑙,𝑚,𝑛
𝐸
・ℎ 𝐸𝑃𝑆𝑃 𝑡 ∗ 𝑠𝑙,𝑚 𝑡 − β σ 𝑚 𝑤𝑙,𝑚,𝑛
𝐼
・ℎ𝐼𝑃𝑆𝐸 𝑡 ∗ 𝑠𝑙,𝑚(𝑡)
• 同intercellularに流れ込む電流注入量：𝑖𝑙+1,𝑛 𝑡 = 𝑣𝑙+1,𝑛 𝑡 ∗ ℎ−1
𝑡 + 𝑧(𝑡)
• そのLIF neuronが励起する条件：
𝑖𝑙+1,𝑛 𝑡 ∗ ℎ−1
𝑡 = 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) ≥ 𝑁𝑡
= 0 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) < 𝑁𝑡
• 𝑠𝑙,𝑚 𝑡 ： 𝑙層 𝐿𝐼𝐹 mのpresynaptic spike列・ 𝑤𝑙,𝑚,𝑛
𝐸
：excitatory NN係数
• ℎ 𝐸𝑃𝑆𝑃 𝑡 ：Exitatory 時間カーネル関数・ 𝑤𝑙,𝑚,𝑛
𝐼
：inhibitor NN係数
• ℎ𝐼𝑃𝑆𝐸 𝑡 ：Inhibitor時間カーネル関数
• ℎ(𝑡)：
1
𝑐
𝑒− Τ𝑡 τ
𝑢 𝑡 細胞膜の時間インパルス応答，𝑢 𝑡 :ステップ応答, τ = τ𝑙
• 𝑁𝑡：(𝑉𝑇 − 𝑉𝑟)/σ 𝑉,𝑙 励起電圧閾値，𝑉𝑇: −45𝑚𝑉 閾値, 𝑉𝑟: −65𝑚𝑉 細胞膜弛緩電位
7

• 6層HSNNの出力：Spike Pattern
• 時間-周波数での励起強度パターン：
r ∈ 𝑅 𝑁 ∗𝑀, 𝑟 = { 𝑟𝑛,𝑖 } = {0,1}：neuron n, 時間𝑖の出力
• 分類器：ベルヌーイナイーブベイズ分類器
• 𝑟:パターン800個を学習パターン:799個，Validationデータ：1個として、800回の
Cross Validationを行い、ベイズ分類器を学習と認識率を得る。
• 数字のカテゴリ𝑦とした時、学習は以下の𝑝 𝑑,𝑛,𝑖 を学習して求める．
𝑦 = argmax
𝑑={0,⋯9}
ς 𝑛,𝑖 𝑝 𝑑,𝑛,𝑖
𝑟 𝑛,𝑖
・ 1 − 𝑝 𝑑,𝑛,𝑖
1−𝑟 𝑛,𝑖
ここで、𝑝 𝑑,𝑛,𝑖 は、ベイズ尤度（特定の数字𝑑が𝑠𝑝𝑖𝑘𝑒(1)を特定の時間空間ビン
（neuron 𝑛で時間𝑖で）生成する確率）である．
8

シミュレーションの目的
• HSNNをノイズ環境下で単語認識で学習したとき、HSNNの各層の時間
的解像度、周波数的解像度、励起電圧閾値の相対的な変化が、聴覚生理
学で階層的聴覚路で見られるそれらに相当する変化に、類似の傾向を持
つかを評価したい．
• 具体的には、τ1，σ1，𝑁1を与えられた定数として
τ𝑙 = τ1・α𝑙−1
σ𝑙 = σ1・γ𝑙−1
𝑁𝑙 = 𝑁1・λ𝑙−1
とした時，単語認識が最大になるα，γ，λの値を求める．
• この値が、聴覚生理学で階層的聴覚路で見られる，それらの変化の傾向
と合致しているかを確認する．
9

評価方法
10
α，γ，λを選ぶ
そのSNRの，
数字10単語x8話者ｘ10回発声=800発声
を使う．799発声を学習データとして
𝑝 𝑑,𝑛,𝑖 を学習したのちに，1発声を
Validationデータにして認識率を得る．799
対1の組み合わせを順に変えて800回の
Cross Validationで認識率の平均を得る．
最も高い認識
率を出すα，γ，
λ の組をその
SNRでの
Optimal model
と呼ぶ．
SNRを
選ぶ

評価結果(1)
11
学習の結果
α≈ 2, γ ≈ 1, λ ≈ 1
がすべてのSNRに対し
て言える
時間解像度が上
層になるに従い、
時間分解は低く
なる．周波数解
像度と励起電圧
閾値は不変

評価結果(2)
12
学習モデルの
STRFの特性の傾
向が猫の聴覚生
理学データと類
似している
猫の聴覚
の生理学
データ
学習済
モデル
のデータ

まとめ
• 雑音環境下でも聴覚は音声聞き取り能力がある．
• 階層的聴覚路（内耳～聴覚大脳皮質）をHierarchical Spiking neural
networkでモデル化して，同環境下の単語認識の正解率が最適になるよう
に学習したとき，時間分解能（τ𝑙)，周波数選択性(σ𝑙)，励起電圧閾値(𝑁𝑙)
の層間の変化を示すハイパーパラメータ，α，γ，λは，α ≈ 2，γ ≈ 1，
λ ≈ 1となり，τは緩和し、σとNは変化が無いことが分かった．これは，
聴覚生理学で見られる傾向と類似している．
• Hierarchical Spiking neural networkから計算した各層の周波数時間受容野の、
時間分解能，時間遅延，周波数分解能は、猫の階層的聴覚路で得た該当
値と傾向が類似している
• よって、雑音環境下での聴覚の特性は、同環境下で言語の認知を得る過
程で形成されると考えられる
13

[DL Hacks]“Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy”<LT>

Recommended

Recommended

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

[DL Hacks]“Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy”<LT>