SlideShare a Scribd company logo
1 of 14
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Spiking network optimized for noise robust word
recognition approaches human-level performance
and predicts auditory system hierarchy” <LT>
Hiroshi Sekiguchi, Morikawa Lab
アジェンダ
• 論文緒言
• 聴覚生理学で見られる階層的聴覚路(内耳~聴覚大脳皮質)の特性
• Hierarchical Spiking neural network
• シミュレーションの目的
• 評価
• まとめ
2
論文緒言
• タイトル:“Spiking network optimized for noise robust word recognition approaches
human-level performance and predicts auditory system hierarchy”
• 著者:Fatemeh Khatami and Monty A. Escabí
• 所属:Dept. of Biomedical Engineering, Depart. of Electrical and Computer Engineering, and
Dept. of Psychological Sciences, University of Connecticut, Storrs, CT
• 要旨
– 環境音や障害音声などの雑音下における聴覚の目標音声聞き取り能力は、そのメカニズムが未
だ解明できていない.
– 聴覚生理学で見られる,階層的聴覚路(内耳~聴覚大脳皮質)の時間分解能・周波数選択性・
励起電圧閾値の層間変化傾向は,雑音下音源分離に重要働きをしているという.この層間変化
傾向が.各層の音声信号コーディングをSpiking Neural Networkモデルで表現して雑音下で単語
認識を最適にした際のネットワーク特性で再現できることを示す.
– 雑音環境下での聴覚の特性は、 同環境下で言語の認知を得る過程で形成されると考えられる
• 紹介するにあたっての動機
– 聴覚脳神経系の階層的聴覚路前半部が司る聴覚音声特徴量抽出機能の抽出方法を種々探してい
る.これを使って、重畳音声の分離の特徴抽出部としたい.
3
P𝑟(𝑦|𝑧):
聴覚生理学で見られる階層的聴覚路(内耳~聴覚大脳皮質)の特性
• 聴覚路: 複数層のネットワーク
各層の物理特性が層間で、特定の傾向で連続的に変化する
• 物理特性:・時間解像度:層間の違いは大きい
内耳に近い層:1000Hz,大脳皮質に近い層:~25Hz
・周波数選択性
層間の変化は少ない.
前層の特定の入力
の組み合わせを
選択する機構あり.
4
第1層
階層的聴覚路
第2層 ・・・・ 第N層
内耳に近い 聴覚大脳皮質近い
時間解像度τ
外
界
音
(
STFT)
脳
内
聴
覚
信
号
周
波
数
解
像
度
Hierarchical Spiking neural network (HSNN)(1)
• 聴覚生理学的に触発されたNetwork
• 蝸牛での周波数分析に類似したBPF群
• 各層のNeuronの位置は蝸牛の
周波数要素の並びをそのまま周到
• 各層のNeuronはシノプシスに類似
して前層と2種類の結合で繋がる
• 励起結合(Excitatory Connection)
• 𝑤𝑙,𝑚,𝑛
𝐸
=
1
2𝜋σ 𝐸
2
・𝑒−(𝑥 𝑙,𝑚−𝑥𝑙+1,𝑛)2/σ 𝐸
2
• 抑制結合(Inhibitory Connection)
• 𝑤𝑙,𝑚,𝑛
𝐼
=
1
2𝜋σ 𝐼
2
・𝑒−(𝑥 𝑙,𝑚−𝑥𝑙+1,𝑛)2/σ 𝐼
2
• 時間解像度(τ𝑙)→ τ𝐼 = 1.5 τ 𝐸 ,τ 𝐸 = τ𝑙
• 周波数選択性(σ𝑙)→ σ𝐼 = 1.5 σ 𝐸, σ 𝐸 = σ𝑙
• 励起電圧閾値(𝑁𝑙) 5
• 6層HSNNの出力:Spike Pattern
• 時間-周波数での励起強度パターン
• 単語認識分類器:
• シンプルなベイジアン分類器
Hierarchical Spiking neural network (HSNN)(2)
6
• 音声データ:TI46LDC Corpus,英語10数字,合計8名(男女各4名),
10回発声/話者・数字 → データ数:10単x8話x10=800発声
• 音声+障害音声(babble speech): SNR=-5,0,5,10,15,20dB
蝸
牛
時
点
SpikePattern
同じ話者の異なる単語の発声 異なる話者の同じ単語の発声
Hierarchical Spiking neural network (HSNN)(2)
• Modified leaky integrate-and –fire (LIF) neuronの動作
• 𝑙 + 1層のLIF Neuron 𝑛のintracellular電圧:
𝑣𝑙+1,𝑛 𝑡 = σ 𝑚 𝑤𝑙,𝑚,𝑛
𝐸
・ℎ 𝐸𝑃𝑆𝑃 𝑡 ∗ 𝑠𝑙,𝑚 𝑡 − β σ 𝑚 𝑤𝑙,𝑚,𝑛
𝐼
・ℎ𝐼𝑃𝑆𝐸 𝑡 ∗ 𝑠𝑙,𝑚(𝑡)
• 同intercellularに流れ込む電流注入量:𝑖𝑙+1,𝑛 𝑡 = 𝑣𝑙+1,𝑛 𝑡 ∗ ℎ−1
𝑡 + 𝑧(𝑡)
• そのLIF neuronが励起する条件:
𝑖𝑙+1,𝑛 𝑡 ∗ ℎ−1
𝑡 = 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) ≥ 𝑁𝑡
= 0 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) < 𝑁𝑡
• 𝑠𝑙,𝑚 𝑡 : 𝑙層 𝐿𝐼𝐹 mのpresynaptic spike列 ・ 𝑤𝑙,𝑚,𝑛
𝐸
:excitatory NN係数
• ℎ 𝐸𝑃𝑆𝑃 𝑡 :Exitatory 時間カーネル関数 ・ 𝑤𝑙,𝑚,𝑛
𝐼
:inhibitor NN係数
• ℎ𝐼𝑃𝑆𝐸 𝑡 :Inhibitor時間カーネル関数
• ℎ(𝑡):
1
𝑐
𝑒− Τ𝑡 τ
𝑢 𝑡 細胞膜の時間インパルス応答,𝑢 𝑡 :ステップ応答, τ = τ𝑙
• 𝑁𝑡:(𝑉𝑇 − 𝑉𝑟)/σ 𝑉,𝑙 励起電圧閾値,𝑉𝑇: −45𝑚𝑉 閾値, 𝑉𝑟: −65𝑚𝑉 細胞膜弛緩電位
7
Hierarchical Spiking neural network (HSNN)(4)
• 6層HSNNの出力:Spike Pattern
• 時間-周波数での励起強度パターン:
r ∈ 𝑅 𝑁 ∗𝑀, 𝑟 = { 𝑟𝑛,𝑖 } = {0,1}:neuron n, 時間𝑖の出力
• 分類器:ベルヌーイ ナイーブ ベイズ分類器
• 𝑟:パターン800個を学習パターン:799個,Validationデータ:1個として、800回の
Cross Validationを行い、ベイズ分類器を学習と認識率を得る。
• 数字のカテゴリ𝑦とした時、学習は以下の𝑝 𝑑,𝑛,𝑖 を学習して求める.
𝑦 = argmax
𝑑={0,⋯9}
ς 𝑛,𝑖 𝑝 𝑑,𝑛,𝑖
𝑟 𝑛,𝑖
・ 1 − 𝑝 𝑑,𝑛,𝑖
1−𝑟 𝑛,𝑖
ここで、𝑝 𝑑,𝑛,𝑖 は、ベイズ尤度(特定の数字𝑑が𝑠𝑝𝑖𝑘𝑒(1)を特定の時間空間ビン
(neuron 𝑛で時間𝑖で)生成する確率)である.
8
シミュレーションの目的
• HSNNをノイズ環境下で単語認識で学習したとき、HSNNの各層の時間
的解像度、周波数的解像度、励起電圧閾値の相対的な変化が、聴覚生理
学で階層的聴覚路で見られるそれらに相当する変化に、類似の傾向を持
つかを評価したい.
• 具体的には、τ1,σ1,𝑁1を与えられた定数として
τ𝑙 = τ1・α𝑙−1
σ𝑙 = σ1・γ𝑙−1
𝑁𝑙 = 𝑁1・λ𝑙−1
とした時,単語認識が最大になるα,γ,λの値を求める.
• この値が、聴覚生理学で階層的聴覚路で見られる,それらの変化の傾向
と合致しているかを確認する.
9
評価方法
10
α,γ,λを選ぶ
そのSNRの,
数字10単語x8話者x10回発声=800発声
を使う.799発声を学習データとして
𝑝 𝑑,𝑛,𝑖 を学習したのちに,1発声を
Validationデータにして認識率を得る.799
対1の組み合わせを順に変えて800回の
Cross Validationで認識率の平均を得る.
最も高い認識
率を出すα,γ,
λ の組をその
SNRでの
Optimal model
と呼ぶ.
SNRを
選ぶ
評価結果(1)
11
学習の結果
α≈ 2, γ ≈ 1, λ ≈ 1
がすべてのSNRに対し
て言える
時間解像度が上
層になるに従い、
時間分解は低く
なる.周波数解
像度と励起電圧
閾値は不変
評価結果(2)
12
学習モデルの
STRFの特性の傾
向が猫の聴覚生
理学データと類
似している
猫の聴覚
の生理学
データ
学習済
モデル
のデータ
まとめ
• 雑音環境下でも聴覚は音声聞き取り能力がある.
• 階層的聴覚路(内耳~聴覚大脳皮質) をHierarchical Spiking neural
networkでモデル化して,同環境下の単語認識の正解率が最適になるよう
に学習したとき,時間分解能(τ𝑙),周波数選択性(σ𝑙),励起電圧閾値(𝑁𝑙)
の層間の変化を示すハイパーパラメータ,α,γ,λは,α ≈ 2,γ ≈ 1,
λ ≈ 1となり,τは緩和し、σとNは変化が無いことが分かった.これは,
聴覚生理学で見られる傾向と類似している.
• Hierarchical Spiking neural networkから計算した各層の周波数時間受容野の、
時間分解能,時間遅延,周波数分解能は、猫の階層的聴覚路で得た該当
値と傾向が類似している
• よって、雑音環境下での聴覚の特性は、 同環境下で言語の認知を得る過
程で形成されると考えられる
13
END
14

More Related Content

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL Hacks]“Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy”<LT>

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy” <LT> Hiroshi Sekiguchi, Morikawa Lab
  • 2. アジェンダ • 論文緒言 • 聴覚生理学で見られる階層的聴覚路(内耳~聴覚大脳皮質)の特性 • Hierarchical Spiking neural network • シミュレーションの目的 • 評価 • まとめ 2
  • 3. 論文緒言 • タイトル:“Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy” • 著者:Fatemeh Khatami and Monty A. Escabí • 所属:Dept. of Biomedical Engineering, Depart. of Electrical and Computer Engineering, and Dept. of Psychological Sciences, University of Connecticut, Storrs, CT • 要旨 – 環境音や障害音声などの雑音下における聴覚の目標音声聞き取り能力は、そのメカニズムが未 だ解明できていない. – 聴覚生理学で見られる,階層的聴覚路(内耳~聴覚大脳皮質)の時間分解能・周波数選択性・ 励起電圧閾値の層間変化傾向は,雑音下音源分離に重要働きをしているという.この層間変化 傾向が.各層の音声信号コーディングをSpiking Neural Networkモデルで表現して雑音下で単語 認識を最適にした際のネットワーク特性で再現できることを示す. – 雑音環境下での聴覚の特性は、 同環境下で言語の認知を得る過程で形成されると考えられる • 紹介するにあたっての動機 – 聴覚脳神経系の階層的聴覚路前半部が司る聴覚音声特徴量抽出機能の抽出方法を種々探してい る.これを使って、重畳音声の分離の特徴抽出部としたい. 3
  • 4. P𝑟(𝑦|𝑧): 聴覚生理学で見られる階層的聴覚路(内耳~聴覚大脳皮質)の特性 • 聴覚路: 複数層のネットワーク 各層の物理特性が層間で、特定の傾向で連続的に変化する • 物理特性:・時間解像度:層間の違いは大きい 内耳に近い層:1000Hz,大脳皮質に近い層:~25Hz ・周波数選択性 層間の変化は少ない. 前層の特定の入力 の組み合わせを 選択する機構あり. 4 第1層 階層的聴覚路 第2層 ・・・・ 第N層 内耳に近い 聴覚大脳皮質近い 時間解像度τ 外 界 音 ( STFT) 脳 内 聴 覚 信 号 周 波 数 解 像 度
  • 5. Hierarchical Spiking neural network (HSNN)(1) • 聴覚生理学的に触発されたNetwork • 蝸牛での周波数分析に類似したBPF群 • 各層のNeuronの位置は蝸牛の 周波数要素の並びをそのまま周到 • 各層のNeuronはシノプシスに類似 して前層と2種類の結合で繋がる • 励起結合(Excitatory Connection) • 𝑤𝑙,𝑚,𝑛 𝐸 = 1 2𝜋σ 𝐸 2 ・𝑒−(𝑥 𝑙,𝑚−𝑥𝑙+1,𝑛)2/σ 𝐸 2 • 抑制結合(Inhibitory Connection) • 𝑤𝑙,𝑚,𝑛 𝐼 = 1 2𝜋σ 𝐼 2 ・𝑒−(𝑥 𝑙,𝑚−𝑥𝑙+1,𝑛)2/σ 𝐼 2 • 時間解像度(τ𝑙)→ τ𝐼 = 1.5 τ 𝐸 ,τ 𝐸 = τ𝑙 • 周波数選択性(σ𝑙)→ σ𝐼 = 1.5 σ 𝐸, σ 𝐸 = σ𝑙 • 励起電圧閾値(𝑁𝑙) 5 • 6層HSNNの出力:Spike Pattern • 時間-周波数での励起強度パターン • 単語認識分類器: • シンプルなベイジアン分類器
  • 6. Hierarchical Spiking neural network (HSNN)(2) 6 • 音声データ:TI46LDC Corpus,英語10数字,合計8名(男女各4名), 10回発声/話者・数字 → データ数:10単x8話x10=800発声 • 音声+障害音声(babble speech): SNR=-5,0,5,10,15,20dB 蝸 牛 時 点 SpikePattern 同じ話者の異なる単語の発声 異なる話者の同じ単語の発声
  • 7. Hierarchical Spiking neural network (HSNN)(2) • Modified leaky integrate-and –fire (LIF) neuronの動作 • 𝑙 + 1層のLIF Neuron 𝑛のintracellular電圧: 𝑣𝑙+1,𝑛 𝑡 = σ 𝑚 𝑤𝑙,𝑚,𝑛 𝐸 ・ℎ 𝐸𝑃𝑆𝑃 𝑡 ∗ 𝑠𝑙,𝑚 𝑡 − β σ 𝑚 𝑤𝑙,𝑚,𝑛 𝐼 ・ℎ𝐼𝑃𝑆𝐸 𝑡 ∗ 𝑠𝑙,𝑚(𝑡) • 同intercellularに流れ込む電流注入量:𝑖𝑙+1,𝑛 𝑡 = 𝑣𝑙+1,𝑛 𝑡 ∗ ℎ−1 𝑡 + 𝑧(𝑡) • そのLIF neuronが励起する条件: 𝑖𝑙+1,𝑛 𝑡 ∗ ℎ−1 𝑡 = 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) ≥ 𝑁𝑡 = 0 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) < 𝑁𝑡 • 𝑠𝑙,𝑚 𝑡 : 𝑙層 𝐿𝐼𝐹 mのpresynaptic spike列 ・ 𝑤𝑙,𝑚,𝑛 𝐸 :excitatory NN係数 • ℎ 𝐸𝑃𝑆𝑃 𝑡 :Exitatory 時間カーネル関数 ・ 𝑤𝑙,𝑚,𝑛 𝐼 :inhibitor NN係数 • ℎ𝐼𝑃𝑆𝐸 𝑡 :Inhibitor時間カーネル関数 • ℎ(𝑡): 1 𝑐 𝑒− Τ𝑡 τ 𝑢 𝑡 細胞膜の時間インパルス応答,𝑢 𝑡 :ステップ応答, τ = τ𝑙 • 𝑁𝑡:(𝑉𝑇 − 𝑉𝑟)/σ 𝑉,𝑙 励起電圧閾値,𝑉𝑇: −45𝑚𝑉 閾値, 𝑉𝑟: −65𝑚𝑉 細胞膜弛緩電位 7
  • 8. Hierarchical Spiking neural network (HSNN)(4) • 6層HSNNの出力:Spike Pattern • 時間-周波数での励起強度パターン: r ∈ 𝑅 𝑁 ∗𝑀, 𝑟 = { 𝑟𝑛,𝑖 } = {0,1}:neuron n, 時間𝑖の出力 • 分類器:ベルヌーイ ナイーブ ベイズ分類器 • 𝑟:パターン800個を学習パターン:799個,Validationデータ:1個として、800回の Cross Validationを行い、ベイズ分類器を学習と認識率を得る。 • 数字のカテゴリ𝑦とした時、学習は以下の𝑝 𝑑,𝑛,𝑖 を学習して求める. 𝑦 = argmax 𝑑={0,⋯9} ς 𝑛,𝑖 𝑝 𝑑,𝑛,𝑖 𝑟 𝑛,𝑖 ・ 1 − 𝑝 𝑑,𝑛,𝑖 1−𝑟 𝑛,𝑖 ここで、𝑝 𝑑,𝑛,𝑖 は、ベイズ尤度(特定の数字𝑑が𝑠𝑝𝑖𝑘𝑒(1)を特定の時間空間ビン (neuron 𝑛で時間𝑖で)生成する確率)である. 8
  • 9. シミュレーションの目的 • HSNNをノイズ環境下で単語認識で学習したとき、HSNNの各層の時間 的解像度、周波数的解像度、励起電圧閾値の相対的な変化が、聴覚生理 学で階層的聴覚路で見られるそれらに相当する変化に、類似の傾向を持 つかを評価したい. • 具体的には、τ1,σ1,𝑁1を与えられた定数として τ𝑙 = τ1・α𝑙−1 σ𝑙 = σ1・γ𝑙−1 𝑁𝑙 = 𝑁1・λ𝑙−1 とした時,単語認識が最大になるα,γ,λの値を求める. • この値が、聴覚生理学で階層的聴覚路で見られる,それらの変化の傾向 と合致しているかを確認する. 9
  • 11. 評価結果(1) 11 学習の結果 α≈ 2, γ ≈ 1, λ ≈ 1 がすべてのSNRに対し て言える 時間解像度が上 層になるに従い、 時間分解は低く なる.周波数解 像度と励起電圧 閾値は不変
  • 13. まとめ • 雑音環境下でも聴覚は音声聞き取り能力がある. • 階層的聴覚路(内耳~聴覚大脳皮質) をHierarchical Spiking neural networkでモデル化して,同環境下の単語認識の正解率が最適になるよう に学習したとき,時間分解能(τ𝑙),周波数選択性(σ𝑙),励起電圧閾値(𝑁𝑙) の層間の変化を示すハイパーパラメータ,α,γ,λは,α ≈ 2,γ ≈ 1, λ ≈ 1となり,τは緩和し、σとNは変化が無いことが分かった.これは, 聴覚生理学で見られる傾向と類似している. • Hierarchical Spiking neural networkから計算した各層の周波数時間受容野の、 時間分解能,時間遅延,周波数分解能は、猫の階層的聴覚路で得た該当 値と傾向が類似している • よって、雑音環境下での聴覚の特性は、 同環境下で言語の認知を得る過 程で形成されると考えられる 13