深層ニューラルネットワークによる
聴覚系のモデリング
Modeling the Auditory System
with a Deep Neural Network
上村卓也 Takuya KOUMURA
NTT コミュニケーション科学基礎研究所
2019.06.08 鹿児島神経科学研究会
スライドは後日ここに公開します。
http://cycentum.com/presentation/kagoshima20190608/
2019.06.08
Takuya KOUMURA
p. 1
I am…
⚫NTT コミュニケーション科学基礎研究所 研究員
⚪ 人間情報研究部(心理学のラボ)
⚪ 4年目
⚫専門分野
⚪ 神経科学(電気生理・計算機シミュレーション)
⚪ 音の心理学(聴覚・発声)
2019.06.08
Takuya KOUMURA
p. 2
Current & old research topics
⚫NTT
⚪ 聴覚神経系の計算機シミュレーション
⚪ 質感知覚
⚫東大
⚪ トリのさえずり分析
⚪ さえずり聴取中の電気生理
⚪ 生化学反応の計算機シミュレーション
2019.06.08
Takuya KOUMURA
p. 3
Collaborators
⚫古川茂人
⚫寺島裕貴
⚫JSPS科研費JP15H05915
(新学術領域研究、多元質感知)
イラスト素材
Grants
2019.06.08
Takuya KOUMURA
p. 4
Today’s topics
⚫聴覚系のモデリング
⚪ 何を知りたいのか?
⚪ 何がしたいのか?
⚫DNNを用いた機械学習の基礎的な考え方
⚪ 機械学習の考え方について解説
⚪ DNNの仕組みを解説
⚫DNNによる聴覚系のモデリング研究
⚪ 実際の研究事例を紹介
2019.06.08
Takuya KOUMURA
p. 5
Hearing
認識
音
認識音
脳耳
聴神経
振動 神経活動
変換
2019.06.08
Takuya KOUMURA
p. 6
Perception
認識
音
外界を感じる心のはたらき(視る、聴く・・・など)
光
揮発性分子 圧力
2019.06.08
Takuya KOUMURA
p. 7
Perception
外界を感じる心のはたらき(視る、聴く・・・など)
⚫例:聴覚
音 認識
脳耳
聴神経
振動 神経活動
変換
⚫例:視覚
光 認識
眼
視神経
光 神経活動
変換
2019.06.08
Takuya KOUMURA
p. 8
縦列した脳領域
Auditory system
認識
音
Auditory nerve (AN)
Superior olivary
complex (SOC)
Cochlear nucleus (CN)
Nuclei of the lateral
lemniscus (NLL)
Inferior colliculus (IC)
Medial geniculate
body (MGB)
Auditory cortex (AC)
2019.06.08
Takuya KOUMURA
p. 9
Investigating the auditory system
単一ユニット記録
電極
刺激
(Liang 2002
J Neurophysiol)
神経活動
刺激の物理量
発火頻度
チューニング
(Zhang 2006
J Neurophysiol)
2019.06.08
Takuya KOUMURA
p. 10
Investigating the auditory system
イメージング
刺激
MRI
(Norman-Haignere 2015 Neuron)
場所ごとのチューニング
2019.06.08
Takuya KOUMURA
p. 11
⚫生理学的モデル
⚪ チャネルタンパク質の特性
⚪ 膜電位の時間変化 などを再現
⚪ 発火時刻
⚫末梢から積み上げていくことが多い
Computational models of the auditory system
(Verhulst 2018 Hear Res)
(牧 2004 日本音響学会誌)
2019.06.08
Takuya KOUMURA
p. 12
⚫生理学的モデル
⚪ チャネルタンパク質の特性
⚪ 膜電位の時間変化 などを再現
⚪ 発火時刻
⚫末梢から積み上げていくことが多い
Computational models of the auditory system
(Bruce 2018 Hear Res)
(牧 2004 日本音響学会誌)
2019.06.08
Takuya KOUMURA
p. 13
Computational models of the auditory system
⚫生理学的モデル
⚪ チャネルタンパク質の特性
⚪ 膜電位の時間変化 などを再現
⚪ 発火時刻
⚫末梢から積み上げていくことが多い
AN
SOC
CN
NLL
IC
MGB
AC
認識
2019.06.08
Takuya KOUMURA
p. 14
Computational models of the auditory system
⚫Functional model
音
聴覚神経系
認識
音
モデル
認識
比較
2019.06.08
Takuya KOUMURA
p. 15
Sound recognition by a computer
例:Google Docs
2019.06.08
Takuya KOUMURA
p. 16
Two approaches for understanding the brain
生理学的性質の再現
機能の再現
生理学的モデル
機能的モデル
2019.06.08
Takuya KOUMURA
p. 17
Today’s topics
⚫聴覚系のモデリング
⚪ 何を知りたいのか?
⚪ 何がしたいのか?
⚫DNNを用いた機械学習の基礎的な考え方
⚪ 機械学習の考え方について解説
⚪ DNNの仕組みを解説
⚫DNNによる聴覚系のモデリング研究
⚪ 実際の研究事例を紹介
2019.06.08
Takuya KOUMURA
p. 18
Simplest example
⚫今日の気温 23℃
⚫今日の湿度 16%
⚫過去のデータ
→ 明日の天気?
ある日の
気温(℃)
ある日の
湿度(%)
翌日の
天気
18 14 晴
25 27 雨
18 28 雨
3 38 雨
32 25 晴
33 19 晴
or ?
・・・
・・・
・・・
(架空のデータ)
2019.06.08
Takuya KOUMURA
p. 19
晴?
雨?
直線で分けられる?
?
?
?
30℃0℃
40%
10%
今日の湿度
今日の気温
Today’s temperature & humidity → tomorrow’s weather
2019.06.08
Takuya KOUMURA
p. 20
?
?
?
30℃0℃
40%
10%
今日の湿度
今日の気温
Linear model
f < 0 → 雨
f > 0 → 晴
f = 0
f = 0.05 − 0.15 + 3.00w1 + w2 w0
w w
ニューラル
ネットワーク
2019.06.08
Takuya KOUMURA
p. 21
データ
気温 気温 湿度
未知の値を含んだデータ
天気湿度 ?
Basic concept of machine learning
⚫モデルを考える
⚫モデルを使ってデータの関係を学習
⚫学習した関係を元に未知の値を予測
モデル
未知の値を予測データの関係を学習
f = 0.05 − 0.15 + 3.00
f > 0 →
f < 0 →
(直線)
w1 + w2 w0
2019.06.08
Takuya KOUMURA
p. 22
犬 鶏 雨 波
・・・
・・・
・・・
・・・
1 s
Amplitude waveform → sound category?
? ?
44100 Hz × 5 s = 220500 次元
2019.06.08
Takuya KOUMURA
p. 23
Linear model?
220500次元
犬 鶏 雨 波
値が大きいカテゴリに分類
w
2019.06.08
Takuya KOUMURA
p. 24
Linear model?
220500次元
犬 鶏 雨 波
値が大きいカテゴリに分類
w w w・・・
・・・
w w w w・・・
2019.06.08
Takuya KOUMURA
p. 25
Linear model does not work
犬
ニワトリ
雨
波
PC 1
PC2
2019.06.08
Takuya KOUMURA
p. 26
Stacking linear & nonlinear operations
・・・
・・・ ・・・
x < −1 → −1
x ≥ −1 → x
・・・
・・・
犬 鶏 雨 波
値が大きいカテゴリに分類
層を深く積み上げる
→ 深層ニューラル
ネットワーク
(Deep neural
network; DNN)
2019.06.08
Takuya KOUMURA
p. 27
Representation in the deep layer
犬
ニワトリ
雨
波
PC 1
PC2
2019.06.08
Takuya KOUMURA
p. 28
Today’s topics
⚫聴覚系のモデリング
⚪ 何を知りたいのか?
⚪ 何がしたいのか?
⚫DNNを用いた機械学習の基礎的な考え方
⚪ 機械学習の考え方について解説
⚪ DNNの仕組みを解説
⚫DNNによる聴覚系のモデリング研究
⚪ 実際の研究事例を紹介
⚫ 振幅変調チューニング (Koumura 2019 J Neurosci)
⚫ 両耳間時間差チューニング (unpublished)
⚫ 脳活動予測 (Kell 2018 Neuron)
2019.06.08
Takuya KOUMURA
p. 29
Amplitude modulation (AM)
⚫振幅の緩やかな変化
⚫音の認識に重要
⚫変調の速さである変調周波数で表現されることが多い
(Shannon 1995 Science; Gygi 2004 J Acoust Soc Am)
2019.06.08
Takuya KOUMURA
p. 30
Neural representation of AM
刺激
電極 (Liang 2002
J Neurophysiol)
神経活動
AMチューニング
単一ユニット記録
AM頻度
発火頻度
AM頻度
同期性
2019.06.08
Takuya KOUMURA
p. 31
Systematic transformation of AM representation
AN
SOC
CN
NLL
IC
MGB
AC
(Joris 2004
Physiol Rev)
2019.06.08
Takuya KOUMURA
p. 32
Known & unknown
⚫神経生理学の研究
⚪ 聴覚神経系がAMをどのように表現しているか(HOW)
⚫疑問
⚪ 聴覚神経系はなぜそのように表現するのか(WHY)
⚫仮説
⚪ 音の認識に適した性質が進化してきた?
2019.06.08
Takuya KOUMURA
p. 33
Method overview
自然音
認識
モデル
認識
自然音
2019.06.08
Takuya KOUMURA
p. 34
Method overview
自然音
認識
認識
自然音
DNN
刺激音
単一
ユニット
記録
刺激音
単一
ユニット
記録
チューニング
を比較
DNN
2019.06.08
Takuya KOUMURA
p. 35
Natural sound recognition
2019.06.08
Takuya KOUMURA
p. 36
Single unit response in the trained DNN
AM頻度
刺激 ある素子の活動
時間コード
頻度コード
2019.06.08
Takuya KOUMURA
p. 37
Systematic transformation of AM representation
AN
SOC
CN
NLL
IC
MGB
AC
2019.06.08
Takuya KOUMURA
p. 38
High similarity throughout the entire cascade
2019.06.08
Takuya KOUMURA
p. 39
Emerging similarity during training
学習の進行
Spearman’s rank correlation coefficient
ρ = 0.84 (p = 8.57×10−28)
2019.06.08
Takuya KOUMURA
p. 40
Better recognizing models were more similar to the brain
音
認識
音認識精度(%)
脳との類似度
Spearman’s rank correlation coefficient
ρ = 0.51 (p = 8.08×10−4)
2019.06.08
Takuya KOUMURA
p. 41
Conclusions
⚫DNNを自然音認識で訓練
⚫聴覚神経系と類似したAM表現が発現
⚫聴覚神経系と類似するようにモデルを設計/訓練したわけ
ではない
⚫→ 聴覚神経系におけるAM表現も、自然音認識に適した性
質が進化してきた可能性
2019.06.08
Takuya KOUMURA
p. 42
2019.06.08
Takuya KOUMURA
p. 43
Today’s topics
⚫聴覚系のモデリング
⚪ 何を知りたいのか?
⚪ 何がしたいのか?
⚫DNNを用いた機械学習の基礎的な考え方
⚪ 機械学習の考え方について解説
⚪ DNNの仕組みを解説
⚫DNNによる聴覚系のモデリング研究
⚪ 実際の研究事例を紹介
⚫ 振幅変調チューニング (Koumura 2019 J Neurosci)
⚫ 両耳間時間差チューニング (unpublished, 2019 神経科学会 新潟)
⚫ 脳活動予測 (Kell 2018 Neuron)
2019.06.08
Takuya KOUMURA
p. 44
Binaural cues for sound localization
⚫両耳間時間差(Interaural time difference; ITD)
⚫両時間強度差(Interaural level difference; ILD)
⚫音源定位
⚫音源検出 に重要
⚫音源同定
2019.06.08
Takuya KOUMURA
p. 45
ITD tuning
刺激音
単一ユニット記録
(Pecka 2008 J Neurosci)
2019.06.08
Takuya KOUMURA
p. 46
Question
⚫心理学の研究
⚪ ITDを含む両耳手がかりは音源定位・検出・同定に有効
⚪ 特に音源定位への有効性が強調されることが多い
⚫神経生理学の研究
⚪ ITDチューニングを持つニューロンがたくさん存在
⚪ 特に音源定位への有効性が強調されることが多い
⚫疑問
⚪ ITDチューニングの主な機能は?
⚫仮説
⚪ 音源定位を明示的に実行しなくても、他の両耳聴課題への訓練に
よってITDチューニングが発現する
2019.06.08
Takuya KOUMURA
p. 47
Method overview
自然音
認識
認識
自然音
DNN
刺激音
刺激音
単一
ユニット
記録
単一
ユニット
記録
チューニング
を比較
DNN
2019.06.08
Takuya KOUMURA
p. 48
Binaural sound recognition
⚫バイノーラルマイクによって市街地で録音された音
(例)
(Mesaros 2016
Eur Signal Process Conf)
2019.06.08
Takuya KOUMURA
p. 49
Single unit response
(Pecka 2008 J Neurosci)
2019.06.08
Takuya KOUMURA
p. 50
Conclusions
⚫DNNを両耳自然音認識で訓練
⚫聴覚神経系と類似したITDチューニングが発現?
⚫聴覚神経系と類似するようにモデルを設計/訓練したわけ
ではない
⚫→ 聴覚神経系におけるITDチューニングも、自然音認識に
適した性質が進化してきた可能性?
音源定位でなくてもよい
2019.06.08
Takuya KOUMURA
p. 51
Today’s topics
⚫聴覚系のモデリング
⚪ 何を知りたいのか?
⚪ 何がしたいのか?
⚫DNNを用いた機械学習の基礎的な考え方
⚪ 機械学習の考え方について解説
⚪ DNNの仕組みを解説
⚫DNNによる聴覚系のモデリング研究
⚪ 実際の研究事例を紹介
⚫ 振幅変調チューニング (Koumura 2019 J Neurosci)
⚫ 両耳間時間差チューニング (unpublished)
⚫ 脳活動予測 (Kell 2018 Neuron)
2019.06.08
Takuya KOUMURA
p. 52
2019.06.08
Takuya KOUMURA
p. 53
Method overview
自然音
認識
認識
自然音
DNN
DNN
刺激音
刺激音
fMRI
脳活動を
直接予測
2019.06.08
Takuya KOUMURA
p. 54
Similar patterns of recognition performance
2019.06.08
Takuya KOUMURA
p. 55
Predicting neural activities from DNN activities
(線形モデル)
2019.06.08
Takuya KOUMURA
p. 56
Difference among brain regions
AN
SOC
CN
NLL
IC
MGB
AC
高次聴覚野
↑
一次聴覚野
2019.06.08
Takuya KOUMURA
p. 57
Emerging similarity during training
認識性能
分散説明率分散説明率
単語認識 音楽ジャンル認識
2019.06.08
Takuya KOUMURA
p. 58
Today’s topics
⚫聴覚系のモデリング
⚪ 何を知りたいのか?
⚪ 何がしたいのか?
⚫DNNを用いた機械学習の基礎的な考え方
⚪ 機械学習の考え方について解説
⚪ DNNの仕組みを解説
⚫DNNによる聴覚系のモデリング研究
⚪ 実際の研究事例を紹介
⚫ 振幅変調チューニング (Koumura 2019 J Neurosci)
⚫ 両耳間時間差チューニング (unpublished)
⚫ 脳活動予測 (Kell 2018 Neuron)
2019.06.08
Takuya KOUMURA
p. 59
Summary
⚫聴覚系を理解したい
⚫DNNを音認識で訓練→聴覚系の機能をモデリング
⚫モデルを脳と比較
⚪ チューニングの機能的意義
⚪ 脳活動予測
音 音
認識
比較
認識
スライドは後日
ここに公開します

深層ニューラルネットワークによる聴覚系のモデリング