DEEP LEARNING JP
[DL Papers]
Hopfield network 関連研究について
Presenter: Manato Yaguchi B4
(Hokkaido University)
http://deeplearning.jp/
輪読内容について
2
 Hopfield network:
 統計物理学、神経科学、コンピュータサイエンスの分野で扱われてきたモデル
 近年の研究により、Transformerにおけるattention機構との関連性が分かる
 Transformerの改良を中心に、ニューラルネットワークの理論的な解明に役立つ
 本発表では、
 Hopfield networkの概要
 Hopfield networkの改良版であるModern Hopfield network
 最新の研究の一つであるSimplical Hopfield network(ICLR2023)
を紹介
 本テーマを選んだ理由
 Backpropagationを用いる一般的な深層学習以外の手法を見てみたかった
 連想記憶のモデルとして考案されたHopfield networkと、よく扱う深層学習とのつながりが興
味深かった
 Simplical Hopfield networkで触れる集合間の関係性は、本質に近い部分を感じ、興味深かった
目次
3
1. 導入
2. 古典的なHopfield Networks について
3. Modern Hopfield Networks について
4. Simplical Hopfield Networks について
1.1 Introduction to Hopfield Networks
4
 再帰的なニューラルネットワーク:
 Hopfield Networkは全結合型の再帰的ニューラルネットワーク
 ネットワーク内のすべてのニューロンが互いに接続されていて、情報の流れは往復可能
 エネルギー関数に基づく更新:
 Hopfield Networkはエネルギー関数に基づいて動作
 各ニューロンの状態の更新において、エネルギー関数を減少する方向に更新
 安定した状態へのダイナミクス:
 Hopfield Networkは記憶を「安定した状態」として格納
 ネットワークの特定の状態は、この「安定した状態」に向かって収束する
 連想記憶としてのモデル:
 Hopfield Networkは連想記憶のモデルとして使用される
 ネットワークに与えられた一部の情報から全体の記憶を再構成する能力をもつ
1.2 Historical Background of Hopfield Networks
5
Hopfield Networkの提唱 Modern Hopfield
Network
Transformerとの関連性 Simplical Hopfield
Network
1982 2016 2020 2023
 Hopfield Networkが提唱され、連想メモリとしての可能性が認識[Hopfield 82]
 ディープラーニングの台頭とともに、Hopfield Networkの概念が再評価[Krotov+16,
Demircigil+17]
 エネルギー関数及び更新規則の見直しによって、メモリ容量を改善
 Hopfield NetworkとAttention機構の関連性が示される[Ramsauer+20, ICLR2021]
 ニューロン間の相互作用に、単体複体の考えを用いてメモリ容量を改善[Burns+23,
ICLR2023]
2.1 Detailed Explanation of Hopfield Networks
6
 各状態は、±1の二値でN個のニューロン𝜉𝑖を用いて表される
 エネルギー関数は、各ニューロンの状態𝜉𝑖と、ニューロン間の重み𝑇𝑖𝑗、記憶すべ
きメモリパターン𝑥𝑖
𝜇
を用いて、以下の式で表される
𝐸 = −
1
2
𝑖,𝑗=1
𝑁
𝜉𝑖𝑇𝑖𝑗𝜉𝑗 , 𝑇𝑖𝑗 =
𝜇=1
𝑀
𝑥𝑖
𝜇
𝑥𝑗
𝜇
𝜉1
𝜉3
𝜉5 𝜉4
𝜉2
𝑇12
𝑇23
𝑇34
𝑇45
𝑇15
2.1 Detailed Explanation of Hopfield Networks
7
 エネルギー関数の再掲
𝐸 = −
1
2
𝑖,𝑗=1
𝑁
𝜉𝑖𝑇𝑖𝑗𝜉𝑗 , 𝑇𝑖𝑗 =
𝜇=1
𝑀
𝑥𝑖
𝜇
𝑥𝑗
𝜇
 このエネルギー関数の更新規則は次のように与えられる
 sgnは符号関数で、引数が正なら1, 負なら-1を返す
𝜉𝑖
′
= sgn(
𝑗≠𝑖
𝑇𝑖𝑗𝜉𝑗)
 上の更新規則において、常にエネルギー関数は減少する方向に更新される
 ∆𝜉𝑖に対する∆𝐸の変化は、
∆𝐸 = −∆𝜉𝑖
𝑗≠𝑖
𝑇𝑖𝑗𝜉𝑗 ≤ 0
2.2 Applications of Hopfield Networks
8
 Hopfield Networkの適用例として、パターン認識やエラー訂正があげられる
 記憶すべきパターン𝑥𝜇をM個与える (101110…, 010001…)
 初期状態として𝜉を与える (ex.𝜉=101010…)
 更新規則𝜉𝑖
′
= sgn( 𝑗≠𝑖 𝑇𝑖𝑗𝜉𝑗)に従って、エネルギー関数を最小化
 エネルギー関数が極小値となる、すなわち安定した点に行き着くとき、状態𝜉は
記憶したパターン𝑥𝜇のいずれかとなる
𝜉0
E
𝜉𝑇
2.3 Limitations of Hopfield Networks
9
 記憶可能なパターン数に限界がある
 Nをニューロン数とすると、記憶可能な
パターン数nは、n≈ 0.14𝑁
 一定以上のパターン数を記憶させるとエ
ネルギー関数が崩壊してしまう
 異なる2つのエネルギー関数の極小値が干渉し
あってしまう
画像出典:[1]
3.1 Modern Hopfield Networks の紹介と改良点
10
 Modern Hopfield Network:
 エネルギー関数及び、更新規則を見直すことにより、記憶容量を改善
 収束スピードも増した
 エネルギー関数E, 更新規則は、各ニューロンの状態𝜉𝑖と、記憶すべきメモリパ
ターン𝑥𝑖
𝜇
、滑らかな関数𝐹を用いて、以下の式で表される
𝐸 = −
𝜇=1
𝑀
𝐹 𝑥𝑖
𝜇
𝜉𝑖 , 𝜉𝑖
𝑡+1
= 𝑆𝑔𝑛
𝜇=1
𝑀
𝐹 𝑥𝑖
𝜇
+
𝑗≠𝑖
𝑥𝑗
𝜇
𝜉𝑗
𝑡
− 𝐹 −𝑥𝑖
𝜇
+
𝑗≠𝑖
𝑥𝑗
𝜇
𝜉𝑗
𝑡
 関数𝐹としては、 𝐹 𝑥 =
𝑥𝑛 𝑥 ≥ 0
0, 𝑥 < 0
[Krotov+16],
𝐹 𝑥 = 𝑒𝑥 [Demircigil+17] を採用。
3.2 Modern Hopfield Networkの詳細な説明
11
 関数𝐹(𝑥) = 𝑥2とすると、古典的なHopfield Networkに対応
 証明:
𝜉𝑖
𝑡+1
= 𝑆𝑔𝑛[ 𝜇=1
𝑀
(𝐹 𝑥𝑖
𝜇
+ 𝑗≠𝑖 𝑥𝑗
𝜇
𝜉𝑗
𝑡
− 𝐹(−𝑥𝑖
𝜇
+ 𝑗≠𝑖 𝑥𝑗
𝜇
𝜉𝑗
𝑡
))] について、
𝜇=1
𝑀
(𝐹 𝑥𝑖
𝜇
+ 𝑗≠𝑖 𝑥𝑗
𝜇
𝜉𝑗
𝑡
− 𝐹(−𝑥𝑖
𝜇
+ 𝑗≠𝑖 𝑥𝑗
𝜇
𝜉𝑗
𝑡
))
= 𝜇=1
𝑀
1 + 2 𝑗≠𝑖 𝑥𝑖
𝜇
𝑥𝑗
𝜇
𝜉𝑗
𝑡
+ ( 𝑗≠ 𝑥𝑗
𝜇
𝜉𝑗
𝑡
)2 −1 + 2 𝑗≠𝑖 𝑥𝑖
𝜇
𝑥𝑗
𝜇
𝜉𝑗
𝑡
− ( 𝑗≠𝑖 𝑥𝑗
𝜇
𝜉𝑗
𝑡
)2
= 4 𝜇=1
𝑀
𝑗≠𝑖 𝑥𝑖
𝜇
𝑥𝑗
𝜇
𝜉𝑗
𝑡
 これは古典的なHopfield Networkの更新規則 𝜉𝑖
′
= sgn 𝑗≠𝑖 𝑇𝑖𝑗𝜉𝑗 , 𝑇𝑖𝑗 = 𝜇=1
𝑀
𝑥𝑖
𝜇
𝑥𝑗
𝜇
と等価である
3.3 Modern Hopfield Networkの記憶容量
12
Hopfield Network 改良版:𝑭 𝒙 = 𝒙𝒏
改良版:𝑭 𝒙 = 𝒆𝒙
エネルギー関数
𝐸 = −
1
2
𝑖,𝑗=1
𝑁
𝜉𝑖𝑇𝑖𝑗𝜉𝑗 ,
𝑇𝑖𝑗 =
𝜇=1
𝑀
𝑥𝑖
𝜇
𝑥𝑗
𝜇
𝐸 = −
𝜇=1
𝑀
𝐹 𝑥𝑖
𝜇
𝜉𝑖 ,
𝐹 𝑥 =
𝑥𝑛 𝑥 ≥ 0
0, 𝑥 < 0
𝐸 = −
𝜇=1
𝑀
𝐹 𝑥𝑖
𝜇
𝜉𝑖 ,
𝐹 𝑥 = 𝑒𝑥
更新規則
𝜉𝑖
′
= sgn
𝑗≠𝑖
𝑇𝑖𝑗𝜉𝑗
𝜉𝑖
𝑡+1
= 𝑆𝑔𝑛
𝜇=1
𝑀
𝐹 𝑥𝑖
𝜇
+
𝑗≠𝑖
𝑥𝑗
𝜇
𝜉𝑗
𝑡
− 𝐹 −𝑥𝑖
𝜇
+
𝑗≠𝑖
𝑥𝑗
𝜇
𝜉𝑗
𝑡
メモリ容量 0.138𝑁 𝑁𝑛−1
2
𝑁
2
3.4 Modern Hopfield NetworksとTransformerの関連性
13
 Modern Hopfield Networkの状態変数の更新規則の導出:
 𝐹 𝑥 = 𝑒𝑥
とした場合について
 平均値の定理を用いて、更新規則がsoftmax関数を使って表せることを示す
𝑇𝑗 𝜉 = sgn −𝐸 𝜉𝑗 = 1 + 𝐸 𝜉𝑗 = −1 = sgn exp 𝑙𝑠𝑒 𝜉𝑗 = 1 − exp 𝜉𝑗 = −1
= sgn − 2𝑒𝑗
𝑇
∇𝜉𝐸 𝜉𝑗 = 𝑣 (𝑣 ∈ −1,1 , 平均値の定理より)
= sgn exp 𝑙𝑠𝑒 𝜉𝑗 = 𝑣 (2𝑒𝑗)𝑇
𝜕
𝜕𝜉
𝑙𝑠𝑒 𝜉𝑗 = 𝑣
= sgn exp 𝑙𝑠𝑒 𝜉𝑗 = 𝑣 2𝑒𝑗
𝑇
𝑋softmax 𝑋𝑇𝜉 𝜉𝑗 = 𝑣
= sgn 𝑋𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑋𝑇𝜉 𝜉𝑗 = 𝑣
𝑗
= sgn[ 𝑋𝑝(𝜉𝑗 = 𝑣) 𝑗
]
3.5 Modern Hopfield Networkの連続変数への拡張
14
 状態変数の取りうる値を、2値から連続変数へと拡張することを考える
 Hopfield Networkをdeep learningの構造に取り入れる際に、連続変数であるほうが都合がよい
 𝑀個の記憶すべきパターンX = 𝒙1, 𝒙2, … , 𝒙𝑀 , 𝒙𝑖 ∈ 𝑅𝑁, 𝐿 = 𝑚𝑎𝑥𝑖 𝒙𝑖 , 状態変数𝝃 ∈
𝑅𝑁 としたとき、
元の式:𝐸 = − exp 𝑙𝑠𝑒 1, X𝑇𝝃
連続変数の式:𝐸 = −𝑙𝑠𝑒 𝛽, X𝑇𝝃 +
1
2
𝝃𝑇𝝃 + 𝛽−1𝑙𝑜𝑔𝑀 +
1
2
𝐿2
ただし、𝑙𝑠𝑒 𝛽, 𝒙 = 𝛽−1𝑙𝑜𝑔
𝑖=1
𝑁
exp(𝛽𝑥𝑖)
 状態変数の更新規則は、𝑝 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝛽X𝑇𝝃)とおくと、
𝝃𝑛𝑒𝑤 = 𝑓 𝝃 = X𝑝 = 𝑋softmax(𝛽X𝑇𝝃)
3.6 Modern Hopfield NetworksとTransformerの関連性
15
 Modern Hopfield Network(1番左)を状態変数が連続変数のものに拡張(左から2
番目)
 連続変数に拡張したHopfield Networkに対応した更新規則(左から3番目)は、
Transformerの式と似ている
 1回の更新により、更新前のエネルギーの値と、エネルギー関数の極小値(定常点)との誤差
が非常に小さくなることが示されている(詳細略)
画像出典:[4]
3.7 Modern Hopfield Networkの応用
16
 Hopfield Networkと深層学習の様々な層との類似性について
 (a)はattention機構、(b)はpooling層、(c)は全結合層と等価であるとみなせる
(a) Hopfield層 (b) Hopfield pooling層
(c) Hopfield layer層
画像出典:[4]
3.7 Modern Hopfield Networkの応用
17
 深層学習は通常、小さなデータセットでのパフォーマンスに苦戦するが、最近傍
法に似た学習の仕方をすることから、小規模なデータセットに対する適用も有望
 表はUCIベンチマークのうちの75個のデータセットに対する評価を行った結果
 分類問題と思われる
表出典:[4]
4.1 Simplicial Hopfield Networks 書誌情報
紹介論文
タイトル: Simplicial Hopfield Networks
出典: Arxiv(2023.05), ICLR2023
著者: Thomas F.Burns Tomoki Fukai
OIST Graduate University
概要
 Hopfield Networks: パターンの保存と取り出しに強力なツール
 単体複体の概念を用いて、そのメモリ容量を拡大することを検討
18
4.2 単体複体とはなにか
19
 簡単にいうと:点、線、三角形、四面体などを一緒に組み合わせて構成される数
学的な構造で、これらの要素間の集合的な関係を表現するのに役立つ。高次元の
データ構造やネットワークのトポロジーを解析するための強力なツールとされて
いる。(ChatGPT)
4.3 抽象的な単体複体
20
 定義:𝐾を2𝑁の部分集合とする。Kが抽象的な単体複体となる条件は、任意の𝜎 ∈
𝐾に対して、すべての𝜌 ⊆ 𝜎が、𝜌 ∈ 𝐾を満たすこと
 シンプルに言うと、部分集合を取るという操作に対して閉じている集合族
 具体例:{∅, 1 , 2 , 3 , 1,2 , 1,3 , 2,3 , {1,2,3}}
 幾何学的な例:
画像出典:[5]
4.4 単体
21
 単体複体Kの元𝜎を単体という
 K次元単体(K-simplex)は、K+1の濃度と、K-1次元単体であるK+1個の面(face)を持
つ
 K=2の三角形において、K-1次元単体である面は、K=1の辺
K=0 K=1 K=2
4.5 単体複体によるHopfield Networkの定式化
22
 N個の頂点に対する単体複体K, 時刻tにおける各ニューロンの状態𝜉𝑗
(𝑡)
= ±1(スピン)を考
える
 あるニューロンの集合𝜎に対して、重みを𝑤 𝜎 , 𝜎 個のスピンの積を𝜉𝜎
(𝑡)
, 𝑥𝜎
𝜇
とすると、
 古典的なHopfield Networkの場合:
𝐸 = −
𝜎∈𝐾
𝑤 𝜎 𝜉𝜎
𝑡
, 𝑤 𝜎 =
1
𝑁
𝜇=1
𝑀
𝑥𝜎
𝜇
(古典的な𝐻𝑜𝑝𝑓𝑖𝑒𝑙𝑑 𝑁𝑒𝑡𝑤𝑜𝑟𝑘)
 Modern Hopfield Networkの場合:
𝐸 = −
𝜇=1
𝑀
𝜎∈𝐾
𝐹 𝑥𝜎
𝜇
𝜉𝜎
𝑡
,
𝜉𝜎
(𝑡+1)
= 𝑆𝑔𝑛
𝜇=1
𝑀
𝐹 1 ∙ 𝑥𝑖
𝜇
+
𝜎∈𝐾
𝑥𝜎
𝜇
𝜉𝜎
(𝑡)
− 𝐹 −1 ∙ 𝑥𝑖
𝜇
+
𝜎∈𝐾
𝑥𝜎
𝜇
𝜉𝜎
(𝑡)
4.5 単体複体によるHopfield Networkの定式化
23
 𝑥𝑗, 𝜉𝑗
𝜇
∈ ℝ, 𝑋 = (𝒙1, 𝒙2, … , 𝒙𝑃) とすると、
 連続変数に対応したModern Hopfield Networkの場合:
 𝐸 = −𝑙𝑠𝑒 𝑇−1
, 𝑋𝑇
𝝃 𝑡
, 𝐾 +
1
2
𝝃 𝑡 𝑇
𝝃 𝑡
,
 𝝃 𝑡
= softmax 𝑇 𝜎∈Κ 𝑋𝜎
𝑇
𝝃𝜎
(𝑡−1)
𝑋
 各単体𝜎 ∈ 𝐾について、記憶したパターンに関する行列Ξとのドット積(類似度)を計算し更
新
 ドット積は、ユークリッド距離、マンハッタン距離、コサイン類似度に置き換え可
 高次元の幾何学的類似度の指標として、ced を使用
 𝑑𝜌はユークリッド距離
𝑐𝑒𝑑 𝑥𝜎
𝜇
, 𝝃𝜎
𝑡
= 𝑑𝜌
2
画像出典:[5]
4.6 実験
24
 本論分では、𝐾1, 𝑅12, 𝑅12, 𝑅12, 𝑅2の5つの設定を中心に実験
 それぞれで、1-simplicesと2-simplicesの比率が異なる
 K1は1-simplicesのみ、すなわち古典的なHopfield networkに対応
4.6 実験
25
 ランダムな2値変数の組(N=100)を記憶パターンとして、復元率を調査
 評価指標は、𝑚𝜇 =
1
𝑁 𝑖=1
𝑁
𝜉𝑖
(𝑡)
𝑥𝑖
𝜇
とする
 完全に復元できる場合、 𝑚𝜇=1
 2変数の関係性のみを扱う場合と比較して、多変数の関係性も取り入れると復元
率が向上
 比較において、パラメータ数(接続数)の数は同じで、各接続はランダムに選択される
表出典:[5]
4.6 実験
26
 MNIST, CIFER-10, Tiny ImageNetの3つのDatasetを用いて記憶容量を評価
 各画像は0から1の範囲で正規化し、連続変数として扱う
 上段がK1(古典的なHopfield network), 下段が𝑅12を表しており、いずれのDataset
においても精度の向上が見られる
表出典:[5]
4.7 CNNとの関連性
27
 深層学習の領域において、多変数の関係性を扱うというのは、CNNでなされてい
る
 CNNは多変数を扱う領域が制限されている一方で、本論文ではどの位置の関係性
に着目するかを自由に選べる
画像出典:CNN
まとめ・所感
28
まとめ
 統計物理学、神経科学との繋がりの深い Hopfield Networkの導入を行った
 古典的なHopfield Networkの見直しにより、記憶容量を改善した(Modern Hopfield
Network)
 深層学習のアーキテクチャに組み込むために、連続変数に対応したHopfield Networkを考
案した
 単体複体の考えを用いた、記憶容量の更なる改善に向けた研究を紹介した
感想
 現時点ではHopfield NetworkモデルそのものはSOTAの達成という観点からすると弱い
 様々なDatasetでの検証が必要
 しかしTransformerを、エネルギーの最小化や連想記憶、という観点から見る上で、使え
そうな概念⇒改良につなげられる可能性あり
 大規模基盤モデルとの関連性について、記憶や推論などモジュールを分けて構築し、そ
のうちの記憶を司る一部分として機能しないかな?
 制限付きボルツマンマシンとの関係性も踏み込みたかった
引用
29
[1] Neural networks and physical systems with emergent collective computational
abilities. | PNAS
[2] [1606.01164] Dense Associative Memory for Pattern Recognition (arxiv.org)
[3] [1702.01929] On a model of associative memory with huge storage capacity
(arxiv.org)
[4] [2008.02217] Hopfield Networks is All You Need (arxiv.org)
[5] [2305.05179] Simplicial Hopfield networks (arxiv.org)
[6] (PDF) A new frontier for Hopfield networks (researchgate.net)

【DL輪読会】Hopfield network 関連研究について

  • 1.
    DEEP LEARNING JP [DLPapers] Hopfield network 関連研究について Presenter: Manato Yaguchi B4 (Hokkaido University) http://deeplearning.jp/
  • 2.
    輪読内容について 2  Hopfield network: 統計物理学、神経科学、コンピュータサイエンスの分野で扱われてきたモデル  近年の研究により、Transformerにおけるattention機構との関連性が分かる  Transformerの改良を中心に、ニューラルネットワークの理論的な解明に役立つ  本発表では、  Hopfield networkの概要  Hopfield networkの改良版であるModern Hopfield network  最新の研究の一つであるSimplical Hopfield network(ICLR2023) を紹介  本テーマを選んだ理由  Backpropagationを用いる一般的な深層学習以外の手法を見てみたかった  連想記憶のモデルとして考案されたHopfield networkと、よく扱う深層学習とのつながりが興 味深かった  Simplical Hopfield networkで触れる集合間の関係性は、本質に近い部分を感じ、興味深かった
  • 3.
    目次 3 1. 導入 2. 古典的なHopfieldNetworks について 3. Modern Hopfield Networks について 4. Simplical Hopfield Networks について
  • 4.
    1.1 Introduction toHopfield Networks 4  再帰的なニューラルネットワーク:  Hopfield Networkは全結合型の再帰的ニューラルネットワーク  ネットワーク内のすべてのニューロンが互いに接続されていて、情報の流れは往復可能  エネルギー関数に基づく更新:  Hopfield Networkはエネルギー関数に基づいて動作  各ニューロンの状態の更新において、エネルギー関数を減少する方向に更新  安定した状態へのダイナミクス:  Hopfield Networkは記憶を「安定した状態」として格納  ネットワークの特定の状態は、この「安定した状態」に向かって収束する  連想記憶としてのモデル:  Hopfield Networkは連想記憶のモデルとして使用される  ネットワークに与えられた一部の情報から全体の記憶を再構成する能力をもつ
  • 5.
    1.2 Historical Backgroundof Hopfield Networks 5 Hopfield Networkの提唱 Modern Hopfield Network Transformerとの関連性 Simplical Hopfield Network 1982 2016 2020 2023  Hopfield Networkが提唱され、連想メモリとしての可能性が認識[Hopfield 82]  ディープラーニングの台頭とともに、Hopfield Networkの概念が再評価[Krotov+16, Demircigil+17]  エネルギー関数及び更新規則の見直しによって、メモリ容量を改善  Hopfield NetworkとAttention機構の関連性が示される[Ramsauer+20, ICLR2021]  ニューロン間の相互作用に、単体複体の考えを用いてメモリ容量を改善[Burns+23, ICLR2023]
  • 6.
    2.1 Detailed Explanationof Hopfield Networks 6  各状態は、±1の二値でN個のニューロン𝜉𝑖を用いて表される  エネルギー関数は、各ニューロンの状態𝜉𝑖と、ニューロン間の重み𝑇𝑖𝑗、記憶すべ きメモリパターン𝑥𝑖 𝜇 を用いて、以下の式で表される 𝐸 = − 1 2 𝑖,𝑗=1 𝑁 𝜉𝑖𝑇𝑖𝑗𝜉𝑗 , 𝑇𝑖𝑗 = 𝜇=1 𝑀 𝑥𝑖 𝜇 𝑥𝑗 𝜇 𝜉1 𝜉3 𝜉5 𝜉4 𝜉2 𝑇12 𝑇23 𝑇34 𝑇45 𝑇15
  • 7.
    2.1 Detailed Explanationof Hopfield Networks 7  エネルギー関数の再掲 𝐸 = − 1 2 𝑖,𝑗=1 𝑁 𝜉𝑖𝑇𝑖𝑗𝜉𝑗 , 𝑇𝑖𝑗 = 𝜇=1 𝑀 𝑥𝑖 𝜇 𝑥𝑗 𝜇  このエネルギー関数の更新規則は次のように与えられる  sgnは符号関数で、引数が正なら1, 負なら-1を返す 𝜉𝑖 ′ = sgn( 𝑗≠𝑖 𝑇𝑖𝑗𝜉𝑗)  上の更新規則において、常にエネルギー関数は減少する方向に更新される  ∆𝜉𝑖に対する∆𝐸の変化は、 ∆𝐸 = −∆𝜉𝑖 𝑗≠𝑖 𝑇𝑖𝑗𝜉𝑗 ≤ 0
  • 8.
    2.2 Applications ofHopfield Networks 8  Hopfield Networkの適用例として、パターン認識やエラー訂正があげられる  記憶すべきパターン𝑥𝜇をM個与える (101110…, 010001…)  初期状態として𝜉を与える (ex.𝜉=101010…)  更新規則𝜉𝑖 ′ = sgn( 𝑗≠𝑖 𝑇𝑖𝑗𝜉𝑗)に従って、エネルギー関数を最小化  エネルギー関数が極小値となる、すなわち安定した点に行き着くとき、状態𝜉は 記憶したパターン𝑥𝜇のいずれかとなる 𝜉0 E 𝜉𝑇
  • 9.
    2.3 Limitations ofHopfield Networks 9  記憶可能なパターン数に限界がある  Nをニューロン数とすると、記憶可能な パターン数nは、n≈ 0.14𝑁  一定以上のパターン数を記憶させるとエ ネルギー関数が崩壊してしまう  異なる2つのエネルギー関数の極小値が干渉し あってしまう 画像出典:[1]
  • 10.
    3.1 Modern HopfieldNetworks の紹介と改良点 10  Modern Hopfield Network:  エネルギー関数及び、更新規則を見直すことにより、記憶容量を改善  収束スピードも増した  エネルギー関数E, 更新規則は、各ニューロンの状態𝜉𝑖と、記憶すべきメモリパ ターン𝑥𝑖 𝜇 、滑らかな関数𝐹を用いて、以下の式で表される 𝐸 = − 𝜇=1 𝑀 𝐹 𝑥𝑖 𝜇 𝜉𝑖 , 𝜉𝑖 𝑡+1 = 𝑆𝑔𝑛 𝜇=1 𝑀 𝐹 𝑥𝑖 𝜇 + 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡 − 𝐹 −𝑥𝑖 𝜇 + 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡  関数𝐹としては、 𝐹 𝑥 = 𝑥𝑛 𝑥 ≥ 0 0, 𝑥 < 0 [Krotov+16], 𝐹 𝑥 = 𝑒𝑥 [Demircigil+17] を採用。
  • 11.
    3.2 Modern HopfieldNetworkの詳細な説明 11  関数𝐹(𝑥) = 𝑥2とすると、古典的なHopfield Networkに対応  証明: 𝜉𝑖 𝑡+1 = 𝑆𝑔𝑛[ 𝜇=1 𝑀 (𝐹 𝑥𝑖 𝜇 + 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡 − 𝐹(−𝑥𝑖 𝜇 + 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡 ))] について、 𝜇=1 𝑀 (𝐹 𝑥𝑖 𝜇 + 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡 − 𝐹(−𝑥𝑖 𝜇 + 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡 )) = 𝜇=1 𝑀 1 + 2 𝑗≠𝑖 𝑥𝑖 𝜇 𝑥𝑗 𝜇 𝜉𝑗 𝑡 + ( 𝑗≠ 𝑥𝑗 𝜇 𝜉𝑗 𝑡 )2 −1 + 2 𝑗≠𝑖 𝑥𝑖 𝜇 𝑥𝑗 𝜇 𝜉𝑗 𝑡 − ( 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡 )2 = 4 𝜇=1 𝑀 𝑗≠𝑖 𝑥𝑖 𝜇 𝑥𝑗 𝜇 𝜉𝑗 𝑡  これは古典的なHopfield Networkの更新規則 𝜉𝑖 ′ = sgn 𝑗≠𝑖 𝑇𝑖𝑗𝜉𝑗 , 𝑇𝑖𝑗 = 𝜇=1 𝑀 𝑥𝑖 𝜇 𝑥𝑗 𝜇 と等価である
  • 12.
    3.3 Modern HopfieldNetworkの記憶容量 12 Hopfield Network 改良版:𝑭 𝒙 = 𝒙𝒏 改良版:𝑭 𝒙 = 𝒆𝒙 エネルギー関数 𝐸 = − 1 2 𝑖,𝑗=1 𝑁 𝜉𝑖𝑇𝑖𝑗𝜉𝑗 , 𝑇𝑖𝑗 = 𝜇=1 𝑀 𝑥𝑖 𝜇 𝑥𝑗 𝜇 𝐸 = − 𝜇=1 𝑀 𝐹 𝑥𝑖 𝜇 𝜉𝑖 , 𝐹 𝑥 = 𝑥𝑛 𝑥 ≥ 0 0, 𝑥 < 0 𝐸 = − 𝜇=1 𝑀 𝐹 𝑥𝑖 𝜇 𝜉𝑖 , 𝐹 𝑥 = 𝑒𝑥 更新規則 𝜉𝑖 ′ = sgn 𝑗≠𝑖 𝑇𝑖𝑗𝜉𝑗 𝜉𝑖 𝑡+1 = 𝑆𝑔𝑛 𝜇=1 𝑀 𝐹 𝑥𝑖 𝜇 + 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡 − 𝐹 −𝑥𝑖 𝜇 + 𝑗≠𝑖 𝑥𝑗 𝜇 𝜉𝑗 𝑡 メモリ容量 0.138𝑁 𝑁𝑛−1 2 𝑁 2
  • 13.
    3.4 Modern HopfieldNetworksとTransformerの関連性 13  Modern Hopfield Networkの状態変数の更新規則の導出:  𝐹 𝑥 = 𝑒𝑥 とした場合について  平均値の定理を用いて、更新規則がsoftmax関数を使って表せることを示す 𝑇𝑗 𝜉 = sgn −𝐸 𝜉𝑗 = 1 + 𝐸 𝜉𝑗 = −1 = sgn exp 𝑙𝑠𝑒 𝜉𝑗 = 1 − exp 𝜉𝑗 = −1 = sgn − 2𝑒𝑗 𝑇 ∇𝜉𝐸 𝜉𝑗 = 𝑣 (𝑣 ∈ −1,1 , 平均値の定理より) = sgn exp 𝑙𝑠𝑒 𝜉𝑗 = 𝑣 (2𝑒𝑗)𝑇 𝜕 𝜕𝜉 𝑙𝑠𝑒 𝜉𝑗 = 𝑣 = sgn exp 𝑙𝑠𝑒 𝜉𝑗 = 𝑣 2𝑒𝑗 𝑇 𝑋softmax 𝑋𝑇𝜉 𝜉𝑗 = 𝑣 = sgn 𝑋𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑋𝑇𝜉 𝜉𝑗 = 𝑣 𝑗 = sgn[ 𝑋𝑝(𝜉𝑗 = 𝑣) 𝑗 ]
  • 14.
    3.5 Modern HopfieldNetworkの連続変数への拡張 14  状態変数の取りうる値を、2値から連続変数へと拡張することを考える  Hopfield Networkをdeep learningの構造に取り入れる際に、連続変数であるほうが都合がよい  𝑀個の記憶すべきパターンX = 𝒙1, 𝒙2, … , 𝒙𝑀 , 𝒙𝑖 ∈ 𝑅𝑁, 𝐿 = 𝑚𝑎𝑥𝑖 𝒙𝑖 , 状態変数𝝃 ∈ 𝑅𝑁 としたとき、 元の式:𝐸 = − exp 𝑙𝑠𝑒 1, X𝑇𝝃 連続変数の式:𝐸 = −𝑙𝑠𝑒 𝛽, X𝑇𝝃 + 1 2 𝝃𝑇𝝃 + 𝛽−1𝑙𝑜𝑔𝑀 + 1 2 𝐿2 ただし、𝑙𝑠𝑒 𝛽, 𝒙 = 𝛽−1𝑙𝑜𝑔 𝑖=1 𝑁 exp(𝛽𝑥𝑖)  状態変数の更新規則は、𝑝 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝛽X𝑇𝝃)とおくと、 𝝃𝑛𝑒𝑤 = 𝑓 𝝃 = X𝑝 = 𝑋softmax(𝛽X𝑇𝝃)
  • 15.
    3.6 Modern HopfieldNetworksとTransformerの関連性 15  Modern Hopfield Network(1番左)を状態変数が連続変数のものに拡張(左から2 番目)  連続変数に拡張したHopfield Networkに対応した更新規則(左から3番目)は、 Transformerの式と似ている  1回の更新により、更新前のエネルギーの値と、エネルギー関数の極小値(定常点)との誤差 が非常に小さくなることが示されている(詳細略) 画像出典:[4]
  • 16.
    3.7 Modern HopfieldNetworkの応用 16  Hopfield Networkと深層学習の様々な層との類似性について  (a)はattention機構、(b)はpooling層、(c)は全結合層と等価であるとみなせる (a) Hopfield層 (b) Hopfield pooling層 (c) Hopfield layer層 画像出典:[4]
  • 17.
    3.7 Modern HopfieldNetworkの応用 17  深層学習は通常、小さなデータセットでのパフォーマンスに苦戦するが、最近傍 法に似た学習の仕方をすることから、小規模なデータセットに対する適用も有望  表はUCIベンチマークのうちの75個のデータセットに対する評価を行った結果  分類問題と思われる 表出典:[4]
  • 18.
    4.1 Simplicial HopfieldNetworks 書誌情報 紹介論文 タイトル: Simplicial Hopfield Networks 出典: Arxiv(2023.05), ICLR2023 著者: Thomas F.Burns Tomoki Fukai OIST Graduate University 概要  Hopfield Networks: パターンの保存と取り出しに強力なツール  単体複体の概念を用いて、そのメモリ容量を拡大することを検討 18
  • 19.
  • 20.
    4.3 抽象的な単体複体 20  定義:𝐾を2𝑁の部分集合とする。Kが抽象的な単体複体となる条件は、任意の𝜎∈ 𝐾に対して、すべての𝜌 ⊆ 𝜎が、𝜌 ∈ 𝐾を満たすこと  シンプルに言うと、部分集合を取るという操作に対して閉じている集合族  具体例:{∅, 1 , 2 , 3 , 1,2 , 1,3 , 2,3 , {1,2,3}}  幾何学的な例: 画像出典:[5]
  • 21.
    4.4 単体 21  単体複体Kの元𝜎を単体という K次元単体(K-simplex)は、K+1の濃度と、K-1次元単体であるK+1個の面(face)を持 つ  K=2の三角形において、K-1次元単体である面は、K=1の辺 K=0 K=1 K=2
  • 22.
    4.5 単体複体によるHopfield Networkの定式化 22 N個の頂点に対する単体複体K, 時刻tにおける各ニューロンの状態𝜉𝑗 (𝑡) = ±1(スピン)を考 える  あるニューロンの集合𝜎に対して、重みを𝑤 𝜎 , 𝜎 個のスピンの積を𝜉𝜎 (𝑡) , 𝑥𝜎 𝜇 とすると、  古典的なHopfield Networkの場合: 𝐸 = − 𝜎∈𝐾 𝑤 𝜎 𝜉𝜎 𝑡 , 𝑤 𝜎 = 1 𝑁 𝜇=1 𝑀 𝑥𝜎 𝜇 (古典的な𝐻𝑜𝑝𝑓𝑖𝑒𝑙𝑑 𝑁𝑒𝑡𝑤𝑜𝑟𝑘)  Modern Hopfield Networkの場合: 𝐸 = − 𝜇=1 𝑀 𝜎∈𝐾 𝐹 𝑥𝜎 𝜇 𝜉𝜎 𝑡 , 𝜉𝜎 (𝑡+1) = 𝑆𝑔𝑛 𝜇=1 𝑀 𝐹 1 ∙ 𝑥𝑖 𝜇 + 𝜎∈𝐾 𝑥𝜎 𝜇 𝜉𝜎 (𝑡) − 𝐹 −1 ∙ 𝑥𝑖 𝜇 + 𝜎∈𝐾 𝑥𝜎 𝜇 𝜉𝜎 (𝑡)
  • 23.
    4.5 単体複体によるHopfield Networkの定式化 23 𝑥𝑗, 𝜉𝑗 𝜇 ∈ ℝ, 𝑋 = (𝒙1, 𝒙2, … , 𝒙𝑃) とすると、  連続変数に対応したModern Hopfield Networkの場合:  𝐸 = −𝑙𝑠𝑒 𝑇−1 , 𝑋𝑇 𝝃 𝑡 , 𝐾 + 1 2 𝝃 𝑡 𝑇 𝝃 𝑡 ,  𝝃 𝑡 = softmax 𝑇 𝜎∈Κ 𝑋𝜎 𝑇 𝝃𝜎 (𝑡−1) 𝑋  各単体𝜎 ∈ 𝐾について、記憶したパターンに関する行列Ξとのドット積(類似度)を計算し更 新  ドット積は、ユークリッド距離、マンハッタン距離、コサイン類似度に置き換え可  高次元の幾何学的類似度の指標として、ced を使用  𝑑𝜌はユークリッド距離 𝑐𝑒𝑑 𝑥𝜎 𝜇 , 𝝃𝜎 𝑡 = 𝑑𝜌 2 画像出典:[5]
  • 24.
    4.6 実験 24  本論分では、𝐾1,𝑅12, 𝑅12, 𝑅12, 𝑅2の5つの設定を中心に実験  それぞれで、1-simplicesと2-simplicesの比率が異なる  K1は1-simplicesのみ、すなわち古典的なHopfield networkに対応
  • 25.
    4.6 実験 25  ランダムな2値変数の組(N=100)を記憶パターンとして、復元率を調査 評価指標は、𝑚𝜇 = 1 𝑁 𝑖=1 𝑁 𝜉𝑖 (𝑡) 𝑥𝑖 𝜇 とする  完全に復元できる場合、 𝑚𝜇=1  2変数の関係性のみを扱う場合と比較して、多変数の関係性も取り入れると復元 率が向上  比較において、パラメータ数(接続数)の数は同じで、各接続はランダムに選択される 表出典:[5]
  • 26.
    4.6 実験 26  MNIST,CIFER-10, Tiny ImageNetの3つのDatasetを用いて記憶容量を評価  各画像は0から1の範囲で正規化し、連続変数として扱う  上段がK1(古典的なHopfield network), 下段が𝑅12を表しており、いずれのDataset においても精度の向上が見られる 表出典:[5]
  • 27.
    4.7 CNNとの関連性 27  深層学習の領域において、多変数の関係性を扱うというのは、CNNでなされてい る CNNは多変数を扱う領域が制限されている一方で、本論文ではどの位置の関係性 に着目するかを自由に選べる 画像出典:CNN
  • 28.
    まとめ・所感 28 まとめ  統計物理学、神経科学との繋がりの深い HopfieldNetworkの導入を行った  古典的なHopfield Networkの見直しにより、記憶容量を改善した(Modern Hopfield Network)  深層学習のアーキテクチャに組み込むために、連続変数に対応したHopfield Networkを考 案した  単体複体の考えを用いた、記憶容量の更なる改善に向けた研究を紹介した 感想  現時点ではHopfield NetworkモデルそのものはSOTAの達成という観点からすると弱い  様々なDatasetでの検証が必要  しかしTransformerを、エネルギーの最小化や連想記憶、という観点から見る上で、使え そうな概念⇒改良につなげられる可能性あり  大規模基盤モデルとの関連性について、記憶や推論などモジュールを分けて構築し、そ のうちの記憶を司る一部分として機能しないかな?  制限付きボルツマンマシンとの関係性も踏み込みたかった
  • 29.
    引用 29 [1] Neural networksand physical systems with emergent collective computational abilities. | PNAS [2] [1606.01164] Dense Associative Memory for Pattern Recognition (arxiv.org) [3] [1702.01929] On a model of associative memory with huge storage capacity (arxiv.org) [4] [2008.02217] Hopfield Networks is All You Need (arxiv.org) [5] [2305.05179] Simplicial Hopfield networks (arxiv.org) [6] (PDF) A new frontier for Hopfield networks (researchgate.net)

Editor's Notes

  • #2 という論文を紹介します.
  • #3 Sotaを達成するうえで、modern Hopfield network単体では現状難しいような印象を受けた。ただ、多くの基盤モデルのベースとなっているtransformerとの関連性からもわかるように、transformerをエネルギーの最小化という観点から記述し、改良するうえで役に立つ可能性があると思った。また、基盤モデルを考える上でも、現状一つの大きなモデルというイメージだが、脳のように役割を分けて設計することを考えたとき(推論部分、記憶部分など)、記憶を司る一つのモジュールとして大きな役割を果たせる可能性もあるのでは?
  • #5 Title: Introduction to Hopfield Networks Content: ホップフィールドネットワークの基本的な概念と定義 このモデルがどのような問題を解決しようとしているのか(連想記憶、最適化問題など) 図:ホップフィールドネットワークの概念図。それぞれのニューロンがどのように接続され、互いにどのように影響を与えるかを示す簡単な図。
  • #6 Title: Historical Background of Hopfield Networks Content: ホップフィールドネットワークが提唱された背景や動機 その発展の経緯と、深層学習やニューラルネットワークの発展におけるホップフィールドネットワークの位置づけ 図:ホップフィールドネットワークの歴史的背景を示すタイムライン。このタイムラインでは、ホップフィールドネットワークの開発から現在までの主要な進展を示す。
  • #7 Title: Detailed Explanation of Hopfield Networks Content: ホップフィールドネットワークの数学的な詳細(ニューロンの状態、エネルギー関数など) ネットワークのダイナミクスとその解釈(エネルギー最小化の原則) 図:エネルギー関数の視覚化。ネットワークのダイナミクスを理解するために、ホップフィールドネットワークのエネルギー関数(エネルギーランドスケープ)をグラフィカルに表示。
  • #9 Title: Applications of Hopfield Networks Content: ホップフィールドネットワークが適用される主な例(例:パターン認識、エラー訂正符号など) それらの応用例を通じてネットワークの機能を具体的に理解する 図表:ホップフィールドネットワークの応用例。例えば、パターン認識の例を具体的に示す図や、その結果を示す表。
  • #10 Title: Limitations of Hopfield Networks Content: ホップフィールドネットワークの主な限界と問題点(例:記憶容量の問題、局所的な最小値への収束など) これらの問題が実用上どのような課題を引き起こすか 図:ホップフィールドネットワークの限界を示す図。例えば、局所的な最小値に収束する現象を示すエネルギーランドスケープの図。
  • #11 モダンホップフィールドネットワークの主要な特性とその優位性について説明します。 モダンホップフィールドネットワークが古典的なホップフィールドネットワークに比べてどのような進歩を遂げたかを説明します。 図:モダンホップフィールドネットワークの概念図。ネットワークのニューロンの接続性や更新ルールなど、基本的な構造を示す図。
  • #12 モダンホップフィールドネットワークの動作原理や更新ルールを詳細に説明します。 図:エネルギー関数の視覚化。改良されたエネルギーランドスケープを示す図。
  • #14 モダンホップフィールドネットワークとトランスフォーマーモデルがどのように関連しているかを説明します。 図:モダンホップフィールドネットワークとトランスフォーマーモデルの比較図。共通点と相違点を強調します。
  • #17 モダンホップフィールドネットワークの応用例を紹介します。特に、トランスフォーマーモデルの改良について焦点を当てます。 図表:具体的な応用例とその結果を示す図表。例えば、大規模なデータセットでのパターン認識のパフォーマンスなど。
  • #23 /\\_\\_\