23. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. World model の設計と育成
23
Joint-Embedding Predictive Architecture(JEPA)
① エンコーダ関数 𝑠𝑦 = 𝐸𝑛𝑐(𝑦) は、異なる 𝑦 の集合に対して同じ 𝑠𝑦 を
生成させる不変性を持っているかもしれない。
② 潜在変数 𝑧 は、集合𝑍上で変化させたとき、もっともらしい予測の集合
を生成することができる。
JEPAの主な利点
• 𝑥が分かれ道に差し掛かった車の映像の場合、𝑠𝑥、𝑠𝑦は、分岐前と分岐後の車の位置、姿勢、速度などの特性を
それぞれ表し、道路に接する木や歩道の質感などの無関係な部分は無視される。
• z は、道路左側の分岐を進むか、右側の分岐を進むかを表す。
エンコーダーによって表現空間で予測を行い、𝑦 のすべての詳細を予測する必
要をなくし、無関係な詳細を除去できる。
𝒙, 𝒚, 𝒔𝒙, 𝒔𝒚, 𝒛 の具体例
24. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. World model の設計と育成
24
エネルギーベースモデル(EBM)のトレーニング
※学習サンプルは青い点。エネルギーの低い領域はオレンジ色。
EBMトレーニングのための対照法と正則化法
対照法
• 学習サンプルのエネルギー(青い点)を押し下げ、適切に配置
された対照サンプルのエネルギー(緑の点)を引き上げる。
• 対照法は、対照サンプルが置かれた場所でのみエネルギーが引き
上げられること。対照サンプルの数が、𝑦空間の次元に比例して指
数関数的に増加することが欠点。
正則化法(非対照法)
• 学習サンプルのエネルギーを押し下げ、低エネルギー領域の体積
を最小化するような正則化項を使用する。この正則化は、エネル
ギー関数の柔軟性が許す範囲で、データ密度の高い領域を低エ
ネルギー領域内に「収縮」させる効果がある。
25. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. World model の設計と育成
25
VICReg(Bardes et al., 2021)
• 分散、不変性、共分散正則化を用いたJoint-Embedding Architectures。画像 I のバッチが与えられると、異なるビュー X と X‘ の2
つのバッチが生成され、表現 Y と Y’ に符号化される。同じ画像からの2つの埋め込み間の距離は最小化され、バッチ中の各埋め込み変
数の分散は閾値以上に維持され、バッチ中の埋め込み変数のペア間の共分散は0に引き寄せられ、互いの変数が非相関化される。2つ
のブランチは同一のアーキテクチャを必要とせず、重みも共有しない。
• 各次元に沿った埋め込み値の分散に対する単純な正則化項により、崩壊問題を回避する。
(Variance-Invariance-Covariance Regularization For Self-Supervised Learning)
26. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. World model の設計と育成
26
JEPA の学習
• JEPAは、正則化法(非対照法)を工夫して学習させる。
(対照法は高次元では非効率になる傾向がある)
: 𝑥 に関する 𝑠𝑥 の情報量を最大化する。
: 𝑠𝑦 の 𝑦 に関する情報量を最大化する。
: 𝑠𝑦 から容易に予測できるようにする。
: 予測に用いる潜在変数 𝑧 の情報量を最小化する。
• ①、②は、情報的な経過によってエネルギー表面が平坦になることを防ぐ。
• ③は、エネルギー項 𝐷(𝑠𝑦, ǁ
𝑠𝑦 )によって強制し、𝑦 が以下のものから予測可能であることを保証する。𝑥 を表現空間に配置する。
• ④は、潜在能力からの助けをできるだけ借りずに 𝑠𝑦 を予測するようモデルに強制することで、システムが別のタイプの情報の欠落の
犠牲になるのを防ぐ。
JEPA の非対照学習
① –I(𝑠𝑥)の最大化
② –I(𝑠𝑦)の最大化
③ D(𝑠𝑦,
𝑠𝑦)の誤差の最小化
④ R(z)の最小化
JEPA の場合、以下の4 つの基準によって行うことができる。
28. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. World model の設計と育成
28
階層型JEPA (H-JEPA)
• JEPA はエンコーダーを訓練して、入力の無関係な細部を排除し、
表現をより予測可能なものにできる。
• 抽象的な表現を学習できるため、階層的な積み重ねが可能である。
JEPA-1が低レベルの表現を抽出し、短期予測を行う。(右図)
• JEPA-2は、JEPA-1が抽出した表現を入力とし、より長期的な予
測が可能な高次の表現を抽出する。より抽象的な表現は、長期
予測が困難な入力の詳細を無視し、より粗い世界の状態の記述
で長期予測を行うことができる。
短期予測:数秒間にハンドルやペダルを操作する一連の動作。
→同じ時間内の自分の車の軌跡を正確に予測することができる。
長期予測:他の車や信号機、歩行者などの予測不可能な外的要因に左右される。
→より長い時間の軌跡を予測することは困難である。
しかし、高い抽象度であれば正確な予測をすることができる。
具体例
29. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. World model の設計と育成
29
階層的プランニング
① 複雑なタスクは、高レベルの世界状態表現 𝐶(𝑠2[4])から計算される高レベルのコストで定義される。
② 𝐶(𝑠2[4])を最小化する高レベルの抽象アクション(𝑎2[2], 𝑎2[4])のシーケンスが推論される。
③ 推論された抽象アクションは、下位層のサブゴールを定義する下位コストモジュール 𝐶(𝑠[2]), 𝐶(𝑠[4]) に供給される。
そして、下位層はサブゴールコストを最小化する行動シーケンスを推論する。
※ここでは2層しか示していないが、多層も同様。
モード 2 階層計画のための階層的 JEPA
①
②
②
③
③
• マルチスケール世界モデルの階層性を利用した階層
的なモード2をプランニングするためのアーキテクチャ。
• 知覚は、エンコーダーのカスケードによって、複数の
抽象化されたレベルの表現にコード化される。
30. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. World model の設計と育成
30
不確実性への対応
不確実性が存在する場合の階層的な計画エピソード
• 現実的な環境は、高度に抽象化された表現を用いても、完全に予測で
きるわけではない。予測に関する不確実性は、潜在変数を持つ予測変
数で処理することができる。
• 潜在変数(赤丸)には、事前観測から得られない予測に関する情報が
含まれている。潜在変数は、エネルギー崩壊を防ぎ、その助けなしに可能
な限り予測するようにシステムを強制するために、正則化されなければなら
ない。(R1、R2は、潜在変数に対する正則化)
• 計画時には、正則化にギブス分散を適用した分布から潜在変数をサンプ
リングする。各サンプルはそれぞれ異なる予測につながる。一貫性のある潜
在的な配列を生成するために、正則化器のパラメータは以前の状態や検
索された記憶の関数とすることができる。
• 各潜在変数がk個の可能な離散値を持つ場合、可能な軌道の数は𝑘𝑡 、ここで𝑡は時間ステップの数として成長する。このような場合、
直接探索と枝刈り戦略を採用しなければならない。複数の予測軌道があれば、平均コスト、あるいはリスクを最小化するためにコストの
平均と分散の組み合わせを最小化する最適な行動シーケンスを計算することができる。
31. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. Actor の設計と育成
31
5. Actor の設計と育成
アクターモジュールの役割は、3つ。
1. 世界モデルによるMode-2行動の予測から、コストを最小化する最適な行動系列を推論する。
2. エージェントが知らない世界の状態の部分を表す潜在的な変数の複数の構成を生成する。
3. モード1アクションを生成するためのトレーニングポリシーネットワーク。
• Actionと潜在的な変数の間に概念的な違いはない。両方の変数セットの構成は、Actorによって探索されなければならない。
• 潜在変数については、不確実性の下で計画するために、構成を探索しなければならない。行動変数については、コストを最小化する最適
なものを生成するために、構成を探索しなければならない。敵対的なシナリオ(ゲームなど)では、コストを最大化する潜在的な構成を探
索しなければならない。事実上、アクターは、最適化と探索の両役割を果たす。
• 世界モデルとコストが良好に振舞うとき、アクターモジュールは勾配に基づく最適化処理を用いて最適な行動シーケンスを推論することがで
きる。そのために、コストと展開された世界モデルを通して勾配を逆伝播することによって計算されたコストの勾配の推定値を受信する。そし
て、その推定値を用いて行動シーケンスを更新する。
36. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• Ha, D. and Schmidhuber, J. (2018b). World models. arXiv preprint arXiv:1803.10122.
• Kahneman, D. (2011). Thinking, fast and slow. Macmillan.
• Walker, J., Razavi, A., and Oord, A. v. d. (2021). Predicting video with vqvae. arXiv preprint
arXiv:2103.01950.
• Gregor, K. and LeCun, Y. (2010b). Learning fast approximations of sparse coding. In Proc.International
Conference on Machine learning (ICML'10).
• Bardes, A., Ponce, J., and LeCun, Y. (2021). Vicreg: Variance-invariance-covariance regularization for self-
supervised learning. In International Conference on Learning Repre- sentations (ICLR 2022). arXiv
preprint arXiv:2105.04906.
• LeCun, Y., Chopra, S., Hadsell, R., Ranzato, M., and Huang, F. (2006). A tutorial on energy-based
learning. In Bakir, G., Hofman, T., Scholkopf, B., Smola, A., and Taskar, B., editors, Predicting Structured
Data. MIT Press.
36