【DL輪読会】A Path Towards Autonomous Machine Intelligence

http://deeplearning.jp/
A Path Towards Autonomous Machine Intelligence
小林範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1

Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
A Path Towards Autonomous Machine Intelligence
https://openreview.net/forum?id=BZ5a1r-kVsf&fbclid=IwAR0V0k7AXd-
lkSkvQrst1tu0bt1N7ZpWkh683tFFxkBw92OduOwy0wnmQGQ
タイトル：
著者： Yann LeCun
• Yann LeCunさんの人工知能を実現するためのポジションペーパー。
• すべてのモジュールが微分可能で、その多くが訓練可能な全体的な認知アーキテクチャを提案。
• JEPA と階層的JEPAを提案。
• 情報量が多く予測可能な表現を同時に生成する、非対照型自己教師あり学習を提案。
• 不確実性の下で予測世界モデルの基礎として、階層型JEPAを使用する方法を提案。
概要：
2

アジェンダ
1. プロローグ
2. はじめに
3. 自律知能のためのモデル・アーキテクチャ
4. World model の設計と育成
5. Actor の設計と育成
6. Configurator の設計
7. 関連研究
8. 考察
3

１. プロローグ
プロローグ
4
• この文書は、伝統的な意味での技術論文でも学術論文でもなく、動物や人間の
ように学習し、推論や計画を行うことができ、外部の教師、外部の報酬ではなく、
内在する目的によって行動を起こす知的機械への道を示す、私のビジョンを表現
したポジションペーパーである。
• この論文で述べられている多くのアイデア（ほとんどすべて）は、多くの著者によって
様々な文脈で様々な形で定式化されている。
• 本論文は、これらのアイデアのどれが優先されるかを主張するものではなく、それ
らをいかにして一貫した全体像に組み立てるかについての提案を行うものである。
特に、今後の課題を挙げている。また、成功する可能性のある、あるいはそうでない
道筋をいくつか挙げている。
画像出典：
https://ja.wikipedia.org/wiki/%E3%83%A4%E3%83%B3%E3%83%BB%E3%83%AB%E3%82%AB%E3%83%B3
Yann LeCun さん

２. はじめに
5
現在、AI研究が取り組むべき課題は大きく3つ
１. 機械は観察によって、どのようにして世界を表現すること、予測することを学び、
行動することを学ぶことができるのか？
2. 機械はどのようにして、勾配に基づく学習と互換性のある方法で推論し、
計画を立てることができるのか？
3. 知覚や行動計画を、階層的に複数の抽象度で、複数の時間スケールで表現することを、
機械はどのように学習するのだろうか。

２. はじめに
6
本論文の主な貢献は以下の４つ
1. すべてのモジュールが微分可能で、その多くが訓練可能な全体的な認知アーキテクチャを提案。
2. JEPA と階層的JEPAを提案。
3. 情報量が多く予測可能な表現を同時に生成する、非対照型自己教師あり学習を提案。
4. 不確実性の下で予測世界モデルの基礎として、階層型JEPAを使用する方法を提案。

２. はじめに
7
２.1 ラーニングワールドモデル
• 人間や動物は、少ないインタラクションと観察を通して、世界の仕組みと背景知識を学ぶことができるようである。これは、し
ばしば常識と呼ばれるものを基礎を構成していると仮定できる。常識的な知識は、単に将来の結果を予測するだけでなく、
時間的、空間的に欠落した情報を補うことができる。常識とは、何がありそうで、何がありえないかを教えてくれる世界モ
デルの集合体と見ることができる。
• このような世界モデルを用いると、ほとんど試行することなく新しい技能を習得することができる。動物たちは、自分の行
動のシーケンスを予測し、推論し、計画し、探索し、問題に対する新しい解決策を想像することができる。
• 教師なし（または自己教師あり）方式で世界モデルを学習し、そのモデルを用いて予測、推論、計画を行うことを可能
にする学習パラダイムとアーキテクチャを考案することが、AIとMLの主要課題の1つであると考えている。

2. はじめに
8
• 乳幼児がどの年齢で、世界の仕組みに関する様々な概念を一般に何歳ごろに獲得するかを示した図。
• 抽象度の高い概念は、低い概念の上に発達していくようである。
• このような知識の多くは、特に最初の数週間から数ヶ月の間は、ほとんど直接的に介入することなく、観察によって獲得される。
2.2 人間と動物がモデルの階層を学ぶ
Emmanuel Dupoux氏による研究

２. はじめに
9
• 世界に関する知識と、行動や内発的な動機・目的とを組み合わせることで、動物は新しい課題を素早く学習し、その成
果を予測することができる。
• 自分の行動がもたらす結果を予測し、計画的に行動し、成功の道筋を予測し、危険な状況を回避する。
2.2 人間と動物がモデルの階層を学ぶ
しかし、人間や動物の脳は、生存に必要な世界モデルをすべて含むことができるのだろうか？
• 本論文の一つの仮説は、動物も人間も前頭前野のどこかにたった一つの世界モデルエンジンを持っているというもので
ある。その世界モデル・エンジンは、目の前のタスクに合わせて動的に設定可能である。すべての状況に対して個別のモ
デルを持つのではなく、単一の設定可能な世界モデル・エンジンがあれば、世界の仕組みに関する知識がタスク間で共有
されるかもしれない。これにより、ある状況に対して設定されたモデルを別の状況に適用することで、類推による推論が可
能になるかもしれない。

３. 自律知能のためのモデル・アーキテクチャ
10
自律知能のためのアーキテクチャ
• AIシステムが動物や人間のように学習し、推論するために、
6つの個別のモジュールで構成されるアーキテクチャを提案。
• 各モジュールは微分可能であると仮定し、自身の入力に対
する目的関数の勾配推定を容易に計算し、勾配情報を
上流のモジュールに伝搬させることができるとしている。
1. Configurator モジュール
2. Perception（知覚）モジュール
3. World Model モジュール
4. Cost モジュール
5. Actor モジュール
6. Short-term Memory モジュール
6つのモジュール

11
１．configuratorモジュール
• 実行制御を行う。
• 実行すべきタスクが与えられると、知覚モジュール、世界モデ
ル、コスト、およびActorを目前のタスクのために設定する。
（または、これらのモジュールのパラメータを調整する。）
２．Perception（知覚）モジュール
• センサーから信号を受け取り、世界の現在の状態を推定する。
• あるタスクでは、知覚された世界の状態のごく一部だけが関
連し、有用である。Configuratorモジュールは、目前のタス
クに関連する情報を知覚モジュールから抽出する。

12
３．World Model（世界モデル）モジュール
• アーキテクチャの中で最も複雑な部分を構成。その役割は2つ。
(1) 知覚によって世界の状態に関する不足情報を推定すること。
(2) 世界のもっともらしい将来の状態を予測すること。
• 世界モデルは、世界の自然な進化を予測したり、Actorモジュールが
提案する一連のアクションの結果として将来の世界の状態を予測す
ることができる。世界モデルは、タスクに関連する世界の部分の一種
のシミュレータである。世界は不確実性に満ちているので、モデルは
複数の可能な予測を表すことができなければならない。
例）交差点に近づくドライバーは、交差点に近づく他の車が
一時停止標識で止まらない場合に備えて、速度を落とすかもしれない。と予測する。

13
４．Costモジュール
• エージェントの「不快感」のレベルをエネルギーと呼ばれるスカラー量
として測定する。エネルギーは2つのサブモジュール（固有コストモ
ジュールとCriticモジュール）の和である。
固有コストモジュール
不変（訓練不可能）であり、即時の不快感（エージェントの
損傷、ハードコードされた行動制約の違反など）を計算する。
Criticモジュール
固有コストの将来の値を予測する訓練可能なモジュール。
• エージェントの全体的な目的は、平均エネルギーを最小にするような状態に留まるように行動すること。
• コストモジュールは微分可能なので、コストの勾配を他のモジュールに逆伝播して、計画、推論、学習を行うことができる。

14
５．Actor モジュール
• 一連の動作の提案を計算し、動作を出力する。世界モデルに対して行動
シーケンスを提案する。世界モデルは行動シーケンスから将来の世界状態
シーケンスを予測し、コストに供給する。このとき、コストは提案された行動
シーケンスに関連する将来の推定エネルギーを計算する。
• 提案された行動シーケンスに関する推定コストの勾配にアクセスできるので、
勾配に基づく方法を用いて推定コストを最小化する最適な行動シーケンス
を計算することができる。
６．Short Term Memory （短期記憶）モジュール
• 世界の過去、現在、未来の状態に関する関連情報と、それに対応する固有コ
ストの値が格納される。
• 世界モデルは、将来（または過去）の状態を時間的に予測しながら、また、
現在の世界の状態について欠落した情報を空間的に補完したり矛盾した情報
を修正しながら、短期記憶にアクセスし更新する。世界モデルは短期記憶にク
エリーを送り、取り出された値を受信したり、状態の新しい値を保存したりするこ
とができる。

15
典型的な知覚-行動ループ
• 世界モデルとコストを通じて推論と計画を行う。
• Kahnemanの「システム2」になぞらえて「モード2」と呼ぶこと
にする。ここでいう「推論」とは、エネルギー最小化を意味する
広義の言葉として使用する。
モード-1
• 複雑な推論を伴わず、知覚の出力と可能な限りの短期記憶
モジュールから直接行動を起こす。
• Kahnemanの「システム1」との類似性から、これを「モード1」と
呼ぶことにする。
モード１
モード２
知覚モジュールとActorモジュールのエピソードに対して、採用できる2つのモード。
モード2

16
モード-1: 反応行動
• 知覚モジュールは、エンコーダを介して、タスクに関連する情報を含む世界
の状態の表現 𝑠[0] = 𝐸𝑛𝑐(𝑥)を抽出する。
• 𝐹[0] = 𝐶(𝑠[0]) とし、 (𝑠[0], 𝑓(0)) を短期メモリに格納する。
• Actorのコンポーネントであるポリシーモジュールは、状態の関数としてアク
ションを生成する。𝑎[0] = 𝐴(𝑠[0])となる。
• 世界モデル 𝑠(1) = 𝑃𝑟𝑒𝑑(𝑠[0], 𝑎[0]) と関連するエネルギー𝑓[0] =
𝐶(𝑠[0])を用いて次の状態を予測する。取られた行動の結果としての次の
観測が利用可能になった時点で、世界モデルを調整することができるように
することもできる。
モード1
• 世界モデルを用いることで、エージェントは行動を想像し、その効果や結果
を予測することができる。これにより、外界で複数の行動を試し、その結果
を測定することができる。

17
モード-2：世界モデルを使った推論と計画
モード2
Perception（知覚）モジュール
• 世界の状態 s[0] を推定する。
Actorモジュール
• 一連の行動 𝑎[0], 𝑎[1], … 𝑎[𝑡], 𝑎[𝑡 + 1], ….𝑎[𝑇]を提案する。
世界モデルモジュール
• 𝑠[𝑡+1] = 𝑃𝑟𝑒𝑑(𝑠[𝑡], 𝑎[𝑡]) を用いて、世界の状態の推定値を再帰的に予測する。
コストモジュール
• C(s[t])は予測された各状態のエネルギーを計算し、それらの合計を総エネルギーとする。
Actorモジュール
• 総エネルギーを最小化するアクションのシーケンスを推論する。そして、そのシーケンス内の最初のアクションをエフェクタに送信する。

18
モード-2：世界モデルを使った推論と計画
1. 知覚
2. 行動提案
3. シミュレーション
4. 評価
5. 計画
知覚システムは、世界の現在の状態の表現 𝑠[0] = 𝑃 (𝑥) を抽出する。
コストモジュールは、その状態に関連する即時コストを計算し、格納する。
Actorは、評価のために世界モデルに供給されるアクションの初期シーケンスを提案する。
𝑎 0 , … , 𝑎 𝑡 , … , 𝑎 𝑇
世界モデルは、提案された行動シーケンス（𝑠[1], … , 𝑠[𝑡], … , 𝑠[𝑇 ]）から生じる世界状態表現の一つまたは
複数の可能性のあるシーケンスを予測する。
コストモジュールは、予測された状態遷移から総コストを推定する。
一般に時間ステップの総和として 𝐹 (𝑥) = σ𝑡=1
𝑇
𝐶 [𝑠[𝑡]]
Actorはより低いコストで新しい行動シーケンスを提案する。これは、コストの勾配が計算グラフを通してアクショ
ン変数に逆伝播される勾配ベースの手順によって行うことができる。結果として得られる最小コストの行動列は、
(ු
𝑎[0], … , ු
𝑎[𝑇 ]) と表記される。
6. 行動
7. 記憶
低コストの行動シーケンスに収束した後、Actorは低コストのシーケンスの最初の行動（または最初のいくつか
の行動）をエフェクタに送る。このプロセス全体が、次の知覚-行動エピソードに対して繰り返される。
全ての行動の後、固有コストモジュールとCriticモジュールからの状態と関連するコストが短期メモリに格納され
る。これらのペアは後でCriticの訓練や適応に利用することができる。

19
「モード2」から「モード1」へ：新しいスキルの習得
• モード２最適化の結果得られる行動を近似的に実現
するためのポリシーモジュール𝐴(𝑠[𝑡])の学習方法を示
す。（右図）
モード2 推論の結果から、反応性ポリシーモジュールをトレーニングする
𝑠[𝑡 + 1] = 𝑃𝑟𝑒𝑑(𝑠[𝑡], 𝑎[𝑡]) ; ු
𝑎[𝑡 + 1] = 𝐴(𝑠[𝑡 + 1])
• 最適な行動とポリシーモジュールの出力との間の発散 𝐷(ු
𝑎[𝑡]), 𝐴(𝑠[𝑡]) を最小にするようにポリシーモジュールのパラメータが調整され
る。一旦訓練されると、ポリシーモジュールはモード1における行動 ු
𝑎[0] = 𝐴(𝑠[0])を直接生成するために使用することができる。ま
た、モード2最適化の前に、初期行動を再帰的に計算するために使用することもできる。この結果、ポリシーモジュールは、償却推論
を行い、良いアクションシーケンスの近似を生成する。
• モード 2 で動作し、最適な一連の行動
(ු
𝑎[0], … , ු
𝑎[𝑇]) を生成する。
①
②

20
3.2 行動の原動力となるコストモジュール
• コストモジュールは、不変の 𝑰𝑪(𝒔)と、Criticまたは訓練可能なコ
スト 𝑻𝑪(𝒔) から構成される。
• ICとTCはともに複数のサブモジュールからなり、その出力は線形
に合成される。
• 線形結合の重み 𝑢𝑖 と 𝑣𝑗 はConfiguratorモジュールによって
決定される。これにより、エージェントが異なるサブゴールに集中す
ることを可能にする。
コストモジュールのアーキテクチャ

21
3.3 Critic の訓練
• Criticの主な役割は、固有コストの将来値を予測すること。
• 固有コストモジュールは、トリプレット（時間𝜏 、状態𝑠𝜏 、固有エネル
ギー𝐼𝐶(𝑠𝜏) ）を格納する短期記憶モジュール。
• 保存された状態と対応する固有コストは、知覚された状態、または
モード2エピソード中に世界モデルによって想像した状態に対応するこ
とができる。
• 短期記憶は時間𝜏が与えられた状態 𝑠τ を検索し、時間τまたは状
態 𝑠𝜏 が与えられた固有コスト𝐼𝐶(𝑠𝜏) を検索することができる。
• 過去の状態ベクトル 𝑠τ と、後の時間における固有コスト IC(𝑠τ + 𝛿) を取得することで、将来の固有コスト値を予測するように
Criticを訓練できる。
• Critic のパラメータは、 IC(𝑠τ + 𝛿) − 𝑇𝐶(𝑠τ) 2
のような予測損失を最小化することで最適化できる。

４. World model の設計と育成
22
Joint-Embedding Predictive Architecture（JEPA）
• 2つのエンコーディングブランチから構成される。最初のブランチは 𝑥 の表現である 𝑠𝑥
を計算し、2 番目のブランチは 𝑦 の表現である 𝑠𝑦 を計算する。
• 𝑥 から yの予測を明示的に生成することなく 𝑥 と 𝑦 の依存関係を捉える。
• 予測器モジュールは、潜在変数 𝑧 の入力を受け、𝑠𝑥 から 𝑠𝑦 を予測する。
• 2 つのエンコーダーは異なっていて良く、同じアーキテクチャである必要はない。パラ
メータを共有する必要もない。このため、𝑥 と 𝑦 は異なる性質を持つことができる。
(例: ビデオとオーディオ)。
• 予測器モジュールは 𝑥 の表現から 𝑦 の表現を予測する。予測器は潜在的な変数
𝑧 に依存することがある。

23
Joint-Embedding Predictive Architecture（JEPA）
① エンコーダ関数 𝑠𝑦 = 𝐸𝑛𝑐(𝑦) は、異なる 𝑦 の集合に対して同じ 𝑠𝑦 を
生成させる不変性を持っているかもしれない。
② 潜在変数 𝑧 は、集合𝑍上で変化させたとき、もっともらしい予測の集合
を生成することができる。
JEPAの主な利点
• 𝑥が分かれ道に差し掛かった車の映像の場合、𝑠𝑥、𝑠𝑦は、分岐前と分岐後の車の位置、姿勢、速度などの特性を
それぞれ表し、道路に接する木や歩道の質感などの無関係な部分は無視される。
• z は、道路左側の分岐を進むか、右側の分岐を進むかを表す。
エンコーダーによって表現空間で予測を行い、𝑦 のすべての詳細を予測する必
要をなくし、無関係な詳細を除去できる。
𝒙, 𝒚, 𝒔𝒙, 𝒔𝒚, 𝒛 の具体例

24
エネルギーベースモデル（EBM）のトレーニング
※学習サンプルは青い点。エネルギーの低い領域はオレンジ色。
EBMトレーニングのための対照法と正則化法
対照法
• 学習サンプルのエネルギー（青い点）を押し下げ、適切に配置
された対照サンプルのエネルギー（緑の点）を引き上げる。
• 対照法は、対照サンプルが置かれた場所でのみエネルギーが引き
上げられること。対照サンプルの数が、𝑦空間の次元に比例して指
数関数的に増加することが欠点。
正則化法（非対照法）
• 学習サンプルのエネルギーを押し下げ、低エネルギー領域の体積
を最小化するような正則化項を使用する。この正則化は、エネル
ギー関数の柔軟性が許す範囲で、データ密度の高い領域を低エ
ネルギー領域内に「収縮」させる効果がある。

25
VICReg（Bardes et al., 2021）
• 分散、不変性、共分散正則化を用いたJoint-Embedding Architectures。画像 I のバッチが与えられると、異なるビュー X と X‘ の2
つのバッチが生成され、表現 Y と Y’ に符号化される。同じ画像からの２つの埋め込み間の距離は最小化され、バッチ中の各埋め込み変
数の分散は閾値以上に維持され、バッチ中の埋め込み変数のペア間の共分散は0に引き寄せられ、互いの変数が非相関化される。2つ
のブランチは同一のアーキテクチャを必要とせず、重みも共有しない。
• 各次元に沿った埋め込み値の分散に対する単純な正則化項により、崩壊問題を回避する。
（Variance-Invariance-Covariance Regularization For Self-Supervised Learning）

26
JEPA の学習
• JEPAは、正則化法（非対照法）を工夫して学習させる。
（対照法は高次元では非効率になる傾向がある）
： 𝑥 に関する 𝑠𝑥 の情報量を最大化する。
： 𝑠𝑦 の 𝑦 に関する情報量を最大化する。
： 𝑠𝑦 から容易に予測できるようにする。
：予測に用いる潜在変数 𝑧 の情報量を最小化する。
• ①、②は、情報的な経過によってエネルギー表面が平坦になることを防ぐ。
• ③は、エネルギー項 𝐷(𝑠𝑦, ǁ
𝑠𝑦 )によって強制し、𝑦 が以下のものから予測可能であることを保証する。𝑥 を表現空間に配置する。
• ④は、潜在能力からの助けをできるだけ借りずに 𝑠𝑦 を予測するようモデルに強制することで、システムが別のタイプの情報の欠落の
犠牲になるのを防ぐ。
JEPA の非対照学習
① –I(𝑠𝑥)の最大化
② –I(𝑠𝑦)の最大化
③ D(𝑠𝑦, ෥
𝑠𝑦)の誤差の最小化
④ R(z)の最小化
JEPA の場合、以下の4 つの基準によって行うことができる。

27
VICReg を用いた JEPAの学習
• 𝑠𝑥 と 𝑠𝑦 は、拡張器（𝐸𝑥𝑝()）を通して高次元の埋め込み 𝑣𝑥 と 𝑣𝑦 に
マッピングすることで最大化する。サンプルのバッチ上で計算された2つの微
分可能な損失項を持つ損失関数を使うことで、埋め込みの共分散行列
を恒等式に向かわせる。
VICReg を用いた JEPA の学習
③表現予測誤差 𝐷(𝑠𝑦 , ǁ
𝑠𝑦) の最小化
④𝐷( 𝑠𝑦 , ǁ
𝑠𝑦 ) = 𝐷( 𝑠𝑦 , 𝑠𝑥 ) = 𝑠𝑦 − 𝑠𝑥
2
の最小化
①𝑣𝑥 = 𝐸𝑥𝑝(𝑠𝑥) Conv(𝑣𝑥) → I
②𝑣𝑦 = 𝐸𝑥𝑝(𝑠𝑦) Conv(𝑣𝑦) → I

28
階層型JEPA (H-JEPA)
• JEPA はエンコーダーを訓練して、入力の無関係な細部を排除し、
表現をより予測可能なものにできる。
• 抽象的な表現を学習できるため、階層的な積み重ねが可能である。
JEPA-1が低レベルの表現を抽出し、短期予測を行う。（右図）
• JEPA-2は、JEPA-1が抽出した表現を入力とし、より長期的な予
測が可能な高次の表現を抽出する。より抽象的な表現は、長期
予測が困難な入力の詳細を無視し、より粗い世界の状態の記述
で長期予測を行うことができる。
短期予測：数秒間にハンドルやペダルを操作する一連の動作。
→同じ時間内の自分の車の軌跡を正確に予測することができる。
長期予測：他の車や信号機、歩行者などの予測不可能な外的要因に左右される。
→より長い時間の軌跡を予測することは困難である。
しかし、高い抽象度であれば正確な予測をすることができる。
具体例

29
階層的プランニング
① 複雑なタスクは、高レベルの世界状態表現 𝐶(𝑠2[4])から計算される高レベルのコストで定義される。
② 𝐶(𝑠2[4])を最小化する高レベルの抽象アクション(𝑎2[2], 𝑎2[4])のシーケンスが推論される。
③ 推論された抽象アクションは、下位層のサブゴールを定義する下位コストモジュール 𝐶(𝑠[2]), 𝐶(𝑠[4]) に供給される。
そして、下位層はサブゴールコストを最小化する行動シーケンスを推論する。
※ここでは2層しか示していないが、多層も同様。
モード 2 階層計画のための階層的 JEPA
①
②
②
③
③
• マルチスケール世界モデルの階層性を利用した階層
的なモード２をプランニングするためのアーキテクチャ。
• 知覚は、エンコーダーのカスケードによって、複数の
抽象化されたレベルの表現にコード化される。

30
不確実性への対応
不確実性が存在する場合の階層的な計画エピソード
• 現実的な環境は、高度に抽象化された表現を用いても、完全に予測で
きるわけではない。予測に関する不確実性は、潜在変数を持つ予測変
数で処理することができる。
• 潜在変数（赤丸）には、事前観測から得られない予測に関する情報が
含まれている。潜在変数は、エネルギー崩壊を防ぎ、その助けなしに可能
な限り予測するようにシステムを強制するために、正則化されなければなら
ない。（R1、R2は、潜在変数に対する正則化）
• 計画時には、正則化にギブス分散を適用した分布から潜在変数をサンプ
リングする。各サンプルはそれぞれ異なる予測につながる。一貫性のある潜
在的な配列を生成するために、正則化器のパラメータは以前の状態や検
索された記憶の関数とすることができる。
• 各潜在変数がk個の可能な離散値を持つ場合、可能な軌道の数は𝑘𝑡 、ここで𝑡は時間ステップの数として成長する。このような場合、
直接探索と枝刈り戦略を採用しなければならない。複数の予測軌道があれば、平均コスト、あるいはリスクを最小化するためにコストの
平均と分散の組み合わせを最小化する最適な行動シーケンスを計算することができる。

31
アクターモジュールの役割は、3つ。
1. 世界モデルによるMode-2行動の予測から、コストを最小化する最適な行動系列を推論する。
2. エージェントが知らない世界の状態の部分を表す潜在的な変数の複数の構成を生成する。
3. モード1アクションを生成するためのトレーニングポリシーネットワーク。
• Actionと潜在的な変数の間に概念的な違いはない。両方の変数セットの構成は、Actorによって探索されなければならない。
• 潜在変数については、不確実性の下で計画するために、構成を探索しなければならない。行動変数については、コストを最小化する最適
なものを生成するために、構成を探索しなければならない。敵対的なシナリオ（ゲームなど）では、コストを最大化する潜在的な構成を探
索しなければならない。事実上、アクターは、最適化と探索の両役割を果たす。
• 世界モデルとコストが良好に振舞うとき、アクターモジュールは勾配に基づく最適化処理を用いて最適な行動シーケンスを推論することがで
きる。そのために、コストと展開された世界モデルを通して勾配を逆伝播することによって計算されたコストの勾配の推定値を受信する。そし
て、その推定値を用いて行動シーケンスを更新する。

6. Configurator の設計
32
６. Configurator の設計
• コンフィギュレータは、エージェントのメインコントローラ。他のすべてのモジュールから入力を受け、そのパラメータと接続グラフを調整する。
• 変調は、信号をルーティングしたり、サブネットワークを活性化したり、注意を集中させたりすることができる。予測器と知覚エンコーダの上
位層がトランスフォーマーブロックであるシナリオでは、コンフィギュレータの出力はこれらのトランスフォーマーブロックへの追加入力トークン
であり、それによってそれらの接続グラフと機能を変更することができる。
• コンフィギュレータモジュールの利点：ハードウェアの再利用と知識の共有の2つ。
（ある環境に対して学習させた世界モデルは、わずかな変更でさまざまなタスクに利用できる。）
欠点：エージェントが一度に一つのタスクしか達成できないこと。
• コンフィギュレータの最も重要な機能は、エージェントにサブゴールを設定し、このサブゴールのためのコストモジュールを設定することである。
• コストを設定可能にする簡単な方法は、初歩的なコストサブモジュールの線形結合の重みを変調することである。
• これに対して、より洗練されたアーキテクチャでは、コストのTrainable Critic部分を柔軟に変調させることができると想像される。
• 予測器と同様に、高レベルのコストがオブジェクト間の望ましい関係のセットとして定式化されている場合（例：ナットはネジにセットされ
ているか？）、世界の状態が満たされるべき条件からどの程度乖離しているかを測定するように訓練された変換器アーキテクチャを使
用することができる。予測器と同様に、トークン入力を追加して関数を調節することができる。

7. 関連研究
33
関連研究
• 本論文で紹介されているアイデアのほとんどは新しいものではなく、認知科学、神経科学、最適制御、ロボット工学、AI、機械学習、
特に強化学習において様々な形で長く議論されてきたものである。
• 学習済みWorld Model
• モデル予測制御
• 階層的Planning
• エネルギーベースモデル（EBM）
• Joint-Embedding Architectures
• ヒトと動物の認知
特に結びつきの強い研究

8. 考察
34
提案モデルに欠けているもの
• 動画から階層型JEPAを構築し、学習させることができるのか、という問題。
提案されたアプローチの広範な妥当性
Q．動物の知能モデルの基礎になりうるか？
• 提案するアーキテクチャは、単一の世界モデルエンジンを持ち、コンフィギュレータによって手元のタスクに合わせて設定することができる。
もし、脳が独立した設定不可能な世界モデルを多数含むほど大きければ、コンフィギュレータは不要となり、意識の錯覚はなくなる
と考えられる。
Q．スケーリングが全てなのか？報酬は本当に十分か？
• スケーリングだけでは不十分。現在のモデルは非常に限定的な推論しかできない。
Q．機械が常識を獲得する道となり得るか？
• 世界観測のセルフコンシステント（求めるべき解が自分自身を含むような問題）と相互依存性を捉えた世界モデルを学習するこ
とで、エージェントが情報の欠落を補い、世界モデルの違反を検出することで、常識が生まれるのではないかと推測している。
Q. 推論に記号は必要なのか？
• 勾配に基づく探索方法が勾配を用いない探索方法よりも効率的であることから、世界モデルの学習手順が、計画・推論問題が離散
問題を構成する階層的な表現を見つける方法を見つけたい。ここで提案された推論が、人間や動物が持つすべての推論を網羅でき
るかどうかはわからない。

8. 考察
結論
35
• すべてのモジュールが微分可能で、その多くが訓練可能な全体的な認知アーキテクチャを提案。
• JEPA と階層的JEPAを提案。
• 情報量が多く予測可能な表現を同時に生成する、非対照型自己教師あり学習を提案。
• 不確実性の下で予測世界モデルの基礎として、階層型JEPAを使用する方法を提案。
感想
• 人工知能を実現する一つのシナリオとして、全体をとりまとめている様子が面白いと感じた。

Appendix
参考文献
• Ha, D. and Schmidhuber, J. (2018b). World models. arXiv preprint arXiv:1803.10122.
• Kahneman, D. (2011). Thinking, fast and slow. Macmillan.
• Walker, J., Razavi, A., and Oord, A. v. d. (2021). Predicting video with vqvae. arXiv preprint
arXiv:2103.01950.
• Gregor, K. and LeCun, Y. (2010b). Learning fast approximations of sparse coding. In Proc.International
Conference on Machine learning (ICML'10).
• Bardes, A., Ponce, J., and LeCun, Y. (2021). Vicreg: Variance-invariance-covariance regularization for self-
supervised learning. In International Conference on Learning Repre- sentations (ICLR 2022). arXiv
preprint arXiv:2105.04906.
• LeCun, Y., Chopra, S., Hadsell, R., Ranzato, M., and Huang, F. (2006). A tutorial on energy-based
learning. In Bakir, G., Hofman, T., Scholkopf, B., Smola, A., and Taskar, B., editors, Predicting Structured
Data. MIT Press.
36

【DL輪読会】A Path Towards Autonomous Machine Intelligence

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】A Path Towards Autonomous Machine Intelligence

Similar to 【DL輪読会】A Path Towards Autonomous Machine Intelligence (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (12)

【DL輪読会】A Path Towards Autonomous Machine Intelligence