【DL輪読会】"A Generalist Agent"

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
A Generalist Agent
Presenter: Manato Yaguchi (Hokkaido university, B3)

書誌情報
• タイトル： A Generalist Agent
• 著者：DeepMind社の研究チーム
• 論文： A Generalist Agent (deepmind.com) (05/22)
• 概要：言語モデルの範疇にとどまらず、強化学習等のより広い領域で適用可
能な大規模モデルを構築することを行った研究
- 画像のキャプション生成や、対話や、ブロックを積むタスクなど

概要
• GPT-3のような大規模言語モデル
を、制御問題やロボティックス領
域のdataも扱えるように拡張
• 異なるモダリティーのデータを1
つのモデルで扱うため、モダリ
ティ―毎にtokenizeとembedding
を行っている(e.g. text, 画像)

背景：Decision Transformer
• TransformerをOffline RLに組み込んだ研究
- 長期の予測に優れている
• Transformerには、GPT architecture を利用
• 過去K timestepの(a,R,s)を入力として、行動を決定論
的に出力
- ただしRは時刻Tまでに得られる報酬の和
𝑠𝑡:状態, 𝑎𝑡:行動, 𝑅𝑡 = 𝑡′=𝑡
𝑇
𝑟𝑡′
⇒様々な制御問題が、言語モデルと同様のアーキテク
チャで解ける可能性を与えた
From Decision Transformer

Tokenize
扱うデータによって、tokenizeの方法が異なる
• Text：32,000のsubwordをもつSentencePieceによって、[0,32000)の整数
型に変換
• Image：ViTと同様にraster orderでパッチに分割後、各ピクセルを[-1,1]
で正規化し、パッチサイズの平方根で割る
• 離散値：row-major order で一列に並べる。各要素は[0,1024)の整数型
• 連続値：row-major order で浮動小数点値を1列に並べる。その後[-1,1]で
mu-lawエンコードして、1024のビンで離散化し、+32,000する。 From Vision Transformer

Tokenize・Embedding
• 観測情報([y,x,z]):
• y: text token
• X: image patch token
• Z: 離散値や連続値であらわされる観測情報
• 行動情報（a）
を用いて、すべてのtokenは以下のように纏められる。
この一連のデータを各トークンについて、パラメータ化されたembedding関数𝑓(・
; 𝜃𝑒)に通す。
※ embedding関数は、各モダリティに応じて異なる振る舞いをする

Tokenize・Embedding
• row-major order で浮動小数点値を1列に並べる。その後[-1,1]でmu-lawエンコードして、
1024のビンで離散化し、32,000を足す.（textの区間[0,32000)と被らないようにする）
• mu-law encodeの式（区間[-1,1]に圧縮）：

画像データのTokenize・Embedding
• ViTと同様にraster orderでパッチ
に分割後、各ピクセルを[-1,1]で
正規化し、パッチサイズの平方根
で割る
• 各パッチごとにResNetに通し、
Embdddingを行う。この際、学習
可能なPosition Encodingも行う
2010.11929.pdf (arxiv.org)

Loss関数
• token化された情報sに対して、モデルの損失関数を次のように定める.
※mはマスク関数：𝑠𝑙がテキストまたはエージェントの行動を表すとき 𝑚 𝑏, 𝑙 = 1. それ以外のとき、𝑚 𝑏, 𝑙 = 0.
• この損失関数に対するモデルの解釈としては、次の2つの要素が考えられる
1.トークンをembeddingするためのembedding関数を最適化
2. 過去のタイムステップの情報(𝑠1, … 𝑠𝑙−1)から、次のタイムステップの情報𝑠𝑙を予測する
(transformerを利用)

Dataset
• 様々なシュミレーション環境で学習したSoTAに近いエージェントから得たデータ
※訓練データとして用いる際には、報酬(reward)についてagentが達成可能な報酬の最大値の80%以上のデータのみで学習
すると効率が良い
• webや本から集めた言語データセットや、キャプション付きの画像データ

結果
• 各タスクについて、50回の試行の平均値と、expertのスコアを比較し、各
閾値を超えたタスクの数を表したグラフ
• 604タスク中450以上のタスクがexpertのスコアの50%以上のスコアを獲得

結果
• ロボットが色のついたブロックを積めるかを試したタスク
• このタスクに特化したベースラインモデル(BC-IMP)と同程度の結果

結果
• 画像に対するキャプション生成を行った結果
• 画像や、テキストに対しても一定の結果を残している

分析結果：モデルのサイズ
• モデルの大きさ（パラメータ数）がタスクのパフォーマンスに影響を与えるかを調査
• トークン数を固定し、各パラメータ数についてエキスパートのスコアに対する実際に得
られたスコアの割合で評価（全てのドメインの各タスクについて計算し平均をとる）
⇒ パラメータ数を大きくすることで更なる性能の向上が見込まれる

分析結果：分布外のデータ
• 分布外（学習時に使用していない環境）における性能について、事前学習済みの
Gatoをfinetuningすることによって性能評価
• この際に事前学習データとしてどのように選ぶのが良いかを知るためのablation
studyを実施 (parameter数364Mで実験)
⇒ 事前学習データとしてどれを選ぶべきかは、タスクによって大きく異なる

分析結果：ロボティックス領域
• ブロックを積むタスクを通して、分布外のデータに対するロボティックス領域における性能
を評価
• 左のグラフからは、分布外のデータに関しても少ないepisode数でfinetuningを行っても良い結
果がでることが分かる
• 右のグラフからは、モデルの大きさが大きい方が汎化性能が高く、少ないepisode数で良い結
果が出ることが分かる

まとめ
• Transformerベースのシーケンスモデルが、様々な分野のタスクにおいて
有用であることを示した
• few-shot学習による分布外のタスクに対しても一定の性能を残した
• モデルのスケール（パラメータ数）を大きくすることで、更なる性能の向
上が見込まれると主張

【DL輪読会】"A Generalist Agent"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】"A Generalist Agent"

Similar to 【DL輪読会】"A Generalist Agent" (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (14)

【DL輪読会】"A Generalist Agent"