Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
【DL輪読会】Scaling laws for single-agent reinforcement learning
Report
Deep Learning JP
Follow
Deep Learning JP
Feb. 17, 2023
•
0 likes
0 likes
×
Be the first to like this
Show More
•
267 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
ナレッジグラフ入門
KnowledgeGraph
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
1
of
14
Top clipped slide
【DL輪読会】Scaling laws for single-agent reinforcement learning
Feb. 17, 2023
•
0 likes
0 likes
×
Be the first to like this
Show More
•
267 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Technology
2023/2/10 Deep Learning JP http://deeplearning.jp/seminar-2/
Deep Learning JP
Follow
Deep Learning JP
Advertisement
Advertisement
Advertisement
Recommended
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
3K views
•
27 slides
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
3.8K views
•
34 slides
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
1.4K views
•
23 slides
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
1.9K views
•
38 slides
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
44.7K views
•
81 slides
猫でも分かるVariational AutoEncoder
Sho Tatsuno
129.7K views
•
51 slides
More Related Content
Slideshows for you
(20)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
•
6.6K views
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
•
13.9K views
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
•
3.3K views
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
•
7.1K views
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
•
8.9K views
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
587 views
ナレッジグラフ入門
KnowledgeGraph
•
5.8K views
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
•
2.1K views
機械学習モデルの判断根拠の説明
Satoshi Hara
•
95.1K views
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
•
3.4K views
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
•
16.1K views
【DL輪読会】Emergence of maps in the memories of blind navigation agents
Deep Learning JP
•
375 views
Transformer メタサーベイ
cvpaper. challenge
•
25.8K views
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Deep Learning JP
•
13.8K views
ナレッジグラフとオントロジー
University of Tsukuba
•
5K views
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
•
14.7K views
研究効率化Tips Ver.2
cvpaper. challenge
•
17.3K views
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
•
2.3K views
深層生成モデルと世界モデル
Masahiro Suzuki
•
16K views
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
•
3.9K views
Similar to 【DL輪読会】Scaling laws for single-agent reinforcement learning
(20)
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
Deep Learning JP
•
384 views
(2020.9) 機械学習による化学反応の予測と設計
Ichigaku Takigawa
•
849 views
Top-K Off-Policy Correction for a REINFORCE Recommender System
harmonylab
•
3.7K views
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
•
4.4K views
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
•
945 views
機械学習品質管理・保証の動向と取り組み
Shintaro Fukushima
•
8.2K views
第3回NIPS読み会・関西発表資料
Takato Horii
•
5.5K views
Elastic ML Introduction
Hiroshi Yoshioka
•
1.2K views
20180117_ICON技術セミナー4_常盤
ICT_CONNECT_21
•
404 views
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
Koichi Hamada
•
18.4K views
IVS CTO Night & Day 2016 Tech Talk - AI
Toshiaki Enami
•
621 views
Connecting embedding for knowledge graph entity typing
禎晃 山崎
•
81 views
統計学勉強会#2
Hidehisa Arai
•
5.6K views
菊地の研究ポートフォリオ2019版 v1.01
Shunsuke Kikuchi
•
8.3K views
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
•
2.7K views
【CVPR 2020 メタサーベイ】Vision Applications and Systems
cvpaper. challenge
•
1.3K views
学習・教育分野で今後生まれる新たなビジネス
miraikenkyu
•
254 views
LOD (Linked Open Data) の動向と今後の展望
Kouji Kozaki
•
1.7K views
トピックモデルの基礎と応用
Tomonari Masada
•
8.4K views
横幹連合サービス科学
Yuriko Sawatani
•
932 views
Advertisement
More from Deep Learning JP
(20)
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
656 views
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
•
1K views
【DL輪読会】GPT-4Technical Report
Deep Learning JP
•
800 views
【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
Deep Learning JP
•
184 views
【DL輪読会】Reward Design with Language Models
Deep Learning JP
•
542 views
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
Deep Learning JP
•
233 views
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
Deep Learning JP
•
161 views
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
•
320 views
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
•
741 views
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
1K views
【DL輪読会】Segment Anything
Deep Learning JP
•
1.7K views
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Deep Learning JP
•
232 views
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
Deep Learning JP
•
401 views
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
Deep Learning JP
•
226 views
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
Deep Learning JP
•
316 views
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
•
330 views
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
•
445 views
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
•
1.1K views
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
•
698 views
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
Deep Learning JP
•
286 views
Recently uploaded
(20)
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
3 views
MT,STautomation
ssuserf8ea02
•
105 views
ChatGPT + LlamaIndex 0 .6 による チャットボット の実装
Takanari Tokuwa
•
0 views
SoftwareControl.pdf
ssusercd9928
•
6 views
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
•
12 views
ChatGPT以後の時代をどう生きるか PWA Night vol.51
hedachi
•
57 views
20230516 @Mix Leap Hirohiko_Suwa
Masashi Nakagawa
•
82 views
《杨百翰大学毕业证|学位证书校内仿真版本》
d520dasw12
•
2 views
突如登場したAzure Developer CLIでなにができるのか?検証してみる
Kazumi IWANAGA
•
27 views
①【麦吉尔大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 views
Üslup ve tercüme.pdf
1Hmmtks
•
2 views
PCベース制御による集中制御.pdf
ssusercd9928
•
19 views
Kubernetes超入門
Takashi Suzuki
•
0 views
SoftwareControl.pdf
ssusercd9928
•
15 views
20230523_IoTLT_vol99_kitazaki_v1.pdf
Ayachika Kitazaki
•
99 views
①【威斯康星大学麦迪逊分校毕业证文凭学位证书|工艺完美复刻】
C25lokh12
•
3 views
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
オラクルエンジニア通信
•
25 views
オレオレになりがちなテスト計画を見直した話
terahide
•
25 views
シン3次元表示装置 ーその1ー
Takashi Yamanoue
•
126 views
統計学の攻略_正規分布ファミリーの全体像.pdf
akipii Oga
•
28 views
Advertisement
【DL輪読会】Scaling laws for single-agent reinforcement learning
http://deeplearning.jp/ “Scaling laws for
single-agent reinforcement learning” 東京大学工学系研究科 稲富翔伍 DEEP LEARNING JP [DL Papers] 1
2023/02/10 2 書誌情報 1.Intro 論文名 Scaling laws
for single-agent reinforcement learning 著者 Jacob Hilton, Jie Tang, John Schulman (Open AI) 投稿 arXiv 31st Jan. 2023 概要 • RLにおけるべき乗則を示すため、Intrinsic Performance を導入 • モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見 られた • 計算予算と最適なモデルサイズの関係もべき乗則に従う
2023/02/10 3 べき乗則 1.Intro Test Loss Scaling Laws for
Neural Language Models - Kaplanら(2020) べき乗則(Scaling Laws) Okimuraさん輪読資料より https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l anguage-models OpenAIの大規模モデル Scaling Laws RL分野でのブレイクスルーが接 深層学習でのべき乗 則 モデルサイズや計算コストをかければ性能がべき乗則に従い 増える。
2023/02/10 4 生成モデルとRLのべき乗則 1.Intro 生成モデル(ここではGPTのような自己回帰型の言語生成モデル) Loss:クロスエントロピー誤差が用いられる。 モデルサイズ・計算コストに対して、テスト時の滑らかなLoss減少が見られた(Smooth power laws)。 RLではクロスエントロピー誤差は用いられないため別の性能指標が必要。 -
サッカーなどの対戦型ゲームで用いられるイロレーティングは、計算量に対するべき乗則に従い滑らかに変化する指 標。 一方、すべてのRLにおいて滑らかに変化する“自然な”指標があるわけではない。 例:物を集めるゲームでは、ある一定の能力を獲得すると、急激にポイントが増加する。 そこで、性能指標“Intrinsic performance”を導入。 - 計算量に基づいた指標 これを用いて、モデルサイズや環境とのインタラクション量が性能に対してどのような関係か調べる。 結論:べき乗則に従い性能増加する! 強化学習 アナロジー:生成モデルでの、“自然な“指標以外のべき乗 則 「計算予算が一定のときのテスト時ロスが最小となる最適モ デルサイズは、計算予算のべき乗則に従う。」 =計算予算を倍に増やすなら、モデルサイズも倍にすれば よい。
2023/02/10 5 Intrinsic performance -
RLでべき乗則を示すには 2.Scaling laws without cross-entropy loss “自然な“性能指標Mean episode returnでは直線的な性能増加がみられない。 スコア5-10の間(下図黄枠)で射撃や回避に必要な性能を獲得し、その後は簡単にスコア増 加。 Star pilot 性能指標としてIntrinsic performanceを導入。訓練時の計算量を性能とみなす。 定義:「ある方策のIntrinsic performanceは、任意のサイズのモデルが同じ収益(return)に 到達するように学習させるために必要な最小の計算量」 → 定義が難解であるため学習曲線のグラフで理解
2023/02/10 6 Intrinsic performanceのグラフの読み方(輪読者の解釈) 2.Scaling laws
without cross-entropy loss ・ (b)では(a)の縦軸をIntrinsic performanceに変えた。 ・ (b)ではIntrinsic Performanceの定義より、Efficient Frontierは直線になる。(定義の読み替え) ・ (a)の曲線形状は学習による性能向上を示すが、(b)の曲線の形状は意味を読み取らなくてよさそう。 → Efficeint Frontierに接する点が重要 ・ Power law asymptote(漸近線)は10^4.3 ~ 10^5.8のモデルについての漸近線が示されている ・ モデルサイズの指数を単調に増やした場合に、点の間隔も凡そ均等になっている
2023/02/10 7 Intrinsic performanceに対するべき乗則 ・
計算量に対する最適なモデルサイズ 2.Scaling laws without cross-entropy loss Intrinsic performanceを導入すると、以下の経験式がおおよそ成立すると分かった。 十分なインタラクションがある場合(E→∞)、IはNのべき乗則に従う。 十分なモデルサイズである場合、IはEのべき乗則に従う。 I:Intrinsic performance, N:モデルサイズ(パラメタ数), E:環境とのインタラクション, その他は正の定数 ※唐突に聞こえるが、類似の式が言語モデルにおいて成立していた。 ある一定の計算予算(計算量)の制限における最適なモデルサイズは、計算予算のべき乗則に 従う。 計算量に対する最適なモデルサイズ:(1)から導出される補題 1 べき乗則:式(1)の解釈
2023/02/10 8 実験環境・アルゴリズム等の条件 3.Experimental Setup Star pilot 1.
Procgen Benchmark Coin Run 2. Dota2 3. MNIST 各ゲームにEasy, Hard の2種のモード PPG-EWMA CNNのサイズを様々変 更 1vs1のMOVAゲーム PPO LSTMのサイズを様々変 更 数字を当てられたらreward1が得られる。 GAE(Generalized Advantage Estimation) のパラメータを変更することで、Horizon length (未来のどこまでを考慮するか)の影響を調べる PPO-EWMA CNNのサイズを様々変更 強化学習でなくても解けるが、強化学習の枠組みに落とし込 んで学習させる。 Fruit Bot
2023/02/10 9 べき乗則の成立 ・ 2つの指数の関係 4.Results 式(1)
は学習初期を除いて、様々な環境・モデルサイズに対して成 立。 “Main Result” 2つの指数の関係
2023/02/10 10 計算量と最適なモデルサイズの関係 4.Results ・理論的には、最適なハイパーパラメタと十分なランダムシード値を用いることで、指数(傾き)は0.5に近 づく。 - 今回の実験だけでは結論が出ない。 ・係数(グラフの切片に相当)については環境によって大きく違うことが分かる。 ・MNISTを除き、ある計算コストに対するRLの最適モデルサイズは生成モデルに比べ小さい。 - RLタスクの方が、horizonの長いこと、パラメータ当たりのForwardのFLOPsが多いことが影響 ※ここでは環境の実行コストは考慮しない
→後で考 慮 補題1(再掲) Procgen 0.40~0.65 MNIST 0.66~0.80 Dota 2 0.76 指数 の値
2023/02/10 11 Forward pass のモデルサイズと計算量 4.Results Forward
pass を指標に用いることでスケーリングの関係が類似す る。 パラメタ毎のFLOPs(層の深さ)を考慮できるため。
2023/02/10 12 サンプル効率の外挿 ・ 環境の実行を考慮した最適モデルサイズ 5.Discussion モデルサイズを無限大にすると、10^7.0モデル の最大性能まで、半分のインタラクションで到 達 サンプル効率について議論するなら、環境の実行 コストを考慮する必要がある。 計算費用をかける際、モデルサイズが環境サイズ より小さい場合、非効率である。 サンプル効率の外 挿 環境の実行を考量した最適モデルサイ ズ
2023/02/10 13 計算量の予測のために 5.Discussion ・べき乗則の指数は生成モデルと同程度 - 今回の実験ではばらつきがあったが、およそ0.5になるものと考えられる。 ・べき乗則の係数は数桁の差がある - Horizon
lengthにより説明できる ・演算強度の違い(モデルのパラメタ毎のFLOPs)を考慮するためにはForward passのFLOPsを使用する ・サンプル効率はHorizon lengthのアフィン関数である。 ・べき乗則の指数の正確な予測は困難 Transformative AI(破壊的・強力なAI)を作るためには? - 人間の脳の理解によるパラメタ数決定と、学習を行うためのべき乗則が必要
• 単一AgentのRLにおけるべき乗則を示すため、Intrinsic Performance
を導入 • 計算量に基づく指標 • 定義は難解であるので、今回は学習曲線を用いた解釈を紹介 • モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見られた • 実験により、経験則の成立を確認 • 計算予算と最適なモデルサイズの関係もべき乗則に従う • べき乗則に影響を与える条件の整理 感想 • MNISTの実験を深く理解できず… • RLも巨大化してサンプル効率を高めた“すごいモデル”がそのうち登場しそう。 2023/02/10 14 まとめ
Advertisement