SlideShare a Scribd company logo
1 of 23
Download to read offline
【論⽂紹介】
Meta-SAC: Auto-tune the Entropy
Temperature of Soft Actor-Critic
via Metagradient
先に結論
(参考⽂献)
Yufei Wang,	Tianwei Ni.	Meta-SAC:	Auto-tune	the	Entropy	Temperature	of	Soft	Actor-Critic	via	Metagradient.	In	7th	ICML	Workshop	on	Automated	Machine	Learning	(2020)
⼿法の新規性:
• Soft	Actor	Critic(SAC)の重要なハイパーパラメータに関して,学習によって調整できるような⼿法を提案
• メタ学習における損失関数に関して,従来の関数では性能が良くないため,新たな損失関数を提案
⼿法の発案の流れ
1. 「SACには,学習結果に⼤きく関わるハイパーパラメータがあるが,調整が難しい…」
2. 「⾃動的に調整するアプローチも存在するが,調整するためのハイパーパラメータが新たに存在してしまう…」
3. 「メタ学習を⽤いて,ハイパーパラメータを必要としない調整⽅法を提案!!!」
検証実験
• mujocoにおける4つの環境で,従来法と⽐較
• 到達報酬・サンプル効率の⾯で,提案法が優れた性能を⽰した
Contents
• 背景
• 提案法
• 検証実験
Contents
• 背景
• 提案法
• 検証実験
従来法の問題点
4
エントロピー項の係数に関するハイパーパラメータの調整が困難
タスク,学習段階によって,適切な値が変わる
• αが⾼い・・・政策がランダムになりやすくなるため,学習結果が反映されにくくなる
• αが低い・・・政策が決定的になりやすくなるため,探索が不⼗分になる
特別な設定を⽤いずに,ハイパーパラメータを学習によって決定する⼿法が理想!!!
⽬的関数
このparameterの調整が困難
αの⾃動決定⼿法の問題点
結論,⾃動で決定するアプローチも存在するが,
「⾃動決定のためのハイパーパラメータが,別途必要である」という⽭盾が発⽣してしまっている
エントロピー項を含めた最⼤化対象を,制約付き⽬的関数に変形すると,以下のようになる
この⽬的関数の最⼤化には,以下の⽬的関数の最適化の問題に落とし込める
ここで,問題点として「αを⾃動で決定するために,別のハイパーパラメータHが必要」という点が存在する…
【⾃動決定⼿法 概要】
Contents
• 背景
• 提案法
• 検証実験
(前提)メタ学習
7
• 𝑳𝒍𝒆𝒂𝒓𝒏・・政策最適化⼿法での⽬的関数(SAC,DDPGなど,⼿法によって変化)
• 𝑳 𝒎𝒆𝒕𝒂・・ メタ学習⽤の⽬的関数
• θ・・・・政策π,Q関数のネットワークの重み
• η・・・・学習プロセス中に適応させたいハイパーパラメータのサブセット(ex.	エントロピー項の係数α)
※ηをメタパラメーターと呼ぶ
※学習可能なパラメーターθとメタパラメーターηは、別の⽅法で繰り返し更新される
以下の更新式に従って,ネットワークの重みだけでなく,ハイパーパラメータの値も更新する
(前提) Soft Actor Critic
8
モデルとしては,政策πとQ関数を⽤いる.
それぞれの学習パラメータをφ・wとして,以下の誤差関数の最⼩化をもとに,パラメータを最適化
※Policy	Gradientの詳しい説明は割愛
(𝑄*+,
は,更新するQ関数のパラメータを定期的にコピーするネットワーク)
meta-SAC
9
※報酬をもとに構築される⽬的関数を⽤いていたが,性能が悪かったため,こちらに切り替えた
• 𝜋./* ∶ 決定的な政策を表す(つまり,正規分布でモデル化されていれば,平均値を返す関数となる)
• 𝐷2 				∶初期状態を格納するリプレイバッファ
直観的な解釈としては、メタ損失関数を以下の評価関数M(π)と⼀致させること
以下の誤差関数の最⼩化によって, エントロピー項αを更新する
※メタ損失関数で負の値を取っているのは,「最⼤化」から「最⼩化」に捉え直すため
メタ損失関数の特徴
10
①評価に⽤いる政策を決定的にする
②初期状態を格納したバッファからサンプリングを⾏い,期待値を計算する
③エントロピー項を考慮したQ値を⽤いる
(これにより,メタ損失は,SAC(エントロピー項削除)とDDPG(ソフトQ)の間の損失関数となる)
④更新されたQw+1ではなく,更新前のQwを⽤いる
①
② ③,④
実験的にうまくいった,以下の要素を組み込む
アルゴリズム
11
1. ある状態において,⾏動を決定
2. ⾏動を実⾏し,次の状態を取得
3. 集めたデータをバッファに格納
4. ステップが⼀定以上になれば,
バッファからサンプルを抽出し学習
1. 4のデータをもとに,Q関数の
ネットワークのパラメータを更新
2. 4のデータをもとに,政策の
ネットワークのパラメータを更新
3. 初期状態のデータをもとに,
エントロピー項の係数αを更新
5. 1に戻る
つまりは,⼀定ステップ以上になったら,毎ステップ更新する!!!
Contents
• 背景
• 提案法
• 検証実験
実験設定
13
⽐較⼿法
• SAC(v1,v2)
• TD3
• DDPG
検証内容
• 異なる環境で,提案法がどのような振る舞いをするか
• メタ学習で調整するハイパーパラメータはどのように推移するのか
• 新たに提案したメタ損失関数は,従来の関数と⽐べて,良い効果を発揮するのか
各環境での報酬推移の⽐較
• AntやHopperなどの⽐較的簡単なタスクにおいては,従来法の⽅が優れている
• Humanoidのような複雑なタスクにおいては,提案法が優れている(収束性,到達報酬値)
これらのことから,複雑なタスクにおいては,提案法が従来法よりも優れた性能を記録することができる
エントロピー係数の変化
15
検証内容・・・SAC-v2とmeta-SACで,αの値の変化がどのように違うのか
• SAC-v2・・・logαの推移は穏やか.わずかなステップで収束する
• meta-SAC・・⼤きなスケールで,logαが変化.学習後半では,0に収束する.
α→0とは,SACがDDPGに推移することを表すため,
学習後半では,学習したことを最⼤限⽣かすような⾏動選択を⾏うことができることを意味する
(これが,meta-SACがHumanoidにおいて,性能向上を⽰した理由かもしれない)
結果
Ablation study(初期状態)
16
⻘線:初期状態のみを抽出して,メタ損失関数を算出
⾚線:任意の状態を抽出して,メタ損失関数を算出
初期状態のみを利⽤した最適化を⾏うと,より良い性能を⽰すことがある
Ablation study(Soft-Q関数の利⽤)
17
Soft-Q関数を利⽤しないと,全てのタスクで性能が落ちる
理由・・・エントロピー項がないことから探索が阻害され、パフォーマンスが低下するため
⻘線:	soft-Q関数を利⽤して,メタ損失関数を算出
⾚線:	soft-Q関数を利⽤せず,メタ損失関数を算出
チューニングしたSAC-v1 vs meta-SAC
18
• 𝑒56
≈0.05から𝑒57
≈0.001まで,
αを変化させて,SAC-v1をチューニング
• αをチューニングしたSAC-v1とαを⾃動的に
決定するmeta-SACの到達報酬を⽐較
• 結果としては,チューニングしたSAC-v1よりも
meta-SACが⾼い報酬値を記録
まとめ
19
⼿法の新規性:
• Soft	Actor	Critic(SAC)の重要なハイパーパラメータに関して,学習によって調整できるような⼿法を提案
• メタ学習における損失関数に関して,従来の関数では性能が良くないため,新たな損失関数を提案
⼿法の発案の流れ
1. 「SACには,学習対象の性能に⼤きく関わるハイパーパラメータがあるが,調整が難しい…」
2. 「⾃動的に調整するアプローチも存在するが,調整するためのハイパーパラメータが新たに存在してしまう…」
3. 「メタ学習を⽤いて,ハイパーパラメータを必要としない調整⽅法を提案!!!」
検証実験
• mujocoにおける4つの環境で,従来法と⽐較
• 到達報酬・サンプル効率の⾯で,提案法が優れた性能を⽰した
補⾜(パラメータ)
パラメータ設定(SAC)
21
• 層数・・・・・2層
• ユニット・・・256
• 活性化関数・・・ReLU
• バッチサイズ・・・256
• 最適化⼿法・・・adam(lr=3e-4)
• 割引率・・・・・0.99
• target	smooth	係数・・0.5(targetネットワークのパラメータをコピーする割合)
• リプレイバッファサイズ・・・1e6
環境ごとに異なる設定
パラメータ設定(meta-SAC)
22
• 層数・・・・・2層
• ユニット・・・256
• 活性化関数・・・ReLU
• バッチサイズ・・・256
• 最適化⼿法・・・RMSprop(ε=1e-12)
• 割引率・・・・・0.99
• target	smooth	係数・・0.5(targetネットワークのパラメータをコピーする割合)
• リプレイバッファサイズ・・・1e6
• エントロピー項の係数αのクリッピング・・・0〜1
• 学習率・・・・3e-4(政策,Q関数,αで全て同じ)
• 勾配クリッピング・・・・0.05
• 初期状態のリプレイバッファD0によるバッチサイズ・・・256

More Related Content

Recently uploaded

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 

Recently uploaded (11)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 

Featured (20)

Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 

【論文紹介】 Meta-SAC: Auto-tune the Entropy Temperature of Soft Actor-Critic via Metagradient