5. オフライン強化学習 (Offline RL)
1. 研究背景 [3/3] 5
Of
fl
ine Dataset
…
…
…
Deploy
train for
many epochs
• 環境との相互作用を行なわずに
予め収集したデータを用いて学習を行う
• 大規模ネットワークの学習に必要な
大量のデータを利用できる
[S. Levine et al., 2020]
特定のタスクや環境に限らず
タスクの遂行が可能なエージェントの学習が期待される
6. Scaled Q-Learning (Scaled QL)
2. 先行研究 [1/2] 6
“Of
fl
ine Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes”
[A. Kumar et al., 2022]
• オフライン強化学習手法である
Conservative Q-Learning (CQL)に基づく
大規模ネットワークを用いた学習手法
• 複数のタスクを単一のネットワークで学習させる
Atari2600のベンチマークにおいて,
他の手法を上回る性能を示した
7. Deep Neuroevolution (DNE)用いたロボティックスワームの制御器設計
2. 先行研究 [2/2] 7
• 進化計算手法である
Deep Neuroevolution (DNE)を
ロボティックスワームの制御器設計に適用
• 群れ行動の生成に成功
• 環境の景観変化に対する汎化能力が弱い
“Generating collective behavior of a robotic swarm using an attention agent with deep neuroevolution”
[A. Iwami et al., 2023]