研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計

研究テーマ紹介
オフライン強化学習に基づく
ロボティックスワームの制御器の設計

目次 2
1. 研究背景
2. 先行研究
3. 研究目的
4. タスクおよびScaled QLの設定
5. 計算機実験および結果
5.1 制御器の解析
5.2 汎化能力の評価
6. まとめと今後の展望

多数の自律ロボットを用いることで所望の群れ行動の生成を目指す研究分野
Swarm Robotics (SR)
1. 研究背景 [1/3] 3
https://news.gatech.edu/archive/features/sinking-ant-towers.shtml
https://www.theguardian.com/science/2015/jul/29/ant-managers-tiny-workers-follow-any-leader-to-haul-heavy-loads-study- nds
[O’Grady et al., 2008]
Self-assembly
[M. Montes de Oca et al., 2010]
Object transportation
[M. Brambilla et al., 2013]
ロボットの制御器設計手法として，ロボット自身が自動的に振る舞いを
生成するように強化学習や進化計算を適用した手法がある

強化学習 (Reinforcement Learning, RL)
1. 研究背景 [2/3] 4
r
<latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit>
Reward :
Action : a
<latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit>
Environment
State : s
<latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit>
s0
<latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit>
Agent
• エージェントが環境と試行錯誤を重ねることで
最適な行動を学習する機械学習手法
• エージェントは累積報酬を最大化させる
方策を学習する
学習後
深層学習と組み合わせた深層強化学習が
テレビゲームなどで人を超える性能を発揮し
注目を集める
…
…
…

オフライン強化学習 (Offline RL)
1. 研究背景 [3/3] 5
Of
fl
ine Dataset
…
…
…
Deploy
train for
many epochs
• 環境との相互作用を行なわずに
予め収集したデータを用いて学習を行う
• 大規模ネットワークの学習に必要な
大量のデータを利用できる
[S. Levine et al., 2020]
特定のタスクや環境に限らず
タスクの遂行が可能なエージェントの学習が期待される

Scaled Q-Learning (Scaled QL)
2. 先行研究 [1/2] 6
“Of
fl
ine Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes”
[A. Kumar et al., 2022]
• オフライン強化学習手法である
Conservative Q-Learning (CQL)に基づく
大規模ネットワークを用いた学習手法
• 複数のタスクを単一のネットワークで学習させる
Atari2600のベンチマークにおいて，
他の手法を上回る性能を示した

Deep Neuroevolution (DNE)用いたロボティックスワームの制御器設計
2. 先行研究 [2/2] 7
• 進化計算手法である
Deep Neuroevolution (DNE)を
ロボティックスワームの制御器設計に適用
• 群れ行動の生成に成功
• 環境の景観変化に対する汎化能力が弱い
“Generating collective behavior of a robotic swarm using an attention agent with deep neuroevolution”
[A. Iwami et al., 2023]

3. 研究目的 8
オフライン強化学習を用いてロボティックスワームの制御器を設計し，
学習時と異なる環境に対する汎化能力の向上を狙う
• オフライン強化学習手法であるScaled Q-Learning (Scaled QL)を適用
• 以下の手順でScaled QLとDeep Neuroevolution (DNE)を比較
1. 評価実験とロボットの振る舞い
2. 制御器の解析（注目箇所）
3. 汎化能力の評価 (景観変化)

二点間往復タスク
4. タスクおよびScaled QLの設定 [1/4] 9
14 m
14 m
2 m
Robot
Target area
1000タイムステップの間で2つの目的地の往復を目指す
(1タイムステップは0.2秒とし，ロボットは毎タイムステップ行動する)
ロボット 20台
環境の面積 14m×14m
目標エリアの直径 2.0m
シミュレーション環境 Unity 3D
動作方式差動駆動型
直径，高さ 1m，1m
最高移動速度 1.0 m/s
実験環境ロボット
Robots settings
90
90
Sensor layout
RGB Camera LED

制御器設定
Conv
Layer x4
state
Action
Linear
Layer
(パラメータ数: 2万)
Deep Neuroevolution (DNE)
Modi
fi
ed
ResNet
Feed
Forward
Q-values
state
group normalization
ResNet output
Learned spatial
embeddings
Scaled Q-Learning (Scaled QL) (パラメータ数: 6000万)

行動設定
Target area
+1
報酬設定
目標とするターゲットエリアに応じて
LEDの色を切り替える
制御器の出力に基づき行動を選択する
目標とするターゲットエリアに到達すると
報酬を与える

1. DNEの進化過程でロボットの行動ログ
(トランジションデータ)を収集し，
オフラインデータセットを作成する
2. データセットを用いて，
Scaled QLの学習を行う
Scaled QLの学習の過程
r: +5
s
a: Right
Trandition Data
T: False
s’
DNE
Of
fl
ine Dataset
Scaled QL
train
original adjust contrast
データ拡張
(data augmentation)
1
2
× 200,000

到達回数の評価
5. 計算機実験および結果 [1/2] 13
方法
• それぞれ3試行の実験で獲得した制御器を用いる
• 各試行で獲得した制御器において
1回3000タイムステップで10回行動生成する
結果
• 平均到達回数はDNEが227.6回，
Scaled QLが131.8回であった
• Mann-WhitneyのU検定(有意水準5%)より
DNEがScaled QLよりも良好な結果を示した

5. 計算機実験および結果 [2/2] 14
振る舞いの比較
DNE
Scaled QL

5.1 制御器の解析 [1/3] 15
Grad-CAM [R. Selvaraju et al., 2019]を用いて
DNEおよびScaled QLが入力画像のどの箇所に注目して行動選択を行ったかを可視化
DNE Scaled QL

5.1 制御器の解析 [2/3] 16
Grad-CAMとImage Segmentationを用いて
周囲のロボットに対する注目の度合いを調べる
IoUが高いほど周囲のロボットに対する注目度が高い
Grad-CAM
Segment
Binarize
Calculate
IoU
Semantic
Segmentation
Model
二つのマトリックスの
一致度の評価指標
Background Robot

5.1 制御器の解析 [3/3] 17
DNE Scaled QL
mIoU(%) 2.98% 20.3%
Scaled QLはDNEに比べて，
よりロボットに注目してタスクを遂行している
解析結果
IoUのフレーム間平均であるmIoUを比較

5.2 汎化能力の評価 [1/4] 18
Ⅰ. Default Ⅱ. Cloud 33% Ⅲ. Cloud 66% ⅤI. Snow
Ⅳ. Cloud 100% Ⅴ. Night sky
(a) 空の変化
結果
• Scaled QLは全ての環境において
平均値の低下幅がDNEに比べて小さかった
• II-Vの環境では，
Scaled QLがDNEの性能を上回った

5.2 汎化能力の評価 [2/4] 19
(b) 壁の変化
結果
• Scaled QLは全ての環境において
平均値の低下幅がDNEに比べて小さかった
• III-IVの環境では，
Scaled QLがDNEの性能を上回った
ⅠI. Concrete 33% ⅡI. Concrete 66% V. Uniform wall
IV. Concrete 100% VI. Uniform vases
Ⅰ. Default

振る舞いの比較 (例1)
5.2 汎化能力の評価 [3/4] 20
Ⅰ. Default
DNE
Scaled QL
Ⅴ. Night sky

振る舞いの比較 (例2)
5.2 汎化能力の評価 [4/4] 21
DNE
Scaled QL
IV. Concrete 100%
Ⅰ. Default

6. まとめと今後の展望 22
まとめ
• 学習時と異なる環境に対する汎化能力の向上を目的として，
オフライン強化学習の一手法であるScaled QLを
ロボティックスワームの制御器の設計に適用した
• Scaled QLはDNEに比べて，よりロボットに注目して行動選択を行なっていた
• Scaled QLは導入した景観変化においてはDNEより高い汎化能力を示した
(特に空の景観変化)
今後の展望
• ロボットへの注目と景観変化に対する汎化能力向上についての関係性を解析する
• Soft Actor Critic (SAC)ベースのScaled QLを適用することで性能の向上を狙う

研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計

Recommended

Recommended

More Related Content

Similar to 研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計

Similar to 研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計 (20)

Recently uploaded

Recently uploaded (10)

研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計