SlideShare a Scribd company logo
研究テーマ紹介
オフライン強化学習に基づく
ロボティックスワームの制御器の設計
目次 2
1. 研究背景
2. 先行研究
3. 研究目的
4. タスクおよびScaled QLの設定
5. 計算機実験および結果
5.1 制御器の解析
5.2 汎化能力の評価
6. まとめと今後の展望
多数の自律ロボットを用いることで所望の群れ行動の生成を目指す研究分野
Swarm Robotics (SR)
1. 研究背景 [1/3] 3
https://news.gatech.edu/archive/features/sinking-ant-towers.shtml
https://www.theguardian.com/science/2015/jul/29/ant-managers-tiny-workers-follow-any-leader-to-haul-heavy-loads-study- nds
[O’Grady et al., 2008]
Self-assembly
[M. Montes de Oca et al., 2010]
Object transportation
[M. Brambilla et al., 2013]
ロボットの制御器設計手法として,ロボット自身が自動的に振る舞いを
生成するように強化学習や進化計算を適用した手法がある
強化学習 (Reinforcement Learning, RL)
1. 研究背景 [2/3] 4
r
<latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit>
<latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit>
<latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit>
<latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit>
Reward :
Action : a
<latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit>
<latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit>
<latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit>
<latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit>
Environment
State : s
<latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit>
<latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit>
<latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit>
<latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit>
s0
<latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit>
<latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit>
<latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit>
<latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit>
Agent
• エージェントが環境と試行錯誤を重ねることで
最適な行動を学習する機械学習手法
• エージェントは累積報酬を最大化させる
方策を学習する
学習後
深層学習と組み合わせた深層強化学習が
テレビゲームなどで人を超える性能を発揮し
注目を集める
…
…
…
オフライン強化学習 (Offline RL)
1. 研究背景 [3/3] 5
Of
fl
ine Dataset
…
…
…
Deploy
train for
many epochs
• 環境との相互作用を行なわずに
予め収集したデータを用いて学習を行う
• 大規模ネットワークの学習に必要な
大量のデータを利用できる
[S. Levine et al., 2020]
特定のタスクや環境に限らず
タスクの遂行が可能なエージェントの学習が期待される
Scaled Q-Learning (Scaled QL)
2. 先行研究 [1/2] 6
“Of
fl
ine Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes”
[A. Kumar et al., 2022]
• オフライン強化学習手法である
Conservative Q-Learning (CQL)に基づく
大規模ネットワークを用いた学習手法
• 複数のタスクを単一のネットワークで学習させる
Atari2600のベンチマークにおいて,
他の手法を上回る性能を示した
Deep Neuroevolution (DNE)用いたロボティックスワームの制御器設計
2. 先行研究 [2/2] 7
• 進化計算手法である
Deep Neuroevolution (DNE)を
ロボティックスワームの制御器設計に適用
• 群れ行動の生成に成功
• 環境の景観変化に対する汎化能力が弱い
“Generating collective behavior of a robotic swarm using an attention agent with deep neuroevolution”
[A. Iwami et al., 2023]
3. 研究目的 8
オフライン強化学習を用いてロボティックスワームの制御器を設計し,
学習時と異なる環境に対する汎化能力の向上を狙う
• オフライン強化学習手法であるScaled Q-Learning (Scaled QL)を適用
• 以下の手順でScaled QLとDeep Neuroevolution (DNE)を比較
1. 評価実験とロボットの振る舞い
2. 制御器の解析(注目箇所)
3. 汎化能力の評価 (景観変化)
二点間往復タスク
4. タスクおよびScaled QLの設定 [1/4] 9
14 m
14 m
2 m
Robot
Target area
1000タイムステップの間で2つの目的地の往復を目指す
(1タイムステップは0.2秒とし,ロボットは毎タイムステップ行動する)
ロボット 20台
環境の面積 14m×14m
目標エリアの直径 2.0m
シミュレーション環境 Unity 3D
動作方式 差動駆動型
直径,高さ 1m,1m
最高移動速度 1.0 m/s
実験環境 ロボット
Robots settings
90
90
Sensor layout
RGB Camera LED
制御器設定
4. タスクおよびScaled QLの設定 [2/4] 10
Conv
Layer x4
state
Action
Linear
Layer
(パラメータ数: 2万)
Deep Neuroevolution (DNE)
Modi
fi
ed
ResNet
Feed
Forward
Q-values
state
group normalization
ResNet output
Learned spatial
embeddings
Scaled Q-Learning (Scaled QL) (パラメータ数: 6000万)
行動設定
4. タスクおよびScaled QLの設定 [3/4] 11
Target area
+1
報酬設定
目標とするターゲットエリアに応じて
LEDの色を切り替える
制御器の出力に基づき行動を選択する
目標とするターゲットエリアに到達すると
報酬を与える
4. タスクおよびScaled QLの設定 [4/4] 12
1. DNEの進化過程でロボットの行動ログ
(トランジションデータ)を収集し,
オフラインデータセットを作成する
2. データセットを用いて,
Scaled QLの学習を行う
Scaled QLの学習の過程
r: +5
s
a: Right
Trandition Data
T: False
s’
DNE
Of
fl
ine Dataset
Scaled QL
train
original adjust contrast
データ拡張
(data augmentation)
1
2
× 200,000
到達回数の評価
5. 計算機実験および結果 [1/2] 13
方法
• それぞれ3試行の実験で獲得した制御器を用いる
• 各試行で獲得した制御器において
1回3000タイムステップで10回行動生成する
結果
• 平均到達回数はDNEが227.6回,
Scaled QLが131.8回であった
• Mann-WhitneyのU検定(有意水準5%)より
DNEがScaled QLよりも良好な結果を示した
5. 計算機実験および結果 [2/2] 14
振る舞いの比較
DNE
Scaled QL
5.1 制御器の解析 [1/3] 15
Grad-CAM [R. Selvaraju et al., 2019]を用いて
DNEおよびScaled QLが入力画像のどの箇所に注目して行動選択を行ったかを可視化
DNE Scaled QL
5.1 制御器の解析 [2/3] 16
Grad-CAMとImage Segmentationを用いて
周囲のロボットに対する注目の度合いを調べる
IoUが高いほど周囲のロボットに対する注目度が高い
Grad-CAM
Segment
Binarize
Calculate
IoU
Semantic
Segmentation
Model
二つのマトリックスの
一致度の評価指標
Background Robot
5.1 制御器の解析 [3/3] 17
DNE Scaled QL
mIoU(%) 2.98% 20.3%
Scaled QLはDNEに比べて,
よりロボットに注目してタスクを遂行している
解析結果
IoUのフレーム間平均であるmIoUを比較
5.2 汎化能力の評価 [1/4] 18
Ⅰ. Default Ⅱ. Cloud 33% Ⅲ. Cloud 66% ⅤI. Snow
Ⅳ. Cloud 100% Ⅴ. Night sky
(a) 空の変化
結果
• Scaled QLは全ての環境において
平均値の低下幅がDNEに比べて小さかった
• II-Vの環境では,
Scaled QLがDNEの性能を上回った
5.2 汎化能力の評価 [2/4] 19
(b) 壁の変化
結果
• Scaled QLは全ての環境において
平均値の低下幅がDNEに比べて小さかった
• III-IVの環境では,
Scaled QLがDNEの性能を上回った
ⅠI. Concrete 33% ⅡI. Concrete 66% V. Uniform wall
IV. Concrete 100% VI. Uniform vases
Ⅰ. Default
振る舞いの比較 (例1)
5.2 汎化能力の評価 [3/4] 20
Ⅰ. Default
DNE
Scaled QL
Ⅴ. Night sky
振る舞いの比較 (例2)
5.2 汎化能力の評価 [4/4] 21
DNE
Scaled QL
IV. Concrete 100%
Ⅰ. Default
6. まとめと今後の展望 22
まとめ
• 学習時と異なる環境に対する汎化能力の向上を目的として,
オフライン強化学習の一手法であるScaled QLを
ロボティックスワームの制御器の設計に適用した
• Scaled QLはDNEに比べて,よりロボットに注目して行動選択を行なっていた
• Scaled QLは導入した景観変化においてはDNEより高い汎化能力を示した
(特に空の景観変化)
今後の展望
• ロボットへの注目と景観変化に対する汎化能力向上についての関係性を解析する
• Soft Actor Critic (SAC)ベースのScaled QLを適用することで性能の向上を狙う

More Related Content

Similar to 研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計

インタークラウドシステムの実用化に向けて
インタークラウドシステムの実用化に向けてインタークラウドシステムの実用化に向けて
インタークラウドシステムの実用化に向けて
Masaharu Munetomo
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
Yosuke Mizutani
 
201111 05
201111 05201111 05
201111 05
openrtm
 
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
Yoshitaka HARA
 
企業におけるSpring@日本springユーザー会20090624
企業におけるSpring@日本springユーザー会20090624企業におけるSpring@日本springユーザー会20090624
企業におけるSpring@日本springユーザー会20090624
Yusuke Suzuki
 
[DL輪読会]Learning agile and dynamic motor skills for legged robots
[DL輪読会]Learning agile and dynamic motor skills for legged robots[DL輪読会]Learning agile and dynamic motor skills for legged robots
[DL輪読会]Learning agile and dynamic motor skills for legged robots
Deep Learning JP
 
Hilを使った形式リアルタイム検証
Hilを使った形式リアルタイム検証Hilを使った形式リアルタイム検証
Hilを使った形式リアルタイム検証Toshiyuki Fujikura
 
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
Tomoharu ASAMI
 
公開用_講演資料_SCSK.pdf
公開用_講演資料_SCSK.pdf公開用_講演資料_SCSK.pdf
公開用_講演資料_SCSK.pdf
直久 住川
 
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
Hiroshi Igaki
 
測定と予測を通じたソフトウェア品質評価と改善の実践的取り組み 公開用
測定と予測を通じたソフトウェア品質評価と改善の実践的取り組み 公開用測定と予測を通じたソフトウェア品質評価と改善の実践的取り組み 公開用
測定と予測を通じたソフトウェア品質評価と改善の実践的取り組み 公開用
Hironori Washizaki
 
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
MILab
 
データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性
Jiachen Yang
 
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
Keita Onabuta
 
【17-C-2】 クラウド上でのエンタープライズアプリケーション開発
【17-C-2】 クラウド上でのエンタープライズアプリケーション開発【17-C-2】 クラウド上でのエンタープライズアプリケーション開発
【17-C-2】 クラウド上でのエンタープライズアプリケーション開発
lalha
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS ConferenceKeiju Anada
 
複雑なIoTソフトウェアを効率よく開発運用保守するために必要なトレーサビリの確保に向けて
複雑なIoTソフトウェアを効率よく開発運用保守するために必要なトレーサビリの確保に向けて複雑なIoTソフトウェアを効率よく開発運用保守するために必要なトレーサビリの確保に向けて
複雑なIoTソフトウェアを効率よく開発運用保守するために必要なトレーサビリの確保に向けて
Hironori Washizaki
 
超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!
オラクルエンジニア通信
 
設計/ドメイン設計(5) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第27回】
設計/ドメイン設計(5) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第27回】設計/ドメイン設計(5) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第27回】
設計/ドメイン設計(5) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第27回】
Tomoharu ASAMI
 
『これからの.NETアプリケーション開発』セミナー .NET用アプリケーション フレームワーク Open 棟梁 概説
『これからの.NETアプリケーション開発』セミナー .NET用アプリケーション フレームワーク Open 棟梁 概説『これからの.NETアプリケーション開発』セミナー .NET用アプリケーション フレームワーク Open 棟梁 概説
『これからの.NETアプリケーション開発』セミナー .NET用アプリケーション フレームワーク Open 棟梁 概説
Daisuke Nishino
 

Similar to 研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計 (20)

インタークラウドシステムの実用化に向けて
インタークラウドシステムの実用化に向けてインタークラウドシステムの実用化に向けて
インタークラウドシステムの実用化に向けて
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
201111 05
201111 05201111 05
201111 05
 
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
 
企業におけるSpring@日本springユーザー会20090624
企業におけるSpring@日本springユーザー会20090624企業におけるSpring@日本springユーザー会20090624
企業におけるSpring@日本springユーザー会20090624
 
[DL輪読会]Learning agile and dynamic motor skills for legged robots
[DL輪読会]Learning agile and dynamic motor skills for legged robots[DL輪読会]Learning agile and dynamic motor skills for legged robots
[DL輪読会]Learning agile and dynamic motor skills for legged robots
 
Hilを使った形式リアルタイム検証
Hilを使った形式リアルタイム検証Hilを使った形式リアルタイム検証
Hilを使った形式リアルタイム検証
 
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
 
公開用_講演資料_SCSK.pdf
公開用_講演資料_SCSK.pdf公開用_講演資料_SCSK.pdf
公開用_講演資料_SCSK.pdf
 
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
 
測定と予測を通じたソフトウェア品質評価と改善の実践的取り組み 公開用
測定と予測を通じたソフトウェア品質評価と改善の実践的取り組み 公開用測定と予測を通じたソフトウェア品質評価と改善の実践的取り組み 公開用
測定と予測を通じたソフトウェア品質評価と改善の実践的取り組み 公開用
 
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
 
データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性
 
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
 
【17-C-2】 クラウド上でのエンタープライズアプリケーション開発
【17-C-2】 クラウド上でのエンタープライズアプリケーション開発【17-C-2】 クラウド上でのエンタープライズアプリケーション開発
【17-C-2】 クラウド上でのエンタープライズアプリケーション開発
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS Conference
 
複雑なIoTソフトウェアを効率よく開発運用保守するために必要なトレーサビリの確保に向けて
複雑なIoTソフトウェアを効率よく開発運用保守するために必要なトレーサビリの確保に向けて複雑なIoTソフトウェアを効率よく開発運用保守するために必要なトレーサビリの確保に向けて
複雑なIoTソフトウェアを効率よく開発運用保守するために必要なトレーサビリの確保に向けて
 
超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!
 
設計/ドメイン設計(5) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第27回】
設計/ドメイン設計(5) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第27回】設計/ドメイン設計(5) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第27回】
設計/ドメイン設計(5) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第27回】
 
『これからの.NETアプリケーション開発』セミナー .NET用アプリケーション フレームワーク Open 棟梁 概説
『これからの.NETアプリケーション開発』セミナー .NET用アプリケーション フレームワーク Open 棟梁 概説『これからの.NETアプリケーション開発』セミナー .NET用アプリケーション フレームワーク Open 棟梁 概説
『これからの.NETアプリケーション開発』セミナー .NET用アプリケーション フレームワーク Open 棟梁 概説
 

Recently uploaded

キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 

Recently uploaded (10)

キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 

研究紹介スライド: オフライン強化学習に基づくロボティックスワームの制御器の設計

  • 2. 目次 2 1. 研究背景 2. 先行研究 3. 研究目的 4. タスクおよびScaled QLの設定 5. 計算機実験および結果 5.1 制御器の解析 5.2 汎化能力の評価 6. まとめと今後の展望
  • 3. 多数の自律ロボットを用いることで所望の群れ行動の生成を目指す研究分野 Swarm Robotics (SR) 1. 研究背景 [1/3] 3 https://news.gatech.edu/archive/features/sinking-ant-towers.shtml https://www.theguardian.com/science/2015/jul/29/ant-managers-tiny-workers-follow-any-leader-to-haul-heavy-loads-study- nds [O’Grady et al., 2008] Self-assembly [M. Montes de Oca et al., 2010] Object transportation [M. Brambilla et al., 2013] ロボットの制御器設計手法として,ロボット自身が自動的に振る舞いを 生成するように強化学習や進化計算を適用した手法がある
  • 4. 強化学習 (Reinforcement Learning, RL) 1. 研究背景 [2/3] 4 r <latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit> <latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit> <latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit> <latexit sha1_base64="ZhsfXYVMMTJhvlr5bDa7APxg16I=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyjqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA6kyJ8g==</latexit> Reward : Action : a <latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit> <latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit> <latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit> <latexit sha1_base64="ewuSP0XDU5BQMjDuiIQLqOI4Yk8=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyiqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoAyEyJ4Q==</latexit> Environment State : s <latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit> <latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit> <latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit> <latexit sha1_base64="mwLspu+jiueYgCR7Y+AUHZfiogw=">AAACZHichVHLSsNAFD2Nr1qrrRZBEEQsiqtyI4LiqujGZR+2CrWUJI4amiYhSQu1+AO6VVy4UhARP8ONP+CiPyCISwU3LrxNA6Ki3mFmzpy5586ZGdU2dNcjaoeknt6+/oHwYGQoOjwSi4+OFV2r7miioFmG5WypiisM3RQFT/cMsWU7QqmphthUq2ud/c2GcFzdMje8pi3KNWXP1Hd1TfGYyrqVeJJS5Mf0TyAHIIkgMlb8GtvYgQUNddQgYMJjbECBy60EGQSbuTJazDmMdH9f4BAR1tY5S3CGwmyVxz1elQLW5HWnpuurNT7F4O6wchqz9EA39EL3dEtP9P5rrZZfo+OlybPa1Qq7EjuayL/9q6rx7GH/U/WnZw+7WPa96uzd9pnOLbSuvnFw9pJfyc225uiSntn/BbXpjm9gNl61q6zInSPCHyB/f+6foLiQkiklZxeT6dXgK8KYxAzm+b2XkMY6MijwuQLHOMFp6FGKSglpvJsqhQJNAl9CmvoA7EyJ8w==</latexit> s0 <latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit> <latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit> <latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit> <latexit sha1_base64="lMX6bpXPDbnxMMmBhX1z7+uTaiA=">AAACZXichVHLSsNAFD2N72ptfSCCC4vFx6rciKC4Et241GofUEtJ4rQG0yQkaUGLPyBu1YUrBRHxM9z4Ay78AhGXFdy48DYNiBb1DjNz5sw9d87MqLahux7RU0jq6Ozq7untC/cPRAajsaHhjGtVHU2kNcuwnJyquMLQTZH2dM8QOdsRSkU1RFbdX2vuZ2vCcXXL3PYObFGoKGVTL+ma4jGVcmeLsQQlyY94O5ADkEAQG1bsBjvYhQUNVVQgYMJjbECByy0PGQSbuQLqzDmMdH9f4Ahh1lY5S3CGwuw+j2Ve5QPW5HWzpuurNT7F4O6wMo5peqRbatAD3dELffxaq+7XaHo54FltaYVdjB6Pb73/q6rw7GHvS/WnZw8lLPledfZu+0zzFlpLXzs8b2wtp6brM3RFr+z/kp7onm9g1t60602RukCYP0D++dztIDOflCkpby4kVlaDr+jFBKYwx++9iBWsYwNpPreEE5ziLPQsRaRRaayVKoUCzQi+hTT5CWAuiiQ=</latexit> Agent • エージェントが環境と試行錯誤を重ねることで 最適な行動を学習する機械学習手法 • エージェントは累積報酬を最大化させる 方策を学習する 学習後 深層学習と組み合わせた深層強化学習が テレビゲームなどで人を超える性能を発揮し 注目を集める … … …
  • 5. オフライン強化学習 (Offline RL) 1. 研究背景 [3/3] 5 Of fl ine Dataset … … … Deploy train for many epochs • 環境との相互作用を行なわずに 予め収集したデータを用いて学習を行う • 大規模ネットワークの学習に必要な 大量のデータを利用できる [S. Levine et al., 2020] 特定のタスクや環境に限らず タスクの遂行が可能なエージェントの学習が期待される
  • 6. Scaled Q-Learning (Scaled QL) 2. 先行研究 [1/2] 6 “Of fl ine Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes” [A. Kumar et al., 2022] • オフライン強化学習手法である Conservative Q-Learning (CQL)に基づく 大規模ネットワークを用いた学習手法 • 複数のタスクを単一のネットワークで学習させる Atari2600のベンチマークにおいて, 他の手法を上回る性能を示した
  • 7. Deep Neuroevolution (DNE)用いたロボティックスワームの制御器設計 2. 先行研究 [2/2] 7 • 進化計算手法である Deep Neuroevolution (DNE)を ロボティックスワームの制御器設計に適用 • 群れ行動の生成に成功 • 環境の景観変化に対する汎化能力が弱い “Generating collective behavior of a robotic swarm using an attention agent with deep neuroevolution” [A. Iwami et al., 2023]
  • 8. 3. 研究目的 8 オフライン強化学習を用いてロボティックスワームの制御器を設計し, 学習時と異なる環境に対する汎化能力の向上を狙う • オフライン強化学習手法であるScaled Q-Learning (Scaled QL)を適用 • 以下の手順でScaled QLとDeep Neuroevolution (DNE)を比較 1. 評価実験とロボットの振る舞い 2. 制御器の解析(注目箇所) 3. 汎化能力の評価 (景観変化)
  • 9. 二点間往復タスク 4. タスクおよびScaled QLの設定 [1/4] 9 14 m 14 m 2 m Robot Target area 1000タイムステップの間で2つの目的地の往復を目指す (1タイムステップは0.2秒とし,ロボットは毎タイムステップ行動する) ロボット 20台 環境の面積 14m×14m 目標エリアの直径 2.0m シミュレーション環境 Unity 3D 動作方式 差動駆動型 直径,高さ 1m,1m 最高移動速度 1.0 m/s 実験環境 ロボット Robots settings 90 90 Sensor layout RGB Camera LED
  • 10. 制御器設定 4. タスクおよびScaled QLの設定 [2/4] 10 Conv Layer x4 state Action Linear Layer (パラメータ数: 2万) Deep Neuroevolution (DNE) Modi fi ed ResNet Feed Forward Q-values state group normalization ResNet output Learned spatial embeddings Scaled Q-Learning (Scaled QL) (パラメータ数: 6000万)
  • 11. 行動設定 4. タスクおよびScaled QLの設定 [3/4] 11 Target area +1 報酬設定 目標とするターゲットエリアに応じて LEDの色を切り替える 制御器の出力に基づき行動を選択する 目標とするターゲットエリアに到達すると 報酬を与える
  • 12. 4. タスクおよびScaled QLの設定 [4/4] 12 1. DNEの進化過程でロボットの行動ログ (トランジションデータ)を収集し, オフラインデータセットを作成する 2. データセットを用いて, Scaled QLの学習を行う Scaled QLの学習の過程 r: +5 s a: Right Trandition Data T: False s’ DNE Of fl ine Dataset Scaled QL train original adjust contrast データ拡張 (data augmentation) 1 2 × 200,000
  • 13. 到達回数の評価 5. 計算機実験および結果 [1/2] 13 方法 • それぞれ3試行の実験で獲得した制御器を用いる • 各試行で獲得した制御器において 1回3000タイムステップで10回行動生成する 結果 • 平均到達回数はDNEが227.6回, Scaled QLが131.8回であった • Mann-WhitneyのU検定(有意水準5%)より DNEがScaled QLよりも良好な結果を示した
  • 14. 5. 計算機実験および結果 [2/2] 14 振る舞いの比較 DNE Scaled QL
  • 15. 5.1 制御器の解析 [1/3] 15 Grad-CAM [R. Selvaraju et al., 2019]を用いて DNEおよびScaled QLが入力画像のどの箇所に注目して行動選択を行ったかを可視化 DNE Scaled QL
  • 16. 5.1 制御器の解析 [2/3] 16 Grad-CAMとImage Segmentationを用いて 周囲のロボットに対する注目の度合いを調べる IoUが高いほど周囲のロボットに対する注目度が高い Grad-CAM Segment Binarize Calculate IoU Semantic Segmentation Model 二つのマトリックスの 一致度の評価指標 Background Robot
  • 17. 5.1 制御器の解析 [3/3] 17 DNE Scaled QL mIoU(%) 2.98% 20.3% Scaled QLはDNEに比べて, よりロボットに注目してタスクを遂行している 解析結果 IoUのフレーム間平均であるmIoUを比較
  • 18. 5.2 汎化能力の評価 [1/4] 18 Ⅰ. Default Ⅱ. Cloud 33% Ⅲ. Cloud 66% ⅤI. Snow Ⅳ. Cloud 100% Ⅴ. Night sky (a) 空の変化 結果 • Scaled QLは全ての環境において 平均値の低下幅がDNEに比べて小さかった • II-Vの環境では, Scaled QLがDNEの性能を上回った
  • 19. 5.2 汎化能力の評価 [2/4] 19 (b) 壁の変化 結果 • Scaled QLは全ての環境において 平均値の低下幅がDNEに比べて小さかった • III-IVの環境では, Scaled QLがDNEの性能を上回った ⅠI. Concrete 33% ⅡI. Concrete 66% V. Uniform wall IV. Concrete 100% VI. Uniform vases Ⅰ. Default
  • 20. 振る舞いの比較 (例1) 5.2 汎化能力の評価 [3/4] 20 Ⅰ. Default DNE Scaled QL Ⅴ. Night sky
  • 21. 振る舞いの比較 (例2) 5.2 汎化能力の評価 [4/4] 21 DNE Scaled QL IV. Concrete 100% Ⅰ. Default
  • 22. 6. まとめと今後の展望 22 まとめ • 学習時と異なる環境に対する汎化能力の向上を目的として, オフライン強化学習の一手法であるScaled QLを ロボティックスワームの制御器の設計に適用した • Scaled QLはDNEに比べて,よりロボットに注目して行動選択を行なっていた • Scaled QLは導入した景観変化においてはDNEより高い汎化能力を示した (特に空の景観変化) 今後の展望 • ロボットへの注目と景観変化に対する汎化能力向上についての関係性を解析する • Soft Actor Critic (SAC)ベースのScaled QLを適用することで性能の向上を狙う