SlideShare a Scribd company logo
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
西佑希
マルチエージェント深層強化学習による
自動運転車両の追越行動の獲得に
関する研究
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
研究背景
• 加速する自動運転車の開発
– 様々な運転タスクがエンドツーエンドで行われることが期待
• 交差点の右左折
• 高速道路の合流
• 追越し
• 特に追越し操作はルール化が困難[1]
– 追越しされる車両の数
– 関係車両間の相対速度
– 関係車両間の距離
• 自律的に経験を収集できる学習ベースの追越行動獲得
が有効
– 対向車のいない高速道路での追越しを扱う研究[2]が多い
• 一般道路等での対向車の存在も扱う必要性
[1] Shilp Dixit, Saber Fallah, Umberto Montanaro, Mehrdad Dianati, Alan Stevens, Francis Mccullough, Alexandros Mouzakitis, Trajectory
planning and tracking for autonomous overtaking: State-of-the-art and future prospects, Annual Reviews in Control, Volume 45, 2018,
Pages 76-86, ISSN 1367-5788, https://doi.org/10.1016/j.arcontrol.2018.02.001.
[2] J. Liao, T. Liu, X. Tang, X. Mu, B. Huang and D. Cao, "Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep
Reinforcement Learning," in IEEE Access, vol. 8, pp. 177804-177814, 2020, doi: 10.1109/ACCESS.2020.3022755.
交通状況のバリエーションが多い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
研究目的
• 対向車が存在する追越場面における,学習ベースによ
る追越行動の獲得
– 追越車,低速走行車,対向車をマルチエージェントで学習
• 獲得したい追越行動
– 安全性と走行効率性のトレードオフを考慮
– 協調による安全性,走行効率性の向上
低速走行車
追越車
対向車
安全性
• 車間距離が大きい
• 衝突しない
走行効率性
• 低速走行車への追従
時間が短い
追従 追越し
車間距離
協調:減速で
車間距離広く
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
研究の方向性
精緻なシミュレータ
(Autoware[3]など)
実車両
・
・
・
直接的な実利用
選定
走行制御1,2,…
セキュリティ1,2,…
センサ1,2,…
GPS1,2,…
マルチエージェントでの追越行動獲得ができるか
と協調的な追越行動の効果を検証
[3] THE AUTOWARE FOUNDATION, https://www.autoware.org/, Accessed:2022/02/08
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 追越行動の実装手法は主に3つ
– ルールベース(例:MOBIL[4])
• 多様な運転,交通状況に対して効率的なルールの設計が困難
– 最適化ベース(例:MPC[5])
• 状況が複雑になるにつれて計算量が増加
– 学習ベース(例:深層強化学習による追越車単体の加速度・
舵角制御[6])
• ルールの設計なしで多様な状況に対応できる可能性
• 多様な状況になりうる追越しタスクでは学習ベースが
有効
• シングルエージェントの学習では,協調的な行動獲得
が困難
→マルチエージェント深層強化学習による追越行動獲得
追越行動の実装手法 5
[4] Kesting, A., Treiber, M. and Helbing, D.: General Lane-Changing Model MOBIL for Car-Following Models, Vol.1999(1), p.86–94 (2007).
[5] An, G. and Talebpour, A.: Lane-Changing Trajectory Optimization to Minimize Traffic Flow Disturbance in a Connected Automated Driving
Environment, 2019 IEEE Intelligent Transportation Systems Conference (ITSC), pp.1794–1799 (2019)
[6] Hoel, C., Wolff, K. and Laine, L.: Automated Speed and Lane Change Decision Making using Deep Reinforcement Learning, CoRR,
Vol.abs/1803.10056 (2018).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
想定する交通状況
• 対向車の存在と追越しの必要性を擁する状況
– 片側1車線
– 低速走行車,追越車,対向車
• DSRC通信,C-V2Xによる広域通信(~1㎞)
– 車車間,路車間通信による周辺車両の情報取得可能
低速走行車
追越車
対向車
位置や速度情報の共有
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
シミュレータ
• シミュレータの種類は2つ
– 交通シミュレータ(例:CARLA[7])
• 大規模な交通シミュレート
• センサー,GPSなどの設定もできるものがある
– 運転シミュレータ(例:METADRIVE[8])
• 実際の運転操作をシミュレート
• ハンドル,ペダル,ディスプレイなどを用いる
• 小規模な交通状況を扱う
• 対向車線を走行しての追越しを扱う
– 交通シミュレータによっては扱えない
→ 本研究では,上記の状況を扱えるHarmo Traffic Simulator[9]
を用いる
[7] CARLA Simulator, https://carla.readthedocs.io/en/latest/. Accessed: 2023-1-5.
[8] Li, Q., Peng, Z., Feng, L., Zhang, Q., Xue, Z. and Zhou, B.: MetaDrive: Composing Diverse Driving Scenarios for Generalizable
Reinforcement Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1–14 (2022).
[9] Tomoya, O.: 交差点の交通流におけるシミュレーションを用いた深層強化学習に関する研究 (2022).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習による追越行動
• 協調的な追越行動
低速走行車や対向車の減速
→ 追越しのためのギャップ生成
→ 追越車の早期追越し(低速走行車への追従時間が短くなる)
→ 車両全体での走行速度向上
8
低速走行車(減速)
追越車
対向車
(減速)
広いギャップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習による追越行動
• マルチエージェント深層強化学習による進行方向の加
速度制御
– 追越車,低速走行車,対向車が学習対象
– 追越操舵はモデルベース
• 車両間で位置,速度,方位情報の共有
– 車両の行動にあたる加速度は共有していない
9
低速走行車(減速)
追越車
対向車
(減速)
広いギャップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
マルチエージェント深層強化学習
• マルチエージェント深層強化学習手法MADDPG[10]が
ベース
– 全Actorの情報を集めて評価できるCriticを学習時のみ使用
[10] Lowe, R., WU, Y., Tamar, A., Harb, J., PieterAbbeel, O. and Mordatch, I.: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environ- ments, Advances in Neural
Information Processing Systems, Vol.30, Curran Associates, Inc. (2017).
[11] Fujimoto, S., van Hoof, H. and Meger, D.: Addressing Function Approxi-mation Error in Actor-Critic Methods, Proceedings of the 35th International Conference on Machine
Learning, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1587–1596 (2018).
[12] Haarnoja, T., Zhou, A., Abbeel, P. and Levine, S.: Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochas-tic Actor, Proceedings of the
35th International Conference on Machine, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1861–1870 (2018).
10
o1
𝜋1
Actor(車両) 1
・・・
Critic
a1 oN
Actor N
aN
o1,…,oN a1,…,aN
q1,q2
o:観測
a:行動
𝜋:方策
q:状態行動価値
アルゴリズムの拡張
TD3[11]:qを2つ出力し,minimumを
とることで過大評価を避ける
SAC[12]:方策𝜋のエントロピー最大化
で探索の促進
𝜋𝑁
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
シミュレータ 学習アルゴリズム
状態
行動
状態の計算
方策から行動
(進行方向加速度)の決定
シミュレートして
次状態と報酬の計算
規定ステップ
or
車両の衝突
Yes
エピソードリセットして
車両の配置
状態、行動、報酬、次状態
をバッファへ保存
次状態
報酬
バッファからサンプリング
して学習
学習頻度
ステップ
Yes
No
No
シミュレータと学習のフロー 11
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 観測空間(車両が得る情報)
– 自車両の速度,方位
– 他車両との相対位置,相対速度,相対方位
• 行動空間
– 進行方向加速度(-0.3G~0.3G)
• 報酬設計
– 速度報酬( 𝑣𝑡:現在速度,𝑣𝑚𝑎𝑥: 最大速度)
𝑟𝑣 = 𝑣𝑡/𝑣𝑚𝑎𝑥
– 衝突ペナルティ
𝑟𝑐 = −100
– 車間距離ペナルティ( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離)
𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓
– 衝突時間ペナルティ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動回避下限,
𝑇𝑇𝐶:Time to Collision)
𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶
Actor単体の報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜
最終的な全体報酬:(𝑅1 + ⋯ + 𝑅𝑁)/N
次ページ以降で
詳細
12
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 前方車両との車間距離ペナルティ𝑟𝑓( 𝑑𝑠:停止距離,
𝑑𝑓:車間距離)
𝑑𝑠 > 𝑑𝑓のとき 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓
– 停止距離𝑑𝑠は以下の式,条件で算出
𝑑𝑠 = 𝑡 ×
𝑣
3.6
+
𝑣2
254×𝜇
• 現在速度 𝑣[km/h]
• 危険を感じてからブレーキを踏むまでの平均的な反応時間
𝑡 = 0.75[sec]
• 乾いた路面での摩擦係数 𝜇 = 0.7
低1
追2
対3
追1
対2
対1
前方 前方
前方 前方
13
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習設定
• 対向車との衝突時間ペナルティ 𝑟𝑜 ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動
回避下限,𝑇𝑇𝐶:Time to Collision)
𝑡𝑙𝑖𝑚𝑖𝑡 > 𝑇𝑇𝐶のとき 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶
– 通常制動回避下限
• 運転手の制動によって前方車両との衝突を回避できる限界の時間
𝑡𝑙𝑖𝑚𝑖𝑡 =0.0167 × ∆𝑣 + 1.000( ∆𝑣 は相対速度)
– Time To Collision
• 前方車両との衝突までの時間
𝑇𝑇𝐶 =
𝑑
∆𝑣
(𝑑は対向車との距離)
14
低速走行車
追越車
対向車
距離𝑑,相対速度∆𝑣
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ルールベースの追越行動
学習ベースとの比較に用いる
1. 低速走行車を追従
– IDM(Intelligent Driver Model)による加速度制御
2. 追越車が意思決定領域に存在かつ 𝑇𝑇𝐶>𝑡(𝑇𝑇𝐶 =
𝑑
∆𝑣
, 𝑡の値は実験で5つ設定)のとき追越し
– Frenet Optimal Trajectoryによる追越経路生成
– Pure Pursuitによる操舵角制御
15
低速走行車
意思決定領域(25m)
対向車
距離𝑑,相対速度∆𝑣
追従 追越し
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
環境設定
• 対向車の存在と追越しの必要性を擁する状況
– 片側1車線
– 低速走行車1台(最大25㎞/h)
– 追越車2台,対向車3台(最大40㎞/h)
• 「追越車と低速走行車」「対向車」それぞれ6か所の
開始地点
– 計400エピソード(学習時もテスト時も)
– エピソードリセット(衝突,300ステップ到達)時に開始地点
から走行開始
対向車
低速走行車
追越車
16
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 安全性,走行効率性の検証
• 検証内容
– 学習後の協調的な走行による安全性と走行効率性
• 検証方法
– ルールベース走行
• 追越しのタイミング(𝑇𝑇𝐶>𝑡)を決定する時間閾値𝑡を5つ設定
– 𝑡 = 9.0, 10.5, 12.0, 13.5, 15.0(安全性低い←---→高い)
– 車間距離,衝突時間に関するペナルティ係数を変更して学習
報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜
17
K𝑣 K𝑐 K𝑓 K𝑜 報酬スケール 安全性
学習① 1 1 0 0 1 : 100 : 0 : 0 低
学習② 1 1 1 1 1 : 100 : 5 : 1
学習③ 1 1 5 5 1 : 100 : 25 : 5
学習④ 1 1 10 10 1 : 100 : 50 : 10
学習⑤ 1 1 15 15 1 : 100 : 75 : 15
学習⑥ 1 1 20 20 1 : 100 : 100 : 20 高
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
評価指標
• 各指標で比較(全400エピソード)
– 全車両の平均走行速度
– 早期追越しエピソード数
• 対向車が低速走行車とすれ違う前に追越ししたエピソード
– 衝突エピソード数
– 前方車両至近距離エピソード数
• 前方車両との車間距離ペナルティが与えられたエピソード
– 対向車両至近距離エピソード数
• 対向車との衝突時間ペナルティが与えられたエピソード
低速走行車
追越車
対向車
早期追越し
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
学習中の報酬推移
• 3試行の平均をプロット(ペナルティ係数0のみ1試
行)
• 学習中,過去300エピソードでの平均報酬が最大と
なったときのモデルを使用してテスト
学習中の累積割引報酬の推移
縦軸:累積割引報酬
横軸:学習ステップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
20
400エピソード中
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
21
400エピソード中
時間閾値𝑡が小さいほど早期追越しエピソー
ド数は増えるが,衝突や至近距離エピソード
も増える
早期追越しエピソード数が多いほど平均走行
速度は大きくなっている
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
22
400エピソード中
ペナルティ係数が大きいほど衝突や至近距離
エピソード数が少ない傾向にある
ペナルティ係数が15より大きいと早期追越し
ができず,平均走行速度が小さくなる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験結果
走行 累積割引
報酬
全車両
平均走行
速度
早期
追越し
エピソード数
衝突
エピソード数
前方車両
至近距離
エピソード数
対向車両
至近距離
エピソード数
ルール①t=9.0 - 36.03 112 54 0 50
ルール②t=10.5 - 35.75 106 0 0 50
ルール③t=12.0 - 35.49 56 0 0 0
ルール④t=13.5 - 35.28 21 0 0 0
ルール⑤t=15.0 - 35.15 1 0 0 0
学習①
K𝑓=0, K𝑜=0
87.67(①) 36.88(①) 199 0 98 142
学習②
K𝑓=1, K𝑜=1
86.53(③) 36.40(③) 206 0 0 50
学習③
K𝑓=5, K𝑜=5
85.68 36.13 206 0 20 56
学習④
K𝑓=10, K𝑜=10
86.65(②) 36.39(②) 200 0 0 10
学習⑤
K𝑓=15, K𝑜=15
81.81 33.68 0 0 0 0
学習⑥
K𝑓=20, K𝑜=20
81.63 32.90 0 0 0 0
23
400エピソード中
ルールベースと学習ベースの比較
至近距離エピソード数を10に抑えつつ,
平均走行速度の向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
対向車両至近距離エピソード詳細
ルール②
学習④
対向車両との衝突時間ペナルティ
のヒストグラム
(係数K𝑜 = 1で合わせた)
1エピソードの中で
ペナルティが与えられた
ステップ数のヒストグラム
計498ステップ
計10ステップ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
走行比較
• ルールベース 𝑡 = 12.0: 35.66km/h
– 追越車が低速走行車の後ろを走行し,自由走行できていない
• 学習後: 37.12km/h
– 低速走行車が減速し,追越車が早期追越しにより自由走行
25
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 まとめ
• 学習後は早期追越しエピソード数が多くなる
– 低速走行車や対向車の減速により,追越車の追越しのための
ギャップがうまれたため
→ 平均走行速度向上
• 安全性に関するペナルティにより,衝突,前方車両や
対向車両との車間距離が近いエピソード数を抑えた
→ マルチエージェント深層強化学習による協調的な走
行の効果を示した
26
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結論
• マルチエージェント深層強化学習を用いた協調的な追
越行動を提案
• Harmo Traffic Simulatorでの追越行動を実装
• 学習による協調的な追越行動の獲得
– 早期追越しによる走行速度向上
– 安全性に関するペナルティで衝突や至近車間距離のエピソー
ド数を抑えた
27

More Related Content

What's hot

第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
The Whole Brain Architecture Initiative
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
 
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25
Minoru Chikamune
 
人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか
西岡 賢一郎
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知
- Core Concept Technologies
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
Kenta Ishii
 
[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning
Deep Learning JP
 
Icra2020 v2
Icra2020 v2Icra2020 v2
Icra2020 v2
robotpaperchallenge
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
Morpho, Inc.
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
Taiji Suzuki
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
harmonylab
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
データサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテストデータサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテスト
Ken'ichi Matsui
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Fujimoto Keisuke
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
takehikoihayashi
 

What's hot (20)

第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25
 
人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning
 
Icra2020 v2
Icra2020 v2Icra2020 v2
Icra2020 v2
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
データサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテストデータサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテスト
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
 

Similar to マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab
 
修士論文
修士論文修士論文
修士論文
harmonylab
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
harmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
 
RAPiD
RAPiDRAPiD
RAPiD
harmonylab
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab
 
RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究
harmonylab
 

Similar to マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究 (20)

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
 
修士論文
修士論文修士論文
修士論文
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
RAPiD
RAPiDRAPiD
RAPiD
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究
 

More from harmonylab

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab
 

More from harmonylab (20)

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 

Recently uploaded

Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 

Recently uploaded (9)

Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 西佑希 マルチエージェント深層強化学習による 自動運転車両の追越行動の獲得に 関する研究
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 研究背景 • 加速する自動運転車の開発 – 様々な運転タスクがエンドツーエンドで行われることが期待 • 交差点の右左折 • 高速道路の合流 • 追越し • 特に追越し操作はルール化が困難[1] – 追越しされる車両の数 – 関係車両間の相対速度 – 関係車両間の距離 • 自律的に経験を収集できる学習ベースの追越行動獲得 が有効 – 対向車のいない高速道路での追越しを扱う研究[2]が多い • 一般道路等での対向車の存在も扱う必要性 [1] Shilp Dixit, Saber Fallah, Umberto Montanaro, Mehrdad Dianati, Alan Stevens, Francis Mccullough, Alexandros Mouzakitis, Trajectory planning and tracking for autonomous overtaking: State-of-the-art and future prospects, Annual Reviews in Control, Volume 45, 2018, Pages 76-86, ISSN 1367-5788, https://doi.org/10.1016/j.arcontrol.2018.02.001. [2] J. Liao, T. Liu, X. Tang, X. Mu, B. Huang and D. Cao, "Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep Reinforcement Learning," in IEEE Access, vol. 8, pp. 177804-177814, 2020, doi: 10.1109/ACCESS.2020.3022755. 交通状況のバリエーションが多い
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 研究目的 • 対向車が存在する追越場面における,学習ベースによ る追越行動の獲得 – 追越車,低速走行車,対向車をマルチエージェントで学習 • 獲得したい追越行動 – 安全性と走行効率性のトレードオフを考慮 – 協調による安全性,走行効率性の向上 低速走行車 追越車 対向車 安全性 • 車間距離が大きい • 衝突しない 走行効率性 • 低速走行車への追従 時間が短い 追従 追越し 車間距離 協調:減速で 車間距離広く
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 研究の方向性 精緻なシミュレータ (Autoware[3]など) 実車両 ・ ・ ・ 直接的な実利用 選定 走行制御1,2,… セキュリティ1,2,… センサ1,2,… GPS1,2,… マルチエージェントでの追越行動獲得ができるか と協調的な追越行動の効果を検証 [3] THE AUTOWARE FOUNDATION, https://www.autoware.org/, Accessed:2022/02/08
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 追越行動の実装手法は主に3つ – ルールベース(例:MOBIL[4]) • 多様な運転,交通状況に対して効率的なルールの設計が困難 – 最適化ベース(例:MPC[5]) • 状況が複雑になるにつれて計算量が増加 – 学習ベース(例:深層強化学習による追越車単体の加速度・ 舵角制御[6]) • ルールの設計なしで多様な状況に対応できる可能性 • 多様な状況になりうる追越しタスクでは学習ベースが 有効 • シングルエージェントの学習では,協調的な行動獲得 が困難 →マルチエージェント深層強化学習による追越行動獲得 追越行動の実装手法 5 [4] Kesting, A., Treiber, M. and Helbing, D.: General Lane-Changing Model MOBIL for Car-Following Models, Vol.1999(1), p.86–94 (2007). [5] An, G. and Talebpour, A.: Lane-Changing Trajectory Optimization to Minimize Traffic Flow Disturbance in a Connected Automated Driving Environment, 2019 IEEE Intelligent Transportation Systems Conference (ITSC), pp.1794–1799 (2019) [6] Hoel, C., Wolff, K. and Laine, L.: Automated Speed and Lane Change Decision Making using Deep Reinforcement Learning, CoRR, Vol.abs/1803.10056 (2018).
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 想定する交通状況 • 対向車の存在と追越しの必要性を擁する状況 – 片側1車線 – 低速走行車,追越車,対向車 • DSRC通信,C-V2Xによる広域通信(~1㎞) – 車車間,路車間通信による周辺車両の情報取得可能 低速走行車 追越車 対向車 位置や速度情報の共有
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 シミュレータ • シミュレータの種類は2つ – 交通シミュレータ(例:CARLA[7]) • 大規模な交通シミュレート • センサー,GPSなどの設定もできるものがある – 運転シミュレータ(例:METADRIVE[8]) • 実際の運転操作をシミュレート • ハンドル,ペダル,ディスプレイなどを用いる • 小規模な交通状況を扱う • 対向車線を走行しての追越しを扱う – 交通シミュレータによっては扱えない → 本研究では,上記の状況を扱えるHarmo Traffic Simulator[9] を用いる [7] CARLA Simulator, https://carla.readthedocs.io/en/latest/. Accessed: 2023-1-5. [8] Li, Q., Peng, Z., Feng, L., Zhang, Q., Xue, Z. and Zhou, B.: MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1–14 (2022). [9] Tomoya, O.: 交差点の交通流におけるシミュレーションを用いた深層強化学習に関する研究 (2022).
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習による追越行動 • 協調的な追越行動 低速走行車や対向車の減速 → 追越しのためのギャップ生成 → 追越車の早期追越し(低速走行車への追従時間が短くなる) → 車両全体での走行速度向上 8 低速走行車(減速) 追越車 対向車 (減速) 広いギャップ
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習による追越行動 • マルチエージェント深層強化学習による進行方向の加 速度制御 – 追越車,低速走行車,対向車が学習対象 – 追越操舵はモデルベース • 車両間で位置,速度,方位情報の共有 – 車両の行動にあたる加速度は共有していない 9 低速走行車(減速) 追越車 対向車 (減速) 広いギャップ
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. マルチエージェント深層強化学習 • マルチエージェント深層強化学習手法MADDPG[10]が ベース – 全Actorの情報を集めて評価できるCriticを学習時のみ使用 [10] Lowe, R., WU, Y., Tamar, A., Harb, J., PieterAbbeel, O. and Mordatch, I.: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environ- ments, Advances in Neural Information Processing Systems, Vol.30, Curran Associates, Inc. (2017). [11] Fujimoto, S., van Hoof, H. and Meger, D.: Addressing Function Approxi-mation Error in Actor-Critic Methods, Proceedings of the 35th International Conference on Machine Learning, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1587–1596 (2018). [12] Haarnoja, T., Zhou, A., Abbeel, P. and Levine, S.: Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochas-tic Actor, Proceedings of the 35th International Conference on Machine, Proceedings of Machine Learning Research, Vol.80, PMLR, pp.1861–1870 (2018). 10 o1 𝜋1 Actor(車両) 1 ・・・ Critic a1 oN Actor N aN o1,…,oN a1,…,aN q1,q2 o:観測 a:行動 𝜋:方策 q:状態行動価値 アルゴリズムの拡張 TD3[11]:qを2つ出力し,minimumを とることで過大評価を避ける SAC[12]:方策𝜋のエントロピー最大化 で探索の促進 𝜋𝑁
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレータ 学習アルゴリズム 状態 行動 状態の計算 方策から行動 (進行方向加速度)の決定 シミュレートして 次状態と報酬の計算 規定ステップ or 車両の衝突 Yes エピソードリセットして 車両の配置 状態、行動、報酬、次状態 をバッファへ保存 次状態 報酬 バッファからサンプリング して学習 学習頻度 ステップ Yes No No シミュレータと学習のフロー 11
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 観測空間(車両が得る情報) – 自車両の速度,方位 – 他車両との相対位置,相対速度,相対方位 • 行動空間 – 進行方向加速度(-0.3G~0.3G) • 報酬設計 – 速度報酬( 𝑣𝑡:現在速度,𝑣𝑚𝑎𝑥: 最大速度) 𝑟𝑣 = 𝑣𝑡/𝑣𝑚𝑎𝑥 – 衝突ペナルティ 𝑟𝑐 = −100 – 車間距離ペナルティ( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離) 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓 – 衝突時間ペナルティ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動回避下限, 𝑇𝑇𝐶:Time to Collision) 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶 Actor単体の報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜 最終的な全体報酬:(𝑅1 + ⋯ + 𝑅𝑁)/N 次ページ以降で 詳細 12
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 前方車両との車間距離ペナルティ𝑟𝑓( 𝑑𝑠:停止距離, 𝑑𝑓:車間距離) 𝑑𝑠 > 𝑑𝑓のとき 𝑟𝑓 = 𝑑𝑠 − 𝑑𝑓 – 停止距離𝑑𝑠は以下の式,条件で算出 𝑑𝑠 = 𝑡 × 𝑣 3.6 + 𝑣2 254×𝜇 • 現在速度 𝑣[km/h] • 危険を感じてからブレーキを踏むまでの平均的な反応時間 𝑡 = 0.75[sec] • 乾いた路面での摩擦係数 𝜇 = 0.7 低1 追2 対3 追1 対2 対1 前方 前方 前方 前方 13
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習設定 • 対向車との衝突時間ペナルティ 𝑟𝑜 ( 𝑡𝑙𝑖𝑚𝑖𝑡:通常制動 回避下限,𝑇𝑇𝐶:Time to Collision) 𝑡𝑙𝑖𝑚𝑖𝑡 > 𝑇𝑇𝐶のとき 𝑟𝑜 = 𝑡𝑙𝑖𝑚𝑖𝑡 − 𝑇𝑇𝐶 – 通常制動回避下限 • 運転手の制動によって前方車両との衝突を回避できる限界の時間 𝑡𝑙𝑖𝑚𝑖𝑡 =0.0167 × ∆𝑣 + 1.000( ∆𝑣 は相対速度) – Time To Collision • 前方車両との衝突までの時間 𝑇𝑇𝐶 = 𝑑 ∆𝑣 (𝑑は対向車との距離) 14 低速走行車 追越車 対向車 距離𝑑,相対速度∆𝑣
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ルールベースの追越行動 学習ベースとの比較に用いる 1. 低速走行車を追従 – IDM(Intelligent Driver Model)による加速度制御 2. 追越車が意思決定領域に存在かつ 𝑇𝑇𝐶>𝑡(𝑇𝑇𝐶 = 𝑑 ∆𝑣 , 𝑡の値は実験で5つ設定)のとき追越し – Frenet Optimal Trajectoryによる追越経路生成 – Pure Pursuitによる操舵角制御 15 低速走行車 意思決定領域(25m) 対向車 距離𝑑,相対速度∆𝑣 追従 追越し
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 環境設定 • 対向車の存在と追越しの必要性を擁する状況 – 片側1車線 – 低速走行車1台(最大25㎞/h) – 追越車2台,対向車3台(最大40㎞/h) • 「追越車と低速走行車」「対向車」それぞれ6か所の 開始地点 – 計400エピソード(学習時もテスト時も) – エピソードリセット(衝突,300ステップ到達)時に開始地点 から走行開始 対向車 低速走行車 追越車 16
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 安全性,走行効率性の検証 • 検証内容 – 学習後の協調的な走行による安全性と走行効率性 • 検証方法 – ルールベース走行 • 追越しのタイミング(𝑇𝑇𝐶>𝑡)を決定する時間閾値𝑡を5つ設定 – 𝑡 = 9.0, 10.5, 12.0, 13.5, 15.0(安全性低い←---→高い) – 車間距離,衝突時間に関するペナルティ係数を変更して学習 報酬:R = K𝑣 × 𝑟𝑣 + K𝑐 × 𝑟𝑐 + K𝑓 × 𝑟𝑓 + K𝑜 × 𝑟𝑜 17 K𝑣 K𝑐 K𝑓 K𝑜 報酬スケール 安全性 学習① 1 1 0 0 1 : 100 : 0 : 0 低 学習② 1 1 1 1 1 : 100 : 5 : 1 学習③ 1 1 5 5 1 : 100 : 25 : 5 学習④ 1 1 10 10 1 : 100 : 50 : 10 学習⑤ 1 1 15 15 1 : 100 : 75 : 15 学習⑥ 1 1 20 20 1 : 100 : 100 : 20 高
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 評価指標 • 各指標で比較(全400エピソード) – 全車両の平均走行速度 – 早期追越しエピソード数 • 対向車が低速走行車とすれ違う前に追越ししたエピソード – 衝突エピソード数 – 前方車両至近距離エピソード数 • 前方車両との車間距離ペナルティが与えられたエピソード – 対向車両至近距離エピソード数 • 対向車との衝突時間ペナルティが与えられたエピソード 低速走行車 追越車 対向車 早期追越し
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 学習中の報酬推移 • 3試行の平均をプロット(ペナルティ係数0のみ1試 行) • 学習中,過去300エピソードでの平均報酬が最大と なったときのモデルを使用してテスト 学習中の累積割引報酬の推移 縦軸:累積割引報酬 横軸:学習ステップ
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 20 400エピソード中
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 21 400エピソード中 時間閾値𝑡が小さいほど早期追越しエピソー ド数は増えるが,衝突や至近距離エピソード も増える 早期追越しエピソード数が多いほど平均走行 速度は大きくなっている
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 22 400エピソード中 ペナルティ係数が大きいほど衝突や至近距離 エピソード数が少ない傾向にある ペナルティ係数が15より大きいと早期追越し ができず,平均走行速度が小さくなる
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験結果 走行 累積割引 報酬 全車両 平均走行 速度 早期 追越し エピソード数 衝突 エピソード数 前方車両 至近距離 エピソード数 対向車両 至近距離 エピソード数 ルール①t=9.0 - 36.03 112 54 0 50 ルール②t=10.5 - 35.75 106 0 0 50 ルール③t=12.0 - 35.49 56 0 0 0 ルール④t=13.5 - 35.28 21 0 0 0 ルール⑤t=15.0 - 35.15 1 0 0 0 学習① K𝑓=0, K𝑜=0 87.67(①) 36.88(①) 199 0 98 142 学習② K𝑓=1, K𝑜=1 86.53(③) 36.40(③) 206 0 0 50 学習③ K𝑓=5, K𝑜=5 85.68 36.13 206 0 20 56 学習④ K𝑓=10, K𝑜=10 86.65(②) 36.39(②) 200 0 0 10 学習⑤ K𝑓=15, K𝑜=15 81.81 33.68 0 0 0 0 学習⑥ K𝑓=20, K𝑜=20 81.63 32.90 0 0 0 0 23 400エピソード中 ルールベースと学習ベースの比較 至近距離エピソード数を10に抑えつつ, 平均走行速度の向上
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 対向車両至近距離エピソード詳細 ルール② 学習④ 対向車両との衝突時間ペナルティ のヒストグラム (係数K𝑜 = 1で合わせた) 1エピソードの中で ペナルティが与えられた ステップ数のヒストグラム 計498ステップ 計10ステップ
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行比較 • ルールベース 𝑡 = 12.0: 35.66km/h – 追越車が低速走行車の後ろを走行し,自由走行できていない • 学習後: 37.12km/h – 低速走行車が減速し,追越車が早期追越しにより自由走行 25
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 まとめ • 学習後は早期追越しエピソード数が多くなる – 低速走行車や対向車の減速により,追越車の追越しのための ギャップがうまれたため → 平均走行速度向上 • 安全性に関するペナルティにより,衝突,前方車両や 対向車両との車間距離が近いエピソード数を抑えた → マルチエージェント深層強化学習による協調的な走 行の効果を示した 26
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結論 • マルチエージェント深層強化学習を用いた協調的な追 越行動を提案 • Harmo Traffic Simulatorでの追越行動を実装 • 学習による協調的な追越行動の獲得 – 早期追越しによる走行速度向上 – 安全性に関するペナルティで衝突や至近車間距離のエピソー ド数を抑えた 27