自動運転車のためのDeep Q-Networkを用いた譲り合いに関する研究

自動運転車のためのDeep Q-Networkを用いた
譲り合いに関する研究
Study on mutual halting using
Deep Q-Network for autonomous driving car
小川一太郎
北海道大学大学院情報科学研究科
情報理工学専攻複合情報工学講座調和系工学研究室
1

概要
• RCカーを使用した自動運転車のシミュレーターを作成
• 中央集中型では1台のPCによる行動計算、自律分散型ではRC
カー内Raspberry Piによる行動計算
• Deep Q-Network(DQN)を使用してラウンドアバウトや交差点
での譲り合い行動を獲得
• 譲り合いによる交通流量の変化を調査
作成した実験環境(中央集中型)
2

研究背景
日本政府は2020年までに一部地域での完全自動運転(level 4)を実現するとしている
官民ITS構想・ロードマップ2017
https://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20170530/roadmap.pdf
3

関連研究
自動運転の研究は積極的に行われており、
個別の自動運転車の制御は実現されつつある
4
次の段階では多数の自動運転車がいた時に、
全体の交通流量を増加させるような仕組みが必要となる
(1) Michael Montemerlo, Jan Becker, Suhrid Bhat, et，al．，”Junior: The Stanford Entry in the Urban Challenge “， Journal of Field Robotics -
Special Issue on the 2007 DARPA Urban Challenge, Part II Volume 25 Issue 9, September 2008
(2) Chenyi Chen，Ari Seff，Alain Kornhauser，Jianxiong Xiao，” DeepDriving: Learning Affordance for Direct Perception in Autonomous
Driving”，2015 IEEE International Conference on Computer Vision (ICCV)，10.1109/ICCV.2015.312
(1) (2)

譲り合いによる交通流量の増加
• 道路交通における譲り合い
– 交差点や合流時に、周囲の情報を加味して優先車が非優先車を先
に通したり、非優先車が割り込みをしなかったりすること
5
長野県飯田市
赤：優先道路青：非優先道路優先車が譲る例
高い優先度の車を待つために低い優先度の車が渋滞を起こすことが想定される
譲り合いによって、渋滞を解消することができるのではないだろうか

研究目的
• 譲り合いを実現する行動ルールの獲得
– RCカーを用いたシミュレーターを作成する
• 現実の物理特性を取り込んだ環境を構築
– 強化学習を用いてエージェントの学習を行う
• 譲り合いによる交通流量の増加の検証
– ラウンドアバウトや交差点といった箇所を対象とする
• 譲るときに優先車に不利益があったとしても、交差点での交差
は繰り返し行われるため、全体の交通流量が向上されれば、す
べての車に対して利益が考えられる
6

作成した実験システム
• 中央集中型
– 制御用PCで行動決定
– 高さ6mの位置から赤外線カメラで全RCカー
の位置を同時に推定
– 1/12スケールRCカーを使用
– Raspberry Piはモーターの出力値を制御用PC
から受信
– ラウンドアバウトでの譲り合い検証
• 自律分散型
– Raspberry Piで行動決定
– RCカーのカメラで高さ約2.5mの位置のマー
カーを撮影し位置推定
– 1/10スケールのRCカーを使用
– PCを通じて、他車の情報を受信
– 交差点での譲り合いを検証
札幌市エレクトロニクスセンター
工学部オープンラボ
6m位置のカメラ
走行コース
7

システム全体像(中央集中型)
アクセスポイント
コース（6m×6m）
制御用PC
位置推定
行動決定
コースの6メートル上から
赤外線カメラで撮影する
1/12スケールRCカー
RaspberryPi3Bを搭載
全ての車は同じ走行ルール
赤外線カメラの写真
各RCカーのモーター値
8
制御用PCで意思決定を行う中央集中型のシステム
カバー裏に
赤外線LED

制御方法
走行ラインを元に設定した
目標点に沿って進行方向を決定
ステアリング値
決定モジュール
PID制御で
ステアリン
グ値を決定
PID制御でアク
セル値を決定
走行ラインの例
合流か
譲り合いの
ための減速
停止線で
の停止
最適速度モデル
緊急停止の有無
YES
NO
譲り合いはDeep
Q-Networkを使用
優先車か
NO
YES
先行車との距離から最適速度モデルに
よって車間距離を調節
9
アクセル値
決定モジュール
目標速度
各車両の位置や速度

Deep Q-Networkの適用 10
ラウンドアバウトで
合流する車の例
合流車 B
優先車 A
要素内容例
状態
(𝑠)
エージェントの行動に
よって変化した環境
車Aの速度
合流点までの距離
車Bの速度・・・
行動
(𝑎)
出力に応じてエージェン
トが行う行動
高速走行
低速走行・・・
報酬
(𝑟)
エージェントが期待され
る行動をとったときに加
点、逆の行動をとったと
きに減点
通過時+1
事故時−1・・・
Q-learningの設定項目
エピソード
エージェントが学習を行う一続きの環境
エピソード終了時が𝑡 = 𝑛の時
Q(s,a)=𝑟𝑡 + 𝛾𝑟𝑡+1 + 𝛾2
𝑟𝑡+2 + ⋯ + 𝛾 𝑛
𝑟𝑛
= 𝑟 + 𝛾 max
𝑎′
𝑄(𝑠′,𝑎′)
𝑄(𝑠, 𝑎)は深層ネットワークで実現される
DQN
10
5
2 高速
低速
停止

学習方法
一回行動
更新した
NNで動作
DQNが学習する画面の遷移を保存
実機でのデータ収集
行動
制御用PC
動作指示
学習用PC
随時走行ログ
を送信
ログの蓄積を待たず常に学習
NNの重みを更新
同期
非同期
同期
一定回数の学習ごとに
NNのアップデート
11
エージェント
ミニバッチを作成し学習
NNの重みを更新
一般的なDQN3
学習機構
RCカー
学習のための走行ログを保存
DQNの入力、出力、報酬に対応
使用したDQN
3)Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al. : ”Human-level control through deep reinforcement learning”,
Nature, 518, pp. 529–533, 2015．

DQNに使用する状態
合流車B
合流車C
先行車D
優先車A
ラウンドアバウト
12
対象内容値
優先車A
Aの速度 0~0.65[𝑚/𝑠]
合流点までの
距離AO
0~3[𝑚]
先行車Dまでの
距離AD
0~3[𝑚]
合流車
Bの速度 0~1[𝑚/𝑠]
合流点までの
距離BO
0~3[𝑚]
台数（B,C,,,,） 0~[台]
先行車D Dの速度 0~1[𝑚]
その他
全台の平均速度 0~1[𝑚]
全台の台数 0~16[台]
ラウンドアバウト
内台数
0~[台]
合流点O
DQN制御範囲
合流点間

DQNの出力と報酬設定
出力
高速：合流車より先に通過低速：減速することで
合流車に道を譲る
報酬設定
停止：減速することで
合流車に道を譲る
13
内容値例
平均速度平均速度[m/s]と等しい全台の速度平均0.8[m/s]→報酬0.8
10秒以上の停止 −100 DQNが停止を10秒以上選択し続け
た→報酬-100
緊急停止 −100 合流車がいるのに減速を中断して
緊急停止した→報酬−100
優先車Aの速度（高速0.65𝑚/𝑠，低速0.50𝑚/𝑠，停止0.00𝑚/𝑠）

実験設定
• 走行の比較
– DQNを使用していない譲り合いが生じない走行と、DQNを
使用して譲り合いを行う走行を比較する
– 比較方法
• 5分間の走行を3回行う、後半4分の走行の平均で比較を行う
• 後半4分間の全車の総走行距離の大小で比較を行う
– 12台のRCカーで実験を行う
• 学習データ
– あらかじめ約3時間走行させた約225,000ステップをバッチ
サイズ100で10万ステップの学習を行った。
14

実験結果1
優先車Aの行動全体
停止低速高速
合流車が離
れている時
0% 0.15% 18.04% 18.19%
合流車が近
いとき
6.84% 0.00% 74.97% 81.81%
15
DQN出力によって選ばれた行動
合流車が近いときの例
合流点から1.2m以下の距離
合流車 B
優先車 A
合流車Bの進むタイミング全体
優先車Aあり優先車Aなし
割合 18.18% 81.82% 100%
18.18%の状況で優先車Aよりも先に
合流車Bが合流地点を通過している。
優先車Aがいるときに
合流車Bが合流地点を通過した例

実験結果2 16
総走行距離はDQNを使用した方が多い
譲り合いをすることで交通流量が増加する状況があることを確認
1台当たりの平均走行距離
3回の実験ごとの値を示した。青色が譲り合いを行わなかった
走行、緑色がDQNの出力に応じて譲り合いを行った走行
0
10
20
30
40
50
60
70
80
90
1 2 3 Average
走行距離平均[m]
実験番号
No DQN Using DQN
平均

作成した実験システム
• 中央集中型
– 制御用PCで行動決定
– 高さ6mの位置から赤外線カメラで全RCカー
の位置を同時に推定
– 1/12スケールRCカーを使用
– Raspberry Piはモーターの出力値を制御用PC
から受信
– ラウンドアバウトでの譲り合い検証
• 自律分散型
– Raspberry Piで行動決定
– RCカーのカメラでマーカーを撮影し位置推定
– 1/10スケールのRCカーを使用
– PCを通じて、他車の情報を受信
– 交差点での譲り合いを検証
札幌市エレクトロニクスセンター
工学部オープンラボ
6m位置のカメラ
走行コース
17

システム全体像(自立分散型) 18
情報共有PC
走行ログの保存
1/10 スケール RCカー
意思決定をRCカーのRaspberyPi3B+が行うように変更
位置推定方式と、通信方式を主に変更。走行ルールなどは同じ。
自車の走行データ
実際の環境
RaspberryPi3B+を搭載
コース
撮影
RCカー
天井
0.75m
学習モデル
他のRCカーの走行データ
RCカー
位置推定
行動決定

自律分散型への変更
QRコード：初期位置の推定
赤色マーカー：移動量の推定撮影されたカメラ画像
19
他の車の情報を得る
走行ログを送信
走行ログの保存
車の走行ログを情報共有PCに送る
ITSコネクトでは100msの通信遅延を想定
ITSコネクト https://www.itsconnect-pc.org/
車車間通信、路車間通信を用いた運転支援サービス
50ms以下の通信遅延で通信が可能
マーカー間隔
0.75m
カメラ撮影範囲
2.26m四方
停止時の平均誤差
0.037[m]
計算時間
0.04秒以下
通信方式の変更
位置推定方式の変更

20交差点における譲り合い
譲り合いの定義
交差点侵入前に停止判断をしていて速度が0.1m/s以下の状況があり、
非優先車が優先車より先に交差点を抜ける
優先車が譲らない時優先車が譲る時
縦方向から侵入する車を優先車としている

DQNに使用する状態
合流車B
合流車C
先行車A’
制御車A
合流車D
DQN制御範囲
交差点の直前
0.5m
対象内容値
優先車A
(優先車D
について
も同様)
Aの速度 0~1[𝑚/𝑠]
交差点通過までの距離 0~6[𝑚]
優先車A,A1,A2,,,の台数 1~5[台]
優先車A,A1,A2,,,の
進行方向
ワンホット
ベクトル
先行車A’
A’の速度 0~1[𝑚/𝑠]
制御車から先行車
までの距離
0~3[𝑚]
合流車B
(合流車C
について
も同様)
Bの速度 0~1[𝑚/𝑠]
交差点通過までの距離 0~6[𝑚]
優先車B,B1,B2,,,の台数 1~5[台]
優先車B,B1,B2,,,の
進行方向
ワンホット
ベクトル
出力：交差点の直前で
①発進
②停止
21

実験設定
交差点での譲り合いを確認するため、シンプルなコース設定で学習を行う
報酬設定
交差点通過時+0.1(自車・他車)
常に-0.05
DQN制御範囲が交差点の手前であるため、エピソード終了時の更新式を変更した
t=nの時にDQN制御範囲を越えエピソードを終了、t=n’の時に交差点を通過
Q(𝑠 𝑛,𝑎 𝑛)=𝑟𝑛
Q(𝑠 𝑛,𝑎 𝑛)=𝑟𝑛 + 𝛾𝑟𝑛+1 + 𝛾2
𝑟𝑛+2 + ⋯ + 𝛾 𝑛′
𝑟𝑛+𝑛′
Course3:1台
Course2:3台Course1:4台
22
行動特性を調査するために、実機での走行は行
わず、目標速度からRCカーの座標などをシミュ
レートした環境で走行距離を調査した
10分間の走行を3回、DQNを使用したとき、使
用していないときの2種類に対して行った。

学習の経過
-1.8
-1.6
-1.4
-1.2
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
50 70 90 110 130 150
行動価値
エピソード経過時間[step]
30万学習時点でのエピソード中の行動価値の変化
発進停止 t_Q 報酬
-2
-1.5
-1
-0.5
0
0.5
0 50000 100000 150000 200000 250000 300000 350000
行動価値
学習回数[step]
最終的に停止を選んだ行動価値例
系列1 系列2発進停止
-1.4
-1.2
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0 50000 100000 150000 200000 250000 300000 350000
行動価値
学習回数[step]
最終的に発進を選んだ行動価値例
系列1 系列2発進停止
約1万ステップの走行ログからオフラインで学習
行動価値の収束が見られ、
30 万回学習時点でのNNを使用。
23

獲得した行動
学習用走行ログの5.69%で停止を選択
24
合流車B
1.0𝑚/𝑠
先行車A’
0.9𝑚/𝑠
想定していた状況で制御車Aが道を譲る行動は獲得している
合流車B
1.0m/s
先行車A’
1.0𝑚/𝑠
制御車A
0.83𝑚/𝑠
例1 停止を選んだ状況例2 発進を選んだ状況
2.05𝑚
制御車A
0.76𝑚/𝑠
1.29𝑚
1.90𝑚
2.04𝑚
1.57𝑚
0.75𝑚

0
62.5
125
187.5
250
312.5
375
1 2 3 平均
一台当たりの平均走行距離[m]
実験番号
一台当たりの平均走行距離
DQN使用 DQN非使用
実験結果 25
合計30分の走行で
エピソードが349回存在
31回の譲り合いを行った
譲り合いの行動は確認できたが、
走行距離の大きな変化は
見られなかった
交差点内存在時間
DQN使用 931.8秒
DQN非使用 961.4秒
交差点に限定すると
交通流量は向上
そのほかの交通流量が向上しない
実験設定になってしまっていた

まとめ
• 1台のPCによる集中型、RCカーに搭載したberry
Piによる分散型のシミュレーターを作成した
• ラウンドアバウトと交差点で譲り合いによる交通
流量の変化を検証した。
• ラウンドアバウトでの合流行動で、DQNによる
譲り合いを獲得し、交通流量が向上する結果に
なった。
• 交差点での譲り合いを獲得できたが、交通流量の
向上は見られなかった。
26

研究実績
・国際学会口頭発表査読なし
1)○Ichitaro Ogawa, Soichiro Yokoyama, Tomohisha Yamashita, Hidenori Kawamura, Akira Sakatoku, Tadashi Yanagihara,
Tomohiko Ogishi, and Hideaki Tanaka: Implementation of Mutual Concessions of Autonomous Cars Using Deep Q-
Network , The 16th ITS Asia-Pacific Forum FUKUOKA 2018 (ITSAP 2018) , 110 , Hakata(2018)
・国内学会口頭発表査読なし
1)○小川一太郎, 横山想一郎, 山下倫央, 川村秀憲, 酒徳哲, 柳原正, 田中英明 : Deep Q-NetworkによるRCカー群の運
動制御を実現する協調学習の提案，第31回人工知能学会全国大会(JSAI), 3I2-OS13b-5, 愛知(2017)
2)○小川一太郎, 横山想一郎, 山下倫央, 川村秀憲, 酒徳哲, 大岸智彦, 柳原正, 田中英明 : ラウンドアバウトにおける
Deep Q-Networkを用いた自動運転車のゆずりあいの獲得, 社会システムと情報技術研究ウィーク2018(WSSIT),
DOCMAS3, 虻田郡留寿都村(2018)
3)○小川一太郎 , 横山想一郎 , 山下倫央 , 川村秀憲 , 酒徳哲 , 柳原正 , 大岸智彦 , 田中英明 : Deep Q-Network
を用いた自動運転車のゆずりあいによる交通流の効率化 , 第32回人工知能学会全国大会(JSAI) , 3Z2-04 , 鹿児島
(2018)，全国大会学生奨励賞受賞
4)○Ichitaro Ogawa, Yoshiki Hosokawa, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Warabino,
Akira Sakatoku, Tadashi Yanagihara, Tomohiko Ogishi, Hideaki Tanaka : Proposal of Mutual Concession Cars using Deep
Q-Network, GTC JAPAN, 2018-1229, Tokyo(2018)
5)○小川一太郎，横山想一郎，山下倫央，川村秀憲，酒徳哲，柳原正，蕨野貴之，大岸智彦，田中英明：自動運転車の
ためのDeep Q-Networkを用いた譲り合いの獲得，社会システムと情報技術研究ウィーク2019(WSSIT)，AI9，虻田
郡留寿都村(2019)，発表予定
27

自動運転車のためのDeep Q-Networkを用いた譲り合いに関する研究

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 自動運転車のためのDeep Q-Networkを用いた譲り合いに関する研究

Similar to 自動運転車のためのDeep Q-Networkを用いた譲り合いに関する研究 (20)

More from harmonylab

More from harmonylab (20)