RCカーを用いた自動運転車両シミュレーション環境に関する研究

RCカーを用いた自動運転車両シミュ
レーション環境に関する研究
2020.2.5(水)
北海道大学工学部
情報エレクトロニクス学科情報理工学コース
複雑系工学講座調和系工学研究室
学部4年織田智矢
1

発表概要
1. 研究背景
2. 研究目的
3. RCカーを用いたシミュレーション環境
–RCカーのハードウェア構成
–RCカーのソフトウェア構成
–環境の誤差・走行性能の実験
4. ソフトウェアシミュレーション環境
–深層強化学習の導入
–学習設定
–学習結果
5. まとめ
2

研究背景
3
日本政府は2020年までに一部地域での完全自動運転(level 4)を実現するとしている
官民ITS構想・ロードマップ2019
https://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20190607/siryou9.pdf

研究背景
4
国内事例
• Tier IVを始めとするautoware
• KDDIのコネクテッドカー
自動運転の研究は積極的に行われており，
車両単体の制御は実現されつつある
次の段階では多数の自動運転車がいた時に、
全体の交通流量を増加させるような仕組みが必要
KDDI総合研究所の5G コネクテッドカー
https://iot.kddi.com/cases/car5g/

関連研究
• 日本国内における渋滞による年間の経済損失額は12兆円[1]
5
車社会において交通渋滞は大きな問題
交通流量を増加させる研究は多数存在
• 深層強化学習により信号を制御する手法[2]
• 先頭車両との車間距離を自動調節する手法[3]
• 車をセルオートマトンとして渋滞を解析する研究[4]
これらはすべてソフトウェアシミュレーション環境
[1]国土交通省業績計画書/達成度報告書より https://www.mlit.go.jp/road/ir/ir-perform/ir-perform.html
[2] 7) Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018).
[3] Van Arem, Bart, Cornelie JG Van Driel, and Ruben Visser. "The impact of cooperative adaptive cruise control on traffic-flow
characteristics." IEEE Transactions on intelligent transportation systems 7.4 (2006): 429-436.
[4]柳澤大地，西成活裕：渋滞学のセルオートマトンモデル，応用数理，Vol.22,No.1, pp.2-14 (2012)

交通シミュレーション環境比較
ソフトウェアシミュレー
ション環境
RCカーを用いたシミュ
レーション環境
実車両を用いたシミュ
レーション環境
コスト安価比較的安価非常に高価
環境の再現性
実際の環境を再現す
ることは難しい
比較的実際の環境に
近い
極めて実際の環境に
近い
実験のスケール
大規模な台数・設定で
実験可能
RCカーを増やすことは
比較的容易
大規模な台数は極め
て難しい
実験の安全性
安全性は何も問題が
ない
衝突が問題とならず
様々な実験が行える
大きな手間がかかり，
衝突が起こると危険
実験に要する時間
実時間に依存せず，
実験可能
実時間の制約実時間の制約
6
強化学習ソフトウェアシミュレーション環境
検証・評価 RCカーを用いたシミュレーション環境
枠組みを確立

様々な検証が行え
るシミュレーション
環境の作成
1台に対して強化学習
を行い，交通流量へ
の影響を検証
複数台で協調行動
を行い，全体の交
通流量の最適化
今回作成したシミュレーション環境
7
強化学習
RCカーを用いたシミュレーション環境ソフトウェアシミュレーション環境
シームレスに検証
（現在作成中）

作成したシミュレーション環境の満たすべき要件
◦ 各車両が衝突等の問題なく走行制御可能
◦ 交差点・丁字路でのインタラクション可能
◦ 渋滞を発生させることが可能
8
実験により検証
交差点2つ・丁字路6つを持つ地図を設定
交差点内での渋滞を発生させるために片側1車線に設定

RCカーを用いたシミュレーション環境
9

RCカーを用いたシミュレーション環境
• 天井にQRコードと赤マーカを設置
• RCカーに取り付けられているカメラから天井を撮影し自己位置推定
• 他車の情報は情報共有サーバから取得
10
RCカーから撮影された天井の画像

RCカーについて
自己位置推定・意思決定・走行制御をRCカー上で実施
11
作成したRCカー
◦ タミヤ1/10スケールのRC
カー[5]を使用
◦ RCカー上にカメラと
Raspberry Pi3B+をマウント
◦ カメラ画像：720p
◦ 大容量バッテリーを搭載
◦ 1時間の連続走行が可能
カメラ
Raspberry Pi3B+
使用するバッテリー

システムのアーキテクチャ
12
制御スレッド
情報共有サーバ
通信スレッド
アクチュエータ
車情報共有
DB
地図自己位置
推定
PWM生成
車両制御モ
ジュール
意思決定クラス群
緊急停止
Pure Pursuit
サーバと通信
データの圧縮・
解凍処理
RCカー上のRaspberry Pi
車両制御モ
ジュール
交通ルール
車間距離保持
車両制御モ
ジュール
経路生成
カメラ
RCカー

カメラ画像から自己位置推定
情報共有サーバから他車のデータ
を取得
車両制御アーキテクチャによって
意思決定
アクチュエータの制御
RCカーの処理のフロー
13
• 走行経路を生成しライント
レース方式で制御
• ステアリング・アクセルの
アクチュエータ制御は
Raspberry PiからのPWM
• 制御周期：約24fps

自己位置推定について
14
情報共有サーバから他車のデータを
取得
車両制御アーキテクチャによって意
思決定

◦ 現実のxy座標系をワールド座標，画像中のピクセル座標系を
カメラ座標と定義し座標の変換行列を算出
◦ 画像中赤マーカを特徴量として，ICPアルゴリズム[5]をベースに
自己位置推定
◦ ワールド座標の真値と比較して，カメラの傾きを推定しキャリブ
レーション
自己位置推定アルゴリズム
15
カメラ画像からワールド座標への変換行列
𝐴 = 𝑇
𝑤
2
,
ℎ
2
𝑆 𝑓, 𝑓 𝑅 −
𝜋
2
− 𝛼 𝑇 −𝑥 𝑐, −𝑦𝑐
𝑇 𝑥, 𝑦 ∶ 平行移動
S 𝑥, 𝑦 ∶ 拡大縮小
𝑇 𝑥, 𝑦 ∶ 回転
[5] Szymon.R and Marc.L, “Efficient Variants of the ICP Algorithm”, Proceedings Third International Conference on 3-D Digital Imaging and Modeling,
2001, pp. 145–152.

自己位置推定アルゴリズム
16
初回のみ，QRコードをデコードし大まか
なワールド座標上の自己位置を算出
1. 1ステップ前の自己位置から見える
べきカメラ座標上の赤マーカ点群と，
実際に画像中に見える赤マーカ点群
を最近傍点によって対応付け
2. 赤マーカの対応点同士の変換行列を
SVDを用いた手法[6]で推定
3. 変換行列より1ステップ前から現在
への移動距離と角度を求めてワール
ド座標に変換し自己位置を算出 RCカーから撮影された天井の画像
[6] 玉木徹：姿勢推定と回転行列，電子情報通信学会スマートインフォメディアシステム研究会（SIS），pp.59-64 (2009)
手順

情報共有サーバについて
17
取得
思決定

• 通信プロトコルはUDPを使用
• 高速化のためにデータはシリアライズ
• 車両ID・座標・車の向きなどの意思決定に必要最小限の情
報を共有
18
[carID, x, y, rad, velocity, …]
car 1 car 2 car 3

意思決定について
19
情報共有サーバから他車のデータ
を取得
思決定

車両制御アーキテクチャ
◦ 意思決定は，目標経路決定用・目標速度決定用・アク
チュエータの制御用3つのモジュールで構成
20
アクチュエータへ出力
緊急停止
Pure Pursuit
目標速度決定
交通ルール
車間距離保持目標経路決定
経路生成
目標経路
出力
目標速度
ステアリング・アク
セルのPWM
出力
優先度
出力
各モジュールから出力される目
標速度が小さい方を使用
モジュールの優先度が高い方の
出力を使用

目標経路の生成方法
• 交差点をノードとし，それぞれをエッジで結合
• ダイクストラ法によって経路探索
• 各交差点ノード・エッジにプロパティを付与
• 交差点(ノード）が持つ座標とエッジが持つ制御点から経路を生成
• 経路生成には3次スプライン補完を使用
21
地図グラフ
交差点インスタンス黒：他へ繋がるノード
赤：他からのノード
： : 制御点
経路生成

目標ステアリング角度決定
22
1. 目標経路上の𝐿 𝑐𝑡離れた先の目標点𝑃𝑡𝑎𝑟𝑔𝑒𝑡に到
達するように目標ステアリング角度を決定
2. 𝑃𝑡𝑎𝑟𝑔𝑒𝑡への旋回半径Rは以下の式で算出
3. この旋回半径Rになるように目標ステアリング角
度を以下の式から算出
[7] Brian Paden, Michal Cap, Sze Zheng Yong, Dmitry Yershov, Emilio Frazzoli. : "A Survey of Motion Planning and Control Techniques for Self-driving Urban
Vehicles", IEEE Transactions on Intelligent Vehicles, Vol. 1, No. 1, pp. 33-55, 2016.
𝑅 =
𝐿 𝑡𝑎𝑟𝑔𝑒𝑡
2sin(𝛼)
𝒔 𝒕𝒂𝒓𝒈𝒆𝒕 = 𝑠𝑖𝑛−1
(
2𝑊 sin(𝛼)
𝐿 𝑡𝑎𝑟𝑔𝑒𝑡
)
Pure Pursuitアルゴリズム[7]を使用
Pure Pursuit

目標速度の決定①
• 車間距離による目標速度の決定は最適速度モデル[8]の式を使用
• 目標速度𝒗 𝒕𝒂𝒓𝒈𝒆𝒕 = tanh 𝐷 − 𝑐 + tanh 𝑐 という式で速度を決定 (c = 2.0)
• Dは先頭車両との経路上の距離であり，cは実験的に決定したパラメータであ
り，D・目標速度それぞれグラフの最大値で正規化して入力
23
[8] M. Bando, K. Hasebe, A. Nakayama, A. Shibata, and Y. Sugiyama, Phys. Rev. E 51, 1035 (1995).
0
0.5
1
1.5
2
2.5
0 0.5 1 1.5 2 2.5 3 3.5 4
速度
先行車との距離D
自車先頭車両
距離D
目標速度 𝒗 𝒕𝒂𝒓𝒈𝒆𝒕
車間距離保持

目標速度の決定②
24
• 交差点インスタンス内のローカル
なグラフのエッジに優先順を付与
• 同じ交差点に進む車の優先順と，
自身の優先順を比較
• 自身より優先順の高い車が同じ交
差点に存在するとき，目標速度
𝒗 𝒕𝒂𝒓𝒈𝒆𝒕= 0と決定
優先順: 1
優先順: 3
交差点インスタンス
1
2 3
黒：他へ繋がるノード
赤：他からのノード
： : 制御点
交差点ルール

アクチュエータの制御について
25
取得
思決定

◦ フィードフォワード制御を使用
◦ PWMパルスと速度・ステアリング角度の対応をそれぞれ
テーブルに保存
◦ 制御時はテーブルを参照し，最も近いPWMパルスを出
力
26
PWM[ms] 1.50 1.51 1.52 1.53 … 1.60
速度[m/s] 0.0 0.11 0.31 0.46 … 1.52
PWM決定例
速度PWM対応テーブル例
目標速度 𝑣 𝑡𝑎𝑟𝑔𝑒𝑡= 0.4
最も近い値1.53ms のパ
ルス幅で出力
テーブルを参照

実験
【目的】
• RCカーが対面通行を問題なく行えるか調査
【方法】
1. 初期位置推定の誤差を測定
2. 走行中の制御誤差を測定
27

自己位置推定の誤差
28
停止中のRCカーが撮影した画像から自己位置推定を行い， RC
カーの座標の真値と比較
キャリブレーション後
すべての点での平均誤差 : 0.028m
キャリブレーション前
すべての点での平均誤差 : 0.084m

走行実験動画
29
指定したコースを3分間走行

走行実験
30
• 複数台を同じ経路で10週走らせて軌跡をプロット
Car
num
Average
XTE [m]
1 0.061
2 0.052
3 0.067
4 0.058
5 0.055
6 0.066
XTE (cross track error) 車両の現在位置から目標経路に引いた垂直距離の誤差
Car :1 Car :2 Car :3
Car :4 Car :5 Car :6

走行実験まとめ
◦ キャリブレーションにより自己位置推定の精度向上
◦ 自己位置推定とPure Pursuitアルゴリズムで走行ライン
への追従を実現
◦ 1車線の車幅が0.5mで，車1台が約0.14mであるため，対
面通行を行うのに問題のない精度
31

ソフトウェアシミュレーション環境
32

ソフトウェアシミュレーションの導入理由
実空間での強化学習
◦ エピソードの収集に実時間がかかる
◦ 多くの設定を試すのが現実的ではない
◦ 全台非同期で動作しているため扱いづらい
この環境を用いて強化学習
33
同期式のソフトウェアシミュレーション環境を作成

RCカーのシステムのアーキテクチャ[再掲]
34
制御スレッド
通信スレッド
車情報共有
DB
地図自己位置
推定
PWM生成
車両制御モ
ジュール
緊急停止
Pure Pursuit
サーバと通信
解凍処理
車両制御モ
ジュール
交通ルール
車間距離保持
車両制御モ
ジュール
経路生成
カメラ
RCカー

単一のスレッド
ソフトウェアシミュレーションシステムのアーキテクチャ
35
制御スレッド
通信スレッド
車情報共有
DB
地図自己位置
推定
PWM生成
車両制御モ
ジュール
サーバと通信
解凍処理
カメラ運動方程式
RCカークラス
自己位置
緊急停止
Pure Pursuit
車両制御モ
ジュール
交通ルール
車間距離保持
車両制御モ
ジュール
経路生成
RCカー

実験
【目的】
• 強化学習による交通流量増加の行動獲得の可能性に
ついて調査
【方法】
• 意図的に交差点内での右折車両による渋滞を再現
• 交差点ルールの優先度変更可能なように設定
• その限定的な設定で強化学習
36

強化学習設定
強化学習手法は1台に適用しPPO[9]を使用
37
行動空間値
通常の交差点ルール使用 0
停止線で停止し道を譲る 1
観測空間 (18次元）型
各4方向からの進入予定の車の数 int
自分の進路（右・左・前）one-hot int
発進不可能->0 可能->1 Bool
自分が先頭車両かどうか Bool
他の交差点先頭車両の進路 one-hot int
強化学習対象車
報酬値
行動1を選択しているときに，車が通過し
たら即時報酬
1
対象車が交差点通過後，一定step経過後
までに通過した車の数の割引報酬
1
[9] Schulman, J., Wolski, F., Dhariwal, P., Radford, A. and Klimov, O.: Proximal Policy
Optimization Algorithms (2017).

学習結果
38
◦ ソフトウェアシミュレーション環境上での走行動画
学習後学習前
青丸が車両
全部で8台
周回コースを固定
右折車両が先頭
で待機しているた
め，後方車両が
混む部分

学習結果
39
◦ ソフトウェアシミュレーション環境上での走行
実験設定常に停止行動通常の交通ルール強化学習後
全台の総移動距離[m] 4186 4368 4727
1 台あたりの平均移動距
離[m]
598 624 675
20分間の走行実験
報酬の推移
強化学習により交通流量の増加
が確認できた

ソフトウェアシミュレーションのまとめ
◦ 強化学習のための同期式のソフトウェアシミュレーション環
境を作成
◦ その上で強化学習ができることを確認
◦ 強化学習を導入することによって，交差点での優先度変更
の行動を獲得し，交通流量の増加を確認
40

RCカーによる実シミュレーション環境への
強化学習の導入方法（予定）
41
各車のRaspberry Piのリソースは自己位置推定が支配
的であり空きが無い
学習済モデル
観測状態をサーバから
抽出して入力
行動を出力
サーバサイドで推論・意思決定

まとめ
• RCカーによる実シミュレーション環境を作成して，実利用
に十分な精度があることを確認
• 強化学習を行えるソフトウェアシミュレーション環境を作
成して，交通流量増加の行動を確認
• 今後は強化学習によって獲得したモデルをRCカーによる
実シミュレーション環境に適用し，検証・評価を行う予定
42
○ 織田智矢, 横山想一郎, 山下倫央, 川村秀憲(北海道大学), 蕨野貴之, 大岸智彦, 田中英明(KDDI 総合研究所)，“自
動運転車両の群制御に向けた RC カーを用いたシミュレーション環境の構築”，17, 情報処理北海道シンポジウム2019，
2019/10, [優秀ポスター賞受賞]
○ 織田智矢, 横山想一郎, 山下倫央, 川村秀憲(北海道大学), 蕨野貴之, 大岸智彦, 田中英明(KDDI 総合研究所), RC
カーを用いた自動運転車両シミュレーション環境に関する研究, 情報処理学会第198回知能システム研究発表会, 虻
田郡留寿都村(2020)，発表予定

RCカーを用いた自動運転車両シミュレーション環境に関する研究

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to RCカーを用いた自動運転車両シミュレーション環境に関する研究

Similar to RCカーを用いた自動運転車両シミュレーション環境に関する研究 (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (14)

RCカーを用いた自動運転車両シミュレーション環境に関する研究

Editor's Notes