ステレオカメラによる車両制御における
深層学習の適用に関する研究
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
調和系工学研究室
学部4年 帆井健悟
• 自動運転の研究の進歩が著しい
– 技術的な進歩(AI技術、センサー、計算リソースの急速な進化)
– 社会的な需要(可処分時間の増加,安全性の向上,物流効率化)
・自動運転のアプローチ
自動運転におけるAIの急速な発展 2
研究背景と目的(1/6)
従来のアプローチ
・「認識・予測・経路生成・制御」を段階的
に行う
・課題…膨大なコード
複雑なシナリオへの対応の難しさ
近年エンドツーエンド(E2E)の
アプローチが注目
・人間の運転ログデータを用いることで、
センサ入力から最終的なステアリング・
アクセル制御までを統合的に学習
出力
制御信号
入力
カメラ, Lidar
など
出力
制御信号
入力
カメラ,
Lidarなど
認識
予測
経路
生成
• 実用例:Tesla “FSDv12”[1]
– 複数の単眼カメラのみの入力から将来経路
の計画,最終的な行動選択部分までの誤差
関数を一括で最適化
→・30万行の明示的なC++コードを単一の
ニューラルネットワークに置き換え成功
・モジュール間の複雑な依存関係や誤差の
蓄積が発生しにくい
E2E自動運転について 3
[1]THINK AUTONOMOUS, “Breakdown: How Tesla will transition from Modular to End-To-End Deep Learning”, https://www.thinkautonomous.ai/blog/tesla-end-to-end-deep-learning/ (2025/02/01 閲覧)
[2]THE DRIVEN, ““Amazing:” Musk defends Tesla Full Self-Driving, as experts assess AI Day”, https://thedriven.io/2021/08/25/amazing-by-most-standards-musk-defends-tesla-full-self-driving-and-ai-day-takeaways/ (2025/02/02 閲覧)
Tesla FSDによる運転の様子[2]
研究背景と目的(2/6)
ソフトウェア構造が大幅に簡素化
入力から出力までの一貫した学習が可能に
• データ数の増加とネットワーク構造の複雑化によりモデルの精度
向上が示唆[3]
→高い精度を出すには、高性能の学習用・推論用マシンが必要[4]
研究開発や商業展開において大きな負担
• 解決策
E2E自動運転の現状 4
研究背景と目的(3/6)
[3] Moritz Harmel, Anubhav Paras, Andreas Pasternak, Nicholas Roy, Gary Linscott, Scaling Is All You Need: Autonomous Driving with JAX-Accelerated Reinforcement Learning, arXiv:2312.15122 (2024)
[4] Rasheed Hussain, Sherali Zeadally, Autonomous Cars: Research Results, Issues, and Future Challenges, IEEE Communications Surveys & Tutorials Volume: 21, Issue: 2 (2019)
[5] Yihan Hu et al., Planning-oriented Autonomous Driving, CVPR (2023)
[6] Bo Jiang, Shaoyu Chen, Qing Xu, Bencheng Liao, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang, VAD: Vectorized Scene Representation for Efficient Autonomous Driving, ICCV (2023)
[7] Xinshuo Weng, Boris Ivanovic, Yan Wang, Yue Wang, Marco Pavone, PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving, CVPR (2024)
[8] Xiaosong Jia et al., Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving, CVPR (2023)
[9] Kashyap Chitta et al., TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving, PAMI (2023)
[10] Hao Shao et al., InterFuser: Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer, CoRL (2022)
ソフトウェア面へのアプローチ
[5][6][7][8][9][10]
• モデルアーキテクチャの最適化
• 学習プロセスの改善
• 推論の効率化
ハードウェア面へのアプローチ
• 入力センサの変更
今回はこちらに注目
• E2E自動運転のセンサ構成と特徴
入力センサの変更 5
センサ構成 測距用ネットワーク センサフュージョン モデル例
複数の単眼カメラ
必要 不必要
uniAD[11], VAD[12],
PARA-Drive[13],
FSDv12[14]
マルチモーダル
不必要 必要
Transfuser [15],
ThinkTwice [16],
InterFuser [17]
ステレオカメラ
不必要 不必要
制御までを行うモデル
例なし
(制御以外のタスクの
モデルは多様に存在)
ステレオカメラの利用によりモデルを簡素化できる可能性
研究背景と目的(4/6)
[11] Yihan Hu et al., Planning-oriented Autonomous Driving, CVPR (2023)
[12] Bo Jiang, Shaoyu Chen, Qing Xu, Bencheng Liao, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang, VAD: Vectorized Scene Representation for Efficient Autonomous Driving, ICCV (2023)
[13] Xinshuo Weng, Boris Ivanovic, Yan Wang, Yue Wang, Marco Pavone, PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving, CVPR (2024)
[14] Lan, G. and Hao, Q.: End-To-End Planning of Autonomous Driving inIndustry and Academia: 2022-2023 (2023)
[15] Xiaosong Jia et al., Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving, CVPR (2023)
[16] Kashyap Chitta et al., TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving, PAMI (2023)
[17] Hao Shao et al., InterFuser: Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer, CoRL (2022)
現状主流な
センサ構成
提案する
センサ構成
2台のカメラで視差
を計算,
三次元の奥行きを
推定するカメラ
• ステレオカメラを用いた簡単なタスクにおけるE2Eモデルを検討
→ある程度正しいと保証されている運転行動(ADASの出力)を
教師データとして用い,適切に模倣できるかを確認
本研究の目的 6
長期的に取り組むタスク
今回取り組む領域
単機能のドライバー支援
・定速走行・追従走行
・衝突被害軽減
・車線逸脱警報ブレーキ
全運転タスクの実行
・自動交差点通過支援
・歩行者検知と回避
・ダイナミック経路計画
・悪条件(夜間・悪天候など)での
運転
マルチタスク運転支援
・自動駐車支援
・車線維持支援
・高速道路での縦横方向の操作
研究背景と目的(5/6)
基本的かつ重要なタスクである
追従走行(Adaptive Cruise Control)を扱う
全運転タスクを行うモデルの実現・
モデルの簡素化の検証への第一歩
• Adaptive Cruise Control (ACC)
– タスクの概要
• 先行車との自車速度に応じた適切な車間距離を維持するよう加速/減速を行う
– 出力:自車の要求加速度
• 加速度から制御信号への変換は,アルゴリズムでも十分に可能であり,ネットワークで
推論する必要が必ずしもない
→まずは1次元の加速度を出力とする
本研究で扱うタスク 7
研究背景と目的(6/6)
• 活用する具体的なモデルの選択
– 主要なモデル例
入出力の類似度の高さから,本研究ではTransfuserを採用
既存モデルの改変 8
モデル名 入力 出力
Transfuser [18]
前方左右3方向の単眼カメラ画像を
結合したもの, LiDAR点群, 目標座標
・将来経路
InterFuser [19]
前方左右3方向の単眼カメラ画像を
結合したもの, 焦点ビュー, LiDAR
点群, 目標座標
・将来経路
・物体密度マップ
・交通ルール情報
Stereo R-CNN [20]
1台のステレオカメラで撮影した
左右の画像ペア
・3D オブジェクト境界ボックス
提案手法(1/12)
[18] Kashyap Chitta et al., TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving, PAMI (2023)
[19] Hao Shao et al., InterFuser: Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer, CoRL (2022)
[20] Peiliang Li et al., Stereo R-CNN based 3D Object Detection for Autonomous Driving, CVPR (2019)
• Transfuserの構成要素
→各部分を最小限変更して,ステレオカメラの情報から
ACCタスクを行うモデルを実現
②マルチスケール特徴抽出
と融合
①センサ前処理
点群
提案モデルの実現方法 9
提案手法(2/12)
画像
③将来経路予測
• Transfuserの構成要素
②マルチスケール特徴抽出
と融合
①センサ前処理
点群
センサ前処理 10
提案手法(3/12)
画像
③将来経路予測
②マルチスケール
特徴抽出と融合
①センサ前処理
センサ前処理:Transfuserでの方法 11
・画像 (RGB)
・前方・左右方向の3カメラで取得,画像を並べて1枚の画像にする
(横方向 704×縦方向160ピクセル)
・点群
・LiDARで取得
・Bird’s-Eye View (BEV) に変換し,
縦32m×横32m 範囲を
256×256 ピクセルに量子化
・高さ方向で2層に分割,
目標座標の層を追加
提案手法(4/12)
②マルチスケール
特徴抽出と融合
①センサ前処理
センサ前処理:提案モデルでの変更点 12
・画像 (RGB) →白黒画像(カメラの仕様上の理由)
・前方・左右方向の3カメラで取得,画像を並べて1枚の画像にする
(横方向 704×縦方向160ピクセル)
→・ステレオカメラで撮影した1枚の画像をそのまま使用
(横方向 1492×縦方向412ピクセル)
・点群
・LiDARで取得→ステレオカメラで取得
・Bird’s-Eye View (BEV) に変換し,
縦32m×横32m 範囲を
256×256 ピクセルに量子化
・高さ方向で2層に分割,
目標座標の層を追加
→目標座標の層は削除
提案手法(5/12)
1台のステレオカメラ,
片方のレンズのみ使用
(ACCタスクの実行
には十分)
LiDARとステレオカメラの点群の特徴 13
Transfuserの点群データ
(LiDARで取得)
座標[m]
提案手法の点群データ
(ステレオカメラで取得)
x, y, z方向すべてに扇状に分布
近距離に点群が密集
x, y, z方向すべてに放射状に分布
近距離から遠距離まで均一に分布
生成方法
左右のレンズの視差を利用し、
三角測量で奥行きを推定
レーザー光の往復時間(ToF)を測
定し、距離を算出
近距離から遠距離までノイズが少ない
座標[m]
遠距離ほどノイズが多い
点群の分布
ノイズの具合
点群の様子
提案手法(6/12)
タスク遂行に必要な奥行き情報はステレオカメラでも取得可能
• Transfuserの構成要素
②マルチスケール特徴抽出
と融合
①センサ前処理
点群
マルチスケール特徴抽出と融合 14
提案手法(7/12)
画像
③将来経路予測
③将来
経路予測
①センサ
前処理
②マルチスケール特徴抽出と融合
画像の複数解像度での特徴マップを作成
マルチスケール特徴抽出と融合:Transfuserでの方法 15
提案手法(8/12)
点群の複数解像度での特徴マップを作成
Trans
former
自己注意機構により
画像特徴と点群特徴
を相互に統合
単純
加算
画像
点群BEV
Trans
former
Trans
former
Trans
former
①センサ
前処理
②マルチスケール特徴抽出と融合
画像の複数解像度での特徴マップを作成
→入力画像に合わせて解像度を変更
マルチスケール特徴抽出と融合:提案モデルでの変更点 16
提案手法(9/12)
点群の複数解像度での特徴マップを作成
Trans
former
③将来
経路予測
単純
加算
画像
点群BEV
Trans
former
Trans
former
Trans
former
自己注意機構により
画像特徴と点群特徴
を相互に統合
• Transfuserの構成要素
②マルチスケール特徴抽出
と融合
①センサ前処理
点群
将来経路予測 17
提案手法(10/12)
画像
③将来経路予測
③将来経路予測
将来経路予測:Transfuserでの方法 18
提案手法(11/12)
512
②マルチスケール
特徴抽出と融合
64
MLP GRU GRU GRU
GRU
(0,0)
目標座標
𝑤𝑤1 𝑤𝑤2 𝑤𝑤3
𝛿𝛿𝑤𝑤1 𝛿𝛿𝑤𝑤2 𝛿𝛿𝑤𝑤3 𝛿𝛿𝑤𝑤4
・GRUベースのデコーダにより、
将来の4ステップの2D座標(𝑤𝑤1…,
δ𝑤𝑤1…は差分)を逐次予測
・多層パーセプトロンで
512次元ベクトルを
64次元に圧縮
③将来経路予測
→要求加速度予測
要求加速度予測:提案モデルでの変更点 19
提案手法(12/12)
②マルチスケール
特徴抽出と融合
・GRUベースのデコーダにより、
将来の4ステップの2D座標
(𝑤𝑤1…, δ𝑤𝑤1…は差分)を
逐次予測
→全結合層で1次元に圧縮,
要求加速度を出力
1次元の全結合層
512 64
MLP
・多層パーセプトロンで
512次元ベクトルを
64次元に圧縮
• 実験目的
– ステレオカメラを用いたACCタスクを行う提案モデルが,
現時点でどの程度正しい運転行動を模倣できるかを検証する
• 実験概要
1.データセットを用いて学習
• ADASによる車両制御で取得したデータを用いて提案モデルの学習を実施
2.学習させたモデルを用いて推論
• テストデータを用いて、ステレオカメラから得られる情報に基づき推論
を実施
3.推論結果の評価・誤り分析による改善提案
• 推論結果の評価と分析により,モデル改善案を提示
実験目的・実験概要 20
実験(1/10)
• データ取得方法
– 前方車両が存在する状況下でADASによる車両制御を行い,その時の制御走行データを
取得
• ADASがすでに商品化されており,一定の品質が保証されているため
• 収集環境
– 車両: Levorg 2.0 GT-S(右画像)
– センサ
• ステレオカメラGen2
– ルールベースのADASによる車両制御を行う
• ステレオカメラGen4
– 車両前方の画像・3D点群を取得
• 車両挙動センサ
– 速度・加速度など車両挙動を取得
– 走行場所
• 茨城県水戸周辺
• 神奈川県厚木周辺
– データ取得日
• 2024年12月4日~2025年1月8日の期間で6日間
データセット 21
実際に用いた車両
(Levorg 2.0 GT-S)
実験(2/10)
• データ構造
データセット 22
1フレームの画像の様子
(下の点群に対応)
1フレームの点群
(上の画像に対応)
座標[m]
Z軸の値別の
ヒートマップ
実験(3/10)
単位・サイズ
画像 1492×412 ピクセル
3D点群 座標3 × 横373 × 縦103
自車速度 km/h
加速度 m/s²
ルート
• 走行した道路を示す単位
• 計6ルート
シーン
• 1つのルート上で取得した連続走行データを表す
単位
• 1ルートあたりに22~50シーンが含まれる
• 1シーンあたり約10~200秒
フレーム
• シーンをさらに時間方向に細分化した最小単位
• 1秒あたりに10フレームのデータを取得
1フレームの
内容→
モデルに入力
する情報
教師データ
• データセットの分割と量
– 右表参照
• 詳細な特徴
– 環境シチュエーション
• 一般道
– 184シーン、159,725フレーム
• 高速道路
– 5シーン、3,563フレーム
– 天候条件
• 晴れ又は曇り(全フレームにわたって良好な天候下)
– 時間帯
• 9時20分~11時30分頃,13時20分~16時頃のデータ(全フレームにわたって日中のみ)
– 周囲車両の状況
• 前方に車両がいる状況(全フレーム)
データセット 23
実験(4/10)
データの種類 データ数 データの分割方法
学習・検証
データ
6ルート,
170シーン,
147,313フレーム
全シーンにわたってランダム
に1/5を検証用に切り出し、
残りを学習用に利用
テスト
データ
19シーン,
15,975フレーム
各ルートからランダム選定
• 推論結果を10フレームの連続区間ごとに,正しい運転行動を模倣できているかを
評価
– 1フレームのノイズや瞬間的なブレを軽減させるため
– 10フレーム(1秒)ごとの適切な期間での挙動を反映させるため
• 評価手順
– ステレオカメラの開発者の監修のもと基準を設定
• 研究の初期段階であるため,基準を寛容に設定
推論結果の評価方法 24
実験(5/10)
2.各連続区間について誤りを検出
1.各連続区間の予測値・真値を
加速・減速・加減速なしに分類
区間の種類 分類基準
減速区間 加速度の平均値>=0.3m/s²
加減速なし
区間
0.3m/s²>加速度の平均値>
-0.3m/s²
加速区間 -0.3m/s²>=加速度の平均値
区間の種類 分類基準
致命的な誤り区間 予測値の区間の種類と真値
の区間の種類が逆
大きな誤り区間 誤差の大きさが1.3m/s²以上
誤り区間 誤差の大きさが1.0m/s²以上,
1.3m/s²以下
3.テストデータに対して特徴のアノテーションを実施
・周囲の環境, 前方車の様子, その他特徴的な様子
→推論結果における正解と誤りの区間の特徴を比較・分析
• 致命的な誤り区間の検出結果 (予測値と真値の加減速の分類が逆の区間)
• 大きな誤り区間,誤り区間の検出結果 (誤差が一定以上の区間)
→・加減速なし区間においては,誤りがない
・加減速あり区間において,減速区間の方が加速区間より大きな誤りが多い傾向
推論結果の評価 25
全体の件数 致命的な誤りの
件数
致命的な誤りの
割合
加速区間 1,628 15 0.92%
減速区間 1,931 26 1.35%
合計 3,559 41 1.15%
全体の区間数 誤りの区間数 誤りの割合
加速区間 1,628 98 6.02%
減速区間 1,931 98 5.01%
加減速なし
区間
12,245 0 0.00%
合計 15,804 196 1.24%
全体の区間数 誤りの区間数 誤りの割合
加速区間 1,628 0 0.00%
減速区間 1,931 82 4.25%
加減速なし
区間
12,245 0 0.00%
合計 15,804 82 0.52%
誤り区間(誤差の大きさが1.0m/s²以上,1.3m/s²以下)
大きな誤り区間(誤差の大きさが1.3m/s²以上)
実験(6/10)
→・ほとんどの区間において,
誤りがない
・加速区間・減速区間の両方
で致命的な誤りがある
• 加速度の真値の絶対値が1.5より大きい
フレームを含む区間であること
– 全体の誤りに対するこの誤り方の割合
• 誤りの原因の考察
– 学習データにおいて,加速度の真値の絶対値が
1.5以上のデータが少ない
• 改善案
– 加速度の真値の絶対値が1.5以上の学習データ
を増やす
誤り区間にのみ表れている特徴① 26
フレーム数
[枚]
加速度
[m/s²]
全学習データの加速度分布
実験(7/10)
致命的な
間違い
大きな間違い 間違い
加速区間 0% 0% 12.2%
減速区間 0% 36.6% 43.9%
加減速なし区間 - 0% 0%
合計 0% 36.6% 28.1%
• 上り坂かつ加速区間であること
– 全体の誤りに対するこの誤り方の割合
• 誤りの原因の考察
– 平地と比べて上り坂における適切な加減速の
具合が難しい
– ステレオカメラのみでは上り坂であることの
認識が難しい
• 改善案
– 学習データセットにおける上り坂区間の量を
算出し,少ない場合は増やす
– 入力情報としてIMUデータを追加
誤り区間にのみ表れている特徴② 27
上り坂かつ加速区間の様子
通常時の様子
実験(8/10)
致命的な
間違い
大きな間違い 間違い
加速区間 26.7% 0% 87.8%
減速区間 0% 0% 0%
加減速なし区間 - 0% 0%
合計 9.8% 0% 43.9%
• トンネルの出口のホワイトホール現象
– 全体の誤りに対するこの誤り方の割合
• 誤りの原因の考察
– ステレオカメラが正確に状況を認識できて
いない
• 改善案
– ホワイトホール現象を検知し,補正をかける
– 時系列処理を加えて,ホワイトホール現象が
起こる前のフレーム情報を参照する
誤り区間にのみ表れている特徴③ 28
ホワイトホール現象発生時の様子
通常時の様子
実験(9/10)
致命的な
間違い
大きな間違い 間違い
加速区間 0% 0% 0%
減速区間 0% 0% 7.1%
加減速なし区間 - 0% 0%
合計 0% 0% 3.6%
• 前方が荷台のみの重機輸送車
– 正解/誤り区間におけるこの特徴が存在
する割合
• 誤りの原因の考察
– 点群において荷台部分を認識できなかった
• 改善案
– 荷台部分も正しく認識できるように,
点群の上下の分割の閾値を下げる
– 学習データにおける重機輸送車の
ような特殊な車両のデータ数を確認し,
少ない場合は増やす
正解区間にもあるが誤り区間に多い特徴 29
致命的な
間違い
大きな間
違い
間違い
正解区間に対
する割合
39.2% 8.6% 8.8%
間違い区間に
対する割合
63.4% 63.4% 8.2%
前方が重機輸送車の時の様子
(左:画像,右:点群を車両
上空から見た様子)
前方車が通常車両の時の様子
(左:画像,右:点群を車両
上空から見た様子)
実験(10/10)
座標[m]
座標[m]
• ステレオカメラを用いた全運転タスクを行うE2Eモデルの実現・
モデルの簡素化の検証における初期段階として,簡単なタスクに
おけるE2Eモデルを検討
– Transfuserを基に,ステレオカメラで取得した情報から自車の要求加速度
の予測を行うネットワークへ改変
• ADASを用いて取得したデータセットを用いて提案モデルを学習
• 学習させたモデルを用いて未知のデータに対して推論
• 推論結果を評価・誤り分析による改善提案
– ほとんどの場合で誤りがないこと,一方で致命的な誤りや大きな誤りが
一定数あることを確認し,ステレオカメラを用いたモデルの実用化に向
け,十分な可能性があることが示された
– 誤り区間に特有の特徴を分析し、予測失敗の原因を考察するとともに、
改善案を検討
まとめ 30
まとめ(1/1)

【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning in Vehicle Control by Stereo Camera)