Sprint ronbunsyoukai

Sprint 論文紹介
【論文選定】
自動運転関連を選定。
【論文選定理由】
自動車業界出身であり、自動運転に興味があった為。また、今後のキャリアとして
関連業務を行うことを一つの方向性として検討している為。
【自動運転の動向について】
多くの論文を確認した訳ではない為、あくまで素人の個人的な見解となるが、
最新の論文は自動運転の技術開発というよりは実用化に向けた検討が多く
（計算コスト低減、デバイス・センサーの削減 etc）、今後数年で本格的な
自動運転の時代が到来することが論文の内容からも読み取ることができた。

落合流論文読み方メソッド

どんなもの？
先行研究と比べて何がすごい？
技術の手法や肝は？
議論はある？
どうやって有効だと検証した？
次に読むべき論文は？
・Stereo r-cnn based 3d object detection for autonomous driving
・Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for
autonomous driving
無し
KITTI 3Dオブジェクト検出データセットを使用し、先行研究のステレオカメラを使用し
たモデル及びLiDARを使用したモデルと、3D平均精度（AP3D）と鳥瞰図平均精度（
APbev）を比較。結果、先行研究のステレオカメラを使用したモデルに対し精度が向上
し、LiDARを使用したモデルとは同等の精度であり、今回のモデルが有効であることを
確認した。
3Dボックスの中心座標を直接予測する新しいエンドツーエンドのインスタンス深度認識
モジュール。Instance-Depth-Aware (IDA) module（3D-CNN）
ステレオカメラによる検出の先行研究では、第1ステージの遠近キーポイントによる2D
ボックスの再投影エラーの最小化と、第2ステージの中心座標の不一致解決の２段階で
検出していた。今回の方法は、3Dボックスの中心座標を直接予測する新しいエンドツー
エンドのインスタンス深度認識モジュール（3D-CNN）を設計することで、3Dオブジェ
クト検出のパフォーマンスを向上させている。
自動運転における重要なタスクの一つとして、３Dオブジェクトの検出がある。LiDARを
使用したアプローチは高性能だが背反として高価格である。一部のデータセットには
LiDARデータが無く、より一般的なシーンを考慮し、ステレオカメラのみによる３Dオブ
ジェクト検出方法が提案されている。LiDARを使用するいくつかの方法と比較し、今回
のアプローチで同等のパフォーマンスが得られている。
IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving
（2020）Wanli Peng∗ / Hao Pan∗ / He Liu / Yi Sun†
IDA-3D: Instance-Depth-Aware 3D Object Detection From Stereo Vision for Autonomous Driving
日付

どんなもの？
議論はある？
・Uncertainty-driven 6d pose estimation of objects and scenes from a single rgb image
・Real-time monocular object instance 6d pose estimation
・Making rgb-based 3d detection and 6d pose estimation great again
無し
Apolloscapeデータセット（さまざまな都市のストリートシーンで記録されたビデオシー
ケンスの多様なセット）を使用。評価指標はmAP(mean Average Precision)。
6D-VNetは他のモデルと比較し、mAPが3.8%から8.8%に向上した。
車両の回転と並進を同時に推定する。6DoF推定ブランチは2つの部分に分かれており、
最初の部分はサブクラス分類と回転推定を、2番目の部分は3次元の並進ベクトルを推定
する。
先行研究はシングルバウンディングマルチボックス検出器（SSD）とオートエンコーダ
（AAE）を適用する2段階で提案されている。今回の提案は車両の回転と並進の同時推定
をエンドツーエンドで実施する。
自動運転における6DoF(６自由度)推定のシンプルなフレームワークを提案する。単眼の
RGB画像で交通参加者を効率的に検出すると同時に、3D変換および回転方向を推定する
。 6D-VNetと呼ばれるこの手法は、マスクR-CNNを拡張し、車両のより細かい回転、並
進を予測する。6D-VNetは、以前の方法と比較してエンドツーエンドでトレーニングさ
れる。
6D-VNet: End-to-end 6DoF Vehicle Pose Estimation from Monocular RGB Images
（2019）Di Wu / Zhaoyong Zhuang / Canqun Xiang / Wenbin Zou and Xia Li
6D-VNet: End-To-End 6-DoF Vehicle Pose Estimation From Monocular RGB Images
日付

どんなもの？
議論はある？
・Distilling the knowledge in a neural network
・Exploiting linear structure within convolutional networks for efficient evaluation
・ Compressing deep convolutional networks using vector quantization
・ Deep compression: Compressing deep neural networks with pruning, trained quantization
and huffman coding
無し
前方に３つのカメラ、中心部にLiDARを一つ搭載したプラットフォームを作成し、デー
タを取得。モデル精度（評価指標：MSE）、計算コスト（FLOPs）を、他の複数モデルと
比較し、精度を落とさずに計算コストが下がることを確認した。
入力全体をメインゲーティングネットワークに渡し、メインゲーティングネットワーク
にてステップ的に学習することで、現在の運転に最も関連する情報を含む入力を決定し
、特徴抽出器に渡す。その後、ゲーティングネットワークの出力と特徴抽出器の出力を
結合し、最終的な全結合層へ渡す。
ゲーティングメカニズムにより、無関係または冗長なセンサーからの無駄な特徴抽出を
識別し、非アクティブ化する。
自動運転において、より多くのセンサーを使用することで精度は向上するが、1.計算が
複雑かつ膨大になる、2.最も単純で有益な入力に過剰適合する、という二つの問題が想
定される。新しいマルチモーダルエキスパートネットワークアーキテクチャでは、最も
関連性の高いカメラ入力及びLiDARセンサー入力を選択し、自動運転に役立つ一部の情
報をリアルタイムで継続的に識別する。
Multi-modal Experts Network for Autonomous Driving
（2020）Shihong Fang∗/ Anna Choromanska∗
https://arxiv.org/pdf/2009.08876.pdf
日付

どんなもの？
議論はある？
・ Learning lightweight lane detection CNNs by self attention distillation
・Learning to cluster for proposal-free instance segmentation
・ Spatial as deep: Spatial CNN for traffic scene understanding
無し
TuSimple とCULane のデータセットを使用し後処理がある他のモデルと比較。TuSimpleデ
ータセットは、米国の高速道路上の6,408の道路画像。CULaneデータセットは、都市、
地方、高速道路のシーンを構成する55時間のビデオ。評価は正解率で判断。結果、正解
率は同等であり、複雑な後処理なしで最先端のパフォーマンスを達成。
レーンマーカーの検出を水平位置のセットを見つけることと見なす。具体的には、画像
を行に分割し、CNNを使用して各レーンマーカーの行ごとの特徴を取得する。これによ
り行ごとの分類と考えることができ、レーンマーカー位置を後処理なく直接提供するこ
とができる。
従来の方法は、レーンマーカー検出タスクの後に後処理ステップが続いたが、今回の方
法は後処理ステップなしで、エンドツーエンドの方法で直接レーンマーカー頂点予測を
実行する。
自動運転において、正確な車線の位置を検出することは重要ですが難しい作業である。
レーンマーカーは通常、太さのないラインセグメントで表されるため、従来は検出後に
後処理が行われる。この論文では後処理ステップなしで、エンドツーエンドの方法で直
接レーンマーカーの予測を実行する方法を提案する。具体的には、レーンマーカーの検
出問題を行ごとの分類タスクに変換する。
End-to-End Lane Marker Detection via Row-wise Classification
（2020）Seungwoo Yoo / Hee Seok Lee /Heesoo Myeong / Sungrack Yun / Hyoungwoo Park / Janghoon Cho / Duck Hoon Kim
End-to-End Lane Marker Detection via Row-Wise Classification
日付

どんなもの？
議論はある？
・Mask R-CNN
・Predicting the driver’s focus of attention: the DR(eye)VE project
・ Predicting driver attention in critical situations
・ A Deep Multi-Level Network for Saliency Prediction
・PiCANet: Learning pixel-wise contextual attention for saliency detection
無し
BDD-Aデータセットを使用し、既存の４つのモデルに対して従来の視線（焦点）のみの
データで訓練した場合とSAGE-Net(周囲の状況の意味を追加)で訓練した場合の評価（F1
score）を比較。結果、全てのモデルにおいてSAGE-Netが優れていることを確認している。
既存のモデルに並列で新しいモジュールを追加することで、計算負荷を掛けずに既存の
顕著性アルゴリズムのパフォーマンスを向上。（SAGE-Net）
ベースはマスクR-CNNを使用。（対象のオブジェクトの周囲にあるセグメント化された
マスクを、そのIDと場所とともに返す）
これまでの研究では人間の視線情報を使用して学習されるが、これらの方法は中心バイ
アスや集中力を失いがちな視線の推定のみとなる。今回のアプローチは、周辺状況の意
味と既存の視線データを組み合わせることで、ドライバーの意図を効果的に模倣できる
ようになる。また、自車両の近くにある重要なオブジェクトを正常に検出して追跡でき
るという追加機能も備えている。
自動運転において、注意すべき点を予測することは活発な研究分野である。既存の技術では
人間の視線（焦点）情報を検出し学習していた為、他の周辺状況の意味は無視されていた。
視線（焦点）に加え、周辺状況の情報を検知する新しい意味拡張GazE（SAGE）検出アプ
ローチSAGE-Netが提案されている。学習プロセスに追加の計算負荷を掛けずに既存の顕著
性アルゴリズムのパフォーマンスを向上させている。
“Looking at the right stuff” - Guided semantic-gaze for autonomous driving
（2020）Anwesan Pal / Sayan Mondal / Henrik I. Christensen
https://arxiv.org/pdf/1911.10455.pdf
日付

Sprint ronbunsyoukai

Recommended

Recommended

More Related Content

Similar to Sprint ronbunsyoukai

Similar to Sprint ronbunsyoukai (20)

Sprint ronbunsyoukai