SlideShare a Scribd company logo
Sprint 論文紹介
【論文選定】
自動運転関連を選定。
【論文選定理由】
自動車業界出身であり、自動運転に興味があった為。また、今後のキャリアとして
関連業務を行うことを一つの方向性として検討している為。
【自動運転の動向について】
多くの論文を確認した訳ではない為、あくまで素人の個人的な見解となるが、
最新の論文は自動運転の技術開発というよりは実用化に向けた検討が多く
(計算コスト低減、デバイス・センサーの削減 etc)、今後 数年で本格的な
自動運転の時代が到来することが論文の内容からも読み取ることができた。
落合流論文読み方メソッド
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
・Stereo r-cnn based 3d object detection for autonomous driving
・Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for
autonomous driving
無し
KITTI 3Dオブジェクト検出データセットを使用し、先行研究のステレオカメラを使用し
たモデル及びLiDARを使用したモデルと、3D平均精度(AP3D)と鳥瞰図平均精度(
APbev)を比較。結果、先行研究のステレオカメラを使用したモデルに対し精度が向上
し、LiDARを使用したモデルとは同等の精度であり、今回のモデルが有効であることを
確認した。
3Dボックスの中心座標を直接予測する新しいエンドツーエンドのインスタンス深度認識
モジュール。Instance-Depth-Aware (IDA) module(3D-CNN)
ステレオカメラによる検出の先行研究では、第1ステージの遠近キーポイントによる2D
ボックスの再投影エラーの最小化と、第2ステージの中心座標の不一致解決の2段階で
検出していた。今回の方法は、3Dボックスの中心座標を直接予測する新しいエンドツー
エンドのインスタンス深度認識モジュール(3D-CNN)を設計することで、3Dオブジェ
クト検出のパフォーマンスを向上させている。
自動運転における重要なタスクの一つとして、3Dオブジェクトの検出がある。LiDARを
使用したアプローチは高性能だが背反として高価格である。一部のデータセットには
LiDARデータが無く、より一般的なシーンを考慮し、ステレオカメラのみによる3Dオブ
ジェクト検出方法が提案されている。LiDARを使用するいくつかの方法と比較し、今回
のアプローチで同等のパフォーマンスが得られている。
IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving
(2020)Wanli Peng∗ / Hao Pan∗ / He Liu / Yi Sun†
IDA-3D: Instance-Depth-Aware 3D Object Detection From Stereo Vision for Autonomous Driving
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
・Uncertainty-driven 6d pose estimation of objects and scenes from a single rgb image
・Real-time monocular object instance 6d pose estimation
・Making rgb-based 3d detection and 6d pose estimation great again
無し
Apolloscapeデータセット(さまざまな都市のストリートシーンで記録されたビデオシー
ケンスの多様なセット)を使用。評価指標はmAP(mean Average Precision)。
6D-VNetは他のモデルと比較し、mAPが3.8%から8.8%に向上した。
車両の回転と並進を同時に推定する。6DoF推定ブランチは2つの部分に分かれており、
最初の部分はサブクラス分類と回転推定を、2番目の部分は3次元の並進ベクトルを推定
する。
先行研究はシングルバウンディングマルチボックス検出器(SSD)とオートエンコーダ
(AAE)を適用する2段階で提案されている。今回の提案は車両の回転と並進の同時推定
をエンドツーエンドで実施する。
自動運転における6DoF(6自由度)推定のシンプルなフレームワークを提案する。単眼の
RGB画像で交通参加者を効率的に検出すると同時に、3D変換および回転方向を推定する
。 6D-VNetと呼ばれるこの手法は、マスクR-CNNを拡張し、車両のより細かい回転、並
進を予測する。6D-VNetは、以前の方法と比較してエンドツーエンドでトレーニングさ
れる。
6D-VNet: End-to-end 6DoF Vehicle Pose Estimation from Monocular RGB Images
(2019)Di Wu / Zhaoyong Zhuang / Canqun Xiang / Wenbin Zou and Xia Li
6D-VNet: End-To-End 6-DoF Vehicle Pose Estimation From Monocular RGB Images
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
・Distilling the knowledge in a neural network
・Exploiting linear structure within convolutional networks for efficient evaluation
・ Compressing deep convolutional networks using vector quantization
・ Deep compression: Compressing deep neural networks with pruning, trained quantization
and huffman coding
無し
前方に3つのカメラ、中心部にLiDARを一つ搭載したプラットフォームを作成し、デー
タを取得。モデル精度(評価指標:MSE)、計算コスト(FLOPs)を、他の複数モデルと
比較し、精度を落とさずに計算コストが下がることを確認した。
入力全体をメインゲーティングネットワークに渡し、メインゲーティングネットワーク
にてステップ的に学習することで、現在の運転に最も関連する情報を含む入力を決定し
、特徴抽出器に渡す。その後、ゲーティングネットワークの出力と特徴抽出器の出力を
結合し、最終的な全結合層へ渡す。
ゲーティングメカニズムにより、無関係または冗長なセンサーからの無駄な特徴抽出を
識別し、非アクティブ化する。
自動運転において、より多くのセンサーを使用することで精度は向上するが、1.計算が
複雑かつ膨大になる、2.最も単純で有益な入力に過剰適合する、という二つの問題が想
定される。 新しいマルチモーダルエキスパートネットワークアーキテクチャでは、最も
関連性の高いカメラ入力及びLiDARセンサー入力を選択し、自動運転に役立つ一部の情
報をリアルタイムで継続的に識別する。
Multi-modal Experts Network for Autonomous Driving
(2020)Shihong Fang∗/ Anna Choromanska∗
https://arxiv.org/pdf/2009.08876.pdf
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
・ Learning lightweight lane detection CNNs by self attention distillation
・Learning to cluster for proposal-free instance segmentation
・ Spatial as deep: Spatial CNN for traffic scene understanding
無し
TuSimple とCULane のデータセットを使用し後処理がある他のモデルと比較。TuSimpleデ
ータセットは、米国の高速道路上の6,408の道路画像。CULaneデータセットは、都市、
地方、高速道路のシーンを構成する55時間のビデオ。評価は正解率で判断。結果、正解
率は同等であり、複雑な後処理なしで最先端のパフォーマンスを達成。
レーンマーカーの検出を水平位置のセットを見つけることと見なす。具体的には、画像
を行に分割し、CNNを使用して各レーンマーカーの行ごとの特徴を取得する。これによ
り行ごとの分類と考えることができ、レーンマーカー位置を後処理なく直接提供するこ
とができる。
従来の方法は、レーンマーカー検出タスクの後に後処理ステップが続いたが、今回の方
法は後処理ステップなしで、エンドツーエンドの方法で直接レーンマーカー頂点予測を
実行する。
自動運転において、正確な車線の位置を検出することは重要ですが難しい作業である。
レーンマーカーは通常、太さのないラインセグメントで表されるため、従来は検出後に
後処理が行われる。この論文では後処理ステップなしで、エンドツーエンドの方法で直
接レーンマーカーの予測を実行する方法を提案する。具体的には、レーンマーカーの検
出問題を行ごとの分類タスクに変換する。
End-to-End Lane Marker Detection via Row-wise Classification
(2020)Seungwoo Yoo / Hee Seok Lee /Heesoo Myeong / Sungrack Yun / Hyoungwoo Park / Janghoon Cho / Duck Hoon Kim
End-to-End Lane Marker Detection via Row-Wise Classification
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
・Mask R-CNN
・Predicting the driver’s focus of attention: the DR(eye)VE project
・ Predicting driver attention in critical situations
・ A Deep Multi-Level Network for Saliency Prediction
・PiCANet: Learning pixel-wise contextual attention for saliency detection
無し
BDD-Aデータセットを使用し、既存の4つのモデルに対して従来の視線(焦点)のみの
データで訓練した場合とSAGE-Net(周囲の状況の意味を追加)で訓練した場合の評価(F1
score)を比較。結果、全てのモデルにおいてSAGE-Netが優れていることを確認している。
既存のモデルに並列で新しいモジュールを追加することで、計算負荷を掛けずに既存の
顕著性アルゴリズムのパフォーマンスを向上。(SAGE-Net)
ベースはマスクR-CNNを使用。(対象のオブジェクトの周囲にあるセグメント化された
マスクを、そのIDと場所とともに返す)
これまでの研究では人間の視線情報を使用して学習されるが、これらの方法は中心バイ
アスや集中力を失いがちな視線の推定のみとなる。今回のアプローチは、周辺状況の意
味と既存の視線データを組み合わせることで、ドライバーの意図を効果的に模倣できる
ようになる。また、自車両の近くにある重要なオブジェクトを正常に検出して追跡でき
るという追加機能も備えている。
自動運転において、注意すべき点を予測することは活発な研究分野である。既存の技術では
人間の視線(焦点)情報を検出し学習していた為、他の周辺状況の意味は無視されていた。
視線(焦点)に加え、周辺状況の情報を検知する新しい意味拡張GazE(SAGE)検出アプ
ローチSAGE-Netが提案されている。学習プロセスに追加の計算負荷を掛けずに既存の顕著
性アルゴリズムのパフォーマンスを向上させている。
“Looking at the right stuff” - Guided semantic-gaze for autonomous driving
(2020)Anwesan Pal / Sayan Mondal / Henrik I. Christensen
https://arxiv.org/pdf/1911.10455.pdf
日付

More Related Content

Similar to Sprint ronbunsyoukai

El text.tokuron a(2019).katagiri
El text.tokuron a(2019).katagiriEl text.tokuron a(2019).katagiri
El text.tokuron a(2019).katagiri
RCCSRENKEI
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
Hirono Jumpei
 
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier_IV
 
Tuning, etc.
Tuning, etc.Tuning, etc.
Tuning, etc.
Hiroshi Watanabe
 
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Ryohei Ueda
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
Yosuke Mizutani
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
kcnguo
 
モバイル向けニューラルネットワーク推論エンジンの紹介
モバイル向けニューラルネットワーク推論エンジンの紹介モバイル向けニューラルネットワーク推論エンジンの紹介
モバイル向けニューラルネットワーク推論エンジンの紹介
卓然 郭
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
Yasuyuki Kataoka
 
2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer
Keisuke Umezawa
 
東京工業大学「ロボット技術・ロボットミドルウェア」
東京工業大学「ロボット技術・ロボットミドルウェア」東京工業大学「ロボット技術・ロボットミドルウェア」
東京工業大学「ロボット技術・ロボットミドルウェア」
NoriakiAndo
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
knjcode
 
機械学習応用アーキテクチャ・デザインパターン概観
機械学習応用アーキテクチャ・デザインパターン概観機械学習応用アーキテクチャ・デザインパターン概観
機械学習応用アーキテクチャ・デザインパターン概観
Hironori Washizaki
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure
Daiyu Hatakeyama
 
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
harmonylab
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
Preferred Networks
 
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
Junichi Noda
 
Shared Questionnaire System Development Project
Shared Questionnaire System Development ProjectShared Questionnaire System Development Project
Shared Questionnaire System Development Project
hiroya
 
ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出
Tetsutaro Watanabe
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
Brocade
 

Similar to Sprint ronbunsyoukai (20)

El text.tokuron a(2019).katagiri
El text.tokuron a(2019).katagiriEl text.tokuron a(2019).katagiri
El text.tokuron a(2019).katagiri
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
 
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
 
Tuning, etc.
Tuning, etc.Tuning, etc.
Tuning, etc.
 
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
 
モバイル向けニューラルネットワーク推論エンジンの紹介
モバイル向けニューラルネットワーク推論エンジンの紹介モバイル向けニューラルネットワーク推論エンジンの紹介
モバイル向けニューラルネットワーク推論エンジンの紹介
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer
 
東京工業大学「ロボット技術・ロボットミドルウェア」
東京工業大学「ロボット技術・ロボットミドルウェア」東京工業大学「ロボット技術・ロボットミドルウェア」
東京工業大学「ロボット技術・ロボットミドルウェア」
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
機械学習応用アーキテクチャ・デザインパターン概観
機械学習応用アーキテクチャ・デザインパターン概観機械学習応用アーキテクチャ・デザインパターン概観
機械学習応用アーキテクチャ・デザインパターン概観
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure
 
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
GEEK ACADEMY REAL Vol.2. 「最先端のデータ解析/Apache Sparkを利用したレコメンドエンジン開発」
 
Shared Questionnaire System Development Project
Shared Questionnaire System Development ProjectShared Questionnaire System Development Project
Shared Questionnaire System Development Project
 
ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 

Sprint ronbunsyoukai

  • 3.
  • 4. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? ・Stereo r-cnn based 3d object detection for autonomous driving ・Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for autonomous driving 無し KITTI 3Dオブジェクト検出データセットを使用し、先行研究のステレオカメラを使用し たモデル及びLiDARを使用したモデルと、3D平均精度(AP3D)と鳥瞰図平均精度( APbev)を比較。結果、先行研究のステレオカメラを使用したモデルに対し精度が向上 し、LiDARを使用したモデルとは同等の精度であり、今回のモデルが有効であることを 確認した。 3Dボックスの中心座標を直接予測する新しいエンドツーエンドのインスタンス深度認識 モジュール。Instance-Depth-Aware (IDA) module(3D-CNN) ステレオカメラによる検出の先行研究では、第1ステージの遠近キーポイントによる2D ボックスの再投影エラーの最小化と、第2ステージの中心座標の不一致解決の2段階で 検出していた。今回の方法は、3Dボックスの中心座標を直接予測する新しいエンドツー エンドのインスタンス深度認識モジュール(3D-CNN)を設計することで、3Dオブジェ クト検出のパフォーマンスを向上させている。 自動運転における重要なタスクの一つとして、3Dオブジェクトの検出がある。LiDARを 使用したアプローチは高性能だが背反として高価格である。一部のデータセットには LiDARデータが無く、より一般的なシーンを考慮し、ステレオカメラのみによる3Dオブ ジェクト検出方法が提案されている。LiDARを使用するいくつかの方法と比較し、今回 のアプローチで同等のパフォーマンスが得られている。 IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving (2020)Wanli Peng∗ / Hao Pan∗ / He Liu / Yi Sun† IDA-3D: Instance-Depth-Aware 3D Object Detection From Stereo Vision for Autonomous Driving 日付
  • 5. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? ・Uncertainty-driven 6d pose estimation of objects and scenes from a single rgb image ・Real-time monocular object instance 6d pose estimation ・Making rgb-based 3d detection and 6d pose estimation great again 無し Apolloscapeデータセット(さまざまな都市のストリートシーンで記録されたビデオシー ケンスの多様なセット)を使用。評価指標はmAP(mean Average Precision)。 6D-VNetは他のモデルと比較し、mAPが3.8%から8.8%に向上した。 車両の回転と並進を同時に推定する。6DoF推定ブランチは2つの部分に分かれており、 最初の部分はサブクラス分類と回転推定を、2番目の部分は3次元の並進ベクトルを推定 する。 先行研究はシングルバウンディングマルチボックス検出器(SSD)とオートエンコーダ (AAE)を適用する2段階で提案されている。今回の提案は車両の回転と並進の同時推定 をエンドツーエンドで実施する。 自動運転における6DoF(6自由度)推定のシンプルなフレームワークを提案する。単眼の RGB画像で交通参加者を効率的に検出すると同時に、3D変換および回転方向を推定する 。 6D-VNetと呼ばれるこの手法は、マスクR-CNNを拡張し、車両のより細かい回転、並 進を予測する。6D-VNetは、以前の方法と比較してエンドツーエンドでトレーニングさ れる。 6D-VNet: End-to-end 6DoF Vehicle Pose Estimation from Monocular RGB Images (2019)Di Wu / Zhaoyong Zhuang / Canqun Xiang / Wenbin Zou and Xia Li 6D-VNet: End-To-End 6-DoF Vehicle Pose Estimation From Monocular RGB Images 日付
  • 6. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? ・Distilling the knowledge in a neural network ・Exploiting linear structure within convolutional networks for efficient evaluation ・ Compressing deep convolutional networks using vector quantization ・ Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding 無し 前方に3つのカメラ、中心部にLiDARを一つ搭載したプラットフォームを作成し、デー タを取得。モデル精度(評価指標:MSE)、計算コスト(FLOPs)を、他の複数モデルと 比較し、精度を落とさずに計算コストが下がることを確認した。 入力全体をメインゲーティングネットワークに渡し、メインゲーティングネットワーク にてステップ的に学習することで、現在の運転に最も関連する情報を含む入力を決定し 、特徴抽出器に渡す。その後、ゲーティングネットワークの出力と特徴抽出器の出力を 結合し、最終的な全結合層へ渡す。 ゲーティングメカニズムにより、無関係または冗長なセンサーからの無駄な特徴抽出を 識別し、非アクティブ化する。 自動運転において、より多くのセンサーを使用することで精度は向上するが、1.計算が 複雑かつ膨大になる、2.最も単純で有益な入力に過剰適合する、という二つの問題が想 定される。 新しいマルチモーダルエキスパートネットワークアーキテクチャでは、最も 関連性の高いカメラ入力及びLiDARセンサー入力を選択し、自動運転に役立つ一部の情 報をリアルタイムで継続的に識別する。 Multi-modal Experts Network for Autonomous Driving (2020)Shihong Fang∗/ Anna Choromanska∗ https://arxiv.org/pdf/2009.08876.pdf 日付
  • 7. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? ・ Learning lightweight lane detection CNNs by self attention distillation ・Learning to cluster for proposal-free instance segmentation ・ Spatial as deep: Spatial CNN for traffic scene understanding 無し TuSimple とCULane のデータセットを使用し後処理がある他のモデルと比較。TuSimpleデ ータセットは、米国の高速道路上の6,408の道路画像。CULaneデータセットは、都市、 地方、高速道路のシーンを構成する55時間のビデオ。評価は正解率で判断。結果、正解 率は同等であり、複雑な後処理なしで最先端のパフォーマンスを達成。 レーンマーカーの検出を水平位置のセットを見つけることと見なす。具体的には、画像 を行に分割し、CNNを使用して各レーンマーカーの行ごとの特徴を取得する。これによ り行ごとの分類と考えることができ、レーンマーカー位置を後処理なく直接提供するこ とができる。 従来の方法は、レーンマーカー検出タスクの後に後処理ステップが続いたが、今回の方 法は後処理ステップなしで、エンドツーエンドの方法で直接レーンマーカー頂点予測を 実行する。 自動運転において、正確な車線の位置を検出することは重要ですが難しい作業である。 レーンマーカーは通常、太さのないラインセグメントで表されるため、従来は検出後に 後処理が行われる。この論文では後処理ステップなしで、エンドツーエンドの方法で直 接レーンマーカーの予測を実行する方法を提案する。具体的には、レーンマーカーの検 出問題を行ごとの分類タスクに変換する。 End-to-End Lane Marker Detection via Row-wise Classification (2020)Seungwoo Yoo / Hee Seok Lee /Heesoo Myeong / Sungrack Yun / Hyoungwoo Park / Janghoon Cho / Duck Hoon Kim End-to-End Lane Marker Detection via Row-Wise Classification 日付
  • 8. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? ・Mask R-CNN ・Predicting the driver’s focus of attention: the DR(eye)VE project ・ Predicting driver attention in critical situations ・ A Deep Multi-Level Network for Saliency Prediction ・PiCANet: Learning pixel-wise contextual attention for saliency detection 無し BDD-Aデータセットを使用し、既存の4つのモデルに対して従来の視線(焦点)のみの データで訓練した場合とSAGE-Net(周囲の状況の意味を追加)で訓練した場合の評価(F1 score)を比較。結果、全てのモデルにおいてSAGE-Netが優れていることを確認している。 既存のモデルに並列で新しいモジュールを追加することで、計算負荷を掛けずに既存の 顕著性アルゴリズムのパフォーマンスを向上。(SAGE-Net) ベースはマスクR-CNNを使用。(対象のオブジェクトの周囲にあるセグメント化された マスクを、そのIDと場所とともに返す) これまでの研究では人間の視線情報を使用して学習されるが、これらの方法は中心バイ アスや集中力を失いがちな視線の推定のみとなる。今回のアプローチは、周辺状況の意 味と既存の視線データを組み合わせることで、ドライバーの意図を効果的に模倣できる ようになる。また、自車両の近くにある重要なオブジェクトを正常に検出して追跡でき るという追加機能も備えている。 自動運転において、注意すべき点を予測することは活発な研究分野である。既存の技術では 人間の視線(焦点)情報を検出し学習していた為、他の周辺状況の意味は無視されていた。 視線(焦点)に加え、周辺状況の情報を検知する新しい意味拡張GazE(SAGE)検出アプ ローチSAGE-Netが提案されている。学習プロセスに追加の計算負荷を掛けずに既存の顕著 性アルゴリズムのパフォーマンスを向上させている。 “Looking at the right stuff” - Guided semantic-gaze for autonomous driving (2020)Anwesan Pal / Sayan Mondal / Henrik I. Christensen https://arxiv.org/pdf/1911.10455.pdf 日付