Teslaにおけるコンピュータビジョン技術の調査

Mobility Technologies Co., Ltd.
Teslaにおけるコンピュータビジョン技術の調査
2022/1/7
Mobility Technologies 宮澤一之

宮澤一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw

3
2014年10月：Autopilot誕生
2015年10月：「バージョン7.0」リリース
2016年01月：Summonベータ版をリリース
2016年10月：第2世代のハードウェアを全車種搭載へ
2018年10月：Autopilotにナビゲーション機能追加
2019年09月：Smart Summon機能リリース
2020年10月：FSDベータ版提供開始
2021年05月：レーダー廃止
2021年10月：FSD最新版リリース
自動運転に関するTeslaの歴史
https://jidounten-lab.com/u_tesla-history#20215LiDAR　より抜粋・編集

Autopilot
● Traffic-Aware Cruise Control: Matches the speed of your car to that of the surrounding traffic
● Autosteer: Assists in steering within a clearly marked lane, and uses traffic-aware cruise control
Full Self-Driving Capability
● Navigate on Autopilot (Beta): Actively guides your car from a highway’s on-ramp to off-ramp, including suggesting lane
changes, navigating interchanges, automatically engaging the turn signal and taking the correct exit
● Auto Lane Change: Assists in moving to an adjacent lane on the highway when Autosteer is engaged
● Autopark: Helps automatically parallel or perpendicular park your car, with a single touch
● Summon: Moves your car in and out of a tight space using the mobile app or key
● Smart Summon: Your car will navigate more complex environments and parking spaces, maneuvering around objects as
necessary to come find you in a parking lot.
● Traffic and Stop Sign Control (Beta): Identifies stop signs and traffic lights and automatically slows your car to a stop
on approach, with your active supervision
● Upcoming:
○ Autosteer on city streets
AutopilotとFSD (Full Self-Driving)
4
https://www.tesla.com/support/autopilot

車両センサ構成（カメラ x 8、超音波 x 12）
5
https://www.tesla.com/autopilot

“LiDARは無駄な努力だ。LiDARに頼っている人たちに明日はない。将来性がないんだよ。
高価なセンサーだし、そもそもあんなものは要らない。高価な盲腸がたくさんある人と同
じだ。盲腸は1つでも要らない。それを、たくさん身につけているんだ。滑稽だよね” - イー
ロン・マスク
■ コストが高い
■ カメラに比べて情報量が少ない
■ 人間は視覚だけで運転できる
■ HD Mapに頼り、LiDARで自己位置推定するアプローチはスケールしない（世界中で高
精度なHD Mapを作り、メンテし続けることは非現実的）
TeslaがLiDARを使わない理由
6
https://jp.techcrunch.com/2019/04/23/2019-04-22-anyone-relying-on-lidar-is-doomed-elon-musk-says/

■ 2016年まではMobileyeがTeslaにビジョン用プロセッサを提供
■ 2016年5月に発生したAutopilot中の死亡事故を受け、契約を解消
■ 2016年にJim KellerがVice President of Autopilot Hardware Engineeringに就任
■ 2017年にAndrej KarpathyがDirector of AI and Autopilot Visionに就任
ビジョン技術の内製化
7

Andrej Karparthy
8
https://karpathy.medium.com/
https://karpathy.ai/

■ TeslaにおけるCV技術について、Andrej Karpathy氏らの以下講演を抜粋・要約
2021 Tesla: Tesla AI Day
2021 CVPR: Workshop on Autonomous Driving
2020 ScaledML: AI for Full Self-Driving @ ScaledML
2019 Tesla: Tesla Autonomy Day
■ 主に以下3つの観点で要約
1. データ
2. ソフトウェア (Neural Nets)
3. ハードウェア
本資料について
9

1 データ
10

Secret
11
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s

ユーザ車両からのデータ収集
12
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s
■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集
■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集
■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加
■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ

事例1：標識検出
13
■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある
■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠
された標識の画像を大量に自動収集して学習データセットに加える
https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s

■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題
■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発
■ データ収集のためのトリガ（カメラとレーダーの不整合発生など）を221種類用意し、学習データとして100万映像
（1.5ペタバイト）を収集
事例2：レーダーの廃止
14
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s

■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測
が可能となった
■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って
検証を実施
事例2：レーダーの廃止
15

■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発
■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正
■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用
■ 未来情報（hindsight）の活用
■ 同一箇所を走行した複数車両のデータを統合
アノテーション
16
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s

4次元空間でのアノテーション
17
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s
��

複数車両のデータの統合
18
��

■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成
■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上
■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる
■ より写実的なレンダリングのため、ニューラルレンダリングも活用
シミュレーションの活用
19

2 ソフトウェア (Neural Nets)
20

■ 8つのカメラからはそれぞれ1280 x 960@36Hz (12bit/pixel) の映像が得られる
■ backboneには速度と精度のバランスが取れたRegNetを用い、BiFPNでマルチスケールの特徴を抽出
■ backboneを共通化し、タスクごとにヘッドを用意したHydraNetを構成することで推論を効率化すると共に複数人で
の並列開発を実現
各カメラに対する処理
21

■ HydraNetは1000種類のテンソルを出力し、学習には7万GPU時間を要する
■ 20人程度のエンジニアでメンテ
■ cookiecutterライクに生成した雛形をベースにすることで、エンジニアを介さない自動的なワークフローで新たなタ
スクをネットワークに追加することが可能
開発の効率化
22
https://www.youtube.com/watch?v=hx7BXih7zx8t=881s

■ 8個のカメラそれぞれでの推論結果を最後にフュージョンするのでは十分な精度が得られない
■ 推論結果のフュージョンのためには複雑かつ手動でのチューニングが必要となる
複数カメラのフュージョン
23

■ Transformerにより複数カメラの特徴をフュージョン
■ 出力空間（BEV）をラスタライズしてpositional encodingを生成し、MLPを通してqueryを得る
■ 各カメラの特徴からkeyとvalueを生成し、Transformerにより特徴のフュージョンとBEV変換を実施
複数カメラのフュージョン
24

特徴空間でのフュージョンの効果
25
出力空間でのフュージョン特徴空間でのフュージョン
��

特徴空間でのフュージョンの効果
26
��

■ 他車両の速度などの推測のためには時間方向の情報が必要となる
■ 適切な進路決定のためには、過去に見た標識や路面標示を覚えておく必要がある
■ フュージョンした複数カメラの特徴量をキューに保存することで過去の情報を参照できるようにする
■ 保存した特徴量をビデオモジュール（後述）に入力し、最後尾にあるヘッドが利用する特徴量を生成
時間方向の情報活用
27

■ time-basedとspace-basedの両方でプッシュのタイミングを決定
■ time-basedでは一定時間（例：27ms）おきに特徴をプッシュすることで一時的なオクルージョンなどに対応
■ space-basedでは一定距離（例：1m）おきに特徴をプッシュすることで過去の標識や路面表示などを記憶
特徴キューにプッシュするタイミング
28

■ ビデオモジュールには3D CNNやTransformerも検討したが、最終的にSpatial RNNを採用
■ 車両が移動する2次元平面に相当するメモリを持ち、車両の運動に併せて車両近傍の特徴量だけを更新
■ ニューラルネットは現在の状況に応じて適切にメモリの読み書きを行う（例えば自車両の右側が他車両で隠されてい
た場合はその部分の特徴量を更新しないなど）
ビデオモジュール
29

ビデオモジュールの効果
30
��

■ 各カメラの画像をシンプルな単一ネッ
トワークで個別に処理していた状態
から3、4年でここまで成長
■ 今後の改善としては、時空間方向の
特徴量フュージョンをさらに早い段階
で実施することや、最終的な出力
データをよりsparseにしてエッジ処理
におけるレイテンシを小さくすることな
どが挙げられる
アーキテクチャ全体像
31

ハードウェア
3
32

■ 車両でのエッジ推論にはFSD Chipと呼ぶ自社開発の車載チップを利用
■ 2021年6月時点の情報では、学習用のスパコンはNVIDIA A100を5760基搭載したものだった（世界5位程度）
内製車載チップとオンプレスパコン（2021年6月時点）
33

■ 面積の100%を機械学習とIOが占める専用チップとしてD1 Chipを自社開発
■ D1 Chip内部には1024 GFLOPsのトレーニングノード（64 bitスーパースカラCPU）が354基
■ 新たなフォーマットとしてCFP8（Configurable fp8）を提案*
■ GPUレベルの計算能力、CPUレベルのフレキシビリティ、IO帯域は最新ネットワークスイッチチップの2倍
Dojo（2021年8月発表）
34
* https://tesla-cdn.thron.com/static/SBY4B9_tesla-dojo-technology_OPNZ0M.pdf

■ D1 Chipを25個並べたTraining Tileがクラスタの1ユニットとなる
■ マルチチップモジュールとしてはおそらく世界最大
■ 演算能力は9 PFLOPs（BF16/CFP8）
35

■ Training Tileを並べたTraining Matrixをさらに並べることで、D1 ChipのクラスタであるExaPODを構築
■ 100万以上のトレーニングノードを持ち演算能力は1 E（エクサ）FLOPを超える
36

■ ユーザが必要とする計算能力に応じてクラスタをDPU（Dojo Processing Unit）と呼ぶ仮想ユニットに分割
■ PyTorchのコードでGPUを指定していた箇所を”dojo”に置き換えるだけでDPUが利用可能
■ コンパイラのバックエンドにはLLVMを利用
37

■ Dojoは2022年稼働予定（ソフトウェアチームが既存のGPUクラスタをturn offするのがゴール）
■ 次世代は10倍の改善を目指す
38

39
One more thing...

■ FSDの開発で培った技術を流用してヒューマノイドロボットを開発
■ 人間の物理的な労働の置き換えを狙う
■ 2022年中にプロトタイプを開発
Tesla Bot
40

文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
41

Teslaにおけるコンピュータビジョン技術の調査

More Related Content

What's hot

Similar to Teslaにおけるコンピュータビジョン技術の調査

More from Kazuyuki Miyazawa

Teslaにおけるコンピュータビジョン技術の調査