Mobility Technologies Co., Ltd.
Teslaにおけるコンピュータビジョン技術の調査
2022/1/7
Mobility Technologies 宮澤 一之
Mobility Technologies Co., Ltd.
宮澤 一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw
Mobility Technologies Co., Ltd.
3
2014年10月:Autopilot誕生
2015年10月:「バージョン7.0」リリース
2016年01月:Summonベータ版をリリース
2016年10月:第2世代のハードウェアを全車種搭載へ
2018年10月:Autopilotにナビゲーション機能追加
2019年09月:Smart Summon機能リリース
2020年10月:FSDベータ版提供開始
2021年05月:レーダー廃止
2021年10月:FSD最新版リリース
自動運転に関するTeslaの歴史
https://jidounten-lab.com/u_tesla-history#20215LiDAR より抜粋・編集
Mobility Technologies Co., Ltd.
Autopilot
● Traffic-Aware Cruise Control: Matches the speed of your car to that of the surrounding traffic
● Autosteer: Assists in steering within a clearly marked lane, and uses traffic-aware cruise control
Full Self-Driving Capability
● Navigate on Autopilot (Beta): Actively guides your car from a highway’s on-ramp to off-ramp, including suggesting lane
changes, navigating interchanges, automatically engaging the turn signal and taking the correct exit
● Auto Lane Change: Assists in moving to an adjacent lane on the highway when Autosteer is engaged
● Autopark: Helps automatically parallel or perpendicular park your car, with a single touch
● Summon: Moves your car in and out of a tight space using the mobile app or key
● Smart Summon: Your car will navigate more complex environments and parking spaces, maneuvering around objects as
necessary to come find you in a parking lot.
● Traffic and Stop Sign Control (Beta): Identifies stop signs and traffic lights and automatically slows your car to a stop
on approach, with your active supervision
● Upcoming:
○ Autosteer on city streets
AutopilotとFSD (Full Self-Driving)
4
https://www.tesla.com/support/autopilot
Mobility Technologies Co., Ltd.
車両センサ構成(カメラ x 8、超音波 x 12)
5
https://www.tesla.com/autopilot
Mobility Technologies Co., Ltd.
“LiDARは無駄な努力だ。LiDARに頼っている人たちに明日はない。将来性がないんだよ。
高価なセンサーだし、そもそもあんなものは要らない。高価な盲腸がたくさんある人と同
じだ。盲腸は1つでも要らない。それを、たくさん身につけているんだ。滑稽だよね” - イー
ロン・マスク
■ コストが高い
■ カメラに比べて情報量が少ない
■ 人間は視覚だけで運転できる
■ HD Mapに頼り、LiDARで自己位置推定するアプローチはスケールしない(世界中で高
精度なHD Mapを作り、メンテし続けることは非現実的)
TeslaがLiDARを使わない理由
6
https://jp.techcrunch.com/2019/04/23/2019-04-22-anyone-relying-on-lidar-is-doomed-elon-musk-says/
Mobility Technologies Co., Ltd.
■ 2016年まではMobileyeがTeslaにビジョン用プロセッサを提供
■ 2016年5月に発生したAutopilot中の死亡事故を受け、契約を解消
■ 2016年にJim KellerがVice President of Autopilot Hardware Engineeringに就任
■ 2017年にAndrej KarpathyがDirector of AI and Autopilot Visionに就任
ビジョン技術の内製化
7
Mobility Technologies Co., Ltd.
Andrej Karparthy
8
https://karpathy.medium.com/
https://karpathy.ai/
Mobility Technologies Co., Ltd.
■ TeslaにおけるCV技術について、Andrej Karpathy氏らの以下講演を抜粋・要約
2021 Tesla: Tesla AI Day
2021 CVPR: Workshop on Autonomous Driving
2020 ScaledML: AI for Full Self-Driving @ ScaledML
2019 Tesla: Tesla Autonomy Day
■ 主に以下3つの観点で要約
1. データ
2. ソフトウェア (Neural Nets)
3. ハードウェア
本資料について
9
Mobility Technologies Co., Ltd.
1 データ
10
Secret
Mobility Technologies Co., Ltd.
11
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s
Mobility Technologies Co., Ltd.
ユーザ車両からのデータ収集
12
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s
■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集
■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集
■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加
■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
Mobility Technologies Co., Ltd.
事例1:標識検出
13
■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある
■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠
された標識の画像を大量に自動収集して学習データセットに加える
https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s
Mobility Technologies Co., Ltd.
■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題
■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発
■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして100万映像
(1.5ペタバイト)を収集
事例2:レーダーの廃止
14
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s
Mobility Technologies Co., Ltd.
■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測
が可能となった
■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って
検証を実施
事例2:レーダーの廃止
15
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s
Mobility Technologies Co., Ltd.
■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発
■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正
■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用
■ 未来情報(hindsight)の活用
■ 同一箇所を走行した複数車両のデータを統合
アノテーション
16
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s
Mobility Technologies Co., Ltd.
4次元空間でのアノテーション
17
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s
��
Mobility Technologies Co., Ltd.
複数車両のデータの統合
18
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5415s
��
Mobility Technologies Co., Ltd.
■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成
■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上
■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる
■ より写実的なレンダリングのため、ニューラルレンダリングも活用
シミュレーションの活用
19
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s
Mobility Technologies Co., Ltd.
2 ソフトウェア (Neural Nets)
20
Mobility Technologies Co., Ltd.
■ 8つのカメラからはそれぞれ1280 x 960@36Hz (12bit/pixel) の映像が得られる
■ backboneには速度と精度のバランスが取れたRegNetを用い、BiFPNでマルチスケールの特徴を抽出
■ backboneを共通化し、タスクごとにヘッドを用意したHydraNetを構成することで推論を効率化すると共に複数人で
の並列開発を実現
各カメラに対する処理
21
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3129s
Mobility Technologies Co., Ltd.
■ HydraNetは1000種類のテンソルを出力し、学習には7万GPU時間を要する
■ 20人程度のエンジニアでメンテ
■ cookiecutterライクに生成した雛形をベースにすることで、エンジニアを介さない自動的なワークフローで新たなタ
スクをネットワークに追加することが可能
開発の効率化
22
https://www.youtube.com/watch?v=hx7BXih7zx8t=881s
Mobility Technologies Co., Ltd.
■ 8個のカメラそれぞれでの推論結果を最後にフュージョンするのでは十分な精度が得られない
■ 推論結果のフュージョンのためには複雑かつ手動でのチューニングが必要となる
複数カメラのフュージョン
23
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3420s
Mobility Technologies Co., Ltd.
■ Transformerにより複数カメラの特徴をフュージョン
■ 出力空間(BEV)をラスタライズしてpositional encodingを生成し、MLPを通してqueryを得る
■ 各カメラの特徴からkeyとvalueを生成し、Transformerにより特徴のフュージョンとBEV変換を実施
複数カメラのフュージョン
24
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3555s
Mobility Technologies Co., Ltd.
特徴空間でのフュージョンの効果
25
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3754s
出力空間でのフュージョン 特徴空間でのフュージョン
��
Mobility Technologies Co., Ltd.
特徴空間でのフュージョンの効果
26
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3783s
��
Mobility Technologies Co., Ltd.
■ 他車両の速度などの推測のためには時間方向の情報が必要となる
■ 適切な進路決定のためには、過去に見た標識や路面標示を覚えておく必要がある
■ フュージョンした複数カメラの特徴量をキューに保存することで過去の情報を参照できるようにする
■ 保存した特徴量をビデオモジュール(後述)に入力し、最後尾にあるヘッドが利用する特徴量を生成
時間方向の情報活用
27
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3830s
Mobility Technologies Co., Ltd.
■ time-basedとspace-basedの両方でプッシュのタイミングを決定
■ time-basedでは一定時間(例:27ms)おきに特徴をプッシュすることで一時的なオクルージョンなどに対応
■ space-basedでは一定距離(例:1m)おきに特徴をプッシュすることで過去の標識や路面表示などを記憶
特徴キューにプッシュするタイミング
28
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3895s
Mobility Technologies Co., Ltd.
■ ビデオモジュールには3D CNNやTransformerも検討したが、最終的にSpatial RNNを採用
■ 車両が移動する2次元平面に相当するメモリを持ち、車両の運動に併せて車両近傍の特徴量だけを更新
■ ニューラルネットは現在の状況に応じて適切にメモリの読み書きを行う(例えば自車両の右側が他車両で隠されてい
た場合はその部分の特徴量を更新しないなど)
ビデオモジュール
29
https://www.youtube.com/watch?v=j0z4FweCy4M&t=4031s
Mobility Technologies Co., Ltd.
ビデオモジュールの効果
30
https://www.youtube.com/watch?v=j0z4FweCy4M&t=4175s
��
Mobility Technologies Co., Ltd.
■ 各カメラの画像をシンプルな単一ネッ
トワークで個別に処理していた状態
から3、4年でここまで成長
■ 今後の改善としては、時空間方向の
特徴量フュージョンをさらに早い段階
で実施することや、最終的な出力
データをよりsparseにしてエッジ処理
におけるレイテンシを小さくすることな
どが挙げられる
アーキテクチャ全体像
31
https://www.youtube.com/watch?v=j0z4FweCy4M&t=4280s
Mobility Technologies Co., Ltd.
ハードウェア
3
32
Mobility Technologies Co., Ltd.
■ 車両でのエッジ推論にはFSD Chipと呼ぶ自社開発の車載チップを利用
■ 2021年6月時点の情報では、学習用のスパコンはNVIDIA A100を5760基搭載したものだった(世界5位程度)
内製車載チップとオンプレスパコン(2021年6月時点)
33
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1173s
Mobility Technologies Co., Ltd.
■ 面積の100%を機械学習とIOが占める専用チップとしてD1 Chipを自社開発
■ D1 Chip内部には1024 GFLOPsのトレーニングノード(64 bitスーパースカラCPU)が354基
■ 新たなフォーマットとしてCFP8(Configurable fp8)を提案*
■ GPUレベルの計算能力、CPUレベルのフレキシビリティ、IO帯域は最新ネットワークスイッチチップの2倍
Dojo(2021年8月発表)
34
https://www.youtube.com/watch?v=j0z4FweCy4M&t=6788s
* https://tesla-cdn.thron.com/static/SBY4B9_tesla-dojo-technology_OPNZ0M.pdf
Mobility Technologies Co., Ltd.
■ D1 Chipを25個並べたTraining Tileがクラスタの1ユニットとなる
■ マルチチップモジュールとしてはおそらく世界最大
■ 演算能力は9 PFLOPs(BF16/CFP8)
Dojo(2021年8月発表)
35
https://www.youtube.com/watch?v=j0z4FweCy4M&t=6923s
Mobility Technologies Co., Ltd.
■ Training Tileを並べたTraining Matrixをさらに並べることで、D1 ChipのクラスタであるExaPODを構築
■ 100万以上のトレーニングノードを持ち演算能力は1 E(エクサ)FLOPを超える
Dojo(2021年8月発表)
36
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7154s
Mobility Technologies Co., Ltd.
■ ユーザが必要とする計算能力に応じてクラスタをDPU(Dojo Processing Unit)と呼ぶ仮想ユニットに分割
■ PyTorchのコードでGPUを指定していた箇所を”dojo”に置き換えるだけでDPUが利用可能
■ コンパイラのバックエンドにはLLVMを利用
Dojo(2021年8月発表)
37
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7239s
Mobility Technologies Co., Ltd.
■ Dojoは2022年稼働予定(ソフトウェアチームが既存のGPUクラスタをturn offするのがゴール)
■ 次世代は10倍の改善を目指す
Dojo(2021年8月発表)
38
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7450s
Mobility Technologies Co., Ltd.
39
One more thing...
Mobility Technologies Co., Ltd.
■ FSDの開発で培った技術を流用してヒューマノイドロボットを開発
■ 人間の物理的な労働の置き換えを狙う
■ 2022年中にプロトタイプを開発
Tesla Bot
40
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7514s
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
41

Teslaにおけるコンピュータビジョン技術の調査

  • 1.
    Mobility Technologies Co.,Ltd. Teslaにおけるコンピュータビジョン技術の調査 2022/1/7 Mobility Technologies 宮澤 一之
  • 2.
    Mobility Technologies Co.,Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw
  • 3.
    Mobility Technologies Co.,Ltd. 3 2014年10月:Autopilot誕生 2015年10月:「バージョン7.0」リリース 2016年01月:Summonベータ版をリリース 2016年10月:第2世代のハードウェアを全車種搭載へ 2018年10月:Autopilotにナビゲーション機能追加 2019年09月:Smart Summon機能リリース 2020年10月:FSDベータ版提供開始 2021年05月:レーダー廃止 2021年10月:FSD最新版リリース 自動運転に関するTeslaの歴史 https://jidounten-lab.com/u_tesla-history#20215LiDAR より抜粋・編集
  • 4.
    Mobility Technologies Co.,Ltd. Autopilot ● Traffic-Aware Cruise Control: Matches the speed of your car to that of the surrounding traffic ● Autosteer: Assists in steering within a clearly marked lane, and uses traffic-aware cruise control Full Self-Driving Capability ● Navigate on Autopilot (Beta): Actively guides your car from a highway’s on-ramp to off-ramp, including suggesting lane changes, navigating interchanges, automatically engaging the turn signal and taking the correct exit ● Auto Lane Change: Assists in moving to an adjacent lane on the highway when Autosteer is engaged ● Autopark: Helps automatically parallel or perpendicular park your car, with a single touch ● Summon: Moves your car in and out of a tight space using the mobile app or key ● Smart Summon: Your car will navigate more complex environments and parking spaces, maneuvering around objects as necessary to come find you in a parking lot. ● Traffic and Stop Sign Control (Beta): Identifies stop signs and traffic lights and automatically slows your car to a stop on approach, with your active supervision ● Upcoming: ○ Autosteer on city streets AutopilotとFSD (Full Self-Driving) 4 https://www.tesla.com/support/autopilot
  • 5.
    Mobility Technologies Co.,Ltd. 車両センサ構成(カメラ x 8、超音波 x 12) 5 https://www.tesla.com/autopilot
  • 6.
    Mobility Technologies Co.,Ltd. “LiDARは無駄な努力だ。LiDARに頼っている人たちに明日はない。将来性がないんだよ。 高価なセンサーだし、そもそもあんなものは要らない。高価な盲腸がたくさんある人と同 じだ。盲腸は1つでも要らない。それを、たくさん身につけているんだ。滑稽だよね” - イー ロン・マスク ■ コストが高い ■ カメラに比べて情報量が少ない ■ 人間は視覚だけで運転できる ■ HD Mapに頼り、LiDARで自己位置推定するアプローチはスケールしない(世界中で高 精度なHD Mapを作り、メンテし続けることは非現実的) TeslaがLiDARを使わない理由 6 https://jp.techcrunch.com/2019/04/23/2019-04-22-anyone-relying-on-lidar-is-doomed-elon-musk-says/
  • 7.
    Mobility Technologies Co.,Ltd. ■ 2016年まではMobileyeがTeslaにビジョン用プロセッサを提供 ■ 2016年5月に発生したAutopilot中の死亡事故を受け、契約を解消 ■ 2016年にJim KellerがVice President of Autopilot Hardware Engineeringに就任 ■ 2017年にAndrej KarpathyがDirector of AI and Autopilot Visionに就任 ビジョン技術の内製化 7
  • 8.
    Mobility Technologies Co.,Ltd. Andrej Karparthy 8 https://karpathy.medium.com/ https://karpathy.ai/
  • 9.
    Mobility Technologies Co.,Ltd. ■ TeslaにおけるCV技術について、Andrej Karpathy氏らの以下講演を抜粋・要約 2021 Tesla: Tesla AI Day 2021 CVPR: Workshop on Autonomous Driving 2020 ScaledML: AI for Full Self-Driving @ ScaledML 2019 Tesla: Tesla Autonomy Day ■ 主に以下3つの観点で要約 1. データ 2. ソフトウェア (Neural Nets) 3. ハードウェア 本資料について 9
  • 10.
    Mobility Technologies Co.,Ltd. 1 データ 10
  • 11.
    Secret Mobility Technologies Co.,Ltd. 11 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s
  • 12.
    Mobility Technologies Co.,Ltd. ユーザ車両からのデータ収集 12 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s ■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集 ■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集 ■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加 ■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
  • 13.
    Mobility Technologies Co.,Ltd. 事例1:標識検出 13 ■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある ■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠 された標識の画像を大量に自動収集して学習データセットに加える https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s
  • 14.
    Mobility Technologies Co.,Ltd. ■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題 ■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発 ■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして100万映像 (1.5ペタバイト)を収集 事例2:レーダーの廃止 14 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s
  • 15.
    Mobility Technologies Co.,Ltd. ■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測 が可能となった ■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って 検証を実施 事例2:レーダーの廃止 15 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s
  • 16.
    Mobility Technologies Co.,Ltd. ■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発 ■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正 ■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用 ■ 未来情報(hindsight)の活用 ■ 同一箇所を走行した複数車両のデータを統合 アノテーション 16 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s
  • 17.
    Mobility Technologies Co.,Ltd. 4次元空間でのアノテーション 17 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s ��
  • 18.
    Mobility Technologies Co.,Ltd. 複数車両のデータの統合 18 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5415s ��
  • 19.
    Mobility Technologies Co.,Ltd. ■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成 ■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上 ■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる ■ より写実的なレンダリングのため、ニューラルレンダリングも活用 シミュレーションの活用 19 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s
  • 20.
    Mobility Technologies Co.,Ltd. 2 ソフトウェア (Neural Nets) 20
  • 21.
    Mobility Technologies Co.,Ltd. ■ 8つのカメラからはそれぞれ1280 x 960@36Hz (12bit/pixel) の映像が得られる ■ backboneには速度と精度のバランスが取れたRegNetを用い、BiFPNでマルチスケールの特徴を抽出 ■ backboneを共通化し、タスクごとにヘッドを用意したHydraNetを構成することで推論を効率化すると共に複数人で の並列開発を実現 各カメラに対する処理 21 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3129s
  • 22.
    Mobility Technologies Co.,Ltd. ■ HydraNetは1000種類のテンソルを出力し、学習には7万GPU時間を要する ■ 20人程度のエンジニアでメンテ ■ cookiecutterライクに生成した雛形をベースにすることで、エンジニアを介さない自動的なワークフローで新たなタ スクをネットワークに追加することが可能 開発の効率化 22 https://www.youtube.com/watch?v=hx7BXih7zx8t=881s
  • 23.
    Mobility Technologies Co.,Ltd. ■ 8個のカメラそれぞれでの推論結果を最後にフュージョンするのでは十分な精度が得られない ■ 推論結果のフュージョンのためには複雑かつ手動でのチューニングが必要となる 複数カメラのフュージョン 23 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3420s
  • 24.
    Mobility Technologies Co.,Ltd. ■ Transformerにより複数カメラの特徴をフュージョン ■ 出力空間(BEV)をラスタライズしてpositional encodingを生成し、MLPを通してqueryを得る ■ 各カメラの特徴からkeyとvalueを生成し、Transformerにより特徴のフュージョンとBEV変換を実施 複数カメラのフュージョン 24 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3555s
  • 25.
    Mobility Technologies Co.,Ltd. 特徴空間でのフュージョンの効果 25 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3754s 出力空間でのフュージョン 特徴空間でのフュージョン ��
  • 26.
    Mobility Technologies Co.,Ltd. 特徴空間でのフュージョンの効果 26 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3783s ��
  • 27.
    Mobility Technologies Co.,Ltd. ■ 他車両の速度などの推測のためには時間方向の情報が必要となる ■ 適切な進路決定のためには、過去に見た標識や路面標示を覚えておく必要がある ■ フュージョンした複数カメラの特徴量をキューに保存することで過去の情報を参照できるようにする ■ 保存した特徴量をビデオモジュール(後述)に入力し、最後尾にあるヘッドが利用する特徴量を生成 時間方向の情報活用 27 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3830s
  • 28.
    Mobility Technologies Co.,Ltd. ■ time-basedとspace-basedの両方でプッシュのタイミングを決定 ■ time-basedでは一定時間(例:27ms)おきに特徴をプッシュすることで一時的なオクルージョンなどに対応 ■ space-basedでは一定距離(例:1m)おきに特徴をプッシュすることで過去の標識や路面表示などを記憶 特徴キューにプッシュするタイミング 28 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3895s
  • 29.
    Mobility Technologies Co.,Ltd. ■ ビデオモジュールには3D CNNやTransformerも検討したが、最終的にSpatial RNNを採用 ■ 車両が移動する2次元平面に相当するメモリを持ち、車両の運動に併せて車両近傍の特徴量だけを更新 ■ ニューラルネットは現在の状況に応じて適切にメモリの読み書きを行う(例えば自車両の右側が他車両で隠されてい た場合はその部分の特徴量を更新しないなど) ビデオモジュール 29 https://www.youtube.com/watch?v=j0z4FweCy4M&t=4031s
  • 30.
    Mobility Technologies Co.,Ltd. ビデオモジュールの効果 30 https://www.youtube.com/watch?v=j0z4FweCy4M&t=4175s ��
  • 31.
    Mobility Technologies Co.,Ltd. ■ 各カメラの画像をシンプルな単一ネッ トワークで個別に処理していた状態 から3、4年でここまで成長 ■ 今後の改善としては、時空間方向の 特徴量フュージョンをさらに早い段階 で実施することや、最終的な出力 データをよりsparseにしてエッジ処理 におけるレイテンシを小さくすることな どが挙げられる アーキテクチャ全体像 31 https://www.youtube.com/watch?v=j0z4FweCy4M&t=4280s
  • 32.
    Mobility Technologies Co.,Ltd. ハードウェア 3 32
  • 33.
    Mobility Technologies Co.,Ltd. ■ 車両でのエッジ推論にはFSD Chipと呼ぶ自社開発の車載チップを利用 ■ 2021年6月時点の情報では、学習用のスパコンはNVIDIA A100を5760基搭載したものだった(世界5位程度) 内製車載チップとオンプレスパコン(2021年6月時点) 33 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1173s
  • 34.
    Mobility Technologies Co.,Ltd. ■ 面積の100%を機械学習とIOが占める専用チップとしてD1 Chipを自社開発 ■ D1 Chip内部には1024 GFLOPsのトレーニングノード(64 bitスーパースカラCPU)が354基 ■ 新たなフォーマットとしてCFP8(Configurable fp8)を提案* ■ GPUレベルの計算能力、CPUレベルのフレキシビリティ、IO帯域は最新ネットワークスイッチチップの2倍 Dojo(2021年8月発表) 34 https://www.youtube.com/watch?v=j0z4FweCy4M&t=6788s * https://tesla-cdn.thron.com/static/SBY4B9_tesla-dojo-technology_OPNZ0M.pdf
  • 35.
    Mobility Technologies Co.,Ltd. ■ D1 Chipを25個並べたTraining Tileがクラスタの1ユニットとなる ■ マルチチップモジュールとしてはおそらく世界最大 ■ 演算能力は9 PFLOPs(BF16/CFP8) Dojo(2021年8月発表) 35 https://www.youtube.com/watch?v=j0z4FweCy4M&t=6923s
  • 36.
    Mobility Technologies Co.,Ltd. ■ Training Tileを並べたTraining Matrixをさらに並べることで、D1 ChipのクラスタであるExaPODを構築 ■ 100万以上のトレーニングノードを持ち演算能力は1 E(エクサ)FLOPを超える Dojo(2021年8月発表) 36 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7154s
  • 37.
    Mobility Technologies Co.,Ltd. ■ ユーザが必要とする計算能力に応じてクラスタをDPU(Dojo Processing Unit)と呼ぶ仮想ユニットに分割 ■ PyTorchのコードでGPUを指定していた箇所を”dojo”に置き換えるだけでDPUが利用可能 ■ コンパイラのバックエンドにはLLVMを利用 Dojo(2021年8月発表) 37 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7239s
  • 38.
    Mobility Technologies Co.,Ltd. ■ Dojoは2022年稼働予定(ソフトウェアチームが既存のGPUクラスタをturn offするのがゴール) ■ 次世代は10倍の改善を目指す Dojo(2021年8月発表) 38 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7450s
  • 39.
    Mobility Technologies Co.,Ltd. 39 One more thing...
  • 40.
    Mobility Technologies Co.,Ltd. ■ FSDの開発で培った技術を流用してヒューマノイドロボットを開発 ■ 人間の物理的な労働の置き換えを狙う ■ 2022年中にプロトタイプを開発 Tesla Bot 40 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7514s
  • 41.