SlideShare a Scribd company logo
1 of 57
Download to read offline
Mobility Technologies Co., Ltd.
Teslaにおけるコンピュータビジョン技術の調査 (2)
- Tesla AI Day 2022 -
2022/11/24
Mobility Technologies 宮澤 一之
Confidential
Mobility Technologies Co., Ltd.
2
自己紹介
宮澤 一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
@kzykmyzw
Mobility Technologies Co., Ltd.
■ TeslaにおけるAI技術開発について発表するイベント
■ Teslaの技術発表イベントは毎年名前を変えていたがAI Dayは2年連続
■ 2022 Tesla AI Day
■ 2021 Tesla AI Day
■ 2020 Tesla Battery Day
■ 2019 Tesla Autonomy Day
■ AI人材の採用が主な目的であり、非常に専門的な発表がされることが特徴
Tesla AI Dayとは?
3
Mobility Technologies Co., Ltd.
Tesla AI Dayとは?
4
Mobility Technologies Co., Ltd.
コンピュータビジョン技術に関するまとめ(〜2021)
5
https://www.slideshare.net/KazuyukiMiyazawa/tesla-250957016
Mobility Technologies Co., Ltd.
One more thing... in 2021
6
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7594s
ヒューマノイドロボットの開発が発表され、ロボットのコスプレをした人が踊る演出に聴衆が困惑
Mobility Technologies Co., Ltd.
Optimus in 2022
7
https://www.youtube.com/watch?v=ODSJsviD_SU&t=1052s
半年で試作機を完成させ、二足歩行をデモ
Teslaに搭載されているのと同
じFSDコンピュータ
Mobility Technologies Co., Ltd.
Optimus in 2022
8
■ イベントでは約1時間を費やしOptimusのハードウェアやソフトウェアを解説
■ これまでにTeslaの車両向けに開発してきた技術の多くをほぼそのまま流用
■ コンピュータビジョン技術ではあまり新しい点がないため本資料では割愛
https://www.youtube.com/watch?v=ODSJsviD_SU&t=1182s
Mobility Technologies Co., Ltd.
■ 2021年は2000だったFSDのカスタマー数が2022年は16万へ
■ 1年で約75000個のNNを学習し、281個をデプロイ
■ プルリク数は18000を超える
ここ1年の Full Self Driving (Beta) 開発
9
7~8分に1個のペースでモデルを作っている
Mobility Technologies Co., Ltd.
FSDの構成要素
10
Training Data
Auto Labeling
Simulation
Data Engine
Neural Networks
Occupancy
Lanes & Objects
Planning
Training Infra
AI Compiler & Inference
✅ ✅
✅
✅ 本資料の範囲
Mobility Technologies Co., Ltd.
FSDの構成要素
11
Training Data
Auto Labeling
Simulation
Data Engine
Neural Networks
Occupancy
Lanes & Objects
Planning
Training Infra
AI Compiler & Inference
✅ ✅
✅
✅ 本資料の範囲
Mobility Technologies Co., Ltd.
■ 空間をグリッドに分割し、グリッドごとに障害物による占有確率を保持
■ 占有確率をセンサの観測値とノイズ量を踏まえてベイズ理論により更新
Occupancy Grid Map
12
センサ
障害物の存在確率高
障害物の存在確率低
Mobility Technologies Co., Ltd.
Tesla車両におけるOccupancy Grid Map
13
https://www.youtube.com/watch?v=ODSJsviD_SU&t=4360s
■ 8つのカメラで車両周囲の3次元Occupancy Grid Mapを生成
■ 各グリッドは占有確率だけでなく車両や歩行者といったセマンティクスも持つ
■ FSDコンピュータで10ミリ秒ごとに生成し、時間方向のフローも計算
Mobility Technologies Co., Ltd.
ネットワーク構成
14
Multicam Query
Embedding
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Attention
Key
Value
Key
Value
Key
Value
Spatial Query
Spatial Features
Temporal Context
Spatial
Frame
Alignment
Deconvolutions
t - 1
t - 2
t - 3
…
…
MLP
MLP
Continuous
Occupancy
Probability
Continuous
Semantics
Occupancy
Occupancy
Flow
Sub-Voxel Shape
Information
3D Semantics
Spatiotemporal
Features
12bit/pix
Mobility Technologies Co., Ltd.
ネットワーク構成
15
Multicam Query
Embedding
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Attention
Key
Value
Key
Value
Key
Value
Spatial Query
Spatial Features
Temporal Context
Spatial
Frame
Alignment
Deconvolutions
t - 1
t - 2
t - 3
…
…
MLP
MLP
Continuous
Occupancy
Probability
Continuous
Semantics
Occupancy
Occupancy
Flow
Sub-Voxel Shape
Information
3D Semantics
Spatiotemporal
Features
各カメラ画像から特徴を抽出
12bit/pix
Mobility Technologies Co., Ltd.
ネットワーク構成
16
Multicam Query
Embedding
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Attention
Key
Value
Key
Value
Key
Value
Spatial Query
Spatial Features
Temporal Context
Spatial
Frame
Alignment
Deconvolutions
t - 1
t - 2
t - 3
…
…
MLP
MLP
Continuous
Occupancy
Probability
Continuous
Semantics
Occupancy
Occupancy
Flow
Sub-Voxel Shape
Information
3D Semantics
Spatiotemporal
Features
マルチカメラの情報をフュージョン
12bit/pix
Mobility Technologies Co., Ltd.
ネットワーク構成
17
Multicam Query
Embedding
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Attention
Key
Value
Key
Value
Key
Value
Spatial Query
Spatial Features
Temporal Context
Spatial
Frame
Alignment
Deconvolutions
t - 1
t - 2
t - 3
…
…
MLP
MLP
Continuous
Occupancy
Probability
Continuous
Semantics
Occupancy
Occupancy
Flow
Sub-Voxel Shape
Information
3D Semantics
Spatiotemporal
Features
車両の軌跡を使って過去フレームの情報を
現在フレームにフュージョン
12bit/pix
Mobility Technologies Co., Ltd.
ネットワーク構成
18
Multicam Query
Embedding
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Rectify RegNets BiFPNs
Attention
Key
Value
Key
Value
Key
Value
Spatial Query
Spatial Features
Temporal Context
Spatial
Frame
Alignment
Deconvolutions
t - 1
t - 2
t - 3
…
…
MLP
MLP
Continuous
Occupancy
Probability
Continuous
Semantics
Occupancy
Occupancy
Flow
Sub-Voxel Shape
Information
3D Semantics
Spatiotemporal
Features
特徴量から出力データを生成
MLPに任意座標を
入力し、占有率とセ
マンティクスを得る
12bit/pix
Mobility Technologies Co., Ltd.
路面形状の推定
19
https://www.youtube.com/watch?v=ODSJsviD_SU&t=4598s
■ Occupancy Grid Map生成時に路面の3次元形状も推定
■ 下り坂などにおいて減速できるよう制御時に利用
Mobility Technologies Co., Ltd.
NeRFとの融合
20
https://www.youtube.com/watch?v=ODSJsviD_SU&t=4730s
ネットワークから出力されたボリュームデータをNeRFへの入力とする
Mobility Technologies Co., Ltd.
FSDの構成要素
21
Training Data
Auto Labeling
Simulation
Data Engine
Neural Networks
Occupancy
Lanes & Objects
Planning
Training Infra
AI Compiler & Inference
✅ ✅
✅
✅ 本資料の範囲
Mobility Technologies Co., Ltd.
レーン検出における課題
22
https://www.youtube.com/watch?v=ODSJsviD_SU&t=5165s
■ 初期においてはインスタントセグメンテーションによりレーンを検出していた
■ 複雑な道路形状に対してはうまく検出できないという課題があった
■ 複雑なシーンにおいても一連のレーンを検出し接続関係を知る必要がある
Mobility Technologies Co., Ltd.
ネットワーク構成
23
各カメラからの特徴抽出、マルチカメラの
フュージョン、時間方向のフュージョンは
Occupancy Grid Map生成と共通
Lane Guidance
Module
Navigation Map
Autoregressive
Decoder
Lane Instances
Adjacency Matrix
Mobility Technologies Co., Ltd.
地図に含まれる情報を追加でエ
ンコードする
● 道路レベルの構造
● ナビルート
● レーン数・構造
● バスレーンか否か
● etc
ネットワーク構成
24
Lane Guidance
Module
Navigation Map
Autoregressive
Decoder
Lane Instances
Adjacency Matrix
Mobility Technologies Co., Ltd.
レーン構造の理解を画像キャプ
ショニングの問題と捉え、言語モ
デルを使って解く
ネットワーク構成
25
Lane Guidance
Module
Navigation Map
Autoregressive
Decoder
Lane Instances
Adjacency Matrix
Mobility Technologies Co., Ltd.
予測対象 -レーングラフ-
26
https://www.youtube.com/watch?v=ODSJsviD_SU&t=5334s
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
27
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
28
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 31
グリッド分割された空間のインデック
スとしてノード位置を推定(実際には
coarse-to-fineに行う)
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
29
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 31
“Start”
ノードの接続タイプを推定(この場合
は ”Start” で開始位置を表す)
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
30
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 31
“Start”
ノードの属性を推定(開始位置のため
属性はなし)
<null>
<null>
<null>
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
31
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 31
“Start”
<null>
<null>
<null>
Embed
Embed
Embed
Embed
それぞれの出力をエンコードしたものを結合
したテンソルをレーングラフを表す言語の
Wordとする
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
32
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 22
同様の処理を繰り返し、次のノード位
置を推定
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
33
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 22
“Continue” 直前のレーンからの「継続」
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
34
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 22
“Continue”
<null>
<null>
Mx1, Mx2, …
レーン形状を表すスプライン曲線の
係数を推定
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
35
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 22
“Continue”
<null>
<null>
Mx1, Mx2, …
Embed
Embed
Embed
Embed
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
36
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 16
“Continue”
<null>
<null>
Mx1, Mx2, …
Embed
Embed
Embed
Embed
推定対象エリアの終端に達するまで同様の
処理を繰り返す
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
37
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 29
“Fork” 他のノードからの「分岐」
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
38
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 29
“Fork”
index: 0
<null>
Mx1, Mx2, …
分岐元となるノードのインデックスを推
定
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
39
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
index: 29
“Fork”
index: 0
<null>
Mx1, Mx2, …
Embed
Embed
Embed
Embed
“Language of Lanes”
Mobility Technologies Co., Ltd.
言語モデルによるレーングラフ推定
40
Vector Space Encoding
Self Attention
Cross Attention
Self Attention
Point Predictor
Cross Attention
Self Attention
Topology Type Predictor
Spline Coefficient Predictor
Cross Attention
Self Attention
Fork Point Predictor
Merge Point Predictor
“End of sentence”
…
…
…
…
…
…
…
全ての推定が終了
“Language of Lanes”
Mobility Technologies Co., Ltd.
レーングラフ推定
41
https://www.youtube.com/watch?v=ODSJsviD_SU&t=5585s
Mobility Technologies Co., Ltd.
FSDの構成要素
42
Training Data
Auto Labeling
Simulation
Data Engine
Neural Networks
Occupancy
Lanes & Objects
Planning
Training Infra
AI Compiler & Inference
✅ ✅
✅
✅ 本資料の範囲
Mobility Technologies Co., Ltd.
いかにしてレーングラフの教師ラベルを作成するか
43
■ 手動・自動ラベリングの工夫により、年を追うごとにスループットが100倍に
■ 現在は複数の走行データで走行空間を再構成することで自動ラベリングを実施
■ 手動で500万時間を要した走行データ1万件のラベリングがクラスタで12時間
https://www.youtube.com/watch?v=ODSJsviD_SU&t=6048s
Mobility Technologies Co., Ltd.
複数の走行データによる走行空間の再構成
44
■ 各走行データにおいて、カメラとIMUを使ったVisual-Inertial Odometryにより車両の
高精度な軌跡と路面の3次元形状を推定
■ 同エリアの推定結果を大量に統合することで広範なエリアをもれなく再構成
■ 最後に人間が結果を確認・修正
https://www.youtube.com/watch?v=ODSJsviD_SU&t=6146s
車両
Mobility Technologies Co., Ltd.
新たな走行データに対する自動ラベリング
45
■ 再構成が完了したエリアでは新たな走行データに対して自動的にレーングラフをラベ
リング
■ 1つの走行データに対する処理時間は約30分(手動ラベリングだと数時間)
■ 手動ラベリングが難しい悪条件のデータでも正確なラベリングが可能
車両
自動生成されたラベル
https://www.youtube.com/watch?v=ODSJsviD_SU&t=6237s
Mobility Technologies Co., Ltd.
FSDの構成要素
46
Training Data
Auto Labeling
Simulation
Data Engine
Neural Networks
Occupancy
Lanes & Objects
Planning
Training Infra
AI Compiler & Inference
✅ ✅
✅
✅ 本資料の範囲
Mobility Technologies Co., Ltd.
シミュレータによるデータ生成
47
https://www.youtube.com/watch?v=ODSJsviD_SU&t=6517s
■ レーングラフのラベルデータからシミュレーションによりデータを自動生成
■ サンフランシスコ全域の道路のデータを一人で2週間で生成可能
■ レーングラフを編集することでさらにバリエーションを増やせる
Mobility Technologies Co., Ltd.
単一のレーングラフからの多様なシーンの生成
48
https://www.youtube.com/watch?v=ODSJsviD_SU&t=6615s
Mobility Technologies Co., Ltd.
FSDの構成要素
49
Training Data
Auto Labeling
Simulation
Data Engine
Neural Networks
Occupancy
Lanes & Objects
Planning
Training Infra
AI Compiler & Inference
✅ ✅
✅
✅ 本資料の範囲
Mobility Technologies Co., Ltd.
認識困難なシーンのマイニング
50
■ 例えば曲がり角の駐車車両は右左折のために待機中の車両との区別が難しい
■ 当該シーンを収集済みデータからマイニングして126件を検証データ、13900件を学
習データに追加
■ エンジニアリングコストをかけることなくデータの追加が可能
駐車車両を曲がり角で
待機中の車両と誤認識
https://www.youtube.com/watch?v=ODSJsviD_SU&t=6827s
Mobility Technologies Co., Ltd.
データエンジン
51
https://www.youtube.com/watch?v=ODSJsviD_SU&t=6975s
Mobility Technologies Co., Ltd.
FSDの構成要素
52
Training Data
Auto Labeling
Simulation
Data Engine
Neural Networks
Occupancy
Lanes & Objects
Planning
Training Infra
AI Compiler & Inference
✅ ✅
✅
✅ 本資料の範囲
Mobility Technologies Co., Ltd.
Dojo Cabinet
53
■ 機械学習に特化した自社開発のD1 Chipを使ったクラスタDojoを開発中
■ D1 Chipを25個並べたTraining Tileを6個並べたSystem Trayを2個並べたDojo
Cabinetを試作
■ 試験で2Mワットの電流を流し、変電所をダウンさせて市から怒られる
Training Tile
System Tray
https://www.youtube.com/watch?v=ODSJsviD_SU&t=7720s
Mobility Technologies Co., Ltd.
性能
54
■ BatchNormで必要となるプロセッサ間通信における遅延はGPUの1/30
■ NVIDIA A100比で自動ラベリングは3.2倍、Occupancyは4.4倍高速化(予定)
■ 1つのTraining Tileで6GPU BOX分の性能に匹敵し、コストは1GPU BOX以下
https://www.youtube.com/watch?v=ODSJsviD_SU&t=8357s
Mobility Technologies Co., Ltd.
ExaPOD
55
■ Dojo Cabinetを並べたExaPODで1.1 EFLOPSの計算性能を実現
■ ExaPODは2023年Q1稼働予定で、さらに将来的にExaPODを7つに増やす
https://www.youtube.com/watch?v=ODSJsviD_SU&t=8650s
Mobility Technologies Co., Ltd.
■ 昨年のAI Dayからの差分としてOptimusが目立っていたものの、FSDの性能改善に向
けてソフト・ハード両面で大きく進歩している
■ 垂直統合型企業の強みを最大限に生かし、最適化やスケーラビリティを徹底的に突
き詰めている(そしてスケールのレベルが尋常じゃない)
■ レーン検出をセグメンテーションから言語モデルに切り替えるなど、既存の枠組みを
大きく変えるチャレンジもしている(実際にはゼロから作り直すようなことはせず、既
存のバックボーンモデルの流用など少ないエンジニアリングコストで切り替えることが
できているはず)
■ Dojoが完成したら機械学習に特化したクラウドサービスやりそう(質疑応答でもElon
Muskが匂わせ)
まとめ
56
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
57

More Related Content

What's hot

モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争Yosuke Shinya
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...Kazuyuki Miyazawa
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用Hiroyuki Masuda
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知Hideo Terada
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment AnythingDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...Deep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 

What's hot (20)

モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 

Similar to Teslaにおけるコンピュータビジョン技術の調査 (2)

Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングMasao Tsukiyama
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
Microsoft AI セミナー - Microsoft AI Platform
Microsoft AI セミナー - Microsoft AI PlatformMicrosoft AI セミナー - Microsoft AI Platform
Microsoft AI セミナー - Microsoft AI PlatformDaiyu Hatakeyama
 
『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019]
『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019]『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019]
『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019]DeNA
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏Daisuke Ikeda
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on AzureDaiyu Hatakeyama
 
AWS re:Inforce2019 re:Cap LT
AWS re:Inforce2019 re:Cap LTAWS re:Inforce2019 re:Cap LT
AWS re:Inforce2019 re:Cap LTHibino Hisashi
 
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタックONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタックKentaro Ebisawa
 
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングTakashi Suzuki
 
.NET の過去、現在、そして未来
.NET の過去、現在、そして未来.NET の過去、現在、そして未来
.NET の過去、現在、そして未来Akira Inoue
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ Brocade
 
Connect 2018 in Koriyama, with UDC - Microsoft AI Session
Connect 2018 in Koriyama, with UDC - Microsoft AI SessionConnect 2018 in Koriyama, with UDC - Microsoft AI Session
Connect 2018 in Koriyama, with UDC - Microsoft AI SessionDaiyu Hatakeyama
 
AI を道具として使うための基礎知識 - Microsoft AI
AI を道具として使うための基礎知識 - Microsoft AIAI を道具として使うための基礎知識 - Microsoft AI
AI を道具として使うための基礎知識 - Microsoft AIDaiyu Hatakeyama
 
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介Denodo
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップDaiyu Hatakeyama
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際Tetsutaro Watanabe
 

Similar to Teslaにおけるコンピュータビジョン技術の調査 (2) (20)

Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
Microsoft AI セミナー - Microsoft AI Platform
Microsoft AI セミナー - Microsoft AI PlatformMicrosoft AI セミナー - Microsoft AI Platform
Microsoft AI セミナー - Microsoft AI Platform
 
『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019]
『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019]『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019]
『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019]
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure
 
AWS re:Inforce2019 re:Cap LT
AWS re:Inforce2019 re:Cap LTAWS re:Inforce2019 re:Cap LT
AWS re:Inforce2019 re:Cap LT
 
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタックONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
 
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
 
.NET の過去、現在、そして未来
.NET の過去、現在、そして未来.NET の過去、現在、そして未来
.NET の過去、現在、そして未来
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
Connect 2018 in Koriyama, with UDC - Microsoft AI Session
Connect 2018 in Koriyama, with UDC - Microsoft AI SessionConnect 2018 in Koriyama, with UDC - Microsoft AI Session
Connect 2018 in Koriyama, with UDC - Microsoft AI Session
 
拡散する画像生成.pdf
拡散する画像生成.pdf拡散する画像生成.pdf
拡散する画像生成.pdf
 
AI を道具として使うための基礎知識 - Microsoft AI
AI を道具として使うための基礎知識 - Microsoft AIAI を道具として使うための基礎知識 - Microsoft AI
AI を道具として使うための基礎知識 - Microsoft AI
 
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 

More from Kazuyuki Miyazawa

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility TechnologiesKazuyuki Miyazawa
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionKazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact DetectionKazuyuki Miyazawa
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 

More from Kazuyuki Miyazawa (10)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 

Teslaにおけるコンピュータビジョン技術の調査 (2)

  • 1. Mobility Technologies Co., Ltd. Teslaにおけるコンピュータビジョン技術の調査 (2) - Tesla AI Day 2022 - 2022/11/24 Mobility Technologies 宮澤 一之
  • 2. Confidential Mobility Technologies Co., Ltd. 2 自己紹介 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw
  • 3. Mobility Technologies Co., Ltd. ■ TeslaにおけるAI技術開発について発表するイベント ■ Teslaの技術発表イベントは毎年名前を変えていたがAI Dayは2年連続 ■ 2022 Tesla AI Day ■ 2021 Tesla AI Day ■ 2020 Tesla Battery Day ■ 2019 Tesla Autonomy Day ■ AI人材の採用が主な目的であり、非常に専門的な発表がされることが特徴 Tesla AI Dayとは? 3
  • 4. Mobility Technologies Co., Ltd. Tesla AI Dayとは? 4
  • 5. Mobility Technologies Co., Ltd. コンピュータビジョン技術に関するまとめ(〜2021) 5 https://www.slideshare.net/KazuyukiMiyazawa/tesla-250957016
  • 6. Mobility Technologies Co., Ltd. One more thing... in 2021 6 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7594s ヒューマノイドロボットの開発が発表され、ロボットのコスプレをした人が踊る演出に聴衆が困惑
  • 7. Mobility Technologies Co., Ltd. Optimus in 2022 7 https://www.youtube.com/watch?v=ODSJsviD_SU&t=1052s 半年で試作機を完成させ、二足歩行をデモ Teslaに搭載されているのと同 じFSDコンピュータ
  • 8. Mobility Technologies Co., Ltd. Optimus in 2022 8 ■ イベントでは約1時間を費やしOptimusのハードウェアやソフトウェアを解説 ■ これまでにTeslaの車両向けに開発してきた技術の多くをほぼそのまま流用 ■ コンピュータビジョン技術ではあまり新しい点がないため本資料では割愛 https://www.youtube.com/watch?v=ODSJsviD_SU&t=1182s
  • 9. Mobility Technologies Co., Ltd. ■ 2021年は2000だったFSDのカスタマー数が2022年は16万へ ■ 1年で約75000個のNNを学習し、281個をデプロイ ■ プルリク数は18000を超える ここ1年の Full Self Driving (Beta) 開発 9 7~8分に1個のペースでモデルを作っている
  • 10. Mobility Technologies Co., Ltd. FSDの構成要素 10 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  • 11. Mobility Technologies Co., Ltd. FSDの構成要素 11 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  • 12. Mobility Technologies Co., Ltd. ■ 空間をグリッドに分割し、グリッドごとに障害物による占有確率を保持 ■ 占有確率をセンサの観測値とノイズ量を踏まえてベイズ理論により更新 Occupancy Grid Map 12 センサ 障害物の存在確率高 障害物の存在確率低
  • 13. Mobility Technologies Co., Ltd. Tesla車両におけるOccupancy Grid Map 13 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4360s ■ 8つのカメラで車両周囲の3次元Occupancy Grid Mapを生成 ■ 各グリッドは占有確率だけでなく車両や歩行者といったセマンティクスも持つ ■ FSDコンピュータで10ミリ秒ごとに生成し、時間方向のフローも計算
  • 14. Mobility Technologies Co., Ltd. ネットワーク構成 14 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 12bit/pix
  • 15. Mobility Technologies Co., Ltd. ネットワーク構成 15 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 各カメラ画像から特徴を抽出 12bit/pix
  • 16. Mobility Technologies Co., Ltd. ネットワーク構成 16 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features マルチカメラの情報をフュージョン 12bit/pix
  • 17. Mobility Technologies Co., Ltd. ネットワーク構成 17 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 車両の軌跡を使って過去フレームの情報を 現在フレームにフュージョン 12bit/pix
  • 18. Mobility Technologies Co., Ltd. ネットワーク構成 18 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 特徴量から出力データを生成 MLPに任意座標を 入力し、占有率とセ マンティクスを得る 12bit/pix
  • 19. Mobility Technologies Co., Ltd. 路面形状の推定 19 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4598s ■ Occupancy Grid Map生成時に路面の3次元形状も推定 ■ 下り坂などにおいて減速できるよう制御時に利用
  • 20. Mobility Technologies Co., Ltd. NeRFとの融合 20 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4730s ネットワークから出力されたボリュームデータをNeRFへの入力とする
  • 21. Mobility Technologies Co., Ltd. FSDの構成要素 21 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  • 22. Mobility Technologies Co., Ltd. レーン検出における課題 22 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5165s ■ 初期においてはインスタントセグメンテーションによりレーンを検出していた ■ 複雑な道路形状に対してはうまく検出できないという課題があった ■ 複雑なシーンにおいても一連のレーンを検出し接続関係を知る必要がある
  • 23. Mobility Technologies Co., Ltd. ネットワーク構成 23 各カメラからの特徴抽出、マルチカメラの フュージョン、時間方向のフュージョンは Occupancy Grid Map生成と共通 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix
  • 24. Mobility Technologies Co., Ltd. 地図に含まれる情報を追加でエ ンコードする ● 道路レベルの構造 ● ナビルート ● レーン数・構造 ● バスレーンか否か ● etc ネットワーク構成 24 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix
  • 25. Mobility Technologies Co., Ltd. レーン構造の理解を画像キャプ ショニングの問題と捉え、言語モ デルを使って解く ネットワーク構成 25 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix
  • 26. Mobility Technologies Co., Ltd. 予測対象 -レーングラフ- 26 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5334s
  • 27. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 27 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor “Language of Lanes”
  • 28. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 28 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 グリッド分割された空間のインデック スとしてノード位置を推定(実際には coarse-to-fineに行う) “Language of Lanes”
  • 29. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 29 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” ノードの接続タイプを推定(この場合 は ”Start” で開始位置を表す) “Language of Lanes”
  • 30. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 30 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” ノードの属性を推定(開始位置のため 属性はなし) <null> <null> <null> “Language of Lanes”
  • 31. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 31 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” <null> <null> <null> Embed Embed Embed Embed それぞれの出力をエンコードしたものを結合 したテンソルをレーングラフを表す言語の Wordとする “Language of Lanes”
  • 32. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 32 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 同様の処理を繰り返し、次のノード位 置を推定 “Language of Lanes”
  • 33. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 33 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” 直前のレーンからの「継続」 “Language of Lanes”
  • 34. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 34 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” <null> <null> Mx1, Mx2, … レーン形状を表すスプライン曲線の 係数を推定 “Language of Lanes”
  • 35. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 35 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” <null> <null> Mx1, Mx2, … Embed Embed Embed Embed “Language of Lanes”
  • 36. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 36 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 16 “Continue” <null> <null> Mx1, Mx2, … Embed Embed Embed Embed 推定対象エリアの終端に達するまで同様の 処理を繰り返す “Language of Lanes”
  • 37. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 37 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” 他のノードからの「分岐」 “Language of Lanes”
  • 38. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 38 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” index: 0 <null> Mx1, Mx2, … 分岐元となるノードのインデックスを推 定 “Language of Lanes”
  • 39. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 39 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” index: 0 <null> Mx1, Mx2, … Embed Embed Embed Embed “Language of Lanes”
  • 40. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 40 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor “End of sentence” … … … … … … … 全ての推定が終了 “Language of Lanes”
  • 41. Mobility Technologies Co., Ltd. レーングラフ推定 41 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5585s
  • 42. Mobility Technologies Co., Ltd. FSDの構成要素 42 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  • 43. Mobility Technologies Co., Ltd. いかにしてレーングラフの教師ラベルを作成するか 43 ■ 手動・自動ラベリングの工夫により、年を追うごとにスループットが100倍に ■ 現在は複数の走行データで走行空間を再構成することで自動ラベリングを実施 ■ 手動で500万時間を要した走行データ1万件のラベリングがクラスタで12時間 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6048s
  • 44. Mobility Technologies Co., Ltd. 複数の走行データによる走行空間の再構成 44 ■ 各走行データにおいて、カメラとIMUを使ったVisual-Inertial Odometryにより車両の 高精度な軌跡と路面の3次元形状を推定 ■ 同エリアの推定結果を大量に統合することで広範なエリアをもれなく再構成 ■ 最後に人間が結果を確認・修正 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6146s 車両
  • 45. Mobility Technologies Co., Ltd. 新たな走行データに対する自動ラベリング 45 ■ 再構成が完了したエリアでは新たな走行データに対して自動的にレーングラフをラベ リング ■ 1つの走行データに対する処理時間は約30分(手動ラベリングだと数時間) ■ 手動ラベリングが難しい悪条件のデータでも正確なラベリングが可能 車両 自動生成されたラベル https://www.youtube.com/watch?v=ODSJsviD_SU&t=6237s
  • 46. Mobility Technologies Co., Ltd. FSDの構成要素 46 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  • 47. Mobility Technologies Co., Ltd. シミュレータによるデータ生成 47 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6517s ■ レーングラフのラベルデータからシミュレーションによりデータを自動生成 ■ サンフランシスコ全域の道路のデータを一人で2週間で生成可能 ■ レーングラフを編集することでさらにバリエーションを増やせる
  • 48. Mobility Technologies Co., Ltd. 単一のレーングラフからの多様なシーンの生成 48 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6615s
  • 49. Mobility Technologies Co., Ltd. FSDの構成要素 49 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  • 50. Mobility Technologies Co., Ltd. 認識困難なシーンのマイニング 50 ■ 例えば曲がり角の駐車車両は右左折のために待機中の車両との区別が難しい ■ 当該シーンを収集済みデータからマイニングして126件を検証データ、13900件を学 習データに追加 ■ エンジニアリングコストをかけることなくデータの追加が可能 駐車車両を曲がり角で 待機中の車両と誤認識 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6827s
  • 51. Mobility Technologies Co., Ltd. データエンジン 51 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6975s
  • 52. Mobility Technologies Co., Ltd. FSDの構成要素 52 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  • 53. Mobility Technologies Co., Ltd. Dojo Cabinet 53 ■ 機械学習に特化した自社開発のD1 Chipを使ったクラスタDojoを開発中 ■ D1 Chipを25個並べたTraining Tileを6個並べたSystem Trayを2個並べたDojo Cabinetを試作 ■ 試験で2Mワットの電流を流し、変電所をダウンさせて市から怒られる Training Tile System Tray https://www.youtube.com/watch?v=ODSJsviD_SU&t=7720s
  • 54. Mobility Technologies Co., Ltd. 性能 54 ■ BatchNormで必要となるプロセッサ間通信における遅延はGPUの1/30 ■ NVIDIA A100比で自動ラベリングは3.2倍、Occupancyは4.4倍高速化(予定) ■ 1つのTraining Tileで6GPU BOX分の性能に匹敵し、コストは1GPU BOX以下 https://www.youtube.com/watch?v=ODSJsviD_SU&t=8357s
  • 55. Mobility Technologies Co., Ltd. ExaPOD 55 ■ Dojo Cabinetを並べたExaPODで1.1 EFLOPSの計算性能を実現 ■ ExaPODは2023年Q1稼働予定で、さらに将来的にExaPODを7つに増やす https://www.youtube.com/watch?v=ODSJsviD_SU&t=8650s
  • 56. Mobility Technologies Co., Ltd. ■ 昨年のAI Dayからの差分としてOptimusが目立っていたものの、FSDの性能改善に向 けてソフト・ハード両面で大きく進歩している ■ 垂直統合型企業の強みを最大限に生かし、最適化やスケーラビリティを徹底的に突 き詰めている(そしてスケールのレベルが尋常じゃない) ■ レーン検出をセグメンテーションから言語モデルに切り替えるなど、既存の枠組みを 大きく変えるチャレンジもしている(実際にはゼロから作り直すようなことはせず、既 存のバックボーンモデルの流用など少ないエンジニアリングコストで切り替えることが できているはず) ■ Dojoが完成したら機械学習に特化したクラウドサービスやりそう(質疑応答でもElon Muskが匂わせ) まとめ 56