colla_0225新趨勢自動駕駛 to FX.pdf

新趨勢:自動駕駛感測技術
1
北大企研碩二黃湘潔、台大財金碩一彭耀增、政大財管碩一楊皇遠、台大外文/經濟五陳彥晴、台大會計二榮宗元
2023/02/25

Agenda
• 自動駕駛準則
• 雷射光感測方案
1.雷達
2.光達
• 偽光達感測方案
1. CNN卷積神經網路介紹
2.算法架構
• 自動駕駛系統整合
1.Mobileye
2.特斯拉純視覺算法
• 自動駕駛技術未來趨勢
2

Agenda
3
結論
• 自動駕駛由SAE(美國汽車工程師協會)分為 L0 - L5 共六級，目前市場主流以 L1、L2 為主，顯示該產業及技術仍有較
大發展空間。
• 車用雷達擁有不受惡劣天氣影響的優勢，目前以毫米波雷達為市場主流，成像技術則以 4D 雷達為主要發展對象，反
映高解析度及全景視角為未來趨勢。
• 車用光達雖然在市場上已經有非常成熟的方案，但隨著各項技術的進步，未來 5 年仍會有非常高的市場成長率:
1.發射器的部分，因光線品質原因，EEL 逐漸被 VCSEL 取代，未來結合兩者優勢的 PCSEL 亦有可能搶占發射器市場。
2.飛行時間原理的部分，目前 DTOF 技術已經飽和，強調近距離的 ITOF 及對眼睛低威脅的 FMCW 技術將開始發展。
3.波長選擇部分，NIR 波長因傷害眼睛問題，開始有廠商轉往長波長的 SWIR 發展以因應未來趨勢。
• 純視覺感知可利用算法有效解決物體感測、深度估計等建立三維模型必要元素，其中卷積神經網路能夠有效提取部位特徵，並且
降低無謂的運算，所以相關算法常以卷積神經網路作為基礎在進行演變。
• 特斯拉目前以純視覺為主，著重於原始照片轉 3D 向量空間的技術。然而，特斯拉可能於今年將高解析度雷達加入自動駕駛系統。
• Mobileye 除純視覺系統外，增加冗餘 (Redundancy) 的非視覺系統，擁有兩個獨立系統提高安全性，成為自動駕駛新技術。

自動駕駛分級及市場概況
1
4

資料來源 :
自動駕駛分級標準
5
SAE(美國汽車工程師協會)、桃樂比大叔選讀筆記、Nvidia、關鍵評論網

資料來源 :
• 2024 年全球 L1-L5 級自動駕駛汽車出貨量預計將達到約 5,425 萬輛，L1 和 L2 自動駕駛在 2024 年的市占率預計分別
為 64.4%和 34.0% ，顯示L1-L2 級自動駕駛三年內仍是市場主流。但隨著各大車廠則陸續開拓L3-L5 級的自動駕駛技
術，高階的系統運算能力以及感測方案更顯重要。
• 2021 年全球自動駕駛滲透率為 48.4%，但主流仍是 Level 1/2 等級，Level 3 等級以上系統比重不及 4%；預計到
2027 年，自動駕駛滲透率將進一步提高到 62.2%，Level 3 等級以上的自動駕駛系統滲透率達到 23.2%，預計在
2035 年，全球將有七成以上的車輛搭載自動駕駛系統，以 Level 3 等級以上的系統為主。
市面上以L2以下為主流 L3以上仍有發展空間
6
圖1-1: 各等級自動駕駛出貨量圖1-2: 各等級自動駕駛滲透率
-5000
5000
15000
25000
35000
45000
55000
2021 2022 2023 2024
L3級自動駕駛 L2級自動駕駛 L1級自動駕駛
(千輛)
0%
20%
40%
60%
80%
2021 2027 2035
L1/2 L3 L4/5
IDC、資誠科技產業研究中心

資料來源 :
• 車用感測器主要分為雷達、光達(雷射雷達) 、及鏡頭。其中，車用雷達主要分為超音波雷達及電磁波雷達，電磁波雷
達包含紅外線雷達及毫米波雷達。
• 等級越高的駕駛系統需要更多及更精細的感測器，Level 3以上的自駕系統通常會配有更多的毫米波雷達及光達，並增
設4D雷達。
• 車用雷達包含前向雷達及後向雷達，由於後向雷達只需偵測是否有物體存在，規格及精確度相較前向雷達要求較少。
車用雷達介紹
9
EDN Taiwan、陽明交通大學機構典藏、EETimes、大和有話說、資策會
鏡頭光達毫米波雷達紅外線雷達超音波雷達
Level 1 2 0 1 0 6
Level 2 7 0 1 0 8
Level 3 8 1 5 0 8
Level 4 9 2 5 1 8
Level 5 9 4 5 1 8
表2-1-1: 不同等級下的車用感測器數量圖2-1-1: 不同等級下的車用感測器數量

資料來源 :
• 超音波雷達及電磁波雷達向外發出超音波或電磁波，並根據接收回波與傳送之間的時間差測算距離，取得偵測目標的
具體位置。此外，雷達也透過不同的角度獲得分辨目標尺寸和形狀的能力。
• 雷達的優勢在於不受惡劣天氣的影響，在黑暗中能夠運作。其中，毫米波雷達在霧、雨、雪的穿透性強，更具技術優
勢。
• 毫米波雷達的探測距離較超音波雷達及紅外線雷遠，並擁有比光達低的成本。
• 超音坡及紅外線適合運用於短距離的精準測量，包含感知環境和定位的利器(發現空著的停車位)以及倒車輔助。毫米
波雷達則被廣泛應用於各項車載系統。
超音波雷達及電磁波雷達介紹
10
EDN Taiwan、iThome、大和有話說
超音波雷達紅外線雷達毫米波雷達光達鏡頭
探測距離很近近遠遠遠
環境限制因素溫度風/沙塵甚少雨天光線
溫度穩定度弱一般強強強
車速測量能力一般雨雪下弱強弱弱
表2-1-2: 車用感測器的比較

資料來源 :
• 毫米波雷達相較以音速運行的超音波，能產生更窄的波束以精確判斷前方車輛與障礙物的方位。此外，毫米波雷達的
頻率較紅外線低，波長較長，探測距離更遠，繞射能力更強，穿透能力更強。
• 毫米波雷達的頻段主要集中於24GHz及77GHz。由於77GHz的掃描距離及頻寬更高，逐漸成為國際標準。
• 目前，毫米波雷達在2020年以38億美元的產值作為自動駕駛高階感測器的龍頭，並有望以19%的CAGR在2025年成
長為91億美元。儘管光達被視為毫米波雷達的競爭對手，2025年的預估產值為17億，仍遠不及毫米波雷達。
毫米波雷達具技術優勢佔市場主流地位
11
圖2-1-2: 電磁波的波長及頻率圖2-1-3: 車用感測器 market size 預估
0
5
10
15
20
0
20
40
60
80
100
2020 2021 2022 2023 2024 2025
毫米波雷達鏡頭光達 (右軸)
Wavelength(nm)
10!
10" 10#
10$"
紫外線紅外線無線電波
可見光長波無線電
X射線
Y射線
10%&
10$
毫米波
10!' 10$#
10$!
10$'
10(
10'
波長增加
頻率減少
Frequency(Hz)
IPCB、新通訊、Yole Research
(億美元)
(億美元)

資料來源 :
• 雷達的成像技術從2D、3D發展成4D，2D雷達以距離及方位角(Range Azimuth)為基礎，3D雷達則加上速度
(Velocity)，但此時雷達仍受限於低分辨率及角度。
• 4D雷達加入高度(Elevation) ，讓感測器能偵測垂直面，檢測不同水平面上的運動和靜止物體，擴大範圍讓4D雷達擁
有更密集的點雲，導致其擁有高解析度，高角解析度（ 1°方位角），可更加精確的描繪物體輪廓，並產生環向視角。
• 4D雷達常見的應用場景包含：
1.偵測天橋、紅綠燈、路牌
2.當不同高度的物體混雜時（例如行人及卡車），能判斷不同物體的靜止狀態、移動速度或方向
3.測量隧道的長度和寬度，並判斷隧道裡其他交通參與者的行為軌跡
雷達新成像技術-4D高清成像
12
博客園、FutureBridge、自行整理
圖2-1-4: 現有雷達及車用雷達示意圖
3D雷達
80° 60° 18° 100°
4D雷達

資料來源 :
• 雷達發射訊號的種類可分為脈衝雷達和連續波雷達，其中，毫米波雷達偵測物體主要使用以都普勒效應為基礎的頻率
調變連續波雷達(FMCW)。
• FMCW 雷達由 TX 天線發射名為 chirp 的訊號，並由 RX 天線接收反射波，隨著時間變化，chirp 的上升速度將線性增
加，藉由 TX 和 RX 的頻率變化，將產生出一組 IR 訊號，由 IR 訊號便可算出測算物體的距離。
• FMCW 具有的優勢包含可以在任何光線條件下工作，需要的功率也較小，在遠距離的精確度也相當高(達到毫米等級)，
目前少數光達也開始將 FMCW 作為光達可採用的訊號發射系統。
雷達主要採用訊號-FMCW
13
Tomy Huang、EE Times、自行整理
圖2-1-5: FMCW 概念示意圖

資料來源 :
光學元件放大器
感測器
MEMS
控制晶片
發射器
• 根據 Yole 市場調查，全球光達（LiDAR）感測市場預計於 2022～2026 年期間以 16.79％複合年成長率（CAGR）成
長至 5.7 億美元。
• 光達產業根據其終端應用主要可分為 6 大項:測繪學、風力、製造業、智慧基建、物流、自動駕駛汽車、ADAS。其中
ADAS、自動駕駛汽車成長動能強勁，CAGR 分別達到 94% 及 32%，2026年兩者佔比超過 5 成，顯示車用相關需求
在未來 5 年會成為光達產品的主要動能。
光達產業持續成長車用相關需求強勁
15
上游
中游
下游自動駕駛
汽車製造
ADAS 衛星導航
感測系統
0
2000
4000
6000
2022 2023 2024 2025 2026
繪測學製造業智慧基建物流自動駕駛 ADAS
CAGR 16.79%
圖2-2-1:車用光達供應鏈圖2-2-2: 光達市場終端應用 market size 預估
Yole Development、麥姆斯諮詢
(百萬美元)

資料來源 :
• 光達(LIDAR)全名為光探測和測距(Light Detection And Ranging)，概念為透過光源發射器射出光波，依據光波在介
質中傳播遇到物體反射回到光源感測器所需飛行時間 (ToF)，推算與物體之間距離的測距方法。
• 感測器接收到 ToF 數據並轉換成物體表面的空間座標後所得到的特徵點集合，稱為點雲，將所有點雲描繪在 3D 空間
中，即可生成提供空間位置和深度資訊的 3D 點雲圖。
• 目前主流兩大飛行時間技術為 DToF 及 IToF。 DToF 則是透過發射器打出脈衝光，再由感測器接收到反射光的時間來
計算 ToF； IToF 則是使用發射器發出連續相同振幅及頻率的調製光，再根據反射的調製光相位差來計算 ToF 並推算出
與物體之距離。
光達測距-飛行時間原理
16
圖2-2-3: IToF 、 DToF 示意圖
宏虹科技、DDCAR、人人焦點、Seminex
t (發射光)
t (反射光)
DToF
時間差
t (發射光)
。 (反射光)
相位差
表2-2-1: IToF 、 DToF 整理
DToF IToF
優點遠距離、深度計算簡單近距離
缺點 sensor解析度技術受限
多路徑問題、距離與精度無法同
時進步、受環境光影響
IToF

資料來源 :
• EEL: 全名為邊緣發射雷射器。發射器內部磊晶以水平方向擺放，將磊晶切割後形成水平方向之共振腔，雷射光便在磊
晶內水平來回共振，最後由磊晶的側邊射出橢圓形雷射光。
• VCSEL: 全名為垂直共振腔面射型雷射。使用 MBE 或 MOCVD 沉積方法在砷化鎵晶圓上成長數十層不同折射率的 N、
P 型反射器及一層發光區，最後在晶圓的上下兩面各成長一層金屬電極，透過化學刻蝕技術將上方之金屬電極打開出
一個孔洞，讓雷射光以垂直磊晶的方向發射正圓形雷射光。
• EEL 雖然可以提供高功率光束，但無法維持高品質。VCSEL 相對而言，雖然一個單位無法提供高功率，但透過其可陣
列化的特性，組合多個 VCSEL 發射器可以解決這個問題。雖然相同功率下體積可以小於 EEL，但仍有進步空間。
下金屬電極
上金屬電極
下金屬電極
上金屬電極
光達發射器技術- EEL & VCSEL
17
股感、Arima Lasers、訊石、Technology Show、Phosertek、盧廷昌老師lab、MDPI、Denton Vacuum
圖2-2-4: EEL 示意圖
P型半導體
發光區
N型半導體
雷射光水平左右共振
圖2-2-5: VCSEL 示意圖
雷
射
光
垂
直
上
下
共
振
P型DBR反射器
發光區
N型DBR反射器
低反射鏡
高反射鏡
晶圓
+ + + +
- - -
-

資料來源 :
• 目前市場上主流之 sensors 以矽為半導體材料之 P-N 二極體為大宗。根據 P-N 二極體在不同偏壓下的狀態可以分為
四大模式:正偏壓的太陽電池模式、負偏壓的光偵測器、累崩線性、蓋革模式。
• SPAD: 全名為單光子雪崩二極體。其感測原理是透過持續負向提升偏壓，使二極體提高光子感測能力，但衝擊離子化
所造成的電流增益也會加劇。當偏壓達到蓋革模式時，SPAD 會透過截止電路迅速減弱電壓，並重複此循環，來不斷
偵測單一光子進入。
• SiPM: 全名為矽光電倍增管，為 SPAD 概念之延伸。SiPM 為多個平行排列且共用電流放大器的 SPAD 微單位 ( 單獨
微單元無感測功能)，以達到更高速提取光訊號及分辨光訊號強度之目的。
二極體於光達感測器之應用- SPAD & SiPM
18
Technology Show 、科儀新知、Hamamatsu、半導體芯科技
圖2-2-6: P-N 二極體四大模式表2-2-2: SPAD SiPM 比較
SPAD SiPM
優點同面積下分辨率高
多光子感測、信號提取快速、
光子算術雙模式
缺點無法分辨光強度、時空間邏輯判斷同面積下分辨率低
蓋革光偵測器太陽電池
累崩線性
PIN二極管
APD
SPAD
SiPM

資料來源 :
• 機械式: 置於車頂正中央，不間斷的進行 360 度旋轉來收發光訊號。因為需要能旋轉的機械式結構，通常體積較大，成
本也較高。
• MEMS: 機械部件不再以360度旋轉收發光訊號，而是透過將光源打到反射鏡上，再以一定的諧振頻率擺動反射鏡，即
可可以映出一個光面型的資料。
• OPA: 運用光波繞射的原理，設置讓光能通過的狹縫，再透過不斷改變狹縫大小，決定光訊號發射方向以及各光訊號強
弱大小，並掃瞄出光面型的資料。
• Flash: 不同於前三者以掃瞄式進行成像，Flash 直接透過光學元件( Beam Splitter )，將打出之連續穩定的雷射光擴散開
來並控制成想要成像的光面型。
四大主流光達系統
19
圖2-2-7: Lidar 分類
Velodyne、Innoviz、Quanergy、Findit、新通訊
機械式 MEMS OPA Flash
代表廠商 Velodyne Innoviz Quanergy Orxy
圖示
價格(美元) 75000 1000 500 100~250
角解析度 0.4°x 0.08° 0.1°x 0.1° 0.1°~0.5° na
FOV 360°x 26.9° 115°x 25° 50°x 4° 120°x 25°
測距範圍 <120m 0.1m~250m <50m <150m
光達
掃描式
非掃描式
非固態
混和固態
純固態
機械式
MEMS
OPA
Flash
純固態
圖2-2-8: 四大Lidar 簡介

資料來源 :
反光鏡
四大光達技術概念
20
Optics.org、Vocus、ScienceDirect、DDCAR
發射光
反射光
光源
接收器
圖2-2-9: 機械式光達示意圖圖2-2-10: MEMS 光達示意圖
反光鏡
圖2-2-11: OPA 光達示意圖
光源
光狹縫
繞射成像深度資訊
光源光學元件
圖2-2-12: Flash 光達示意圖

資料來源 :
• 光達雷射光波長之選擇需考量兩點:對人眼無害與偵測品質。於可見光光譜右側之紅外線在自然光中含量較低，考量信
噪比，光達技術大多使用紅外線做為主要雷射光波長選擇。
• 紅外線根據光譜位置，可以再分為NIR、SWIR、MWIR、LWIR。最常使用到的雷射光技術為 NIR (805nm / 905nm /
940nm) 及 SWIR (1350nm / 1550nm)。
• 目前市場上成熟的CMOS矽基傳感器能感受之波長為 400 nm~ 1000 nm，故可以感測可見光及 NIR ，但沒辦法感測
SWIR 波長。若要感測 SWIR，則要使用 InGaAs 合金半導體來製作，其成本為矽基 CMOS 的數十倍以上。
• 發射技術上，目前 NIR 比 SWIR 更純熟，且 NIR 在各種天氣情況下皆有較好的感測能力，短期內 NIR 仍會是市場主
流。然而 NIR 波長有較低的最大容許照射量，過度照射會損傷視網膜，因此各廠商正嘗試往 SWIR 發展。
光波長爭議
21
Technology Show、Edmund Optics、IECEE、電子創新元件網、IHS Markit
NIR SWIR MWIR LWIR
10!
10" 10#
10(
紫外線紅外線無線電波
Wavelength (nm)
Wavelength(μm)
0.75 1 2.5 3 5 8 12
圖2-2-13: 紅外線光譜示意圖圖2-2-15: 各波長雷射光最大容許照射量
圖2-2-14: NIR 與 SWIR 技術廠商總覽
NIR SWIR
DToF/IToF FMCW
可見光

CNN卷積神經網路介紹
3-1
23

資料來源 :
• 流程設計: CNN 卷積神經網路是模擬人類對一個影像的辨識流程所設計的，且 CNN 對日後的影像辨識所使用的演算
法影響非常重要，皆能看見 CNN 的概念在其中。
• 人類看物體: 看見一個影像後會先對影像中的每個部位的重要特徵去猜測這是什麼，再利用記憶中的碎片去猜測影像中
的物體。
• CNN 模型: 於輸入的圖像中切割圖像，並對每個切割的影像分配重要性，並於過程中去學習那些圖像區塊對於圖片分
類有什麼重要影響。
• 大致分為三個步驟: 卷積層、池化層、全連階層。
CNN卷積神經網路介紹可有效提取部位特徵
24
卷積層
• 作用：透過許多的卷積核在
影像上進行滑動擷取特徵
• 對應人類：掃描影像中的局
部特徵
池化層
• 作用：減少資料的空間大小，
因此參數的數量和計算量也
會下降
• 對應人類：看到不重要的資
訊並過濾掉
全連階層
• 作用：利用先前獲得的特徵，
來決定其分類
• 對應人類：決定好哪些是重
要的資訊並決定該圖像是什
麼
xN層
圖3-1-1：卷積神經網路流程圖
維基百科、IT邦幫忙、Medium

資料來源 :
• 功能: 卷積層負責提取圖像中的特徵，其原理是利用隨機產生的卷積核（通常為一個 3x3 的卷積）在影像中滑動以獲
得特徵，而越多層卷積獲得的精確度通常越高。
• 卷積核 (kernel): 其中的權重可以是任意排列組合，產生n種不同的排列組合，並生成 n 種不同的特徵地圖，意即對物
體產生多種不同的特徵判斷，經過多次比對可以從中獲得彼此相似的特徵。
• RGB三通道: 因色彩是由紅色、綠色、藍色組成的（0~255），所以一張彩色照片會分成三個通道分別進行。
• Padding: 因在擷取特徵的時候會造成圖形變小，所以可以利用padding使原始圖片變大再進行卷積。
卷積層-將視覺資料進行掃描獲取部位特徵
25
. . 39
. . .
. . .
1x0+4x0+6x1+1x0+6x1+7x1+3x1+8x1+9x1
圖3-1-2：卷積層運作方式
1 4 9
8
3
9 5 6
4
1
8 4 7
6
1
6 7 6
4
1
3 4 8
1
6
. . .
. . .
. . .
. . .
. . .
. . .
0 0 1
0 1 1
1 1 1
Medium、HackMD、自行整理

資料來源 :
• 功能: 卷積層之間通常會加入，其可以壓縮圖片並保留重要資訊，避免使計算量過於龐大。
• 特徵不變: 池化層除了有壓縮圖片、保留特徵外，還會有以下特行，平移不變、旋轉不變、尺度不變。
• 池化方法通常分為兩種：
1.Max Pooling: 回傳區域中最大的值，能有效消除區域中雜訊，並專注於圖片中是否有相符特徵而非其位置。
2.Average Pooling: 回傳區域的平均值，相較 Max Pooling 數字沒那麼極端。
池化層-過濾對特徵不重要的資訊
26
1 3 3 5
7 9 3 5
7 3 2 3
9 2 4 3
5
9
圖3-1-3：池化方法介紹
Average
Max
圖3-1-4：平移不變圖3-1-5：旋轉、尺寸不變
IT邦幫忙、HackMD、自行整理

資料來源 :
• 功能: 全連接層類似一個最終的分類器，將前面所獲得的特徵經過加權後辨識此輸入的圖形到底是屬於哪一個分類。
• Flatten: 在進入全連接層之前會先將先前所整理得到的特徵拉平，將二維轉為一維，才能進入全連接層做分類。但這
樣會使其沒有二維可以提供的訊息，例如位置。
• Backpropagation: 當模型在進行訓練的時候，模型會利用 Backpropagation 的技術慢慢調整權重、特徵擷取。
全連接層-將先前獲取的部位特徵進行分類
27
X1 X2 X3 X4 X5 X6 X7 X8
X9 . . . . . . .
.
.
.
.
.
Xn
圖3-1-6：全連階層運作流程
X1
X2
X3
Y1
Y2
Xn
Y3
Y4
Z1
Z2
知乎、iT邦幫忙、維基百科、自行整理

資料來源 :
• 純視覺傳感器因僅有圖像資料，所以相對於其他傳感器需有更多從照片轉化成 3D 圖的算法，如何檢測其為何物、距
離等等，最終目標為全景分割。
• 全景分割主要可以分為四個部分：
1.物體檢測: 得到場景中重要目標的資訊，如位置、大小、速度等等
2.深度估計: 將二維的資料加上深度（遠近），成為一個三維模型。
3.語意分割: 將場景中的圖像進行標記為其屬於的類別
4.物體跟蹤: 跟蹤場景中的各個物體，以提供預測其在下一個時間點的動作。
感知算法架構-輸入影像資源後經過計算呈現3D圖
29
二維物體檢測
深度估計
語意分割
物體
跟蹤
圖3-2-1：感知算法流程
CSDN博客、知乎、自行整理

資料來源 :
• 傳統圖像檢測利用滑動窗口、特徵提取、分類器的組合，但是缺點非常多，例如在進行特徵提取時的滑動窗口不是很
有效率，以及在針對不同物體進行檢測時必須要手動設計不同的特徵。
• 加入 CNN 以優化傳統圖像檢測:
1.R-CNN: 利用選擇性搜索替代了滑動窗口、利用 CNN 來自動擷取特徵、用 SVM 進行分類
2.FAST R-CNN: 將順序交換，先由 CNN 擷取特徵，在利用選擇性搜索獲得候選框，再進行 Pooling，最後用全連
接網路進行分類。
3.FASTER R-CNN: 利用區域候選網路代替選擇性搜索，並引入Anchor（能使學習更快速）。
• 單階段物體檢測: 在特徵圖的每個位置進行分類，此舉可以省略Pooling的步驟，使運行速度大幅提升。
二維物體檢測-基於CNN進行優化
30
分類
特徵地圖候選 pooling
CNN 區域候選網路
影像
圖3-2-2：Faster R-CNN流程
知乎、EETimes、51CTO博客、自行整理

資料來源 :
• 原理: 根據兩圖上同個點之間的距離、相機的焦距、兩個相機之間的距離來測量與物體的距離。但在雙目系統中，相機
的焦距、兩個相機之間的距離是固定的，所以唯一變數就是同個點在兩圖之間的距離。
• 如何迅速將此點在兩個相機中的成相配對:
1.極限約束: 無法得知 P 的點，但是若知道該點在兩個相機中呈現的位置便可以推算出 P 的位置。極限約束可以
將分別在兩個相機中呈現的點迅速找到，而不是在兩個成相中胡亂配對。
2.圖像矯正技術: 分別對兩張圖片用矩陣變換所得到的，目的就是把兩個非平行的圖像平面重新投影到同一個平面，
此時極限約束便可以適用。
雙目深度估計-使用相似圖形估計
31
圖3-2-3：雙目視覺原理介紹圖3-2-4：極限約束
知乎、CSDN博客、自行整理

資料來源 :
• 自動駕駛對需要 3D 空間的資訊，所以除了 2D 檢測以外，還需要深度的探測。最容易的方式是使用 LiDAR 測距，但
是成本太高，於是發展出純使用鏡頭的感知算法以模擬出 3D 空間。
• 傳統方法：除了可透過經驗獲取深度資訊，如陰影、相對高度大氣散射等等外，還可以透過自身運動來建構出立體環
境。例如 SFS 從一幀的圖像中物體表面的亮度來計算其表面三維、SFM 從連續的圖像中利用 SIFT 等算法對圖像提取
特徵，並計算特徵點在兩圖像中的距離。
• 深度學習方法：可分為有無監督的深度學習方式。監督學習對圖像進行兩個分支的估計，或是可以想成利用 CNN 進
行深度的分類。無監督學習不依賴深度真值，而是利用每幀圖像之間的幾何關係建立出對應的圖像。
單目深度估計-使用傳統及深度學習方式估計
32
特徵檢測特徵匹配
積分
微分
圖3-2-5：SFM介紹圖3-2-6：SFS介紹圖3-2-7：監督深度估計介紹
汽車開發者社區、羅戈網、Ofweek、自行整理

資料來源 :
• 用途: 可以檢測車附近障礙物或是其他物體的姿勢以預判其是否可能會做出打擾到路徑的動作，讓自動駕駛系統可以做
出與其避免的動作。
• 流程架構: 將影像資訊輸入，並且追蹤每幀中的物體。通常使用 tracking by detection 框架，主要可以分為三步驟：
1.在單幀圖像中選定物體並得到物體框
2.獲取每個物體的特徵
3.計算每幀物體中物體特徵的相似度，可以其機率判斷其是否為同一個物體
物體跟蹤-在不同幀中尋找物體並預測其動作
33
圖3-2-8：物體跟蹤流程
擷取特徵
擷取特徵
擷取特徵
擷取特徵
知乎、CSDN博客、自行整理

資料來源 :
• 語意分割意即進行每個像素點的分類。對於 CNN 網路，其在網路的最後會加入全連階層以進行分類的動作，而要進
入全連階層的話必須將資訊轉為一維的，但這樣只能辨識整個圖片分類，無法標示每個像素點的類別。
• 以下介紹兩種語意分割算法：
• FCN: 和CNN差異不大，僅將最後用於分類的全連階層改為卷積層，再使用上採樣（插值法）至原圖大小。
• SegNet: 在原本的CNN後面加上一個逆向的 CNN，動作一樣但相反，這樣可以確保輸入的大小跟輸出的一樣，此架
構類似編譯器＋解碼器。
語義分割-對每個像素點進行分類
34
圖3-2-9：FCN 介紹圖3-2-10：SegNet 介紹
Medium、HackMD、CSDN博客、自行整理

資料來源 : Mobileye、DDCAR、科技財知道
• 自動駕駛技術、ADAS (先進駕駛輔助系統) 晶片+演算法供應商
• 同時有相機系統 (視覺系統) 和光達或雷達系統 (非視覺系統)，避免其中一個系統壞掉，以提高 MTBF 和安全性
• 冗餘 (Redundancy)：多台相機或多個系統，一台相機或一個系統壞掉，以另一方去補足其功能
• ADAS、REM Mapping、RSS (自動駕駛規則或定義或法規) 三位一體的自動駕駛技術
Mobileye 為自動駕駛晶片及算法技術供應商
37
圖 4-1-1：Mobileye 自動駕駛技術架構
Camera
Radar /
LiDAR
Combined
World Model
World Model
World Model
RSS
RSS
Policy
Vehicle
Control

資料來源 :
• 汽車後車箱放置電腦和 EyeQ5/6 晶片、7 個遠程攝像頭、4 個停車攝像頭
• SuperVision 系統
1.ADAS 搭載 AV 地圖純相機系統，更高端的 ADAS
2. 目前應用地區：以色列、美國底特律、德國慕尼黑
3. 準備申請地區：日本東京、中國上海、法國巴黎、美國紐約
ADAS 中的純視覺子系統
38
圖 4-1-2：ADAS 感測技術圖 4-1-3：AV 地圖
Mobileye、DDCAR、科技財知道

資料來源 :
• 目前仍使用 Luminar 的光達
• 成像雷達可在軟體的配合下，達到與普通激光雷達的效果
• 因成本優勢，未來將增加雷達的應用，並採用 FMCW LiDAR
純光達及雷達子系統，未來將採 FMCW LiDAR
39
圖 4-1-5：相機和光達或雷達拍攝差異
圖 4-1-4：純光達及雷達系統
Camera System Radar / LiDAR System

資料來源 :
• 利用安裝 Mobileye 車輛收集和分析道路資訊，再由服務器透過算法加工為道路標線、紅綠燈、駕駛習慣等建立 AV
地圖必備的數據，適用不同駕駛習慣地區、不同交通規則、不同道路
• 語意識別分為 5 層，可行駛道路、優先事項、人行道與交通號誌關聯、停止點、合法速度
• 透過車聯網傳輸到雲端，然後再傳給每一位駕駛，讓所有自駕車得以及時更新地圖
REM 道路感知系統
40
收集道路數據聚合和對齊
識別和傳輸 (物體檢測)
造型語意識別 (語意分割) 路線手冊
圖 4-1-6：REM 運作流程
Mobileye、DDCAR、科技財知道、極術社區

資料來源 :
• 傳統的感測系統同時使用相機、雷達和光達會造成資料衝突的問題
• HD (高精) 地圖是指靜態的基本道路底圖數據，提供自動駕駛技術運作可靠穩健的環境先驗資訊 (自動駕駛的導航)
• Mobileye 的 AV 地圖有別於收集大範圍數據的傳統 HD 地圖，數據收集範圍僅集中在 200 公尺內，以提升數據的傳
輸效率
Mobileye 具冗餘非視覺系統與 AV 地圖
41
圖 4-1-7：Mobileye 與傳統系統差異圖 4-1-8：AV 地圖
Camera Radar LiDAR
Fused World
Model
Policy
Vehicle
Control
Camera
Radar /
LiDAR
World
Model
RSS
Combined
World
Model
World
Model
RSS
Policy
Vehicle
Control
Mobileye Approach
Common Industry Approach

特斯拉純視覺算法
4-2
42

資料來源 :
• 特斯拉透過車身所設置的 8 台相機，拍攝出 8 張不同角度的原始照片，再透過神經網絡 RegNet 找出最
優化的深度和參數。
• RegNet 是由 facebook AI 團隊於 2020 年所提出，利用統計方法 (控制變量) 去分析設計空間，找出參數
與模型之間的關係，解決了原本神經結構搜尋 ( NAS ) 的缺點：需大量調整參數、無法解釋搜尋結果。
* NAS 為在不同的參數中 (深度、寬度、學習率等) 的各種排列組合，找出最優的排列組合。
RegNet 為可解釋優化結果的神經網絡
43
科技財知道、Radosavovic, Ilija, et al. "Designing network design spaces."
圖4-2-1 : 特斯拉車身拍攝之原始照片圖4-2-2 : RegNet 以縮減控制變量的方式，找出參數與模型的關係
原始照片
RegNet
BiFPN
Attention
RNN
LSTM
MLP
NeRFs

資料來源 :
• 從 RegNet 優化出的參數，再透過 BiFPN 辨識出物件 (ex: 汽車、人)。
• BiFPN 是由特徵金字塔網絡 (FPN) 進化而來的。FPN 是由 Facebook AI 團隊於 2017 年提出，把深層網
絡和淺層網絡所抓取到的特徵進行融合，從上而下，在深層網絡中，保留小物件的特徵。將每一層網絡所
抓取到的特徵，以同等權重展現出來。而 BiFPN 則由 Google 團隊提出，對於不同特徵給予不同權重，
展現每個特徵不同的重要性，辨識效果更好。
BiFPN 強化每個物件不同的重要性
44
科技財知道、Lin, Tsung-Yi, et al. "Feature pyramid networks for object detection."
圖4-2-3 : FPN 將淺層和深層網絡抓取的特徵融合圖4-2-4 : BiFPN 相較於 FPN，給予每個特徵不同的權重
原始照片
RegNet
BiFPN
Attention
RNN
LSTM
MLP
NeRFs

資料來源 :
• 從原始照片抓取的特徵，在轉換到向量空間的過程中，需要向量空間去預測該特徵為何物件。因此，使用
Google 團隊於 2017 年所提出的 Attention 網絡架構進行轉換。
• Attention 網絡為 Attention(Q,K,V) = softmax(
!")
#*
)V，其中，Q 為 queries，輸入特徵內容；K 為 key，
和 queries 進行匹配；V 為 value，輸出相似度最高的結果。
Attention 網絡幫忙轉換原始照片到 3D向量空間
45
謦伊的閱讀筆記、自行整理
圖4-2-6 : Attention 網絡中，q 和每個 k 匹對，並選出相似度 α 最高的 k
圖4-2-5 : 3D 向量空間
原始照片
RegNet
BiFPN
Attention
RNN
LSTM
MLP
NeRFs

資料來源 :
• 利用 RNN 的概念，使抓取的特徵有時間序列的概念。RNN 使用記憶體 ( ex: a1、a2 ) 記憶前一次的儲存
檔案，而隱藏層 ( 一層神經網絡 ) 則是透過記憶體，結合前一次的儲存檔案進行排序，並輸出排序結果。
• 再利用 LSTM 的概念，使 RNN 能有效率的運用、儲存或消除、記憶抓取的特徵。LSTM 利用 Forget
Gate 會衡量每個原始檔案的重要性，並予以取捨。
RNN、LSTM 幫忙於轉換過程中，加入時間序列的概念
46
科技財知道、自行整理
圖4-2-7 : 利用 RNN，使抓取的特徵有時間序列的概念
影/照片1 影/照片2 影/照片3
隱藏層 a1 隱藏層 a2 隱藏層
y1 y2 y3
儲存儲存
丟入丟入
Input Gate
Output Gate
Forget Gate
Memory Cell
圖4-2-8 : 利用 LSTM ，使排序特徵的時間更有效率
原始照片
RegNet
BiFPN
Attention
RNN
LSTM
MLP
NeRFs

資料來源 :
• 特斯拉為了在安全、舒適、合理速度的情況下，避免碰撞，把輸出的 occupancy feature 放到 Obstacle
Encoder 裡面，利用裡面的的 MLP，去計算在幾秒時要幫忙踩煞車，並利用 occupancy flow 來判斷物
件為靜止或移動，以顏色來標示速度方向是否相同，以辨識是否要繞過或是減慢速度。
• 再上採樣變成 occupancy，使 occupancy feature 解析度變高。最後，再加入 NeRFs (神經輻射渲染) 的
建模場景，以供特斯拉練習和訓練。
MLP 系統計算出最合理的踩煞車時間，防止碰撞
47
2022 CVPR、石橋、科技財知道
原始照片
RegNet
BiFPN
Attention
RNN
LSTM
MLP
圖4-2-9 : MLP 計算車子的座標位置、速度等資訊，並計算煞車時間圖 4-2-10: occupancy flow 辨識出移動物件，及其速度方向
NeRFs
x, y, v, θ….

自動駕駛技術未來趨勢
5
48

資料來源 :
阻擋層
主動層
上金屬電極
N型半導體
• PCSEL: 全名為光子晶體面射型雷射。其透過光子晶體形成方法製成水平共振腔，再透過布拉格繞射原理達成垂直發射
雷射光，同時達到高功率及圓形出光之 EEL 及 VCSEL 無法做到的兩大優勢。
• 目前主流的 VCSEL 發射器最大痛點就是無法高功率輸出光源。PCSEL 使用水平共振腔可以有效增加功率，同時透過
光子晶體結構設計讓雷射以正圓形出光，同時兼顧功率及光品質。
• 由於 PCSEL 是使用光子晶體結構來進行發光，透過調製圖案來修改光子晶體結構就可以調整發射方向，甚至可以打出
不只一個方向的光束，亦即其波束控制能力比 VCSEL 強大。
• 由於 PCSEL 對於光波的控制是透過不同的光子晶體結構形狀已打出不同的光面型，因此完全不需要額外的光學元件來
控制光面型，透過 PCSEL 製造出來的光達感測器體積能進一步縮小，更符合市場主流。
PCSEL未來有機會取代VCSEL在光達的領先定位
49
RP Photonics、芯語、Arima Lasers、訊石、自行整理
EEL VCSEL PCSEL
磊晶成本低高低
製程成本高低低
測試成本高低低
功率高低高
光品質低高高
波長範圍廣窄廣
尺寸大中小
表5-1: 三大發射器比較
圖5-1: PCSEL 示意圖
雷射光水平左右共振
光子晶體層
P型半導體
雷
射
光
可
垂
直
出
光

資料來源 :
• 過去以 DToF 為測量技術的光達廠商都在強調測距距離的上限，但實際駕駛應用上近距離的盲點偵測，受限於 DToF
sensor 靈敏度不足的問題，一直無法有所突破。因此以短距離為主要強項的 IToF 測距技術開始被重視，但目前市場
上能商用的 IToF 公司非常有限。
• 大部分 DToF 廠商所使用的雷射光以 905 nm 波長為主，考量到傷害視網膜問題，FMCW Lidar 成為了解決方案之一。
以 1550 nm 波長為主要光波發射，FMCW Lidar 不僅不易受到雜波影響而有較高的信噪比，在矽光子技術成熟後，
可整合在晶片上的系統實現了佔位面積小、功率耗損較低等優勢，成為近期許多廠商進攻的技術。
DToF光達技術飽和 FMCW 及 IToF 仍有發展空間
50
Yole Development、EETIME、艾邦智造、自行整理
DTOF
ITOF
FMCW
Mechanics MEMS OPA Flash
圖5-2: 光達測距技術及感測系統公司分布

資料來源 :
• 為了比較視覺系統與光達系統的表現，實驗設計採用不同的單雙目視覺算法與光達配合算法，在不同的場景難易度及
匡列標準之下，比較各組合的平均精準度高低。
• 平均精準度表達方法有兩種: 𝐴𝑃$%&及 𝐴𝑃'(。 𝐴𝑃$%&是將 3D 檢測結果與標準答案映射到 2D 的鳥瞰圖上計算； 𝐴𝑃'(
則是直接在 3D 空間計算檢測結果並與標準答案進行比較。
• 觀察 CVPR 2019 發表之比較實驗結果，單目視覺方案在各種情境下與光達方案之 AP 皆有一定差距，但雙目視覺僅在
IoU = 0.7 且高截斷之情境下差距較大，其他情境已經相當接近光達方案。
• 觀察 WACV 2022 發表之比較實驗結果，單目視覺與光達方案仍有差距，但雙目視覺與光達方案差距已經逐漸縮小，
部分雙目視覺方案已經能在 IoU = 0.7 且高截斷之情境下表現超越光達方案。
純視覺系統精準度隨時間進步光達僅微幅領先
51
算法 IoU=0.5 IoU=0.7
𝐴𝑃!"#/𝐴𝑃$% Easy Hard Easy Hard
AVOD(單) 61.2/57.0 38.3/36.3 33.7/19.5 20.1/16.2
F-PointNet(單) 70.8/66.3 42.7/38.5 40.6/28.2 22.9/16.4
AVOD(雙) 89.0/88.5 68.7/61.2 74.9/61.9 49.0/39.0
F-PointNet(雙) 89.8/89.5 68.2/66.3 72.8/59.4 44.0/33.5
AVOD(光) 90.5/90.5 88.5/88.2 89.4/82.8 79.3/67.1
F-PointNet(光) 96.2/96.1 86.8/86.2 88.1/82.6 74.0/62.0
算法 IoU=0.5 IoU=0.7
𝐴𝑃!"#/𝐴𝑃$% Easy Hard Easy Hard
MonoPair(單) 61.06/55.38 41.92/37.99 24.12/16.28 15.76/10.42
RTM3D(單) 57.47/54.36 42.31/35.84 25.56/20.77 20.91/16.63
IDA-3D(雙) 88.05/87.08 67.29/60.01 70.68/54.97 42.93/32.23
Side(R=2)(雙) 88.35/87.70 67.46/60.05 72.75/61.22 46.16/37.15
PL+AVOD(光) 88.50/76.80 61.20/56.60 61.90/60.70 39.00/37.00
PL+FP(光) 89.80/89.50 68.20/66.30 72.80/59.40 44.00/33.50
CVPR、WACV、DDCAR、自行整理
表5-2: 2019 CVPR 光達與視覺方案比較表5-3: 2022 WACV 光達與視覺方案比較

資料來源 :
• 近年來各大車廠陸續宣布與 Luminar、Innoviz 等光達供應商展開合作計畫，在原定發展的毫米波雷達及鏡頭的基礎
上，加上光達以推動自駕技術的進步。
• 純視覺方案模擬人眼觀察情境為其算法依據，然而算法若未經過適當訓練，進行物體辨識或深度估計仍有高機率發生
危險。特斯拉在嘗試純視覺方案無果後，重新於 2022 年底在新車安裝 4D 雷達，顯示除了在視覺方案之外，高解析
度影像辨識仍為自動駕駛必要條件。
• 不同傳感器適用於不同任務，鏡頭可以提物體紋路、顏色資訊，適用於目標分類；光達可以更加精確的進行中短距離
的目標檢測及測距。雷達則輔助以上兩個傳感器，如彌補光達在氣候不穩定時時測距品質不佳之缺點。
配用光達車廠仍佔大宗混合系統搭配仍為未來主流
52
Counterpoint、TechNews、iThome、關鍵評論網、自行整理
圖5-3 : 各大車廠與光達供應商合作關係圖5-4 : 混合傳感器範圍示意圖

資料來源 :
• 去年一份特斯拉提交的新裝置註冊文件內容流出，確認是一個高解析雷達裝置。而馬斯克曾表明，極高解析度的雷達會比純
視覺更好，但現階段能符合此標準的高解析度雷達並不存在。因此，特斯拉找到符合標準的高解析度雷達，且將其加回自動
駕駛系統裡的可能性極高。
• 可以兩大角度窺探該雷達樣貌：1. 發展高解析度雷達的關鍵技術是擴大頻寬，以增加解析度。透過兩個角度，可以推測，特
斯拉註冊之高解析度雷達的樣貌。2. Mobileye 於 CES 2023 指出目前雷達存在三大問題，其中一個為 (角) 解析度不夠的問
題。藉由增加雷達的發射端和接收端，來提高解析度。現階段大多為 12 個發射端和 16 個接收端，未來則是希望能發展成
48 個發射端和接收端。
特斯拉可能於自動駕駛系統加入高解析度雷達
53
Texas Instruments、科技財知道、EDN
圖5-5 : 高解析雷達的關鍵技術為增加頻寬，以提高雷達解析度
時間
頻率
77 GHZ
81 GHZ
90 GHZ
頻寬=4 GHZ
頻寬=13 GHZ
圖5-6 : 可以分別增加雷達的發射端和接受端來提高雷達解析度
發射端接收端

Agenda
54
結論
• 自動駕駛由SAE(美國汽車工程師協會)分為 L0 - L5 共六級，目前市場主流以 L1、L2 為主，顯示該產業及技術仍有較
大發展空間。
• 車用雷達擁有不受惡劣天氣影響的優勢，目前以毫米波雷達為市場主流，成像技術則以 4D 雷達為主要發展對象，反
映高解析度及全景視角為未來趨勢。
• 車用光達雖然在市場上已經有非常成熟的方案，但隨著各項技術的進步，未來 5 年仍會有非常高的市場成長率:
1.發射器的部分，因光線品質原因，EEL 逐漸被 VCSEL 取代，未來結合兩者優勢的 PCSEL 亦有可能搶占發射器市場。
2.飛行時間原理的部分，目前 DTOF 技術已經飽和，強調近距離的 ITOF 及對眼睛低威脅的 FMCW 技術將開始發展。
3.波長選擇部分，NIR 波長因傷害眼睛問題，開始有廠商轉往長波長的 SWIR 發展以因應未來趨勢。
• 純視覺感知可利用算法有效解決物體感測、深度估計等建立三維模型必要元素，其中卷積神經網路能夠有效提取部位特徵，並且
降低無謂的運算，所以相關算法常以卷積神經網路作為基礎在進行演變。
• 特斯拉目前以純視覺為主，著重於原始照片轉 3D 向量空間的技術。然而，特斯拉可能於今年將高解析度雷達加入自動駕駛系統。
• Mobileye 除純視覺系統外，增加冗餘 (Redundancy) 的非視覺系統，擁有兩個獨立系統提高安全性，成為自動駕駛新技術。

colla_0225新趨勢自動駕駛 to FX.pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to colla_0225新趨勢自動駕駛 to FX.pdf

Similar to colla_0225新趨勢自動駕駛 to FX.pdf (20)

More from Collaborator

More from Collaborator (20)