2018AOI論壇_深度學習在電腦視覺應用上的疑問_中央大學曾定章

深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 1
深度學習
在電腦視覺應用上的疑問
Questions for deep learning
applied to computer vision
曾定章
中央大學資訊工程系教授
tsengdc@gmail.com
2018 / 10 / 4
內容
1. 電腦視覺的意義
2. 深度學習的意義
3. 深度學習在電腦視覺應用上的疑問
4. 結論

 人眼視覺 (human vision)
What ?
Who ?
Shape ?
Color ?
Where ?
Distance ?
Direction ?
Motion ?
Speed ?
1. 電腦視覺的意義
eye
 電腦視覺 (computer vision)
What ?
Who ?
Shape ?
Color ?
Where ?
Distance ?
Direction ?
Motion ?
Speed ?
camera

 電腦視覺的研究目的
就是要讓電腦具有像人一樣的視覺能力。
 在結構 (硬體) 與功能 (軟體) 上，
電腦視覺與人眼視覺有很大的差異。
 電腦視覺先天不足的問題，要依賴後天的硬體設備
改進及軟體演算法協助，才能創造出有用的視覺
處理 (processing)、追蹤 (tracking)、
偵測 (detection)、估計 (estimation)、
辨識 (recognition)、度量 (measurement)、
檢測 (inspection)、分析 (analysis)、
生成 (generation)、景觀/模型重建等功能。
2. 深度學習的意義
 深度學習
深度學習 (deep learning)
= 深度神經網路 (deep neural network)
= 卷積神經網路 (convolutional neural network)
= 深度卷積神經網路 (deep CNN)
輸入輸出

x (影像/數值) y (數值/影像)
 卷積神經網路 (CNN)
主要應用：擷取特徵、辨識、偵測、分割、 ..
i. 以學習配合辨識來擷取特徵，表現極為出色。
ii. CNN 可以單獨用於特徵擷取、辨識、偵測、分
割、生成、..，也可以多項功能串聯使用。這樣
的組合就衍伸出多種應用上的選擇 (或疑問)。
 給卷積神經網路 (CNN) 許多輸入 x’s 與輸出 y’s，
CNN 自主學習獲得 x 與 y 的關係；之後，我們就
可以透過 CNN 從 x 知道 (或得到) y。
CNN
3. 深度學習在電腦視覺應用上的疑問
 疑問探討原有五個面向 (aspects)：
深度學習與傳統方法的比較
深度學習的架構問題
深度學習的訓練問題
深度學習的訓練資料集問題
深度學習的應用問題

 電腦視覺的應用以
先進駕駛輔助系統 (ADAS)：
車輛、行人、障礙物偵測
人臉偵測與辨識、
手勢辨識、
瑕疵檢測、
3D 物件偵測、辨識、與 3D 定位
為例
Q1. 所有電腦視覺的問題，都可以用深度學習解決嗎
A1. 這是探討深度學習的應用廣度，
深度學習用得好不好是另一個問題。
3.1. 深度學習與傳統方法的比較
只要能將問題描述成兩類變數 x 與 y，並關聯 x
與 y 讓我們可以藉由 CNN 從 x 知道 y，那麼這
個問題就可以用深度學習解決。
x (影像/數值) y (數值/影像)CNN

Q2. 深度學習一定比傳統方法好嗎 ?
A2. 不是；例如，
左前方那個人離我有多遠 ? 在左前方幾度 ?
他有多高 ?
印刷電路板 (PCB) 的物件 (pad) 大小/顏色度量、
先進駕駛輔助系統 (ADAS) 的車道偏離警示、
3D景觀/模型的方位估計與重建、
2D/3D 動態分析 (motion acquisition)、.. 等
牽涉到幾何計算、數值精算、3D 運算的度量、
估計、重建等議題，深度學習沒有比較好。
 12 項先進駕駛輔助系統的視覺偵測與辨識技術
1. 車道偏離警示 LDW (lane departure warning)
2. 前車碰撞警示 FCW (forward collision warning)
3. 盲點偵測 BSD (blind spot detection) = LCA
4. 行人碰撞警示 PCW (pedestrian collision warning)
5. 交通標誌/號誌偵測與辨識 TSSR
6. 全周俯瞰監視系統 STM (= AVM)
7. 廣域全周俯瞰監視與偵測 WSTD
8. 影像式停車導引 IPG (image-based parking guiding)
9. 倒車碰撞警示 RCW (rear collision warning)
10.影像式主動跟車偵測 ISG
11. 自動跟隨巡航 AFN (automatic following navigation)
12.昏睡偵測 DD (drowsiness detection) = AM
只
用
一
個
2D
相
機

 車道偏離警示 (LDW)
i. 可偵測各種車道線 (lane marker)
ii. 可適應各種天候狀況
iii. 可從一邊車道線估計出另一邊
iv.可確實算出車道
偏離距離 (準確
到公分等級)，
不是相機所見的
偏離距離。
第 iii, iv 兩項
深度學習做不好。
不需要深度學習 !
 前車碰撞警示 (FCW)
i. 車輛偵測的位置要準確。
ii. 適應各種天候狀況 (晴, 陰, 雨, 霧, 向陽, 夜)。
iii. 要能估計
前車距離。
困難的第ii項，
傳統方法做不好；
容易的第iii項，
深度學習做不好
 深度學習好 !

 影像式停車導引 (IPG)
i. 只用後視相機，不用旋轉感測器 (steering sensor)
ii. 軌跡計算要準確
2D角點偵測、比對、估計運動向量、及畫軌跡等
工作並不複雜，深度學習沒有比較好 !
Host vehicle obstacle
 倒車碰撞警示 (RCW)
i. 可分辨平面物及立面物 (障礙物)。
ii. 可估計物件距離。
偵測：深度學習比傳統方法穩定許多。
3D 判定：深度學習與傳統方法都不穩定。
一定要使用3D相機。綜合結果，深度學習好 !
d
non-
obstacle

Q3.在前車碰撞警示中，前車偵測的分類會影響到
偵測率嗎 ?
3.2. 深度學習的應用問題
A3. 車輛偵測的主要影響因素是天候狀況：
晴, 陰, 雨, 霧, 向陽, 夜, ..。
若根據天候狀況，將車輛分類，則可能偵測率會
有所不同。
 分析車輛分類對於偵測結果的影響：
i. 車輛分為1類。
ii. 車輛分為3類：晴、雨、夜。
iii.車輛分為5類：晴、陰、小雨、大雨、夜。
類別數 1類 3類 5類
mAP 0.806 0.908 0.632
註：mAP = mean Average Precision,
與 FP, FN 都有關係。

Q4.物件可以同時偵測與辨識 (Faster R-CNN, SSD,
YOLO)，人臉同時偵測與辨識好嗎 ?
A4. 物件可以，人臉不好。
變異小
同時偵測與辨識表示偵測與辨識要共享特徵。
變異大
變
異
大
Q5. 深度學習偵測物件，偵測位置準確嗎 ?
A5. 深度學習步驟中，通常會一再使用池化 (pooling)
運算，以適應物件大小與位置的變異；也就因為
池化，而讓偵測位置較不準確。
K. He, G. Gkioxari, P. Dollár, and R. Girshick,
“Mask R-CNN,” (Jan. 2018)
以 ROIalign 取代 ROIpooling，用內插
(interpolation) 計算像素等級的分類
(segmentation) 結果；應用在偵測上，當然位置
可以更準確。

Q6.深度學習可以取代深度影像 (depth image) 嗎 ?
A6. 一般 3D 偵測、辨識、與定位 (position) 都會使
用 3D 相機 (e.g., Kinect, RealSense, Lidar)，
以獲得 “深度資料 (depth or range data)”。
使用深度學習就不需要深度資料了嗎 ?
深度資料 = 距離
距離可分成：”絕對距離” 與 “有限制的距離”。
 Amodal detection of 3D objects in RGBD
有限制的距離
1. 只有矩形框。
2. 矩形框的一面
一定在地面上。
References
14 Learning rich features from RGB-
D Images for object detection and
segmentation
17 Amodal detection of 3D objects
inferring 3D bounding boxes from
2D ones in RGB-Depth Images
17 Deep sliding shapes for amodal
3D object detection in RGB-D
Images
17 Multi-modal deep feature learning
for RGB-D object detection

 2015 StixelNet
深度學習與傳統方法一樣，無法取得絕對距離，
一定要使用 3D 相機或其他距離設備 (e.g., Lidar,
Radar) 才能獲得絕對距離。
 傳統方法
可根據地面的限
制資訊或相機擺
置方位估計距離
 Bin picking
深度學習
適合做
偵測與辨識
，但不適合
做一般性的
定位。
 一般性的 3D 定位還是要依賴 3D 設備。
且精準的 3D 方位估計仍是依賴傳統方法求得；
例如，variant 3D template matching,
ICP (Iterative Closest Point), ..

Q7.深度學習增加使用深度影像一定比較好嗎 ?
A7. 目前仍然只有高解析度彩色
影像能夠提供最精密、最準
確的資料。
深度影像是
Intel
RealSense
D435 取得
with/without
IR projector.
 偵測與辨識結果

 RGBD Disjoint 之 RGB + D 網路的訓練方式
i. 先各別計算 loss function values，再直接相加
當作整體的誤差值做訓練；這樣的做法相當於
各別訓練 RGB 和 D 網路。
ii.最後結合 RGB + D 的 feature maps，從當中輸
出偵測與辨識的矩形框及機率值。
loss
function
Loss
function
add new loss
RGB Network
Depth Network
 RGBD Joint 之 RGB + D 網路的訓練方式
RGB 與 D 的最後一層 feature maps 相加，再計
算各 cell 的 loss function value。這樣的步驟相當
於 RGB 與 D 網路都根據同一個 feature maps 的
loss function value 調整網路參數。
RGB Network
Depth Network
19x19x45
feature maps
19x19x45
feature maps
19x19x45
feature maps
loss
add

Method Dataset mAP Top Bottom Side Back
RGB 300 pics 96.60 97.06 100 89.33 100
Depth 300 pics 94.89 97.06 91.82 90.67 100
RGBD DJ 300 pics 88.13 97.06 74.36 86.67 94.44
RGBD J 300 pics 93.46 91.18 92.31 90.35 100
 Numbers of samples for each class
Top : 414
Bottom : 335
Side : 1,070
Back : 310
 四種網路架構的偵測與辨識效果比較
 深度學習使用深度影像協助做偵測與辨識，在
i. 深度影像品質尚未提昇前，或
ii. 前景物與背景距離差異不大時，
深度影像並沒有沒多大好處，反而有壞處。
 因此目前深度影像只能協助 3D 定位 (方向與位置)
，且是以傳統方法套用深度資訊，計算物件表面
區塊的方向與位置。

Q8. 彩色影像與深度影像要怎麼結合比較好 ?
A8. 深度學習中，彩色影像與深度影像的融合
(fusion) 有多種方式。
 以手勢辨識為例 (Loose hand gesture recognition)
 16 types of hand gestures captured from 5
persons (three males and two females).

 3,376 pairs of images as the training samples.
 1,116 pairs of images as the training samples.
# 0 # 1 # 2 # 3 # 4 # 5 # 6 # 7
Training 190 204 147 195 174 198 185 220
Testing 63 67 48 64 58 65 61 73
# 8 # 9 IoU
Let’s
GO Little
No
Ring OK Rock
Training 215 199 231 328 263 241 217 169
Testing 71 66 76 109 87 80 72 56
 We proposed seven different structures of FCN
for the hand gesture recognition, with
11 convolution layers, 6 pooling layers, and
converting feature maps to vector to concatenate
the different-sized feature maps.

1. DLHGR-1
2. DLHGR-2

3. DLHGR-3
4. DLHGR-4
5. DLHGR-5
6. DLHGR-6

7. DLHGR-7
Loss mAP Iteration Para.
DLHGR-1 0.0365404 0.992889 100,000 5.08M
DLHGR-2 0.0158716 0.995555 100,000 9.60M
DLHGR-3 0.0094135 0.995555 100,000 5.67M
DLHGR-4 0.0324673 0.988444 100,000 14.39M
DLHGR-5 0.0264452 0.995555 100,000 5.96M
DLHGR-6 0.0091398 0.997333 100,000 6.90M
DLHGR-7 0.0060491 0.996444 100,000 10.44M
 Comparison among the proposed FCNs

 Compared with other popular CNNs
Loss mAP Iteration Para.
DLHGR-6 0.009140 0.997333 100,000 6.90M
Alexnet
(color) 0.045242 0.987555 1,000,000 23.38M
Alexnet
(depth) 0.038303 0.987555 1,000,000 23.38M
GoogLeNet
(color) 0.036109 0.990222 2,000,000 4.72M
GoogLeNet
(depth) 0.075191 0.988444 2,000,000 4.72M
NIN (color) 0.630484 0.808000 300,000 0.968M
NIN (depth) 0.708565 0.797333 300,000 0.968M
Q9.神經網路 (NN) 可以解最佳輸入解的問題嗎 ?
A9. 原本問題是
“NN 可以做產線上最佳產品的監控應用嗎 ?”
在產線產品監控應用上可分成兩種方式：
i. 找出最好的機台控制參數，產出最好的產品，
ii. 即時監視產線機台控制參數，不產出瑕疵品。

Q10. 生成對抗網路 (Generative Adversarial Nets,
GAN) 是非督導式的學習網路嗎 ?
Discriminator
Real world
Images
GeneratorRandom
vectors
Real
Fake
Sample
Sample
A10. 原創意義是同時訓練生成器 (Generator) 和判
別器 (Discriminator) 相互競爭，以達到兩者均
衡 (equilibrium) 穩定的學習結果；但可擴充成
半督導式 (semi-supervised) 學習。
Max.
correct
Max. D incorrect
 原生網路似乎可做成非督導式學習；但在實際應用
上，大都還是用成 “督導式的生成網路”；例如，
例一：自動移除影像中的外嵌字 (2017)
含有外嵌
字的影像
FCN
產生文字
區塊遮罩
GAN
產生修補影像
移除文字的
修補影像
生成的遮罩
FCN 與 GAN 分別獨立訓練，一起測試/應用。

 FCN 訓練流程 with end-to-end structure
Input
image
Ground
truth
FCN
產生文字
區塊遮罩
Generated
mask
 GAN 訓練流程
生成器 (G)
產生修補影像
判別器 (D)
評斷修補效果
Mask image
Corrupt images Generated image
Real image

Corrupted image . Ground truth mask . Raw image . Inpainted image
PSNR 29.11 / SSIM 0.968
Corrupted image . Generated mask . Raw image . Inpainted image
PSNR 30.77 / SSIM 0.973
例二：瑕疵檢測 (2018)
A performance evaluation of defect detection
by using denoising autoencoder GAN
Generated
image C
Discriminator
Generator
Artificial
defective
image B
Actual
non-defective
image A
Loss = |A - C|
to improve G
Defect = |B - C|

例三：瑕疵檢測 (2018)
Study on machine learning based intelligent
defect detection system
Purpose: To auto generates massive, diverse and
labeled samples.
Discriminator
GeneratorNoise
Real image A
Generated image B
Loss = |A - B|
to improve G
4. 結論
 深度學習不是萬能；但有了深度學習，確實解決
了過去許多不易或不穩定的問題。
 在應用上不必把深度學習看成 “完全獨立系統”
(stand alone system)，深度學習系統可以完全用
C或Python程式實現出來，當然就可以與傳統方
法結合應用，各別貢獻所長。

2018AOI論壇_深度學習在電腦視覺應用上的疑問_中央大學曾定章

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 2018AOI論壇_深度學習在電腦視覺應用上的疑問_中央大學曾定章

Similar to 2018AOI論壇_深度學習在電腦視覺應用上的疑問_中央大學曾定章 (9)

More from CHENHuiMei

More from CHENHuiMei (20)

2018AOI論壇_深度學習在電腦視覺應用上的疑問_中央大學曾定章