11. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 21
Q6.深度學習可以取代深度影像 (depth image) 嗎 ?
A6. 一般 3D 偵測、辨識、與定位 (position) 都會使
用 3D 相機 (e.g., Kinect, RealSense, Lidar),
以獲得 “深度資料 (depth or range data)”。
使用深度學習就不需要深度資料了嗎 ?
深度資料 = 距離
距離可分成:”絕對距離” 與 “有限制的距離”。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 22
Amodal detection of 3D objects in RGBD
有限制的距離
1. 只有矩形框。
2. 矩形框的一面
一定在地面上。
References
14 Learning rich features from RGB-
D Images for object detection and
segmentation
17 Amodal detection of 3D objects
inferring 3D bounding boxes from
2D ones in RGB-Depth Images
17 Deep sliding shapes for amodal
3D object detection in RGB-D
Images
17 Multi-modal deep feature learning
for RGB-D object detection
12. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 23
2015 StixelNet
深度學習與傳統方法一樣,無法取得絕對距離,
一定要使用 3D 相機或其他距離設備 (e.g., Lidar,
Radar) 才能獲得絕對距離。
傳統方法
可根據地面的限
制資訊或相機擺
置方位估計距離
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 24
Bin picking
深度學習
適合做
偵測與辨識
,但不適合
做一般性的
定位。
一般性的 3D 定位還是要依賴 3D 設備。
且精準的 3D 方位估計仍是依賴傳統方法求得;
例如,variant 3D template matching,
ICP (Iterative Closest Point), ..
14. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 27
RGBD Disjoint 之 RGB + D 網路的訓練方式
i. 先各別計算 loss function values,再直接相加
當作整體的誤差值做訓練;這樣的做法相當於
各別訓練 RGB 和 D 網路。
ii.最後結合 RGB + D 的 feature maps,從當中輸
出偵測與辨識的矩形框及機率值。
loss
function
Loss
function
add new loss
RGB Network
Depth Network
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 28
RGBD Joint 之 RGB + D 網路的訓練方式
RGB 與 D 的最後一層 feature maps 相加,再計
算各 cell 的 loss function value。這樣的步驟相當
於 RGB 與 D 網路都根據同一個 feature maps 的
loss function value 調整網路參數。
RGB Network
Depth Network
19x19x45
feature maps
19x19x45
feature maps
19x19x45
feature maps
loss
add
15. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 29
Method Dataset mAP Top Bottom Side Back
RGB 300 pics 96.60 97.06 100 89.33 100
Depth 300 pics 94.89 97.06 91.82 90.67 100
RGBD DJ 300 pics 88.13 97.06 74.36 86.67 94.44
RGBD J 300 pics 93.46 91.18 92.31 90.35 100
Numbers of samples for each class
Top : 414
Bottom : 335
Side : 1,070
Back : 310
四種網路架構的偵測與辨識效果比較
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 30
深度學習使用深度影像協助做偵測與辨識,在
i. 深度影像品質尚未提昇前,或
ii. 前景物與背景距離差異不大時,
深度影像並沒有沒多大好處,反而有壞處。
因此目前深度影像只能協助 3D 定位 (方向與位置)
,且是以傳統方法套用深度資訊,計算物件表面
區塊的方向與位置。
16. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 31
Q8. 彩色影像與深度影像要怎麼結合比較好 ?
A8. 深度學習中,彩色影像與深度影像的融合
(fusion) 有多種方式。
以手勢辨識為例 (Loose hand gesture recognition)
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 32
16 types of hand gestures captured from 5
persons (three males and two females).
17. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 33
3,376 pairs of images as the training samples.
1,116 pairs of images as the training samples.
# 0 # 1 # 2 # 3 # 4 # 5 # 6 # 7
Training 190 204 147 195 174 198 185 220
Testing 63 67 48 64 58 65 61 73
# 8 # 9 IoU
Let’s
GO Little
No
Ring OK Rock
Training 215 199 231 328 263 241 217 169
Testing 71 66 76 109 87 80 72 56
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 34
We proposed seven different structures of FCN
for the hand gesture recognition, with
11 convolution layers, 6 pooling layers, and
converting feature maps to vector to concatenate
the different-sized feature maps.
24. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 47
Corrupted image . Ground truth mask . Raw image . Inpainted image
PSNR 29.11 / SSIM 0.968
Corrupted image . Generated mask . Raw image . Inpainted image
PSNR 30.77 / SSIM 0.973
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 48
例二:瑕疵檢測 (2018)
A performance evaluation of defect detection
by using denoising autoencoder GAN
Generated
image C
Discriminator
Generator
Artificial
defective
image B
Actual
non-defective
image A
Loss = |A - C|
to improve G
Defect = |B - C|
25. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 49
例三:瑕疵檢測 (2018)
Study on machine learning based intelligent
defect detection system
Purpose: To auto generates massive, diverse and
labeled samples.
Discriminator
GeneratorNoise
Real image A
Generated image B
Loss = |A - B|
to improve G
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 50
4. 結論
深度學習不是萬能;但有了深度學習,確實解決
了過去許多不易或不穩定的問題。
在應用上不必把深度學習看成 “完全獨立系統”
(stand alone system),深度學習系統可以完全用
C或Python程式實現出來,當然就可以與傳統方
法結合應用,各別貢獻所長。