SlideShare a Scribd company logo
1 of 25
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 1
深度學習
在電腦視覺應用上的疑問
Questions for deep learning
applied to computer vision
曾定章
中央大學資訊工程系 教授
tsengdc@gmail.com
2018 / 10 / 4
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 2
內 容
1. 電腦視覺的意義
2. 深度學習的意義
3. 深度學習在電腦視覺應用上的疑問
4. 結論
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 3
 人眼視覺 (human vision)
What ?
Who ?
Shape ?
Color ?
Where ?
Distance ?
Direction ?
Motion ?
Speed ?
1. 電腦視覺的意義
eye
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 4
 電腦視覺 (computer vision)
What ?
Who ?
Shape ?
Color ?
Where ?
Distance ?
Direction ?
Motion ?
Speed ?
camera
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 5
 電腦視覺的研究目的
就是要讓電腦具有像人一樣的視覺能力。
 在結構 (硬體) 與功能 (軟體) 上,
電腦視覺與人眼視覺有很大的差異。
 電腦視覺先天不足的問題,要依賴後天的硬體設備
改進及軟體演算法協助,才能創造出有用的視覺
處理 (processing)、 追蹤 (tracking)、
偵測 (detection)、 估計 (estimation)、
辨識 (recognition)、 度量 (measurement)、
檢測 (inspection)、 分析 (analysis)、
生成 (generation)、 景觀/模型重建 等功能。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 6
2. 深度學習的意義
 深度學習
深度學習 (deep learning)
= 深度神經網路 (deep neural network)
= 卷積神經網路 (convolutional neural network)
= 深度卷積神經網路 (deep CNN)
輸入 輸出
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 7
x (影像/數值) y (數值/影像)
 卷積神經網路 (CNN)
主要應用:擷取特徵、辨識、偵測、分割、 ..
i. 以學習配合辨識來擷取特徵,表現極為出色。
ii. CNN 可以單獨用於特徵擷取、辨識、偵測、分
割、生成、..,也可以多項功能串聯使用。這樣
的組合就衍伸出多種應用上的選擇 (或疑問)。
 給卷積神經網路 (CNN) 許多輸入 x’s 與 輸出 y’s,
CNN 自主學習獲得 x 與 y 的關係;之後,我們就
可以透過 CNN 從 x 知道 (或得到) y。
CNN
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 8
3. 深度學習在電腦視覺應用上的疑問
 疑問探討原有五個面向 (aspects):
深度學習與傳統方法的比較
深度學習的架構問題
深度學習的訓練問題
深度學習的訓練資料集問題
深度學習的應用問題
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 9
 電腦視覺的應用以
先進駕駛輔助系統 (ADAS):
車輛、行人、障礙物偵測
人臉偵測與辨識、
手勢辨識、
瑕疵檢測、
3D 物件偵測、辨識、與 3D 定位
為例
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 10
Q1. 所有電腦視覺的問題,都可以用深度學習解決嗎
A1. 這是探討深度學習的應用廣度,
深度學習用得好不好是另一個問題。
3.1. 深度學習與傳統方法的比較
只要能將問題描述成兩類變數 x 與 y,並關聯 x
與 y 讓我們可以藉由 CNN 從 x 知道 y,那麼這
個問題就可以用深度學習解決。
x (影像/數值) y (數值/影像)CNN
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 11
Q2. 深度學習一定比傳統方法好嗎 ?
A2. 不是;例如,
左前方那個人離我有多遠 ? 在左前方幾度 ?
他有多高 ?
印刷電路板 (PCB) 的物件 (pad) 大小/顏色度量、
先進駕駛輔助系統 (ADAS) 的車道偏離警示、
3D景觀/模型的方位估計與重建、
2D/3D 動態分析 (motion acquisition)、.. 等
牽涉到幾何計算、數值精算、3D 運算的度量、
估計、重建等議題,深度學習沒有比較好。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 12
 12 項先進駕駛輔助系統的視覺偵測與辨識技術
1. 車道偏離警示 LDW (lane departure warning)
2. 前車碰撞警示 FCW (forward collision warning)
3. 盲點偵測 BSD (blind spot detection) = LCA
4. 行人碰撞警示 PCW (pedestrian collision warning)
5. 交通標誌/號誌偵測與辨識 TSSR
6. 全周俯瞰監視系統 STM (= AVM)
7. 廣域全周俯瞰監視與偵測 WSTD
8. 影像式停車導引 IPG (image-based parking guiding)
9. 倒車碰撞警示 RCW (rear collision warning)
10.影像式主動跟車偵測 ISG
11. 自動跟隨巡航 AFN (automatic following navigation)
12.昏睡偵測 DD (drowsiness detection) = AM
只
用
一
個
2D
相
機
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 13
 車道偏離警示 (LDW)
i. 可偵測各種車道線 (lane marker)
ii. 可適應各種天候狀況
iii. 可從一邊車道線估計出另一邊
iv.可確實算出車道
偏離距離 (準確
到公分等級),
不是相機所見的
偏離距離。
第 iii, iv 兩項
深度學習做不好。
不需要深度學習 !
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 14
 前車碰撞警示 (FCW)
i. 車輛偵測的位置要準確。
ii. 適應各種天候狀況 (晴, 陰, 雨, 霧, 向陽, 夜)。
iii. 要能估計
前車距離。
困難的第ii項,
傳統方法做不好;
容易的第iii項,
深度學習做不好
 深度學習好 !
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 15
 影像式停車導引 (IPG)
i. 只用後視相機,不用旋轉感測器 (steering sensor)
ii. 軌跡計算要準確
2D角點偵測、比對、估計運動向量、及畫軌跡等
工作並不複雜,深度學習沒有比較好 !
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 16
Host vehicle obstacle
 倒車碰撞警示 (RCW)
i. 可分辨平面物及立面物 (障礙物)。
ii. 可估計物件距離。
偵測:深度學習比傳統方法穩定許多。
3D 判定:深度學習與傳統方法都不穩定。
一定要使用3D相機。綜合結果,深度學習好 !
d
non-
obstacle
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 17
Q3.在前車碰撞警示中,前車偵測的分類會影響到
偵測率嗎 ?
3.2. 深度學習的應用問題
A3. 車輛偵測的主要影響因素是天候狀況:
晴, 陰, 雨, 霧, 向陽, 夜, ..。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 18
若根據天候狀況,將車輛分類,則可能偵測率會
有所不同。
 分析車輛分類對於偵測結果的影響:
i. 車輛分為1類。
ii. 車輛分為3類:晴、雨、夜。
iii.車輛分為5類:晴、陰、小雨、大雨、夜。
類別數 1類 3類 5類
mAP 0.806 0.908 0.632
註:mAP = mean Average Precision,
與 FP, FN 都有關係。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 19
Q4.物件可以同時偵測與辨識 (Faster R-CNN, SSD,
YOLO),人臉同時偵測與辨識好嗎 ?
A4. 物件可以,人臉不好。
變異小
同時偵測與辨識表示偵測與辨識要共享特徵。
變異大
變
異
大
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 20
Q5. 深度學習偵測物件,偵測位置準確嗎 ?
A5. 深度學習步驟中,通常會一再使用池化 (pooling)
運算,以適應物件大小與位置的變異;也就因為
池化,而讓偵測位置較不準確。
K. He, G. Gkioxari, P. Dollár, and R. Girshick,
“Mask R-CNN,” (Jan. 2018)
以 ROIalign 取代 ROIpooling,用內插
(interpolation) 計算像素等級的分類
(segmentation) 結果;應用在偵測上,當然位置
可以更準確。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 21
Q6.深度學習可以取代深度影像 (depth image) 嗎 ?
A6. 一般 3D 偵測、辨識、與定位 (position) 都會使
用 3D 相機 (e.g., Kinect, RealSense, Lidar),
以獲得 “深度資料 (depth or range data)”。
使用深度學習就不需要深度資料了嗎 ?
深度資料 = 距離
距離可分成:”絕對距離” 與 “有限制的距離”。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 22
 Amodal detection of 3D objects in RGBD
有限制的距離
1. 只有矩形框。
2. 矩形框的一面
一定在地面上。
References
14 Learning rich features from RGB-
D Images for object detection and
segmentation
17 Amodal detection of 3D objects
inferring 3D bounding boxes from
2D ones in RGB-Depth Images
17 Deep sliding shapes for amodal
3D object detection in RGB-D
Images
17 Multi-modal deep feature learning
for RGB-D object detection
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 23
 2015 StixelNet
深度學習與傳統方法一樣,無法取得絕對距離,
一定要使用 3D 相機或其他距離設備 (e.g., Lidar,
Radar) 才能獲得絕對距離。
 傳統方法
可根據地面的限
制資訊或相機擺
置方位估計距離
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 24
 Bin picking
深度學習
適合做
偵測與辨識
,但不適合
做一般性的
定位。
 一般性的 3D 定位還是要依賴 3D 設備。
且精準的 3D 方位估計仍是依賴傳統方法求得;
例如,variant 3D template matching,
ICP (Iterative Closest Point), ..
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 25
Q7.深度學習增加使用深度影像一定比較好嗎 ?
A7. 目前仍然只有高解析度彩色
影像能夠提供最精密、最準
確的資料。
深度影像是
Intel
RealSense
D435 取得
with/without
IR projector.
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 26
 偵測與辨識結果
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 27
 RGBD Disjoint 之 RGB + D 網路的訓練方式
i. 先各別計算 loss function values,再直接相加
當作整體的誤差值做訓練;這樣的做法相當於
各別訓練 RGB 和 D 網路。
ii.最後結合 RGB + D 的 feature maps,從當中輸
出偵測與辨識的矩形框及機率值。
loss
function
Loss
function
add new loss
RGB Network
Depth Network
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 28
 RGBD Joint 之 RGB + D 網路的訓練方式
RGB 與 D 的最後一層 feature maps 相加,再計
算各 cell 的 loss function value。這樣的步驟相當
於 RGB 與 D 網路都根據同一個 feature maps 的
loss function value 調整網路參數。
RGB Network
Depth Network
19x19x45
feature maps
19x19x45
feature maps
19x19x45
feature maps
loss
add
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 29
Method Dataset mAP Top Bottom Side Back
RGB 300 pics 96.60 97.06 100 89.33 100
Depth 300 pics 94.89 97.06 91.82 90.67 100
RGBD DJ 300 pics 88.13 97.06 74.36 86.67 94.44
RGBD J 300 pics 93.46 91.18 92.31 90.35 100
 Numbers of samples for each class
Top : 414
Bottom : 335
Side : 1,070
Back : 310
 四種網路架構的偵測與辨識效果比較
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 30
 深度學習使用深度影像協助做偵測與辨識,在
i. 深度影像品質尚未提昇前,或
ii. 前景物與背景距離差異不大時,
深度影像並沒有沒多大好處,反而有壞處。
 因此目前深度影像只能協助 3D 定位 (方向與位置)
,且是以傳統方法套用深度資訊,計算物件表面
區塊的方向與位置。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 31
Q8. 彩色影像與深度影像要怎麼結合比較好 ?
A8. 深度學習中,彩色影像與深度影像的融合
(fusion) 有多種方式。
 以手勢辨識為例 (Loose hand gesture recognition)
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 32
 16 types of hand gestures captured from 5
persons (three males and two females).
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 33
 3,376 pairs of images as the training samples.
 1,116 pairs of images as the training samples.
# 0 # 1 # 2 # 3 # 4 # 5 # 6 # 7
Training 190 204 147 195 174 198 185 220
Testing 63 67 48 64 58 65 61 73
# 8 # 9 IoU
Let’s
GO Little
No
Ring OK Rock
Training 215 199 231 328 263 241 217 169
Testing 71 66 76 109 87 80 72 56
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 34
 We proposed seven different structures of FCN
for the hand gesture recognition, with
11 convolution layers, 6 pooling layers, and
converting feature maps to vector to concatenate
the different-sized feature maps.
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 35
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 36
1. DLHGR-1
2. DLHGR-2
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 37
3. DLHGR-3
4. DLHGR-4
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 38
5. DLHGR-5
6. DLHGR-6
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 39
7. DLHGR-7
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 40
Loss mAP Iteration Para.
DLHGR-1 0.0365404 0.992889 100,000 5.08M
DLHGR-2 0.0158716 0.995555 100,000 9.60M
DLHGR-3 0.0094135 0.995555 100,000 5.67M
DLHGR-4 0.0324673 0.988444 100,000 14.39M
DLHGR-5 0.0264452 0.995555 100,000 5.96M
DLHGR-6 0.0091398 0.997333 100,000 6.90M
DLHGR-7 0.0060491 0.996444 100,000 10.44M
 Comparison among the proposed FCNs
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 41
 Compared with other popular CNNs
Loss mAP Iteration Para.
DLHGR-6 0.009140 0.997333 100,000 6.90M
Alexnet
(color) 0.045242 0.987555 1,000,000 23.38M
Alexnet
(depth) 0.038303 0.987555 1,000,000 23.38M
GoogLeNet
(color) 0.036109 0.990222 2,000,000 4.72M
GoogLeNet
(depth) 0.075191 0.988444 2,000,000 4.72M
NIN (color) 0.630484 0.808000 300,000 0.968M
NIN (depth) 0.708565 0.797333 300,000 0.968M
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 42
Q9.神經網路 (NN) 可以解最佳輸入解的問題嗎 ?
A9. 原本問題是
“NN 可以做產線上最佳產品的監控應用嗎 ?”
在產線產品監控應用上可分成兩種方式:
i. 找出最好的機台控制參數,產出最好的產品,
ii. 即時監視產線機台控制參數,不產出瑕疵品。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 43
Q10. 生成對抗網路 (Generative Adversarial Nets,
GAN) 是非督導式的學習網路嗎 ?
Discriminator
Real world
Images
GeneratorRandom
vectors
Real
Fake
Sample
Sample
A10. 原創意義是同時訓練生成器 (Generator) 和判
別器 (Discriminator) 相互競爭,以達到兩者均
衡 (equilibrium) 穩定的學習結果;但可擴充成
半督導式 (semi-supervised) 學習。
Max.
correct
Max. D incorrect
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 44
 原生網路似乎可做成非督導式學習;但在實際應用
上,大都還是用成 “督導式的生成網路”;例如,
例一:自動移除影像中的外嵌字 (2017)
含有外嵌
字的影像
FCN
產生文字
區塊遮罩
GAN
產生修補影像
移除文字的
修補影像
生成的遮罩
FCN 與 GAN 分別獨立訓練,一起測試/應用。
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 45
 FCN 訓練流程 with end-to-end structure
Input
image
Ground
truth
FCN
產生文字
區塊遮罩
Generated
mask
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 46
 GAN 訓練流程
生成器 (G)
產生修補影像
判別器 (D)
評斷修補效果
Mask image
Corrupt images Generated image
Real image
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 47
Corrupted image . Ground truth mask . Raw image . Inpainted image
PSNR 29.11 / SSIM 0.968
Corrupted image . Generated mask . Raw image . Inpainted image
PSNR 30.77 / SSIM 0.973
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 48
例二:瑕疵檢測 (2018)
A performance evaluation of defect detection
by using denoising autoencoder GAN
Generated
image C
Discriminator
Generator
Artificial
defective
image B
Actual
non-defective
image A
Loss = |A - C|
to improve G
Defect = |B - C|
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 49
例三:瑕疵檢測 (2018)
Study on machine learning based intelligent
defect detection system
Purpose: To auto generates massive, diverse and
labeled samples.
Discriminator
GeneratorNoise
Real image A
Generated image B
Loss = |A - B|
to improve G
深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 50
4. 結論
 深度學習不是萬能;但有了深度學習,確實解決
了過去許多不易或不穩定的問題。
 在應用上不必把深度學習看成 “完全獨立系統”
(stand alone system),深度學習系統可以完全用
C或Python程式實現出來,當然就可以與傳統方
法結合應用,各別貢獻所長。

More Related Content

What's hot

Cross-modality meta-survey of dataset
Cross-modality meta-survey of datasetCross-modality meta-survey of dataset
Cross-modality meta-survey of datasetcvpaper. challenge
 
論文紹介:End-to-End Object Detection with Transformers
論文紹介:End-to-End Object Detection with Transformers論文紹介:End-to-End Object Detection with Transformers
論文紹介:End-to-End Object Detection with TransformersToru Tamaki
 
[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis
[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis
[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image SynthesisDeep Learning JP
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
Direct feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural NetworksDirect feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural NetworksDeep Learning JP
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)Tenki Lee
 
2007 TFT LCD-AOI教學檔案
2007 TFT LCD-AOI教學檔案2007 TFT LCD-AOI教學檔案
2007 TFT LCD-AOI教學檔案CHENHuiMei
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural NetworksSeiya Tokui
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A SurveyDeep Learning JP
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationtancoro
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリングNorishige Fukushima
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP LatentsDeep Learning JP
 
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?kazuki ide
 
社會網絡分析法軟體-NodeXL教學-郭迺鋒與林崑峯-三星課程網2013
社會網絡分析法軟體-NodeXL教學-郭迺鋒與林崑峯-三星課程網2013社會網絡分析法軟體-NodeXL教學-郭迺鋒與林崑峯-三星課程網2013
社會網絡分析法軟體-NodeXL教學-郭迺鋒與林崑峯-三星課程網2013Beckett Hsieh
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...Deep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 

What's hot (20)

Cross-modality meta-survey of dataset
Cross-modality meta-survey of datasetCross-modality meta-survey of dataset
Cross-modality meta-survey of dataset
 
論文紹介:End-to-End Object Detection with Transformers
論文紹介:End-to-End Object Detection with Transformers論文紹介:End-to-End Object Detection with Transformers
論文紹介:End-to-End Object Detection with Transformers
 
[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis
[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis
[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
Direct feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural NetworksDirect feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural Networks
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
2007 TFT LCD-AOI教學檔案
2007 TFT LCD-AOI教學檔案2007 TFT LCD-AOI教學檔案
2007 TFT LCD-AOI教學檔案
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identification
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリング
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
 
社會網絡分析法軟體-NodeXL教學-郭迺鋒與林崑峯-三星課程網2013
社會網絡分析法軟體-NodeXL教學-郭迺鋒與林崑峯-三星課程網2013社會網絡分析法軟體-NodeXL教學-郭迺鋒與林崑峯-三星課程網2013
社會網絡分析法軟體-NodeXL教學-郭迺鋒與林崑峯-三星課程網2013
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 

Similar to 2018AOI論壇_深度學習在電腦視覺應用上的疑問_中央大學曾定章

Chapter01 1 cg_new
Chapter01 1 cg_newChapter01 1 cg_new
Chapter01 1 cg_newZheng Li
 
数码相机基础知识(图文并茂普及版)
数码相机基础知识(图文并茂普及版)数码相机基础知识(图文并茂普及版)
数码相机基础知识(图文并茂普及版)caogenhe
 
仿生視覺目標動態追蹤與3D人臉即時 辨認系統之設計與實現
仿生視覺目標動態追蹤與3D人臉即時 辨認系統之設計與實現仿生視覺目標動態追蹤與3D人臉即時 辨認系統之設計與實現
仿生視覺目標動態追蹤與3D人臉即時 辨認系統之設計與實現又瑋 賴
 
先進駕駛輔助系統的多樣性視覺偵測與辨識技術_中央大學 曾定章教授
先進駕駛輔助系統的多樣性視覺偵測與辨識技術_中央大學 曾定章教授先進駕駛輔助系統的多樣性視覺偵測與辨識技術_中央大學 曾定章教授
先進駕駛輔助系統的多樣性視覺偵測與辨識技術_中央大學 曾定章教授CHENHuiMei
 
手勢以及身體骨架辨識
手勢以及身體骨架辨識手勢以及身體骨架辨識
手勢以及身體骨架辨識CHENHuiMei
 
How to transfer the paper to the box ?
How to transfer the paper to the box ?How to transfer the paper to the box ?
How to transfer the paper to the box ?Deloitte Consulting
 
電腦斷層植牙影像定位器0417
電腦斷層植牙影像定位器0417電腦斷層植牙影像定位器0417
電腦斷層植牙影像定位器0417threea3a
 
医学影像+人工智能的特点、技术与趋势.pdf
医学影像+人工智能的特点、技术与趋势.pdf医学影像+人工智能的特点、技术与趋势.pdf
医学影像+人工智能的特点、技术与趋势.pdftanmin14
 

Similar to 2018AOI論壇_深度學習在電腦視覺應用上的疑問_中央大學曾定章 (9)

Chapter01 1 cg_new
Chapter01 1 cg_newChapter01 1 cg_new
Chapter01 1 cg_new
 
数码相机基础知识(图文并茂普及版)
数码相机基础知识(图文并茂普及版)数码相机基础知识(图文并茂普及版)
数码相机基础知识(图文并茂普及版)
 
仿生視覺目標動態追蹤與3D人臉即時 辨認系統之設計與實現
仿生視覺目標動態追蹤與3D人臉即時 辨認系統之設計與實現仿生視覺目標動態追蹤與3D人臉即時 辨認系統之設計與實現
仿生視覺目標動態追蹤與3D人臉即時 辨認系統之設計與實現
 
先進駕駛輔助系統的多樣性視覺偵測與辨識技術_中央大學 曾定章教授
先進駕駛輔助系統的多樣性視覺偵測與辨識技術_中央大學 曾定章教授先進駕駛輔助系統的多樣性視覺偵測與辨識技術_中央大學 曾定章教授
先進駕駛輔助系統的多樣性視覺偵測與辨識技術_中央大學 曾定章教授
 
手勢以及身體骨架辨識
手勢以及身體骨架辨識手勢以及身體骨架辨識
手勢以及身體骨架辨識
 
How to transfer the paper to the box ?
How to transfer the paper to the box ?How to transfer the paper to the box ?
How to transfer the paper to the box ?
 
電腦斷層植牙影像定位器0417
電腦斷層植牙影像定位器0417電腦斷層植牙影像定位器0417
電腦斷層植牙影像定位器0417
 
Ccd application
Ccd applicationCcd application
Ccd application
 
医学影像+人工智能的特点、技术与趋势.pdf
医学影像+人工智能的特点、技术与趋势.pdf医学影像+人工智能的特点、技术与趋势.pdf
医学影像+人工智能的特点、技术与趋势.pdf
 

More from CHENHuiMei

小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵CHENHuiMei
 
QIF對AOI設備業之衝擊與機會
QIF對AOI設備業之衝擊與機會QIF對AOI設備業之衝擊與機會
QIF對AOI設備業之衝擊與機會CHENHuiMei
 
產研融合推手-台大AOI設備研發聯盟_台大陳亮嘉
產研融合推手-台大AOI設備研發聯盟_台大陳亮嘉產研融合推手-台大AOI設備研發聯盟_台大陳亮嘉
產研融合推手-台大AOI設備研發聯盟_台大陳亮嘉CHENHuiMei
 
基於少樣本深度學習之橡膠墊片檢測系統
基於少樣本深度學習之橡膠墊片檢測系統基於少樣本深度學習之橡膠墊片檢測系統
基於少樣本深度學習之橡膠墊片檢測系統CHENHuiMei
 
AOI智慧升級─AI訓練師在地養成計畫_台灣人工智慧學校
AOI智慧升級─AI訓練師在地養成計畫_台灣人工智慧學校AOI智慧升級─AI訓練師在地養成計畫_台灣人工智慧學校
AOI智慧升級─AI訓練師在地養成計畫_台灣人工智慧學校CHENHuiMei
 
使用人工智慧檢測三維錫球瑕疵_台大傅楸善
使用人工智慧檢測三維錫球瑕疵_台大傅楸善使用人工智慧檢測三維錫球瑕疵_台大傅楸善
使用人工智慧檢測三維錫球瑕疵_台大傅楸善CHENHuiMei
 
IIoT發展趨勢及設備業者因應之_微軟葉怡君
IIoT發展趨勢及設備業者因應之_微軟葉怡君IIoT發展趨勢及設備業者因應之_微軟葉怡君
IIoT發展趨勢及設備業者因應之_微軟葉怡君CHENHuiMei
 
精密機械的空間軌跡精度光學檢測法_台大范光照
精密機械的空間軌跡精度光學檢測法_台大范光照精密機械的空間軌跡精度光學檢測法_台大范光照
精密機械的空間軌跡精度光學檢測法_台大范光照CHENHuiMei
 
When AOI meets AI
When AOI meets AIWhen AOI meets AI
When AOI meets AICHENHuiMei
 
2018AOI論壇_基於生成對抗網路之非監督式AOI技術_工研院蔡雅惠
2018AOI論壇_基於生成對抗網路之非監督式AOI技術_工研院蔡雅惠2018AOI論壇_基於生成對抗網路之非監督式AOI技術_工研院蔡雅惠
2018AOI論壇_基於生成對抗網路之非監督式AOI技術_工研院蔡雅惠CHENHuiMei
 
2018AOIEA論壇Keynote_眺望趨勢 量測設備未來10年發展重點_致茂曾一士
2018AOIEA論壇Keynote_眺望趨勢 量測設備未來10年發展重點_致茂曾一士2018AOIEA論壇Keynote_眺望趨勢 量測設備未來10年發展重點_致茂曾一士
2018AOIEA論壇Keynote_眺望趨勢 量測設備未來10年發展重點_致茂曾一士CHENHuiMei
 
2018AOI論壇Keynote_AI入魂製造領域現況與趨勢_工研院熊治民
2018AOI論壇Keynote_AI入魂製造領域現況與趨勢_工研院熊治民2018AOI論壇Keynote_AI入魂製造領域現況與趨勢_工研院熊治民
2018AOI論壇Keynote_AI入魂製造領域現況與趨勢_工研院熊治民CHENHuiMei
 
2018AOI論壇_AOI and IoT產線應用_工研院周森益
2018AOI論壇_AOI and IoT產線應用_工研院周森益2018AOI論壇_AOI and IoT產線應用_工研院周森益
2018AOI論壇_AOI and IoT產線應用_工研院周森益CHENHuiMei
 
2018AOI論壇_AOI參與整廠協作之實務建議_達明機器人黃鐘賢
2018AOI論壇_AOI參與整廠協作之實務建議_達明機器人黃鐘賢2018AOI論壇_AOI參與整廠協作之實務建議_達明機器人黃鐘賢
2018AOI論壇_AOI參與整廠協作之實務建議_達明機器人黃鐘賢CHENHuiMei
 
2018AOI論壇_深度學習於表面瑕疪檢測_元智大學蔡篤銘
2018AOI論壇_深度學習於表面瑕疪檢測_元智大學蔡篤銘2018AOI論壇_深度學習於表面瑕疪檢測_元智大學蔡篤銘
2018AOI論壇_深度學習於表面瑕疪檢測_元智大學蔡篤銘CHENHuiMei
 
2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏
2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏
2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏CHENHuiMei
 
2018AOI論壇_如何導入深度學習來提升工業瑕疵檢測技術_工研院賴璟皓
2018AOI論壇_如何導入深度學習來提升工業瑕疵檢測技術_工研院賴璟皓2018AOI論壇_如何導入深度學習來提升工業瑕疵檢測技術_工研院賴璟皓
2018AOI論壇_如何導入深度學習來提升工業瑕疵檢測技術_工研院賴璟皓CHENHuiMei
 
200704 Dr. Schenk 產品策略
200704 Dr. Schenk 產品策略200704 Dr. Schenk 產品策略
200704 Dr. Schenk 產品策略CHENHuiMei
 

More from CHENHuiMei (20)

小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
 
QIF對AOI設備業之衝擊與機會
QIF對AOI設備業之衝擊與機會QIF對AOI設備業之衝擊與機會
QIF對AOI設備業之衝擊與機會
 
產研融合推手-台大AOI設備研發聯盟_台大陳亮嘉
產研融合推手-台大AOI設備研發聯盟_台大陳亮嘉產研融合推手-台大AOI設備研發聯盟_台大陳亮嘉
產研融合推手-台大AOI設備研發聯盟_台大陳亮嘉
 
基於少樣本深度學習之橡膠墊片檢測系統
基於少樣本深度學習之橡膠墊片檢測系統基於少樣本深度學習之橡膠墊片檢測系統
基於少樣本深度學習之橡膠墊片檢測系統
 
AOI智慧升級─AI訓練師在地養成計畫_台灣人工智慧學校
AOI智慧升級─AI訓練師在地養成計畫_台灣人工智慧學校AOI智慧升級─AI訓練師在地養成計畫_台灣人工智慧學校
AOI智慧升級─AI訓練師在地養成計畫_台灣人工智慧學校
 
使用人工智慧檢測三維錫球瑕疵_台大傅楸善
使用人工智慧檢測三維錫球瑕疵_台大傅楸善使用人工智慧檢測三維錫球瑕疵_台大傅楸善
使用人工智慧檢測三維錫球瑕疵_台大傅楸善
 
IIoT發展趨勢及設備業者因應之_微軟葉怡君
IIoT發展趨勢及設備業者因應之_微軟葉怡君IIoT發展趨勢及設備業者因應之_微軟葉怡君
IIoT發展趨勢及設備業者因應之_微軟葉怡君
 
精密機械的空間軌跡精度光學檢測法_台大范光照
精密機械的空間軌跡精度光學檢測法_台大范光照精密機械的空間軌跡精度光學檢測法_台大范光照
精密機械的空間軌跡精度光學檢測法_台大范光照
 
Report
ReportReport
Report
 
Deep learning
Deep learningDeep learning
Deep learning
 
When AOI meets AI
When AOI meets AIWhen AOI meets AI
When AOI meets AI
 
2018AOI論壇_基於生成對抗網路之非監督式AOI技術_工研院蔡雅惠
2018AOI論壇_基於生成對抗網路之非監督式AOI技術_工研院蔡雅惠2018AOI論壇_基於生成對抗網路之非監督式AOI技術_工研院蔡雅惠
2018AOI論壇_基於生成對抗網路之非監督式AOI技術_工研院蔡雅惠
 
2018AOIEA論壇Keynote_眺望趨勢 量測設備未來10年發展重點_致茂曾一士
2018AOIEA論壇Keynote_眺望趨勢 量測設備未來10年發展重點_致茂曾一士2018AOIEA論壇Keynote_眺望趨勢 量測設備未來10年發展重點_致茂曾一士
2018AOIEA論壇Keynote_眺望趨勢 量測設備未來10年發展重點_致茂曾一士
 
2018AOI論壇Keynote_AI入魂製造領域現況與趨勢_工研院熊治民
2018AOI論壇Keynote_AI入魂製造領域現況與趨勢_工研院熊治民2018AOI論壇Keynote_AI入魂製造領域現況與趨勢_工研院熊治民
2018AOI論壇Keynote_AI入魂製造領域現況與趨勢_工研院熊治民
 
2018AOI論壇_AOI and IoT產線應用_工研院周森益
2018AOI論壇_AOI and IoT產線應用_工研院周森益2018AOI論壇_AOI and IoT產線應用_工研院周森益
2018AOI論壇_AOI and IoT產線應用_工研院周森益
 
2018AOI論壇_AOI參與整廠協作之實務建議_達明機器人黃鐘賢
2018AOI論壇_AOI參與整廠協作之實務建議_達明機器人黃鐘賢2018AOI論壇_AOI參與整廠協作之實務建議_達明機器人黃鐘賢
2018AOI論壇_AOI參與整廠協作之實務建議_達明機器人黃鐘賢
 
2018AOI論壇_深度學習於表面瑕疪檢測_元智大學蔡篤銘
2018AOI論壇_深度學習於表面瑕疪檢測_元智大學蔡篤銘2018AOI論壇_深度學習於表面瑕疪檢測_元智大學蔡篤銘
2018AOI論壇_深度學習於表面瑕疪檢測_元智大學蔡篤銘
 
2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏
2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏
2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏
 
2018AOI論壇_如何導入深度學習來提升工業瑕疵檢測技術_工研院賴璟皓
2018AOI論壇_如何導入深度學習來提升工業瑕疵檢測技術_工研院賴璟皓2018AOI論壇_如何導入深度學習來提升工業瑕疵檢測技術_工研院賴璟皓
2018AOI論壇_如何導入深度學習來提升工業瑕疵檢測技術_工研院賴璟皓
 
200704 Dr. Schenk 產品策略
200704 Dr. Schenk 產品策略200704 Dr. Schenk 產品策略
200704 Dr. Schenk 產品策略
 

2018AOI論壇_深度學習在電腦視覺應用上的疑問_中央大學曾定章

  • 1. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 1 深度學習 在電腦視覺應用上的疑問 Questions for deep learning applied to computer vision 曾定章 中央大學資訊工程系 教授 tsengdc@gmail.com 2018 / 10 / 4 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 2 內 容 1. 電腦視覺的意義 2. 深度學習的意義 3. 深度學習在電腦視覺應用上的疑問 4. 結論
  • 2. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 3  人眼視覺 (human vision) What ? Who ? Shape ? Color ? Where ? Distance ? Direction ? Motion ? Speed ? 1. 電腦視覺的意義 eye 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 4  電腦視覺 (computer vision) What ? Who ? Shape ? Color ? Where ? Distance ? Direction ? Motion ? Speed ? camera
  • 3. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 5  電腦視覺的研究目的 就是要讓電腦具有像人一樣的視覺能力。  在結構 (硬體) 與功能 (軟體) 上, 電腦視覺與人眼視覺有很大的差異。  電腦視覺先天不足的問題,要依賴後天的硬體設備 改進及軟體演算法協助,才能創造出有用的視覺 處理 (processing)、 追蹤 (tracking)、 偵測 (detection)、 估計 (estimation)、 辨識 (recognition)、 度量 (measurement)、 檢測 (inspection)、 分析 (analysis)、 生成 (generation)、 景觀/模型重建 等功能。 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 6 2. 深度學習的意義  深度學習 深度學習 (deep learning) = 深度神經網路 (deep neural network) = 卷積神經網路 (convolutional neural network) = 深度卷積神經網路 (deep CNN) 輸入 輸出
  • 4. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 7 x (影像/數值) y (數值/影像)  卷積神經網路 (CNN) 主要應用:擷取特徵、辨識、偵測、分割、 .. i. 以學習配合辨識來擷取特徵,表現極為出色。 ii. CNN 可以單獨用於特徵擷取、辨識、偵測、分 割、生成、..,也可以多項功能串聯使用。這樣 的組合就衍伸出多種應用上的選擇 (或疑問)。  給卷積神經網路 (CNN) 許多輸入 x’s 與 輸出 y’s, CNN 自主學習獲得 x 與 y 的關係;之後,我們就 可以透過 CNN 從 x 知道 (或得到) y。 CNN 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 8 3. 深度學習在電腦視覺應用上的疑問  疑問探討原有五個面向 (aspects): 深度學習與傳統方法的比較 深度學習的架構問題 深度學習的訓練問題 深度學習的訓練資料集問題 深度學習的應用問題
  • 5. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 9  電腦視覺的應用以 先進駕駛輔助系統 (ADAS): 車輛、行人、障礙物偵測 人臉偵測與辨識、 手勢辨識、 瑕疵檢測、 3D 物件偵測、辨識、與 3D 定位 為例 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 10 Q1. 所有電腦視覺的問題,都可以用深度學習解決嗎 A1. 這是探討深度學習的應用廣度, 深度學習用得好不好是另一個問題。 3.1. 深度學習與傳統方法的比較 只要能將問題描述成兩類變數 x 與 y,並關聯 x 與 y 讓我們可以藉由 CNN 從 x 知道 y,那麼這 個問題就可以用深度學習解決。 x (影像/數值) y (數值/影像)CNN
  • 6. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 11 Q2. 深度學習一定比傳統方法好嗎 ? A2. 不是;例如, 左前方那個人離我有多遠 ? 在左前方幾度 ? 他有多高 ? 印刷電路板 (PCB) 的物件 (pad) 大小/顏色度量、 先進駕駛輔助系統 (ADAS) 的車道偏離警示、 3D景觀/模型的方位估計與重建、 2D/3D 動態分析 (motion acquisition)、.. 等 牽涉到幾何計算、數值精算、3D 運算的度量、 估計、重建等議題,深度學習沒有比較好。 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 12  12 項先進駕駛輔助系統的視覺偵測與辨識技術 1. 車道偏離警示 LDW (lane departure warning) 2. 前車碰撞警示 FCW (forward collision warning) 3. 盲點偵測 BSD (blind spot detection) = LCA 4. 行人碰撞警示 PCW (pedestrian collision warning) 5. 交通標誌/號誌偵測與辨識 TSSR 6. 全周俯瞰監視系統 STM (= AVM) 7. 廣域全周俯瞰監視與偵測 WSTD 8. 影像式停車導引 IPG (image-based parking guiding) 9. 倒車碰撞警示 RCW (rear collision warning) 10.影像式主動跟車偵測 ISG 11. 自動跟隨巡航 AFN (automatic following navigation) 12.昏睡偵測 DD (drowsiness detection) = AM 只 用 一 個 2D 相 機
  • 7. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 13  車道偏離警示 (LDW) i. 可偵測各種車道線 (lane marker) ii. 可適應各種天候狀況 iii. 可從一邊車道線估計出另一邊 iv.可確實算出車道 偏離距離 (準確 到公分等級), 不是相機所見的 偏離距離。 第 iii, iv 兩項 深度學習做不好。 不需要深度學習 ! 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 14  前車碰撞警示 (FCW) i. 車輛偵測的位置要準確。 ii. 適應各種天候狀況 (晴, 陰, 雨, 霧, 向陽, 夜)。 iii. 要能估計 前車距離。 困難的第ii項, 傳統方法做不好; 容易的第iii項, 深度學習做不好  深度學習好 !
  • 8. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 15  影像式停車導引 (IPG) i. 只用後視相機,不用旋轉感測器 (steering sensor) ii. 軌跡計算要準確 2D角點偵測、比對、估計運動向量、及畫軌跡等 工作並不複雜,深度學習沒有比較好 ! 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 16 Host vehicle obstacle  倒車碰撞警示 (RCW) i. 可分辨平面物及立面物 (障礙物)。 ii. 可估計物件距離。 偵測:深度學習比傳統方法穩定許多。 3D 判定:深度學習與傳統方法都不穩定。 一定要使用3D相機。綜合結果,深度學習好 ! d non- obstacle
  • 9. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 17 Q3.在前車碰撞警示中,前車偵測的分類會影響到 偵測率嗎 ? 3.2. 深度學習的應用問題 A3. 車輛偵測的主要影響因素是天候狀況: 晴, 陰, 雨, 霧, 向陽, 夜, ..。 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 18 若根據天候狀況,將車輛分類,則可能偵測率會 有所不同。  分析車輛分類對於偵測結果的影響: i. 車輛分為1類。 ii. 車輛分為3類:晴、雨、夜。 iii.車輛分為5類:晴、陰、小雨、大雨、夜。 類別數 1類 3類 5類 mAP 0.806 0.908 0.632 註:mAP = mean Average Precision, 與 FP, FN 都有關係。
  • 10. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 19 Q4.物件可以同時偵測與辨識 (Faster R-CNN, SSD, YOLO),人臉同時偵測與辨識好嗎 ? A4. 物件可以,人臉不好。 變異小 同時偵測與辨識表示偵測與辨識要共享特徵。 變異大 變 異 大 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 20 Q5. 深度學習偵測物件,偵測位置準確嗎 ? A5. 深度學習步驟中,通常會一再使用池化 (pooling) 運算,以適應物件大小與位置的變異;也就因為 池化,而讓偵測位置較不準確。 K. He, G. Gkioxari, P. Dollár, and R. Girshick, “Mask R-CNN,” (Jan. 2018) 以 ROIalign 取代 ROIpooling,用內插 (interpolation) 計算像素等級的分類 (segmentation) 結果;應用在偵測上,當然位置 可以更準確。
  • 11. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 21 Q6.深度學習可以取代深度影像 (depth image) 嗎 ? A6. 一般 3D 偵測、辨識、與定位 (position) 都會使 用 3D 相機 (e.g., Kinect, RealSense, Lidar), 以獲得 “深度資料 (depth or range data)”。 使用深度學習就不需要深度資料了嗎 ? 深度資料 = 距離 距離可分成:”絕對距離” 與 “有限制的距離”。 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 22  Amodal detection of 3D objects in RGBD 有限制的距離 1. 只有矩形框。 2. 矩形框的一面 一定在地面上。 References 14 Learning rich features from RGB- D Images for object detection and segmentation 17 Amodal detection of 3D objects inferring 3D bounding boxes from 2D ones in RGB-Depth Images 17 Deep sliding shapes for amodal 3D object detection in RGB-D Images 17 Multi-modal deep feature learning for RGB-D object detection
  • 12. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 23  2015 StixelNet 深度學習與傳統方法一樣,無法取得絕對距離, 一定要使用 3D 相機或其他距離設備 (e.g., Lidar, Radar) 才能獲得絕對距離。  傳統方法 可根據地面的限 制資訊或相機擺 置方位估計距離 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 24  Bin picking 深度學習 適合做 偵測與辨識 ,但不適合 做一般性的 定位。  一般性的 3D 定位還是要依賴 3D 設備。 且精準的 3D 方位估計仍是依賴傳統方法求得; 例如,variant 3D template matching, ICP (Iterative Closest Point), ..
  • 13. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 25 Q7.深度學習增加使用深度影像一定比較好嗎 ? A7. 目前仍然只有高解析度彩色 影像能夠提供最精密、最準 確的資料。 深度影像是 Intel RealSense D435 取得 with/without IR projector. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 26  偵測與辨識結果
  • 14. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 27  RGBD Disjoint 之 RGB + D 網路的訓練方式 i. 先各別計算 loss function values,再直接相加 當作整體的誤差值做訓練;這樣的做法相當於 各別訓練 RGB 和 D 網路。 ii.最後結合 RGB + D 的 feature maps,從當中輸 出偵測與辨識的矩形框及機率值。 loss function Loss function add new loss RGB Network Depth Network 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 28  RGBD Joint 之 RGB + D 網路的訓練方式 RGB 與 D 的最後一層 feature maps 相加,再計 算各 cell 的 loss function value。這樣的步驟相當 於 RGB 與 D 網路都根據同一個 feature maps 的 loss function value 調整網路參數。 RGB Network Depth Network 19x19x45 feature maps 19x19x45 feature maps 19x19x45 feature maps loss add
  • 15. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 29 Method Dataset mAP Top Bottom Side Back RGB 300 pics 96.60 97.06 100 89.33 100 Depth 300 pics 94.89 97.06 91.82 90.67 100 RGBD DJ 300 pics 88.13 97.06 74.36 86.67 94.44 RGBD J 300 pics 93.46 91.18 92.31 90.35 100  Numbers of samples for each class Top : 414 Bottom : 335 Side : 1,070 Back : 310  四種網路架構的偵測與辨識效果比較 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 30  深度學習使用深度影像協助做偵測與辨識,在 i. 深度影像品質尚未提昇前,或 ii. 前景物與背景距離差異不大時, 深度影像並沒有沒多大好處,反而有壞處。  因此目前深度影像只能協助 3D 定位 (方向與位置) ,且是以傳統方法套用深度資訊,計算物件表面 區塊的方向與位置。
  • 16. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 31 Q8. 彩色影像與深度影像要怎麼結合比較好 ? A8. 深度學習中,彩色影像與深度影像的融合 (fusion) 有多種方式。  以手勢辨識為例 (Loose hand gesture recognition) 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 32  16 types of hand gestures captured from 5 persons (three males and two females).
  • 17. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 33  3,376 pairs of images as the training samples.  1,116 pairs of images as the training samples. # 0 # 1 # 2 # 3 # 4 # 5 # 6 # 7 Training 190 204 147 195 174 198 185 220 Testing 63 67 48 64 58 65 61 73 # 8 # 9 IoU Let’s GO Little No Ring OK Rock Training 215 199 231 328 263 241 217 169 Testing 71 66 76 109 87 80 72 56 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 34  We proposed seven different structures of FCN for the hand gesture recognition, with 11 convolution layers, 6 pooling layers, and converting feature maps to vector to concatenate the different-sized feature maps.
  • 18. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 35 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 36 1. DLHGR-1 2. DLHGR-2
  • 19. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 37 3. DLHGR-3 4. DLHGR-4 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 38 5. DLHGR-5 6. DLHGR-6
  • 20. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 39 7. DLHGR-7 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 40 Loss mAP Iteration Para. DLHGR-1 0.0365404 0.992889 100,000 5.08M DLHGR-2 0.0158716 0.995555 100,000 9.60M DLHGR-3 0.0094135 0.995555 100,000 5.67M DLHGR-4 0.0324673 0.988444 100,000 14.39M DLHGR-5 0.0264452 0.995555 100,000 5.96M DLHGR-6 0.0091398 0.997333 100,000 6.90M DLHGR-7 0.0060491 0.996444 100,000 10.44M  Comparison among the proposed FCNs
  • 21. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 41  Compared with other popular CNNs Loss mAP Iteration Para. DLHGR-6 0.009140 0.997333 100,000 6.90M Alexnet (color) 0.045242 0.987555 1,000,000 23.38M Alexnet (depth) 0.038303 0.987555 1,000,000 23.38M GoogLeNet (color) 0.036109 0.990222 2,000,000 4.72M GoogLeNet (depth) 0.075191 0.988444 2,000,000 4.72M NIN (color) 0.630484 0.808000 300,000 0.968M NIN (depth) 0.708565 0.797333 300,000 0.968M 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 42 Q9.神經網路 (NN) 可以解最佳輸入解的問題嗎 ? A9. 原本問題是 “NN 可以做產線上最佳產品的監控應用嗎 ?” 在產線產品監控應用上可分成兩種方式: i. 找出最好的機台控制參數,產出最好的產品, ii. 即時監視產線機台控制參數,不產出瑕疵品。
  • 22. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 43 Q10. 生成對抗網路 (Generative Adversarial Nets, GAN) 是非督導式的學習網路嗎 ? Discriminator Real world Images GeneratorRandom vectors Real Fake Sample Sample A10. 原創意義是同時訓練生成器 (Generator) 和判 別器 (Discriminator) 相互競爭,以達到兩者均 衡 (equilibrium) 穩定的學習結果;但可擴充成 半督導式 (semi-supervised) 學習。 Max. correct Max. D incorrect 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 44  原生網路似乎可做成非督導式學習;但在實際應用 上,大都還是用成 “督導式的生成網路”;例如, 例一:自動移除影像中的外嵌字 (2017) 含有外嵌 字的影像 FCN 產生文字 區塊遮罩 GAN 產生修補影像 移除文字的 修補影像 生成的遮罩 FCN 與 GAN 分別獨立訓練,一起測試/應用。
  • 23. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 45  FCN 訓練流程 with end-to-end structure Input image Ground truth FCN 產生文字 區塊遮罩 Generated mask 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 46  GAN 訓練流程 生成器 (G) 產生修補影像 判別器 (D) 評斷修補效果 Mask image Corrupt images Generated image Real image
  • 24. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 47 Corrupted image . Ground truth mask . Raw image . Inpainted image PSNR 29.11 / SSIM 0.968 Corrupted image . Generated mask . Raw image . Inpainted image PSNR 30.77 / SSIM 0.973 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 48 例二:瑕疵檢測 (2018) A performance evaluation of defect detection by using denoising autoencoder GAN Generated image C Discriminator Generator Artificial defective image B Actual non-defective image A Loss = |A - C| to improve G Defect = |B - C|
  • 25. 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 49 例三:瑕疵檢測 (2018) Study on machine learning based intelligent defect detection system Purpose: To auto generates massive, diverse and labeled samples. Discriminator GeneratorNoise Real image A Generated image B Loss = |A - B| to improve G 深度學習在電腦視覺應用上的疑問 D.-C. Tseng, NCU 50 4. 結論  深度學習不是萬能;但有了深度學習,確實解決 了過去許多不易或不穩定的問題。  在應用上不必把深度學習看成 “完全獨立系統” (stand alone system),深度學習系統可以完全用 C或Python程式實現出來,當然就可以與傳統方 法結合應用,各別貢獻所長。