YOLO V1 論文導讀

YOLO (You only look once)V1
AI Tech社群論文導讀
柯克（江雨）

物件偵測的介紹
其他先備知識
YOLO V1 介紹
Loss function 討論
YOLO V1 的缺陷
其他YOLO 的研究
結語
大綱

先自我介紹一下
本名柯克，臉書化名江雨
自由接案軟體工程師
目前正在做農業技術與 AI 應用
https://kokomexcelsa.github.io/kokoweb/

什麼是物件偵測（Object detection）
一張影像經過運算之後得知該影像中有哪些分類別，並得知分類別在影像中的位置
這樣的技術在監視攝影機、自駕車等領域，是相當重要的
框框一般稱為 Bounding boxes
在哪裡
是什麼

研究常用的資料集
Pascal VOC:
http://host.robots.ox.ac.uk/pascal/VOC/
● Person: person
● Animal: bird, cat, cow, dog, horse, sheep
● Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
● Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

Pascal VOC 的標記檔
<annotation>
<folder>VOC2012</folder>
<filename>xxxxxxxx.jpg</filename> //文件名稱
<source> //文件來源
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
</source>
<size> //圖片的長、寬、深
<width>500</width>
<height>366</height>
<depth>3</depth>
</size>
<segmented>1</segmented> //是否用於語義分割
<object> //偵測的目標，會有多個物件標簽
<name>aeroplane</name> //類別
<pose>Unspecified</pose> //拍攝角度
<truncated>0</truncated> //是否被截斷、0表示完整
<difficult>0</difficult> //是否容易被識別、0表示容易識別
<bndbox> //bounding-box, 包含左下角和右上角xy坐标
<xmin>9</xmin>
<ymin>107</ymin>
<xmax>499</xmax>
<ymax>263</ymax>
</bndbox>
</object>
...

用來評價物件偵測的IOU是什麼
IOU (Intersection over Union)：一般預測最常用的指標是 0.5 IOU，表示在一次
bounding box 預測中，該 bounding box 算出的 IOU > 0.5 時為預測成功。

用來評價物件偵測的 mAP 是什麼

用來評價物件偵測的 mAP 是什麼
https://sanchom.wordpress.com/tag/average-precision/

mAP（Mean Average Precision）
一個類別可以計算一個 AP
mAP 就是多個類別的 AP 平均起來
注意這是在 PASCAL VOC裡用的 mAP
在 COCO 這個資料集裡用的 mAP還乘上了 IOU
https://medium.com/@jonathan_hui/map-mean-average-precision-for-object-detection-45c121a31173

YOLO V1 在物件偵測的歷史定位
從 R-CNN 到 Fast R-CNN，大幅提高了物件偵測準確程度和效率
YOLO V1 突破了 R-CNN 最大限制：每FPS 偵測得太慢了
YOLO V1 的成功，帶領了後面版本 YOLO 的發展，又能更快更準確
YOLO V1 可以說是承先起後，繼往開來的經典論文！！

https://www.youtube.com/watch?v=U9c1gXO8xEU

YOLO V1 的核心精神
“We frame object detection as a regression
problem to spatially separated bounding
boxes and associated class probabilities.”

每個grid cell 預測
1. B 個框框的位置 (x, y, w, h)
2. 框框有沒有物件(confidence)劃分成 S×S 個grid cell
框框中心落在某grid cell内部
則中心 cell 負責 classification
每個框框預測 C
個條件機率
最後輸出 S x S x (5*B + C) 的 tensor
eg.
S = 7, B = 2, C = 20 (20 classes)
=> 是7×7×30 的 tensor

YOLO 網路架構
受到GoogLeNet啟發，用24個卷積層和2個全連接層
前20個卷積層是用ImageNet pretrain

Activation 用 Leaky ReLU
除了最後一層用 Linear

直接吐血的loss function
https://blog.csdn.net/c20081052/article/details/80236015

Sum-squared error
這麼長的loss function，本質上是Sum-squared error
大框框和小框框會提供同樣的權重
小error 在小框框中會對 IOU造成比較大的影響

兩個模型二合一
注意速度還是被Fast R-CNN所限制

YOLO V1 辨識畫作的能力很強

YOLO V1 的缺陷
在物件偵測的定位（location）上，還輸給 Fast R-CNN
物件太小或靠得太近的話，辨識會較差
為了求快，所以downsampling，在太過細緻的特徵上不易辨別
小error 在小框框中會對 IOU造成比較大的影響

YOLO V1 之後的研究
出了很多的升級版
YOLO V1 -> YOLO V2 -> YOLO 9000 -> YOLO V3
歡迎繼續來AI Tech 社群聽之後的論文導讀

YOLO V1結語
mAP 比 R-CNN 來得高，更加準確
有高FPS的辨識的需求，導入 YOLO 是比較好選擇
如果要辨識的目標太小或太近，可能會影響成功率
可以直接用後面版的YOLO

YOLO 官網：https://pjreddie.com/darknet/yolo/
程式碼：https://zhuanlan.zhihu.com/p/25053311
謝謝大家
歡迎討論指教

YOLO V1 論文導讀

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Ko Ko

More from Ko Ko (20)

YOLO V1 論文導讀