Introduction to YOLO detection model

ディープラーニングの最新動向
物体検出編①　YOLOモデル
2017/1/13
株式会社ウェブファーマー
大政　孝充

今回取り上げるのはこれ
[1] J Redmon, et al.”You Only Look Once: Unified, Real-
Time Object Detection”arXiv:1506.02640v5 9 May 2016.
物体検出において、1つのモデルで矩形の候補領域と分類
を同時に行うことで早い速度を達成した！

解説のポイント
①取り組んだ課題とは
②全体のアーキテクチャ
③学習方法
④結果どうなった？

Detectionの従来手法は
例えばR-CNNだと・・・
画像から矩形領域の候補を多数選び出し(sliding
window)、このそれぞれをCNNにかける　→時間がか
かるしスマートじゃない

Detectionの従来手法は
人間はひと目見ただけで物体の分類と位置の推定を
行っている。
このような仕組みができないだろうか・・・
手前に犬、その後
ろに自転車、右奥
に車がある！

出力　①
l  画像全体を　　　　個のセルに分ける
l  それぞれのセルは　　個の矩形領域を保持する
S × S
S
S
B
B = 3 の場合
0.44
0.71 0.08
信頼度： Pr Object( )∗ IOUpred
truth
= Pr Object( )∗
pred ∩truth
pred ∪ truth
B1 B2
B3

出力　②
l  それぞれの矩形領域は中心座標　　　　、矩形の大
きさ　　　　、信頼度　　を保持する
x, y( )
S
S
h,w( ) F
B1 = x1, y1,h1,w1, F1( )x1, y1( ) h1
w1

出力　③
l  それぞれのセルはクラスごとにそのクラスである確
率　　　も推測するC
S
S
C = Pr Class |Object( )
C1 = Pr Class |OO( )= 0.14
ex)分類が３つの場合
人
C2 = Pr Class |OO( )= 0.74車
C3 = Pr Class |OO( )= 0.12犬

推論の流れ
l  7×7 個のセルがそれぞ
れ 2 個の矩形候補領域
を出力する
l  信頼度 F を太さで表現
B x, y,h,w, F( )

推論の流れ
閾値で信頼度 F の高
いものだけ採用
B x, y,h,w, F( )

推論の流れ
対応セルにおける確
率の高いクラスと照ら
し合わせて、矩形領
域のクラスを決定
B x, y,h,w, F( )
C = Pr Class |Object( )

モデルのアーキテクチャ
l  ２４層の畳み込みのあと、２層の全結合

事前学習
まず最初に入力側conv２０層までをImageNetデータで
事前学習した。
これでGoogLeNetに比肩する性能を獲得した

本学習
l  この事前学習した部分にconv４層と全結合を追加した
l  活性化関数は出力層がReLu、他がLeakly Relu

出力マップ
出力マップはグリッド　　　の大きさで、　　　、　　　として
チャンネル数は
・・・
C1 C20・・・
・・・
x1 y1 w1h1 F1
B1 B2
7× 7 C = 20B = 2
5× B+C = 5×2 + 20 = 30

損失関数　全体
l  損失関数は以下のsum squared loss
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
λnoobj = 0.5λcoord = 5
Ιij
obj
=
1
0
⎧
⎨
⎩
Ιi
obj
=
1
0
⎧
⎨
⎩
・・・object がグリッド　　のとき i
・・・それ以外
・・・ j 番目の矩形領域が　番目のグリッドに中心があるとき i
・・・それ以外

l  各項にあえて名前をつけるなら・・・
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
矩形の大きさ項矩形の中心座標項
矩形の信頼度項矩形の不信頼度項セルのクラス分類項

l  　　　　ならば・・・
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
矩形の大きさ項矩形の中心座標項
矩形の信頼度項矩形の不信頼度項セルのクラス分類項
L → 0
それぞれが 0 に収束することが期待できるだろう
00
0 0
0

損失関数　矩形の中心座標項
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
教師データ出力マップ
0.2,0.6( )
0.1,0.8( )
0.7,0.2( )
l  出力マップで矩形候補
領域の中心座標がある
セルだけ計算する
（indicator 関数)
l  座標はセル内で正規化
l  学習の進行にしたがっ
て、出力マップの座標
が教師データの座標に
収束してくれるだろう
0.4,0.1( )
0.9,0.2( )
0.3,0.9( )

損失関数　矩形の大きさ項
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
l  大きさは画像の範囲で
正規化
て、出力マップの矩形
大きさが教師データの
それに収束してくれる
だろう
0.3,0.4( )
0.6,0.4( )
0.3,0.1( ) 0.3,0.2( )
0.7,0.6( )
0.3,0.4( )

損失関数　矩形の信頼度項
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
て、出力マップにおける
矩形の信頼度が教師
データのそれに収束し
てくれるだろう
1
1
1
0.2
0.4
0.7

損失関数　矩形の不信頼度項
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
領域の中心座標がない
て、出力マップにおける
矩形の信頼度が教師
データのそれに収束し
てくれるだろう
0.2
0.2
0.4
0.4
0.4 0.4
0.4 0.4
0.4
0.2
0.2
0.2
0.1
0.1
0.1
0.1
0.3
0.3
0.3
0.5
0.5
0.5
0.5
0.6
0.6
0.6
0.7
0.7
0.7
0.7
0.7
0.8
0.8
0.8
0.8
0.9
0.9
0.9
0.9
0.6
0.2
0.6
0.6
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

損失関数　セルのクラス分類項
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
教師データ出力マップ l  出力マップでクラス分
類されているセルだけ
計算する（indicator 関
数)
l  セルごと、クラスごとに
そのクラスである確率
の差を計算
て、出力マップの矩形
大きさが教師データの
それに収束してくれる
だろう

個人的にはここが面白い
L = λcoord Ιij
obj
xi − ˆxi( )
2
+ yi − ˆyi( )
2⎡
⎣
⎤
⎦
j=0
B
∑
i=0
S2
∑ + λcoord Ιij
obj
wi − ˆwi( )
2
+ hi − ˆhi( )
2⎡
⎣
⎢
⎤
⎦
⎥
j=0
B
∑
i=0
S2
∑
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
出力には常に s × s × B 個の矩形が存在するが、indicator 関数により、教師
データにある矩形の位置、大きさしか学習しない。よって、それ以外の大部分
の矩形は学習が進行しても、てんでバラバラ。
出力には常に s × s × B 個の矩形が存在するが、indicator 関数により、教師
データにある矩形の位置、大きさしか学習しない。よって、それ以外の大部分
の矩形は学習が進行しても、てんでバラバラの位置と大きさを出力する。
学習するのはこの３つの矩
形の位置と大きさ
それ以外は学習しない

個人的にはここが面白い
+ Ιij
obj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + λnoobj Ιij
noobj
Ci − ˆCi( )
2
j=0
B
∑
i=0
S2
∑ + Ιi
obj
pi c( )− ˆpi c( )( )
2
c∈classes
∑
i=0
S2
∑
しかし、学習しない矩形は信頼度が下がるので、
推論の段階では閾値ではじかれる。よって大丈夫。
しかし、学習しない矩形は信頼度が下がるので、
推論の段階では閾値ではじかれる。よって大丈夫。
学習対象の３つの矩形は
信頼度が上がる
それ以外は信頼度が
下がる

学習の設定項目
学習の設定項目値
epoch 135
data sets PASCAL VOC 2007, 2012
batch size 64
optimizer momentum
その他 dropout
data augmentation

検出例
l  写真や絵画でちゃんと検出できている

精度の比較結果
l  RCNNやDPMモデルよりは性能がいい

速度の比較結果
l  検出速度はYOLOの早いバージョンが一番

まとめ
l  YOLOモデルは矩形の候補領域とそのクラスを同
時に同じCNNで学習する手法である
l  この手法により、まぁまぁいい精度でめちゃめちゃ
早い検出速度を達成した

Introduction to YOLO detection model

More Related Content

What's hot

Viewers also liked

Similar to Introduction to YOLO detection model

More from WEBFARMER. ltd.

Introduction to YOLO detection model