AIエッジコンテスト｜1位 & 3位解法

AIエッジコンテスト
1 位解法（セグメンテーション部門）&
3 位解法（オブジェクト検出部門）
by Shuhei Yokoo (lyakaap)

自己紹介
 Twitter/GitHub/Kaggle/SIGNATE: @lyakaap
 長野高専 → 筑波大学 → 同大学院（現在修士一年）
 コンピュータービジョンの研究をしています
 Kaggle/麻雀/野球が好きです

セグメンテーション部門：1位
オブジェクト検出部門：3位

オブジェクト検出部門
解法概要

前提
 データ：東京・埼玉の交通シーン画像（≒ 20k枚）
 タスク：オブジェクト検出（Object Detection）
 評価指標：MAP@IoU=0.75

Faster-RCNN
+ ResNext-101
+ Feature Pyramid Networks
+ MS-COCO pre-training
+ Soft-NMS
+ TTA (lr-flip/multi-scale)
+ Ensemble
解法概要

Faster-RCNN
+ ResNext-101
+ Soft-NMS
+ Ensemble

Faster-RCNN†
 Object Detectionと言ったらFaster-RCNN
 SSD/YOLOなんかも有名
 Object Detection系のコンペでは定番
 Open Images Challenge 2018では上位チームは皆Faster-RCNNベース
(https://storage.googleapis.com/openimages/web/challenge.html)
† Ren, S., He, K., Girshick, R., & Sun, J. “Faster r-cnn: Towards real-time object detection with region proposal
networks,” in NIPS, 2015.

ResNeXt†
 ResNetの進化版
 Grouped Convolutionを使うことでパラメータ数と計
算量の削減
 同じ計算量でResNetに上回る精度
 Faster-RCNNのbackboneに採用
 層数は101
† Xie, Saining, et al. "Aggregated residual transformations for deep neural networks,” in CVPR 2017.

Feature Pyramid Networks (FPN) †
RoIの検出をマルチスケールに
† Lin, Tsung-Yi, et al. "Feature pyramid networks for object detection,” in CVPR, 2017.

MS-COCO pre-training
 MS-COCOのinstance segmentationで学習済みのモデルを
使用（つまるところMask-RCNN）
 Bounding boxだけでなくmask情報も使って学習したモデルの
方が高精度
 Mask-headは使わないので除去
 AIエッジコンテストに共通したカテゴリーに関する重みを
マッピング
 自動車・人・バイク・自転車など

Non Maximum Suppression (NMS)
 重複検知をフィルタリングするアルゴリズム
 一番当てはまりの良いbox以外は捨ててしまう
 完全に捨ててしまうのはもったいない・・・？

Soft-NMS†
 NMSの”soft”なバージョン
 最良のbox以外もある程度考慮してrescore:
† Bodla, Navaneeth, et al. "Soft-NMS--Improving Object Detection With One Line of Code,” In ICCV, 2017.
𝑠𝑖 ← 𝑠𝑖exp(−
iou(𝑀, 𝑏𝑖)2
𝜎
)
s: score, b: box, M: 最良のbox
σの値には0.9を使用

TTA & Ensemble
Model-1
Model-2
TTA
gather
Soft-NMS

その他いろいろ｜工夫点
 RoI-Poolingの代わりにRoI-Align
 IoUの改善
 backboneの前半とBatch Normを“freeze”
 メモリの節約のため
 提出ファイルに予測bounding boxを上限まで詰め込む
 Average precisionは予測の「数」に対してペナルティを課さないため
confidenceが低くてもとりあえず予測に含めといた方が得

その他いろいろ｜学習設定
 Data Augmentation
 lr-flip
 brightness-shift (±10%)
 random scaling (75%~100%)
 SGD (lr=1e-2, momentum=0.9, weight-decay=1e-4, batch size=8)
 LR-scheduler: cosine annealing with warmup
 全体で40000イテレーション，Warmupに500イテレーション

cosine annealing with warmup
https://github.com/lyakaap/pytorch-template/blob/master/src/lr_scheduler.py

Faster-RCNN
+ ResNext-101
+ Soft-NMS
+ Ensemble
解法まとめ

セグメンテーション部門
解法概要

前提
 データ：東京・埼玉の交通シーン画像（≒ 2k枚）
 ピクセル単位のラベル（20クラス）が付けられている
 タスク：ピクセル単位の多クラス分類
 いわゆるセマンティックセグメンテーション
 評価指標：mean IoU (intersection over union)
IoU =
TP
TP + FP + FN

Level=2
stride=4
Level=1
stride=4
Level=3
stride=4
Level=3
stride=8
Level=2
stride=8
Level=1
stride=4
Level=3
stride=16
Level=2
stride=16
Level=3
stride=32
Level=1
stride=8
Encoder
Block
Enc
C
U
C
Enc
U
U
U
C
C
ConvOC
ConvOC
ConvOC
U
C Conv
U
C
U
Conv C Conv
Classifier Classifier Classifier
Level=M
stride=N
Feature Map
Upsampling Concatnation
Level1 Level2 Level3
Enc
Conv Block

Level=2
stride=4
Level=1
stride=4
Level=3
stride=4
Level=3
stride=8
Level=2
stride=8
Level=1
stride=4
Level=3
stride=16
Level=2
stride=16
Level=3
stride=32
Level=1
stride=8
Encoder
Block
Enc
C
U
C
Enc
U
U
U
C
C
ConvOC
ConvOC
ConvOC
U
C Conv
U
C
U
Conv C Conv
Classifier Classifier Classifier
Level=M
stride=N
Feature Map
Upsampling Concatnation
Level1 Level2 Level3
Enc
Conv Block
WideResNet-38

工夫点①
car/pedestrian/lane/signal + other
の5クラス分類にタスク設定

評価指標について
 実際に指標上で考慮されるクラスは4クラスのみ
 car/pedestrian/lane/signal
 そうは言っても、上記の4クラス以外は全く関係無い訳では無い
 ではその他16クラスの扱いをどうするか

その他16クラスの扱い｜仮説
 分類対象のクラス数が少ないほど精度が高くなる？
 該当の4クラスの分類に有効な特徴抽出に、ネットワークがより集中
しやすくなりうる
 ネットワークの出力の尤度が分散しづらい

その他16クラスの扱い｜仮説
 分類対象のクラス数が少ないほど精度が高くなる？
 該当の4クラスの分類に有効な特徴抽出に、ネットワークがより集中
しやすくなりうる
 ネットワークの出力の尤度が分散しづらい
→ car/pedestrian/lane/signal + other
の5クラス分類にタスク設定

20クラス分類 vs 5クラス分類
※ 学習データの二割をvalidation setとした
※ 検証用のモデルはResNet-18†
† K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, pp. 770–778, 2016.

20クラス分類 vs 5クラス分類
※ 学習データの二割をvalidation setとした
※ 検証用のモデルはResNet-18†
仮説通り5クラス分類にすることで大幅に精度向上！
† K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, pp. 770–778, 2016.

工夫点②
MVD/BDD100K データセット
による事前学習

事前学習
 CNNの事前学習は様々なタスクで有効
 目的タスクのデータセットサイズが小さいほど有効
 事前学習用のデータセットと目的タスクのデータセッ
トの分布が近いほど有効
→ 本コンペのデータセットサイズは比較的小さい（約2k枚）
→ MVD†/BDD100K‡: 大規模な交通シーンのデータセット
† G. Neuhold, T. Ollmann, S. Rota Bulo, and P. Kontschieder,
“The mapillary vistas dataset for semantic understanding of street scenes,” in ICCV, 2017.
‡ F. Yu, W. Xian, Y. Chen, F. Liu, M. Liao, V. Madhavan, and T. Darrell,
“BDD100K: A diverse driving video database with scalable annotation tooling,” in CVPR, 2018.

事前学習
 MVDで学習済みのモデルが公開されていたのでそちらを使用
 https://github.com/mapillary/inplace_abn
 BDD100Kは自前で30エポックの事前学習を行った

工夫点③
オブジェクト検出部門のデータを使った
半教師あり学習

 AIエッジコンテスト：オブジェクト検出部門のデータを有効活用
できないか？
 データの分布はほぼ同じ
 画像枚数が多い（≒ 20K）
▲ ピクセル単位のラベルは無い
→ 半教師あり学習の手法が使えそう！

Data Distillation†
 半教師あり学習の一種
 学習済みモデルにオブジェクト検出部門のラベルを予測
させ、予測結果を擬似ラベルとする
 得られた疑似ラベルはセグメンテーション部門のデータと一緒に
学習に使う
† I. Radosavovic, P. Dollar, R. B. Girshick, G. Gkioxari, and K. He,
“Data distillation: Towards omni-supervised learning,” in CVPR, pp.4119–4128, 2018.

Data Distillation｜工夫点
 モデルの出力の確度が低い出力ピクセルにはラベルを
割り当てない
 誤分類している確率が高いためノイズになりやすい
 真のラベルと疑似ラベルを5:3の比率でミニバッチを
作成することで最終モデルの学習に利用した

Data Distillation｜工夫点
 モデルの出力の確度が低い出力ピクセルにはラベルを
割り当てない
 誤分類している確率が高いためノイズになりやすい
 真のラベルと疑似ラベルを5:3の比率でミニバッチを
作成することで最終モデルの学習に利用した
Mean IoU: 0.72105 → 0.72737 (TTAあり)

その他いろいろ
 Data Augmentation
 lr-flip
 brightness-shift (±15%)
 random scaling (75%~175%)
 random cropping (768 x 768)
 SGD (lr=1e-2, poly scheduling, momentum=0.9, weight-decay=1e-
4, batch size=8)
 シード値を変えた2モデルによるアンサンブル +
TTA (lr-flip & multi-scale) → 0.72803

解法まとめ
 Encoder-Decoderモデル
 20→5クラス分類にした
 MVD/BDD100Kによる事前学習
 オブジェクト検出部門のデータを
使った半教師あり学習

AIエッジコンテスト｜1位 & 3位解法

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to AIエッジコンテスト｜1位 & 3位解法

Similar to AIエッジコンテスト｜1位 & 3位解法 (20)

AIエッジコンテスト｜1位 & 3位解法

Editor's Notes