1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DINOv2: Learning Robust Visual Features without Supervision
Taichi Okunishi, Keio Univ.
書誌情報
• タイトル
– DINOv2: Learning Robust Visual Features without Supervision
• 出典
– https://arxiv.org/abs/2304.07193
• 著者
– Meta AI の研究者,他
• 出版年⽉
– 2023年4⽉
• コード
– https://github.com/facebookresearch/dinov2
2
概要
• DINOv2 は画像の⾃⼰教師あり学習⼿法である DINO の拡張
• DINO (Distillation of knowledge with No labels ) [1]
– ラベルなしの⾃⼰蒸留による⾃⼰教師あり学習⼿法
• DINOとの差分
– キュレーションされた⼤規模データセットを⽤いて事前学習
• 結果
– 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕
– ImageNet-1K の分類タスクでは,OpenCLIPを超える精度
3
背景知識|DINO (1/2)
• DINO(Distillation of knowledge with No labels )[1]
– ラベルなし⾃⼰蒸留による⾃⼰教師あり学習⼿法
– 今回報告された DINOv2 の元となる論⽂
4
背景知識|DINO (2/2)
• DINOにおける⾃⼰蒸留
– 本来の⾃⼰蒸留の⽬的:
• ⼤きなモデルを模倣する⼩さなモデルを訓練してモデル圧縮
– DINOにおける⾃⼰蒸留の⽬的
• ラベルなしデータにソフトな擬似ラベルを伝播するために使⽤
5
本研究の位置づけ
• 画像の⾃⼰教師あり学習⼿法 DINOの改良
– ラベルなし⾃⼰蒸留による表現学習
• DINOからの差分
– キュレーションされた⼤規模データセットによる事前学習
• 多様性のあるデータによる学習により,様々なタスクに万能な表現学習
– その他の細かな技術的変更(付録スライド参照)
• 様々な画像タスクでDINOv2の有⽤性を評価
– 他の⾃⼰教師あり学習や,弱教師あり⼿法との⽐較
6
DINOv2 (1/2)| キュレーションデータセットの作成
• データソース
– ImageNet-22K,Google Landmarksなど (⼀覧は付録A参照)
– 142Mのデータ数
• Embedding
– 事前学習済みViTで embeddingを抽出
7
DINOv2 (2/2)| キュレーションデータセットの作成
• Deduplication
– 既存のコピー検出パイプライン[2]により,重複画像を削除
• Retrieval
– コサイン類似度を⽤いて,未キュレーションデータから類似画像を取得
→ キュレーションデータに追加
8
実験結果(1/3)|様々なタスクでの結果
• 様々な画像タスクで,他の⾃⼰教師ありや,弱教師ありを上回る精度
• モデルサイズが増えるにつれて,精度向上
9
黄:自己教師あり手法
赤:弱教師あり手法
青:DINOv2 (提案手法)
実験結果(2/3) | ImageNet-1Kでの結果
• DINOv2は,OpenCLIPよりも精度が向上
• 他の⾃⼰教師あり学習⼿法を上回る精度
10
実験結果(3/3)| 定性的評価
11
• DINOv2で抽出した特徴に対するPCAの結果
• 教師なしにも関わらず,意味領域の情報を捉えている
まとめ
• 画像の⾃⼰教師あり学習
– 画像の表現学習に重要な役割
• DINO (Distillation of knowledge with No labels )[1]
– 画像の⾃⼰教師あり学習⼿法の1つ
– ラベルなし⾃⼰蒸留による表現学習
• 本研究:DINOv2
– 基本的にはDINO と同じ
– キュレーションされた⼤規模データセットで事前学習
• 結果
– 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕
– ImageNet-1Kでは,OpenCLIPを上回る精度
12
参考⽂献
[1] M. Caron et al., “Emerging Properties in Self-Supervised Vision
Transformers,” in 2021 IEEE/CVF International Conference on Computer Vision
(ICCV), Montreal, QC, Canada: IEEE, Oct. 2021, pp. 9630‒9640.
[2] Ed Pizzi, et al. A self-supervised descriptor for image copy detection. arXiv
preprint arXiv:2202.10261, 2022.
[3] Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Hervé Jégou.
Spreading vectors for similarity search. arXiv preprint arXiv:1806.03198, 2018.
13
付録:使⽤したデータセット⼀覧
14
付録:DINOからの他の技術的差分
• 解像度の適応
– 事前学習の最後に短期間で画像の解像度を518×518に上げる.
– ⼩さなオブジェクトが低解像度で消える問題点を解消
• KoLeo regularizer [3]の使⽤
– バッチ内の特徴量の均⼀化を促進
15

【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision