SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Report
Deep Learning JP
Follow
Deep Learning JP
Jun. 2, 2023
•
0 likes
•
472 views
1
of
15
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Jun. 2, 2023
•
0 likes
•
472 views
Download Now
Download to read offline
Report
Technology
2023/6/2 Deep Learning JP http://deeplearning.jp/seminar-2/
Deep Learning JP
Follow
Deep Learning JP
Recommended
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
3.7K views
•
52 slides
画像生成・生成モデル メタサーベイ
cvpaper. challenge
8.1K views
•
118 slides
Transformer メタサーベイ
cvpaper. challenge
26.9K views
•
181 slides
Triplet Loss 徹底解説
tancoro
11.2K views
•
46 slides
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
12.4K views
•
177 slides
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
4.5K views
•
34 slides
More Related Content
What's hot
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
1.5K views
•
23 slides
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
16K views
•
63 slides
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
1.8K views
•
22 slides
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
1K views
•
26 slides
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
2.9K views
•
21 slides
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
3.3K views
•
27 slides
What's hot
(20)
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
•
1.5K views
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
•
16K views
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
•
1.8K views
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
•
1K views
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
•
2.9K views
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
•
3.3K views
深層生成モデルと世界モデル
Masahiro Suzuki
•
16.4K views
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
•
4.4K views
全力解説!Transformer
Arithmer Inc.
•
9K views
【メタサーベイ】Neural Fields
cvpaper. challenge
•
2K views
Deeplearning輪読会
正志 坪坂
•
9.3K views
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
•
5.3K views
研究効率化Tips Ver.2
cvpaper. challenge
•
19.4K views
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
•
989 views
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
•
2.3K views
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
•
64.2K views
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
•
2.4K views
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Kazuhiro Ota
•
199 views
モデル高速化百選
Yusuke Uchida
•
24.5K views
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
•
485 views
Similar to 【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
Deep Learning JP
1.5K views
•
24 slides
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
216 views
•
39 slides
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
1.3K views
•
39 slides
発見から納品へ
You&I
375 views
•
68 slides
Docker で Deep Learning
Takenori Nakagawa
4.4K views
•
36 slides
ディープラーニングの最新動向
Preferred Networks
109.6K views
•
14 slides
Similar to 【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
(15)
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
Deep Learning JP
•
1.5K views
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
•
216 views
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
•
1.3K views
発見から納品へ
You&I
•
375 views
Docker で Deep Learning
Takenori Nakagawa
•
4.4K views
ディープラーニングの最新動向
Preferred Networks
•
109.6K views
卒論パワポVer3 伊東純平
純平 伊東
•
15.8K views
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
Deep Learning JP
•
696 views
関西Cvprml勉強会2017.9資料
Atsushi Hashimoto
•
2.2K views
121123_第7回医療の質・安全学会学術集会_共催セミナー1
Yoshikazu Asada
•
4.1K views
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
•
133 views
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
Hironori Washizaki
•
2.5K views
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
Kaoru Nasuno
•
2.9K views
20150930
nlab_utokyo
•
24.3K views
Hello deeplearning!
T2C_
•
2.2K views
More from Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
189 views
•
20 slides
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
144 views
•
26 slides
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
187 views
•
30 slides
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
446 views
•
15 slides
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
863 views
•
29 slides
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
245 views
•
14 slides
More from Deep Learning JP
(20)
【DL輪読会】事前学習用データセットについて
Deep Learning JP
•
189 views
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
•
144 views
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
•
187 views
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
•
446 views
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
•
863 views
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
•
245 views
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
•
184 views
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
•
552 views
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
•
399 views
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
•
1K views
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
•
366 views
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
•
338 views
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
•
581 views
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
•
679 views
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
•
292 views
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
•
280 views
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
804 views
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
427 views
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
208 views
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
•
1.2K views
Recently uploaded
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
44 views
•
38 slides
画像生成AIの問題点
iPride Co., Ltd.
10 views
•
9 slides
CatBoost on GPU のひみつ
Takuji Tahara
528 views
•
30 slides
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
7 views
•
1 slide
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
40 views
•
31 slides
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
113 views
•
31 slides
Recently uploaded
(14)
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
44 views
画像生成AIの問題点
iPride Co., Ltd.
•
10 views
CatBoost on GPU のひみつ
Takuji Tahara
•
528 views
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
7 views
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
40 views
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
•
113 views
テスト自動化.pdf
ssuserf8ea02
•
25 views
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
•
159 views
GraphQLはどんな時に使うか
Yutaka Tachibana
•
11 views
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
7 views
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
16 views
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
5 views
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
•
140 views
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
•
55 views
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ DINOv2: Learning Robust Visual Features without Supervision Taichi Okunishi, Keio Univ.
2.
書誌情報 • タイトル – DINOv2:
Learning Robust Visual Features without Supervision • 出典 – https://arxiv.org/abs/2304.07193 • 著者 – Meta AI の研究者,他 • 出版年⽉ – 2023年4⽉ • コード – https://github.com/facebookresearch/dinov2 2
3.
概要 • DINOv2 は画像の⾃⼰教師あり学習⼿法である
DINO の拡張 • DINO (Distillation of knowledge with No labels ) [1] – ラベルなしの⾃⼰蒸留による⾃⼰教師あり学習⼿法 • DINOとの差分 – キュレーションされた⼤規模データセットを⽤いて事前学習 • 結果 – 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕 – ImageNet-1K の分類タスクでは,OpenCLIPを超える精度 3
4.
背景知識|DINO (1/2) • DINO(Distillation
of knowledge with No labels )[1] – ラベルなし⾃⼰蒸留による⾃⼰教師あり学習⼿法 – 今回報告された DINOv2 の元となる論⽂ 4
5.
背景知識|DINO (2/2) • DINOにおける⾃⼰蒸留 –
本来の⾃⼰蒸留の⽬的: • ⼤きなモデルを模倣する⼩さなモデルを訓練してモデル圧縮 – DINOにおける⾃⼰蒸留の⽬的 • ラベルなしデータにソフトな擬似ラベルを伝播するために使⽤ 5
6.
本研究の位置づけ • 画像の⾃⼰教師あり学習⼿法 DINOの改良 –
ラベルなし⾃⼰蒸留による表現学習 • DINOからの差分 – キュレーションされた⼤規模データセットによる事前学習 • 多様性のあるデータによる学習により,様々なタスクに万能な表現学習 – その他の細かな技術的変更(付録スライド参照) • 様々な画像タスクでDINOv2の有⽤性を評価 – 他の⾃⼰教師あり学習や,弱教師あり⼿法との⽐較 6
7.
DINOv2 (1/2)| キュレーションデータセットの作成 •
データソース – ImageNet-22K,Google Landmarksなど (⼀覧は付録A参照) – 142Mのデータ数 • Embedding – 事前学習済みViTで embeddingを抽出 7
8.
DINOv2 (2/2)| キュレーションデータセットの作成 •
Deduplication – 既存のコピー検出パイプライン[2]により,重複画像を削除 • Retrieval – コサイン類似度を⽤いて,未キュレーションデータから類似画像を取得 → キュレーションデータに追加 8
9.
実験結果(1/3)|様々なタスクでの結果 • 様々な画像タスクで,他の⾃⼰教師ありや,弱教師ありを上回る精度 • モデルサイズが増えるにつれて,精度向上 9 黄:自己教師あり手法 赤:弱教師あり手法 青:DINOv2
(提案手法)
10.
実験結果(2/3) | ImageNet-1Kでの結果 •
DINOv2は,OpenCLIPよりも精度が向上 • 他の⾃⼰教師あり学習⼿法を上回る精度 10
11.
実験結果(3/3)| 定性的評価 11 • DINOv2で抽出した特徴に対するPCAの結果 •
教師なしにも関わらず,意味領域の情報を捉えている
12.
まとめ • 画像の⾃⼰教師あり学習 – 画像の表現学習に重要な役割 •
DINO (Distillation of knowledge with No labels )[1] – 画像の⾃⼰教師あり学習⼿法の1つ – ラベルなし⾃⼰蒸留による表現学習 • 本研究:DINOv2 – 基本的にはDINO と同じ – キュレーションされた⼤規模データセットで事前学習 • 結果 – 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕 – ImageNet-1Kでは,OpenCLIPを上回る精度 12
13.
参考⽂献 [1] M. Caron
et al., “Emerging Properties in Self-Supervised Vision Transformers,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada: IEEE, Oct. 2021, pp. 9630‒9640. [2] Ed Pizzi, et al. A self-supervised descriptor for image copy detection. arXiv preprint arXiv:2202.10261, 2022. [3] Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Hervé Jégou. Spreading vectors for similarity search. arXiv preprint arXiv:1806.03198, 2018. 13
14.
付録:使⽤したデータセット⼀覧 14
15.
付録:DINOからの他の技術的差分 • 解像度の適応 – 事前学習の最後に短期間で画像の解像度を518×518に上げる. –
⼩さなオブジェクトが低解像度で消える問題点を解消 • KoLeo regularizer [3]の使⽤ – バッチ内の特徴量の均⼀化を促進 15