Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Deep Learning JP
PDF, PPTX
2,713 views
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
2023/6/2 Deep Learning JP http://deeplearning.jp/seminar-2/
Technology
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 15
2
/ 15
3
/ 15
4
/ 15
5
/ 15
6
/ 15
7
/ 15
8
/ 15
Most read
9
/ 15
10
/ 15
11
/ 15
12
/ 15
Most read
13
/ 15
14
/ 15
15
/ 15
Most read
More Related Content
PDF
[DL輪読会]SlowFast Networks for Video Recognition
by
Deep Learning JP
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
by
Deep Learning JP
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
by
Deep Learning JP
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
by
Deep Learning JP
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
by
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
by
Deep Learning JP
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
by
Deep Learning JP
[DL輪読会]SlowFast Networks for Video Recognition
by
Deep Learning JP
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
by
Deep Learning JP
[DL輪読会]MetaFormer is Actually What You Need for Vision
by
Deep Learning JP
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
by
Deep Learning JP
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
by
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
by
Deep Learning JP
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
by
Deep Learning JP
What's hot
PDF
Deep Learningによる超解像の進歩
by
Hiroto Honda
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
by
Yusuke Uchida
PPTX
近年のHierarchical Vision Transformer
by
Yusuke Uchida
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
by
SSII
PDF
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
PDF
【メタサーベイ】Neural Fields
by
cvpaper. challenge
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
by
MasanoriSuganuma
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
by
Deep Learning JP
PDF
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
PDF
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
by
Hideki Tsunashima
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
by
Deep Learning JP
PDF
実装レベルで学ぶVQVAE
by
ぱんいち すみもと
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
by
Naoya Chiba
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
by
Yusuke Uchida
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
by
Yusuke Uchida
PDF
【メタサーベイ】Video Transformer
by
cvpaper. challenge
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
by
Deep Learning JP
PPTX
Triplet Loss 徹底解説
by
tancoro
Deep Learningによる超解像の進歩
by
Hiroto Honda
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
by
Yusuke Uchida
近年のHierarchical Vision Transformer
by
Yusuke Uchida
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
by
SSII
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
【メタサーベイ】Neural Fields
by
cvpaper. challenge
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
0から理解するニューラルネットアーキテクチャサーチ(NAS)
by
MasanoriSuganuma
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
by
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
by
Hideki Tsunashima
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
by
Deep Learning JP
実装レベルで学ぶVQVAE
by
ぱんいち すみもと
三次元点群を取り扱うニューラルネットワークのサーベイ
by
Naoya Chiba
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
by
Yusuke Uchida
モデルアーキテクチャ観点からのDeep Neural Network高速化
by
Yusuke Uchida
【メタサーベイ】Video Transformer
by
cvpaper. challenge
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
by
Deep Learning JP
Triplet Loss 徹底解説
by
tancoro
Similar to 【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PDF
効率的学習 / Efficient Training(メタサーベイ)
by
cvpaper. challenge
PDF
IROS2020 survey
by
robotpaperchallenge
PPTX
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
by
Deep Learning JP
PDF
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
by
harmonylab
PDF
20150930
by
nlab_utokyo
PDF
Deep residual learning for image recognition
by
禎晃 山崎
PDF
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
by
Deep Learning JP
PDF
ReNom 2016 ~ 2018振り返り
by
ReNom User Group
PPTX
Hello deeplearning!
by
T2C_
PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
by
Deep Learning JP
PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
by
Deep Learning JP
PDF
GTC 2016 ディープラーニング最新情報
by
NVIDIA Japan
PDF
Deep Learning技術の今
by
Seiya Tokui
PDF
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
by
Ohsawa Goodfellow
PPT
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
by
Ohsawa Goodfellow
PDF
20140726.西野研セミナー
by
Hayaru SHOUNO
効率的学習 / Efficient Training(メタサーベイ)
by
cvpaper. challenge
IROS2020 survey
by
robotpaperchallenge
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
by
Deep Learning JP
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
by
harmonylab
20150930
by
nlab_utokyo
Deep residual learning for image recognition
by
禎晃 山崎
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
by
Deep Learning JP
ReNom 2016 ~ 2018振り返り
by
ReNom User Group
Hello deeplearning!
by
T2C_
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
by
Deep Learning JP
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
by
Deep Learning JP
GTC 2016 ディープラーニング最新情報
by
NVIDIA Japan
Deep Learning技術の今
by
Seiya Tokui
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
by
Ohsawa Goodfellow
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
by
Ohsawa Goodfellow
20140726.西野研セミナー
by
Hayaru SHOUNO
More from Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
by
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
by
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
Recently uploaded
PDF
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
PPTX
ddevについて .
by
iPride Co., Ltd.
PDF
Drupal Recipes 解説 .
by
iPride Co., Ltd.
PDF
さくらインターネットの今 法林リージョン:さくらのAIとか GPUとかイベントとか 〜2026年もバク進します!〜
by
法林浩之
PDF
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
PDF
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
PDF
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
ddevについて .
by
iPride Co., Ltd.
Drupal Recipes 解説 .
by
iPride Co., Ltd.
さくらインターネットの今 法林リージョン:さくらのAIとか GPUとかイベントとか 〜2026年もバク進します!〜
by
法林浩之
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ DINOv2: Learning Robust Visual Features without Supervision Taichi Okunishi, Keio Univ.
2.
書誌情報 • タイトル – DINOv2:
Learning Robust Visual Features without Supervision • 出典 – https://arxiv.org/abs/2304.07193 • 著者 – Meta AI の研究者,他 • 出版年⽉ – 2023年4⽉ • コード – https://github.com/facebookresearch/dinov2 2
3.
概要 • DINOv2 は画像の⾃⼰教師あり学習⼿法である
DINO の拡張 • DINO (Distillation of knowledge with No labels ) [1] – ラベルなしの⾃⼰蒸留による⾃⼰教師あり学習⼿法 • DINOとの差分 – キュレーションされた⼤規模データセットを⽤いて事前学習 • 結果 – 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕 – ImageNet-1K の分類タスクでは,OpenCLIPを超える精度 3
4.
背景知識|DINO (1/2) • DINO(Distillation
of knowledge with No labels )[1] – ラベルなし⾃⼰蒸留による⾃⼰教師あり学習⼿法 – 今回報告された DINOv2 の元となる論⽂ 4
5.
背景知識|DINO (2/2) • DINOにおける⾃⼰蒸留 –
本来の⾃⼰蒸留の⽬的: • ⼤きなモデルを模倣する⼩さなモデルを訓練してモデル圧縮 – DINOにおける⾃⼰蒸留の⽬的 • ラベルなしデータにソフトな擬似ラベルを伝播するために使⽤ 5
6.
本研究の位置づけ • 画像の⾃⼰教師あり学習⼿法 DINOの改良 –
ラベルなし⾃⼰蒸留による表現学習 • DINOからの差分 – キュレーションされた⼤規模データセットによる事前学習 • 多様性のあるデータによる学習により,様々なタスクに万能な表現学習 – その他の細かな技術的変更(付録スライド参照) • 様々な画像タスクでDINOv2の有⽤性を評価 – 他の⾃⼰教師あり学習や,弱教師あり⼿法との⽐較 6
7.
DINOv2 (1/2)| キュレーションデータセットの作成 •
データソース – ImageNet-22K,Google Landmarksなど (⼀覧は付録A参照) – 142Mのデータ数 • Embedding – 事前学習済みViTで embeddingを抽出 7
8.
DINOv2 (2/2)| キュレーションデータセットの作成 •
Deduplication – 既存のコピー検出パイプライン[2]により,重複画像を削除 • Retrieval – コサイン類似度を⽤いて,未キュレーションデータから類似画像を取得 → キュレーションデータに追加 8
9.
実験結果(1/3)|様々なタスクでの結果 • 様々な画像タスクで,他の⾃⼰教師ありや,弱教師ありを上回る精度 • モデルサイズが増えるにつれて,精度向上 9 黄:自己教師あり手法 赤:弱教師あり手法 青:DINOv2
(提案手法)
10.
実験結果(2/3) | ImageNet-1Kでの結果 •
DINOv2は,OpenCLIPよりも精度が向上 • 他の⾃⼰教師あり学習⼿法を上回る精度 10
11.
実験結果(3/3)| 定性的評価 11 • DINOv2で抽出した特徴に対するPCAの結果 •
教師なしにも関わらず,意味領域の情報を捉えている
12.
まとめ • 画像の⾃⼰教師あり学習 – 画像の表現学習に重要な役割 •
DINO (Distillation of knowledge with No labels )[1] – 画像の⾃⼰教師あり学習⼿法の1つ – ラベルなし⾃⼰蒸留による表現学習 • 本研究:DINOv2 – 基本的にはDINO と同じ – キュレーションされた⼤規模データセットで事前学習 • 結果 – 様々な画像タスクで,他の⾃⼰教師あり,弱教師あり⼿法を凌駕 – ImageNet-1Kでは,OpenCLIPを上回る精度 12
13.
参考⽂献 [1] M. Caron
et al., “Emerging Properties in Self-Supervised Vision Transformers,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada: IEEE, Oct. 2021, pp. 9630‒9640. [2] Ed Pizzi, et al. A self-supervised descriptor for image copy detection. arXiv preprint arXiv:2202.10261, 2022. [3] Alexandre Sablayrolles, Matthijs Douze, Cordelia Schmid, and Hervé Jégou. Spreading vectors for similarity search. arXiv preprint arXiv:1806.03198, 2018. 13
14.
付録:使⽤したデータセット⼀覧 14
15.
付録:DINOからの他の技術的差分 • 解像度の適応 – 事前学習の最後に短期間で画像の解像度を518×518に上げる. –
⼩さなオブジェクトが低解像度で消える問題点を解消 • KoLeo regularizer [3]の使⽤ – バッチ内の特徴量の均⼀化を促進 15
Download