SlideShare a Scribd company logo
数式ドリブン教師あり学習
Formula-Driven Supervised Learning (FDSL)
⼤⻄達也,⽥所⿓,中村凌,⼭⽥亮佑,
速⽔亮,中嶋航⼤,⽚岡裕雄
1
http://xpaperchallenge.org/cv
2
■ cvpaper.challenge メタサーベイの⼀環
➤ 2022/03/01〜2022/06/09に実施した調査
➤ 論⽂調査はもちろん,背景・メタ知識も含め収集
➤ 今回はFDSLを中⼼に周辺研究を4つに⼤別し調査
■ イントロダクション
➤ 数式ドリブン教師あり学習 (FDSL)の概観を説明
■ 論⽂サマリ
➤ 各論⽂を簡単に紹介
■ メタサーベイ
➤ 論⽂サマリからメタな知識を収集
本資料の構成
本資料について
3
筆頭編者紹介
❖ ⽥所⿓
➢ Twitter︓@MlTohoku
➢ 所属︓東北⼤学 学部4年
■ cvpaper.challenge (2021/12〜)
➢ 研究の興味
■ 事前学習・OOD Detectionなど
➢ その他活動
■ コンペティションへの参加など
❖ ⼤⻄ 達也
➢ 所属︓⼤阪⼤学 電⼦情報⼯学科 学部1年(休学中)
■ cvpaper.challenge (2021/4〜)
➢ 研究の興味
■ FractalDBのセグメンテーションタスク利⽤
■ 最近はイラストに興味
➢ その他活動
■ イラストを描いています (Twitter:@oca_laful)
代表的な事前学習⼿法
4
教師あり学習
Supervised Learning: SL
● ⼈間が実画像に対して⼿動で教師ラベル付け
● ⼊⼒画像から教師ラベルに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
ゴリラ
258
数式ドリブン教師あり学習
Formula-driven Supervised Learning: FDSL
● ある規則性に基づいた数式から⼈⼯画像を⾃動⽣成
● パラメータを元に⾃動で教師ラベル付け
● ⼊⼒画像から教師ラベルに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
⾃⼰教師あり学習
Self-Supervised Learning: SSL
● 画像のみを⽤いて、⼈間によるラベル付けは不要
● 擬似タスク(Pretext Task)を⾃動的に⽣成
● ⼊⼒画像から擬似タスクに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
90°回転
データセットの例
● ImageNet
● PASCAL VOC
● MS COCO
⾃⼰教師⼿法の例
● Rotation、Jigsaw、MAE
● SimCLR、MoCo (対照学習)
データセットの例
● FractalDB
● Perlin Noise
FDSLを中⼼に4タイプに⼤別
5
❏ 実画像 ⇄ ⼈⼯画像(データを⽣成するか︖)
❏ 教師ラベルあり ⇄ 教師ラベルなし(教師ラベルを⽣成するか?)
という⼆つの軸によって4つ⼤別
⼈⼯ 画像・教師ラベル なし
※ 教師ラベルは⾃⼰教師など外的に付与
実 画像・教師ラベル なし
⼈⼯ 画像・教師ラベル あり
※ 数式から付与される数式教師
Supervised Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル あり
Dead
Leaves
基盤モデル
CLIP
Florence
(FLD-900M)
ImageNet
JFT-300M/3B
画像認識の事前学習モデル
Self-Supervised Learning
FDSLはココ︕
DMLab
FractalDB
TileDB
FDSL
PerlinNoiseDB
Spectrum
The Face Synthetic
Dataset
WMM
Domain
Randomization
StyleGAN - Random
MineRL
FDSLとは何か? - 学習を4タイプに⼤別
6
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
実画像,教師ラベル 有 ̶ 教師あり学習
➢ データxと、対応する教師ラベルyを⽤いた最も⼀般的な学習
➢ 最近では、CLIPやFlorenceなどのFoundation Modelも話題
実画像,教師ラベル 無 ̶ ⾃⼰教師あり学習
➢ 教師なしデータxに対応する、⾃動で得られるカテゴリtを定義
➢ アノテーションコスト削減で事前学習データセットの更なる⼤
規模化
FDSLとは何か? - 学習を4タイプに⼤別
7
合成 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
実 画像・教師ラベル 無
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
Self-Supervised
Learning
FDSLとは何か? - 学習を4タイプに⼤別
8
8
⼈⼯画像,教師ラベル 有(数式から⾃動で教師を付与)
➢ Fractal Pre-Trainingを代表例として、実画像・⼈間教師によ
る事前学習モデルに匹敵する精度を実現
➢ 実画像データセットにおけるデータ収集コストやライセンス、
倫理などの問題に対する解決策に
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
FDSLとは何か? - 学習を4タイプに⼤別
9
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
⼈⼯画像,教師ラベル 無(外的に⾃⼰教師を付与)
➢ ラベルを⽣成できない⼈⼯⽣成画像×⾃⼰教師あり学習
■ 実はノイズ画像からでも視覚特徴を獲得することを実証
➢ 事前学習モデルにより⾼いベースラインのAI構築が可能
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
論⽂紹介
11
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
Pre-training without Natural Images
12
会議 : ACCV2020(Best Paper Honorable Mention Award) / IJCV 2022
著者 : Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke
Yamada, Nakamasa Inoue, Akio Nakamura, and Yutaka Satoh
数式ドリブン教師あり学習の提案
数式から⽣成した画像で事前学習を⾏うことに世界で初めて成功
● ⾃然画像を⽤いず数式から画像データセットを⾃動⽣成・事前学習済みモデル構築
● 実画像⼤規模データセットによる倫理問題やラベル付コストなどの様々な課題が存在
● 数式からフラクタル画像を⽣成、⽣成時の画像に紐づくパラメータを教師ラベルと扱う
● 数式から⽣成した画像からでも画像の特徴表現が獲得できることを⽰した
MV-FractalDB: Formula-driven Supervised Learning for Multi-view Image Recognition
13
会議 : IROS 2021
著者 : Ryosuke Yamada, Ryo Takahashi, Ryota Suzuki, Akio Nakamura, Yusuke Yoshiyasu, Ryusuke
Sagawa, Hirokatsu Kataoka
● 多視点画像認識における3D姿勢ラベル付きデータセットの⾃動構築⽅法を提案
● 従来は三次元物体認識にも関わらずImageNet事前学習モデルを使⽤していた
● 三次元データセットはラベル付の困難さからImageNet規模サイズのデータセットは存在しない
● Iterated Function System (IFS)を3D拡張,三次元フラクタルモデルを⽣成
● 3Dフラクタルモデルを2D画像に投影することで多視点のフラクタル画像を⽣成
FractalDBを三次元に拡張し,多視点画像認識に適⽤
https://ryosuke-yamada.github.io/Multi-view-Fractal-DataBase/
Can Vision Transformers Learn without Natural Images?
会議 : AAAI 2022
著者 : Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata, Nakamasa Inoue,
Yutaka Satoh
● Vision Transformer (ViT)でも、フラクタル画像による事前学習が可能であることを⽰した
○ 従来1400万/3億の実画像を⽤いていたが,実質的にゼロ枚の実画像で事前学習
● SimCLRv2/MoCov2などの実画像を⽤いた⾃⼰教師あり学習よりも⾼い事前学習効果
● CIFAR10においては、ImageNet事前学習モデルと0.4ポイントの僅差
Vision Transformerを実画像ゼロで事前学習
FractalDBの事前学習効果はImageNetに近いことを明らかに
14
Improving Fractal Pre-training
15
会議 : WACV 2022
著者 : Connor Anderson, Ryan Farrell
● SVDを⽤いてIFSのパラメータ探索を効率化,⾊と背景を組み合わせたフラクタル画像を事
前学習に⽤いることで,より良い転移学習が可能になることを⽰した (Fig.7)
● ⼤規模なマルチインスタンス(複数のフラクタル)予測の事前学習を提案,有効性を確認
● フラクタルの事前学習は医療画像のセグメンテーションタスクに有効(Fig.6 Glas)
フラクタル画像の事前学習効果を改善
Formula-driven Supervised Learning with Recursive Tiling Patterns
16
会議 : ICCV 2021 Workshop
著者 : Hirokatsu Kataoka et al.
● 画像全体に敷き詰めるタイリングパターンによるTileDBを⾃動構築
● 正六⾓形に3つの操作(頂点の移動、辺の変形、鏡⾯⽅向の対称移動)を加え画像⽣成
● FractalDBより少ないパラメータセットでデータセットを⾃動構築可能
● FractalDBよりもImageNetに類似するConv.1フィルタを獲得(下図参照)
少ないパラメータのFDSLでも⾼い事前学習効果を確認
Spatiotemporal Initialization for 3D CNNs with Generated Motion Patterns
17
会議 : WACV 2022
著者 : Hirokatsu Kataoka, Eisuke Yamagata, Kensho Hara, Ryusuke Hayashi, Nakamasa Inoue
● Perlin Noiseに基づいてモーションパターンと動画ラベルを同時に⽣成
● Kinetics-400/700のような⼤規模動画データセットの事前学習する前に時空間モデルのパ
ラメータを初期化し、⽬標タスク性能を向上
動き情報をより良く獲得するためのVideo Perlin Noiseを提案
⼈⼯知能による内視鏡画像診断⽀援プラットフォーム
18
会議 : Nippon Laser Igakkaishi
著者 : 野⾥博和
● 深層学習を⽤いた内視鏡画像診断は内視鏡画像&希少症例画像の収集が困難
● Fractal DataBase (FractalDB)の事前学習モデルを利⽤して有⽤性を検証
● ImageNetとの⽐較ではやや劣るが,商⽤利⽤が可能であることから医療現場での利⽤が⾒
込まれる
FractalDBが希少疾患の判別に有⽤であることを⽰唆
19
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
Domain Randomization for Transferring Deep Neural
20
会議 : IROS 2017
著者 : Josh Tpbin et al.
● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ
リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ
とを発⾒
● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬
的で実世界に移すことを成功した初めての例を⽰した.
⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
Fake it till you make it: face analysis in the wild using
synthetic data alone
21
会議 : ICCV 2021
著者 : Erroll Wood et al.
● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの
みでSOTAと同等の精度を達成。
● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが
、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。
合成顔データのみで、あらゆる顔タスクでSOTAと同等
Training Deep Networks with Synthetic Data: Bridging
the Reality Gap by Domain Randomization
22
会議 : CVPR 2018
著者 : Jonathan Tremblay et al.
● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる
Domain Randomizationを⾞の検出タスクに利⽤。
● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精
度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ
り、更なる精度向上。
Domain Randomizationは、物体検出においても有効
23
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
Learning to see by Looking at Noise
24
会議 : NeurIPS 2021
著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba
● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定
● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い
○ 事前学習には⾃⼰教師あり学習を使⽤
● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等,
あるいは⾃然画像を超える事前学習性能
ランダム⽣成画像の事前学習は構造的表現を獲得可能
メタサーベイ
メタサーベイ
1.論⽂の背景にある知識等に着⽬
a.代表的な評価法と精度の変遷
b.FDSLのトレンド
c.現状の課題点
という部分にフォーカス
26
事前学習効果の評価
27
❖ 評価⽅法︓Fine-Tuning
➢ 事前学習によって獲得したパラメータを初期値として⽤
いて、Target TaskでFine-Tuningした時の性能を測る
➢ Target Taskとしては、ImageNetなどがベンチマークと
して⽤いられる
➢ BackBoneとしては、CNNであればResNet-50をはじめ
としたResNetベースのモデル、ViTであればViT-BやViT-
Lなどがスタンダード
モデル
学習 画像デ
ータ
識
別
器
ラベル
ラベル
あり
ラベル
なし
モデル
学習 画像データ
識
別
器
ラベル
モデル
学習
画像データ
検証⽤データセットの変遷
28
■ 公開されているPretrain済みモデルの評価指標は様々
● 取り組みたいタスクに対して数百のモデル調査が必要
■ ImageNet→Visual Task Adaptation Benchmark (VTAB)
● VTABをテストに⽤いることで評価を⼀般化
○natural,specialized,structuredからなる19の評価タスク
○全タスクの平均スコアで⽐較
● ⽐較からgenerative modelによるPretrainは識別精度が低下することを確認
FDSLのトレンド
29
様々なタスクに対して派⽣
数式から画像を⽣成
3D化
3D化
画像をカット&ペースト
⼈物に特化
汎⽤的なモデル
タスクに特化したモデル
交通に特化
実世界の
物体検出に特化
課題︓画像⽣成に時間がかかる
30
⼀度⽣成を開始すれば作業は不必要だが,時間がかかる
■3D合成データ
○ 合成する画像は⼈⼿で撮影
○ cut, pasete and learnではBigBIRDを使⽤
○ 背景にはUW Scenes Dataset を使⽤
○ 拡張は容易だが,撮影の労⼒が膨⼤
■Fake It Till You Make It
○ NVIDIA M60 GPUを150台使⽤して2⽇
課題︓⼤量のデータを学習するためのマシンリソースが必要
31
ABCIのような⼤規模なマシンリソースが求められる
学習効果がある形状パターンを掴むには膨⼤な探索実験が必要
試⾏回数が識別精度向上に直結
■GPU,CPU
○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要
○ Fake It Till You Make ItはNVIDIA M60 GPUを150台
使⽤
■ストレージ
○ ⽣成画像は学習が完了まで保存
○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix)
○ dead leaves︓10.5万枚(128 pix ×128 pix)
○ Fake It Till You Make It︓100万枚(512pix ×512 pix)
課題︓事前学習に効果的なデータがわからない
32
探索実験からパターンを決定するが,効果は未知数
■パラメータごとに探索実験が必要
○ ⽣成する画像枚数によって変更
○ パラメータ数が変われば再度探索実験する必要がある
○ 探索実験はマシンリソースに⼤きく依存
■⽣成画像は最適解か
○ 現状、事前学習効果は実験的に明らかにしている
○ 実画像と特徴表現を⽐較した結果、初期層のみ特徴抽出器とし
て有効であることを確認
課題︓⾳声・⾔語もできる︖︖
33
半教師あり学習,⾃⼰教師あり学習が存在
■Noisy Student
○ ⾳声データにノイズを加えて学習
○ SSLより精度が⾼く,SoTAを達成
■数式ドリブン教師あり学習で⾳声認識タスクを解くには
○ 数式⽣成可能な⾳声パターンを調査
○ カテゴリをどのように定義するか
○ 下流タスクに適合する⾳声を⽣成できるか
■数式ドリブン教師あり学習で⾔語タスクを解くには
○ 意味のある⾔語を⽣成できるか
○ ⾔語は英語で良いのか
○ ⽂法,単語

More Related Content

What's hot

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
Kota Nagasato
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida
 

What's hot (20)

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 

Similar to 【メタサーベイ】数式ドリブン教師あり学習

20150930
2015093020150930
20150930
nlab_utokyo
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
Tatsuya Shirakawa
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
 
【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする
LIFULL Co., Ltd.
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
Akira Shibata
 
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
Akira Shibata
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
Deep Learning JP
 
深層学習基礎勉強会資料
深層学習基礎勉強会資料深層学習基礎勉強会資料
深層学習基礎勉強会資料
shinya murakawa
 
PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?
Hokuto Kagaya
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
Toshihiko Yamakami
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
Hiroki Nakahara
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
kunihikokaneko1
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
Shohei Hido
 
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
Preferred Networks
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
Kuniyuki Takahashi
 

Similar to 【メタサーベイ】数式ドリブン教師あり学習 (20)

20150930
2015093020150930
20150930
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
 
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
深層学習基礎勉強会資料
深層学習基礎勉強会資料深層学習基礎勉強会資料
深層学習基礎勉強会資料
 
SOINN PBR
SOINN PBRSOINN PBR
SOINN PBR
 
PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
 
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 

Recently uploaded

YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 

Recently uploaded (15)

YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 

【メタサーベイ】数式ドリブン教師あり学習

  • 1. 数式ドリブン教師あり学習 Formula-Driven Supervised Learning (FDSL) ⼤⻄達也,⽥所⿓,中村凌,⼭⽥亮佑, 速⽔亮,中嶋航⼤,⽚岡裕雄 1 http://xpaperchallenge.org/cv
  • 2. 2 ■ cvpaper.challenge メタサーベイの⼀環 ➤ 2022/03/01〜2022/06/09に実施した調査 ➤ 論⽂調査はもちろん,背景・メタ知識も含め収集 ➤ 今回はFDSLを中⼼に周辺研究を4つに⼤別し調査 ■ イントロダクション ➤ 数式ドリブン教師あり学習 (FDSL)の概観を説明 ■ 論⽂サマリ ➤ 各論⽂を簡単に紹介 ■ メタサーベイ ➤ 論⽂サマリからメタな知識を収集 本資料の構成 本資料について
  • 3. 3 筆頭編者紹介 ❖ ⽥所⿓ ➢ Twitter︓@MlTohoku ➢ 所属︓東北⼤学 学部4年 ■ cvpaper.challenge (2021/12〜) ➢ 研究の興味 ■ 事前学習・OOD Detectionなど ➢ その他活動 ■ コンペティションへの参加など ❖ ⼤⻄ 達也 ➢ 所属︓⼤阪⼤学 電⼦情報⼯学科 学部1年(休学中) ■ cvpaper.challenge (2021/4〜) ➢ 研究の興味 ■ FractalDBのセグメンテーションタスク利⽤ ■ 最近はイラストに興味 ➢ その他活動 ■ イラストを描いています (Twitter:@oca_laful)
  • 4. 代表的な事前学習⼿法 4 教師あり学習 Supervised Learning: SL ● ⼈間が実画像に対して⼿動で教師ラベル付け ● ⼊⼒画像から教師ラベルに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 ゴリラ 258 数式ドリブン教師あり学習 Formula-driven Supervised Learning: FDSL ● ある規則性に基づいた数式から⼈⼯画像を⾃動⽣成 ● パラメータを元に⾃動で教師ラベル付け ● ⼊⼒画像から教師ラベルに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 ⾃⼰教師あり学習 Self-Supervised Learning: SSL ● 画像のみを⽤いて、⼈間によるラベル付けは不要 ● 擬似タスク(Pretext Task)を⾃動的に⽣成 ● ⼊⼒画像から擬似タスクに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 90°回転 データセットの例 ● ImageNet ● PASCAL VOC ● MS COCO ⾃⼰教師⼿法の例 ● Rotation、Jigsaw、MAE ● SimCLR、MoCo (対照学習) データセットの例 ● FractalDB ● Perlin Noise
  • 5. FDSLを中⼼に4タイプに⼤別 5 ❏ 実画像 ⇄ ⼈⼯画像(データを⽣成するか︖) ❏ 教師ラベルあり ⇄ 教師ラベルなし(教師ラベルを⽣成するか?) という⼆つの軸によって4つ⼤別 ⼈⼯ 画像・教師ラベル なし ※ 教師ラベルは⾃⼰教師など外的に付与 実 画像・教師ラベル なし ⼈⼯ 画像・教師ラベル あり ※ 数式から付与される数式教師 Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル あり Dead Leaves 基盤モデル CLIP Florence (FLD-900M) ImageNet JFT-300M/3B 画像認識の事前学習モデル Self-Supervised Learning FDSLはココ︕ DMLab FractalDB TileDB FDSL PerlinNoiseDB Spectrum The Face Synthetic Dataset WMM Domain Randomization StyleGAN - Random MineRL
  • 6. FDSLとは何か? - 学習を4タイプに⼤別 6 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training 実画像,教師ラベル 有 ̶ 教師あり学習 ➢ データxと、対応する教師ラベルyを⽤いた最も⼀般的な学習 ➢ 最近では、CLIPやFlorenceなどのFoundation Modelも話題
  • 7. 実画像,教師ラベル 無 ̶ ⾃⼰教師あり学習 ➢ 教師なしデータxに対応する、⾃動で得られるカテゴリtを定義 ➢ アノテーションコスト削減で事前学習データセットの更なる⼤ 規模化 FDSLとは何か? - 学習を4タイプに⼤別 7 合成 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training 実 画像・教師ラベル 無 simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL Self-Supervised Learning
  • 8. FDSLとは何か? - 学習を4タイプに⼤別 8 8 ⼈⼯画像,教師ラベル 有(数式から⾃動で教師を付与) ➢ Fractal Pre-Trainingを代表例として、実画像・⼈間教師によ る事前学習モデルに匹敵する精度を実現 ➢ 実画像データセットにおけるデータ収集コストやライセンス、 倫理などの問題に対する解決策に 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 9. FDSLとは何か? - 学習を4タイプに⼤別 9 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training ⼈⼯画像,教師ラベル 無(外的に⾃⼰教師を付与) ➢ ラベルを⽣成できない⼈⼯⽣成画像×⾃⼰教師あり学習 ■ 実はノイズ画像からでも視覚特徴を獲得することを実証 ➢ 事前学習モデルにより⾼いベースラインのAI構築が可能 Dead Leaves MineCraftDB DMLab 合成 画像・教師ラベル 無 Dead Leaves Spectrum WMM StyleGAN - Random
  • 11. 11 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 12. Pre-training without Natural Images 12 会議 : ACCV2020(Best Paper Honorable Mention Award) / IJCV 2022 著者 : Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke Yamada, Nakamasa Inoue, Akio Nakamura, and Yutaka Satoh 数式ドリブン教師あり学習の提案 数式から⽣成した画像で事前学習を⾏うことに世界で初めて成功 ● ⾃然画像を⽤いず数式から画像データセットを⾃動⽣成・事前学習済みモデル構築 ● 実画像⼤規模データセットによる倫理問題やラベル付コストなどの様々な課題が存在 ● 数式からフラクタル画像を⽣成、⽣成時の画像に紐づくパラメータを教師ラベルと扱う ● 数式から⽣成した画像からでも画像の特徴表現が獲得できることを⽰した
  • 13. MV-FractalDB: Formula-driven Supervised Learning for Multi-view Image Recognition 13 会議 : IROS 2021 著者 : Ryosuke Yamada, Ryo Takahashi, Ryota Suzuki, Akio Nakamura, Yusuke Yoshiyasu, Ryusuke Sagawa, Hirokatsu Kataoka ● 多視点画像認識における3D姿勢ラベル付きデータセットの⾃動構築⽅法を提案 ● 従来は三次元物体認識にも関わらずImageNet事前学習モデルを使⽤していた ● 三次元データセットはラベル付の困難さからImageNet規模サイズのデータセットは存在しない ● Iterated Function System (IFS)を3D拡張,三次元フラクタルモデルを⽣成 ● 3Dフラクタルモデルを2D画像に投影することで多視点のフラクタル画像を⽣成 FractalDBを三次元に拡張し,多視点画像認識に適⽤ https://ryosuke-yamada.github.io/Multi-view-Fractal-DataBase/
  • 14. Can Vision Transformers Learn without Natural Images? 会議 : AAAI 2022 著者 : Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata, Nakamasa Inoue, Yutaka Satoh ● Vision Transformer (ViT)でも、フラクタル画像による事前学習が可能であることを⽰した ○ 従来1400万/3億の実画像を⽤いていたが,実質的にゼロ枚の実画像で事前学習 ● SimCLRv2/MoCov2などの実画像を⽤いた⾃⼰教師あり学習よりも⾼い事前学習効果 ● CIFAR10においては、ImageNet事前学習モデルと0.4ポイントの僅差 Vision Transformerを実画像ゼロで事前学習 FractalDBの事前学習効果はImageNetに近いことを明らかに 14
  • 15. Improving Fractal Pre-training 15 会議 : WACV 2022 著者 : Connor Anderson, Ryan Farrell ● SVDを⽤いてIFSのパラメータ探索を効率化,⾊と背景を組み合わせたフラクタル画像を事 前学習に⽤いることで,より良い転移学習が可能になることを⽰した (Fig.7) ● ⼤規模なマルチインスタンス(複数のフラクタル)予測の事前学習を提案,有効性を確認 ● フラクタルの事前学習は医療画像のセグメンテーションタスクに有効(Fig.6 Glas) フラクタル画像の事前学習効果を改善
  • 16. Formula-driven Supervised Learning with Recursive Tiling Patterns 16 会議 : ICCV 2021 Workshop 著者 : Hirokatsu Kataoka et al. ● 画像全体に敷き詰めるタイリングパターンによるTileDBを⾃動構築 ● 正六⾓形に3つの操作(頂点の移動、辺の変形、鏡⾯⽅向の対称移動)を加え画像⽣成 ● FractalDBより少ないパラメータセットでデータセットを⾃動構築可能 ● FractalDBよりもImageNetに類似するConv.1フィルタを獲得(下図参照) 少ないパラメータのFDSLでも⾼い事前学習効果を確認
  • 17. Spatiotemporal Initialization for 3D CNNs with Generated Motion Patterns 17 会議 : WACV 2022 著者 : Hirokatsu Kataoka, Eisuke Yamagata, Kensho Hara, Ryusuke Hayashi, Nakamasa Inoue ● Perlin Noiseに基づいてモーションパターンと動画ラベルを同時に⽣成 ● Kinetics-400/700のような⼤規模動画データセットの事前学習する前に時空間モデルのパ ラメータを初期化し、⽬標タスク性能を向上 動き情報をより良く獲得するためのVideo Perlin Noiseを提案
  • 18. ⼈⼯知能による内視鏡画像診断⽀援プラットフォーム 18 会議 : Nippon Laser Igakkaishi 著者 : 野⾥博和 ● 深層学習を⽤いた内視鏡画像診断は内視鏡画像&希少症例画像の収集が困難 ● Fractal DataBase (FractalDB)の事前学習モデルを利⽤して有⽤性を検証 ● ImageNetとの⽐較ではやや劣るが,商⽤利⽤が可能であることから医療現場での利⽤が⾒ 込まれる FractalDBが希少疾患の判別に有⽤であることを⽰唆
  • 19. 19 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 20. Domain Randomization for Transferring Deep Neural 20 会議 : IROS 2017 著者 : Josh Tpbin et al. ● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ とを発⾒ ● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬ 的で実世界に移すことを成功した初めての例を⽰した. ⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
  • 21. Fake it till you make it: face analysis in the wild using synthetic data alone 21 会議 : ICCV 2021 著者 : Erroll Wood et al. ● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの みでSOTAと同等の精度を達成。 ● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが 、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。 合成顔データのみで、あらゆる顔タスクでSOTAと同等
  • 22. Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization 22 会議 : CVPR 2018 著者 : Jonathan Tremblay et al. ● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる Domain Randomizationを⾞の検出タスクに利⽤。 ● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精 度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ り、更なる精度向上。 Domain Randomizationは、物体検出においても有効
  • 23. 23 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training Dead Leaves MineCraftDB DMLab 合成 画像・教師ラベル 無 Dead Leaves Spectrum WMM StyleGAN - Random
  • 24. Learning to see by Looking at Noise 24 会議 : NeurIPS 2021 著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba ● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定 ● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い ○ 事前学習には⾃⼰教師あり学習を使⽤ ● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等, あるいは⾃然画像を超える事前学習性能 ランダム⽣成画像の事前学習は構造的表現を獲得可能
  • 27. 事前学習効果の評価 27 ❖ 評価⽅法︓Fine-Tuning ➢ 事前学習によって獲得したパラメータを初期値として⽤ いて、Target TaskでFine-Tuningした時の性能を測る ➢ Target Taskとしては、ImageNetなどがベンチマークと して⽤いられる ➢ BackBoneとしては、CNNであればResNet-50をはじめ としたResNetベースのモデル、ViTであればViT-BやViT- Lなどがスタンダード モデル 学習 画像デ ータ 識 別 器 ラベル ラベル あり ラベル なし モデル 学習 画像データ 識 別 器 ラベル モデル 学習 画像データ
  • 28. 検証⽤データセットの変遷 28 ■ 公開されているPretrain済みモデルの評価指標は様々 ● 取り組みたいタスクに対して数百のモデル調査が必要 ■ ImageNet→Visual Task Adaptation Benchmark (VTAB) ● VTABをテストに⽤いることで評価を⼀般化 ○natural,specialized,structuredからなる19の評価タスク ○全タスクの平均スコアで⽐較 ● ⽐較からgenerative modelによるPretrainは識別精度が低下することを確認
  • 30. 課題︓画像⽣成に時間がかかる 30 ⼀度⽣成を開始すれば作業は不必要だが,時間がかかる ■3D合成データ ○ 合成する画像は⼈⼿で撮影 ○ cut, pasete and learnではBigBIRDを使⽤ ○ 背景にはUW Scenes Dataset を使⽤ ○ 拡張は容易だが,撮影の労⼒が膨⼤ ■Fake It Till You Make It ○ NVIDIA M60 GPUを150台使⽤して2⽇
  • 31. 課題︓⼤量のデータを学習するためのマシンリソースが必要 31 ABCIのような⼤規模なマシンリソースが求められる 学習効果がある形状パターンを掴むには膨⼤な探索実験が必要 試⾏回数が識別精度向上に直結 ■GPU,CPU ○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要 ○ Fake It Till You Make ItはNVIDIA M60 GPUを150台 使⽤ ■ストレージ ○ ⽣成画像は学習が完了まで保存 ○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix) ○ dead leaves︓10.5万枚(128 pix ×128 pix) ○ Fake It Till You Make It︓100万枚(512pix ×512 pix)
  • 32. 課題︓事前学習に効果的なデータがわからない 32 探索実験からパターンを決定するが,効果は未知数 ■パラメータごとに探索実験が必要 ○ ⽣成する画像枚数によって変更 ○ パラメータ数が変われば再度探索実験する必要がある ○ 探索実験はマシンリソースに⼤きく依存 ■⽣成画像は最適解か ○ 現状、事前学習効果は実験的に明らかにしている ○ 実画像と特徴表現を⽐較した結果、初期層のみ特徴抽出器とし て有効であることを確認
  • 33. 課題︓⾳声・⾔語もできる︖︖ 33 半教師あり学習,⾃⼰教師あり学習が存在 ■Noisy Student ○ ⾳声データにノイズを加えて学習 ○ SSLより精度が⾼く,SoTAを達成 ■数式ドリブン教師あり学習で⾳声認識タスクを解くには ○ 数式⽣成可能な⾳声パターンを調査 ○ カテゴリをどのように定義するか ○ 下流タスクに適合する⾳声を⽣成できるか ■数式ドリブン教師あり学習で⾔語タスクを解くには ○ 意味のある⾔語を⽣成できるか ○ ⾔語は英語で良いのか ○ ⽂法,単語