SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our User Agreement and Privacy Policy.
SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our Privacy Policy and User Agreement for details.
Successfully reported this slideshow.
Activate your 30 day free trial to unlock unlimited reading.
19.
19
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
20.
Domain Randomization for Transferring Deep Neural
20
会議 : IROS 2017
著者 : Josh Tpbin et al.
● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ
リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ
とを発⾒
● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬
的で実世界に移すことを成功した初めての例を⽰した.
⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
21.
Fake it till you make it: face analysis in the wild using
synthetic data alone
21
会議 : ICCV 2021
著者 : Erroll Wood et al.
● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの
みでSOTAと同等の精度を達成。
● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが
、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。
合成顔データのみで、あらゆる顔タスクでSOTAと同等
22.
Training Deep Networks with Synthetic Data: Bridging
the Reality Gap by Domain Randomization
22
会議 : CVPR 2018
著者 : Jonathan Tremblay et al.
● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる
Domain Randomizationを⾞の検出タスクに利⽤。
● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精
度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ
り、更なる精度向上。
Domain Randomizationは、物体検出においても有効
23.
23
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
24.
Learning to see by Looking at Noise
24
会議 : NeurIPS 2021
著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba
● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定
● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い
○ 事前学習には⾃⼰教師あり学習を使⽤
● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等,
あるいは⾃然画像を超える事前学習性能
ランダム⽣成画像の事前学習は構造的表現を獲得可能
30.
課題︓画像⽣成に時間がかかる
30
⼀度⽣成を開始すれば作業は不必要だが,時間がかかる
■3D合成データ
○ 合成する画像は⼈⼿で撮影
○ cut, pasete and learnではBigBIRDを使⽤
○ 背景にはUW Scenes Dataset を使⽤
○ 拡張は容易だが,撮影の労⼒が膨⼤
■Fake It Till You Make It
○ NVIDIA M60 GPUを150台使⽤して2⽇
31.
課題︓⼤量のデータを学習するためのマシンリソースが必要
31
ABCIのような⼤規模なマシンリソースが求められる
学習効果がある形状パターンを掴むには膨⼤な探索実験が必要
試⾏回数が識別精度向上に直結
■GPU,CPU
○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要
○ Fake It Till You Make ItはNVIDIA M60 GPUを150台
使⽤
■ストレージ
○ ⽣成画像は学習が完了まで保存
○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix)
○ dead leaves︓10.5万枚(128 pix ×128 pix)
○ Fake It Till You Make It︓100万枚(512pix ×512 pix)