数式ドリブン教師あり学習
Formula-Driven Supervised Learning (FDSL)
⼤⻄達也,⽥所⿓,中村凌,⼭⽥亮佑,
速⽔亮,中嶋航⼤,⽚岡裕雄
1
http://xpaperchallenge.org/cv
2
■ cvpaper.challenge メタサーベイの⼀環
➤ 2022/03/01〜2022/06/09に実施した調査
➤ 論⽂調査はもちろん,背景・メタ知識も含め収集
➤ 今回はFDSLを中⼼に周辺研究を4つに⼤別し調査
■ イントロダクション
➤ 数式ドリブン教師あり学習 (FDSL)の概観を説明
■ 論⽂サマリ
➤ 各論⽂を簡単に紹介
■ メタサーベイ
➤ 論⽂サマリからメタな知識を収集
本資料の構成
本資料について
3
筆頭編者紹介
❖ ⽥所⿓
➢ Twitter︓@MlTohoku
➢ 所属︓東北⼤学 学部4年
■ cvpaper.challenge (2021/12〜)
➢ 研究の興味
■ 事前学習・OOD Detectionなど
➢ その他活動
■ コンペティションへの参加など
❖ ⼤⻄ 達也
➢ 所属︓⼤阪⼤学 電⼦情報⼯学科 学部1年(休学中)
■ cvpaper.challenge (2021/4〜)
➢ 研究の興味
■ FractalDBのセグメンテーションタスク利⽤
■ 最近はイラストに興味
➢ その他活動
■ イラストを描いています (Twitter:@oca_laful)
代表的な事前学習⼿法
4
教師あり学習
Supervised Learning: SL
● ⼈間が実画像に対して⼿動で教師ラベル付け
● ⼊⼒画像から教師ラベルに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
ゴリラ
258
数式ドリブン教師あり学習
Formula-driven Supervised Learning: FDSL
● ある規則性に基づいた数式から⼈⼯画像を⾃動⽣成
● パラメータを元に⾃動で教師ラベル付け
● ⼊⼒画像から教師ラベルに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
⾃⼰教師あり学習
Self-Supervised Learning: SSL
● 画像のみを⽤いて、⼈間によるラベル付けは不要
● 擬似タスク(Pretext Task)を⾃動的に⽣成
● ⼊⼒画像から擬似タスクに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
90°回転
データセットの例
● ImageNet
● PASCAL VOC
● MS COCO
⾃⼰教師⼿法の例
● Rotation、Jigsaw、MAE
● SimCLR、MoCo (対照学習)
データセットの例
● FractalDB
● Perlin Noise
FDSLを中⼼に4タイプに⼤別
5
❏ 実画像 ⇄ ⼈⼯画像(データを⽣成するか︖)
❏ 教師ラベルあり ⇄ 教師ラベルなし(教師ラベルを⽣成するか?)
という⼆つの軸によって4つ⼤別
⼈⼯ 画像・教師ラベル なし
※ 教師ラベルは⾃⼰教師など外的に付与
実 画像・教師ラベル なし
⼈⼯ 画像・教師ラベル あり
※ 数式から付与される数式教師
Supervised Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル あり
Dead
Leaves
基盤モデル
CLIP
Florence
(FLD-900M)
ImageNet
JFT-300M/3B
画像認識の事前学習モデル
Self-Supervised Learning
FDSLはココ︕
DMLab
FractalDB
TileDB
FDSL
PerlinNoiseDB
Spectrum
The Face Synthetic
Dataset
WMM
Domain
Randomization
StyleGAN - Random
MineRL
FDSLとは何か? - 学習を4タイプに⼤別
6
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
実画像,教師ラベル 有 ̶ 教師あり学習
➢ データxと、対応する教師ラベルyを⽤いた最も⼀般的な学習
➢ 最近では、CLIPやFlorenceなどのFoundation Modelも話題
実画像,教師ラベル 無 ̶ ⾃⼰教師あり学習
➢ 教師なしデータxに対応する、⾃動で得られるカテゴリtを定義
➢ アノテーションコスト削減で事前学習データセットの更なる⼤
規模化
FDSLとは何か? - 学習を4タイプに⼤別
7
合成 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
実 画像・教師ラベル 無
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
Self-Supervised
Learning
FDSLとは何か? - 学習を4タイプに⼤別
8
8
⼈⼯画像,教師ラベル 有(数式から⾃動で教師を付与)
➢ Fractal Pre-Trainingを代表例として、実画像・⼈間教師によ
る事前学習モデルに匹敵する精度を実現
➢ 実画像データセットにおけるデータ収集コストやライセンス、
倫理などの問題に対する解決策に
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
FDSLとは何か? - 学習を4タイプに⼤別
9
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
⼈⼯画像,教師ラベル 無(外的に⾃⼰教師を付与)
➢ ラベルを⽣成できない⼈⼯⽣成画像×⾃⼰教師あり学習
■ 実はノイズ画像からでも視覚特徴を獲得することを実証
➢ 事前学習モデルにより⾼いベースラインのAI構築が可能
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
論⽂紹介
11
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
Pre-training without Natural Images
12
会議 : ACCV2020(Best Paper Honorable Mention Award) / IJCV 2022
著者 : Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke
Yamada, Nakamasa Inoue, Akio Nakamura, and Yutaka Satoh
数式ドリブン教師あり学習の提案
数式から⽣成した画像で事前学習を⾏うことに世界で初めて成功
● ⾃然画像を⽤いず数式から画像データセットを⾃動⽣成・事前学習済みモデル構築
● 実画像⼤規模データセットによる倫理問題やラベル付コストなどの様々な課題が存在
● 数式からフラクタル画像を⽣成、⽣成時の画像に紐づくパラメータを教師ラベルと扱う
● 数式から⽣成した画像からでも画像の特徴表現が獲得できることを⽰した
MV-FractalDB: Formula-driven Supervised Learning for Multi-view Image Recognition
13
会議 : IROS 2021
著者 : Ryosuke Yamada, Ryo Takahashi, Ryota Suzuki, Akio Nakamura, Yusuke Yoshiyasu, Ryusuke
Sagawa, Hirokatsu Kataoka
● 多視点画像認識における3D姿勢ラベル付きデータセットの⾃動構築⽅法を提案
● 従来は三次元物体認識にも関わらずImageNet事前学習モデルを使⽤していた
● 三次元データセットはラベル付の困難さからImageNet規模サイズのデータセットは存在しない
● Iterated Function System (IFS)を3D拡張,三次元フラクタルモデルを⽣成
● 3Dフラクタルモデルを2D画像に投影することで多視点のフラクタル画像を⽣成
FractalDBを三次元に拡張し,多視点画像認識に適⽤
https://ryosuke-yamada.github.io/Multi-view-Fractal-DataBase/
Can Vision Transformers Learn without Natural Images?
会議 : AAAI 2022
著者 : Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata, Nakamasa Inoue,
Yutaka Satoh
● Vision Transformer (ViT)でも、フラクタル画像による事前学習が可能であることを⽰した
○ 従来1400万/3億の実画像を⽤いていたが,実質的にゼロ枚の実画像で事前学習
● SimCLRv2/MoCov2などの実画像を⽤いた⾃⼰教師あり学習よりも⾼い事前学習効果
● CIFAR10においては、ImageNet事前学習モデルと0.4ポイントの僅差
Vision Transformerを実画像ゼロで事前学習
FractalDBの事前学習効果はImageNetに近いことを明らかに
14
Improving Fractal Pre-training
15
会議 : WACV 2022
著者 : Connor Anderson, Ryan Farrell
● SVDを⽤いてIFSのパラメータ探索を効率化,⾊と背景を組み合わせたフラクタル画像を事
前学習に⽤いることで,より良い転移学習が可能になることを⽰した (Fig.7)
● ⼤規模なマルチインスタンス(複数のフラクタル)予測の事前学習を提案,有効性を確認
● フラクタルの事前学習は医療画像のセグメンテーションタスクに有効(Fig.6 Glas)
フラクタル画像の事前学習効果を改善
Formula-driven Supervised Learning with Recursive Tiling Patterns
16
会議 : ICCV 2021 Workshop
著者 : Hirokatsu Kataoka et al.
● 画像全体に敷き詰めるタイリングパターンによるTileDBを⾃動構築
● 正六⾓形に3つの操作(頂点の移動、辺の変形、鏡⾯⽅向の対称移動)を加え画像⽣成
● FractalDBより少ないパラメータセットでデータセットを⾃動構築可能
● FractalDBよりもImageNetに類似するConv.1フィルタを獲得(下図参照)
少ないパラメータのFDSLでも⾼い事前学習効果を確認
Spatiotemporal Initialization for 3D CNNs with Generated Motion Patterns
17
会議 : WACV 2022
著者 : Hirokatsu Kataoka, Eisuke Yamagata, Kensho Hara, Ryusuke Hayashi, Nakamasa Inoue
● Perlin Noiseに基づいてモーションパターンと動画ラベルを同時に⽣成
● Kinetics-400/700のような⼤規模動画データセットの事前学習する前に時空間モデルのパ
ラメータを初期化し、⽬標タスク性能を向上
動き情報をより良く獲得するためのVideo Perlin Noiseを提案
⼈⼯知能による内視鏡画像診断⽀援プラットフォーム
18
会議 : Nippon Laser Igakkaishi
著者 : 野⾥博和
● 深層学習を⽤いた内視鏡画像診断は内視鏡画像&希少症例画像の収集が困難
● Fractal DataBase (FractalDB)の事前学習モデルを利⽤して有⽤性を検証
● ImageNetとの⽐較ではやや劣るが,商⽤利⽤が可能であることから医療現場での利⽤が⾒
込まれる
FractalDBが希少疾患の判別に有⽤であることを⽰唆
19
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
Domain Randomization for Transferring Deep Neural
20
会議 : IROS 2017
著者 : Josh Tpbin et al.
● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ
リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ
とを発⾒
● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬
的で実世界に移すことを成功した初めての例を⽰した.
⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
Fake it till you make it: face analysis in the wild using
synthetic data alone
21
会議 : ICCV 2021
著者 : Erroll Wood et al.
● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの
みでSOTAと同等の精度を達成。
● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが
、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。
合成顔データのみで、あらゆる顔タスクでSOTAと同等
Training Deep Networks with Synthetic Data: Bridging
the Reality Gap by Domain Randomization
22
会議 : CVPR 2018
著者 : Jonathan Tremblay et al.
● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる
Domain Randomizationを⾞の検出タスクに利⽤。
● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精
度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ
り、更なる精度向上。
Domain Randomizationは、物体検出においても有効
23
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
Learning to see by Looking at Noise
24
会議 : NeurIPS 2021
著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba
● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定
● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い
○ 事前学習には⾃⼰教師あり学習を使⽤
● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等,
あるいは⾃然画像を超える事前学習性能
ランダム⽣成画像の事前学習は構造的表現を獲得可能
メタサーベイ
メタサーベイ
1.論⽂の背景にある知識等に着⽬
a.代表的な評価法と精度の変遷
b.FDSLのトレンド
c.現状の課題点
という部分にフォーカス
26
事前学習効果の評価
27
❖ 評価⽅法︓Fine-Tuning
➢ 事前学習によって獲得したパラメータを初期値として⽤
いて、Target TaskでFine-Tuningした時の性能を測る
➢ Target Taskとしては、ImageNetなどがベンチマークと
して⽤いられる
➢ BackBoneとしては、CNNであればResNet-50をはじめ
としたResNetベースのモデル、ViTであればViT-BやViT-
Lなどがスタンダード
モデル
学習 画像デ
ータ
識
別
器
ラベル
ラベル
あり
ラベル
なし
モデル
学習 画像データ
識
別
器
ラベル
モデル
学習
画像データ
検証⽤データセットの変遷
28
■ 公開されているPretrain済みモデルの評価指標は様々
● 取り組みたいタスクに対して数百のモデル調査が必要
■ ImageNet→Visual Task Adaptation Benchmark (VTAB)
● VTABをテストに⽤いることで評価を⼀般化
○natural,specialized,structuredからなる19の評価タスク
○全タスクの平均スコアで⽐較
● ⽐較からgenerative modelによるPretrainは識別精度が低下することを確認
FDSLのトレンド
29
様々なタスクに対して派⽣
数式から画像を⽣成
3D化
3D化
画像をカット&ペースト
⼈物に特化
汎⽤的なモデル
タスクに特化したモデル
交通に特化
実世界の
物体検出に特化
課題︓画像⽣成に時間がかかる
30
⼀度⽣成を開始すれば作業は不必要だが,時間がかかる
■3D合成データ
○ 合成する画像は⼈⼿で撮影
○ cut, pasete and learnではBigBIRDを使⽤
○ 背景にはUW Scenes Dataset を使⽤
○ 拡張は容易だが,撮影の労⼒が膨⼤
■Fake It Till You Make It
○ NVIDIA M60 GPUを150台使⽤して2⽇
課題︓⼤量のデータを学習するためのマシンリソースが必要
31
ABCIのような⼤規模なマシンリソースが求められる
学習効果がある形状パターンを掴むには膨⼤な探索実験が必要
試⾏回数が識別精度向上に直結
■GPU,CPU
○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要
○ Fake It Till You Make ItはNVIDIA M60 GPUを150台
使⽤
■ストレージ
○ ⽣成画像は学習が完了まで保存
○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix)
○ dead leaves︓10.5万枚(128 pix ×128 pix)
○ Fake It Till You Make It︓100万枚(512pix ×512 pix)
課題︓事前学習に効果的なデータがわからない
32
探索実験からパターンを決定するが,効果は未知数
■パラメータごとに探索実験が必要
○ ⽣成する画像枚数によって変更
○ パラメータ数が変われば再度探索実験する必要がある
○ 探索実験はマシンリソースに⼤きく依存
■⽣成画像は最適解か
○ 現状、事前学習効果は実験的に明らかにしている
○ 実画像と特徴表現を⽐較した結果、初期層のみ特徴抽出器とし
て有効であることを確認
課題︓⾳声・⾔語もできる︖︖
33
半教師あり学習,⾃⼰教師あり学習が存在
■Noisy Student
○ ⾳声データにノイズを加えて学習
○ SSLより精度が⾼く,SoTAを達成
■数式ドリブン教師あり学習で⾳声認識タスクを解くには
○ 数式⽣成可能な⾳声パターンを調査
○ カテゴリをどのように定義するか
○ 下流タスクに適合する⾳声を⽣成できるか
■数式ドリブン教師あり学習で⾔語タスクを解くには
○ 意味のある⾔語を⽣成できるか
○ ⾔語は英語で良いのか
○ ⽂法,単語

【メタサーベイ】数式ドリブン教師あり学習

  • 1.
    数式ドリブン教師あり学習 Formula-Driven Supervised Learning(FDSL) ⼤⻄達也,⽥所⿓,中村凌,⼭⽥亮佑, 速⽔亮,中嶋航⼤,⽚岡裕雄 1 http://xpaperchallenge.org/cv
  • 2.
    2 ■ cvpaper.challenge メタサーベイの⼀環 ➤2022/03/01〜2022/06/09に実施した調査 ➤ 論⽂調査はもちろん,背景・メタ知識も含め収集 ➤ 今回はFDSLを中⼼に周辺研究を4つに⼤別し調査 ■ イントロダクション ➤ 数式ドリブン教師あり学習 (FDSL)の概観を説明 ■ 論⽂サマリ ➤ 各論⽂を簡単に紹介 ■ メタサーベイ ➤ 論⽂サマリからメタな知識を収集 本資料の構成 本資料について
  • 3.
    3 筆頭編者紹介 ❖ ⽥所⿓ ➢ Twitter︓@MlTohoku ➢所属︓東北⼤学 学部4年 ■ cvpaper.challenge (2021/12〜) ➢ 研究の興味 ■ 事前学習・OOD Detectionなど ➢ その他活動 ■ コンペティションへの参加など ❖ ⼤⻄ 達也 ➢ 所属︓⼤阪⼤学 電⼦情報⼯学科 学部1年(休学中) ■ cvpaper.challenge (2021/4〜) ➢ 研究の興味 ■ FractalDBのセグメンテーションタスク利⽤ ■ 最近はイラストに興味 ➢ その他活動 ■ イラストを描いています (Twitter:@oca_laful)
  • 4.
    代表的な事前学習⼿法 4 教師あり学習 Supervised Learning: SL ●⼈間が実画像に対して⼿動で教師ラベル付け ● ⼊⼒画像から教師ラベルに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 ゴリラ 258 数式ドリブン教師あり学習 Formula-driven Supervised Learning: FDSL ● ある規則性に基づいた数式から⼈⼯画像を⾃動⽣成 ● パラメータを元に⾃動で教師ラベル付け ● ⼊⼒画像から教師ラベルに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 ⾃⼰教師あり学習 Self-Supervised Learning: SSL ● 画像のみを⽤いて、⼈間によるラベル付けは不要 ● 擬似タスク(Pretext Task)を⾃動的に⽣成 ● ⼊⼒画像から擬似タスクに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 90°回転 データセットの例 ● ImageNet ● PASCAL VOC ● MS COCO ⾃⼰教師⼿法の例 ● Rotation、Jigsaw、MAE ● SimCLR、MoCo (対照学習) データセットの例 ● FractalDB ● Perlin Noise
  • 5.
    FDSLを中⼼に4タイプに⼤別 5 ❏ 実画像 ⇄⼈⼯画像(データを⽣成するか︖) ❏ 教師ラベルあり ⇄ 教師ラベルなし(教師ラベルを⽣成するか?) という⼆つの軸によって4つ⼤別 ⼈⼯ 画像・教師ラベル なし ※ 教師ラベルは⾃⼰教師など外的に付与 実 画像・教師ラベル なし ⼈⼯ 画像・教師ラベル あり ※ 数式から付与される数式教師 Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル あり Dead Leaves 基盤モデル CLIP Florence (FLD-900M) ImageNet JFT-300M/3B 画像認識の事前学習モデル Self-Supervised Learning FDSLはココ︕ DMLab FractalDB TileDB FDSL PerlinNoiseDB Spectrum The Face Synthetic Dataset WMM Domain Randomization StyleGAN - Random MineRL
  • 6.
    FDSLとは何か? - 学習を4タイプに⼤別 6 合成画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training 実画像,教師ラベル 有 ̶ 教師あり学習 ➢ データxと、対応する教師ラベルyを⽤いた最も⼀般的な学習 ➢ 最近では、CLIPやFlorenceなどのFoundation Modelも話題
  • 7.
    実画像,教師ラベル 無 ̶⾃⼰教師あり学習 ➢ 教師なしデータxに対応する、⾃動で得られるカテゴリtを定義 ➢ アノテーションコスト削減で事前学習データセットの更なる⼤ 規模化 FDSLとは何か? - 学習を4タイプに⼤別 7 合成 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training 実 画像・教師ラベル 無 simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL Self-Supervised Learning
  • 8.
    FDSLとは何か? - 学習を4タイプに⼤別 8 8 ⼈⼯画像,教師ラベル有(数式から⾃動で教師を付与) ➢ Fractal Pre-Trainingを代表例として、実画像・⼈間教師によ る事前学習モデルに匹敵する精度を実現 ➢ 実画像データセットにおけるデータ収集コストやライセンス、 倫理などの問題に対する解決策に 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 9.
    FDSLとは何か? - 学習を4タイプに⼤別 9 合成画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training ⼈⼯画像,教師ラベル 無(外的に⾃⼰教師を付与) ➢ ラベルを⽣成できない⼈⼯⽣成画像×⾃⼰教師あり学習 ■ 実はノイズ画像からでも視覚特徴を獲得することを実証 ➢ 事前学習モデルにより⾼いベースラインのAI構築が可能 Dead Leaves MineCraftDB DMLab 合成 画像・教師ラベル 無 Dead Leaves Spectrum WMM StyleGAN - Random
  • 10.
  • 11.
    11 合成 画像・教師ラベル 無 実画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 12.
    Pre-training without NaturalImages 12 会議 : ACCV2020(Best Paper Honorable Mention Award) / IJCV 2022 著者 : Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke Yamada, Nakamasa Inoue, Akio Nakamura, and Yutaka Satoh 数式ドリブン教師あり学習の提案 数式から⽣成した画像で事前学習を⾏うことに世界で初めて成功 ● ⾃然画像を⽤いず数式から画像データセットを⾃動⽣成・事前学習済みモデル構築 ● 実画像⼤規模データセットによる倫理問題やラベル付コストなどの様々な課題が存在 ● 数式からフラクタル画像を⽣成、⽣成時の画像に紐づくパラメータを教師ラベルと扱う ● 数式から⽣成した画像からでも画像の特徴表現が獲得できることを⽰した
  • 13.
    MV-FractalDB: Formula-driven SupervisedLearning for Multi-view Image Recognition 13 会議 : IROS 2021 著者 : Ryosuke Yamada, Ryo Takahashi, Ryota Suzuki, Akio Nakamura, Yusuke Yoshiyasu, Ryusuke Sagawa, Hirokatsu Kataoka ● 多視点画像認識における3D姿勢ラベル付きデータセットの⾃動構築⽅法を提案 ● 従来は三次元物体認識にも関わらずImageNet事前学習モデルを使⽤していた ● 三次元データセットはラベル付の困難さからImageNet規模サイズのデータセットは存在しない ● Iterated Function System (IFS)を3D拡張,三次元フラクタルモデルを⽣成 ● 3Dフラクタルモデルを2D画像に投影することで多視点のフラクタル画像を⽣成 FractalDBを三次元に拡張し,多視点画像認識に適⽤ https://ryosuke-yamada.github.io/Multi-view-Fractal-DataBase/
  • 14.
    Can Vision TransformersLearn without Natural Images? 会議 : AAAI 2022 著者 : Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata, Nakamasa Inoue, Yutaka Satoh ● Vision Transformer (ViT)でも、フラクタル画像による事前学習が可能であることを⽰した ○ 従来1400万/3億の実画像を⽤いていたが,実質的にゼロ枚の実画像で事前学習 ● SimCLRv2/MoCov2などの実画像を⽤いた⾃⼰教師あり学習よりも⾼い事前学習効果 ● CIFAR10においては、ImageNet事前学習モデルと0.4ポイントの僅差 Vision Transformerを実画像ゼロで事前学習 FractalDBの事前学習効果はImageNetに近いことを明らかに 14
  • 15.
    Improving Fractal Pre-training 15 会議: WACV 2022 著者 : Connor Anderson, Ryan Farrell ● SVDを⽤いてIFSのパラメータ探索を効率化,⾊と背景を組み合わせたフラクタル画像を事 前学習に⽤いることで,より良い転移学習が可能になることを⽰した (Fig.7) ● ⼤規模なマルチインスタンス(複数のフラクタル)予測の事前学習を提案,有効性を確認 ● フラクタルの事前学習は医療画像のセグメンテーションタスクに有効(Fig.6 Glas) フラクタル画像の事前学習効果を改善
  • 16.
    Formula-driven Supervised Learningwith Recursive Tiling Patterns 16 会議 : ICCV 2021 Workshop 著者 : Hirokatsu Kataoka et al. ● 画像全体に敷き詰めるタイリングパターンによるTileDBを⾃動構築 ● 正六⾓形に3つの操作(頂点の移動、辺の変形、鏡⾯⽅向の対称移動)を加え画像⽣成 ● FractalDBより少ないパラメータセットでデータセットを⾃動構築可能 ● FractalDBよりもImageNetに類似するConv.1フィルタを獲得(下図参照) 少ないパラメータのFDSLでも⾼い事前学習効果を確認
  • 17.
    Spatiotemporal Initialization for3D CNNs with Generated Motion Patterns 17 会議 : WACV 2022 著者 : Hirokatsu Kataoka, Eisuke Yamagata, Kensho Hara, Ryusuke Hayashi, Nakamasa Inoue ● Perlin Noiseに基づいてモーションパターンと動画ラベルを同時に⽣成 ● Kinetics-400/700のような⼤規模動画データセットの事前学習する前に時空間モデルのパ ラメータを初期化し、⽬標タスク性能を向上 動き情報をより良く獲得するためのVideo Perlin Noiseを提案
  • 18.
    ⼈⼯知能による内視鏡画像診断⽀援プラットフォーム 18 会議 : NipponLaser Igakkaishi 著者 : 野⾥博和 ● 深層学習を⽤いた内視鏡画像診断は内視鏡画像&希少症例画像の収集が困難 ● Fractal DataBase (FractalDB)の事前学習モデルを利⽤して有⽤性を検証 ● ImageNetとの⽐較ではやや劣るが,商⽤利⽤が可能であることから医療現場での利⽤が⾒ 込まれる FractalDBが希少疾患の判別に有⽤であることを⽰唆
  • 19.
    19 合成 画像・教師ラベル 無 実画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 20.
    Domain Randomization forTransferring Deep Neural 20 会議 : IROS 2017 著者 : Josh Tpbin et al. ● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ とを発⾒ ● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬ 的で実世界に移すことを成功した初めての例を⽰した. ⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
  • 21.
    Fake it tillyou make it: face analysis in the wild using synthetic data alone 21 会議 : ICCV 2021 著者 : Erroll Wood et al. ● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの みでSOTAと同等の精度を達成。 ● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが 、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。 合成顔データのみで、あらゆる顔タスクでSOTAと同等
  • 22.
    Training Deep Networkswith Synthetic Data: Bridging the Reality Gap by Domain Randomization 22 会議 : CVPR 2018 著者 : Jonathan Tremblay et al. ● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる Domain Randomizationを⾞の検出タスクに利⽤。 ● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精 度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ り、更なる精度向上。 Domain Randomizationは、物体検出においても有効
  • 23.
    23 合成 画像・教師ラベル 無 実画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training Dead Leaves MineCraftDB DMLab 合成 画像・教師ラベル 無 Dead Leaves Spectrum WMM StyleGAN - Random
  • 24.
    Learning to seeby Looking at Noise 24 会議 : NeurIPS 2021 著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba ● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定 ● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い ○ 事前学習には⾃⼰教師あり学習を使⽤ ● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等, あるいは⾃然画像を超える事前学習性能 ランダム⽣成画像の事前学習は構造的表現を獲得可能
  • 25.
  • 26.
  • 27.
    事前学習効果の評価 27 ❖ 評価⽅法︓Fine-Tuning ➢ 事前学習によって獲得したパラメータを初期値として⽤ いて、TargetTaskでFine-Tuningした時の性能を測る ➢ Target Taskとしては、ImageNetなどがベンチマークと して⽤いられる ➢ BackBoneとしては、CNNであればResNet-50をはじめ としたResNetベースのモデル、ViTであればViT-BやViT- Lなどがスタンダード モデル 学習 画像デ ータ 識 別 器 ラベル ラベル あり ラベル なし モデル 学習 画像データ 識 別 器 ラベル モデル 学習 画像データ
  • 28.
    検証⽤データセットの変遷 28 ■ 公開されているPretrain済みモデルの評価指標は様々 ● 取り組みたいタスクに対して数百のモデル調査が必要 ■ImageNet→Visual Task Adaptation Benchmark (VTAB) ● VTABをテストに⽤いることで評価を⼀般化 ○natural,specialized,structuredからなる19の評価タスク ○全タスクの平均スコアで⽐較 ● ⽐較からgenerative modelによるPretrainは識別精度が低下することを確認
  • 29.
  • 30.
    課題︓画像⽣成に時間がかかる 30 ⼀度⽣成を開始すれば作業は不必要だが,時間がかかる ■3D合成データ ○ 合成する画像は⼈⼿で撮影 ○ cut,pasete and learnではBigBIRDを使⽤ ○ 背景にはUW Scenes Dataset を使⽤ ○ 拡張は容易だが,撮影の労⼒が膨⼤ ■Fake It Till You Make It ○ NVIDIA M60 GPUを150台使⽤して2⽇
  • 31.
    課題︓⼤量のデータを学習するためのマシンリソースが必要 31 ABCIのような⼤規模なマシンリソースが求められる 学習効果がある形状パターンを掴むには膨⼤な探索実験が必要 試⾏回数が識別精度向上に直結 ■GPU,CPU ○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要 ○ FakeIt Till You Make ItはNVIDIA M60 GPUを150台 使⽤ ■ストレージ ○ ⽣成画像は学習が完了まで保存 ○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix) ○ dead leaves︓10.5万枚(128 pix ×128 pix) ○ Fake It Till You Make It︓100万枚(512pix ×512 pix)
  • 32.
    課題︓事前学習に効果的なデータがわからない 32 探索実験からパターンを決定するが,効果は未知数 ■パラメータごとに探索実験が必要 ○ ⽣成する画像枚数によって変更 ○ パラメータ数が変われば再度探索実験する必要がある ○探索実験はマシンリソースに⼤きく依存 ■⽣成画像は最適解か ○ 現状、事前学習効果は実験的に明らかにしている ○ 実画像と特徴表現を⽐較した結果、初期層のみ特徴抽出器とし て有効であることを確認
  • 33.
    課題︓⾳声・⾔語もできる︖︖ 33 半教師あり学習,⾃⼰教師あり学習が存在 ■Noisy Student ○ ⾳声データにノイズを加えて学習 ○SSLより精度が⾼く,SoTAを達成 ■数式ドリブン教師あり学習で⾳声認識タスクを解くには ○ 数式⽣成可能な⾳声パターンを調査 ○ カテゴリをどのように定義するか ○ 下流タスクに適合する⾳声を⽣成できるか ■数式ドリブン教師あり学習で⾔語タスクを解くには ○ 意味のある⾔語を⽣成できるか ○ ⾔語は英語で良いのか ○ ⽂法,単語