1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Replacing Labeled Real-Image Datasets With Auto-
Generated Contours
Shunsuke Chiba(the university of Tokyo B3)
書誌情報
著者:Hirokatsu Kataoka, Ryo Hayamizu, Ryosuke Yamada, Kodai Nakashima,
Sora Takashima, Xinyu Zhang, Edgar Josafat Martinez-Noriega, Nakamasa Inoue,
Rio Yokota,Tsinghua University
2
タ イ ト ル : Replacing Labeled Real-Image Datasets With Auto-Generated
Contours
カンファレンス:CVPR 2022
※本資料で使用されている図や画像は特に言及がない限り、本論文または公式サイトからの引用です。
概要:数式から生成された画像を用いた、VisionTransformer(ViT)の事前学習
→実画像を用いて事前学習させた時と同等かそれ以上の精度を達成した
背景知識
Vision Transformer
2020年にGoogleが発表した画像認識モデル。BERTやGPT-3に用いられるTransformerを画像
タスクに応用したもの。大規模なデータセットによる事前学習を行った後と個別データセッ
トによるfinetuningによってダウンストリームタスクを解く
3
出典: https://arxiv.org/abs/2010.11929
背景知識
フラクタル図形
フラクタルとは、一部が全体と自己相似な構造を持っている図形を指し、自然界にも多く存
在する。フラクタル幾何という分野の知識を使うと、数式からフラクタル図形を生成するこ
とも可能。
4
出典: https://arxiv.org/abs/2010.11929
https://www2.hamajima.co.jp/~mathenet/wi
ki/index.php?%A5%D5%A5%E9%A5%AF%A
5%BF%A5%EB%A3%B3%B3%D8%B4%FC%
A1%CA%A5%AF%A5%E9%A5%A4%A5%DE
%A5%C3%A5%AF%A5%B9%A1%CB
背景
従来の画像認識モデルの課題
・膨大な画像収集を要する(ViTの原論文では3
億枚以上の教師データを使って学習)
・人手で教師ラベルを生成するため膨大な作業
コストが生じる
・実画像の利用によるプライバシーの侵害の可
能性
・不適切なラベルの付与による差別的な出力の
可能性
5
先行研究
formula-driven supervised learning(FDSL)
Pre-training without Natural Images(2020)では、数式から生成されたフラクタル図形のデー
タセットFractalDBを使ってCNNを学習させたところ、実画像に近い精度が観測された
6
出典: https://openaccess.thecvf.com/content/ACCV2020/papers/Kataoka_Pre-
training_without_Natural_Images_ACCV_2020_paper.pdf
仮説1
FDSLにおける輪郭の重要性
予備調査にてFractalDBをViTで学習させたところ、図形の輪郭にattentionがフォーカスされ
ていることを発見した
提案手法
FractalDBの派生として、オブジェクトの輪郭
を描画することに特化した生成手法、RCDBを
提案
RCDBではNとnの二つのパラメータの組を1つ
のクラスと見做し、一定のノイズを加えて1ク
ラスあたり1000枚の画像を生成している
→人のアノテーション無しに、ラベル(クラ
ス)つき画像データを生成できる
Radial Contour Database (RCDB)
提案手法
a)n角形を上下にランダム圧縮拡大する。
b)ランダムに平行移動
c)bをN回繰り返す。
RCDBの生成手順
仮説2
FDSLのデータセットをより複雑化する
「FractalDBを立体からの写像にする」「RCDBのパラメータ数を増やす」によって、それぞ
れ事前学習の難易度を上げ、ダウンストームタスクのパフォーマンス向上を目指す
画像データセット
実験結果
・ImageNet、ExFractalDB、RCDBを用いて同じ条件(クラス数、データ数)でViTの事前学習
を行い、ImageNet1kのfinetuningで精度を比較した。 結果としてはExFractalDB・RCDBの方が
実画像のImageNetで学習させるよりも高精度であった
・他のFDSLデータセットと比べて、ベジェ曲線、RCDB、FractalDB などの輪郭線を主体とし
たデータセットが最も高い精度を示した
実験結果
・FractalDBについては、より複雑なEx FractalDBの方が高精度であった
・ RCDB、FractalDB共にクラス数を増やすことで精度が向上した
・頂点数が多い画像のみでは精度が極端に低く、事前学習が失敗していた
実験結果
ViTとFDSLの相性
ResNet ・ gMLP ・ ViT で そ れ ぞ れ
FDSLを行ったところ、ViTが最も高
精度であった。
→ ViTがFDSLと相性が良いと考えら
れる
まとめ
• 数式から生成された画像を用いて学習する
手法FDSLを用いて、ViTを事前学習したと
ころ、実画像と同等かそれ以上の精度が観
測された
• FDSLデータセットでは、オブジェクトの輪
郭が重要である
• FDSLパラメータの数を変化させることで事
前学習の難易度を制御したところ、事前学
習の難易度が高いほどファインチューニン
グの精度が高くなった
15
個人的な感想・疑問
• 大量の実画像を集められる団体が、一部の企業に偏ってきている現状を踏まえると、本手
法のように誰でも利用できる手法はとても有意義であると感じた
• RCDBのデータ数をどこまで増やすことができるのかが、今後この手法が発展するかに影
響してきそう。パラメータを増やして複雑にしていくと事前学習に失敗する例もあったの
で、どこかで頭打ちがきてもおかしくない
• 結局なぜこの方法で、ドメインが明らかに違うImage Net等に対しても汎化が進むのかが
分からなかった
16

【DL輪読会】Replacing Labeled Real-Image Datasets With Auto-Generated Contours