33. | 33
しかし…
未だ必要とされる計算資源は大きい(※)。実応用上の観点ではCNNはまだ
駆逐されなさそう
Models are trained on 8 GPUs with 2 images per GPU
for 160K iterations.
Swin Transformer[5]
All models are trained for 300 epochs from scratch on 8 V100 GPUs.
Pyramid Vision Transformer(PVT)[11]
We used a small batch size of 64 across 32 TPUs to make sure all models fit
comfortably … Perceiver[13]
※ EfficientNet-B7のパラメータ数が66Mに対し、Swin, PVTの最⼤モデルのサイズは
197M,61.4M。モデルサイズもそこそこに⼤きいが、⼤きな画像を⼊れたときのメモリ占
有量が⼤きいため、これだけの計算資源を使っていると予想