6. Flamingoのポイント
6
学習済モデルを
重み固定で利用
画像とテキスト間の
ドメイン適応部を学習
画像/動画(=視覚)は
一定次元ベクトルに圧縮
汎用性を高めている
言語:サイズ70BのChinchilla (Hoffmann et al., 2022)
画像:サイズ435MのNFNet-F6(Brock et al., 2021)
XAttn-Denseで言語と画像学習済モデルを結合
学習する部分
Flamingoオリジナルの構造の提案手法
画像/動画
&
自然言語
Andrew Brock, Soham De, Samuel L. Smith, and Karen Simonyan. High-performance largescale image recognition without normalization. arXiv:2102.06171, 2021.
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, JohannesWelbl, Aidan Clark, Eric Noland
Tom Hennigan, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. Training
compute-optimal large language models. arXiv:2203.15556, 2022.
Perceiverで画像or動画を一定の潜在ベクトルに圧縮
学習する部分
関連研究として後述