From Transformer to Foundation Models
Transformerから基盤モデルまでの流れ
cvpaper.challenge
1
http://xpaperchallenge.org/cv
基盤モデル | Foundation models
2
Foundation models @On the Opportunities and Risks of Foundation Models
̶ any model that is trained on broad data at scale and can be
adapted (e.g., fine-tuned) to a wide range of downstream tasks...
広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル
基盤モデル
Photo from Stanford HAI
Foundation modelsが⽬指す先とは?
3
AGI: Artificial General Intelligence*(汎⽤⼈⼯知能)
̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦
Robotics
Vision
Language
Audio
Foundation
Model
Philosophy
Interaction
・・・まだまだ広がりを見せようとしている
*: AGIは人工知能の究極の目標のひとつと言われます
が,Foundation Modelsの目的は種々あります
2022年現在,基盤モデルの衝撃
4
CVとしては“Florence”と“DALL•E2”が主⼒︕
https://openai.com/dall-e-2/
https://arxiv.org/pdf/2111.11432.pdf
画像・動画・⾔語と広範なタスクを同時処理
● 画像/動画と⾔語を別々に学習して統合
● 9億もの画像・⾔語ペアにより学習して基盤モデル構築
● 実に44タスク(データセット)を⾼度に認識、うち多くの
タスクにて最⾼⽔準の精度まで到達
⾔語から⾼精細な画像を⽣成
● CLIP: 画像・⾔語空間の対応関係を⾼度に学習
● Diffusion Models: ノイズ復元により⾼解像な画像描画
● WEB上から収集した数億の画像・⾔語ペアにより学習して
Text-to-Imageのモデルを構築
● この結果,AIは創造性を持ったと総評されるに⾄る
次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓
From Transformer to FMs(1/N)
5
⾃然⾔語処理 (NLP)分野でTransformerが提案
● Transformer
● Self-attention (⾃⼰注視)機構により系
列データを⼀括処理
● “Attention Is All You Need”とタイトル
を名付けるくらいには衝撃的だった
● 学習時間短縮・性能向上を同時に実現
【Why Transformer?】
Transformerの提案論⽂ “Attention Is All You
Need”(NIPS 2017)にて,機械翻訳タスク(Neural
Machine Translation; NMT)を⾼度に解いたモデル
だからだと思っているのですが諸説あり︖
Transformerについてはこちらも参照
https://www.slideshare.net/cvpaperchallenge/transformer-247407256
From Transformer to FMs(1/N)
6
NLP分野にてTransformerが拡がる
● BERT(Bi-directional Encoder Representations from Transformers)
● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル
● ⽂章の「意味を理解」することができるようになったと話題
● なぜBERTが躍進したか︖
● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能
● 双⽅向モデルにつき,単語の前後から⽂脈を把握
https://arxiv.org/abs/1810.04805
BERTでは多くのタスクを単⼀モデルで解くことが
できるが,その学習は「⽂章のマスクと復元」の
⾃⼰教師あり学習により実施される
Attention is All You Need.(元データ)
↓ 意図的に⽋損作成
Attention is All ___ Need.(復元前)
↓ BERTにより推定
Attention is All You Need.(復元後)
GPT-3論⽂はNeurIPS 2020にて
Best Paper Awardを獲得
From Transformer to FMs(1/N)
7
⼈間レベルの⽂章⽣成を可能にした
● GPT(Generative Pre-trained Transformer)
● 与えられた⽂章の先を予測して⽂章⽣成
● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加
○ GPT-1: 1.2億パラメータ
○ GPT-2: 15億パラメータ, 40GBテキスト
○ GPT-3: 1750億パラメータ, 570GBテキスト
○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた
● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得
https://arxiv.org/pdf/2005.14165.pdf
https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
Transformerは尚もNLP分野にて進展,Audio/Robotics分野にも展開
From Transformer to FMs(1/N)
8
その後もTransformerの勢いは⽌まらない
Attentionこそ全て︕ ⽂章の先を予測︕
(その後⼤規模化により
GPT-2/3に改良)
⽂章の⽂脈を双⽅向
から理解︕マスク・
復元により⾃⼰教師
学習 画像と⾔語を処理
畳み込みとの融合により
画像認識(検出)を実現
純粋にTransformer構造で画像認識
その後,⼊⼒の⼯夫で動画認識
Natural Language Processing Natural Language Processing Vision & Language Computer Vision
From Transformer to FMs(1/N)
9
Vision Transformer(ViT)
● 純Transformer構造により画像認識
● 画像パッチを単語と⾒なして処理
● Encoderのみ使⽤ / MLPを通して出⼒
● ViTの後にも亜種が登場
● CNN + Transformer: CvT, ConViT(擬似畳込み),
CMT, CoAtNet
● MLP: MLP-Mixer, gMLP
● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21]
【Vision Transformer】
【Swin Transformer V1/V2】
Swin Transformer V1 [Liu+, ICCV21]
Swin Transformer V2 [Liu+, CVPR22]
From Transformer to FMs(1/N)
10
ViTでも自己教師あり学習できることを実証
● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ
● 最初はContrastive Learning (対照学習)が提案・使⽤
● SimCLR / MoCo / DINOいずれもViTを学習可能
SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21]
⾃⼰教師あり学習ではContrastive Learningが主流の1つ(だった)
Transformerへ適⽤する研究も多数
MoCo [He+, CVPR20]
From Transformer to FMs(1/N)
11
ViTにおける自己教師あり学習の真打ち!?
● “ViTでBERTする” Masked AutoEncoder (MAE)
● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec
MAE [He+, CVPR22]
Data2vec [Baevski+, arXiv22]
どちらも「マスクして復元」という⽅法論
● MAEは画像における⾃⼰教師あり学習
● Data2vecは3つのモダリティ(但しFTは個別)
● 今後,基盤モデルのための⾃⼰教師あり学習が登場す
る可能性は⼤いにある
From Transformer to FMs(1/N)
12
CLIPは画像と⾔語のモダリティをより近づけた
CLIPには強いタスクと弱いタスクが混在
↓
苦⼿な領域が存在するので
拡張が求められていた
↓
Florence
3つの追加学習軸
From Transformer to FMs(1/N)
13
Transformer → FMs 3つのポイント
● 複数モダリティ・単⼀モデル
● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える
● 同時に扱えるモダリティは増加傾向
● モデル・データのサイズ増加
● データ︓数億〜数⼗億規模(e.g., DALL-E, Scaling ViT)
● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA)
● ラベルなしデータで事前学習
● ⾃⼰教師あり学習の台頭
● マルチモーダルの教師なし学習

【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models

  • 1.
    From Transformer toFoundation Models Transformerから基盤モデルまでの流れ cvpaper.challenge 1 http://xpaperchallenge.org/cv
  • 2.
    基盤モデル | Foundationmodels 2 Foundation models @On the Opportunities and Risks of Foundation Models ̶ any model that is trained on broad data at scale and can be adapted (e.g., fine-tuned) to a wide range of downstream tasks... 広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル 基盤モデル Photo from Stanford HAI
  • 3.
    Foundation modelsが⽬指す先とは? 3 AGI: ArtificialGeneral Intelligence*(汎⽤⼈⼯知能) ̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦 Robotics Vision Language Audio Foundation Model Philosophy Interaction ・・・まだまだ広がりを見せようとしている *: AGIは人工知能の究極の目標のひとつと言われます が,Foundation Modelsの目的は種々あります
  • 4.
    2022年現在,基盤モデルの衝撃 4 CVとしては“Florence”と“DALL•E2”が主⼒︕ https://openai.com/dall-e-2/ https://arxiv.org/pdf/2111.11432.pdf 画像・動画・⾔語と広範なタスクを同時処理 ● 画像/動画と⾔語を別々に学習して統合 ● 9億もの画像・⾔語ペアにより学習して基盤モデル構築 ●実に44タスク(データセット)を⾼度に認識、うち多くの タスクにて最⾼⽔準の精度まで到達 ⾔語から⾼精細な画像を⽣成 ● CLIP: 画像・⾔語空間の対応関係を⾼度に学習 ● Diffusion Models: ノイズ復元により⾼解像な画像描画 ● WEB上から収集した数億の画像・⾔語ペアにより学習して Text-to-Imageのモデルを構築 ● この結果,AIは創造性を持ったと総評されるに⾄る 次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓
  • 5.
    From Transformer toFMs(1/N) 5 ⾃然⾔語処理 (NLP)分野でTransformerが提案 ● Transformer ● Self-attention (⾃⼰注視)機構により系 列データを⼀括処理 ● “Attention Is All You Need”とタイトル を名付けるくらいには衝撃的だった ● 学習時間短縮・性能向上を同時に実現 【Why Transformer?】 Transformerの提案論⽂ “Attention Is All You Need”(NIPS 2017)にて,機械翻訳タスク(Neural Machine Translation; NMT)を⾼度に解いたモデル だからだと思っているのですが諸説あり︖ Transformerについてはこちらも参照 https://www.slideshare.net/cvpaperchallenge/transformer-247407256
  • 6.
    From Transformer toFMs(1/N) 6 NLP分野にてTransformerが拡がる ● BERT(Bi-directional Encoder Representations from Transformers) ● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル ● ⽂章の「意味を理解」することができるようになったと話題 ● なぜBERTが躍進したか︖ ● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能 ● 双⽅向モデルにつき,単語の前後から⽂脈を把握 https://arxiv.org/abs/1810.04805 BERTでは多くのタスクを単⼀モデルで解くことが できるが,その学習は「⽂章のマスクと復元」の ⾃⼰教師あり学習により実施される Attention is All You Need.(元データ) ↓ 意図的に⽋損作成 Attention is All ___ Need.(復元前) ↓ BERTにより推定 Attention is All You Need.(復元後)
  • 7.
    GPT-3論⽂はNeurIPS 2020にて Best PaperAwardを獲得 From Transformer to FMs(1/N) 7 ⼈間レベルの⽂章⽣成を可能にした ● GPT(Generative Pre-trained Transformer) ● 与えられた⽂章の先を予測して⽂章⽣成 ● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加 ○ GPT-1: 1.2億パラメータ ○ GPT-2: 15億パラメータ, 40GBテキスト ○ GPT-3: 1750億パラメータ, 570GBテキスト ○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた ● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得 https://arxiv.org/pdf/2005.14165.pdf https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
  • 8.
    Transformerは尚もNLP分野にて進展,Audio/Robotics分野にも展開 From Transformer toFMs(1/N) 8 その後もTransformerの勢いは⽌まらない Attentionこそ全て︕ ⽂章の先を予測︕ (その後⼤規模化により GPT-2/3に改良) ⽂章の⽂脈を双⽅向 から理解︕マスク・ 復元により⾃⼰教師 学習 画像と⾔語を処理 畳み込みとの融合により 画像認識(検出)を実現 純粋にTransformer構造で画像認識 その後,⼊⼒の⼯夫で動画認識 Natural Language Processing Natural Language Processing Vision & Language Computer Vision
  • 9.
    From Transformer toFMs(1/N) 9 Vision Transformer(ViT) ● 純Transformer構造により画像認識 ● 画像パッチを単語と⾒なして処理 ● Encoderのみ使⽤ / MLPを通して出⼒ ● ViTの後にも亜種が登場 ● CNN + Transformer: CvT, ConViT(擬似畳込み), CMT, CoAtNet ● MLP: MLP-Mixer, gMLP ● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21] 【Vision Transformer】 【Swin Transformer V1/V2】 Swin Transformer V1 [Liu+, ICCV21] Swin Transformer V2 [Liu+, CVPR22]
  • 10.
    From Transformer toFMs(1/N) 10 ViTでも自己教師あり学習できることを実証 ● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ ● 最初はContrastive Learning (対照学習)が提案・使⽤ ● SimCLR / MoCo / DINOいずれもViTを学習可能 SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21] ⾃⼰教師あり学習ではContrastive Learningが主流の1つ(だった) Transformerへ適⽤する研究も多数 MoCo [He+, CVPR20]
  • 11.
    From Transformer toFMs(1/N) 11 ViTにおける自己教師あり学習の真打ち!? ● “ViTでBERTする” Masked AutoEncoder (MAE) ● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec MAE [He+, CVPR22] Data2vec [Baevski+, arXiv22] どちらも「マスクして復元」という⽅法論 ● MAEは画像における⾃⼰教師あり学習 ● Data2vecは3つのモダリティ(但しFTは個別) ● 今後,基盤モデルのための⾃⼰教師あり学習が登場す る可能性は⼤いにある
  • 12.
    From Transformer toFMs(1/N) 12 CLIPは画像と⾔語のモダリティをより近づけた CLIPには強いタスクと弱いタスクが混在 ↓ 苦⼿な領域が存在するので 拡張が求められていた ↓ Florence 3つの追加学習軸
  • 13.
    From Transformer toFMs(1/N) 13 Transformer → FMs 3つのポイント ● 複数モダリティ・単⼀モデル ● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える ● 同時に扱えるモダリティは増加傾向 ● モデル・データのサイズ増加 ● データ︓数億〜数⼗億規模(e.g., DALL-E, Scaling ViT) ● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA) ● ラベルなしデータで事前学習 ● ⾃⼰教師あり学習の台頭 ● マルチモーダルの教師なし学習