基盤モデル | Foundationmodels
6
Foundation models @ On the Opportunities and Risks of Foundation Models
— any model that is trained on broad data at scale and can be adapted
(e.g., fine-tuned) to a wide range of downstream tasks...
— 広範なデータにより学習された,広い範囲の下流タスクに(追加学習等によって)適用可能なモデル
基盤モデル
Photo from Stanford HAI
7.
Foundation modelsが目指す先とは?
7
AGI: ArtificialGeneral Intelligence*(汎用人工知能)
— 汎用的にタスクを解く人工知能に対する挑戦
Robotics
Vision
Language
Audio
Foundation
Model
Philosophy
Interaction
・・・まだまだ広がりを見せようとしている
*: AGIは人工知能の究極の目標のひとつと言われますが,Foundation Modelsの目的は種々あります
13
NLP分野にてTransformerが拡がる
● BERT(Bi-directional EncoderRepresentations from Transformers)
● 大量の汎用テキストデータで事前学習→タスクに合わせて追加学習
● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル
● 文章の「意味を理解」することができるようになったと話題
● なぜBERTは躍進した?
● 自己教師学習によりラベルなし文章を学習に適用可能
● 双方向モデルにつき,単語の前後から文脈を把握
BERTでは多くのタスクを単一モデルで解くことができ
るが,その学習は「文章のマスクと復元」の自己教師
あり学習により実施される
Attention is All You Need.(元データ)
↓ 意図的に欠損作成
Attention is All ___ Need.(復元前)
↓ BERTにより推定
Attention is All You Need.(復元後)
[Devlin(Google)+, NAACL19]
基盤モデルの出発点
自然言語理解を目指したTransformerの発展
Zero-Shot Text-to-Image Generation(DALL·E論文)
35
著者 : Aditya Ramesh, et al.
VQ-VAE(dVAE) + Transformer(120億パラメータ)の構成で
約2.5億のテキスト-画像ペアで事前学習させ,
テキストから完成度の高い画像を自動生成
● VQ-VAEによって256×256のRGB画像を32×32(=1024)の画像トークンに変換(encode)
● BPE圧縮によってキャプションを256のテキストトークンに変換(encode)
● 上記のトークンをconcatしてembedding,Sparse Transformerを用いて各潜在変数を学習
● 画像生成時はTransformerで潜在変数を予測し,VQ-VAEによって画像を復元(decode)
○ CLIPによって入力テキストとの類似度でランキングして出力
● MS-COCOにおいて,zero-shotで既存手法に匹敵するFIDスコア達成
● 人間による評価実験において,
既存手法(DF-GAN)と比較してよりリアルで入力テキスト通りの画像を生成
ICML 2021 OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
36.
VQGAN-CLIP: Open DomainImage Generation and Editing with
Natural Language Guidance
36
著者 : Katherine Crowson et al.
● 複雑な文章をもとにした画像生成システム
● CLIPを用いてテキスト・画像ペアの類似性を評価する損失関数を定義し、画像生成の潜在空間を更新すること
で画像を生成
● 実行時間はやや遅い(イテレーション回数が多い)が学習コストが不要
GitHub
https://github.com/eleutherai/vqgan-clip
Kaggle
https://www.kaggle.com/code/basu369vi
ctor/playing-with-vqgan-clip/notebook
arXiv 2022 EleutherAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
37.
GLIDE: Towards PhotorealisticImage Generation and Editing with Text-Guided Diffusion Models
37
著者 : Alex Nichol, et al.
テキストからの画像生成タスクにおいて
DALL-Eよりリアルであると評価された“GLIDE”
● パラメータ数35億+15億の誘導拡散モデルGLIDEを提案
● GLIDEを2種類の誘導方法からテキスト条件付き画像生成を行い比較
○ CLIP guidance:CLIP(ViT-L)の潜在空間の類似度を利用(classifierの知識を活用)
○ classifier-free guidance:確率的に条件付けを除外し分類も同時学習(
classifier不要)
● 比較の結果classifier-free guidanceの方が本物らしさとキャプション類似性について優位
● 独自フィルタによって生成画像の悪用を防止
● サンプリングがGANよりも大幅に遅いのがネック
ACL 2022 OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
38.
Hierarchical Text-Conditional ImageGeneration with CLIP Latents (DALL·E 2 論文)
38
著者 : Aditya Ramesh, et al.
DDPM + CLIPで
約6.4億のテキスト-画像ペアで事前学習し,
GLIDEと比較してより多様性のある画像を生成
● 事前分布(prior)として拡散モデルを用いる
○ テキストからCLIP画像埋め込みを生成.自己回帰モデルも試したが拡散モデルの方が良い結果に
● デコーダとしてGLIDEとほぼ同じ35億パラメータの拡散確率モデルを用いる
○ CLIP画像埋め込みから画像を生成. GLIDEと同様にclassifier-free guidanceを使用
→unCLIPと総称
arXiv (2022) OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
39.
Photorealistic Text-to-Image DiffusionModels with Deep Language
Understanding (Imagen 論文)
39
著者 : Chitwan Saharia, et al.
● テキストのみを事前学習し凍結させた大規模言語モデル(T5-XLL)が画像生成に有効
● DDPMをスケーリングするよりも,大規模言語モデルを拡張する方が効く
● DDPMは計約8.6億のテキスト-画像ペアで事前学習
● Efficient U-Netを導入し,計算効率・メモリ効率を向上させ,学習時間を短縮
COCOのFID指標においてDALLE•2を超える性能
arXiv (2022) Google 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
40.
Scaling Autoregressive Modelsfor Content-Rich Text-to-Image Generation
(Parti 論文)
40
arXiv (2022) Google 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
著者 : Jiahui Yu, et al.
● Image Generator として ViTとVQGANを組み合わせたViT-VQGANを採用
○ モデルサイズを20Bまで大規模化したところ,DDPMを超える精度に
COCOのFID指標においてImagenを超える性能 !
55
学習データの権利・倫理関係問題
○ Web上の大量データで学習→含むバイアスも大量
特定の集団に対して不公平/有害な出力を招くリスク
Maybe Microsoft’sTay AI didn’t have a meltdown…
https://medium.com/@thepathtochange/maybe-microsoft-s-tay-ai-didn-t-have-a-meltdown-4291b9
10a37c
Google's Artificial Intelligence Hate Speech
Detector Is 'Racially Biased,' Study Finds
https://www.forbes.com/sites/nicolemartin1/2019/08/13/googles-artificial-intelligence-hate-s
peech-detector-is-racially-biased/#1418e6d8326c
スケーリング則が基盤モデル研究に与えるリスク
近年の基盤モデルでは,
出力されるバイアスも評価観点として重視傾向
Center for Researchon Foundation Models (CRFM)
58
Percy Liang率いるStanford
● HAIから分岐してStanford大学内に2021年に発足
● Foundation Model開発に特化した研究機関
● CSだけでなく10種以上の専門領域から研究者が集結
● 不用意な大規模化でなく、効率性・堅牢性・
解釈可能性・倫理的健全性の実現を目指す理論研究
https://crfm.stanford.edu/