SlideShare a Scribd company logo
From Transformer to Foundation Models
Transformerから基盤モデルまでの流れ
cvpaper.challenge
1
http://xpaperchallenge.org/cv
基盤モデル | Foundation models
2
Foundation models @On the Opportunities and Risks of Foundation Models
̶ any model that is trained on broad data at scale and can be
adapted (e.g., fine-tuned) to a wide range of downstream tasks...
広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル
基盤モデル
Photo from Stanford HAI
Foundation modelsが⽬指す先とは?
3
AGI: Artificial General Intelligence*(汎⽤⼈⼯知能)
̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦
Robotics
Vision
Language
Audio
Foundation
Model
Philosophy
Interaction
・・・まだまだ広がりを見せようとしている
*: AGIは人工知能の究極の目標のひとつと言われます
が,Foundation Modelsの目的は種々あります
2022年現在,基盤モデルの衝撃
4
CVとしては“Florence”と“DALL•E2”が主⼒︕
https://openai.com/dall-e-2/
https://arxiv.org/pdf/2111.11432.pdf
画像・動画・⾔語と広範なタスクを同時処理
● 画像/動画と⾔語を別々に学習して統合
● 9億もの画像・⾔語ペアにより学習して基盤モデル構築
● 実に44タスク(データセット)を⾼度に認識、うち多くの
タスクにて最⾼⽔準の精度まで到達
⾔語から⾼精細な画像を⽣成
● CLIP: 画像・⾔語空間の対応関係を⾼度に学習
● Diffusion Models: ノイズ復元により⾼解像な画像描画
● WEB上から収集した数億の画像・⾔語ペアにより学習して
Text-to-Imageのモデルを構築
● この結果,AIは創造性を持ったと総評されるに⾄る
次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓
From Transformer to FMs(1/N)
5
⾃然⾔語処理 (NLP)分野でTransformerが提案
● Transformer
● Self-attention (⾃⼰注視)機構により系
列データを⼀括処理
● “Attention Is All You Need”とタイトル
を名付けるくらいには衝撃的だった
● 学習時間短縮・性能向上を同時に実現
【Why Transformer?】
Transformerの提案論⽂ “Attention Is All You
Need”(NIPS 2017)にて,機械翻訳タスク(Neural
Machine Translation; NMT)を⾼度に解いたモデル
だからだと思っているのですが諸説あり︖
Transformerについてはこちらも参照
https://www.slideshare.net/cvpaperchallenge/transformer-247407256
From Transformer to FMs(1/N)
6
NLP分野にてTransformerが拡がる
● BERT(Bi-directional Encoder Representations from Transformers)
● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル
● ⽂章の「意味を理解」することができるようになったと話題
● なぜBERTが躍進したか︖
● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能
● 双⽅向モデルにつき,単語の前後から⽂脈を把握
https://arxiv.org/abs/1810.04805
BERTでは多くのタスクを単⼀モデルで解くことが
できるが,その学習は「⽂章のマスクと復元」の
⾃⼰教師あり学習により実施される
Attention is All You Need.(元データ)
↓ 意図的に⽋損作成
Attention is All ___ Need.(復元前)
↓ BERTにより推定
Attention is All You Need.(復元後)
GPT-3論⽂はNeurIPS 2020にて
Best Paper Awardを獲得
From Transformer to FMs(1/N)
7
⼈間レベルの⽂章⽣成を可能にした
● GPT(Generative Pre-trained Transformer)
● 与えられた⽂章の先を予測して⽂章⽣成
● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加
○ GPT-1: 1.2億パラメータ
○ GPT-2: 15億パラメータ, 40GBテキスト
○ GPT-3: 1750億パラメータ, 570GBテキスト
○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた
● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得
https://arxiv.org/pdf/2005.14165.pdf
https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
Transformerは尚もNLP分野にて進展,Audio/Robotics分野にも展開
From Transformer to FMs(1/N)
8
その後もTransformerの勢いは⽌まらない
Attentionこそ全て︕ ⽂章の先を予測︕
(その後⼤規模化により
GPT-2/3に改良)
⽂章の⽂脈を双⽅向
から理解︕マスク・
復元により⾃⼰教師
学習 画像と⾔語を処理
畳み込みとの融合により
画像認識(検出)を実現
純粋にTransformer構造で画像認識
その後,⼊⼒の⼯夫で動画認識
Natural Language Processing Natural Language Processing Vision & Language Computer Vision
From Transformer to FMs(1/N)
9
Vision Transformer(ViT)
● 純Transformer構造により画像認識
● 画像パッチを単語と⾒なして処理
● Encoderのみ使⽤ / MLPを通して出⼒
● ViTの後にも亜種が登場
● CNN + Transformer: CvT, ConViT(擬似畳込み),
CMT, CoAtNet
● MLP: MLP-Mixer, gMLP
● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21]
【Vision Transformer】
【Swin Transformer V1/V2】
Swin Transformer V1 [Liu+, ICCV21]
Swin Transformer V2 [Liu+, CVPR22]
From Transformer to FMs(1/N)
10
ViTでも自己教師あり学習できることを実証
● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ
● 最初はContrastive Learning (対照学習)が提案・使⽤
● SimCLR / MoCo / DINOいずれもViTを学習可能
SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21]
⾃⼰教師あり学習ではContrastive Learningが主流の1つ(だった)
Transformerへ適⽤する研究も多数
MoCo [He+, CVPR20]
From Transformer to FMs(1/N)
11
ViTにおける自己教師あり学習の真打ち!?
● “ViTでBERTする” Masked AutoEncoder (MAE)
● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec
MAE [He+, CVPR22]
Data2vec [Baevski+, arXiv22]
どちらも「マスクして復元」という⽅法論
● MAEは画像における⾃⼰教師あり学習
● Data2vecは3つのモダリティ(但しFTは個別)
● 今後,基盤モデルのための⾃⼰教師あり学習が登場す
る可能性は⼤いにある
From Transformer to FMs(1/N)
12
CLIPは画像と⾔語のモダリティをより近づけた
CLIPには強いタスクと弱いタスクが混在
↓
苦⼿な領域が存在するので
拡張が求められていた
↓
Florence
3つの追加学習軸
From Transformer to FMs(1/N)
13
Transformer → FMs 3つのポイント
● 複数モダリティ・単⼀モデル
● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える
● 同時に扱えるモダリティは増加傾向
● モデル・データのサイズ増加
● データ︓数億〜数⼗億規模(e.g., DALL-E, Scaling ViT)
● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA)
● ラベルなしデータで事前学習
● ⾃⼰教師あり学習の台頭
● マルチモーダルの教師なし学習

More Related Content

What's hot

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
cvpaper. challenge
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 

What's hot (20)

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 

Similar to 【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models

オープンソースを利用したモデル駆動トライアル
オープンソースを利用したモデル駆動トライアルオープンソースを利用したモデル駆動トライアル
オープンソースを利用したモデル駆動トライアル
Akira Tanaka
 
【CVPR 2020 メタサーベイ】Representation Learning
【CVPR 2020 メタサーベイ】Representation Learning【CVPR 2020 メタサーベイ】Representation Learning
【CVPR 2020 メタサーベイ】Representation Learning
cvpaper. challenge
 
2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysisn-yuki
 
"The Coming-of-Age of Software Architecture Research" 紹介
"The Coming-of-Age of Software Architecture Research" 紹介"The Coming-of-Age of Software Architecture Research" 紹介
"The Coming-of-Age of Software Architecture Research" 紹介Tadayoshi Sato
 
20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ
Hirono Jumpei
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
 
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
Sho Tanaka
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
Shun Shiramatsu
 
EfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object DetectionEfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object Detection
harmonylab
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
Shohei Hido
 
機械学習応用のためのソフトウェアエンジニアリングパターン
機械学習応用のためのソフトウェアエンジニアリングパターン機械学習応用のためのソフトウェアエンジニアリングパターン
機械学習応用のためのソフトウェアエンジニアリングパターン
HironoriTAKEUCHI1
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
慎一 古賀
 
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
Hironori Washizaki
 
BigData Conference 2015 Autmun
BigData Conference 2015 AutmunBigData Conference 2015 Autmun
BigData Conference 2015 Autmun
ドワンゴ 人工知能研究所
 
Toward Research that Matters
Toward Research that MattersToward Research that Matters
Toward Research that Matters
Ryohei Fujimaki
 

Similar to 【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models (16)

オープンソースを利用したモデル駆動トライアル
オープンソースを利用したモデル駆動トライアルオープンソースを利用したモデル駆動トライアル
オープンソースを利用したモデル駆動トライアル
 
【CVPR 2020 メタサーベイ】Representation Learning
【CVPR 2020 メタサーベイ】Representation Learning【CVPR 2020 メタサーベイ】Representation Learning
【CVPR 2020 メタサーベイ】Representation Learning
 
2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis2009 qsic-constructing feature models using goal-oriented analysis
2009 qsic-constructing feature models using goal-oriented analysis
 
"The Coming-of-Age of Software Architecture Research" 紹介
"The Coming-of-Age of Software Architecture Research" 紹介"The Coming-of-Age of Software Architecture Research" 紹介
"The Coming-of-Age of Software Architecture Research" 紹介
 
20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
 
EfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object DetectionEfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object Detection
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
 
機械学習応用のためのソフトウェアエンジニアリングパターン
機械学習応用のためのソフトウェアエンジニアリングパターン機械学習応用のためのソフトウェアエンジニアリングパターン
機械学習応用のためのソフトウェアエンジニアリングパターン
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
 
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
世界標準のソフトウェア工学知識体系SWEBOK Guide最新第4版を通じた開発アップデート
 
All for verdy
All for verdyAll for verdy
All for verdy
 
BigData Conference 2015 Autmun
BigData Conference 2015 AutmunBigData Conference 2015 Autmun
BigData Conference 2015 Autmun
 
Toward Research that Matters
Toward Research that MattersToward Research that Matters
Toward Research that Matters
 

Recently uploaded

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 

Recently uploaded (16)

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 

【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models

  • 1. From Transformer to Foundation Models Transformerから基盤モデルまでの流れ cvpaper.challenge 1 http://xpaperchallenge.org/cv
  • 2. 基盤モデル | Foundation models 2 Foundation models @On the Opportunities and Risks of Foundation Models ̶ any model that is trained on broad data at scale and can be adapted (e.g., fine-tuned) to a wide range of downstream tasks... 広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル 基盤モデル Photo from Stanford HAI
  • 3. Foundation modelsが⽬指す先とは? 3 AGI: Artificial General Intelligence*(汎⽤⼈⼯知能) ̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦 Robotics Vision Language Audio Foundation Model Philosophy Interaction ・・・まだまだ広がりを見せようとしている *: AGIは人工知能の究極の目標のひとつと言われます が,Foundation Modelsの目的は種々あります
  • 4. 2022年現在,基盤モデルの衝撃 4 CVとしては“Florence”と“DALL•E2”が主⼒︕ https://openai.com/dall-e-2/ https://arxiv.org/pdf/2111.11432.pdf 画像・動画・⾔語と広範なタスクを同時処理 ● 画像/動画と⾔語を別々に学習して統合 ● 9億もの画像・⾔語ペアにより学習して基盤モデル構築 ● 実に44タスク(データセット)を⾼度に認識、うち多くの タスクにて最⾼⽔準の精度まで到達 ⾔語から⾼精細な画像を⽣成 ● CLIP: 画像・⾔語空間の対応関係を⾼度に学習 ● Diffusion Models: ノイズ復元により⾼解像な画像描画 ● WEB上から収集した数億の画像・⾔語ペアにより学習して Text-to-Imageのモデルを構築 ● この結果,AIは創造性を持ったと総評されるに⾄る 次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓
  • 5. From Transformer to FMs(1/N) 5 ⾃然⾔語処理 (NLP)分野でTransformerが提案 ● Transformer ● Self-attention (⾃⼰注視)機構により系 列データを⼀括処理 ● “Attention Is All You Need”とタイトル を名付けるくらいには衝撃的だった ● 学習時間短縮・性能向上を同時に実現 【Why Transformer?】 Transformerの提案論⽂ “Attention Is All You Need”(NIPS 2017)にて,機械翻訳タスク(Neural Machine Translation; NMT)を⾼度に解いたモデル だからだと思っているのですが諸説あり︖ Transformerについてはこちらも参照 https://www.slideshare.net/cvpaperchallenge/transformer-247407256
  • 6. From Transformer to FMs(1/N) 6 NLP分野にてTransformerが拡がる ● BERT(Bi-directional Encoder Representations from Transformers) ● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル ● ⽂章の「意味を理解」することができるようになったと話題 ● なぜBERTが躍進したか︖ ● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能 ● 双⽅向モデルにつき,単語の前後から⽂脈を把握 https://arxiv.org/abs/1810.04805 BERTでは多くのタスクを単⼀モデルで解くことが できるが,その学習は「⽂章のマスクと復元」の ⾃⼰教師あり学習により実施される Attention is All You Need.(元データ) ↓ 意図的に⽋損作成 Attention is All ___ Need.(復元前) ↓ BERTにより推定 Attention is All You Need.(復元後)
  • 7. GPT-3論⽂はNeurIPS 2020にて Best Paper Awardを獲得 From Transformer to FMs(1/N) 7 ⼈間レベルの⽂章⽣成を可能にした ● GPT(Generative Pre-trained Transformer) ● 与えられた⽂章の先を予測して⽂章⽣成 ● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加 ○ GPT-1: 1.2億パラメータ ○ GPT-2: 15億パラメータ, 40GBテキスト ○ GPT-3: 1750億パラメータ, 570GBテキスト ○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた ● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得 https://arxiv.org/pdf/2005.14165.pdf https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
  • 8. Transformerは尚もNLP分野にて進展,Audio/Robotics分野にも展開 From Transformer to FMs(1/N) 8 その後もTransformerの勢いは⽌まらない Attentionこそ全て︕ ⽂章の先を予測︕ (その後⼤規模化により GPT-2/3に改良) ⽂章の⽂脈を双⽅向 から理解︕マスク・ 復元により⾃⼰教師 学習 画像と⾔語を処理 畳み込みとの融合により 画像認識(検出)を実現 純粋にTransformer構造で画像認識 その後,⼊⼒の⼯夫で動画認識 Natural Language Processing Natural Language Processing Vision & Language Computer Vision
  • 9. From Transformer to FMs(1/N) 9 Vision Transformer(ViT) ● 純Transformer構造により画像認識 ● 画像パッチを単語と⾒なして処理 ● Encoderのみ使⽤ / MLPを通して出⼒ ● ViTの後にも亜種が登場 ● CNN + Transformer: CvT, ConViT(擬似畳込み), CMT, CoAtNet ● MLP: MLP-Mixer, gMLP ● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21] 【Vision Transformer】 【Swin Transformer V1/V2】 Swin Transformer V1 [Liu+, ICCV21] Swin Transformer V2 [Liu+, CVPR22]
  • 10. From Transformer to FMs(1/N) 10 ViTでも自己教師あり学習できることを実証 ● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ ● 最初はContrastive Learning (対照学習)が提案・使⽤ ● SimCLR / MoCo / DINOいずれもViTを学習可能 SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21] ⾃⼰教師あり学習ではContrastive Learningが主流の1つ(だった) Transformerへ適⽤する研究も多数 MoCo [He+, CVPR20]
  • 11. From Transformer to FMs(1/N) 11 ViTにおける自己教師あり学習の真打ち!? ● “ViTでBERTする” Masked AutoEncoder (MAE) ● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec MAE [He+, CVPR22] Data2vec [Baevski+, arXiv22] どちらも「マスクして復元」という⽅法論 ● MAEは画像における⾃⼰教師あり学習 ● Data2vecは3つのモダリティ(但しFTは個別) ● 今後,基盤モデルのための⾃⼰教師あり学習が登場す る可能性は⼤いにある
  • 12. From Transformer to FMs(1/N) 12 CLIPは画像と⾔語のモダリティをより近づけた CLIPには強いタスクと弱いタスクが混在 ↓ 苦⼿な領域が存在するので 拡張が求められていた ↓ Florence 3つの追加学習軸
  • 13. From Transformer to FMs(1/N) 13 Transformer → FMs 3つのポイント ● 複数モダリティ・単⼀モデル ● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える ● 同時に扱えるモダリティは増加傾向 ● モデル・データのサイズ増加 ● データ︓数億〜数⼗億規模(e.g., DALL-E, Scaling ViT) ● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA) ● ラベルなしデータで事前学習 ● ⾃⼰教師あり学習の台頭 ● マルチモーダルの教師なし学習