【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx

[公開情報]
ICLR2022論文読み会
「BEiT: BERT Pre-Training of
Image Transformers」
株式会社ARISE analytics
MSD. MXU. RENS Team 田中卓磨
©2022 ARISE analytics Reserved.
2022/10/31

[公開情報]
はじめに

[公開情報]
画像のベクトル化
画像に対して、いい感じのベクトル表現を得
たい
・自己教師あり学習の中間
層：
VAE / U-NET
画像に対するクラスタリング・ク
ラス分類を
従来の機械学習手法で可能に！
同じような画像は同じようなベクト
ルに！
・教師あり学習の最終層付近：
ResNet / Xception
encode
decode
Huge CNN
入力=出力
アノテーションされた
ラベル

[公開情報]
BEiTの着想
©2022 ARISE analytics Reserved. 3
自然言語処理の分野ではBERTとい
う
自己教師あり学習手法で
ベクトル表現が得られるらしい
BERTの手法を画像処理の
分野にも適用してみよ
う！

[公開情報]
BEiTを理解する流れ
① Attention機構を知る
② MLMタスクを知る
③ 画像+Transformerを知る
④ BERTとViTを組み合わせ
る
BERT ViT BEiT
画像に対する
Transformer適用
Transformerを利用した
言語の特徴量作成手法画像版BERT
①
Transformer
Attentionを利用した
言語翻訳手法
② ③ ④
+
画像パッチ
のトークン
化

[公開情報]
Transformerにおける
Attention機構

[公開情報]
Transformer概略
① ②
③
① シングルAttention機構
② マルチヘッドAttention機構
③ Positional Encoding
④ Transformerブロック
④
2. [Ashish, et al.]

[公開情報]
Attentionの構造
Attention 𝑄, 𝐾, 𝑉 = Softmax
𝑄𝐾𝑇
𝑑𝑘
𝑉
𝑄 = 𝑞1, … , 𝑞𝑛
𝑇
∈ ℝ𝑛×𝑑𝑘
𝐾 = 𝑘1, … , 𝑘𝑛
𝑇
∈ ℝ𝑛×𝑑𝑘
𝑉 = 𝑣1, … , 𝑣𝑛
𝑇
∈ ℝ𝑛×𝑑𝑣
各行への適用
(各行の和が1)
例) ARISE はデータ分析が得意
k(ARISE) k(データ分
析)
k(得意)
q(ARISE) 0.4 0.6 0
q(データ分
析)
0.5 0.5 0
q(得意) 0 0.2 0.8
v(ARISE)
v(データ分
析)
v(得意)
0.4v(ARISE)+0.6v(データ分析)
0.5v(ARISE)+0.5v(データ分析)
0.2v(データ分析)+0.8v(得意)

[公開情報]
Multi-Head Attention について
𝑀𝐻𝐴 𝑄, 𝐾, 𝑉 = ℎ𝑒𝑎𝑑1, … , ℎ𝑒𝑎𝑑ℎ 𝑊𝑂
ℎ𝑒𝑎𝑑𝑖 = Attention 𝑄𝑊
𝑖
𝑄
, 𝐾𝑊𝑖
𝐾
, 𝑉𝑊𝑖
𝑉
𝑊
𝑖
𝑄
∈ ℝ𝑑×𝑑𝑘
𝑊𝑖
𝐾
∈ ℝ𝑑×𝑑𝑘
𝑊𝑖
𝑉
∈ ℝ𝑑×𝑑𝑣
𝑊𝑂
∈ ℝℎ𝑑𝑣×𝑑
複数種類のAttentionを混ぜたもの

[公開情報]
Positional Encoding
𝑃𝐸𝑝𝑜𝑠,2𝑖 = sin
𝑝𝑜𝑠
100002𝑖/𝑑
𝑃𝐸𝑝𝑜𝑠,2𝑖+1 = cos
𝑝𝑜𝑠
100002𝑖/𝑑
Input Embedding の pos番目に以下のものを足す
偶数次元
奇数次元
単語位置の情報を付与す
る

[公開情報]
Transformerブロック
Transformer 𝑥 = 𝑧
𝑥′
= norm 𝑥
𝑦 = 𝑀𝐻𝐴 𝑥′
, 𝑥′
, 𝑥′
+ 𝑥
𝑦′ = norm(𝑦)
𝑧 = 𝑅𝑒𝐿𝑈 𝑦′
𝑊1 + 𝑏1 𝑊2 + 𝑏2 + 𝑦
Multi-Head Attention
+
残差接続
3層パーセプトロン
+
残差接続
𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑛
𝑇
∈ ℝ𝑛×𝑑
↦ 𝑧 = 𝑧1, 𝑧2, … , 𝑧𝑛
𝑇
∈ ℝ𝑛×𝑑
同じ型

[公開情報]
BERTにおける
自己教師学習

[公開情報]
BERT概略
① Masked Language Model (MLM)
② Next Sentence Prediction (NSP)
①
②
この2つのタスク
を
訓練することで
表現ベクトルを
学習していく
3. [Jacob, et al.]

[公開情報]
MLMとは
穴あきクイズを解く
問題
例) ARISE は [MASK] が得意で AI技術に精通しています。
Transformer
x(ARISE) x([MASK]) x(得意) x(AI技術) x(精通)
予測
データ分
析
元の文章から単語をランダ
ムに
[MASK]に置き換える
x([MASK])でボキャブラリ
全体からロジスティック
回帰
学習！

[公開情報]
NSPとは
文章のつながりが正しいかを判定する問
題
例) [CLS] ARISE はデータ分析が得意です [SEP] あなたは口笛を吹いた
Transformer
x([CLS]) x(ARISE) x(データ分析) x(得意) x([SEP]) x(あなた) …
予測
SEP前後で正しく
文章がつながってい
ない
文章先頭に[CLS]を付与
2文の間に[SEP]を挿入
x([CLS])でYes/Noの二値分類
学
習

[公開情報]
ViTにおける
画像へのTransformer適用

[公開情報]
ViT概略
①
②
① 画像のパッチ分割・シーケン
ス化
② クラス分類
4. [Alexey, et al.]

[公開情報]
画像の分割とシーケンス化
① 画像を(p x p)の正方形パッチに分割
② 正方形パッチを1次元に変形
③ 線形変換
④ 先頭トークン[CLASS]のベクトルを
つける
⑤ Positional Embeddingを加える
𝑧0 = 𝑥𝑐𝑙𝑎𝑠𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛
𝑇
+ 𝑃𝐸 ∈ ℝ 𝑛+1 ×𝑑
𝑥𝑖 ∈ ℝ𝑝2𝑐 𝐸 ∈ ℝ𝑑×𝑝2𝑐 𝑥𝑐𝑙𝑠 ∈ ℝ𝑑
𝑥𝑖
1次元化された正方形パッ
チ
線形変換の行列
先頭のクラストー
クン
Positional Embedding

[公開情報]
クラス分類
NSPと同様に先頭の[CLASS]のベクトルから
予測
𝑧0 = 𝑥𝑐𝑙𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛
𝑇
+ 𝑃𝐸
𝑧ℓ = Transformer 𝑧ℓ−1
𝑦 = Softmax 𝑧𝐿
(𝑐𝑙𝑎𝑠𝑠) Transformer
ブロックを多層に繋
げる
最終層の[CLASS]ベクト
ルで
各Classの確率を計算

[公開情報]
BEiT解説

[公開情報]
BEiT概略
①
②
① 画像を学習済みのdiscrete VAEで離散化
② 画像のパッチをランダムに[MASK]に置き換えてMIM (画像版
MLM)
ViTとほぼ同じ
1. [Hangbo, et al.]

[公開情報]
画像のTokenizer
画像を学習済みのdiscrete VAE(dVAE)で離散化 (画像x → visualトークンz)
ResNetベースで
256 x 256 x 3 の画像から
32 x 32 x (token size)の
確率ベクトルに
確率最大の
visualトーク
ン
離散トークンを扱える
Gumbel Softmax
による確率的なdecode
学習済みのdVAEモデルはこ
ちら
→ https://github.com/openai/DALL-E
5. [Aditya, et al.]

[公開情報]
MIM (Masked Image Model)
① 画像パッチの中から[MASK]をランダムで置き換
える
② [MASK]のViTベクトルから元のvisualトークンを
予測
①なるべく塊で40%マ
スク
②マスクされたバッチの
最終層でロジスティッ
ク回帰

[公開情報]
BEiT特徴量による分類
BEiT画像特徴量
𝐵𝐸𝑖𝑇 =
1
𝑛
𝑖=1
𝑛
ℎ𝑖
𝐿
∈ ℝ𝑑
BEiT画像特徴量か
ら
ロジスティック回
帰
によるクラス分類
各画像パッチのBEiT最終層の出力平
均
優秀！

[公開情報]
BEiTによるセマンティックセグメンテーション
他手法と比べてセマンティックセグメンテーションの
精度が高い
各画像バッチに対してカテゴリーの予測をBEiT最終層の出力
から行う

[公開情報]
Self-Attention Mapの確認
自身に関係するところを
注視している！
矢印の根本部分をクエリとした
ときの
Self-Attention Map

[公開情報]
まとめ
BERTの自己教師あり学習を
画像の離散化により画像に転用して
画像の表現ベクトルを得た。

[公開情報]
Referrence
1. Hangbo, et al. “BEiT: BERT Pre-Training of Image Transformers.”
ICLR2022
2. Ashish, et al. “Attention is all you need.” NeurIPS2017
3. Jacob, et al. “BERT: pre-training of deep bidirectional transformers
for language understanding.” ACL2019
4. Alexey, et al. “An image is worth 16x16 words: Transformers for
image recognition at scale.” ICLR2021
5. Aditya, et al. “Zero-Shot Text-to-Image Generation.” ICML2021

[公開情報]
Best Partner for innovation, Best Creator for the future.

【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx

More Related Content

What's hot

Similar to 【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx

More from ARISE analytics

【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx