[公開情報]
ICLR2022論文読み会
「BEiT: BERT Pre-Training of
Image Transformers」
株式会社ARISE analytics
MSD. MXU. RENS Team 田中卓磨
©2022 ARISE analytics Reserved.
2022/10/31
[公開情報]
はじめに
©2022 ARISE analytics Reserved.
[公開情報]
画像のベクトル化
©2022 ARISE analytics Reserved.
画像に対して、いい感じのベクトル表現を得
たい
・自己教師あり学習の中間
層:
VAE / U-NET
画像に対するクラスタリング・ク
ラス分類を
従来の機械学習手法で可能に!
同じような画像は同じようなベクト
ルに!
・教師あり学習の最終層付近:
ResNet / Xception
encode
decode
Huge CNN
入力=出力
アノテーションされた
ラベル
[公開情報]
BEiTの着想
©2022 ARISE analytics Reserved. 3
自然言語処理の分野ではBERTとい
う
自己教師あり学習手法で
ベクトル表現が得られるらしい
BERTの手法を画像処理の
分野にも適用してみよ
う!
[公開情報]
BEiTを理解する流れ
©2022 ARISE analytics Reserved. 4
① Attention機構を知る
② MLMタスクを知る
③ 画像+Transformerを知る
④ BERTとViTを組み合わせ
る
BERT ViT BEiT
画像に対する
Transformer適用
Transformerを利用した
言語の特徴量作成手法 画像版BERT
①
Transformer
Attentionを利用した
言語翻訳手法
② ③ ④
+
画像パッチ
のトークン
化
[公開情報]
Transformerにおける
Attention機構
©2022 ARISE analytics Reserved.
[公開情報]
Transformer概略
©2022 ARISE analytics Reserved.
① ②
③
① シングルAttention機構
② マルチヘッドAttention機構
③ Positional Encoding
④ Transformerブロック
④
2. [Ashish, et al.]
[公開情報]
Attentionの構造
©2022 ARISE analytics Reserved. 7
Attention 𝑄, 𝐾, 𝑉 = Softmax
𝑄𝐾𝑇
𝑑𝑘
𝑉
𝑄 = 𝑞1, … , 𝑞𝑛
𝑇
∈ ℝ𝑛×𝑑𝑘
𝐾 = 𝑘1, … , 𝑘𝑛
𝑇
∈ ℝ𝑛×𝑑𝑘
𝑉 = 𝑣1, … , 𝑣𝑛
𝑇
∈ ℝ𝑛×𝑑𝑣
各行への適用
(各行の和が1)
例) ARISE は データ分析 が 得意
k(ARISE) k(データ分
析)
k(得意)
q(ARISE) 0.4 0.6 0
q(データ分
析)
0.5 0.5 0
q(得意) 0 0.2 0.8
v(ARISE)
v(データ分
析)
v(得意)
0.4v(ARISE)+0.6v(データ分析)
0.5v(ARISE)+0.5v(データ分析)
0.2v(データ分析)+0.8v(得意)
[公開情報]
Multi-Head Attention について
©2022 ARISE analytics Reserved. 8
𝑀𝐻𝐴 𝑄, 𝐾, 𝑉 = ℎ𝑒𝑎𝑑1, … , ℎ𝑒𝑎𝑑ℎ 𝑊𝑂
ℎ𝑒𝑎𝑑𝑖 = Attention 𝑄𝑊
𝑖
𝑄
, 𝐾𝑊𝑖
𝐾
, 𝑉𝑊𝑖
𝑉
𝑊
𝑖
𝑄
∈ ℝ𝑑×𝑑𝑘
𝑊𝑖
𝐾
∈ ℝ𝑑×𝑑𝑘
𝑊𝑖
𝑉
∈ ℝ𝑑×𝑑𝑣
𝑊𝑂
∈ ℝℎ𝑑𝑣×𝑑
複数種類のAttentionを混ぜたもの
[公開情報]
Positional Encoding
©2022 ARISE analytics Reserved. 9
𝑃𝐸𝑝𝑜𝑠,2𝑖 = sin
𝑝𝑜𝑠
100002𝑖/𝑑
𝑃𝐸𝑝𝑜𝑠,2𝑖+1 = cos
𝑝𝑜𝑠
100002𝑖/𝑑
Input Embedding の pos番目に以下のものを足す
偶数次元
奇数次元
単語位置の情報を付与す
る
[公開情報]
Transformerブロック
©2022 ARISE analytics Reserved. 10
Transformer 𝑥 = 𝑧
𝑥′
= norm 𝑥
𝑦 = 𝑀𝐻𝐴 𝑥′
, 𝑥′
, 𝑥′
+ 𝑥
𝑦′ = norm(𝑦)
𝑧 = 𝑅𝑒𝐿𝑈 𝑦′
𝑊1 + 𝑏1 𝑊2 + 𝑏2 + 𝑦
Multi-Head Attention
+
残差接続
3層パーセプトロン
+
残差接続
𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑛
𝑇
∈ ℝ𝑛×𝑑
↦ 𝑧 = 𝑧1, 𝑧2, … , 𝑧𝑛
𝑇
∈ ℝ𝑛×𝑑
同じ型
[公開情報]
BERTにおける
自己教師学習
©2022 ARISE analytics Reserved.
[公開情報]
BERT概略
©2022 ARISE analytics Reserved.
① Masked Language Model (MLM)
② Next Sentence Prediction (NSP)
①
②
この2つのタスク
を
訓練することで
表現ベクトルを
学習していく
3. [Jacob, et al.]
[公開情報]
MLMとは
©2022 ARISE analytics Reserved. 13
穴あきクイズを解く
問題
例) ARISE は [MASK] が 得意 で AI技術 に 精通 しています。
Transformer
x(ARISE) x([MASK]) x(得意) x(AI技術) x(精通)
予測
データ分
析
元の文章から単語をランダ
ムに
[MASK]に置き換える
x([MASK])でボキャブラリ
全体からロジスティック
回帰
学習!
[公開情報]
NSPとは
©2022 ARISE analytics Reserved. 14
文章のつながりが正しいかを判定する問
題
例) [CLS] ARISE は データ分析 が 得意 です [SEP] あなた は 口笛 を 吹いた
Transformer
x([CLS]) x(ARISE) x(データ分析) x(得意) x([SEP]) x(あなた) …
予測
SEP前後で正しく
文章がつながってい
ない
文章先頭に[CLS]を付与
2文の間に[SEP]を挿入
x([CLS])でYes/Noの二値分類
学
習
[公開情報]
ViTにおける
画像へのTransformer適用
©2022 ARISE analytics Reserved.
[公開情報]
ViT概略
©2022 ARISE analytics Reserved.
①
②
① 画像のパッチ分割・シーケン
ス化
② クラス分類
4. [Alexey, et al.]
[公開情報]
画像の分割とシーケンス化
©2022 ARISE analytics Reserved. 17
① 画像を(p x p)の正方形パッチに分割
② 正方形パッチを1次元に変形
③ 線形変換
④ 先頭トークン[CLASS]のベクトルを
つける
⑤ Positional Embeddingを加える
𝑧0 = 𝑥𝑐𝑙𝑎𝑠𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛
𝑇
+ 𝑃𝐸 ∈ ℝ 𝑛+1 ×𝑑
𝑥𝑖 ∈ ℝ𝑝2𝑐 𝐸 ∈ ℝ𝑑×𝑝2𝑐 𝑥𝑐𝑙𝑠 ∈ ℝ𝑑
𝑥𝑖
1次元化された正方形パッ
チ
線形変換の行列
先頭のクラストー
クン
Positional Embedding
[公開情報]
クラス分類
©2022 ARISE analytics Reserved. 18
NSPと同様に先頭の[CLASS]のベクトルから
予測
𝑧0 = 𝑥𝑐𝑙𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛
𝑇
+ 𝑃𝐸
𝑧ℓ = Transformer 𝑧ℓ−1
𝑦 = Softmax 𝑧𝐿
(𝑐𝑙𝑎𝑠𝑠) Transformer
ブロックを多層に繋
げる
最終層の[CLASS]ベクト
ルで
各Classの確率を計算
[公開情報]
BEiT解説
©2022 ARISE analytics Reserved.
[公開情報]
BEiT概略
©2022 ARISE analytics Reserved.
①
②
① 画像を学習済みのdiscrete VAEで離散化
② 画像のパッチをランダムに[MASK]に置き換えてMIM (画像版
MLM)
ViTとほぼ同じ
1. [Hangbo, et al.]
[公開情報]
画像のTokenizer
©2022 ARISE analytics Reserved. 21
画像を学習済みのdiscrete VAE(dVAE)で離散化 (画像x → visualトークンz)
ResNetベースで
256 x 256 x 3 の画像から
32 x 32 x (token size)の
確率ベクトルに
確率最大の
visualトーク
ン
離散トークンを扱える
Gumbel Softmax
による確率的なdecode
学習済みのdVAEモデルはこ
ちら
→ https://github.com/openai/DALL-E
5. [Aditya, et al.]
[公開情報]
MIM (Masked Image Model)
©2022 ARISE analytics Reserved. 22
① 画像パッチの中から[MASK]をランダムで置き換
える
② [MASK]のViTベクトルから元のvisualトークンを
予測
①なるべく塊で40%マ
スク
②マスクされたバッチの
最終層でロジスティッ
ク回帰
[公開情報]
BEiT特徴量による分類
©2022 ARISE analytics Reserved. 23
BEiT画像特徴量
𝐵𝐸𝑖𝑇 =
1
𝑛
𝑖=1
𝑛
ℎ𝑖
𝐿
∈ ℝ𝑑
BEiT画像特徴量か
ら
ロジスティック回
帰
によるクラス分類
各画像パッチのBEiT最終層の出力平
均
優秀!
[公開情報]
BEiTによるセマンティックセグメンテーション
©2022 ARISE analytics Reserved. 24
他手法と比べてセマンティックセグメンテーションの
精度が高い
各画像バッチに対してカテゴリーの予測をBEiT最終層の出力
から行う
[公開情報]
Self-Attention Mapの確認
©2022 ARISE analytics Reserved. 25
自身に関係するところを
注視している!
矢印の根本部分をクエリとした
ときの
Self-Attention Map
[公開情報]
まとめ
©2022 ARISE analytics Reserved. 26
BERTの自己教師あり学習を
画像の離散化により画像に転用して
画像の表現ベクトルを得た。
[公開情報]
Referrence
©2022 ARISE analytics Reserved. 27
1. Hangbo, et al. “BEiT: BERT Pre-Training of Image Transformers.”
ICLR2022
2. Ashish, et al. “Attention is all you need.” NeurIPS2017
3. Jacob, et al. “BERT: pre-training of deep bidirectional transformers
for language understanding.” ACL2019
4. Alexey, et al. “An image is worth 16x16 words: Transformers for
image recognition at scale.” ICLR2021
5. Aditya, et al. “Zero-Shot Text-to-Image Generation.” ICML2021
[公開情報]
Best Partner for innovation, Best Creator for the future.

【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx

  • 1.
    [公開情報] ICLR2022論文読み会 「BEiT: BERT Pre-Trainingof Image Transformers」 株式会社ARISE analytics MSD. MXU. RENS Team 田中卓磨 ©2022 ARISE analytics Reserved. 2022/10/31
  • 2.
  • 3.
    [公開情報] 画像のベクトル化 ©2022 ARISE analyticsReserved. 画像に対して、いい感じのベクトル表現を得 たい ・自己教師あり学習の中間 層: VAE / U-NET 画像に対するクラスタリング・ク ラス分類を 従来の機械学習手法で可能に! 同じような画像は同じようなベクト ルに! ・教師あり学習の最終層付近: ResNet / Xception encode decode Huge CNN 入力=出力 アノテーションされた ラベル
  • 4.
    [公開情報] BEiTの着想 ©2022 ARISE analyticsReserved. 3 自然言語処理の分野ではBERTとい う 自己教師あり学習手法で ベクトル表現が得られるらしい BERTの手法を画像処理の 分野にも適用してみよ う!
  • 5.
    [公開情報] BEiTを理解する流れ ©2022 ARISE analyticsReserved. 4 ① Attention機構を知る ② MLMタスクを知る ③ 画像+Transformerを知る ④ BERTとViTを組み合わせ る BERT ViT BEiT 画像に対する Transformer適用 Transformerを利用した 言語の特徴量作成手法 画像版BERT ① Transformer Attentionを利用した 言語翻訳手法 ② ③ ④ + 画像パッチ のトークン 化
  • 6.
  • 7.
    [公開情報] Transformer概略 ©2022 ARISE analyticsReserved. ① ② ③ ① シングルAttention機構 ② マルチヘッドAttention機構 ③ Positional Encoding ④ Transformerブロック ④ 2. [Ashish, et al.]
  • 8.
    [公開情報] Attentionの構造 ©2022 ARISE analyticsReserved. 7 Attention 𝑄, 𝐾, 𝑉 = Softmax 𝑄𝐾𝑇 𝑑𝑘 𝑉 𝑄 = 𝑞1, … , 𝑞𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑘 𝐾 = 𝑘1, … , 𝑘𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑘 𝑉 = 𝑣1, … , 𝑣𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑣 各行への適用 (各行の和が1) 例) ARISE は データ分析 が 得意 k(ARISE) k(データ分 析) k(得意) q(ARISE) 0.4 0.6 0 q(データ分 析) 0.5 0.5 0 q(得意) 0 0.2 0.8 v(ARISE) v(データ分 析) v(得意) 0.4v(ARISE)+0.6v(データ分析) 0.5v(ARISE)+0.5v(データ分析) 0.2v(データ分析)+0.8v(得意)
  • 9.
    [公開情報] Multi-Head Attention について ©2022ARISE analytics Reserved. 8 𝑀𝐻𝐴 𝑄, 𝐾, 𝑉 = ℎ𝑒𝑎𝑑1, … , ℎ𝑒𝑎𝑑ℎ 𝑊𝑂 ℎ𝑒𝑎𝑑𝑖 = Attention 𝑄𝑊 𝑖 𝑄 , 𝐾𝑊𝑖 𝐾 , 𝑉𝑊𝑖 𝑉 𝑊 𝑖 𝑄 ∈ ℝ𝑑×𝑑𝑘 𝑊𝑖 𝐾 ∈ ℝ𝑑×𝑑𝑘 𝑊𝑖 𝑉 ∈ ℝ𝑑×𝑑𝑣 𝑊𝑂 ∈ ℝℎ𝑑𝑣×𝑑 複数種類のAttentionを混ぜたもの
  • 10.
    [公開情報] Positional Encoding ©2022 ARISEanalytics Reserved. 9 𝑃𝐸𝑝𝑜𝑠,2𝑖 = sin 𝑝𝑜𝑠 100002𝑖/𝑑 𝑃𝐸𝑝𝑜𝑠,2𝑖+1 = cos 𝑝𝑜𝑠 100002𝑖/𝑑 Input Embedding の pos番目に以下のものを足す 偶数次元 奇数次元 単語位置の情報を付与す る
  • 11.
    [公開情報] Transformerブロック ©2022 ARISE analyticsReserved. 10 Transformer 𝑥 = 𝑧 𝑥′ = norm 𝑥 𝑦 = 𝑀𝐻𝐴 𝑥′ , 𝑥′ , 𝑥′ + 𝑥 𝑦′ = norm(𝑦) 𝑧 = 𝑅𝑒𝐿𝑈 𝑦′ 𝑊1 + 𝑏1 𝑊2 + 𝑏2 + 𝑦 Multi-Head Attention + 残差接続 3層パーセプトロン + 残差接続 𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑛 𝑇 ∈ ℝ𝑛×𝑑 ↦ 𝑧 = 𝑧1, 𝑧2, … , 𝑧𝑛 𝑇 ∈ ℝ𝑛×𝑑 同じ型
  • 12.
  • 13.
    [公開情報] BERT概略 ©2022 ARISE analyticsReserved. ① Masked Language Model (MLM) ② Next Sentence Prediction (NSP) ① ② この2つのタスク を 訓練することで 表現ベクトルを 学習していく 3. [Jacob, et al.]
  • 14.
    [公開情報] MLMとは ©2022 ARISE analyticsReserved. 13 穴あきクイズを解く 問題 例) ARISE は [MASK] が 得意 で AI技術 に 精通 しています。 Transformer x(ARISE) x([MASK]) x(得意) x(AI技術) x(精通) 予測 データ分 析 元の文章から単語をランダ ムに [MASK]に置き換える x([MASK])でボキャブラリ 全体からロジスティック 回帰 学習!
  • 15.
    [公開情報] NSPとは ©2022 ARISE analyticsReserved. 14 文章のつながりが正しいかを判定する問 題 例) [CLS] ARISE は データ分析 が 得意 です [SEP] あなた は 口笛 を 吹いた Transformer x([CLS]) x(ARISE) x(データ分析) x(得意) x([SEP]) x(あなた) … 予測 SEP前後で正しく 文章がつながってい ない 文章先頭に[CLS]を付与 2文の間に[SEP]を挿入 x([CLS])でYes/Noの二値分類 学 習
  • 16.
  • 17.
    [公開情報] ViT概略 ©2022 ARISE analyticsReserved. ① ② ① 画像のパッチ分割・シーケン ス化 ② クラス分類 4. [Alexey, et al.]
  • 18.
    [公開情報] 画像の分割とシーケンス化 ©2022 ARISE analyticsReserved. 17 ① 画像を(p x p)の正方形パッチに分割 ② 正方形パッチを1次元に変形 ③ 線形変換 ④ 先頭トークン[CLASS]のベクトルを つける ⑤ Positional Embeddingを加える 𝑧0 = 𝑥𝑐𝑙𝑎𝑠𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛 𝑇 + 𝑃𝐸 ∈ ℝ 𝑛+1 ×𝑑 𝑥𝑖 ∈ ℝ𝑝2𝑐 𝐸 ∈ ℝ𝑑×𝑝2𝑐 𝑥𝑐𝑙𝑠 ∈ ℝ𝑑 𝑥𝑖 1次元化された正方形パッ チ 線形変換の行列 先頭のクラストー クン Positional Embedding
  • 19.
    [公開情報] クラス分類 ©2022 ARISE analyticsReserved. 18 NSPと同様に先頭の[CLASS]のベクトルから 予測 𝑧0 = 𝑥𝑐𝑙𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛 𝑇 + 𝑃𝐸 𝑧ℓ = Transformer 𝑧ℓ−1 𝑦 = Softmax 𝑧𝐿 (𝑐𝑙𝑎𝑠𝑠) Transformer ブロックを多層に繋 げる 最終層の[CLASS]ベクト ルで 各Classの確率を計算
  • 20.
  • 21.
    [公開情報] BEiT概略 ©2022 ARISE analyticsReserved. ① ② ① 画像を学習済みのdiscrete VAEで離散化 ② 画像のパッチをランダムに[MASK]に置き換えてMIM (画像版 MLM) ViTとほぼ同じ 1. [Hangbo, et al.]
  • 22.
    [公開情報] 画像のTokenizer ©2022 ARISE analyticsReserved. 21 画像を学習済みのdiscrete VAE(dVAE)で離散化 (画像x → visualトークンz) ResNetベースで 256 x 256 x 3 の画像から 32 x 32 x (token size)の 確率ベクトルに 確率最大の visualトーク ン 離散トークンを扱える Gumbel Softmax による確率的なdecode 学習済みのdVAEモデルはこ ちら → https://github.com/openai/DALL-E 5. [Aditya, et al.]
  • 23.
    [公開情報] MIM (Masked ImageModel) ©2022 ARISE analytics Reserved. 22 ① 画像パッチの中から[MASK]をランダムで置き換 える ② [MASK]のViTベクトルから元のvisualトークンを 予測 ①なるべく塊で40%マ スク ②マスクされたバッチの 最終層でロジスティッ ク回帰
  • 24.
    [公開情報] BEiT特徴量による分類 ©2022 ARISE analyticsReserved. 23 BEiT画像特徴量 𝐵𝐸𝑖𝑇 = 1 𝑛 𝑖=1 𝑛 ℎ𝑖 𝐿 ∈ ℝ𝑑 BEiT画像特徴量か ら ロジスティック回 帰 によるクラス分類 各画像パッチのBEiT最終層の出力平 均 優秀!
  • 25.
    [公開情報] BEiTによるセマンティックセグメンテーション ©2022 ARISE analyticsReserved. 24 他手法と比べてセマンティックセグメンテーションの 精度が高い 各画像バッチに対してカテゴリーの予測をBEiT最終層の出力 から行う
  • 26.
    [公開情報] Self-Attention Mapの確認 ©2022 ARISEanalytics Reserved. 25 自身に関係するところを 注視している! 矢印の根本部分をクエリとした ときの Self-Attention Map
  • 27.
    [公開情報] まとめ ©2022 ARISE analyticsReserved. 26 BERTの自己教師あり学習を 画像の離散化により画像に転用して 画像の表現ベクトルを得た。
  • 28.
    [公開情報] Referrence ©2022 ARISE analyticsReserved. 27 1. Hangbo, et al. “BEiT: BERT Pre-Training of Image Transformers.” ICLR2022 2. Ashish, et al. “Attention is all you need.” NeurIPS2017 3. Jacob, et al. “BERT: pre-training of deep bidirectional transformers for language understanding.” ACL2019 4. Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” ICLR2021 5. Aditya, et al. “Zero-Shot Text-to-Image Generation.” ICML2021
  • 29.
    [公開情報] Best Partner forinnovation, Best Creator for the future.