輪講スライド20220903.pptx

• PIX2SEQ: A LANGUAGE MODELING FRAMEWORK
• FOR OBJECT DETECTION
• Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton
• Google Research, Brain Team
• 2022/9/3輪講会

この論文では、新しい物体検出フレームワークとして「Pix2Seq」を
提案している

「Pix2Seq」が提案された背景
 物体検出を行う従来のアプローチは高度にカスタマイズされる傾
向あるため汎用性が低いことが問題
 →「Pix2Seq」では物体検出タスクを画素（RGBピクセル）を入
力とする言語モデリングタスクとみなすことで汎用性の向上を実
現
 既存手法と遜色ない結果を得ることができた
既存手法
 Faster R-CNN
 DETR

従来の手法R-CNNの概要
1.画像データを入力
2.CNNに通す前に物体があると予想される部分を切り抜き、サイズ
を調整する（切り抜き処理では選択的探索などのアルゴリズムを使
っている）

従来の手法R-CNNの概要
3.CNNに切り抜いた画像を入力し特徴量を抽出
4.切り抜いた画像から得られた特徴量から物体を判定しラベリングする

「Pix2Seq」の概要
「Pix2Seq」のアプローチは、ニューラルネットワークが画像内の
どこに物体があり、それが何に相当するのかを知っているのであれ
ば、それを読み取る方法を教えるだけでよいという直観に基づいて
いる
→つまりあらかじめ物体のある場所を切り抜いてから特徴量を抽出、
判定するのではなく、画像全体から抽出した特徴量を元にどこに何
の物体が存在するのかを説明する方法を学習させる

「Pix2Seq」の動き
図のように「Pix2Seq」に画像を入力すると、一連の物体の説明を
出力する
説明は５つの離散トークンで記述されておりそれぞれバウンディン
グボックスのコーナー座標とクラスラベルに対応する
例）[ymin, xmin, ymax, xmax, c]

言語モデルとして扱うための量子化
言語モデルは離散的なトークンを扱うよう設計されている
(画像の座標は連続数なので適さない）
よって座標を0~1の間で正規化し、数百～数千の離散ビンのいずれ
かに量子化することで離散的なトークンに変換する

画像データのラベリングの取り扱い
 ラベリングは[ymin, xmin, ymax, xmax, c]という離散トークン
であり、以下のように並べて扱う
 並び順はランダム化する（並び順は結果にさほど影響しない）
 最後にシーケンスの終わりを示す0を付け足す

アーキテクチャ
アーキテクチャ：Encoder-Decoderアーキテクチャを使用
Encoder : ConvNet, Transformerなどの画素を隠れ表現に符号化で
きるもの
Decoder : Transformerを使用

「Pix2Seq」と従来手法の性能比較
「Pix2Seq」は従来の
Faster R-CNNやDETR
と比べて競争力のある
平均精度（AP）を達
成した
図）COCOデータセットによる性能評
価

図）事前学習を行った「Pix2Seq」のAPスコア
「Pix2Seq」に事前学習を適用した場合の評価
「Pix2Seq」の性能は約１１％向上した
事前学習が今後の性能向上に有望であることが示唆された

実行結果のサンプ
ル
複雑に物体が密集している場合でも精度よくラベル付けがされてい
る

結論と今後の課題
「Pix2Seq」では物体検出を検出タスクのために特別に設計されていない
ピクセル入力を条件とする言語モデリングタスクとみなすことで、大幅
なシステムの簡素化と汎用性を実現した。
今後は出力が簡素なトークン列で表現されるような（キーポイント検出、
画像キャプション、視覚的質問応答など）に対する応用が期待される。

輪講スライド20220903.pptx

輪講スライド20220903.pptx

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 輪講スライド20220903.pptx

Similar to 輪講スライド20220903.pptx (7)

輪講スライド20220903.pptx

Editor's Notes