More Related Content Similar to 輪講スライド20220903.pptx Similar to 輪講スライド20220903.pptx (7) 輪講スライド20220903.pptx1. • PIX2SEQ: A LANGUAGE MODELING FRAMEWORK
• FOR OBJECT DETECTION
• Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton
• Google Research, Brain Team
• 2022/9/3輪講会
Editor's Notes それではこちらの論文、ピクセルトゥーシーケンス:A LANGUAGE MODELING FRAMEWORK
FOR OBJECT DETECTIONを紹介させていただきます。 こちらの論文では、新しい物体検出フレームワークとして、pix2seqを提案するといった内容になっております。物体検出とは画像の中に映っている物体の位置と名前を特定するタスクのことです。下の図はpix2seqに画像データを入力し、その検出結果をトークンとして出力しているイメージになります Pix2seqが提案された背景ですが、それは従来の物体検出を行うアプローチが高度にカスタマイズされる傾向にあるため、汎用性が低く、他のタスクに応用する際に再度モデリングやパラメータ設定をやり直す手間が生じることが問題として取り上げられるからです。
pix2seqではこうした低い汎用性を解決するために物体検出タスクを画素を入力とみなす言語モデリングタスクとみなすことでタスクごとのカスタマイズの必要性を撤廃し、汎用性を高めることを実現しています。
またpix2seqは既存手法のFaster R-CNNやDETFと遜色ない性能を示しました
pix2seqと従来の手法の違いを比べるために、まずR-CNNについて見ていきます。R-CNNの概略をこちらに示します。R-CNNではまず画像データを入力した際に、選択的探索などのアルゴリズムを用いて物体があると予想される場所を切り抜きます。そしてcnnが処理しやすいサイズに切り抜いた画像のサイズを調整します。 そしてCNNは入力された画像の特徴量抽出し、その特徴量に従って物体を判定、ラベリングしています。こうしてr-cnnでは物体検出を行っています。 ではpix2seqではどのように物体検出に対してアプローチしているかですが、r-cnnのようにあらかじめ物体がある場所に対して検証を行っているわけではありません。画像全体の特徴量を抽出し、その特徴量をもとにどこになんの物体が存在するのかを説明する方法を学習させることで、物体を検出させるというアプローチをとっています。このアプローチでは、r-cnnで物体を事前にアルゴリズムで特定する手順を省き、よりシステムを簡素化することに貢献しています。 次にpix2seqの動きを説明します。
図のように画像を画素入力すると、一連の物体の説明を出力します。説明は離散トークンとして記述され、それぞれバウンディングボックスのコーナー座標と、クラスラベルに対応しています。 次にpix2seq画像とラベルを学習させるための処理について説明します。pix2seqは物質検出を言語モデルとして捉えることが特徴です。しかし、言語モデルでは連続的な数字を扱うことは適していません。なので連続した数字を扱う画像の座標は言語モデルへの入力に適していません。そこでpix2seqでは座標を0~1の間で正規化を行い、数百から数千の離散ピンに量子化することで連続した座標データを離散的なトークンに変換しています。こうすることで、画像データを言語モデルでも扱えるよう工夫しています。 次に画像データのラベリングの取り扱いですが、こちらはもともと離散トークンなので、そのままランダムに並べてシーケンスとして扱います。シーケンスの終わりを示す0を最後に付与しています。 次に採用しているアーキテクチャを説明します。pix2seqではアーキテクチャにencoder-decoder方式を採用しており、encoderには画素を隠れ表現に符号化できる、convnetまたはtransformerを採用し、decoderにはtransformerを採用しています。
これらと先ほどの画像データ、ラベリングデータを組み合わせ、学習させることでpix2seqは成り立っています。
つぎにpix2seqの性能評価を見ていきます。
こちらはCOCOデータセットによって学習、評価した結果を表す図になります、縦軸にAPスコア、横軸にモデルサイズを取っています。本論文のpix2seqは簡素なシステムにもかかわらず、従来の高度にカスタマイズされた手法と遜色ない性能を示すことがわかります。 つぎに、pix2seqに事前学習を適用した場合の性能を見ていきます。事前学習を適用する前と比べ、適用後では性能が11%ほど向上することがわかりました。これは今後の精度向上に事前学習という戦略が有効であることを示唆しています。 こちらは実際にpix2seqに物体検出させた実行結果のサンプルです。複雑に物体が未収している場合にも精度よく検出していることが見て取れます。 結論と結果に移ります
「Pix2Seq」では物体検出を検出タスクのために特別に設計されていないピクセル入力を条件とする言語モデリングタスクとみなすことで、大幅なシステムの簡素化と汎用性を実現した。
今後は出力が簡素なトークン列で表現されるような(キーポイント検出、画像キャプション、視覚的質問応答など)に対する応用が期待されるということが言えます。
以上で紹介を終わります。