SlideShare a Scribd company logo
1 of 21
• PIX2SEQ: A LANGUAGE MODELING FRAMEWORK
• FOR OBJECT DETECTION
• Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton
• Google Research, Brain Team
• 2022/9/3輪講会
この論文では、新しい物体検出フレームワークとして「Pix2Seq」を
提案している
「Pix2Seq」が提案された背景
 物体検出を行う従来のアプローチは高度にカスタマイズされる傾
向あるため汎用性が低いことが問題
 →「Pix2Seq」では物体検出タスクを画素(RGBピクセル)を入
力とする言語モデリングタスクとみなすことで汎用性の向上を実
現
 既存手法と遜色ない結果を得ることができた
既存手法
 Faster R-CNN
 DETR
従来の手法R-CNNの概要
1.画像データを入力
2.CNNに通す前に物体があると予想される部分を切り抜き、サイズ
を調整する(切り抜き処理では選択的探索などのアルゴリズムを使
っている)
従来の手法R-CNNの概要
3.CNNに切り抜いた画像を入力し特徴量を抽出
4.切り抜いた画像から得られた特徴量から物体を判定しラベリングする
「Pix2Seq」の概要
「Pix2Seq」のアプローチは、ニューラルネットワークが画像内の
どこに物体があり、それが何に相当するのかを知っているのであれ
ば、それを読み取る方法を教えるだけでよいという直観に基づいて
いる
→つまりあらかじめ物体のある場所を切り抜いてから特徴量を抽出、
判定するのではなく、画像全体から抽出した特徴量を元にどこに何
の物体が存在するのかを説明する方法を学習させる
「Pix2Seq」の動き
図のように「Pix2Seq」に画像を入力すると、一連の物体の説明を
出力する
説明は5つの離散トークンで記述されておりそれぞれバウンディン
グボックスのコーナー座標とクラスラベルに対応する
例)[ymin, xmin, ymax, xmax, c]
言語モデルとして扱うための量子化
言語モデルは離散的なトークンを扱うよう設計されている
(画像の座標は連続数なので適さない)
よって座標を0~1の間で正規化し、数百~数千の離散ビンのいずれ
かに量子化することで離散的なトークンに変換する
画像データのラベリングの取り扱い
 ラベリングは[ymin, xmin, ymax, xmax, c]という離散トークン
であり、以下のように並べて扱う
 並び順はランダム化する(並び順は結果にさほど影響しない)
 最後にシーケンスの終わりを示す0を付け足す
アーキテクチャ
アーキテクチャ:Encoder-Decoderアーキテクチャを使用
Encoder : ConvNet, Transformerなどの画素を隠れ表現に符号化で
きるもの
Decoder : Transformerを使用
「Pix2Seq」と従来手法の性能比較
「Pix2Seq」は従来の
Faster R-CNNやDETR
と比べて競争力のある
平均精度(AP)を達
成した
図)COCOデータセットによる性能評
価
図)事前学習を行った「Pix2Seq」のAPスコア
「Pix2Seq」に事前学習を適用した場合の評価
「Pix2Seq」の性能は約11%向上した
事前学習が今後の性能向上に有望であることが示唆された
実行結果のサンプ
ル
複雑に物体が密集している場合でも精度よくラベル付けがされてい
る
結論と今後の課題
「Pix2Seq」では物体検出を検出タスクのために特別に設計されていない
ピクセル入力を条件とする言語モデリングタスクとみなすことで、大幅
なシステムの簡素化と汎用性を実現した。
今後は出力が簡素なトークン列で表現されるような(キーポイント検出、
画像キャプション、視覚的質問応答など)に対する応用が期待される。
輪講スライド20220903.pptx
輪講スライド20220903.pptx
輪講スライド20220903.pptx
輪講スライド20220903.pptx
輪講スライド20220903.pptx
輪講スライド20220903.pptx
輪講スライド20220903.pptx

More Related Content

What's hot

論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLPToru Tamaki
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language ModelsDeep Learning JP
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...Deep Learning JP
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル敦志 金谷
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...Deep Learning JP
 
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...Masatoshi Yoshida
 
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)Takuji Tahara
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介Hiroki Nakahara
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習Yusuke Uchida
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...harmonylab
 
Reducing the Dimensionality of Data with Neural Networks
Reducing the Dimensionality of Data with Neural NetworksReducing the Dimensionality of Data with Neural Networks
Reducing the Dimensionality of Data with Neural NetworksNagayoshi Yamashita
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介masataka nishimori
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 

What's hot (20)

論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
 
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
 
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
Reducing the Dimensionality of Data with Neural Networks
Reducing the Dimensionality of Data with Neural NetworksReducing the Dimensionality of Data with Neural Networks
Reducing the Dimensionality of Data with Neural Networks
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
Graph LSTM解説
Graph LSTM解説Graph LSTM解説
Graph LSTM解説
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 

Similar to 輪講スライド20220903.pptx

【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement TasksDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_poseharmonylab
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningharmonylab
 
2008 icse-granularity in software product lines
2008 icse-granularity in software product lines2008 icse-granularity in software product lines
2008 icse-granularity in software product linesn-yuki
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめDigital Nature Group
 

Similar to 輪講スライド20220903.pptx (7)

【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
 
2008 icse-granularity in software product lines
2008 icse-granularity in software product lines2008 icse-granularity in software product lines
2008 icse-granularity in software product lines
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
20150930
2015093020150930
20150930
 

輪講スライド20220903.pptx

Editor's Notes

  1. それではこちらの論文、ピクセルトゥーシーケンス:A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTIONを紹介させていただきます。
  2. こちらの論文では、新しい物体検出フレームワークとして、pix2seqを提案するといった内容になっております。物体検出とは画像の中に映っている物体の位置と名前を特定するタスクのことです。下の図はpix2seqに画像データを入力し、その検出結果をトークンとして出力しているイメージになります
  3. Pix2seqが提案された背景ですが、それは従来の物体検出を行うアプローチが高度にカスタマイズされる傾向にあるため、汎用性が低く、他のタスクに応用する際に再度モデリングやパラメータ設定をやり直す手間が生じることが問題として取り上げられるからです。 pix2seqではこうした低い汎用性を解決するために物体検出タスクを画素を入力とみなす言語モデリングタスクとみなすことでタスクごとのカスタマイズの必要性を撤廃し、汎用性を高めることを実現しています。 またpix2seqは既存手法のFaster R-CNNやDETFと遜色ない性能を示しました
  4. pix2seqと従来の手法の違いを比べるために、まずR-CNNについて見ていきます。R-CNNの概略をこちらに示します。R-CNNではまず画像データを入力した際に、選択的探索などのアルゴリズムを用いて物体があると予想される場所を切り抜きます。そしてcnnが処理しやすいサイズに切り抜いた画像のサイズを調整します。
  5. そしてCNNは入力された画像の特徴量抽出し、その特徴量に従って物体を判定、ラベリングしています。こうしてr-cnnでは物体検出を行っています。
  6. ではpix2seqではどのように物体検出に対してアプローチしているかですが、r-cnnのようにあらかじめ物体がある場所に対して検証を行っているわけではありません。画像全体の特徴量を抽出し、その特徴量をもとにどこになんの物体が存在するのかを説明する方法を学習させることで、物体を検出させるというアプローチをとっています。このアプローチでは、r-cnnで物体を事前にアルゴリズムで特定する手順を省き、よりシステムを簡素化することに貢献しています。
  7. 次にpix2seqの動きを説明します。 図のように画像を画素入力すると、一連の物体の説明を出力します。説明は離散トークンとして記述され、それぞれバウンディングボックスのコーナー座標と、クラスラベルに対応しています。
  8. 次にpix2seq画像とラベルを学習させるための処理について説明します。pix2seqは物質検出を言語モデルとして捉えることが特徴です。しかし、言語モデルでは連続的な数字を扱うことは適していません。なので連続した数字を扱う画像の座標は言語モデルへの入力に適していません。そこでpix2seqでは座標を0~1の間で正規化を行い、数百から数千の離散ピンに量子化することで連続した座標データを離散的なトークンに変換しています。こうすることで、画像データを言語モデルでも扱えるよう工夫しています。
  9. 次に画像データのラベリングの取り扱いですが、こちらはもともと離散トークンなので、そのままランダムに並べてシーケンスとして扱います。シーケンスの終わりを示す0を最後に付与しています。
  10. 次に採用しているアーキテクチャを説明します。pix2seqではアーキテクチャにencoder-decoder方式を採用しており、encoderには画素を隠れ表現に符号化できる、convnetまたはtransformerを採用し、decoderにはtransformerを採用しています。 これらと先ほどの画像データ、ラベリングデータを組み合わせ、学習させることでpix2seqは成り立っています。
  11. つぎにpix2seqの性能評価を見ていきます。 こちらはCOCOデータセットによって学習、評価した結果を表す図になります、縦軸にAPスコア、横軸にモデルサイズを取っています。本論文のpix2seqは簡素なシステムにもかかわらず、従来の高度にカスタマイズされた手法と遜色ない性能を示すことがわかります。
  12. つぎに、pix2seqに事前学習を適用した場合の性能を見ていきます。事前学習を適用する前と比べ、適用後では性能が11%ほど向上することがわかりました。これは今後の精度向上に事前学習という戦略が有効であることを示唆しています。
  13. こちらは実際にpix2seqに物体検出させた実行結果のサンプルです。複雑に物体が未収している場合にも精度よく検出していることが見て取れます。
  14. 結論と結果に移ります 「Pix2Seq」では物体検出を検出タスクのために特別に設計されていないピクセル入力を条件とする言語モデリングタスクとみなすことで、大幅なシステムの簡素化と汎用性を実現した。 今後は出力が簡素なトークン列で表現されるような(キーポイント検出、画像キャプション、視覚的質問応答など)に対する応用が期待されるということが言えます。 以上で紹介を終わります。