SlideShare a Scribd company logo
1 of 21
Download to read offline
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文紹介
Primitive Generation and
Semantic-related Alignment for
Universal Zero-Shot Segmentation
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士2年 大倉博貴
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
論文情報
• タイトル
– Primitive Generation and Semantic-related Alignment
for Universal Zero-Shot Segmentation
• 著者
– Shuting He and Henghui Ding and Wei Jiang
• 発表
– CVPR2023
• 2023年6月19日
• URL
– Project Page
• https://henghuiding.github.io/PADing/
– Github
• https://github.com/heshuting555/PADing
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• 物体の意味関係を視覚特徴の学習に利用する
Zero-Shotセグメンテーション手法を提案
• 提案手法はSoTAを達成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
背景
• 大量の教師データが必要というセグメンテーション
の課題解決にzero-shot学習が提案
• Generative modelベースは,物体を学習済みのクラス
に分類する傾向がある問題[1]を軽減し優れている
• しかし,いくつかの課題が存在
– ピクセルレベルごとに生成するため,十分なロバスト性が
ない
– 意味埋め込みから視覚特徴へのマッピングで,画像が言語
より豊富な情報を含むことを考慮していない
– 未知クラスに対する生成の学習が難しい
[1] Farhad Pourpanah, Moloud Abdar, Yuxuan Luo, Xinlei Zhou, Ran Wang, Chee Peng Lim, and Xi-Zhao Wang. A review of generalized zero-shot learning methods. arXiv preprint
arXiv:2011.08641, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
提案手法
• PADing
– Primitive Generatorが未知のクラスの視覚特徴を
合成するフレームワーク
• Relationship AlignmentとDisentangleにより実現
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
提案手法
• PADingの学習アルゴリズム
– 事前学習済みの予測器が,クラスにとらわれない
マスクとクラス埋め込みを予測
– Primitive Generatorを学習
– クラス埋め込みと合成未知クラス埋め込みから,
予測器を調整
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
Primitive Generator
• Primitive Cross-Model Generation
– 細かい属性を持つprimitivesを用いたクラス埋め込
みの合成
• Semantic-Visual Relationship Alignment
– 未知のクラスの合成を実現するためのRelationship
-AlignmentとDisentangleによるアプローチ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
Primitive Cross-Model Generation
• Primitivesをランダムに初期化
• Self-AttentionでPrimitivesを学習
– Primitivesは非常に細かい意味的特徴
• 例)毛,色,形など
𝑃 = 𝑝𝑖 𝑖=1
𝑁
, 𝑝𝑖 ∈ ℝ𝑑𝑘 𝑑𝑘:チャネル数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
Primitive Cross-Model Generation
• 2つの異なる線形層𝜔𝐾, 𝜔𝑉を用いて,Cross-Attention
のKey(𝐾)とValue(𝑉)を得る
• 意味埋め込みをQueryとして,Cross-Attentionを実行
𝜒′
:合成クラス埋め込み
𝑧:ガウス分布のサンプル
𝜔1:線形層
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Primitive Cross-Model Generation
• 2つの確率分布の平均不一致の最大値を抑えるために
損失関数を定義
– 既知のクラスのみを対象にしている
𝐿𝐺 =
𝑓,𝑓∈𝑋𝑆
𝑘 𝑓, 𝑓 +
𝑓′,𝑓′∈𝑋𝑆′
𝑘 𝑓′, 𝑓′ − 2
𝑓∈𝑋𝑆
𝑓′∈𝑋𝑆′
𝑘 𝑓, 𝑓′
𝑋𝑆:既知の実クラス埋め込み
𝑋𝑆′
:既知の合成クラス埋め込み
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
Semantic-Visual Relationship Alignment
• Disentangle
– クラス埋め込みに対してエンコーダを適用,意味関連情報
を分離
• Relationship Alignment
– 意味関連視覚空間と意味空間との関係アライメントを行う
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
Disentangle
• クラス埋め込みに対して異なるエンコーダを適用し,
意味関連と非意味関連を生成する
– 意味関連
– 非意味関連
𝑥𝑖 = 𝐸𝑅 𝑥𝑖 , 𝐿𝑅 = −
𝑖 𝑘
𝟙 𝑥𝑖 = 𝑘 𝑙𝑜𝑔
exp(𝑥𝑖𝑎𝑘/𝜏)
𝑘 exp(𝑥𝑖𝑎𝑘/𝜏)
𝐸𝑅:意味関連用エンコーダ
𝐸𝑈:非意味関連用エンコーダ
𝑥 :𝑥の正解クラスのインデックス
𝐷𝐾𝐿:KLダイバージェンス
𝑥𝑖 = 𝐸𝑈 𝑥𝑖 , 𝐿𝑈 =
𝑖
𝐷𝐾𝐿[𝑥𝑖||𝑁(0,1)]
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
Disentangle
• より効率的に意味関連情報を抽出するためデコーダ
を用いて特徴を再構成
• Disentangle全体の損失関数を定義
𝐿𝑟𝑒𝑐𝑜𝑛 =
𝑖
𝑥𝑖 − 𝐷(𝑥𝑖, 𝑥𝑖) 𝐷:再構築用デコーダ
𝐿ⅅ = 𝐿𝑅 + 𝐿𝑈 + 𝐿𝑟𝑒𝑐𝑜𝑛
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
Relationship Alignment
• 意味関連視覚空間と意味空間の関係アライメント
– 任意の2つの特徴の類似性をそれらに対応する意味埋め込み
の類似性に近づける操作
𝐿𝐴 = 𝐷𝐾𝐿[
𝑥𝑖𝑥𝑗
𝑥𝑖 𝑥𝑗
/𝜏||
𝑎[𝑥𝑖]𝑎[𝑥𝑗]
𝑎[𝑥𝑖] 𝑎[𝑥𝑗]
/𝜏]
𝑥 :𝑥の正解クラスのインデックス
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
Primitive Generator
• 損失関数の定義
– 未知のクラスに対する意味関係を含むクラス埋め
込みの合成を実現
𝐿𝑡𝑜𝑡𝑎𝑙 = 𝐿𝐺 + 𝜆(𝐿ⅅ + 𝐿𝐴)
𝐿𝐺:既知クラスの損失関数
𝐿ⅅ:Disentangleの損失関数
𝐿𝐴:Relation Alignmentの損失関数
𝜆:重み
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験設定
• 利用モデル
– 意味埋め込み生成
• CLIP text embedding[2]
• Word2vec[3]
– 分類器
• ResNet-50[4]をバックボーンとしたMask2Former[5]
– Disentangle用エンコーダとデコーダ
• MLP
– ベースライン
• GMMN[6]
[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning
transferable visual models from natural language supervision. In ICML. PMLR, 2021.
[3] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NeurIPS, 2013.
[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.
[5] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, and Rohit Girdhar. Masked-attention mask transformer for universal image segmentation. In CVPR, 2022.
[6] Maxime Bucher, Tuan-Hung Vu, Matthieu Cord, and Patrick Perez. Zero-shot semantic segmentation. ´ NeurIPS, 32, 2019.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験設定
• データセット
– MSCOCOを用いたZSP(Zero-Shot Panoptic Segmentation)用
データセットを作成
• ZSS(Zero-Shot Segmentation)用データセット作成の先行研究
[7]に従う
• 評価指標
– 調和平均(HM)で計算
• PQ(Panoptic Quality)
• SQ(Segmentation Quality)
• RQ(Recognition Quality)
• mAP(mean Average Precision)
• mIoU(mean Intersection-over-Union)
[7] Yongqin Xian, Subhabrata Choudhury, Yang He, Bernt Schiele, and Zeynep Akata. Semantic projection network for zero-and few-label semantic segmentation. In CVPR, 2019.
𝐻𝑀 =
2 × 𝑃𝑠𝑒𝑒𝑛 × 𝑃𝑢𝑛𝑠𝑒𝑒𝑛
𝑃𝑠𝑒𝑒𝑛 + 𝑃𝑢𝑛𝑠𝑒𝑒𝑛
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験①アブレーション
• ZSP(Zero-Shot Panoptic)タスク
– PADingが高精度
– Primitive Generatorがベースラインより優れている
• その他のZero-Shotタスク
– セグメンテーションタスク全体に有効
G/P:GMMN/Primitive Generator
A:Relationship Alignment
D:Disentangle
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
実験②SoTAとの比較
• ZSS(Zero-Shot Segmentation)タスク手法比較
– 従来の最良手法ZegFormer-seg[8]を上回る精度
• 従来手法がResNet-101を利用するが提案手法はResNet-50を利用
[8] Jian Ding, Nan Xue, Gui-Song Xia, and Dengxin Dai. Decoupling zero-shot semantic segmentation. In CVPR, 2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
実験③定性的な結果
• ZSP(Zero-Shot Panoptic)タスク
– ベースラインが見落とす未知のクラスを分類できている
• スーツケース,草,フリスビー,道路,木,スケートボードなど
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
まとめ
• 物体の意味関係を視覚特徴の学習に利用する
Zero-Shotセグメンテーション手法を提案
• 提案手法はSoTAを達成

More Related Content

Similar to DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation

Similar to DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation (20)

Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
RAPiD
RAPiDRAPiD
RAPiD
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 
CKL_about_panf2022.pdf
CKL_about_panf2022.pdfCKL_about_panf2022.pdf
CKL_about_panf2022.pdf
 

Recently uploaded

Recently uploaded (10)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文紹介 Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士2年 大倉博貴
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 論文情報 • タイトル – Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation • 著者 – Shuting He and Henghui Ding and Wei Jiang • 発表 – CVPR2023 • 2023年6月19日 • URL – Project Page • https://henghuiding.github.io/PADing/ – Github • https://github.com/heshuting555/PADing
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • 物体の意味関係を視覚特徴の学習に利用する Zero-Shotセグメンテーション手法を提案 • 提案手法はSoTAを達成
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 背景 • 大量の教師データが必要というセグメンテーション の課題解決にzero-shot学習が提案 • Generative modelベースは,物体を学習済みのクラス に分類する傾向がある問題[1]を軽減し優れている • しかし,いくつかの課題が存在 – ピクセルレベルごとに生成するため,十分なロバスト性が ない – 意味埋め込みから視覚特徴へのマッピングで,画像が言語 より豊富な情報を含むことを考慮していない – 未知クラスに対する生成の学習が難しい [1] Farhad Pourpanah, Moloud Abdar, Yuxuan Luo, Xinlei Zhou, Ran Wang, Chee Peng Lim, and Xi-Zhao Wang. A review of generalized zero-shot learning methods. arXiv preprint arXiv:2011.08641, 2020.
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 提案手法 • PADing – Primitive Generatorが未知のクラスの視覚特徴を 合成するフレームワーク • Relationship AlignmentとDisentangleにより実現
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 提案手法 • PADingの学習アルゴリズム – 事前学習済みの予測器が,クラスにとらわれない マスクとクラス埋め込みを予測 – Primitive Generatorを学習 – クラス埋め込みと合成未知クラス埋め込みから, 予測器を調整
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 Primitive Generator • Primitive Cross-Model Generation – 細かい属性を持つprimitivesを用いたクラス埋め込 みの合成 • Semantic-Visual Relationship Alignment – 未知のクラスの合成を実現するためのRelationship -AlignmentとDisentangleによるアプローチ
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 Primitive Cross-Model Generation • Primitivesをランダムに初期化 • Self-AttentionでPrimitivesを学習 – Primitivesは非常に細かい意味的特徴 • 例)毛,色,形など 𝑃 = 𝑝𝑖 𝑖=1 𝑁 , 𝑝𝑖 ∈ ℝ𝑑𝑘 𝑑𝑘:チャネル数
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 Primitive Cross-Model Generation • 2つの異なる線形層𝜔𝐾, 𝜔𝑉を用いて,Cross-Attention のKey(𝐾)とValue(𝑉)を得る • 意味埋め込みをQueryとして,Cross-Attentionを実行 𝜒′ :合成クラス埋め込み 𝑧:ガウス分布のサンプル 𝜔1:線形層
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Primitive Cross-Model Generation • 2つの確率分布の平均不一致の最大値を抑えるために 損失関数を定義 – 既知のクラスのみを対象にしている 𝐿𝐺 = 𝑓,𝑓∈𝑋𝑆 𝑘 𝑓, 𝑓 + 𝑓′,𝑓′∈𝑋𝑆′ 𝑘 𝑓′, 𝑓′ − 2 𝑓∈𝑋𝑆 𝑓′∈𝑋𝑆′ 𝑘 𝑓, 𝑓′ 𝑋𝑆:既知の実クラス埋め込み 𝑋𝑆′ :既知の合成クラス埋め込み
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 Semantic-Visual Relationship Alignment • Disentangle – クラス埋め込みに対してエンコーダを適用,意味関連情報 を分離 • Relationship Alignment – 意味関連視覚空間と意味空間との関係アライメントを行う
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 Disentangle • クラス埋め込みに対して異なるエンコーダを適用し, 意味関連と非意味関連を生成する – 意味関連 – 非意味関連 𝑥𝑖 = 𝐸𝑅 𝑥𝑖 , 𝐿𝑅 = − 𝑖 𝑘 𝟙 𝑥𝑖 = 𝑘 𝑙𝑜𝑔 exp(𝑥𝑖𝑎𝑘/𝜏) 𝑘 exp(𝑥𝑖𝑎𝑘/𝜏) 𝐸𝑅:意味関連用エンコーダ 𝐸𝑈:非意味関連用エンコーダ 𝑥 :𝑥の正解クラスのインデックス 𝐷𝐾𝐿:KLダイバージェンス 𝑥𝑖 = 𝐸𝑈 𝑥𝑖 , 𝐿𝑈 = 𝑖 𝐷𝐾𝐿[𝑥𝑖||𝑁(0,1)]
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 Disentangle • より効率的に意味関連情報を抽出するためデコーダ を用いて特徴を再構成 • Disentangle全体の損失関数を定義 𝐿𝑟𝑒𝑐𝑜𝑛 = 𝑖 𝑥𝑖 − 𝐷(𝑥𝑖, 𝑥𝑖) 𝐷:再構築用デコーダ 𝐿ⅅ = 𝐿𝑅 + 𝐿𝑈 + 𝐿𝑟𝑒𝑐𝑜𝑛
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 Relationship Alignment • 意味関連視覚空間と意味空間の関係アライメント – 任意の2つの特徴の類似性をそれらに対応する意味埋め込み の類似性に近づける操作 𝐿𝐴 = 𝐷𝐾𝐿[ 𝑥𝑖𝑥𝑗 𝑥𝑖 𝑥𝑗 /𝜏|| 𝑎[𝑥𝑖]𝑎[𝑥𝑗] 𝑎[𝑥𝑖] 𝑎[𝑥𝑗] /𝜏] 𝑥 :𝑥の正解クラスのインデックス
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 Primitive Generator • 損失関数の定義 – 未知のクラスに対する意味関係を含むクラス埋め 込みの合成を実現 𝐿𝑡𝑜𝑡𝑎𝑙 = 𝐿𝐺 + 𝜆(𝐿ⅅ + 𝐿𝐴) 𝐿𝐺:既知クラスの損失関数 𝐿ⅅ:Disentangleの損失関数 𝐿𝐴:Relation Alignmentの損失関数 𝜆:重み
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験設定 • 利用モデル – 意味埋め込み生成 • CLIP text embedding[2] • Word2vec[3] – 分類器 • ResNet-50[4]をバックボーンとしたMask2Former[5] – Disentangle用エンコーダとデコーダ • MLP – ベースライン • GMMN[6] [2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML. PMLR, 2021. [3] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NeurIPS, 2013. [4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016. [5] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, and Rohit Girdhar. Masked-attention mask transformer for universal image segmentation. In CVPR, 2022. [6] Maxime Bucher, Tuan-Hung Vu, Matthieu Cord, and Patrick Perez. Zero-shot semantic segmentation. ´ NeurIPS, 32, 2019.
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験設定 • データセット – MSCOCOを用いたZSP(Zero-Shot Panoptic Segmentation)用 データセットを作成 • ZSS(Zero-Shot Segmentation)用データセット作成の先行研究 [7]に従う • 評価指標 – 調和平均(HM)で計算 • PQ(Panoptic Quality) • SQ(Segmentation Quality) • RQ(Recognition Quality) • mAP(mean Average Precision) • mIoU(mean Intersection-over-Union) [7] Yongqin Xian, Subhabrata Choudhury, Yang He, Bernt Schiele, and Zeynep Akata. Semantic projection network for zero-and few-label semantic segmentation. In CVPR, 2019. 𝐻𝑀 = 2 × 𝑃𝑠𝑒𝑒𝑛 × 𝑃𝑢𝑛𝑠𝑒𝑒𝑛 𝑃𝑠𝑒𝑒𝑛 + 𝑃𝑢𝑛𝑠𝑒𝑒𝑛
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験①アブレーション • ZSP(Zero-Shot Panoptic)タスク – PADingが高精度 – Primitive Generatorがベースラインより優れている • その他のZero-Shotタスク – セグメンテーションタスク全体に有効 G/P:GMMN/Primitive Generator A:Relationship Alignment D:Disentangle
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 実験②SoTAとの比較 • ZSS(Zero-Shot Segmentation)タスク手法比較 – 従来の最良手法ZegFormer-seg[8]を上回る精度 • 従来手法がResNet-101を利用するが提案手法はResNet-50を利用 [8] Jian Ding, Nan Xue, Gui-Song Xia, and Dengxin Dai. Decoupling zero-shot semantic segmentation. In CVPR, 2022.
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 実験③定性的な結果 • ZSP(Zero-Shot Panoptic)タスク – ベースラインが見落とす未知のクラスを分類できている • スーツケース,草,フリスビー,道路,木,スケートボードなど
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 まとめ • 物体の意味関係を視覚特徴の学習に利用する Zero-Shotセグメンテーション手法を提案 • 提案手法はSoTAを達成