Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
An overview of semi supervised learning, weakly-supervised learning, unsupervised learning, and active learning.
Focused on recent deep learning-based image recognition approaches.
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
An overview of semi supervised learning, weakly-supervised learning, unsupervised learning, and active learning.
Focused on recent deep learning-based image recognition approaches.
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
11. Unsupervised Disentanglement Learning
11
会議 : ICLR2017
著者 : I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mo-hamed, and A. Lerchner
● VAEの目的関数中の潜在次元のキャパシティと再構成能力をバランス調整するHyperparameter β を
VAEに拡張.
○ β=1のとき,通常のVAE.
○ βが大きいほど,潜在空間が正規分布に従うことを強制 = Disentanglementの促進.
beta-VAE: Learning Basic Visual Concepts
with a Constrained Variational Framework
12. InfoGAN: Interpretable Representation Learning
by Information Maximizing Generative Adversarial Nets
12
会議 : NIPS2016
著者 : X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel
● 二変数の依存関係を測る相互情報量を最大化することでDisentanglementするInfoGANを提案
○ これにより,潜在コード C がノイズ Z と独立する
● Cで制御可能な回転などの変動因子が獲得されたことを報告
Unsupervised Disentanglement Learning
13. Understanding disentangling in β-VAE
13
会議 : NIPS2017 Workshops
著者 : C. P. Burgess, I. Higgins, A. Pal, L. Matthey, N. Watters, G. Desjardins,and A. Lerchner
● β-VAEにはより良いDisentanglementのためには,再構成能力を犠牲にする必要があった(trade-off
問題)
● この問題を解決するために,Hyperparameter C を線形に増加することで,潜在表現の キャパシティ
を徐々に増加させる.
○ 学習済みのDisentangled表現を維持しながら,より多くの変動因子をDisentanglementしようとし
た.
Unsupervised Disentanglement Learning
14. Disentangling by Factorising
14
会議 : ICML2018
著者 : H. Kim and A. Mnih
● trade-off問題の解決のために,確率変数間の依存性を測るTotal Correlation (TC) の誤差をVAEの目
的関数に追加
● 入力がq(z)とbar{q}(z)のどちらかを分類するDiscriminatorでTCを近似
Unsupervised Disentanglement Learning
15. Isolating Sources of Disentanglement in Variational Autoencoders
15
会議 : NIPS2018
著者 : T. Q. Chen, X. Li, R. B. Grosse, and D. K. Duvenaud
● VAEのKL項を,データサンプルと潜在変数との相互情報量,TC項,次元ごとのKL項に分解
● TC項を提案するbiased Monte-Carloによって近似し,実際にTC項がdisentanglementに関連することを
明らかにした
○ FactorVAEと違い,追加の学習パラメータがない.
Unsupervised Disentanglement Learning
17. Challenging Common Assumptions in the Unsupervised Learning of Disentangled
Representations
17
会議 : F. Locatello, S. Bauer, M. Lucic, G. Raetsch, S. Gelly, B. Sch ̈olkopf, and O. Bachem
著者 : ICML2019 (Best paper)
● Disentangled表現を教師なし学習することは,データとモデルの両方に帰納バイアスを持たないと不可
能であると理論的に証明した.
● Disentangled表現の有用性について大規模実験.
● 実験よりわかったことは
○ Disentanglement Learning におけるハイパラはモデルより重要であり,データセット間に共通す
るよいハイパラもなく,さらにGTがないとよいハイパラとわからない.
○ 学習された表現から変動因子を予測する Downstream task で Disentangled表現が有効である
ことを証明することができなかった.
○ Disentanglement Learning においては実験の再現性が重要であり,そのためのプラットフォーム
を提供した.
■ https://github.com/google-research/disentanglement_lib
Unsupervised Disentanglement Learningの限界
18. Semi-Supervised StyleGAN for Disentanglement Learning
18
会議 : arXiv:2003.03461
著者 : W. Nie, T. Karras, A. Garg, S. Debhath, A. Patney, A. B. Patel, and A. Anandkumar,
● 前述の研究を踏まえて,semi-, weakly-supervised設定の
disentanglementが注目を集めている.
● 高解像度画像に対するDisentanglement,学習困難性,教師な
し設定でのnon-identifiabilityの問題を,少量のラベルを与える
semi-supervised設定のInfoGAN + StyleGAN で解決
● 実験から,0.25 〜 2.5%のラベルで合成とリアルデータセットで良
いDisentanglementを達成できることが明らかになった.
Semi-supervised Disentanglement Learning
40. Unsupervised Disentanglement Metric
40
Unsupervised Model Selection for Variational Disentangled Representation Learning
会議:ICLR 2020
著者:#Sunny_Duan #Loic_Matthey #Andre_Saraiva #Nick_Watters #Chris_Burgess
#Alexander_Lerchner #Irina_Higgins
余談
● Introの冒頭にある一文が非常に印象的な論文でした
Happy families are all alike;
every unhappy family is unhappy in its own way.
ロシアの文豪レフ・トルストイの著作「アンナ・カレーニナ」の冒頭の一文です
直訳は「幸せな家庭はどれも同じように幸せだが、不幸な家庭はそれぞれの行先で不幸である」
これの一文が指していることは恐らく「うまくDisentanglementできているものはロバストに評価できるが
(幸せな家庭はどれも同じように幸せ)、できていないものはseedに振られたりして悪い方向で安定してない
(不幸な家庭はそれぞれの行先で不幸である)」だと思います
DeepMindのNeuro Science研の論文ですが、とても詩的で一度読んでから論文のインパクト然り冒頭の
一文のインパクト然りでお気に入りの論文の一つです
41. Model Selection
41
Disentangling Factors of Variations Using Few Labels
会議:ICLR 2020
著者:#Francesco_Locatello #Michael_Tschannen #Stefan_Bauer #Gunnar_Rätsch
#Bernhard_Schölkopf #Olivier_Bachem
Abstract
● 少数ラベルを使うことで、よりうまくDisentanglementできることを示し、ラベルのノイズにも非常にロ
バストであることを示した
● 少数ラベルをvalidationに使うと、既存のDisentanglementのメトリックを用いてよりよいモデルのセ
レクションを可能にした
(訓練モデル自体はUnsupervised、Semi-Supervised)
Contribution
● ノイズありなしに関わらず少数ラベルがDisentanglementに貢献できることを示した点
● 少数ラベルを用いたvalidationがモデルセレクションを容易にした点
図は論文を読まないと解釈しにくいので、省略
前述のUDRもModel Selectionの文脈としても解釈可能
42. Appllicability to real world dataset
42
On the Transfer of Inductive Bias from Simulation to the Real World: a New
Disentanglement Dataset
会議:NeurIPS 2019
著者:#Muhammad_Waleed_Gondal #Manuel_Wuthrich #Djordje_Miladinovic
#Francesco_Locatello #Martin_Breidt #Valentin_Volchkov #Joel_Akpo #Olivier_Bachem
#Bernhard_Schölkopf #Stefan_Bauer
Abstract
● 今までのデータセットは所詮トイプロブレムであったので、実データにおいて7つの因子を含むデータ
セットを収集したMPI3Dを提案した.
● データセットはtoy、realistic、realの3つをそれぞれ100万枚以上集めて、転移性についてなどを調査
した.結論使うデータセットがrealisticだとrealにもうまく適用できる
Contribution
● 実世界3Dデータの画像を初めて提案した点
● 集めたデータで帰納バイアスとデータの転移性を調べた点
次ページに続く
43. Appllicability to real world dataset
43
On the Transfer of Inductive Bias from Simulation to the Real World: a New
Disentanglement Dataset
会議:NeurIPS 2019
著者:#Muhammad_Waleed_Gondal #Manuel_Wuthrich #Djordje_Miladinovic
#Francesco_Locatello #Martin_Breidt #Valentin_Volchkov #Joel_Akpo #Olivier_Bachem
#Bernhard_Schölkopf #Stefan_Bauer
7つの因子を保持する
ようにロボットアームを
動かして撮影
MPI3D-hogeが集めたデータセット
各100万枚以上収集
realisticが実データに近いsyntheticな
データ
88. 研究機関
88
Microsoft Research Asia (中国, 北京)
・Microsoft Researchのアジア支部
・アメリカ国外における最大の研究所
・北京大学や清華大学の卒業生が研究者として多く在籍
・学生との連携、教育も積極的に行っている
・CVPR2020, ICLR2020等に論文を投稿
96. Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?
会議 : ICCV2019
著者 : Rameen Abdal, Yipeng Qin, Peter Wonka
● 提案: StyleGANの中間表現Wを各層に複製したW′を誤差逆伝播で変化させ,StyleGAN
に入れた時クエリ画像に最も近い画像を生成するW′ を発見
● 応用: 任意の2画像からW′を抽出し,morphing/expression transferなど
● 後続研究: In-Domain GAN Inversion for Real Image Editing (CVPR2020)
上: 入力,下: 埋め込み morphing expression transfer
97. Image2StyleGAN++: How to Edit the Embedded Images?
97
会議 : CVPR2020
著者 : Rameen Abdal, Yipeng Qin, Peter Wonka
● 提案1: W′を最適化→StyleGANのもう一つの入力であるノイズも最適化することで,より
精細なクエリ画像のStyleGANへの埋め込みを実現
● 提案2: 損失関数, マスク入力の有無等を変えて最適化するだけで,reconstruction,
inpainting, crossover, sketch/scribble edit 等を実現
Inpainting Crossover
sketch/scribble
edit
98. StyleRig: Rigging StyleGAN for 3D Control over Portrait Images
98
会議 : CVPR2020
著者 : Ayush Tewari, Mohamed Elgharib, Gaurav Bharaj, Florian Bernard, Hans-Peter Seidel,
Patrick Perez, Michael Zollhofer, Christian Theobalt
● StyleGANは高解像度画像生成するが,望みの形質だけを変更する編集は難しい
● 各種パラメタを陽に持つ3DMMモデルとstyleganの潜在表現の対応を発見し実現
99. GANSpace: Discovering Interpretable GAN Controls
99
会議 : arXiv2020
著者 : Erik Härkönen , Aaron Hertzmann , Jaakko Lehtinen, Sylvain Paris
● 生成モデルのlatent vector(高次元)にある特徴を加える方向ベクトルを発見する
● 既存研究は発見したい特徴に関する何らかの教師情報が必要だった
● PCAで低次元に特徴を落とすと,人とinteractionして簡単に見つけられる
100. Deep Image Prior
100
会議 : CVPR2018
著者 : Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky
● 単一の欠損(e.g., ノイズ・穴)画像だけを入力にCNNの最適化で元画像を復元
● 自然な画像を生成するためのpriorを大量の画像群から学習するアプローチが主流である
中,CNNの構造自体も重要なpriorであることを示唆
101. SinGAN: Learning a Generative Model
From a Single Natural Image
101
会議 : ICCV2019 (best paper)
著者 : Tamar Rott Shaham, Tali Dekel, Tomer Michaeli
● 単一画像から生成モデル学習, G/Dを階層的に積み重ねて,学習につかった単一画像と
パッチレベルの分布は一緒だが構造が違う新画像を生成
● 階層構造を利用して,super-resolution, harmonization, animation, editingなどを実現
102. Structural-analogy from a Single Image Pair
102
会議 : arXiv2020
著者 : Sagie Benaim, Ron Mokady, Amit Bermano, Daniel Cohen-Or, Lior Wolf
● 画像ペア一対だけから生成モデル学習 (SinGANのim2im向け拡張)
● 画像A/Bに対して,Bの見た目とAの構造を保持した画像を生成するモデルを実現
103. Semantic Pyramid for Image Generation
103
会議 : CVPR2020
著者 : Assaf Shocher, Yossi Gandelsman, Inbar Mosseri, Michal Yarom, Michal Irani, William
T. Freeman, Tali Dekel
● 学習済みの分類器を使って様々な階層の特徴抽出,そのうち生成器の条件付けとして渡
す階層を限定することで,入力画像に対し様々なレベルの`類似`画像を生成するモデル
の実現
● 空間的なマスクによる条件付けと組み合わせる事で多様な画像編集タスクを実現 (e.g.,
composition, semantic re-labeling, sketch-to-photo)
107. Walking in the GAN Latent Space
107
GANは潜在空間上の2点間の滑らかな内挿が可能
この性質を使うことで,
GANの解釈性の改善とGANの制御性の検証ができる
このトピックでは
特定の画像変換に対応する潜在空間上の方向を
- 教師ありで [Goetschalckx+ 2019]
- 自己教師で [Jahanian+ 2020], [Plumerault+ 2020]
- 教師なしで [Voynov+ 2020]
発見する手法を調査
108. Ganalyze: Toward visual definitions of cognitive image properties
108
会議 : ICCV2019
著者 : L. Goetschalckx, A. Andonian, A. Oliva, and P. Isola
● 記憶に残りやすい or 残りにくいイメージはどのように見えるか?また記憶性をもたらす視覚的特
性とは?をテーマに,BigGANが学習した潜在空間上を,MemoryNetを使って評価される方向へ誘
導することで視覚的特性を可視化した.
Fig. 4. より抜粋.右に行くほど記憶に残りやすい
109. On the ”steerability” of generative adversarial networks
109
会議 : ICLR2020
著者 : A. Jahanian, L. Chai, and P. Isola
● self-supervisedな画像変換を施した画像をもとに得られるGANの潜在空間を操舵する方向から
,GANの潜在空間を操縦することで基本的な視覚的な変換がどの程度達成されるかを検証.
生成された画像 G(z) と編集した edit(G(z), α) を最小化する αw を探す.
対象をフレームアウトさせるような変換はできない →
Dataset bias をGANが反映
110. Controlling generative models
with continuous factors of variations
110
会議 : ICLR2020
著者 : A. Plumerault, H. L. Borgne, and C. Hudelot
● 生成モデルの潜在空間上から,物体の位置やスケールなどの特性を制御可能にする方向を見つ
ける方法を提案.GANalyze や GAN Steerability との違いは,
○ Gが再現不可能な高周波数画像成分を低減する再構成誤差
○ 潜在空間の軌跡の候補を再帰的に生成した後,方向を決定するモデルを学習
○ Saliency detectionによる定量評価
111. Unsupervised discovery of interpretable directions
in the gan latent space
111
会議 : arXiv:2002.03754
著者 : A. Voynov and A. Babenko
● R を生成画像ペアから潜在空間上での方向を予測するように訓練することにより,GANの潜在空
間上での人間が解釈可能な画像変換に対応する方向をunsupervised に発見
生成画像と方向に沿って移動した生成画像を受け取り,
Rはその方向を予測する. Gは固定し,AとRを学習する.