Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Tsukasa Takagi
Domain Adaptive Faster R-CNN for Object Detection in the Wild
第46回 コンピュータビジョン勉強会@関東 CVPR2018読み会(前編)にて発表したスライドです。
https://kantocv.connpass.com/event/88613/
The document contains mathematical equations and notation related to machine learning and probability distributions. It involves defining terms like P(y|x), which represents the probability of outcome y given x, and exploring ways to calculate the expected value of an objective function Rn under different probability distributions p and q over the variables x and y. The goal appears to be to select parameters θ to optimize some objective while accounting for the distributions of the training data.
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Tsukasa Takagi
Domain Adaptive Faster R-CNN for Object Detection in the Wild
第46回 コンピュータビジョン勉強会@関東 CVPR2018読み会(前編)にて発表したスライドです。
https://kantocv.connpass.com/event/88613/
The document contains mathematical equations and notation related to machine learning and probability distributions. It involves defining terms like P(y|x), which represents the probability of outcome y given x, and exploring ways to calculate the expected value of an objective function Rn under different probability distributions p and q over the variables x and y. The goal appears to be to select parameters θ to optimize some objective while accounting for the distributions of the training data.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
Several recent papers have explored self-supervised learning methods for vision transformers (ViT). Key approaches include:
1. Masked prediction tasks that predict masked patches of the input image.
2. Contrastive learning using techniques like MoCo to learn representations by contrasting augmented views of the same image.
3. Self-distillation methods like DINO that distill a teacher ViT into a student ViT using different views of the same image.
4. Hybrid approaches that combine masked prediction with self-distillation, such as iBOT.
This is a Japanese manual of IGOR Pro. IGOR Pro is a scientific data analysis software, numerical computing environment and programming language, supplied by WaveMetrics.
このスライドは、IGOR Proの日本語マニュアルである。 IGOR Proは、WaveMetrics社が提供する科学データ解析ソフトウェア、数値計算環境、プログラミング言語である。
1. Representation Learning: A Review and New
Perspectives
Y. Bengio, A. Courville and P, Vincent, 2012
2012/12/14(金) Deep Learning 勉強会
東京大学大学院 工学系研究科 技術経営戦略学専攻
大澤 昇平
2. ADGENDA
• 7. Direct Encoding: Learning a Parametric Map from
Input to Representation
• 8. Representation Learning as Manifold Learning
• 9. Connections between Probabilistic and Direct
Encoding Models
• 10. Global Training of Deep Models
• 11. Building-in Invariance
• 12. Conclusion
1
3. ADGENDA
• 7. Direct Encoding: Learning a Parametric Map from
Input to Representation
• 8. Representation Learning as Manifold Learning
• 9. Connections between Probabilistic and Direct
Encoding Models
• 10. Global Training of Deep Models
• 11. Building-in Invariance
• 12. Conclusion
2
12. 7. Direct Encoding: Learning a Parametric Map from Input to Representation
Predictive sparse decomposition
• Section 6 で説明した sparse coding [Olshausen and Field 1997] は、線形のデコーダと自乗再構築誤差を
用いる auto-encoder と解釈可能
• しかし、ノンパラメトリックなエンコーダ 𝑓 𝜃 は比較的 non-trivial で、目的関数の最小化はコストが高い
• エンコーダの出力 h とデコーダのパラメータ W を反復的に最適化する必要があるため
cf.) sparse coding
• Predictive Sparse Decomposition (PSD) [Kavukcuoglu et al. 2008] は、上記問題を部分的に解決して
いる sparse conding の亜種
• 認識(特徴量の学習)を行なっている間の、コストが高く・非線形なエンコーディングの過程を、非反復的な近
似によって置換
• 画像や動画中の物体認識に応用されている[Kavukcuoglu et al. 2009][Kavukcuoglu et al.
2010][Jarett et al. 2009][Farabet et al. 2011]
• 音声認識[Henaff et al. 2011]
• 以下の目標関数を特徴量 h、パラメータ (W, α) に関して最適化する
スパース性 デコーダの誤差 エンコーダの誤差
• [Kavukcuoglu et al. 2010] は tanh の代わりに shrinkage operation を利用
11
13. ADGENDA
• 7. Direct Encoding: Learning a Parametric Map from
Input to Representation
• 8. Representation Learning as Manifold Learning
• 9. Connections between Probabilistic and Direct
Encoding Models
• 10. Global Training of Deep Models
• 11. Building-in Invariance
• 12. Conclusion
12
14. 8. Representation Learning as Manifold Learning
Predictive sparse decomposition
• Representation learning の他の重要な視点として、多様体の幾何学的観点に基づくものがある
• 多様体仮説(manifold hypothesis)[Cayton 2005][Marayanan and Mitter 2010]
• 高次元空間 𝐑 𝑑 𝑥 上に配置された実世界のデータは、 𝐑 𝑑 𝑥 に埋め込まれた非常に低い次元 𝑑 𝑀 を持つ多様体 𝑀 の
近くに集中していることが期待される
• “representation” といった瞬間に、学習された representation を反映した多様体を思い浮かべる人は多い
• 多様体上では、接線方向は保存され、法線方向は保存されない
• この視点をもとに、初期の教師なし学習タスクでは、データに基づく多様体の構造をモデル化することが行われてきた
• 学習された representation は、埋め込まれた多様体上における内在的な座標系に対応する
• 典型的な多様体モデリング=主成分分析
• 主成分分析は、線形多様体をモデリングする
• [Pearson 1901]によって、データの雲に対してもっとも近い線形多様体(直線 or 平面)を探索する目的で提案された
• 主成分分析によって抽出された表現 𝑓 𝜃 は、多様体への射影に対応
• 主成分は、多様体の内在的な座標に対応
• しかし、複雑な実世界のドメインに対する多様体は、強く非線形であることが予想される
• このモデリングは、局所的に線形な接空間を張り合わせることで行われる[Vincent and Bengio 2003][Brand 2003]
• 幾何学的観点に基づくアルゴリズムの多くは、最近傍グラフに基づくノンパラメトリックなアプローチを採用している[Scholkopf
et al 1998][Roweis and Saul 2000][Tenenbaum et al. 2000][Brand 2003][Belkin and Niyogi 2003][Donoho and
Grimes 2003][Weinberger and Saul 2004][Hinton and Roweis 2003][Maaten and Hinton 2008]
• これらのノンパラメトリックなアプローチでは、高次元の学習点は自由な低次元の埋め込まれた座標を持ち、それは近
傍グラフのある特徴を高次元の入力空間でも再現するように行われる
• これらの手法はパレメトライズされた特徴抽出関数 𝑓 𝜃 (𝑥) を直接学習するわけではないので、新しい点には適用でき
ない
• 比較的、非線形多様体をパラメトリックな写像を学習することで直接新しい点の表現を計算できるようにする手法は尐
ない
• 以降では、これにフォーカスする
13
15. 8. Representation Learning as Manifold Learning
Learning a Parametric Mapping based on a Neighborhood Graph
• ここまで述べた非線形の多様体学習アルゴリズムは、すべて教師データの近傍グラフに基づく
• 学習点の間のユークリッド距離によって導出
• そのうちいくつかは、ノンパラメトリックなものから、パラメトリックな写像 𝑓 𝜃 に容易に変えられる
• すべての学習点が自由な低次元の座標系を持つのではなく、座標系が一つのパラメトリックな関数
から得られるようにする
• パラメトリックな関数のパラメータを学習する
• 成功しているノンパラメトリックな多様体埋め込みアルゴリズム t-SNE [Maaten and Hinton 2008]
は、直接的なパラメトリックなエンコーディングに適用することができる
• Semi-supervised embedding [Weston 2008]
• Deep parameterized neural network が多様体の埋め込みと分類器を同時に学習
• 分類コストを学習するだけでなく目的関数は、中間層の表現が近傍に対して不変になるようにする
• 自由パラメータの数を減らすことは、ノンパラメトリックな手法と比べて、モデルを非局所的に一般化する[Bengio
at al. 2006b]
• もし一般化が有効であれば、よりよい特徴量とパフォーマンスを得ることができる[Maaten and Hinton
2008]
• しかし、近傍関係に基づく多様体のモデリングは、高次元空間では統計的にリスキーである
• 次元の呪い
14
16. 8. Representation Learning as Manifold Learning
Learning a Non-linear Manifold through a Coding Scheme 1/2
• 近傍探索に基づかない多様体の学習方法について述べる
• PCA: 線形多様体によるモデリング の場合
• 基底ベクトルは、入力点を射影するために使われる
• 抽出された成分の入力に対する感度は、どの位置 𝑥 にか
かわらず一定である
• つまり、接空間は線形多様体ではどこでも一緒
• 非線形多様体の場合
• 接空間は場所を移動すると変わる(右図参照)
• 非線形の representation learning では、特徴量の 入力に
対する局所的な変化を考えると便利
• エンコーダの一階導関数は、多様体の形状を決定する
• もし密度が多様体の周辺に集中しており、エンコーダがそれを捉えられれば、非零成分を見ることで接平面の方向を把握する
ことができる
• sparse coding cf.) sparse coding
• パラメータ行列 W は入力座標系の辞書であると解釈できる
• この中から、局所的な接空間が選ばれる
• h の非零成分が、部分空間に対応
• Local Coordinate Coding (LCC) アルゴリズム [Yu et al. 2009]
• Sparse coding と類似
• 多様体の視点から導出
• p = -1 の時は sparse coding と同一
• x に対する anchor point を活性化する傾向(???)
15
17. 8. Representation Learning as Manifold Learning
Learning a Non-linear Manifold through a Coding Scheme 2/2
• [Rifai et al 2011a] は訓練された CAE でヤコビ行列の特異値分解を行なっている
• SVD は直交基底を、感度の高い順に出力
• スペクトルは、速く減衰する
• 感度が高い直交基底は比較的尐ない
• これは CAE が低次元多様体の接空間をモデルしていると考えられる
• 接空間の基底の特異値の図
多様体の接線方向の
変化
• CAE の目標関数は、次の 2 つの背反する内容を満たす
• Isotropic contractive penalty: 特徴量が、入力がどの方向に変化しても不感応である
• Reconstruction term : 異なる訓練点は、異なる表現を持つ
• Isotropic contructive な圧力は多様体の接線方向に作用
16
19. ADGENDA
• 7. Direct Encoding: Learning a Parametric Map from
Input to Representation
• 8. Representation Learning as Manifold Learning
• 9. Connections between Probabilistic and Direct
Encoding Models
• 10. Global Training of Deep Models
• 11. Building-in Invariance
• 12. Conclusion
18
21. ADGENDA
• 7. Direct Encoding: Learning a Parametric Map from
Input to Representation
• 8. Representation Learning as Manifold Learning
• 9. Connections between Probabilistic and Direct
Encoding Models
• 10. Global Training of Deep Models
• 11. Building-in Invariance
• 12. Conclusion
20
22. 10. Global Training of Deep Models
On the Challenge of Training Deep Architecture
• 今までは単層の学習器の話をしてきたが、それを多層でやる場合の話
• Convolutional network [LeCun et al. 1998b]
• Layerwise(層ごとの(?))学習
• 単層モデルを積み上げていくことの優位性を得られる
• 「なぜ layerwise unspervised pre-training procedure は教師あり学習を手助けするのか」[Erhan et al.
2010b]
• 1 度にすべての表現を学習するのではなく、中間表現(intermediate representation)を訓練する、という原理
• 簡単な概念を最初に学習し、そこから上位の概念を学習する[Bengio et al. 2009]
• Semi-Supervised Embedding [Weston et al. 2008]
• 正規化効果
• 入力の摂動に関する変化に対して鈍感になる
• 要らない特徴量を取り除くことができる
• Stacked RBM や DAE がニューラルネットワークによる分類器の最初の層に使われることがある
• 最適化効果
• ニューラルネットワークの上位 2 層は、訓練データに対してフィットする
21
23. 10. Global Training of Deep Models
Deep Boltzmann Machine
• ボルツマンマシンの一種
• RBM を多段に重ねたような形
ノード値 バイアス
中間層II (2) 𝑑(2)
𝑉
中間層I (1) 𝑑(1)
𝑊
入力層 𝑥 𝑏
エネルギー関数
22
24. 10. Global Training of Deep Models
Deep Boltzmann Machine: Mean-field approximate inference
• 平均場近似+変分推論によるパラメータ最適化
• 変分推論 log P の下限 元の分布との距離
log 𝑃 𝑣 = ℒ 𝑄 𝑣 + 𝐾𝐿(𝑃||𝑄 𝑣 )
平均場近似
• 以下の式でパラメータ最適化できる(らしい)
23
25. 10. Global Training of Deep Models
Deep Boltzmann Machine: Training Deep Boltzmann Machine
• Stochastic Maximum Likelihood (SML)というのを使うらしい
• 基本的には山登り法(stochastic gradient ascent)で、尤度が増える方向にパラメータを更新していく
これを計算したい “positive phase”
“negative phase”
前頁参照
[Hinton 2000] 読めとのことです
24
26. ADGENDA
• 7. Direct Encoding: Learning a Parametric Map from
Input to Representation
• 8. Representation Learning as Manifold Learning
• 9. Connections between Probabilistic and Direct
Encoding Models
• 10. Global Training of Deep Models
• 11. Building-in Invariance
• 12. Conclusion
25
27. 11. Built-in Invariance
Summary
• 11.1 Augmenting the dataset with known input deformations
• 表現力の高いデータを訓練データとすることで、パフォーマンスを上げられる
• 入力データのパターンの自動生成[Baird 1990]
• 数字データに対するアフィン変換、回転[Simard et al. 2003]
• 最近は GPU を使ったアプローチがある[Ciresan et al. 2010]
• 11.2 Convolution and pooling
• 入力データのトポロジー構造を使う
• 画像データの 2 次元構造、動画データの 3 次元構造
• Local receptive fields [Hubel and Wiesel 1959]
• Convolutional networks [Lecun et al. 2989]
• 11.3 Temporal coherence and show features
• 動画データに対する特徴抽出に用いられる[Becker and Hinon 1993]
• 時刻 t と時刻 t+1 の特徴量の間の偏差を取り、ペナルティを与える
• 経時変化の尐ない特徴量が得られる
• 11.4 Algorithms to disentangle factors of variation
• 抽出したいものに対して不変な特徴量を選ぶにはどうしたらよいか
• 例)人物の映った動画: 被験者の同一性、行った行動、カメラに対する姿勢
• 最初に低レベルの特徴量を抽出し、そこから高いレベルの特徴量を抽出する方法[Fukushima 1980]
• Transforming auto-encoder [Hinton et al. 2011]
26
28. ADGENDA
• 7. Direct Encoding: Learning a Parametric Map from
Input to Representation
• 8. Representation Learning as Manifold Learning
• 9. Connections between Probabilistic and Direct
Encoding Models
• 10. Global Training of Deep Models
• 11. Building-in Invariance
• 12. Conclusion
27
29. 12. Conclusion
Conclusion
• 本論文がカバーした、representation learning と deep learning に関する技術
• (a) 確率モデル: sparse conding、Boltzmann machine
• (b) 再構築ベースモデル: auto-encorders
• (c) 多様体学習
• 今後の課題など
• Practical concerns and guidelines
• 人工ニューラルネットワークや deep learning の課題は、超パラメータや変数の数が多
く、その調整が人間の勘に委ねられている点
• “Tricks of the Trade” [Orr and Muller 1998]
• Incorporating generic AI-level priors
• Prior のリストを増やしたり修正したりし、どれか一つにフォーカスするのではなく、それ
ぞれの関係を考慮するべき(???)
28