勝手に要約
DOMAIN ADAPTATION
FOR OBJECT RECOGNITION:
AN UNSUPERVISED APPROACH
Raghuraman Gopalan, Ruonan Li, and Rama
Chellappa, ICCV2011
要約者紹介
 尾崎安範
 所属:東京大学大学院情報理工学系研究科
修士2年
 佐藤洋一研究室
 Twitter:@alfredplpl
 特徴統合による属性認識を研究していました
 今は視線関係やってます
!事前の注意!
 最近の数学を用いているため、
手法を細かく理解することは困難です。
 手法を十分に理解したい人は他の論文を
読んでくださいみたいなことが本文に。
 概念だけ理解してほしいと願っています。
 転移学習に興味を持っていただければ幸いです。
一般物体認識
 与えられた画像がどんな種類のものであるかを
答えてくれる処理
 例:ケータイの画像をコンピュータに与えると
ケータイであると答えてくれる
 Google+やPicasa Webの画像の自動タグ付けに
使用されている*
画像は[1]より引用
ケータイだ!
*http://derivecv.tumblr.com/post/53021563144
背景
 すべての種類の物体を画像から識別するのは
困難
 認識すべきカテゴリは莫大(例:いぬ、ねこ、・・・)
 学習用データにラベルをつけるのは人手では大変
 新しいモノにラベルをつけるのも大変
 今までの知識(ラベルなど)を未知のものに使う
 ドメイン適応という新しいアイデアを使う
ドメイン適応(domain adaptation)
 ドメイン適応
 ある分野の知識(サンプルのラベルや生起分布)を別の
分野で使う手法
 日本では転移学習の一種という言い方が一般的(?)
 ドメイン(定義域)
 ある分野のデータ集合全体のこと
 例:日本語、英語
 知識を持っているドメインを元ドメイン(source domain)、
知識を持っていないドメインを目標ドメイン(target domain)
という
日本語 英語
ねこ いぬ cat dog
知識
ドメイン適応の区分
 教師なし(unsupervised)ドメイン適応
 元ドメイン:ラベルあり、目標ドメイン:ラベルなし
 半教師あり(semi-supervised)ドメイン適応
 元ドメイン:ラベルあり、目標ドメイン:ラベルあり(少
量)
ドメイン適応の実験例
 検索に使ってみたらしい
クエリ画像 検索結果(クエリ画像とは別のドメイン)
順位低
[1]より引用
従来研究
 自然言語処理ではコーパスを再利用するのに使
われている
 画像に対するものはまだ発達途中
 半教師ありドメイン適応はいろいろある
 各ドメインの共通要素から調べるなど
 教師なしドメイン適応はほとんどない
 そのため、半教師ありドメイン適応と比較
 自然言語処理ではクラスタリングなどを使うらしい
今回のドメイン適応の説明する前に
 グラスマン多様体
 N次元ベクトル空間のd次元部分ベクトル空間すべて
を包括する集合
 と表現
 今回の場合Nは特徴量の次元、dは実験ごとで適当に決
められる
 射影の仕方によるので部分空間は無限に存在する
 要素(部分空間)を座標として扱えば、集合(グラスマ
ン多様体)は空間として取り扱うことができる
dNG ,
グラスマン多様体
今回のドメイン適応の簡単な説明
 おおまかな方針
 グラスマン多様体へ元ドメイン・目標ドメインのデータ
を、途中の空間を利用して認識する
ラベル付き
元ドメイン(X)
ラベルなし
目標ドメイン(X~)
グラスマン多様体
1S
2S
)'(t経路
今回のドメイン適応の実現方法
 元ドメイン、目標ドメインのデータをグラスマン多
様体に落としこむ(点S1,点S2)
 S1からS2まで単位時間で移動する「グラスマン多
様体上の速度」と経路を求める
 経路上にある部分空間を1こずつ求める
 求めた部分空間へデータを射影し、それらをくっ
つけ特徴ベクトルを作成
 識別器を学習
グラスマン多様体に落としこむ方法
 グラスマン多様体 に落としこむ
 元ドメインXのデータに対して、主成分分析(PCA)を
かけ、主成分を得る
 第1主成分から第d主成分まで行列の形に並べる
 この行列(部分空間)が点S1
 同様に目標ドメインX~の点S2も作る
ラベル付き
元ドメイン(X)
ラベルなし
目標ドメイン(X~)
グラスマン多様体
dNG ,
1S
2S
ドメイン適応のアルゴリズム(1)
 一定の速度Aの求め方
 S1を始点としてS2を終点とする経路を考える
 S1のorthogonal completion(直訳:直交完全)であるQを計
算して求める
 Qは以下の条件を満たさなければならない
 に対し、薄型CS分解(行列をcosとsinの対角行列Γ、Σ
に分解する処理)を行い、以下を得る
 以上で得られた、Σの対角成分σiから を求め、
のようにまとめる
 V1、V2~をつかい、 を計算
 Ndiag  ,,, 21 
2SQT
)(sin 1
ii  

Id: d×dの単位行列
ドメイン適応のアルゴリズム(2)
 経路上にある部分空間の導出
 Aを特異値分解し、
 Θの対角成分をθiとおくと、以下のように定義される
 ここから経路にt’∊[0,1]を代入し、点をN’コ求める
 N’コの点がN’コの部分空間となる
   )'cos(,),'cos(),'cos(' 21 tttdiagt N 
   )'sin(,),'sin(),'sin(' 21 tttdiagt N 
識別器の学習
 得られたN’コの部分空間それぞれに元ドメインの
ラベルありデータを射影する
 1つのデータの特徴ベクトルは、得られた射影結果(d
次元)をN’コ並べて、 dN’×1の行列を作成
 射影結果すべてを一つの行列にし、SVMなどのよ
うな識別器を学習させる
 今回使った識別器:最近傍法
 次元削減:PLS (部分最小二乗)回帰
 認識させる時も射影してから認識させる
今回のドメイン適応の拡張
 半教師ありにする場合
 学習用データに目標ドメインのデータを混ぜる
 元ドメインや目標ドメインを複数にする場合
 元ドメインの点S1、 S2・・・の平均S1-をKarcher mean
という方法で計算する
 同様に目標ドメインの点の平均S2-を出す
 S1-とS2-を使い、今までと同様にドメイン適応する
実験1 Metric Leaningとの比較
 Metric Leaning[3](半教師ありドメイン適応)と比較
 データセット
 31カテゴリ
 ドメイン
 webcam:ウェブカメラで撮った画像
 dslr:デジタル一眼レフで撮った画像
 amazon: amazon.comからダウンロードした画像
 実験条件
 元ドメインのラベル付きデータ:8枚/カテゴリ 目標ドメインの:3枚/カテゴリ
 元ドメインは全カテゴリ、目標ドメインは前半のカテゴリを学習。残りの半分のカテゴリをテ
ストに使う。
 特徴量
 ほぼBag-of-Features
 ドメイン(amazon)からランダムに画像を選ぶとこが違う
 コードブックのサイズ:800
 経路上の部分空間:8コ
 グラスマン多様体 はN=800。dは実験ごとで違う
dNG ,
[3] Kate Saenko, Brian Kulis, Mario Fritz and Trevor Darrel. Adapting Visual Category Models to
New Domains, ECCV2010
実験結果1 Metric Leaningとの比較
 半教師ありでは全体的に上回っている
[1]より引用
(目標ドメインの前半16カテゴリをラ
ベルあり、その他をラベルなしとして
取り扱う)
(全部のカテゴリを少しずつ使う)
実験結果1 複数ドメイン
 複数のドメインでドメイン適応
 元ドメインのラベル付きデータ:8枚/カテゴリ 目標ドメインの:3枚/
カテゴリ
[1]より引用
実験結果1 Metric Leaningとの比較
 検索に使ってみたらしい
クエリ画像 検索結果
順位低
[1]より引用
amazon→dslr
目標ドメイン→元
dslr→webcam
webcam→dslr
amazon→webcam
webcam→amazon
実験2 Semi-supervised SVMとの比較
 一番性能がいい時のSemi-supervised SVM[4]と比較
 特徴量
 2625次元ベクトル(意味的な属性2625コがあるかないか)
 データセット
 amazon、dslr、 webcam、 Bingの画像検索結果、Caltech256
 比較項目
 元ドメインのデータ数
 目標ドメインのデータ数(ラベルあり)
 比較しない項目
 学習に使う部分空間の数
[4] Alessandro Bergamo Lorenzo Torresan . Exploiting weakly-labeled Web images to improve
object classification: a domain adaptation approach , nips2010
実験結果2 Semi-supervised SVM
 Semi-supervised SVMとの比較
 部分空間の数の性能差
[1]より引用
ここが教師なし
部分空間の数を大きくしすぎても
ダメらしい
最後に
 ドメイン適応
 ある分野の知識(サンプルのラベルや生起分布)を
別の分野で使う手法
 日本では転移学習の一種(トランスダクティブ転移学
習)という言い方が一般的(?)
日本語 英語
ねこ いぬ cat dog
知識
参考文献
[1] Raghuraman Gopalan, Ruonan Li, and Rama Chellappa.
Domain Adaptation for Object Recognition: An Unsupervised
Approach, ICCV2011
[2] Kyle Gallivan , Anuj Srivastava , Xiuwen Liu , Paul Van
Dooren . Efficient Algorithms For Inferences On Grassmann
Manifolds,SSP2003
[3] Kate Saenko, Brian Kulis, Mario Fritz and Trevor Darrel.
Adapting Visual Category Models to New Domains,
ECCV2010
[4] Alessandro Bergamo Lorenzo Torresan . Exploiting weakly-
labeled Web images to improve
object classification: a domain adaptation approach ,
nips2010

Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised Approach