More Related Content Similar to Cvpr2011 reading-tsubosaka (20) Cvpr2011 reading-tsubosaka2. 紹介する論文
Hierarchical Semantic Indexing for Large Scale Image
Retrieval
Jia Deng, Alexander C. Berg and Li Fei-Fei
ImageNet (http://www.image-net.org/) プロジェクトのメンバ
論文の概要
類似画像検索において、直接画像の類似度を計算するので
はなく、一旦カテゴリに変換することにより精度を高くすること
ができる
3. 発表の内容
既存の画像の類似度計算の手法と提案手法について
カテゴリによる特徴量表現
類似度検索のためのハッシュ法
実験
まとめ
4. 類似画像検索
クエリ画像
類
特
似
徴
度
抽
計
出
算
DB画像
紹介する論文では類似度計算の部分に焦点をあてる
5. 類似度計算
2つの画像から得られる特徴ベクトルを������, ������ ∈ ������������ とすると
2つの画像の類似度はナイーブには内積計算によって行
える
������������������ ������, ������ = ������ ������ ������
しかし
かならずしもすべての特徴ベクトルの要素が類似性に効いて
くるとは限らない
特徴ベクトルの要素間の関係が無視されている
6. 類似度計算 (Learning-to-rank アプローチ)
現在の類似度計算のstate-of-the-artな方法として
OASIS (Online Algorithm for Scalable Image Similarity)
がある (Gal Checchik+, JMLR 2010)
2つの画像の類似度を行列������を使って
������������������ ������, ������ = ������ ������ ������������ とあらわす
行列������は画像������に対して画像������が画像������よりも類似してい
るという教師データを使って
������������������ ������, ������ > ������������������ ������, ������ + 1
となるように学習する
類似しているという情報は主に画像にアノテーションされ
ているカテゴリ情報を使う
7. 類似度計算 (Semantic アプローチ)
画像を一旦与えられたカテゴリ体系の下でカテゴライズ
を行い、その上で類似度を計算する
類似度行列は”馬”カテゴリと”ロバ”カテゴリの類似度
が”馬”カテゴリと”キーボード”カテゴリの類似度よりも高
いといった事前情報から構成する
特徴量空間だけで考えているとvisual word 1とvisual
word 2の類似度が0.4というような結果は機械学習的手
法に頼らざる得なかったが、一度カテゴリに落とすことに
より人間の事前知識を類似度に使うことができる
紹介論文ではこのアプローチを提案している
8. Semantic情報を使った検索の例
Semantic情報を使わない場合、クエリと意味的に無関係
なものが上位にでることがある
Semantic情報を使った場合、
形状が類似してなくても意味的
に類似した画像がとれる
紹介論文Figure 1より
11. 発表の内容
既存の画像の類似度計算の手法と提案手法について
カテゴリによる特徴量表現
類似度検索のためのハッシュ法
実験
まとめ
12. タクソノミー
平たくいうとカテゴリ体系が階層構造をなしているもの
ex: /Sport,atheltics/Skating/Roller, /Sport,atheltics/racing
from http://www.image-net.org/
13. タクソノミー上のカテゴリの近さ
カテゴリ������とカテゴリ������の近さを最小共通先祖(least common
ancestor) ������(������, ������)によって決める
すなわち������ ������, ������ = ������(������ ������, ������ )
最小共通先祖とは������と������の共通の親で高さ最少のもの
/Sport/Skating/Rollerと/Sport/racingでは/Sport
/Sport/Skating/Rollerと/Sport/Skating/Iceでは/Sport/Skating
������の定義はいくつか考えられるが、実験ではタクソノミーの高さか
ら決める方法を採用
高さはその下にあるリーフノードからの最長路と定義する
������ ������ = 1 − ������(������)/������∗ (������∗ はrootノードの高さ, ILSVRCデータセット
においては19)
これはILSVRCの評価方法と同じである
カテゴリはすべてリーフノードにあることが前提のよう
14. 高さ 2
高さ 1 高さ 0
高さ 0 高さ 0
15. 画像のカテゴリによる特徴量表現
いまカテゴリの数を������とする
画像������が与えられたとき画像を������ ������ ������ = ������ ∈ ������������ と変換
する
ここで������������ は画像������がカテゴリ������に所属する確率を表す
/animal/bird/turkey 85%
/animal/mammal 45%
...
/structure/foutain 3%
...
16. カテゴリへの分類
各カテゴリごとに1-vs-allな分類器をlinear SVM(論文の
実験ではLIBLINEARを使っている)を使って構成する
分類器の出力は確率を表すようにシグモイド関数を使っ
て[0,1]に変換する (Platt, In Advances in Large Margin
Classifiers, 2000)
この処理は各カテゴリごとに容易に並列化可能
17. 発表の内容
既存の画像の類似度計算の手法と提案手法について
カテゴリによる特徴量表現
類似度検索のためのハッシュ法
実験
まとめ
18. 類似度検索
クエリ画像������に対して、DB画像中の画像������の中で類似度
������ ������ ������������が大きいものを取り出す必要がある
������が対角でない場合、通常の転置インデックスによる方
法は非効率となる
例えば������の1次元目の成分が非ゼロのとき、������の1次元目だけ
ではなく������1������ が非ゼロな次元についても考慮する必要があるた
め
論文では������が特殊な条件を満たすときに使えるLSHベー
スの方法を提案した
������の要素が非負かつ対角要素が相対的に大きい場合
������が前述の階層構造を考慮した類似度で構成されてる場合
19. Hashable
以下の議論では������, ������が������ − 1次元単体ΔK−1 上にあること
を仮定する
������ ∈ Δ������−1 ≝ ������ ∈ ������������ , ������ ������������ = 1, 0 ≤ ������������ ≤ 1
なお後で ������ ������������ = 1の部分はなくすことができる
行列������ ∈ ������������×������ がhashableであるとは (Definition 1.2)
∃������������ > 0, ∀������ > 0 に対してハッシュ関数の族 ������ が存在して、
任意の������, ������ ∈ Δ������−1 に対して
0 ≤ ������ ������1 ������; ������, ������ = ������2 ������; ������, ������ − ������������ ������ ������ ������ ������ ≤ ������
であることをいう(������1 , ������2 は������からの独立なサンプル)
実質的には������ ������1 ������ = ������2 ������ = ������������������(������, ������)
20. Hashableの性質
線形性
������1 , ������2 がHashableであれば������1 + ������2 もHashable (Lemma 1.11)
������がHashableであれば������������ (������ > 0)もHashable (Lemma 1.10)
すべての要素が1の行列はHashable (Lemma 1.6)
������がHashableのとき、Sのzero padded extensionである������
もHashable (Lemma 1.9)
zero padded extentionとはSの要素の行及び列の置換におけ
る同一性を除いて順序を替えずに拡大後の要素を0で埋めた
物 (Definition 1.7)
ex:
������ 0 ������
������ ������
→ 0 0 0
������ ������
������ 0 ������
21. ������1 + ������2 がHashableであることの証明
������1 , ������2 がHashableであれば������ = ������1 + ������2 もHashable
1 1 1 1
今z = + , ������������ = とする
������������1 ������������2 ������ ������
������������
ハッシュ関数������(������; ������, ������)を次のように構成する
Sample ������ ∈ 1,2 ∼ ������������������������������(������)
������
return (������, ������������ (������; ������������ , ))
2
実際
2 ������ 2 ������
������ ������ ������; ������, ������ = ������ ������; ������, ������ ≤ ������1 ������������1 ������ ������ ������1 ������ + + ������2 (������������2 ������ ������ ������2 ������ + )
2 2
1 ������ 2 2
������(������1 +������2 )
= ������ ������������ +
������ 2 2
1 ������
≤ ������ ������������ + ������
������ 2
22. Sの対角成分が大きいとき(1/2)
������が対称行列かつ非負で������������������ ≥ ������≠������ ������������������ のとき������はHashable
(Lemma 1.4)
������ × (������ + 1)行列Θの要素を以下のように定義する
ここで������ = ������������ ⋅ ������で������������ は������������,������+1 ≥ 0となるように定める
23. Sの対角成分が大きいとき(2/2)
������ ≥ 1/������なるNを一つ選ぶ
ハッシュ関数������(������; ������, ������)を次のように構成する
Sample ������ ∈ 1, … , ������ ∼ ������������������������������(������)
Sample ������ ∈ 1, … , ������ + 1 ∼ ������������������������������(������������ )
If ������ ≤ ������ , return *������, ������+
else pick ������ from ������, … , ������ + ������ , return *������+
特にSが単位行列の場合は������������������������������(������)に従って
������ ∈ 1, … , ������ をサンプリングするだけでよい
24. ������に階層性がある場合
与えられたrooted-tree G=(V,E)に対して、リーフノード集
合Ω������ のノードi,j間の類似度がそのLCAの関数
������������������ = ������(������������������ )となっており、������が
������ ������ ≥ 0
ノードqがノードpの子供の場合������ ������ ≥ ������(������)
を満たすような関数であればSはHashable
25. Generally hashable
Hashableの定義で ������, ������が������ − 1次元単体上になく、
������ ∈ ������������ , 0 ≤ ������������ ≤ 1を満たすというように条件を緩めたと
きGenerally hashableという (Definition 1.14)
そして次が成り立つ
������がHashableであればGenerally hashable (Lemma 1.15)
26. 証明に関して
なおこれらの証明はすべてSupplementary Materialに
のっている
http://vision.stanford.edu/documents/DengBergFei-
Fei_CVPR2011_supp.pdf
27. 発表の内容
既存の画像の類似度計算の手法と提案手法について
カテゴリによる特徴量表現
類似度検索のためのハッシュ法
実験
まとめ
28. 実験データ
Caltech256とImageNetのsubsetであるILSVRCを利用
Caltech256は既存の類似度学習手法との比較のために用い
ILSVRCは大規模なデータによる性能を見るために用いる
またILSVRCに関しては公開されているSIFTベースの
1000種類のVisual word codebookからthree level SPMに
より21000次元の特徴量を作成
この特徴量を使ってLIBLINEARで各カテゴリごとの識別器を
作成する
Caltech 256についてはOASISの論文で利用されている
特徴量を利用
29. ベースライン手法
SPM: 生の特徴量をそのまま利用
Hard-Assign: クエリを単一のクラスにカテゴライズして、
DB画像の内そのクラスの確率が高い順にソート
Cosine-Nocal: 分類器の出力をそのまま使い、コサイン
類似度を計算
Cosine-Flat: Cosine-Nocalと同じだが、出力が[0,1]にお
さまるように補正
Cosine-Hie: 類似度行列に階層性を使ったものを利用す
るがDB画像のノルムが1になるように規格化
B-Flat: 類似度行列に対角行列を採用
30. 実験結果
ILSVRCデータセットにおけるprecision-rank
31. 実験結果から読み取れること
1. SPMの精度が低い-> カテゴリ情報を使うことが重要
2. B-Flatの方がHard-Assignよりも良い->確率的表現が
効いている
3. Cosine-NoCalの精度が低い->分類器のスケールを合
わせることが重要
4. コサイン類似度を使った結果はあまり良くない
5. B-HieとB-Flatの結果を比較->階層構造を使うことが
重要
33. 未知のカテゴリが存在する場合
ILSVRCの1000カテゴリのうち、100カテゴリを選択
それのみで識別器を構成した場合(seen in training)
残り900カテゴリのみで識別器を構成(unseen in training)
評価は100カテゴリのみで行う
unseenでもSPMよりよかったといってるけどtop-10ぐらいが一番重要で
は?
34. Indexing efficiency
[Charikar, STOC, 2003]のコサイン類似度が近いものを求め
るRandom Hyperplane LSHと比較
比較を公正にするためflat retrievalなものだけ考える
論文中では階層性を使ったハッシュ法については実験してない
そもそもB-FlatとCosine-Flatの性能が違うから比較がfairじゃない?
linear scan(B-Flat)
linear scan(Cosine-Flat)
35. 発表の内容
既存の画像の類似度計算の手法と提案手法について
カテゴリによる特徴量表現
類似度検索のためのハッシュ法
実験
まとめ
36. まとめ
類似画像検索に事前知識である階層性を使うことにより
精度を高めることができた
また階層性を使った類似検索においてハッシングを使っ
た高速な検索方法について述べた
37. 感想
retrievalの評価にカテゴリ情報を使っているので、カテゴリ
に一旦落とすと性能が高くなるというのは当然な気がする
人手による評価などが必要な気がする
ソーシャルタギングと合わせて何かできそう
商用的なことを考えると大量の人手でのタグ付けでもコスト
的に釣り合うかも
cf: A Semantic Approach to Contextual Advertising (SIGIR 2007)
表示ページから類似した広告を検索
ページと広告の両方を商業用にメンテナンスされている6000カテ
ゴリ(各カテゴリには平均で100個のクエリが登録されている)のタ
クソノミーにマッピング