Cvpr2011 reading-tsubosaka

第14回コンピュータビジョン勉強会
発表資料
tsubosaka

紹介する論文
 Hierarchical Semantic Indexing for Large Scale Image
Retrieval
 Jia Deng, Alexander C. Berg and Li Fei-Fei
 ImageNet (http://www.image-net.org/) プロジェクトのメンバ
 論文の概要
 類似画像検索において、直接画像の類似度を計算するので
はなく、一旦カテゴリに変換することにより精度を高くすること
ができる

発表の内容
 既存の画像の類似度計算の手法と提案手法について
 カテゴリによる特徴量表現
 類似度検索のためのハッシュ法
 実験
 まとめ

類似画像検索
クエリ画像
類
特
似
徴
度
抽
計
出
算
DB画像

 紹介する論文では類似度計算の部分に焦点をあてる

類似度計算
 2つの画像から得られる特徴ベクトルを��, �� ∈ �� とすると
2つの画像の類似度はナイーブには内積計算によって行
える
 �� , �� = ��
 しかし
 かならずしもすべての特徴ベクトルの要素が類似性に効いて
くるとは限らない
 特徴ベクトルの要素間の関係が無視されている

類似度計算 (Learning-to-rank アプローチ)
 現在の類似度計算のstate-of-the-artな方法として
OASIS (Online Algorithm for Scalable Image Similarity)
がある (Gal Checchik+, JMLR 2010)
 2つの画像の類似度を行列��を使って
 �� , �� = �� とあらわす
 行列��は画像��に対して画像��が画像��よりも類似してい
るという教師データを使って
 �� , �� > �� , �� + 1
 となるように学習する
 類似しているという情報は主に画像にアノテーションされ
ているカテゴリ情報を使う

類似度計算 (Semantic アプローチ)
 画像を一旦与えられたカテゴリ体系の下でカテゴライズ
を行い、その上で類似度を計算する
 類似度行列は”馬”カテゴリと”ロバ”カテゴリの類似度
が”馬”カテゴリと”キーボード”カテゴリの類似度よりも高
いといった事前情報から構成する
 特徴量空間だけで考えているとvisual word 1とvisual
word 2の類似度が0.4というような結果は機械学習的手
法に頼らざる得なかったが、一度カテゴリに落とすことに
より人間の事前知識を類似度に使うことができる
 紹介論文ではこのアプローチを提案している

Semantic情報を使った検索の例
Semantic情報を使わない場合、クエリと意味的に無関係
なものが上位にでることがある

Semantic情報を使った場合、
形状が類似してなくても意味的
に類似した画像がとれる

紹介論文Figure 1より

Semantic情報を使ってできるかもしれないこと
 与えられたテキストをSemanticなカテゴリにマッピングす
ることにより、テキストを使った類似画像検索が可能にな
る

夢は広がる

Corpus-Guided Sentence Generation of Natural Images,
EMNLP 2011より

タクソノミー
 平たくいうとカテゴリ体系が階層構造をなしているもの
 ex: /Sport,atheltics/Skating/Roller, /Sport,atheltics/racing

from http://www.image-net.org/

タクソノミー上のカテゴリの近さ
 カテゴリ��とカテゴリ��の近さを最小共通先祖(least common
ancestor) ��(��, ��)によって決める
 すなわち�� , �� = ��(�� , �� )
 最小共通先祖とは��と��の共通の親で高さ最少のもの
 /Sport/Skating/Rollerと/Sport/racingでは/Sport
 /Sport/Skating/Rollerと/Sport/Skating/Iceでは/Sport/Skating
 ��の定義はいくつか考えられるが、実験ではタクソノミーの高さか
ら決める方法を採用
 高さはその下にあるリーフノードからの最長路と定義する
 �� = 1 − ��(��)/��∗ (��∗ はrootノードの高さ, ILSVRCデータセット
においては19)
 これはILSVRCの評価方法と同じである
 カテゴリはすべてリーフノードにあることが前提のよう

高さ 2

高さ 1 高さ 0

高さ 0 高さ 0

画像のカテゴリによる特徴量表現
 いまカテゴリの数を��とする
 画像��が与えられたとき画像を�� = �� ∈ �� と変換
する
 ここで�� は画像��がカテゴリ��に所属する確率を表す

/animal/bird/turkey 85%
/animal/mammal 45%
...
/structure/foutain 3%
...

カテゴリへの分類
 各カテゴリごとに1-vs-allな分類器をlinear SVM(論文の
実験ではLIBLINEARを使っている)を使って構成する
 分類器の出力は確率を表すようにシグモイド関数を使っ
て[0,1]に変換する (Platt, In Advances in Large Margin
Classifiers, 2000)
 この処理は各カテゴリごとに容易に並列化可能

類似度検索
 クエリ画像��に対して、DB画像中の画像��の中で類似度
�� が大きいものを取り出す必要がある
 ��が対角でない場合、通常の転置インデックスによる方
法は非効率となる
 例えば��の1次元目の成分が非ゼロのとき、��の1次元目だけ
ではなく��1�� が非ゼロな次元についても考慮する必要があるた
め
 論文では��が特殊な条件を満たすときに使えるLSHベー
スの方法を提案した
 ��の要素が非負かつ対角要素が相対的に大きい場合
 ��が前述の階層構造を考慮した類似度で構成されてる場合

Hashable
 以下の議論では��, ��が�� − 1次元単体ΔK−1 上にあること
を仮定する
 �� ∈ Δ��−1 ≝ �� ∈ �� , �� = 1, 0 ≤ �� ≤ 1
 なお後で �� = 1の部分はなくすことができる
 行列�� ∈ ��×�� がhashableであるとは (Definition 1.2)
 ∃�� > 0, ∀�� > 0 に対してハッシュ関数の族 �� が存在して、
任意の��, �� ∈ Δ��−1 に対して
 0 ≤ �� 1 ��; ��, �� = ��2 ��; ��, �� − �� ≤ ��
 であることをいう(��1 , ��2 は��からの独立なサンプル)
 実質的には�� 1 �� = ��2 �� = ��(��, ��)

Hashableの性質
 線形性
 ��1 , ��2 がHashableであれば��1 + ��2 もHashable (Lemma 1.11)
 ��がHashableであれば�� (�� > 0)もHashable (Lemma 1.10)
 すべての要素が1の行列はHashable (Lemma 1.6)
 ��がHashableのとき、Sのzero padded extensionである��
もHashable (Lemma 1.9)
 zero padded extentionとはSの要素の行及び列の置換におけ
る同一性を除いて順序を替えずに拡大後の要素を0で埋めた
物 (Definition 1.7)
ex:
�� 0 ��
��
→ 0 0 0
��
�� 0 ��

��1 + ��2 がHashableであることの証明
 ��1 , ��2 がHashableであれば�� = ��1 + ��2 もHashable
1 1 1 1
 今z = + , �� = とする
��1 ��2 ��
��

 ハッシュ関数��(��; ��, ��)を次のように構成する
 Sample �� ∈ 1,2 ∼ ��(��)
��
 return (��, �� (��; �� , ))
2
 実際
2 �� 2 ��
 �� ; ��, �� = �� ; ��, �� ≤ ��1 ��1 �� 1 �� + + ��2 (��2 �� 2 �� + )
2 2
1 �� 2 2
��(��1 +��2 )
 = �� +
�� 2 2
1 ��
 ≤ �� + ��
�� 2

Sの対角成分が大きいとき(1/2)
 ��が対称行列かつ非負で�� ≥ ��≠�� のとき��はHashable
(Lemma 1.4)
 �� × (�� + 1)行列Θの要素を以下のように定義する

 ここで�� = �� ⋅ ��で�� は��,��+1 ≥ 0となるように定める

Sの対角成分が大きいとき(2/2)
 �� ≥ 1/��なるNを一つ選ぶ
 ハッシュ関数��(��; ��, ��)を次のように構成する
 Sample �� ∈ 1, … , �� ∼ ��(��)
 Sample �� ∈ 1, … , �� + 1 ∼ ��(�� )
 If �� ≤ �� , return *��, ��+
 else pick �� from ��, … , �� + �� , return *��+
 特にSが単位行列の場合は��(��)に従って
�� ∈ 1, … , �� をサンプリングするだけでよい

��に階層性がある場合
 与えられたrooted-tree G=(V,E)に対して、リーフノード集
合Ω�� のノードi,j間の類似度がそのLCAの関数
�� = ��(�� )となっており、��が
 �� ≥ 0
 ノードqがノードpの子供の場合�� ≥ ��(��)
 を満たすような関数であればSはHashable

Generally hashable
 Hashableの定義で ��, ��が�� − 1次元単体上になく、
�� ∈ �� , 0 ≤ �� ≤ 1を満たすというように条件を緩めたと
きGenerally hashableという (Definition 1.14)
 そして次が成り立つ
 ��がHashableであればGenerally hashable (Lemma 1.15)

証明に関して
 なおこれらの証明はすべてSupplementary Materialに
のっている
 http://vision.stanford.edu/documents/DengBergFei-
Fei_CVPR2011_supp.pdf

実験データ
 Caltech256とImageNetのsubsetであるILSVRCを利用
 Caltech256は既存の類似度学習手法との比較のために用い
 ILSVRCは大規模なデータによる性能を見るために用いる
 またILSVRCに関しては公開されているSIFTベースの
1000種類のVisual word codebookからthree level SPMに
より21000次元の特徴量を作成
 この特徴量を使ってLIBLINEARで各カテゴリごとの識別器を
作成する
 Caltech 256についてはOASISの論文で利用されている
特徴量を利用

ベースライン手法
 SPM: 生の特徴量をそのまま利用
 Hard-Assign: クエリを単一のクラスにカテゴライズして、
DB画像の内そのクラスの確率が高い順にソート
 Cosine-Nocal: 分類器の出力をそのまま使い、コサイン
類似度を計算
 Cosine-Flat: Cosine-Nocalと同じだが、出力が[0,1]にお
さまるように補正
 Cosine-Hie: 類似度行列に階層性を使ったものを利用す
るがDB画像のノルムが1になるように規格化
 B-Flat: 類似度行列に対角行列を採用

実験結果
 ILSVRCデータセットにおけるprecision-rank

実験結果から読み取れること
1. SPMの精度が低い-> カテゴリ情報を使うことが重要
2. B-Flatの方がHard-Assignよりも良い->確率的表現が
効いている
3. Cosine-NoCalの精度が低い->分類器のスケールを合
わせることが重要
4. コサイン類似度を使った結果はあまり良くない
5. B-HieとB-Flatの結果を比較->階層構造を使うことが
重要

他手法との比較
 OASISよりも提案手法の方が高い性能になっている

未知のカテゴリが存在する場合
 ILSVRCの1000カテゴリのうち、100カテゴリを選択
 それのみで識別器を構成した場合(seen in training)
 残り900カテゴリのみで識別器を構成(unseen in training)
 評価は100カテゴリのみで行う
 unseenでもSPMよりよかったといってるけどtop-10ぐらいが一番重要で
は？

Indexing efficiency
 [Charikar, STOC, 2003]のコサイン類似度が近いものを求め
るRandom Hyperplane LSHと比較
 比較を公正にするためflat retrievalなものだけ考える
 論文中では階層性を使ったハッシュ法については実験してない
 そもそもB-FlatとCosine-Flatの性能が違うから比較がfairじゃない?
linear scan(B-Flat)

linear scan(Cosine-Flat)

まとめ
 類似画像検索に事前知識である階層性を使うことにより
精度を高めることができた
 また階層性を使った類似検索においてハッシングを使っ
た高速な検索方法について述べた

感想
 retrievalの評価にカテゴリ情報を使っているので、カテゴリ
に一旦落とすと性能が高くなるというのは当然な気がする
 人手による評価などが必要な気がする
 ソーシャルタギングと合わせて何かできそう
 商用的なことを考えると大量の人手でのタグ付けでもコスト
的に釣り合うかも
 cf: A Semantic Approach to Contextual Advertising (SIGIR 2007)
 表示ページから類似した広告を検索
 ページと広告の両方を商業用にメンテナンスされている6000カテ
ゴリ(各カテゴリには平均で100個のクエリが登録されている)のタ
クソノミーにマッピング

Cvpr2011 reading-tsubosaka

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Cvpr2011 reading-tsubosaka

Similar to Cvpr2011 reading-tsubosaka (20)

More from 正志坪坂

More from 正志坪坂 (20)