Cvpr2011 reading-tsubosaka

  • 1,831 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,831
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
50
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 第14回コンピュータビジョン勉強会 発表資料 tsubosaka
  • 2. 紹介する論文 Hierarchical Semantic Indexing for Large Scale Image Retrieval  Jia Deng, Alexander C. Berg and Li Fei-Fei  ImageNet (http://www.image-net.org/) プロジェクトのメンバ 論文の概要  類似画像検索において、直接画像の類似度を計算するので はなく、一旦カテゴリに変換することにより精度を高くすること ができる
  • 3. 発表の内容 既存の画像の類似度計算の手法と提案手法について カテゴリによる特徴量表現 類似度検索のためのハッシュ法 実験 まとめ
  • 4. 類似画像検索 クエリ画像 類 特 似 徴 度 抽 計 出 算 DB画像 紹介する論文では類似度計算の部分に焦点をあてる
  • 5. 類似度計算 2つの画像から得られる特徴ベクトルを, ∈ とすると 2つの画像の類似度はナイーブには内積計算によって行 える , =  しかし  かならずしもすべての特徴ベクトルの要素が類似性に効いて くるとは限らない  特徴ベクトルの要素間の関係が無視されている
  • 6. 類似度計算 (Learning-to-rank アプローチ) 現在の類似度計算のstate-of-the-artな方法として OASIS (Online Algorithm for Scalable Image Similarity) がある (Gal Checchik+, JMLR 2010) 2つの画像の類似度を行列を使って , = とあらわす 行列は画像に対して画像が画像よりも類似してい るという教師データを使って  , > , + 1  となるように学習する 類似しているという情報は主に画像にアノテーションされ ているカテゴリ情報を使う
  • 7. 類似度計算 (Semantic アプローチ) 画像を一旦与えられたカテゴリ体系の下でカテゴライズ を行い、その上で類似度を計算する 類似度行列は”馬”カテゴリと”ロバ”カテゴリの類似度 が”馬”カテゴリと”キーボード”カテゴリの類似度よりも高 いといった事前情報から構成する 特徴量空間だけで考えているとvisual word 1とvisual word 2の類似度が0.4というような結果は機械学習的手 法に頼らざる得なかったが、一度カテゴリに落とすことに より人間の事前知識を類似度に使うことができる 紹介論文ではこのアプローチを提案している
  • 8. Semantic情報を使った検索の例 Semantic情報を使わない場合、クエリと意味的に無関係 なものが上位にでることがある Semantic情報を使った場合、 形状が類似してなくても意味的 に類似した画像がとれる 紹介論文Figure 1より
  • 9. Semantic情報を使ってできるかもしれないこと 与えられたテキストをSemanticなカテゴリにマッピングす ることにより、テキストを使った類似画像検索が可能にな る
  • 10. 夢は広がるCorpus-Guided Sentence Generation of Natural Images,EMNLP 2011より
  • 11. 発表の内容 既存の画像の類似度計算の手法と提案手法について カテゴリによる特徴量表現 類似度検索のためのハッシュ法 実験 まとめ
  • 12. タクソノミー 平たくいうとカテゴリ体系が階層構造をなしているもの  ex: /Sport,atheltics/Skating/Roller, /Sport,atheltics/racing from http://www.image-net.org/
  • 13. タクソノミー上のカテゴリの近さ カテゴリとカテゴリの近さを最小共通先祖(least common ancestor) (, )によって決める  すなわち , = ( , ) 最小共通先祖とはとの共通の親で高さ最少のもの  /Sport/Skating/Rollerと/Sport/racingでは/Sport  /Sport/Skating/Rollerと/Sport/Skating/Iceでは/Sport/Skating の定義はいくつか考えられるが、実験ではタクソノミーの高さか ら決める方法を採用  高さはその下にあるリーフノードからの最長路と定義する  = 1 − ()/∗ (∗ はrootノードの高さ, ILSVRCデータセット においては19)  これはILSVRCの評価方法と同じである  カテゴリはすべてリーフノードにあることが前提のよう
  • 14. 高さ 2 高さ 1 高さ 0高さ 0 高さ 0
  • 15. 画像のカテゴリによる特徴量表現 いまカテゴリの数をとする 画像が与えられたとき画像を = ∈ と変換 する ここで は画像がカテゴリに所属する確率を表す /animal/bird/turkey 85% /animal/mammal 45% ... /structure/foutain 3% ...
  • 16. カテゴリへの分類 各カテゴリごとに1-vs-allな分類器をlinear SVM(論文の 実験ではLIBLINEARを使っている)を使って構成する 分類器の出力は確率を表すようにシグモイド関数を使っ て[0,1]に変換する (Platt, In Advances in Large Margin Classifiers, 2000) この処理は各カテゴリごとに容易に並列化可能
  • 17. 発表の内容 既存の画像の類似度計算の手法と提案手法について カテゴリによる特徴量表現 類似度検索のためのハッシュ法 実験 まとめ
  • 18. 類似度検索 クエリ画像に対して、DB画像中の画像の中で類似度 が大きいものを取り出す必要がある が対角でない場合、通常の転置インデックスによる方 法は非効率となる  例えばの1次元目の成分が非ゼロのとき、の1次元目だけ ではなく1 が非ゼロな次元についても考慮する必要があるた め 論文ではが特殊な条件を満たすときに使えるLSHベー スの方法を提案した  の要素が非負かつ対角要素が相対的に大きい場合  が前述の階層構造を考慮した類似度で構成されてる場合
  • 19. Hashable 以下の議論では, が − 1次元単体ΔK−1 上にあること を仮定する  ∈ Δ−1 ≝ ∈ , = 1, 0 ≤ ≤ 1  なお後で = 1の部分はなくすことができる 行列 ∈ × がhashableであるとは (Definition 1.2) ∃ > 0, ∀ > 0 に対してハッシュ関数の族 が存在して、 任意の, ∈ Δ−1 に対して 0 ≤ 1 ; , = 2 ; , − ≤  であることをいう(1 , 2 はからの独立なサンプル) 実質的には 1 = 2 = (, )
  • 20. Hashableの性質 線形性  1 , 2 がHashableであれば1 + 2 もHashable (Lemma 1.11)  がHashableであれば ( > 0)もHashable (Lemma 1.10) すべての要素が1の行列はHashable (Lemma 1.6) がHashableのとき、Sのzero padded extensionである もHashable (Lemma 1.9)  zero padded extentionとはSの要素の行及び列の置換におけ る同一性を除いて順序を替えずに拡大後の要素を0で埋めた 物 (Definition 1.7) ex: 0 → 0 0 0 0
  • 21. 1 + 2 がHashableであることの証明 1 , 2 がHashableであれば = 1 + 2 もHashable 1 1 1 1 今z = + , = とする 1 2  ハッシュ関数(; , )を次のように構成する  Sample ∈ 1,2 ∼ ()  return (, (; , )) 2 実際 2 2  ; , = ; , ≤ 1 1 1 + + 2 (2 2 + ) 2 2 1 2 2 (1 +2 )  = + 2 2 1  ≤ + 2
  • 22. Sの対角成分が大きいとき(1/2) が対称行列かつ非負で ≥ ≠ のときはHashable (Lemma 1.4) × ( + 1)行列Θの要素を以下のように定義する ここで = ⋅ で は,+1 ≥ 0となるように定める
  • 23. Sの対角成分が大きいとき(2/2) ≥ 1/なるNを一つ選ぶ ハッシュ関数(; , )を次のように構成する Sample ∈ 1, … , ∼ () Sample ∈ 1, … , + 1 ∼ ( ) If ≤ , return *, + else pick from , … , + , return *+ 特にSが単位行列の場合は()に従って ∈ 1, … , をサンプリングするだけでよい
  • 24. に階層性がある場合 与えられたrooted-tree G=(V,E)に対して、リーフノード集 合Ω のノードi,j間の類似度がそのLCAの関数 = ( )となっており、が  ≥ 0  ノードqがノードpの子供の場合 ≥ () を満たすような関数であればSはHashable
  • 25. Generally hashable Hashableの定義で , が − 1次元単体上になく、 ∈ , 0 ≤ ≤ 1を満たすというように条件を緩めたと きGenerally hashableという (Definition 1.14) そして次が成り立つ がHashableであればGenerally hashable (Lemma 1.15)
  • 26. 証明に関して なおこれらの証明はすべてSupplementary Materialに のっている http://vision.stanford.edu/documents/DengBergFei- Fei_CVPR2011_supp.pdf
  • 27. 発表の内容 既存の画像の類似度計算の手法と提案手法について カテゴリによる特徴量表現 類似度検索のためのハッシュ法 実験 まとめ
  • 28. 実験データ Caltech256とImageNetのsubsetであるILSVRCを利用  Caltech256は既存の類似度学習手法との比較のために用い  ILSVRCは大規模なデータによる性能を見るために用いる またILSVRCに関しては公開されているSIFTベースの 1000種類のVisual word codebookからthree level SPMに より21000次元の特徴量を作成  この特徴量を使ってLIBLINEARで各カテゴリごとの識別器を 作成する Caltech 256についてはOASISの論文で利用されている 特徴量を利用
  • 29. ベースライン手法 SPM: 生の特徴量をそのまま利用 Hard-Assign: クエリを単一のクラスにカテゴライズして、 DB画像の内そのクラスの確率が高い順にソート Cosine-Nocal: 分類器の出力をそのまま使い、コサイン 類似度を計算 Cosine-Flat: Cosine-Nocalと同じだが、出力が[0,1]にお さまるように補正 Cosine-Hie: 類似度行列に階層性を使ったものを利用す るがDB画像のノルムが1になるように規格化 B-Flat: 類似度行列に対角行列を採用
  • 30. 実験結果 ILSVRCデータセットにおけるprecision-rank
  • 31. 実験結果から読み取れること1. SPMの精度が低い-> カテゴリ情報を使うことが重要2. B-Flatの方がHard-Assignよりも良い->確率的表現が 効いている3. Cosine-NoCalの精度が低い->分類器のスケールを合 わせることが重要4. コサイン類似度を使った結果はあまり良くない5. B-HieとB-Flatの結果を比較->階層構造を使うことが 重要
  • 32. 他手法との比較 OASISよりも提案手法の方が高い性能になっている
  • 33. 未知のカテゴリが存在する場合 ILSVRCの1000カテゴリのうち、100カテゴリを選択  それのみで識別器を構成した場合(seen in training)  残り900カテゴリのみで識別器を構成(unseen in training)  評価は100カテゴリのみで行う  unseenでもSPMよりよかったといってるけどtop-10ぐらいが一番重要で は?
  • 34. Indexing efficiency [Charikar, STOC, 2003]のコサイン類似度が近いものを求め るRandom Hyperplane LSHと比較  比較を公正にするためflat retrievalなものだけ考える  論文中では階層性を使ったハッシュ法については実験してない  そもそもB-FlatとCosine-Flatの性能が違うから比較がfairじゃない? linear scan(B-Flat) linear scan(Cosine-Flat)
  • 35. 発表の内容 既存の画像の類似度計算の手法と提案手法について カテゴリによる特徴量表現 類似度検索のためのハッシュ法 実験 まとめ
  • 36. まとめ 類似画像検索に事前知識である階層性を使うことにより 精度を高めることができた また階層性を使った類似検索においてハッシングを使っ た高速な検索方法について述べた
  • 37. 感想 retrievalの評価にカテゴリ情報を使っているので、カテゴリ に一旦落とすと性能が高くなるというのは当然な気がする  人手による評価などが必要な気がする ソーシャルタギングと合わせて何かできそう 商用的なことを考えると大量の人手でのタグ付けでもコスト 的に釣り合うかも  cf: A Semantic Approach to Contextual Advertising (SIGIR 2007)  表示ページから類似した広告を検索  ページと広告の両方を商業用にメンテナンスされている6000カテ ゴリ(各カテゴリには平均で100個のクエリが登録されている)のタ クソノミーにマッピング