Your SlideShare is downloading. ×
20110904cvsaisentan(shirasy) 3 4_3
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

20110904cvsaisentan(shirasy) 3 4_3

2,648

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,648
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
22
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 第3巻 第4章 Bag-of-Featuresに基づく物体認識(2) 2011.09.04 CV勉強会@関東(第15回) 3. 局所特徴量とbag-of-features shirasy 1
  • 2. 第3巻 第4章 Bag-of-Featuresに基づく物体認識(2) 3.1 局所特徴量登場以前の物体認識 3.2 局所特徴量 3.3 Bag-of-features 3.4 Spatial Pyramid Matching 3.5 Bag-of-Featuresの拡張 2
  • 3. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 1960年代 1960年代 • 対象:線画 • 内容:線画解釈 1970年代 1970年代 • 対象: 航空画像、風景画像 • 内容: 各領域の形状、色、模様、領域間の関係などを手がかりに ラベリングにより認識 1980年代 1980年代 • 内容:エキスパートシステム(複雑なルールに基づく認識システム) 3
  • 4. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 1980年代後半 1980年代後半 • 対象:3次元の実世界 • 内容:モデルベース 人手によるルールや幾何形状モデルを認識モデルとして利用 ⇒認識対象を増やすことが困難 1990年代 1990年代 •内容:学習画像を用意、それから自動的に特徴量を抽出し認識(例:固有顔法) 4
  • 5. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 現在の物体認識の方法の基本的な考え方 アピアランスベース 3次元物体を3次元情報に復元せずに2次元(アピアランス)のみで認識 CBIR(content-based image retrieval) 見た目が類似している画像を画像データベース中から検索する、 内容に基づく画像検索 5
  • 6. 3.2 局所特徴量 一般物体認識 2000年前後まで、一般物体認識は極めて困難な問題として考えられていた。 • 常に何らかの前提条件が必要 • 制約のない一般的な画像に適用することは困難 ブレークスルー(2000年代前半) ブレークスルー(2000年代前半) 年代前半 1. 局所特徴の組み合わせによる画像の表現 2. 局所特徴の表現法 3. 局所特徴のヒスグラム表現であるbag-of-features 6
  • 7. 3.2 局所特徴量 ブレイクスルー前夜 1990年代後半: 1990年代後半: 年代後半 • 内容:局所特徴の複数の組み合わせによって画像認識を行う 特定物体認識法が提案[49] • 3次元物体復元のための対応点抽出に使われていた特徴点抽出 アルゴリズムを物体認識に応用 • 多数の特徴点周辺の局所パターンの組み合わせで物体認識が可能 • オルクージョンや変形の影響を受けにくい 7
  • 8. 3.2 局所特徴量 SIFT(Scale Invariant Feature Transform)[33] 局所パターンの組み合わせによる認識のための特徴点検出と特徴ベクトルの 抽出法がセット 特徴: • 回転、スケールの変化に不変な特徴量 • 明るさの変化やアフィン変換(視点の移動)に頑強 以下の2処理を含むアルゴリズム: (1)特徴点とその点の最適スケールの検出 (2)特徴点の輝度勾配ヒストグラムによる128次元ベクトルによる記述 8
  • 9. 3.3 Bag-of-features 局所特徴量の問題点 1枚の画像から数百~数千個抽出 そのままでは、データ量が多すぎて扱いにくい Bag-of- Bag-of-features データ量を少なくし扱いやすくする • 局所特徴量のデータ量圧縮のためのアプローチ • 局所特徴量をベクトル量子化し、1枚の画像から抽出された局所特徴量の集合 を単一のヒストグラムで表現 9
  • 10. 3.3 Bag-of-features ヒストグラム 学習用画像データの各画像から抽出した多数の局所特徴量(濃淡変化に着目) から代表的な局所パターンをvisual wordとして選出 • ヒストグラムを作成することにより画像を表現 • 局所パターンは物体のカテゴリーと関係深い 10
  • 11. 3.3 Bag-of-features 一般物体認識と特定物体認識のアプローチの差分 • 一般物体認識 • visual words数:数百~数千 • 一般物体認識においては同じカテゴリーに属する物体の細かな差異の 吸収されることが望ましい • 特定物体認識 • visual words数:数万~百万 • 全く同じ局所パターンのみが1つのvisual wordに割り当てられることが 望ましい 11
  • 12. 3.3 Bag-of-features 統計的言語処理と画像認識処理の差分 • 統計的言語処理:bag-of-words • 文章をベクトル表現する方法として使用 • 語順を無視して文章を単語の出現頻度で表現 • 画像認識処理 :bag-of-features • 画像分類が文書分類と同じ問題として取り扱うことが可能 bag-of-features提案直後、言語処理の分野で提案された手法が画像認識 に応用されるということが起こった ・ サポートベクターマシンによるテキスト分類手法 ・ 文書分類のための確率的トピック抽出手法 12
  • 13. 3.3 Bag-of-features bag-of-featuresによる特徴表現への変換手順 1. 特徴点抽出 • 画像1枚に付き、数百~数千個程度 • 最近では、決められたピクセルごとの格子点やランダムに選ばれた点を 機械的に特徴点とする方法も活用(dense sampling) 2. BoFベクトルの計算 • SIFT記述子などを利用 3. 全学習画像の全局所特徴ベクトルのk-meansによるクラスタリングによる visual wordsの選出(図4.3) 4. visual wordsに基づいて各画像についてSIFT記述子ベクトルのヒストグラムを 作成(図4.4) 13
  • 14. 3.3 Bag-of-features 図4.3 図4.4 14 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 15. 3.3 Bag-of-features sparse sampling / dense sampling 認識・・・テクスチャのない均一な局所特徴も重要な情報 画像の内容に関わらず機械的に特徴点の位置およびスケールを選択 する方法も有効[16] • sparse sampling • 特徴点抽出法(SIFTやSURFを含む)を用いて特徴点を抽出する方法 • dense sampling • 格子点やランダム点を特徴点として選択する方法 dense samplingでは、特徴点の数を任意に設定可能であるため、sparse samplingよりも多くの局所特徴を抽出可能 15
  • 16. 3.3 Bag-of-features sparse sampling / dense sampling 図4.5 16 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 17. 3.3 Bag-of-features BoFベクトルの生成 一般的には方法 C)を選択することが多い A) TF-IFD(※)で重み付け ⇒bag-of-wordsでよく用いられる方法 B) 各要素を1か0の2値にしてヒストグラムを構成 C) visual wordsの出現回数をカウントしてヒストグラムを構成 画像間でvisual wordsの合計頻度に差がある場合、以下を行うことが多い • L1正規化:BoFベクトルの要素の絶対値の和を1とする • L2正規化:BoFベクトルの要素の2乗和を1とする(※) TF-IFD:索引語の重み付け方法のひとつ ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きく また、多くの文書に索引語が出現すれば、値は小さくなる 17 引用元: http://nlp.nagaokaut.ac.jp/TF%E3%83%BBIDF
  • 18. 3.4 Spatial Pyramid Matching Bag-of-features表現・・・元の特徴点の位置を無視 画像中での位置も物体認識のための重要な手がかりになることが多い 自動車の場合 • タイヤ : 画像中の下方に写っていることが多い ⇒タイヤ特有のvisual wordが存在 • ルーフ : 画像中の上方に写っていることが多い ⇒ルーフ特有のvisual wordが存在 18
  • 19. 3.4 Spatial Pyramid Matching Spaitial Pyramid Matching法[30] 大まかな位置情報を考慮した画像間の類似度計算法 画像を4分割および16分割し画像ピラミッドを構築して、それぞれからBoFを 構築し、ピラミッドのレベルに応じ重みを付けて類似度を計算 図4.6 19 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 20. 3.5 Bag-of-featuresの拡張 アプローチ分類 • コードブック作成法 • オンラインクラスタリングとmean-shift[24] • 階層的クラスタリング[41] • ガウス混合分布およびEMアルゴリズムによる確率的クラスタリング[43] • Information Bottleneck法[58] • sparse coding[58] • BoFベクトル生成法[74] • 色情報の追加[69] • Bag-of-featuresとは異なる特徴との混合 20
  • 21. 3.5 Bag-of-featuresの拡張 近年急速に拡大 動作認識 静止画像の局所特徴を時間軸方向に拡張 例:人間の動作の分類(歩く、走るなど) [15] bag-of-featuresを用いない一般物体認識 NBNN(Native Bayes Nearest Neighbor)[6] visual wordsを用いずに、特徴点マッチングのみで一般物体認識 アイデア 1. 未知画像の各特徴点と最も類似した学習データの特徴点まで の距離をクラスごとに別々に総和 2. 最も和が小さいクラスに分類 21

×