-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

9,540 views

Published on

SSII2014:第20回画像センシングシンポジウム
OS1:20周年記念特別セッション
2014年6月12日

SSII技術マップ:
http://ssii.jp/special_map.html

Published in: Technology
0 Comments
28 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
9,540
On SlideShare
0
From Embeds
0
Number of Embeds
670
Actions
Shares
0
Downloads
266
Comments
0
Likes
28
Embeds 0
No embeds

No notes for slide

-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

  1. 1. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 1 ! ! -SSIIの技術- 過去•現在, そして未来 [領域]認識 ! ! SSII2014:第20回画像センシングシンポジウム OS1:20周年記念特別セッション ! 2014年6月12日 ! 藤吉 弘亘 中部大学工学部ロボット理工学科
  2. 2. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 2 「認識」で取り扱う技術領域 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SVM(95) マージン最大化 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 HOG(05) 勾配情報 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ DOT(10) 勾配情報のテンプレートマッチング VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Deep Learning(08) 多層ニューラルネットワーク 表現学習 超多クラス識別問題 (10 万カテゴリ ) Crowdsourcing(13) 人の知見の導入 詳細画像識別 ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 texton(01) フィルタのバンク 人体パーツ識別 高速化 高精度化 アプリケーション 2000 2005 2010 物体検出 ( 多クラス ) 自己位置推定 マシンビジョン 画像検索 顔検出 人検出 特定物体認識 画像分類 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 二値特徴 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 Object Bank(10) 多クラスの要素を特徴量化 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 セマンティックセグメンテーション CoHOG(09) HOG の共起表現 MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 スパース特徴量 (06) Haar-like + ピクセル差分 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 スペクトル理論によるスケール探索 (12) 特徴空間の射影 DAISY(08) 記述空間の改良 BOF(04) 特徴量の辞書化 直交制約相互空間法 (06) 直交行列による空間の関係を直行化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 CARD(11) 特徴量を 2 値化 Decision Jungles(13) パス共有による省メモリな決定木 制約相互部分空間法 (99) 識別に有効な空間への射影 CNN(89) プーリングと畳み込み による特徴抽出 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新
  3. 3. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 3 「認識」技術の製品化 SVM(95) マージン最大化 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 SIFT(99) スケール不変 特徴点検出・記述 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ BOF(04) 特徴量の辞書化 texton(01) フィルタのバンク 道路監視システム ( 三菱 ,00) OKAO vision( オムロン ,05) SuperIPCam( 日立 ,08) IMAP( ルネサスエレクトロニクス ,08) CATENARY EYE( 明電舎 ,10) Kinect(Microsoft,10) Mobileye(08) OpenCV(01) ARToolKit(99) Visconti2( 東芝 ,13) 転移学習 , 計量学習 CoHOG(09) HOG の共起表現 オブジェクト認識対応縦型スキャナ ( 東芝テック ,13) スパース特徴量 (06) Haar-like + ピクセル差分 Picasa(02) 相互部分空間 (85) 部分空間同士の正準角 FacePass( 東芝 ,01) エレベータ監視システム「ヘリオスウォッチャー」( 日立 ,06) PCL(11) 顔検出 , 画像分類 HALCON(MVTec,96) VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Google Goggle(Google,09) Amazon A9(A9.com,04) 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代2000 2005 2010 製品 PatMax(Cognex,98) Shape Trax( キーエンス ,05) 形状サーチ ( オムロン ,11) DOT(10) 勾配情報のテンプレートマッチング
  4. 4. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 4 「認識」で取り扱う技術領域 ! ! ! ! ! ! ! ! 特徴点検出 特徴点記述 コーナー検出 スケール探索 アフィン不変 2値表現 分野 技術 動向 ! ! ! ! ・不変性の獲得 ・2値表現による高速化と省メモリ化 ・機械学習を導入して高速化を実現 ! ! ! ! ! ! ! ! ! ! ! ! パターンマッチング 特徴抽出 画像局所特徴量 BOF表現 テンプレートマッチング 部分空間法 ・局所ベースの特徴量 ・BOF表現を用いた辞書化 ・テンプレート画素の取捨選択 ・部分空間法の進展 ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 統計的学習法 最近傍探索 統計的学習法 多クラス識別器 ハッシング 最近傍探索 計量学習 Deep Learning ・識別器の高性能化 ・ビッグデータに対するアプローチ ・超多クラス識別の高速化 ・学習外サンプルへの適応 ・特徴抽出の自動獲得
  5. 5. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 5 「認識」で取り扱う技術領域 特徴点検出・記述の動向 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習 2000 2005 2010 画像検索 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 スペクトル理論によるスケール探索 (12) 特徴空間の射影 DAISY(08) 記述空間の改良 CARD(11) 特徴量を 2 値化 DOT(10) 勾配情報のテンプレートマッチング 二値特徴 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け HOG(05) 勾配情報 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Crowdsourcing(13) 人の知見の導入 詳細画像識別 texton(01) フィルタのバンク マシンビジョン 顔検出 人検出 特定物体認識 画像分類 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 Object Bank(10) 多クラスの要素を特徴量化 CoHOG(09) HOG の共起表現 スパース特徴量 (06) Haar-like + ピクセル差分 BOF(04) 特徴量の辞書化 直交制約相互空間法 (06) 直交行列による空間の関係を直行化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 制約相互部分空間法 (99) 識別に有効な空間への射影 SVM(95) マージン最大化 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 Deep Learning(08) 多層ニューラルネットワーク 表現学習 超多クラス識別問題 (10 万カテゴリ ) ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 人体パーツ識別 物体検出 ( 多クラス ) 自己位置推定 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 セマンティックセグメンテーション MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 Decision Jungles(13) パス共有による省メモリな決定木 CNN(89) プーリングと畳み込み による特徴抽出 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新
  6. 6. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Distinctive image features from scale-invariant keypoints (SIFT) [Lowe2004] ‒ スケール・回転に不変な特徴点検出・記述 6 特徴点検出・記述 ポイント  ­DOG(Difference of Gaussian)によるキーポイント検出  ­勾配方向ヒストグラムによる特徴記述 DoG画像平滑化画像 € σ0 € kσ0 € k2 σ0 スケール € k3 σ0 k⁴σ₀ - - - -
  7. 7. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 7 特徴点検出の高速化 スケールスペースの高速化 決定木による高速化 ・SURF (06) 積分画像を用いた近似ヘッセ行列による高速なキーポイント検出 ・FAST (06) 機械学習(決定木)を導入してコーナー検出を高速化 ・スペクトル理論 (12) スペクトル理論によるスケール探索の高速化と高精度化
  8. 8. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Distinctive image features from scale-invariant keypoints (SIFT) [Lowe2004] ‒ スケール・回転に不変な特徴点検出・記述 8 特徴点検出・記述 ポイント  ­DOG(Difference of Gaussian)によるキーポイント検出  ­勾配方向ヒストグラムによる特徴記述 4分割 4分割 8方向 ガウス窓
  9. 9. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 9 特徴点記述の高速化 2値特徴量の導入 ・BRIEF(10),ORB(11), CARD(11) 距離計算を考慮した2値による特徴記述 ・D-BRIEF(12), Bin-Boost(13) 教師あり学習による最適な2値パターンの獲得 ポイント  ­特徴料を2値にすることで距離計算(ハミング距離)を高速化、SSEの利用  ­省メモリ化も同時に実現 ポジティブサンプル ネガティブサンプル ORBの参照ペア D-BRIEFにおける教師あり学習
  10. 10. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 10 「認識」で取り扱う技術領域 セマンティックセグメンテーション RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け HLAC(88) 高次の自己相関 増分符号相関 (00) 輝度の増減を二値で画像化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習画像検索 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 スペクトル理論によるスケール探索 (12) 特徴空間の射影 DAISY(08) 記述空間の改良 DOT(10) 勾配情報のテンプレートマッチング VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Crowdsourcing(13) 人の知見の導入 詳細画像識別 マシンビジョン 特定物体認識 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 二値特徴 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 Object Bank(10) 多クラスの要素を特徴量化 CoHOG(09) HOG の共起表現 Online PA(06) 入力サンプルに応じて重みベクトル更新 Exemplar SVM(11) 事例ベースの SVM Deep Learning(08) 多層ニューラルネットワーク 表現学習 物体検出 ( 多クラス ) 自己位置推定 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 WTA Hashing(11) 超高速化 超多クラス識別問題 (10 万カテゴリ ) ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 Decision Jungles(13) パス共有による省メモリな決定木 MLP(86) 多層パーセブトロン CNN(89) プーリングと畳み込み による特徴抽出 直交制約相互空間法 (06) 直交行列による空間の関係を直行化 制約相互部分空間法 (99) 識別に有効な空間への射影 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SVM(95) マージン最大化 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) HOG(05) 勾配情報 Haar-like(01) box フィルタ texton(01) フィルタのバンク 人体パーツ識別 2000 2005 2010 顔検出 人検出 画像分類 スパース特徴量 (06) Haar-like + ピクセル差分 BOF(04) 特徴量の辞書化 CHLAC(04) HLAC に時間軸の追加 CARD(11) 特徴量を 2 値化 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 局所特徴量・統計的学習法の動向
  11. 11. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 11 特徴抽出と統計的学習法 局所画像特徴量と統計的学習法 ・ 顔検出→Haar-like(01), スパース特徴(06)+AdaBoost(95) ・歩行者検出→HOG(05)+SVM(95) ポイント  ­問題設定に合わせて特徴量(Hand-crafted feature)を設計  ­2クラス問題から多クラス問題へ ・人体パーツ識別→Random Forest(01) ・ 画像分類→SIFT(01), BOF(04)+SVM(95)
  12. 12. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • A Discriminatively Trained, Multiscale, Deformable Part Model [Felzenszwalb2008] ‒ Latent SVMを用いたパーツベースの物体検出 12 DPM:パーツベースの物体検出 ポイント  ­物体をパーツの集合として表現(Deformable Parts Model)  ­パーツの位置関係を考慮することで姿勢変動に対応 ルートフィルタ パーツフィルタ パーツフィルタの 位置関係
  13. 13. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Fast, Accurate Detection of 100,000 Object Classes on a Single Machine [Dean2013] ‒ 10万種類の物体を20秒以下で検出 13 バイナリコードを用いたHashによる10万種類の物体検出 Locality-sensitive Hashing with WTA WTA codeをP個に分割 P個のコードそれぞれの Hashテーブルを参照 クラス毎の スコアヒストグラムを作成 各クラスのフィルタ応 答マップを作る HOG特徴量 111101010011 WAT code ポイント  ­多クラスDPMの高速化  ­パーツの集合に対して、WTA Hashを利用して超多クラスの検出を実現
  14. 14. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 14 バイナリコードを用いたHashによる10万種類の物体検出 • Fast, Accurate Detection of 100,000 Object Classes on a Single Machine [Dean2013] ‒ 10万種類の物体を20秒以下で検出
  15. 15. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 15 「認識」で取り扱う技術領域 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 HOG(05) 勾配情報 Deep Learning(08) 多層ニューラルネットワーク 表現学習 Crowdsourcing(13) 人の知見の導入 詳細画像識別 2000 2005 2010 人検出 画像分類 人が注目した位置から特徴抽出 マーカ認識 BOF(04) 特徴量の辞書化 直交制約相互空間法 (06) 直交行列による空間の関係を直行化 VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 特定物体認識 Object Bank(10) 多クラスの要素を特徴量化 CoHOG(09) HOG の共起表現 スパース特徴量 (06) Haar-like + ピクセル差分 制約相互部分空間法 (99) 識別に有効な空間への射影 Haar-like(01) box フィルタ 顔検出 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習画像検索 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 スペクトル理論によるスケール探索 (12) 特徴空間の射影 DAISY(08) 記述空間の改良 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 DOT(10) 勾配情報のテンプレートマッチング texton(01) フィルタのバンク マシンビジョン 二値特徴 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 LBP(94) 局所領域の二値化 CARD(11) 特徴量を 2 値化 CNN(89) プーリングと畳み込み による特徴抽出 SVM(95) マージン最大化 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 超多クラス識別問題 (10 万カテゴリ ) ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 人体パーツ識別 物体検出 ( 多クラス ) 自己位置推定 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 セマンティックセグメンテーション MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 Decision Jungles(13) パス共有による省メモリな決定木 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 特徴量の自動生成 近年の動向 人の知見の導入 特徴抽出の自動化
  16. 16. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 16 Deep Learningによる特徴抽出と識別器の自動獲得 ポイント  ­畳み込みニューラルネットワークの学習にスパースコーディングを利用  ­各階層の出力をすべて統合する方法でローカル&グローバルな特徴を抽出 特徴抽出部 識別部 • Pedestrian Detection with Unsupervised Multi-Stage Feature Learning [Sermanet2013] ‒ 畳み込みNNを用いて人検出の性能を大幅に向上
  17. 17. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Pedestrian Detection with Unsupervised Multi-Stage Feature Learning [Sermanet2013] ‒ 畳み込みNNを用いて人検出の性能を大幅に向上 17 Deep Learningによる特徴抽出と識別器の自動獲得 ポイント  ­畳み込みニューラルネットワークの学習にスパースコーディングを利用  ­各階層の出力をすべて統合する方法でローカル&グローバルな特徴を抽出 畳み込み層のフィルタ例 (INRIAデータセット,フィルタサイズ:9x9) 検出性能 →特徴抽出過程の自動獲得
  18. 18. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Fine-Grained Crowdsourcing for Fine-Grained Recognition [Deng2013] ‒ 人が注目した領域から特徴量を記述 18 人の知見を利用した特徴抽出 Crowdsourcingにより 多くの経験を獲得 高スコア時の選択領域から特徴抽出カラー画像化する面積が 小さいほど高スコア 識別に容易な領域が 選択されている ゲームで高スコア = ポイント  ­人が識別に容易な領域を選択することで細かな違いを識別  ­Crowdsourcingを利用して大量の経験データを獲得する ゲーム形式で正誤判定に使用した領域を選択 クリックした座標周辺が ブラー画像からカラー画像へ
  19. 19. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 19 「認識」の5年後 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SVM(95) マージン最大化 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 HOG(05) 勾配情報 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ DOT(10) 勾配情報のテンプレートマッチング VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Deep Learning(08) 多層ニューラルネットワーク 表現学習 超多クラス識別問題 (10 万カテゴリ ) Crowdsourcing(13) 人の知見の導入 詳細画像識別 処 理 レ ベ ル ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 5 年後 texton(01) フィルタのバンク 人体パーツ識別 高速化 高精度化 アプリケーション 2000 2005 2010 物体検出 ( 多クラス ) 自己位置推定 マシンビジョン 画像検索 顔検出 人検出 特定物体認識 画像分類 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 二値特徴 人とのハイブリッドによる 官能検査、欠陥検出 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 高速多クラス識別 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 Object Bank(10) 多クラスの要素を特徴量化 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 zero-shot learning による 学習外サンプルへの適応 転移学習 , 計量学習 生態調査 セマンティックセグメンテーション CoHOG(09) HOG の共起表現 MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 スパース特徴量 (06) Haar-like + ピクセル差分 詳細画像記述 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 スペクトル理論によるスケール探索 (12) 特徴空間の射影 不変性の獲得 DAISY(08) 記述空間の改良 BOF(04) 特徴量の辞書化 大規模顔認識 Deep Neural Network の 高速化直交制約相互空間法 (06) 直交行列による空間の関係を直行化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 CARD(11) 特徴量を 2 値化 Decision Jungles(13) パス共有による省メモリな決定木 制約相互部分空間法 (99) 識別に有効な空間への射影 CNN(89) プーリングと畳み込み による特徴抽出 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 セマンティック映像圧縮
  20. 20. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • 高速多クラス識別 ‒ WTA Hashingによる10万カテゴリ識別の高速化 • 詳細画像記述 ‒ 10万カテゴリ識別+関連要素による学習外サンプルのラベル導出 • zero-shot learningによる学習外サンプルへの適応 ‒ 関連要素による学習外サンプルのラベル導出+転移学習、計量学習 • 大規模顔認識 ‒ Deep Neural Networkの高速化 • 人と機械のハイブリッドによる官能検査、欠陥検出 ‒ 人の知見を導入した詳細画像識別 • キーポイントにおける不変性の獲得 ‒ スケール探索、アフィン変化への対応 20 「認識」の5年後
  21. 21. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 Deep Learningに代表される深い階層的構造の学習・識別手法の理論的解析と解析に基づく階層構造の設計論に焦点があたり,この結 果をもとにweb上に存在する統制のとれた一般的物体の画像であればほぼ間違いなく認識可能となる.その一方で,より実世界寄り の雑然とした状況における認識へ注力され,また,チャレンジングな課題へ広がりを見せる.! !○今後広がりを見せるであろう課題! !・ライフログ等の動画像の要約,自然言語分野との融合! ウェアラブル機器の浸透と共に,時系列データを有効に活用する動画像の要約技術が進展する.時系列情報を活用した前後の文脈理 解による認識精度の向上のみならず,人の感性に合致した興味深いショット推定や,自然言語分野で培われた文法的知識体系等がビ ジョン技術と融合して従来難問とされていた動画像要約のへの糸口となる.! !・コンテンツ生成,グラフィクス系分野との融合! 画像認識とは数百万ピクセルの情報を1つのカテゴリに押し込める究極の情報圧縮技術といえる.今後は,グラフィクス系分野の融合 により,圧縮された情報から逆に実世界の情報へ復元するコンテンツ生成技術が進展する.これにより長い文章情報理解せずとも図 を一枚見ることによって瞬時に内容を理解可能な情報提示技術への糸口となる.! !・ロボットビジョン,ロボティクス(制御)との融合! 統制のとれた認識対象を提示するのであれば十分高い識別性能が実現される一方で,認識対象をあらかじめ定めず,雑然とした画像 が入力状況においては従来の一般的物体認識手法の枠組みでは認識精度が悪く使える技術としてほど遠い.ロボットの持つ身体を活 用することで,認識すべき対象を発見する注視機能の活用とロボットの制御技術の融合により,実世界における真の意味での能動的 認識,学習機能が発展する.! !・プライバシアウェアな画像認識技術の流れ! 今後ウェアラブル機器の発展が見込まれているが,画像センサを利用した場合にプライバシを侵害する画像が意図せず取得され,web で共有される危険性をはらみ,画像センサを持つウェアラブル機器の拡充の妨げとなる.この背景のもと画像に映る物体の種別等の コンテンツが十分に理解可能でありながら,プライバシ情報をすべて隠ぺいする技術が発展する.ウェアラブルシステム等で獲得した 画像,映像をクラウドソーシングなどを利用して,ラベル付与を行うことや,webでの共有,画像を見ながらの遠隔操作などには必 要不可欠な技術となる.荒く,雑然とした情報でも可能とする. 21 5年後の画像認識のトレンド:原田達也先生(東大)
  22. 22. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 22 5年後の画像認識のトレンド:Prof. Tae-kyun Kim(Imperial College London) • Combined of RF and Deep learning ‒ Random ForestとDeep Learningの融合 ‒ 例:Decision Forest [Shotton2013] ! ! ! ! • Long-term continuous learning ‒ never-ending image learning ‒ 終わりのない画像学習フレームワークの実現 (a) (b) Figure 1: Motivation and notation. (a) An example use of a rooted decision DAG for classifying image patches as belonging to grass, cow or sheep classes. Using DAGs instead of trees reduces the number of nodes and can result in better generalization. For example, differently coloured patches of grass (yellow and green) are merged together into node 4, because of similar class statistics. This may encourage generalization by representing the fact that grass may appear as a mix of yellow and green. (b) Notation for a DAG, its nodes, features and branches. See text for details. input instance that reaches that node should progress through the left or right branch emanating from the node. Prediction in binary decision trees involves every input starting at the root and moving down as dictated by the split functions encountered at the split nodes. Prediction concludes when the instance reaches a leaf node, each of which contains a unique prediction. For classification trees, this prediction is a normalized histogram over class labels. Rooted binary decision DAGs. Rooted binary DAGs have a different architecture compared to decision trees and were introduced by Platt et al. [26] as a way of combining binary classifier for multi-class classification tasks. More specifically a rooted binary DAG has: (i) one root node, with in-degree 0; (ii) multiple split nodes, with in-degree 1 and out-degree 2; (iii) multiple leaf nodes, 2分木をネットワーク状に接続 省メモリ化とオーバーフィッティングを回避決
  23. 23. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 23 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SVM(95) マージン最大化 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 HOG(05) 勾配情報 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ DOT(10) 勾配情報のテンプレートマッチング VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Deep Learning(08) 多層ニューラルネットワーク 表現学習 超多クラス識別問題 (10 万カテゴリ ) Crowdsourcing(13) 人の知見の導入 詳細画像識別 処 理 レ ベ ル ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 5 年後 texton(01) フィルタのバンク 人体パーツ識別 高速化 高精度化 アプリケーション 2000 2005 2010 物体検出 ( 多クラス ) 自己位置推定 マシンビジョン 画像検索 顔検出 人検出 特定物体認識 画像分類 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 二値特徴 人とのハイブリッドによる 官能検査、欠陥検出 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 高速多クラス識別 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 Object Bank(10) 多クラスの要素を特徴量化 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 zero-shot learning による 学習外サンプルへの適応 転移学習 , 計量学習 生態調査 セマンティックセグメンテーション CoHOG(09) HOG の共起表現 MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 スパース特徴量 (06) Haar-like + ピクセル差分 詳細画像記述 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 スペクトル理論によるスケール探索 (12) 特徴空間の射影 不変性の獲得 DAISY(08) 記述空間の改良 BOF(04) 特徴量の辞書化 大規模顔認識 Deep Neural Network の 高速化直交制約相互空間法 (06) 直交行列による空間の関係を直行化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 CARD(11) 特徴量を 2 値化 Decision Jungles(13) パス共有による省メモリな決定木 制約相互部分空間法 (99) 識別に有効な空間への射影 Pentium3(99) Pentium4(00) Xeon5100 Intel Core2 Core i 7(11) CPU (06) Core i 5(09) Core i 3(10) SSE SSE(99) SSE2(00) SSE3(04) SSE4.1(08) SSE4.2(11) GPU GeForce2(00) GeForce3(01) GeForce4,FX(02) GeForce6(04) GeForce7(05) GeForce8(06) GeForce9(08) GeForce200(08) GeForce400(10) GeForce500(11) GeForce600(12) GeForce700(13)CUDA Tesla(07) R100(00) R200,300(02) R400(04) Northern Islands(11)R500(05) R600(07) R700(08) Evergreen(10) Southern Islands(12) Volcanic Islands(13) 2014/06/09 版 CNN(89) プーリングと畳み込み による特徴抽出 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 セマンティック映像圧縮 SVM(95) マージン最大化 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 SIFT(99) スケール不変 特徴点検出・記述 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ BOF(04) 特徴量の辞書化 texton(01) フィルタのバンク 道路監視システム ( 三菱 ,00) OKAO vision( オムロン ,05) SuperIPCam( 日立 ,08) IMAP( ルネサスエレクトロニクス ,08) CATENARY EYE( 明電舎 ,10) Kinect(Microsoft,10) Mobileye(08) OpenCV(01) ARToolKit(99) Visconti2( 東芝 ,13) 転移学習 , 計量学習 CoHOG(09) HOG の共起表現 オブジェクト認識対応縦型スキャナ ( 東芝テック ,13) スパース特徴量 (06) Haar-like + ピクセル差分 Picasa(02) 相互部分空間 (85) 部分空間同士の正準角 FacePass( 東芝 ,01) エレベータ監視システム「ヘリオスウォッチャー」( 日立 ,06) PCL(11) 顔検出 , 画像分類 HALCON(MVTec,96) VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Google Goggle(Google,09) Amazon A9(A9.com,04) 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代2000 2005 2010 製品 Pentium3(99) Pentium4(00) Xeon5100 Intel Core2 Core i 7(11) CPU (06) Core i 5(09) Core i 3(10) SSE SSE(99) SSE2(00) SSE3(04) SSE4.1(08) SSE4.2(11) GPU GeForce2(00) GeForce3(01) GeForce4,FX(02) GeForce6(04) GeForce7(05) GeForce8(06) GeForce9(08) GeForce200(08) GeForce400(10) GeForce500(11) GeForce600(12) GeForce700(13)CUDA Tesla(07) R100(00) R200,300(02) R400(04) Northern Islands(11)R500(05) R600(07) R700(08) Evergreen(10) Southern Islands(12) Volcanic Islands(13) 処 理 レ ベ ル 2014/06/09 版 PatMax(Cognex,98) Shape Trax( キーエンス ,05) 形状サーチ ( オムロン ,11) DOT(10) 勾配情報のテンプレートマッチング SSII技術マップは今後も更新していく予定です。 コメントや画像処認識技術の製品化例についても幅広く情報提供をお待ちしております。 送付先:hf@cs.chubu.ac.jp(藤吉) http://www.ssii.jp/special_map.html
  24. 24. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • D. G. Lowe, Distinctive image features from scale-invariant keypoints , IJCV, Vol.60, No.2, pp.91-110, 2004. • J. Matas, O. Chum, M. Urban, T. Pajdla, Robust wide baseline stereo from maximally stable extremal regions. , BMVC, pp.384-396, 2002. • K. Mikolajczyk, C. Schmid, Scale & affine invariant interest point detectors. International journal of computer vision, Vol.60, No.1, pp.63-86, 2004. • S. N. Sinha, J. Frahm, M. Pollefeys, Y. Genc, GPU-based Video Feature Tracking And Matching , Workshop on Edge Computing Using New Commodity Architectures, 2006. • H. Bay, T. Tuytelaars, L. Van Gool, SURF: Speeded Up Robust. Features , ECCV , pp.404-417, 2006. • E. Rosten, R. Porter, T. Drummond, Faster and Better: A Machine Learning Approach To Corner Detection , PAMI, pp.105-119, 2010. • M. Ozuysal, M. Calonder, V. Lepetit, P. Fua, Fast keypoint recognition using random ferns , PAMI, Vol.32, pp. 448-461, 2010. • M. Calonder, V. Lepetit, C. Strecha, P. Fua, BRIEF: Binary Robust Independent Elementary Features , ECCV, pp.778-792, 2010. • E.Rublee, V.Rabaud, K.Konolige, G.Bradski ORB: an efficient alternative to SIFT or SURF , ICCV, 2011. • M. Ambai, Y. Yoshida, CARD: Compact And Real-time Descriptors , ICCV, 2011. • 上瀧剛, 内村圭一、 スペクトル理論のパターンマッチングへの応用 ,第17回画像の認識・理解シンポジウム, 2012. • T. Tomasz, L. Vincent, Efficient Discriminative Projections for Compact Binary Descriptors , ECCV, pp.228‒ 242, 2012. • T. Tomasz, M. Christoudias, P. Fua, V. Lepetit, Boosting Binary Keypoint Descriptors ,CVPR, 2013. 24 参考文献(特徴点検出・記述)
  25. 25. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • 前田賢一, 渡辺貞一, 局所構造を導入したパターン・マッチング法 , 信学論D, Vol. J68, pp345-352, 1985. • H. Murase, S. K. Nayar, Illumination planning for object recognition using parametric eigenspace, PAMI, Vol. 16, pp.1219-1227, 1994 • T. Ojala, M. Pietikainen, T. Maenpaa, Multiresolution gray-scale and rotation invariant texture classification with local binary patterns , PAMI, Vol.24, pp.971-987, 2002. • 福井 和広, 山口 修, 鈴木 薫, 前田 賢一, 制約相互部分空間法を用いた環境変動にロバストな顔画像認識 ‒照明 変動の影響を抑える制約相互部分空間の学習‒ , 信学論 D-II Vol. J82, pp.613-620, 1999. • N. Cristianini, J. Shawe-Taylor, An introduction to support vector machines and other kernel-based learning methods , Cambridge university press, 2000. • P. Viola, M. Jones, Rapid object detection using a boosted cascade of simple features , CVPR, vol. 1,pp.511-518, 2001. • 佐藤雄隆, 金子俊一, 丹羽義典, 山本和彦, Radial Reach Filter (RRF) によるロバストな物体検出 (画像処理, 画像パターン認識) 信学論.D-II, Vol. J86, pp.616-624, 2003. • G. Csurka, C. R. Dance, L. Fan, J. Willamowski, C. Bray, Visual Categorization with Bags of Keypoints , ECCV, Vol. 1, pp. 1-2, 2004. • T. Kobayashi, N. Otsu, Action and Simultaneous Multiple-Person Identification Using Cubic Higher Order Local Auto-Correlation , ICPR, Vol. 4, pp.741-744, 2004 • N. Dalal, B. Triggs, Histograms of Oriented Gradients for Human Detection , CVPR, pp.886-893, 2005. 25 参考文献(特徴抽出・パターンマッチング)
  26. 26. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • 松原康晴, 尺長健, 疎テンプレートマッチングとその実時間物体追跡への応用 , 情報処理学会論文誌. CVIM, Vol. 46, pp.60-71, 2005. • 河原 智一, 西山 正志, 山口 修, 直交相互部分空間法を用いた顔 認識, , CVIM, pp.17-24, 2005. • C. Huang, H. Ai, Y. Li, S. Lao, Learning sparse features in granular space for multi-view face detection , FG, 2006. • F. Perronnin, C. Dance, Fisher kernels on visual vocabularies for image categorization , CVPR, 2007. • T. Watanabe, S. Ito, K. Yokoi, Co-occurrence histograms of oriented gradients for pedestrian detection , In Advances in Image and Video Technology, pp. 37-47, 2009. • H. Jegou, M. Douze, C. Schmid, P. Perez. Aggregating local descriptors into a compact image representation , CVPR, 2010. • L. J. Li, H. Su, E. P. Xing, F. Li, Object Bank: A High-Level Image Representation for Scene Classification & Semantic Feature Sparsification , NIPS, Vol. 2, p.5, 2010. • M. Hashimoto, T. Fujiwara, H. Koshimizu, H. Okuda, K. Sumi, Extraction of Unique Pixels based on Co- occurrence Probability for High- speed Template Matching , Proceeding of International Symposium on Optomechatronic Technologies, MVI-3, 2010. • S. Hinterstoisser, V. Lepetit, S. Ilic, P. Fua, N. Navab, Dominant Orientation Templates for Real-Time Detection of Texture-Less Objects , CVPR, pp.2257-2264, 2010. • 上瀧剛, 内村圭一, 明るさ変動および雑音に頑健な固有値分解テンプレート法 , 電気学会論文誌C, Vol.131, No.9, pp.1625‒1632, 2011. • J. Deng, J. Krause, F. Li, Fine-grained crowdsourcing for fine-grained recognition.CVPR, pp. 580-587, 2013. 26 参考文献(特徴抽出・パターンマッチング)
  27. 27. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • D. E. Rumelhart, G. E. Hinton, R. J. Williams. Learning Internal Representations by Error Propagation , Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundations. MIT Press, 1986. • C. Cortes, V. Vapnik, Support vector machine , Machine learning, Vol.20, No.3, 273-297, 1995. • Y, Freund, R, E. Schapire, A decisiontheoretic generalization of on-line learning and an application to boosting , Journal of Computer and System Sciences, No. 1, Vol. 55, pp. 119-139, 1997. • L. Breiman, Random Forests. , Machine Learning 45 (1): 5-32, 2001. • P. Geurts, D. Ernst, L. Wehenkel, Extremely randomized trees , Machine learning, Vol.63, No.1, pp.3-42, 2006. • K. Crammer, O. Dekel, J. Keshet, S. Shalev-Shwartz, Y. Singer, Online passive-aggressive algorithms . The Journal of Machine Learning Research, pp.551-585, 2006. • M. Ozuysal, P. Fua, V. Lepetit, Fast keypoint recognition in ten lines of code . ICPR, pp.1-8, 2007. • P. Felzenszwalb, D. McAllester, D. Ramanan, A discriminatively trained, multiscale, deformable part model , CVPR, pp.1-8, 2008. • J. Hamm, D. D. Lee, Grassmann discriminant analysis: a unifying view on subspace-based learning , ICML, pp.376-383, 2008. • R. Collobert, J. Weston, A unified architecture for natural language processing: Deep neural networks with multitask learning , ICML, pp.160-167, 2008. • C. H. Lampert, H. Nickisch, S. Harmeling, Learning To Detect Unseen Object Classes by Between- ClassAttributeTransfer , CVPR, 2009. • T. Malisiewicz, A. Gupta, A. A. Efros, Ensemble of exemplar-svms for object detection and beyond , ICCV, pp. 89-96, 2011. 27 参考文献(統計的学習法・最近傍探索)
  28. 28. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • H. Jegou, M. Douze, C. Schmid, Product quantization for nearest neighbor search , PAMI, Vol.33, pp117-128, 2011. • D. Parikh, K. Grauman, Relative attributes , ICCV, pp. 503-510, 2011. • J. Shotton, T. Sharp, P. Kohli, S. Nowozin, J. Winn, A. Criminisi, Decision Jungles: Compact and Rich Models for Classification , NIPS, pp.234-242, 2013. 28 参考文献(統計的学習法・最近傍探索)

×