Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

3,979 views

Published on

NIPS2014読み会 (2015/1/20) 

Published in: Technology
  • Be the first to comment

[論文紹介] Learning Generative Models with Visual Attention (NIPS2014)

  1. 1. 2015/01/23 NIPS2014読み会 Learning  Generative  Models  with  Visual  Attention by  Yichuan  Tang,  Nitish  Srivastava,  Ruslan  Salakhutdinov ヤフー株式会社 山本  浩司
  2. 2. P2 概要 •  特定の領域への注視(attention)のメカニズムを 利用した画像の生成モデル •  顔の位置が未知の大きな画像から 顔の位置を特定 •  画像全体ではなく、顔だけをモデリング
  3. 3. P3 背景 •  画像を扱う生成モデル •  Restricted  Boltzmann  Machine,  Deep  Belief  Net[1],  等 •  物体の一部が隠れているときに識別モデルより有利 •  問題点 •  高解像度画像では計算量が大きく、スケールするのが難しい •  画像内のどこに物体があるかがわからない 先行研究はラベル付きデータが必要 •  ラベルを得るのは高コスト •  膨大なラベルなしデータが使えない
  4. 4. P4 提案手法 •  大きな画像での顔の領域を推定 •  顔の位置は未知 •  画像内の顔に関係する領域を探す •  無関係な領域を無視できる •  Gaussian  Deep  Belief  Net(GDBN) ラベル(顔の位置情報)なし画像の データセットから顔の生成モデルを学習 •  ConvNet  (畳み込みネットワーク) 顔を探す位置のパラメータを学習
  5. 5. P5 手法の全体像 •  GDBN:  大きな画像内で探す顔を生成・更新 •  ConvNet:  顔にマッチする領域を探す 探そうとする顔と、現在の注目領域から 顔 GDBN 位置合わせ パラメータ 位置合わせパラメータを更新 顔を 更新 注目領域 注目領域 (青枠) •  注目領域は 位置合わせパラメータで決まる
  6. 6. P6 ConvNet  (畳み込みネットワーク) •  位置合わせ用パラメータの良い 初期値の発見に使用 (Approximate  inference) •  入力: •  GDBNの生成した顔 •  画像内の現在の注目領域 •  出力: •  新たな位置合わせパラメータ GDBN 注目領域 (72x72) 位置合わせ パラメータ 顔画像 (24x24)
  7. 7. P7 Approximate  inference ConvNetで位置パラメータ          の良い初期値を発見 DBN 現在の 注目領域 更新後のパラメータ
  8. 8. P8 Gaussian  Deep  Belief  Net(GDBN) •  顔の生成モデル •  画像内で探す顔を生成 •  位置合わせ用パラメータで 注目領域(顔を探す位置) を決め、マッチする領域を探す GDBN位置合わせ パラメータ 注目領域 顔画像 (24x24)
  9. 9. P9 Gaussian  Deep  Belief  Net(GDBN) •  Gaussian  RBM[22]を2つ重ねたもの 可視層の分布がガウス分布 平均が隠れ層からの活性で決まる GDBN Gaussian  RBM 隠れ層 接続の 重み 可視層
  10. 10. P10 推定 •  入力画像        に対し、      を計算したい •  顔v、位置合わせパラメータuの分布 •  事後分布が複雑で扱いづらいため ギブスサンプリングで交互に変数を更新 •  位置パラメータuの初期値決定に、 ConvNetによるapproximate  inferenceを実行
  11. 11. P11 推定の流れ •  Step1(初期化):  位置合わせパラメータ        をランダムに初期化 顔  は全データの平均顔 •  Step2(位置パラメータ更新):          と注目領域                  を ConvNetの入力とし、新たな        を出力 (approximate  inference)    •  Step3:  (顔の更新):GDBNのギブスサンプリング •  Step4:  新たな顔   と注目領域         で 再度approximate  inference   Approximate  inference Approximate  inference ギブスサンプリング初期化
  12. 12. P12 ギブスサンプリング •  顔画像    のサンプリング:   DBNからの影響: 注目領域からの影響:       画像に写った顔の影響を受ける •  位置パラメータ        のサンプリング: 顔とマッチする領域の確率が高い =−
  13. 13. P13 学習 •  モンテカルロベースのEMアルゴリズム •  E-step: ギブスサンプリング(前述)   事後分布から        ,          ,            ,      をサンプリング   •  M-step: サンプルを学習データとして GDBN、ConvNetのパラメータを更新 •  ConvNetはラベル(目と口の位置)付き画像で pretrainしておく
  14. 14. P14 実験 •  Caltechデータセットを使用 •  最初の4ステップでapproximate  inference その後、ハミルトニアンモンテカルロ(HMC)[28]で 位置パラメータ        を調整 •  黄枠が初期位置、ステップ経過につれて青枠で表示 •  Approximate  inferenceがすばやく位置パラメータの 良い初期値を発見できている
  15. 15. P15 顔位置推定精度 •  わずかなステップ数で精度が収束 •  最新のテンプレートマッチング  (OpenCV2.4.9) と比較しても遜色がなく、見るウインドウ数が少なくてすむ
  16. 16. P16 曖昧性があるときの推定 •  2つの画像を連結して実験 •  初期位置が同じでも顔vの違いによって、 注目領域の移動が変わる
  17. 17. P17 まとめ •  顔の位置が未知(ラベルなし)の大きな画像から 顔を生成的に学習 •  ConvNetを利用し特定の顔を探索 •  見るのが画像の一部のみ.  計算量を軽減
  18. 18. 情報開示先ラベルを入力してください ありがとうございました

×