【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilistic Graphics Programs

6,243 views
5,943 views

Published on

2014/1/23に行われたNIPS2013読み会の発表資料です。
論文:V.Mansinghka, T.D,Kulkarni, Y.N.Perov, J.Tenenbaum: Approximate Bayesian Image Interpretation Using Generative Probabilistic Graphics Programs
の解説です。

Published in: Technology

【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilistic Graphics Programs

  1. 1. 【論文紹介】 Approximate Bayesian Image Interpretation Using Generative Probabilistic Graphics Programs NIPS 2013 論文読み会 2014/1/23 @東大工学部6号館 加藤公一 @hamukazu シルバーエッグ・テクノロジー株式会社
  2. 2. 自己紹介 加藤公一(きみかず) 博士(情報理工学) 修士までは数学 シルバーエッグテクノロジー株式会社 レコメンドエンジン作ってます
  3. 3. 論文 • タイトル:Approximate Bayesian Image Interpretation using Generative Probabilistic Graphics Programs • 著者:V.Mansinghka, T.D,Kulkarni, Y.N.Perov, J.Tenenbaum
  4. 4. 概要 • 画像認識の新しい手法を提案 • 応用例2例 – CAPTCHAの解析 – 写真から道路の抽出
  5. 5. 背景 • 「与えられた画像のシーンをシンボリックに記 述する」という問題 • 従来、画像認識を使ったボトムアップのアプ ローチが成功してきた • しかし、ボトムアップアプローチの問題点とし て、精度を上げるには大きなコーパス(学習 データ)が必要
  6. 6. ボトムアップアプローチ トップダウンアプローチ 構成要素を仮定する 画像認識により分解 する 分解された要素につい て、それぞれパラメータ を推定する 構成要素がどのよう に組み合わされてい るかというパラメータ を推定する 本論文で提案するのはトップダウンアプローチの方
  7. 7. モデル CAPTCHAの場合の例 Stochastic Scene Generator ≘ ⊻ ≐ ∨≘ ∩ ≉≄ 入力画像 ≓ ⊻ ≐ ∨≓ ∩ 文字の種類、大きさ、位置、回転 角度など Approximate Renderer ≉≒ ⊻ ≦ ∨≓ ∻ ≘ ∩ Stochastic Comparison ≐ ∨≉≄≪≉≒∻ ≘ ∩ ≐ ∨≓ ≪≉≄∩ を求めたい 文字ごとのぼかし、全体のぼかしの 係数
  8. 8. 計算方法 ≙ ≐ ∨≓ ∩ ≱ ∨≓ ∰ ∻ ≓ ∩ ≐ ∨≘ ∩ ∽ ≙ ≐ ∨ ≘ ∩ ≱ ∨≘ ∰ ∻ ≘ ∩ ∽ ≐ ∨ ≘ ∰ ∩ ≐ ∨≓ ∩ ∽ ≩ ≩ ≩ ≩ ≪ ≪ ≪ ≪ ≪ ≩ ≪ MCMC法(Metropolis-Hastingsアルゴリズム) ⊵ ≐ ∨≉≄≪≦ ∨≓ ∰∻ ≘ ∰∩∻ ≘ ∰∩≐ ∨≓ ∰∩≐ ∨≘ ∰∩≱∨∨≓ ∰∻ ≘ ∰∩ ∡ ∨≓∻ ≘ ∩∩ ⊶ ⊮∨∨≓∻ ≘ ∩ ∡ ∨≓ ∰∻ ≘ ∰∩∩ ∽ ≭≩≮ ∱∻ ≐ ∨≉≄≪≦ ∨≓∻ ≘ ∩∻ ≘ ∩≐ ∨≓ ∩≐ ∨≘ ∩≱∨∨≓∻ ≘ ∩ ∡ ∨≓∰∻ ≘ ∰∩∩ 元画像からある一定の距離にあると仮定してrejection sampling (確率αでaccept) ≐ ∨≉≄≪≦ ∨≓∻ ≘ ∩∻ ≘ ∩ は、画像の差分をもとに計算する
  9. 9. (復習?) Metropolis-Hastingsアルゴリズム 変数の初期値をランダムに設定 以下を繰り返す 変数S_i, X_jの中から一つ選ぶ 選ばれた変数について、決められた確率分布に応じてサンプリング (そうやって更新したものをX’, S’とする) 確率αでS, XをS’, X’で置き換える。それ以外の場合はS’, X’を捨てる。 (rejection sampling)
  10. 10. 応用例1:CAPTCHAの解読 • CAPTCHA: ウェブページで登録するときに人 間であることを確認するための、文字画像 • TurboTax, E-Trade, AOLなどのデータを利用 • (わざと)文字の一部が重なっていたりして、 読み取るのが難しい。
  11. 11. パラメータ • S:グリフごとに、存在するか、位置、大きさ、回 転角度 • X:グリフごとのぼかし係数、全体のぼかし係 数
  12. 12. 実験結果 提案手法による認識率:70.6% Tesseractによる認識率:37.7%
  13. 13. ロバスト性 イテレーションの過程で局所最適解をうまく脱している
  14. 14. 応用例2:道路抽出 • 画像から道路を抽出したい • 車の自動運転などでの応用を想定 • 実験用データはKITTI Vision Benchmark Suite
  15. 15. パラメータ • S: 道路の高さ、道路の幅、車線の幅、道路の 端のカメラからの相対位置
  16. 16. 実験結果 (C)と(d)が既存手法の結果、(e)が提案手法の結果
  17. 17. 実験結果(続き) 自信がないケース) (GPGPは提案手法のこと) 自信があるケース)
  18. 18. 結論 • レンダラを使った生成モデルで、シーン変数 を正確に予測することができた。 • 2Dのアプリケーション:CAPTCHA、3Dのアプリ ケーション:道路推定、で同じ手法が有効で ある。 • しかし、複雑なモデルな場合にスケールさせ るのは難しい。

×