Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
【論文紹介】
Approximate Bayesian Image
Interpretation Using Generative
Probabilistic Graphics Programs
NIPS 2013 論文読み会
2014/1/2...
自己紹介
加藤公一(きみかず)
博士(情報理工学)
修士までは数学
シルバーエッグテクノロジー株式会社
レコメンドエンジン作ってます
論文
• タイトル:Approximate Bayesian Image
Interpretation using Generative Probabilistic
Graphics Programs
• 著者:V.Mansinghka, T....
概要
• 画像認識の新しい手法を提案
• 応用例2例
– CAPTCHAの解析
– 写真から道路の抽出
背景
• 「与えられた画像のシーンをシンボリックに記
述する」という問題
• 従来、画像認識を使ったボトムアップのアプ
ローチが成功してきた
• しかし、ボトムアップアプローチの問題点とし
て、精度を上げるには大きなコーパス(学習
データ)が必...
ボトムアップアプローチ

トップダウンアプローチ
構成要素を仮定する

画像認識により分解
する

分解された要素につい
て、それぞれパラメータ
を推定する

構成要素がどのよう
に組み合わされてい
るかというパラメータ
を推定する

本論文で...
モデル
CAPTCHAの場合の例
Stochastic Scene
Generator

≘ ⊻ ≐ ∨≘ ∩
≉≄
入力画像

≓ ⊻ ≐ ∨≓ ∩

文字の種類、大きさ、位置、回転
角度など

Approximate
Renderer

≉...
計算方法
≙ ≐ ∨≓ ∩ ≱ ∨≓ ∰ ∻ ≓ ∩ ≐ ∨≘ ∩ ∽ ≙ ≐ ∨ ≘ ∩ ≱ ∨≘ ∰ ∻ ≘ ∩ ∽ ≐ ∨ ≘ ∰ ∩
≐ ∨≓ ∩ ∽
≩ ≩ ≩ ≩
≪ ≪ ≪ ≪
≪
≩

≪

MCMC法(Metropolis-H...
(復習?)
Metropolis-Hastingsアルゴリズム
変数の初期値をランダムに設定
以下を繰り返す
変数S_i, X_jの中から一つ選ぶ
選ばれた変数について、決められた確率分布に応じてサンプリング
(そうやって更新したものをX’, ...
応用例1:CAPTCHAの解読
• CAPTCHA: ウェブページで登録するときに人
間であることを確認するための、文字画像
• TurboTax, E-Trade, AOLなどのデータを利用
• (わざと)文字の一部が重なっていたりして、
読...
パラメータ
• S:グリフごとに、存在するか、位置、大きさ、回
転角度
• X:グリフごとのぼかし係数、全体のぼかし係
数
実験結果

提案手法による認識率:70.6%
Tesseractによる認識率:37.7%
ロバスト性

イテレーションの過程で局所最適解をうまく脱している
応用例2:道路抽出
• 画像から道路を抽出したい
• 車の自動運転などでの応用を想定
• 実験用データはKITTI Vision Benchmark Suite
パラメータ
• S: 道路の高さ、道路の幅、車線の幅、道路の
端のカメラからの相対位置
実験結果

(C)と(d)が既存手法の結果、(e)が提案手法の結果
実験結果(続き)

自信がないケース)

(GPGPは提案手法のこと)

自信があるケース)
結論
• レンダラを使った生成モデルで、シーン変数
を正確に予測することができた。
• 2Dのアプリケーション:CAPTCHA、3Dのアプリ
ケーション:道路推定、で同じ手法が有効で
ある。
• しかし、複雑なモデルな場合にスケールさせ
るのは...
Upcoming SlideShare
Loading in …5
×

【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilistic Graphics Programs

7,500 views

Published on

2014/1/23に行われたNIPS2013読み会の発表資料です。
論文:V.Mansinghka, T.D,Kulkarni, Y.N.Perov, J.Tenenbaum: Approximate Bayesian Image Interpretation Using Generative Probabilistic Graphics Programs
の解説です。

Published in: Technology

【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilistic Graphics Programs

  1. 1. 【論文紹介】 Approximate Bayesian Image Interpretation Using Generative Probabilistic Graphics Programs NIPS 2013 論文読み会 2014/1/23 @東大工学部6号館 加藤公一 @hamukazu シルバーエッグ・テクノロジー株式会社
  2. 2. 自己紹介 加藤公一(きみかず) 博士(情報理工学) 修士までは数学 シルバーエッグテクノロジー株式会社 レコメンドエンジン作ってます
  3. 3. 論文 • タイトル:Approximate Bayesian Image Interpretation using Generative Probabilistic Graphics Programs • 著者:V.Mansinghka, T.D,Kulkarni, Y.N.Perov, J.Tenenbaum
  4. 4. 概要 • 画像認識の新しい手法を提案 • 応用例2例 – CAPTCHAの解析 – 写真から道路の抽出
  5. 5. 背景 • 「与えられた画像のシーンをシンボリックに記 述する」という問題 • 従来、画像認識を使ったボトムアップのアプ ローチが成功してきた • しかし、ボトムアップアプローチの問題点とし て、精度を上げるには大きなコーパス(学習 データ)が必要
  6. 6. ボトムアップアプローチ トップダウンアプローチ 構成要素を仮定する 画像認識により分解 する 分解された要素につい て、それぞれパラメータ を推定する 構成要素がどのよう に組み合わされてい るかというパラメータ を推定する 本論文で提案するのはトップダウンアプローチの方
  7. 7. モデル CAPTCHAの場合の例 Stochastic Scene Generator ≘ ⊻ ≐ ∨≘ ∩ ≉≄ 入力画像 ≓ ⊻ ≐ ∨≓ ∩ 文字の種類、大きさ、位置、回転 角度など Approximate Renderer ≉≒ ⊻ ≦ ∨≓ ∻ ≘ ∩ Stochastic Comparison ≐ ∨≉≄≪≉≒∻ ≘ ∩ ≐ ∨≓ ≪≉≄∩ を求めたい 文字ごとのぼかし、全体のぼかしの 係数
  8. 8. 計算方法 ≙ ≐ ∨≓ ∩ ≱ ∨≓ ∰ ∻ ≓ ∩ ≐ ∨≘ ∩ ∽ ≙ ≐ ∨ ≘ ∩ ≱ ∨≘ ∰ ∻ ≘ ∩ ∽ ≐ ∨ ≘ ∰ ∩ ≐ ∨≓ ∩ ∽ ≩ ≩ ≩ ≩ ≪ ≪ ≪ ≪ ≪ ≩ ≪ MCMC法(Metropolis-Hastingsアルゴリズム) ⊵ ≐ ∨≉≄≪≦ ∨≓ ∰∻ ≘ ∰∩∻ ≘ ∰∩≐ ∨≓ ∰∩≐ ∨≘ ∰∩≱∨∨≓ ∰∻ ≘ ∰∩ ∡ ∨≓∻ ≘ ∩∩ ⊶ ⊮∨∨≓∻ ≘ ∩ ∡ ∨≓ ∰∻ ≘ ∰∩∩ ∽ ≭≩≮ ∱∻ ≐ ∨≉≄≪≦ ∨≓∻ ≘ ∩∻ ≘ ∩≐ ∨≓ ∩≐ ∨≘ ∩≱∨∨≓∻ ≘ ∩ ∡ ∨≓∰∻ ≘ ∰∩∩ 元画像からある一定の距離にあると仮定してrejection sampling (確率αでaccept) ≐ ∨≉≄≪≦ ∨≓∻ ≘ ∩∻ ≘ ∩ は、画像の差分をもとに計算する
  9. 9. (復習?) Metropolis-Hastingsアルゴリズム 変数の初期値をランダムに設定 以下を繰り返す 変数S_i, X_jの中から一つ選ぶ 選ばれた変数について、決められた確率分布に応じてサンプリング (そうやって更新したものをX’, S’とする) 確率αでS, XをS’, X’で置き換える。それ以外の場合はS’, X’を捨てる。 (rejection sampling)
  10. 10. 応用例1:CAPTCHAの解読 • CAPTCHA: ウェブページで登録するときに人 間であることを確認するための、文字画像 • TurboTax, E-Trade, AOLなどのデータを利用 • (わざと)文字の一部が重なっていたりして、 読み取るのが難しい。
  11. 11. パラメータ • S:グリフごとに、存在するか、位置、大きさ、回 転角度 • X:グリフごとのぼかし係数、全体のぼかし係 数
  12. 12. 実験結果 提案手法による認識率:70.6% Tesseractによる認識率:37.7%
  13. 13. ロバスト性 イテレーションの過程で局所最適解をうまく脱している
  14. 14. 応用例2:道路抽出 • 画像から道路を抽出したい • 車の自動運転などでの応用を想定 • 実験用データはKITTI Vision Benchmark Suite
  15. 15. パラメータ • S: 道路の高さ、道路の幅、車線の幅、道路の 端のカメラからの相対位置
  16. 16. 実験結果 (C)と(d)が既存手法の結果、(e)が提案手法の結果
  17. 17. 実験結果(続き) 自信がないケース) (GPGPは提案手法のこと) 自信があるケース)
  18. 18. 結論 • レンダラを使った生成モデルで、シーン変数 を正確に予測することができた。 • 2Dのアプリケーション:CAPTCHA、3Dのアプリ ケーション:道路推定、で同じ手法が有効で ある。 • しかし、複雑なモデルな場合にスケールさせ るのは難しい。

×