Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -

6,396 views

Published on

2010年の信号処理シンポジウムでレビュー講演をした際の資料をアップします.今となっては最新ではないかもしれませんが…

Published in: Technology
  • Be the first to comment

人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -

  1. 1. 人間の視覚的注意を予測するモデル ~ 動的ベイジアンネットワークに基づく 最新のアプローチ ~ 木村 昭悟 (きむら あきさと) 日本電信電話(株) NTTコミュニケーション科学基礎研究所 E-mail: akisato at ieee dot org
  2. 2. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 2 Ready ? Where would you focus? 人間は映像中から重要と思われる情報を瞬時に判断できる。
  3. 3. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 3 特徴統合理論 [Treisman et al. 1980] • いくつかの基本的な特徴量(輝度・色など)を抽出し 処理することで、各々 feature map を生成。 • Feature map を統合することで、saliency map(SM) を生成。 • Saliency map内で最も輝度値が大きくなる箇所に 最初に視線が向けられる。 入力画像 Saliency map
  4. 4. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 4 これをもし計算機上で実現できれば… • 与えられた映像のみから 人間が注目しやすい領域を自動的に特定できる。 • 人間と同様に、重要性に応じて視覚情報を 能動的に取捨選択できるシステムの構築が可能に。 (菊池・荻野・浅田 © 2009 日本ロボット学会誌) (Gao and Vasconcelos © 2004 NIPS) (Su and Takahashi © 2010 VISAPP) 視覚補助 ロボットビジョン 物体認識
  5. 5. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 5 今日お話しすること • 人間の映像注視行動を高速かつ高精度に模擬する 計算モデルについて のお話 具体的には… • Saliency map: 視覚的注意の計算モデルの基本 • 視覚的注意の確率モデル • 拡張モデル: より精緻なモデルへ • 応用: 領域分割、物体検出、物体認識学習
  6. 6. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 6 Saliency map
  7. 7. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 7 Saliency map の計算モデル • 数多くの研究がなされている – Itti, Koch & Niebur @ IEEE Trans PAMI 1998: • 特徴統合理論を源流とする生理学モデル [Koch 1985] の計算モデル実装 – Itti & Baldi @ CVPR2003: • 各種画像特徴の事前分布と事後分布との相違の検出 – Frintrop @ 2005, Gao & Vasconcelos @ ICCV2007: • Itti モデル + トップダウン情報の考慮 – Avraham & Lindenbaum @ IEEE PAMI 2009: • テンプレート照合をベースとした特異性の検出
  8. 8. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 8 Saliency map の計算 intensity color orientation motion Feature extraction & recursive Gaussian convolution Center-surround differences & normalization Across-scale summation & normalization Linear combination Feature maps Conspicuity maps Input image Saliency map (Itti and Koch © 2000 Vision Research) (Itti, Koch and Niebur © 1998 IEEE Trans PAMI)
  9. 9. Presented by Akisato Kimura Page 9 Saliency mapモデルの問題点 • 与えられた入力画像について決定論的にSMが計算される。 • SM内で最も輝度値が大きい領域に最初に視線が向く。 → 同じ映像が与えられると、誰がいつその映像を 見ても同じ場所に視線が向く ことを主張 → 明らかに人間の直感と乖離 入力画像 Saliency map (extracted by Itti-Koch model) Page 9信号処理シンポジウム レビュー講演 2010.11.25
  10. 10. Presented by Akisato Kimura 視線位置が変動する要因 • 「トップダウンな制御」が支配的と考えられていた – 視聴者の趣味や嗜好: 好き/嫌いなものに目が向く、粗探しをする – 映像を見る目的: 探し物をしている、車を運転している、時刻が知りたい – 映像文脈、先見的な知識: ジャンル特有の映像の見方、字幕の出る位置 • 計算モデルでもトップダウン情報の導入が進んだ – Peters & Itti @ CVPR2007 – Navalpakkam & Itti @ CVPR2006 信号処理シンポジウム レビュー講演 2010.11.25 Page 10
  11. 11. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 11 では、この例ではどうでしょうか? • 斜め30度に傾いた線を見つけてみて下さい。 • どちらの例が早く見つけられましたか? – 左の方が簡単でしたね (たぶん) • でも、ちょっとおかしいと思いませんか? – 早く見つける = 目的の箇所に早く視線を向ける – 目的は一緒なのに、視線位置が変化する、の? ↓ これです ↓
  12. 12. Presented by Akisato Kimura この現象をどう説明するのか? • 信号検出理論 を用いた解釈が有用 信号検出理論 • 軍事目的の統計理論が発祥 [Peterson 1954] – ノイズの多いレーダー信号を受け取ったときに、 どのような基準で敵がいる・いないを判断するか? • 直後に、心理学での意思決定に転用 [Tanner 1954] – 以降、刺激検出力に関する心理物理学の理論として定着 • 以降、通信理論や信号処理など幅広く利用される • 視覚探索課題への転用はごく最近 [Eckstein 2000] 信号処理シンポジウム レビュー講演 2010.11.25 Page 12
  13. 13. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 13 信号検出理論を用いた解釈 • 実際に知覚されるsaliencyは、入力された視覚刺激に対して 常に一定ではなく、ガウス分布に従って得られる確率的数量 であると仮定。 • 実際に知覚されたsaliencyが最も大きな領域に視線が向く。 Target Distracters
  14. 14. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 14 Stochastic saliency model Kimura, Pang, Takeuchi, Miyazato, Yamato, Kashino “A stochastic model of human visual attention with a dynamic Bayesian network,” conditionally accepted to IEEE Trans. PAMI, September 2010.
  15. 15. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 15 確率モデルの概略 Saliency map (SM) • 映像入力によって人間が受ける 視覚刺激の強さを表現 <従来技術> Stochastic saliency map (SSM) • 信号検出理論 [Eckstein 2000] に 基づき、 刺激に対する応答を ガウス分布でモデル化 Eye movement patterns (EMP) • 視線移動の戦略を制御する 人間の内部状態をモデル化 (動かしたい or 動かしたくない) • 映像入力とは独立に決定される Eye-focusing density map • Bottom-up/Top-down情報を 統合することで、視線が向く 確率の高い領域を推定 Top-down Bottom-up
  16. 16. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 16 動的ベイジアンネットワークによる表現 Eye-focusing density maps Stochastic saliency maps (deterministic) saliency maps Eye movement patterns Bottom-up Top-down Action Response Stimulus Intention Input video Input Given in advance To be estimated 刺激 どんな視覚情報が入ってきたか? 応答 刺激をどう受け取ったか? 行動 ・視線移動の大きさは意図で決まる ・応答が大きい箇所に視線が向く 意図 視線を動かしたいかどうか?
  17. 17. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 17 確率モデルの処理 Stochastic saliency map (Time = t ) “passive” or “active” Saliency map Input frame (Time = t ) Eye-focusing density map Eye movement pattern SaliencySaliency Prob. s.t. it takes the highest = 0.55 Prob. s.t. it takes the highest = 0.01 視覚系内部の 観測雑音を考慮 (信号検出理論) 時間連続性 “passive” or “active”Stochastic saliency map (Time = t-1 )
  18. 18. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 18 Saliency map の抽出 • Itti model [Itti 1998] を利用 – 特徴統合理論に基づき、 映像の各フレームから独立にSMを生成 – 基本特徴量の空間的なコントラストを 多重解像度処理によって抽出し統合 • 抽出に用いた基本特徴量 – 輝度 – 補色 (赤/緑、青/黄) – 方向 (0, π/4, π/2, 3π/4) – 運動 (水平、垂直) intensity color orientation motion Feature extraction & recursive Gaussian convolution Center-surround differences & normalization Across-scale summation & normalization Linear combination Feature maps Conspicuity maps Input image Saliency map
  19. 19. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 19 • SMを観測とする Gaussian状態空間モデル • SSMの分布 (を決める平均・分散) は、 SMを観測とする Kalman filter により解析的に導出可能。 Stochastic saliency map の推定 Stochastic saliency maps (deterministic) saliency maps Response Stimulus 1 2 モデル SSMがガウス分布を介し、SMとして観測される。 SSMの時間方向での連続性を仮定。
  20. 20. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 20 Eye-focusing density map の推定 (1) • 信号検出理論 に基づく確率計算 Eye-focusing density maps Eye movement patterns Action Response Intention Stochastic saliency maps 1 モデル 映像中の位置 x(t) において実際に観測された応答 (=SSMの実現値)が、それ以外の位置での応答よりも 大きくなるときに、位置 x(t) に視線が向く。
  21. 21. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 21 信号検出理論に基づく確率計算 1. 右側PDFの1点sを固定 2. 左側PDFからの出力が sよりも小さくなる確率を 計算 3. 右側PDFの値sを 少しずつ動かしながら 1-2を繰り返す
  22. 22. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 22 Eye-focusing density mapの推定 (2) • EMPを隠れ状態とする 隠れマルコフモデル (HMM) Eye-focusing density maps Action Response Intention Stochastic saliency maps 3 3 2 Eye movement patterns モデル 入力と独立に遷移するEMPによって視線移動の大きさを制御 EMP状態遷移確率 視線移動距離に 関するPDF
  23. 23. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 23 Eye movement patternとその意味 視線移動距離 を小さく抑える 大きな視線移動 をある程度許容
  24. 24. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 24 Eye-focusing density mapの推定 (3) • サンプリングを用いた密度推定 – EMPに依存する部分から Markov chain Monte Carlo (MCMC) でサンプリング – SFMに依存する部分でサンプルの重みを決定 SFMから決定 EMPから決定
  25. 25. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 25 サンプルベース密度推定の詳細 • サンプリングを2段階に分割 Sampling from EMP part Samples at time t-1 Samples at time t Weighting with SFM part Re- sampling … … … SFMから決定 EMPから決定 MCMCサンプリングにより サンプリング処理量を平準化 木構造を用いた繰り返し演算・ 並列化により高速化
  26. 26. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 26 モデルパラメータの学習 • 映像入力、及び対応する視線位置測定結果を用いて、 モデルパラメータを自動的に学習。 EMPモデルパラメータEMPモデルパラメータSSMモデルパラメータSSMモデルパラメータ 入力映像 EMアルゴリズムを用いて モデルパラメータを推定 EMアルゴリズムを用いて モデルパラメータを推定 ビタビ学習を用いて モデルパラメータを推定 ビタビ学習を用いて モデルパラメータを推定 視線位置系列 視線測定機器を用いて 実際の視線位置を測定 Saliency mapを抽出
  27. 27. Presented by Akisato Kimura 脱線: 視線位置測定機器とその仕組み • 近赤外線を眼球に投射し、その反射像から推定。 • 様々な形態の機器が開発されています。 信号処理シンポジウム レビュー講演 2010.11.25 Page 27 (© 2010 Tobii Corp.) (Ohno, Mukawa & Yoshikawa © 2002 Proc. ETRA) プルキニエ像 (投射近赤外の 網膜反射像) 瞳孔中心 据え置き型 ディスプレイ一体型 携帯型
  28. 28. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 28 Demonstration
  29. 29. Presented by Akisato Kimura アルゴリズムの実行例 信号処理シンポジウム レビュー講演 2010.11.25 Page 29
  30. 30. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 30 Evaluations
  31. 31. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 31 実験条件 • 公開データベース CRCNS eye-1※1を使用 – 映像: 100本、MPEG-1、640x480 pixels、30fps – 視線データ: 各映像4~6名分、240fps – ”Original experiments” と称する映像群(50本) 及び対応する視線測定結果を使用 • モデルパラメータの学習: 5-fold cross validation – 40本をパラメータ学習に、残り10本を評価に用いる • 計算機スペック – CPU: Intel Core2 Quad Q6600 (2.40GHz) – GPU: NVIDIA GeForce 8800GT (112 cores, 512MB VRAM) ※1 http://crcns.org/data-sets/eye/eye-1
  32. 32. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 32 評価尺度 • Normalized scanpath saliency (NSS) – ランダムな視線移動に対する有意差を測定する尺度 1. 出力画像のピクセル値を、 平均=0、分散=1となるように正規化 2. 各フレームについて、 被験者の視線位置での出力画像のピクセル値を抽出。 3. 上記ピクセル値のフレーム平均を取り、NSSを算出。 NSS=1.75 正規化した ピクセル値の分布 出力画像 正規化
  33. 33. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 33Page 33 実験結果 (1/3) • 被験者の視線位置との一致性の比較 信号検出理論を用いた 視線位置推定により 大幅な精度向上 EMPの導入により さらなる精度向上 Saliency map SMをSSMにしても 直接の効果はない
  34. 34. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 34 Extended model Kimura, Pang, Takeuchi, Yamato, Kashino “Dynamic Markov random fields for stochastic modeling of visual attention,” Proc. ICPR2008, December 2008.
  35. 35. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 35 • SMを観測とする Gaussian状態空間モデル • 空間的な関係性を考慮していない! – Saliencyが高い箇所の周辺もsaliencyが高いはず Stochastic saliency map の推定 Stochastic saliency maps (deterministic) saliency maps Response Stimulus 1 2 モデル SSMがガウス分布を介し、SMとして観測される。 SSMの時間方向での連続性を仮定。
  36. 36. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 36 空間的な関係性を考慮すると • 動的マルコフ確率場 によるモデル化 – Saliencyの時空間的な関係を統一的に記述 – ナイーブ平均場近似により、 初期モデルとほぼ同様のコストで視線位置を推定 動的マルコフ確率場 (dynamic MRF) 時間方向のダイナミクスを取り込んだ マルコフ確率場 (MRF) の拡張 : 観測 : 隠れ状態 時刻 t時刻 t-1 時刻 t+1
  37. 37. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 37 SSM推定処理の概要 • SSMの時間方向での連続性を仮定。 • SSMがガウス分布を介し、SMとして観測される。 • SSMの空間的な連続性も同様に仮定。 Stochastic saliency maps Saliency maps (y の近傍)
  38. 38. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 38Page 38 実験結果 • 平均NSSの比較 – 提案法 with MRF >> Itti-Koch model (約2倍) – 提案法 with MRF > 提案法 without MRF (約1.2倍) 0 0.5 1 1.5 2 2.5 3 3.5 4 Itti-Koch model previous model proposed model AverageNSSscore
  39. 39. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 39 Applications Akamine, Fukuchi, Kimura, Takagi “Fully automatic extraction of salient objects in near real-time,” the Computer Journal, November 2010. 福地、宮里、木村、赤嶺、高木、大和 “グラフコストの逐次更新を用いた映像顕著領域の自動抽出,” 電子情報通信学会 論文誌 D、2009年8月
  40. 40. Presented by Akisato Kimura 映像領域分割 • 問題設定 – 映像から、興味の対象である領域 (物体領域) を、 背景などそれ以外の領域 (背景領域) と区別して抽出 • 有力な解法: Graph cuts – 領域分割の問題をMRFの最尤推定問題として定式化 – このMRF最尤推定問題は MRFと等価なグラフの最小カット問題に置き換えられる [Greig 1989] [Boykov & Jolly 2001] [Kohli & Torr 2007] – 最小カット問題を多項式時間で解くアルゴリズムがある [Ford & Fulkerson 1956] [Boykov & Jolly 2001] – Computer vision系研究における流行技術の1つ 信号処理シンポジウム レビュー講演 2010.11.25 Page 40 (参考文献)石川 ”コンピュータビジョン 最先端ガイド1 “, 第2章 グラフカット
  41. 41. Presented by Akisato Kimura Graph cutsを用いた領域分割 • Interactive graph cuts [Boykov & Jolly 2001] – 手動で与えられたラベル(「物体」 or 「背景」)を用いた graph cutsに基づく静止画像分割の手法 信号処理シンポジウム レビュー講演 2010.11.25 Page 41 入力画像 ラベル 分割結果 (手動ラベリング) 画像特徴分布をGMMでモデル化 Features for “obj” Features for “bkg” グラフ作成および グラフカット この部分を 何とかしたい!
  42. 42. Presented by Akisato Kimura 顕著性を手がかりとする領域分割 • 「視覚的注意の確率モデル」の出力結果を 手がかりとすれば、自動抽出を実現可能に 信号処理シンポジウム レビュー講演 2010.11.25 Page 42 入力映像 視線位置推定 •人間の視覚特性を模擬する 統計モデルを独自に構築 •そのモデルに基づいて、 注目しやすい画像中の 位置を自動的に推定 注目領域抽出 •推定視線位置周辺の画像 特徴、及び構成要素の 空間的連続性を考慮して、 主要構成要素を自動抽出
  43. 43. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 43 自動領域抽出方法の構成 入力フレーム 統計モデル構築 注目対象の特徴量尤度 非注目対象の特徴量尤度 注目点推定 抽出結果 注目領域 事前確率 特徴量尤度 逐次更新 ポイント 1 注目点推定の結果から大まかな 「もの」の場所を自動的に特定 ポイント 2 現在の抽出結果を未来のモデル 構築に利用、安定した抽出を実現 ポイント 1 ポイント 2 尤 度 尤 度
  44. 44. Presented by Akisato Kimura 注目領域抽出方法の効果 信号処理シンポジウム レビュー講演 2010.11.25 Page 44 入力映像 1. 先頭フレームのみ 手動でラベル付け +抽出領域の追跡 ([Kohli 2007] 等に対応) 2. 顕著性に基づき 事前確率を自動設定 +領域追跡なし ([Fu 2008] 等に対応) 3. 注目位置に基づき 事前確率を自動設定 +事前確率を逐次更新 (提案技術) 先頭で構成要素を手動設定しても、一度見失うとそれ以降抽出不能に。 「注目しやすさ」だけでは、その確率的な変動により抽出結果が安定しない。 提案技術は、上記2つの問題を同時に解決。
  45. 45. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 45 Demonstration Sekhon、木村、南、坂野、前田 “Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,” 電子情報通信学会 PRMU & IBISML研究会、2010年9月 木村、南、坂野、前田、杉山 “対話型映像認識理解のための動的学習戦略に関する試み,” (発表予定)電子情報通信学会 PRMU研究会、2010年12月
  46. 46. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 46 人間の発達初期段階を模した物体認識学習 • 映像顕著性に基づく視覚情報フィルタリングにより、 事前知識を仮定せずに重要領域を自動的に抽出 • 抽出された領域に対して蓄積された知識を用いて 自動/手動でアノテーション 入力映像 注目位置推定 重要領域抽出 特徴抽出 – 画像認識モデル学習 視覚特性に基づく処理で 人間が目を向けそうな 箇所を自動的に推定 (その付近に「もの」が あるだろうという仮説) 「もの」のありそうな 箇所から、「もの」 らしい領域を自動的 に抽出 「もの」らしい領域から 画像特徴量を抽出、その 特徴量と蓄えた知識から 「もの」が何であるか? に関する情報を提示 「もの」に関する教示情報 と「もの」の画像特徴量と から、それらの関係性を 学習し、知識として蓄積 教示情報
  47. 47. Presented by Akisato Kimura信号処理シンポジウム レビュー講演 2010.11.25 Page 47 デモシステム
  48. 48. まとめ  人間の映像注視行動を高速かつ高精度に模擬する 計算モデルについて ご紹介しました。 具体的には  Saliency map  視覚的注意の確率モデル  その応用(領域分割、物体認識学習) 今後の課題は…  より広範囲にわたるトップダウン制御の実現  音響信号に起因する注意の計算モデル  Multi-modal attention estimation 48 信号処理シンポジウム レビュー講演 2010.11.25
  49. 49. Acknowledgments (敬称略) 信号処理シンポジウム レビュー講演 2010.11.2549  Collaborators  竹内龍人、大和淳司、柏野邦夫 @ NTT CS Labs.  高木茂、宮里洸司、福地賢、赤嶺一馬 @ 沖縄高専  Derek Pang @ Stanford Univ.  Clement Leung @ Univ.Toronto  南泰浩、坂野鋭、前田英作、杉山弘晃 @ NTT CS Labs.  Supporters  Laurent Itti @ Univ. Southern California, USA  Minho Lee @ Kyungpook Univ., South Korea
  50. 50. Thank you for your kind attention. 信号処理シンポジウム レビュー講演 2010.11.2550  Questions / comments ? Corresponding author Akisato Kimura, Ph.D @ NTT CS Labs.

×