DeepFix: A Fully Convolutional Neural Network
for Predicting Human Eye Fixations
Kruthiventi, Srinivas SS, Kumar Ayush, and Radhakrishnan Venkatesh Babu.
IEEE Transactions on Image Processing (2017).
http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7937829
2017/7/10
Deep Learningゼミ M2小山望海
はじめに
• 人がものを見るときには、大きく分けて2つの要因がある
– 反射(bottom-up)
– 経験(top-down)
• 目的:画像の中で人が反射的に見る場所を推定する
• サリエンシーマップの作成
– サリエンシー:bottom-up性注意を誘引する特性
– 視覚刺激のサリエンシーを計算して単一の2次元マップとして表現し
たもの
DeepFixの構造
• 入力:W×H×3(RGB)
• 5つの畳み込み部分
– ①②は2つの畳み込み層(ReLU)
– ③④⑤は3つの畳み込み層(ReLU)
– ①~④はマックスプーリング層(3×3)
• ①~③はストライド2
• 最初の5層はVGG-16に130万枚の画像
を学習させた重みを用いて初期化
VGG-16
DeepFixの構造
• ⑤でカーネルに穴を入れる
– 使うメモリを増やさずに
入力領域を大きくできる
• Inception Module(⑥)
– 1×1、3×3の2種類の畳み込み層を用いて異なる
スケールの情報を抽出する
• Location Biased Convolutional(LBC)層(⑦)
– 位置に依存するバイアスをかける
• 最終的にサリエンシー・マップが出力される
LBC(Location Biased Convolutional)層
中心バイアス
• 人の目線のもう一つの特徴:中心に目線が行きやすい
→ 中心にバイアスをかける
𝑅 𝑐 𝑥, 𝑦 = R 𝑖,𝑗
𝐼 𝑥 + 𝑖, 𝑦 + 𝑗 ・𝑊𝑐 𝑖, 𝑗
+𝐿 𝑥 + 𝑖, 𝑦 + 𝑗 ・𝑊′
𝑐 𝑖, 𝑗 + 𝑏 𝑐
𝐿 𝑥, 𝑦 :16次元のガウス分布
実験
• LBC層はゼロ平均と標準偏差0.01のガウス分布で初期化
• 最後の畳み込み層はゼロ平均と標準偏差10のガウス分布で初期化
• 最初にSALICONの画像15000枚を学習させた後、作成した実際のサリエ
ンシー・マップを学習させる
• CAT2000, MIT300, PASCAL-S, OSIE, FIGRIMのデータセットを用いて、7種類
の評価方法で評価
MIT300SALICON
結果
結果
AUC以外の評価方法では他の
手法よりかなり良い結果が得ら
れた
AUCは真偽性を重視しないた
め、ぼやけたサリエンシー・マッ
プが好評化になりやすい
• Inception ModuleとLBC層を取り除いた場合と比較
• Inception ModuleとLocation Biased Convolutional(LBC)層を用
いることで、正確なサリエンシー・マップを作成することに成
功
まとめ

7月10日(月)dl