cvpaper.challenge	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Jason J. Yu, Adam W. Harley, Konstantinos G. Derpanis, “Back to Basics: Unsupervised Learning of Optical
Flow via Brightness Constancy and Motion Smoothness”, in ECCV Workshop on BNMW, 2016.	
【1】	
Keywords: Optical Flow, Unsupervised Learning	
新規性・差分	
概要	
CNNをベースとして,Unsupervisedにオプティカルフローを学習する
FlowNetを提案.データセットに依存して学習するオプティカルフローではな
く,環境に合わせて学習できるように教師なし学習のオプティカルフローに
チャレンジした.損失関数をフォトメトリック項や平滑化項により定義して,
完全教師なし学習でオプティカルフローを推定.フォトメトリック項では順フ
ローと逆フローが一致すれば損失ゼロ.CNNに適用すると右図のようにな
る.畳み込み層と対応づけるUnconv層によりフローの再現性を向上させ
る.	
・完全教師なし学習によるCNNベースのオプティカルフロー推
定を提案した	
・損失関数を定義して,CNNに挿入した.	
Links	
論文 https://arxiv.org/pdf/1608.05842v1.pdf	
プロジェクト
S. L. Pintea, J. C. van Gemert, “Making a Case for Learning Motion Representations with Phase”, in ECCV
Workshop on BNMW, 2016.	
【2】	
Keywords: Optical Flow, Eulerian Motion Representation	
新規性・差分	
概要	
オプティカルフローから動作のフェーズを表現するEulerian
Motion Representationを導くことで,行動認識や行動予測,
モーション転移などに有効と主張した.フェーズごとにCNNの学
習を行うことで,フェーズにおけるモーションや変位の関係性を
記述できる.	
・感覚的に,数フレーム単位のモーションの塊(フェーズ)を自動
で捉えることに成功した.フレーム数の変動に対応可能か?	
・フェーズ学習というものを行動認識,モーション予測,,モー
ション転移に適用し,各CNNアーキテクチャを提案.	
Links	
論文 http://openreview.net/pdf/H1Hp-q2s.pdf	
プロジェクト
http://silvialaurapintea.github.io/motion_transfer/index.html
Yu-Hui Huang, Jose Oramas M., Tinne Tuytelaars, Luc Van Gool, “Do Motion Boundaries Improve Semantic
Segmentation?”, in ECCV Workshop on BNMW, 2016.	
【3】	
Keywords: Semantic Segmentation	
新規性・差分	
概要	
Semantic Segmentationに対して,オプティカルフローやモー
ションの境界は必要であるかを検証した.実験ではSegNetやオ
プティカルフロー,モーション境界を用いることでSegNetの精度
からセマンティックセグメンテーションの精度を向上させることに
成功した.シンプルであるが,効果的なアイディアである.	
・オプティカルフローやモーション境界を用いることでSemantic
Segmentationの結果を向上させることに成功した.	
Links	
論文 http://openreview.net/pdf/H1q36jBj.pdf	
プロジェクト
Joon Son Chung, Andrew Zisserman, “Signs in time: Encoding human motion as a temporal image”, in ECCV
Workshop on BNMW, 2016.	
【4】	
Keywords: Sign Language, Posture Estimation	
新規性・差分	
概要	
手話認識のための新しいモーション表現方法を提案する.手法
としては,CNNを二段階に用いる.最初のステップではまず姿
勢推定のためのCNNを用いる.次のステップでは推定した姿勢
から関節位置の時系列軌跡を記録して新たにCNNに入力す
る.Back propagationにより,手話のローカライズも同時に行っ
た.	
・手話認識の新しい表現方法を提案した.2段階に
CNNを用いることで性能が向上する.	
Links	
論文 https://arxiv.org/pdf/1608.02059v1.pdf	
プロジェクト
William Freeman, Edward H. Adelson, David J. Heeger, “Motion Without Movement”, in SIGGRAPH, 1991.	【5】	
Keywords: Motion without movement	
新規性・差分	
概要	
ポジションを変えることなく,動きのパターンを表示することに成
功した.角度の異なるフィルタをかけて直角位相(quadrature)に
基づいたペアを用いることでフェーズの違いを表現でき,結果
的にモーションがついたような映像を生成することができる.	
画像の動きがない静止画でも,フィルタの角度を変更しながら
連続で見せることでモーションがあるように見せることができる
とした.	
Links	
論文
https://pdfs.semanticscholar.org/0ffa/
6375b2b2fdf34ff8cf6e671a906c28c5d2cf.pdf	
動画 https://www.youtube.com/watch?v=VS1THWbFsgc
William T. Freeman, Edward H. Adelson, “The Design and Use of Steerable Filters”, in TPAMI, 1991.	
【6】	
Keywords: Image Filtering, Streeable Filters	
新規性・差分	
概要	
Early Vision (初期視覚)について,信号処理の観点から明らか
にした論文.Waveletフィルタを画像に適用した際のレスポンス
について書かれている.右図には,画像上から異なる反応を得
るためのフィルタの種類や,フィルタリングの重ね合わせにより
画像から応答を獲得する方法を説明している.いかに分離した
フィルタにするか,マルチスケールにするかについても検討.	
・「操作可能な」フィルタについて検討した.種々の画像フィルタ
リングとそのレスポンスを重ね合わせたフィルタリングについて
考察した.	
・この結果として,輪郭抽出や3次元フィルタができたといえる.	
Links	
論文 http://persci.mit.edu/pub_pdfs/freeman_steerable.pdf	
著者 https://billf.mit.edu/publications/all	
ßwaveletにより扱われるフィルタ.
Steerable Filtersとして,フィルタと画像に
対する応答を示した.	
Steerable Filter System.異なる種類の
画像フィルタリングやゲインマップ,その
重ね合わせで出力を表現する.
Eero P. Simoncelli, William Freeman, Edward H. Adelson, David J. Heeger, “Shiftable Multiscale Transforms”, in
TIF, 1992.	
【7】	
Keywords: Wavelet Transform	
新規性・差分	
概要	
Waveletは画像処理におけるフィルタリングでは当時ベーシック
な知見となったが,画像のTranslationに対しては脆弱であっ
た.本論文ではShiftableなWaveletや,部分的にSfiftableなモデ
ルを提案し,スケーラブルな解析やステレオ視差,画像強調に
使えることを示した.回転や並進などの側面で分解可能なこと
を示し,各種アプリケーションに応用した.	
・ShiftableなWaveletを提案し,フィルタリングの理論を拡張し
た.	
Links	
論文 http://www.dtic.mil/cgi-bin/GetTRDoc?AD=ADA508206	
著者 https://billf.mit.edu/publications/all	
	
左は従来の分解方法であるが,提案の分解
では信号の性質を残したまま分解している
ことがわかる.	
フィルタとその反応
William Freeman, Michal Roth, “Orientation Histograms for Hand Gesture Recognition”, in MERL Tech-Report,
1995.	
【8】	
Keywords: Hand Gesture, Orientation Histograms	
新規性・差分	
概要	
McConnelらの提案した勾配ヒストグラムを用いてハンドジェス
チャー認識を行った.リアルタイムでの実装を行い,10種類の
ハンドジェスチャーの認識に成功した.さらには勾配ヒストグラ
ムの限界についても言及し,時系列の勾配特徴についても提
案する.	
・ハンドジェスチャの効果的なアプローチを提案した.	
・Double Angleを用いることで,照明変動に頑健なジェスチャ認
識を実現した.	
・ジャンケンができるようになるのが課題である.	
Links	
論文
http://aimm02.cse.ttu.edu.tw/class_2009_2/CV/OpenCV/
References/Orientation%20histograms%20for%20hand
%20gesture.pdf	
プロジェクト 	
左はフレームワークであり,画像からベクトルを取り出し各クラスの特徴と比較
する.右は同じジェスチャであるが勾配特徴が異なる様子.	
右図は学習されたベクトルとテストするベ
クトルの距離を示したもの.黒に近いほど
ベクトルの距離が近いことを示す.Double
Angleによる表現は照明変動に頑健なこと
を示した.
Toshisada Mariyama, Kunihiko Fukushima, Wataru Matsumoto, “Automatic Design of Neural Network
Structures Using AiS”, in ICONIP, 2016.	
【9】	
Keywords: Add-if-Silent, Neocognitron	
概要	
・AiS(※右記)により中間層のニューロン数を決定し,浅い
ニューラルネットワークを自動設計する.	
・Bike Sharing Datasetを用いた実験で,適切なネットワーク構
造を決定できることを確認.	
Links	
論文
http://link.springer.com/chapter/10.1007/978-3-319-46672-9_32	
https://books.google.co.jp/books?
id=UfUqDQAAQBAJ&printsec=frontcover&hl=ja	
	
新規性・差分	
・AiSの最適なパラメータを学習データを元に決定する手法を
提案.	
・活性化関数にRBF (Radial Basis Function) を使用し,AiSを
回帰問題に適用.	
	
※AiS (Add-if-Silent):	
「前シナプス側に反応している細胞があるのに,すべての後シナプス側の細
胞が無反応であれば,新しい細胞を回路内に発生させるという教師なし学習
則」( https://www.jstage.jst.go.jp/article/fss/30/0/30_318/_pdf )	
Source: [K. Fukushima, NN2013]
Hao Zhou, Jose M. Alvarez, Fatih Porikli, “Less is More: Towards Compact CNNs”, in ECCV, 2016.	
【10】	
Keywords: Model Compression, Pruning, Neuron Reduction	
概要	
・目的関数にスパース化の制約を加えることで,CNNのニュー
ロン数を学習時に削減.	
・AlexNetやVGG-13の最初のFC層の場合,top-1 accuracyを
下げることなく,ニューロン数を30%に削減可能.	
Links	
論文 https://www.nicta.com.au/pub-download/full/9476	
ポスター http://www.eccv2016.org/files/posters/S-3A-09.pdf	
	
新規性・差分	
・学習時にニューロンを削減するため,削減前に予めネットワーク
を学習する必要が無い.	
・ReLUがニューロン数削減に寄与することを示した.(ある特定の
ニューロン ŵlj を考え,他のニューロンを固定すると,式(1)は ŵlj=0
で極小値を持つ.)	
・forward-backward splittingにより,スパース化制約の評価を誤差
逆伝搬時に省略する.
René Ranftl,Vibhav Vineet, Qifeng Chen Vladlen Koltun, “Dense Monocular Depth Estimation in Complex
Dynamic Scenes”, in CVPR, 2016.	
【11】	
Keywords:depth estimation, monocular camera, optical flow field, motion segmentation, moving object	
新規性・差分	
概要	
・動物体を含む複雑なシーンに対し、単眼カメラ画像から密な
デプスを推定する手法の提案	
・まず、2枚の連続画像から生成したオプティカルフローフィール
ドに対し、提案アルゴリズムを用いて複数のモーションモデル
に分割する。次に、凸最適化問題を解いて、検出された各物体
のスケールを決定し、シーンを再構成する。	
・従来のStructure From Motion(SFM)は動物体に課題。
multibody SFMでは動物体を剛体と仮定。non-rigid SFMでは物
体形状、軌跡に制約あり。本手法では複数の動物体を含むダ
イナミックなシーンに適用可	
・Kitti dataset, MPI Sintel datasetを用いて定性・定量評価を実
施。Depth Transfer[project page]などの既存手法に比べ相対
精度等の各評価指標で優位	
Links	
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2016/
papers/Ranftl_Dense_Monocular_Depth_CVPR_2016_paper.pdf	
プロジェクト 	
http://vladlen.info/publications/dense-monocular-depth-
estimation-in-complex-dynamic-scenes/
Xiaoyong Shen, Xin Tao, Hongyun Gao, Chao Zhou, Jiaya Jia, “Deep Automatic Portrait Matting”, in ECCV,
2016.	
【12】	
Keywords: Portrait Matting, Deep CNN	
新規性・差分	
概要	
髪型など質感を表現するようなセグメンテーションを表現する。
ネットワーク構成は二段階になっており、最初にアバウトに領
域を求め、次に細部に渡りMattingを実行する。さらに、これら
の流れをEnd-to-Endにて学習を行うことができる。	
・従来では難しかった髪の質感まで表現するセグメンテーション
を実現した。	
・2段階のアルゴリズムを用いて、End-to-Endで学習できるモデ
ルを提案。	
Links	
論文 http://xiaoyongshen.me/papers/deepmatting.pdf	
プロジェクト
http://xiaoyongshen.me/webpages/webpage_automatting/
Ronghang Hu, Marcus Rohrbach, Trevor Darrell, “Segmentation from Natural Language Expressions”, in ECCV,
2016.	
【13】	
Keywords: NLP, Instance Segmentation	
新規性・差分	
概要	
インスタンスレベルのセマンティックセグメンテーションにおいて
は困難な課題であるが,これを自然言語を用いてセンテンスを
解析することで精度を向上させるというアイディア.上図は本論
文の概要,下図ではフローを示し,画像や文章の入力からそれ
ぞれCNNによる特徴抽出,LSTMによる文章解析を行い,全結
合層にて統合を行い,セグメンテーションに復元する.	
・画像側のみでなく,自然言語側の入力も用いてインスタンスレ
ベルでのセグメンテーションを実行する.	
Links	
論文 https://arxiv.org/pdf/1603.06180v1.pdf	
プロジェクト http://ronghanghu.com/text_objseg/	
ポスター http://www.eccv2016.org/files/posters/S-1A-07.pdf	
コード https://github.com/ronghanghu/text_objseg
Xiaodan Liang, Xiaohui Shen, Jiashi Feng, Liang Lin, Shuicheng Yan, “Semantic Object Parsing with Graph
LSTM”, in ECCV, 2016.	
【14】	
Keywords: Graph LSTM, Image Parsing	
新規性・差分	
概要	
RNNの種類のひとつに短期・長期の特徴を扱えるLSTMがあ
る.本論文ではLSTMについてグラフ構造を取り入れるkとでフ
レキシビリティを向上させる.具体的には左図に示すようにグラ
フのトポロジーを取り入れ,固定幅でなく信頼度の高い位置に
応じて柔軟に保持する情報を変更させ,潜在変数を取り入れた
ノード表現,Adaptive Forget Gatesにより情報の取捨選択を行
う.	
・LSTMにグラフ構造を取り入れ,モデルの柔軟性を向上させた	
・構造は下図のようになり,CNN+Graph LSTMとなり,画像の
Parsing (ここでは人物の姿勢ごとのセマンティックセグメンテー
ション)を実行した.	
Links	
論文 https://arxiv.org/pdf/1603.07063v1.pdf	
ポスター http://www.eccv2016.org/files/posters/S-1A-08.pdf	
プロジェクト
Jian-Fang Hu, Wei-Shi Zheng, Lianyang Ma, Gang Wang, Jianghuang Lai, “Real-time RGB-D Activity Prediction
by Soft Regression”, in ECCV, 2016.	
【15】	
Keywords: RGBD, Action Prediction	
新規性・差分	
概要	
RGBDセンサを用いた姿勢による入力から人物行動予測を実
行する.姿勢特徴から空間的な勾配や時系列構造を考慮した
Local Accumulative Frame Feature (LAFF)を構成し,右図のよ
うなSoft Regression Modelにより予測モデルを生成する.特徴
と時間的に先の行動を対応づけるPrediction Lossの他に正規
化や整合性を保つ項を追加.行動認識や行動予測の精度とも
に安定した結果を見せた.	
・RGBDからの行動予測について,Soft Regression Modelを提
案した.	
・LAFFによる表現と最適化モデルにより,安定した行動予測を
実現した.RGBよりもデプスを使った方が良いことも実証した.	
Links	
論文 http://www3.ntu.edu.sg/home/wanggang/Publications.html	
ポスター http://www.eccv2016.org/files/posters/P-1A-17.pdf	
プロジェクト
Abhinav Shrivastava, Abhinav Gupta, “Contextual Priming and Feedback for Faster R-CNN”, in ECCV, 2016.	
【16】	
Keywords: Faster R-CNN, Feedback	
新規性・差分	
概要	
Faster RCNNにセマンティックセグメンテーションの結果を反映
させ,検出精度を向上させる.人間の認識の構造からも形状や
領域を総合的に判断するところからヒントを得ている.右図は
繰り返しによるパラメータの更新のモデルである.	
・セマンティックセグメンテーションの結果をFaster R-CNNに反
映させ,結果的には物体検出やセマンティックセグメンテーショ
ン,物体候補領域の抽出と3者において向上させる	
	
Links	
論文 http://abhinav-shrivastava.info/context_priming_feedback.pdf	
ポスター http://www.eccv2016.org/files/posters/P-1A-20.pdf	
プロジェクト
Nam N. Vo, James Hays, “Localizing and Orienting Street Views Using Overhead Imagery”, in ECCV, 2016.	
【17】	
Keywords: Ground Image	
新規性・差分	
概要	
地上の画像から地図上の位置を当k呈する問題.回転不変な
マッチング方法を考案した.ネットワークアーキテクチャには
AlexNet + SiameseNetを採用し,ユークリッドによる距離計算や
Tripletによる学習も取り入れた.回転不変にはランダムな回転
を入れたデータ拡張や複数の回転によるテスト,回転ラベルの
導入により精度を向上させた.	
・新しい地上-地図の位置対応をとったデータセットを提案す
る.同データには11都市が含まれている.	
・回転不変なマッチング方法を考案した.	
Links	
論文
http://www.cc.gatech.edu/~nvo9/crossview_eccv2016/
nam_eccv2016.pdf	
ポスター http://www.eccv2016.org/files/posters/P-1A-30.pdf	
プロジェクト
Andwer Owens, Jiajun Wu, Josh McDermott, William Freeman, Antonio Torralba, “Ambient Sound Provides
Supervision for Visual Learning”, in ECCV, 2016.	
【18】	
Keywords: Sounds, Object Recognition	
新規性・差分	
概要	
音から連想される物体により,物体識別や物体検出のための
学習を強化する.映像の音を判断することにより,Self-
supervisionを行うという概念である.音の表現方法は
CochleagramからMoments, Filter responses, Correlationsと
いった統計値へと変換し,物体から連想される音を認識する.	
・音による入力で物体の学習を強化する「self-supervision」の
概念を提唱した	
・実際に可視化したところ,右下図のような結果が得られ,統計
的に音から物体を表現できている.	
Links	
論文 https://arxiv.org/pdf/1608.07017.pdf	
著者 http://andrewowens.com/	
ポスター http://www.eccv2016.org/files/posters/O-1B-01.pdf
Cewu Lu, Ranjay Krishna, Michael Bernstein, Li Fei-Fei, “Visual Relationship Detection with Language Priors”,
in ECCV, 2016.	
【19】	
Keywords: Visual Relation	
新規性・差分	
概要	
人物や動物などと,対象となる物体や動詞の関係性を学習す
る手法を考案.共起性による損失関数を定義した.Visual
Genomeからのラベルに対して,共通する人物/物体/動詞の損
失を捉えて,ビジュアル特徴を学習することで,多タスク学習の
要領で少ない学習データでも共通の特徴を学習可能とした.
Long-tailやZero-shot learningも取り入れ,より少ない画像でも
概念を獲得できるようにした.	
・共起性の学習を実現した	
・少ないデータでも,多タスク学習やZero-shot Learningにより
効果的に学習ができている.	
Links	
論文 http://cs.stanford.edu/people/ranjaykrishna/vrd/vrd.pdf	
プロジェクト http://cs.stanford.edu/people/ranjaykrishna/vrd/	
ポスター http://www.eccv2016.org/files/posters/O-1B-04.pdf	
コード
https://github.com/Prof-Lu-Cewu/Visual-Relationship-Detection
Lerrel Pinto, Dhiraj Gandhi, Yuanfeng Han, Yong-Lee Park, Abhinav Gupta, “The Curious Robot: Learning
Visual Representations via Physical Interactions”, in ECCV, 2016.	
【20】	
Keywords: Robot, Grasp, Push, Poke	
新規性・差分	
概要	
ロボットの各タスク (Grasping, Pushing, Poke, Inariance)から操
作に必要な表現方法を学習する.共通の重みや分岐して各タ
スクに特化した学習を行うネットワークを構成する.	
・ロボットに学習機構を取り入れた例である.	
・複数のタスクから共通の特徴を学習し,識別や画像検索の
ネットワークの性能を向上させた.	
Links	
論文 https://arxiv.org/abs/1604.01360	
ポスター http://www.eccv2016.org/files/posters/S-1B-05.pdf	
著者 http://www.cs.cmu.edu/~lerrelp/
Amy Bearman, Olga Russakovsky, Vittorio Ferrari, Li Fei-Fei, “What’s the Point: Semantic Segmentation with
Point Supervision”, in ECCV, 2016.	
【21】	
Keywords: Weak supervision semantic segmentation	
新規性・差分	
概要	
画像レベルでなく,物体カテゴリのポイントレベル (物体領域の
一点をアノテーターが示す)で正解を与える程度でセマンティッ
クセグメンテーションの学習を実行するという枠組み.学習とし
てはWeakly Supervised Learningである.Point-level
supervisionの損失関数も与えた.Fully Convolutional Network
(FCN)をベースとして,性能向上が見られた.	
・FCNと比較して,性能が12.9% (mIOU) 向上した.	
・画像レベルよりもポイントレベルの教師の方が断然性能がよく
なることを実証した.損失関数も定義して,ベースラインから性
能が向上することを確認した.	
Links	
論文 https://arxiv.org/abs/1506.02106	
ポスター http://www.eccv2016.org/files/posters/P-1B-18.pdf	
プロジェクト http://vision.stanford.edu/whats_the_point/
Chi Su, Shiliang Zhang, Junliang Xing, Wen Gao, Qi Tian, “Deep Attributes Driven Person Re-identification”, in
ECCV, 2016.	
【22】	
Keywords: Person Re-identification, Triplet Loss	
新規性・差分	
概要	
画像によるCNNの学習を実行してPerson Re-IDを実行するの
ではなく,属性 (Attribute)により探索を実行する.ネットワーク
の学習は (1) 画像の入力による,識別ベースのCross-Entropy
Loss, (2) 最初の学習済みパラメータを用い,人物画像の
Triplet (3枚のペア,対象画像1枚と同じ属性の画像,異なる属
性の画像)によるAttributes Triplet Loss,(3) データセットを統
合した上でCross-Entropy Lossを計算してFine-tuning.	
・画像の識別ベースによりネットワークを学習するのみでなく,
間に属性学習を取り入れ,最後にFine-tuningを行うことでRe-
IDの性能を向上させた.1500人のオリジナル人物が含まれた
Marketデータに対しても良好な性能を達成.	
Links	
論文 https://arxiv.org/pdf/1605.03259v2.pdf	
ポスター http://www.eccv2016.org/files/posters/P-1B-34.pdf	
プロジェクト
Ting-Chun Wang, Jun-Yan Zhu, Ebi Hiroaki, Manmohan Chandraker, Alexei A. Efros, Ravi Ramamoorthi, “A 4D
Light-Field Dataset and CNN Architectures for Material Recognition”, in ECCV, 2016.	
【23】	
Keywords: Light Field Camera, 4D Light Field	
新規性・差分	
概要	
ライトフィールドカメラによる材質認識 (Material Recognition)の
研究であり,CNNアーキテクチャやデータセットを提供する.4D
ライトフィールドはLytroにより撮影され,12の材質に対して各
100枚,30,000パッチが記録されている.提案法はベースライン
と比較して7%の向上を示した.(70%=>77%)	
・知りうる限り初めてのMid-sizeのライトフィールド
データセットである	
・空間的な畳み込みやAngular Imageに対して畳み込
みを行うことにより,Interleaved Filterを定義した.材
質認識にはこれが有効であることが判明した.	
Links	
論文
https://people.eecs.berkeley.edu/
~tcwang0509/papers/ECCV16/LFMR.pdf	
データセット
https://people.eecs.berkeley.edu/
~tcwang0509/publications.html	
ポスター
http://www.eccv2016.org/files/posters/
Pavel Tokmakov, Karteek Alahari, Cordelia Schmid, “Weakly-Supervised Semantic Segmentation using Motion
Cues”, in ECCV, 2016.	
【24】	
Keywords: Weakly Supervised Semantic Segmentation	
新規性・差分	
概要	
モーションや物体カテゴリの尤度マップを手掛かりとして,前景
領域のセマンティックセグメンテーションを弱教師付き学習の要
領で行う.右図が本論文の手法におけるオーバービューであ
り,FCNN [Chen+, ICLR15]をベースとして,直感的にはEM-
algorithm的に解決する (E-stepはピクセルラベルの推定,M-
stepはbackpropによる最適化).学習ははYouTube Objects,
ImageNet Videos, Pascal VOC 2012より行った.	
・画像に対する物体ラベルを入力として,弱教師付き学習によ
りセマンティックセグメンテーションを実施した.	
・弱教師付き学習により,今後は膨大なデータによる学習が可
能である.	
	
Links	
論文 https://arxiv.org/pdf/1603.07188v2.pdf	
ポスター http://www.eccv2016.org/files/posters/P-2B-40.pdf
Zhizhong Li, Derek Hoiem, “Learning without Forgetting”, in ECCV, 2016.	
【25】	
Keywords: Fine-tuning, CNN	
新規性・差分	
概要	
学習済みのラベルを忘れずに(識別パラメータをできる限り変
更しないで)新しいタスクを学習させる方法を提案する.前提と
して,従来のタスクの学習データが手に入らないこととする.マ
ルチタスク学習の要領で従来のパラメータを忘れず,新しいタ
スクのパラメータを学習する.実際にはAlexNetをベースとし
て,マルチタスクロスを最小化することで従来タスクの性能を損
なわずに,パラメータを共有して新しいタスクを学習する.	
・従来のタスクを忘れずに,新しいタスクを学習する「Learning
without Forgetting」の概念を提案した.	
・Fine-tuningやJoint Trainingと異なるのは,従来の学習サンプ
ルを用いず,新規のデータを用いるのみで新しいタスクを学習
することができることである.	
Links	
論文 https://arxiv.org/pdf/1606.09282v2.pdf
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Identity Mappings in Deep Residual Networks”, in ECCV,
2016.	
【26】	
Keywords: Deep Residual Networks, Identity Mapping	
新規性・差分	
概要	
Deep Residual Networks (ResNets)はResidual Unitsにより構成
されている.Residual Unitsは(1)(2)に示すようなfunction h(x_l)と
入力と重みによる出力の残差 F(x_l, W_l)の和をReLU関数に通
したものである.本論文ではBatch Normalization (BN)やReLU
などの順番を変えたユニットや,スキップコネクションの詳細解
析を行い,スタックする層の和を増やした.	
・新規にResidual Unitsを定義した.	
・スキップコネクションの解析により,ImageNetで152層から200
層に,CIFARでは110層から1001層と深くしても勾配を損なわず
に学習し,精度が向上することが判明した.学習済みモデルを
公開している.	
Links	
論文 https://arxiv.org/pdf/1603.05027v3.pdf	
コード https://github.com/KaimingHe/resnet-1k-layers	
参考
http://qiita.com/supersaiakujin/items/eaa0fe0460c470c28bd8	
ポスター http://www.eccv2016.org/files/posters/S-3A-07.pdf
Matthew Hausknecht, Piyush Khandelwal, Risto Miikkulainen, Peter Stone, “HyperNEAT-GGP: A HyperNEAT-
based Atari General Game Player”, in GECCO, 2012.	
【27】	
Keywords: NEAT, HyperNEAT, Neuroevolution, General Game Playing	
手法	概要	
・画像処理による自機識別とHyperNEATを組み合わせ,Atariの複
数のゲーム(Freeway, Asterix)をプレイ可能にする.	
・形状や動きを元に,Atariの画面から自機やその他の物体
のクラスを識別する.	
・物体のクラスをHyperNEATに入力し,HyperNEATのニュー
ラルネットの出力値を元に自機を操作する.	
Links	
論文 http://nn.cs.utexas.edu/downloads/papers/hausknecht.gecco12.pdf	
コード https://github.com/mhauskn/HyperNEAT	
プロジェクト https://www.cs.utexas.edu/~mhauskn/research.html	
新規性・差分	
・複数のAtariのゲームに対して,画面から任意の数の物体クラスを
識別し,ゲームのダイナミクスを学習する.
Upal Mahbub, Sayantan Sarkar, Vishal M. Patel, Rama Chellappa, “Active User Authentication for
Smartphones: A Challenge Data Set and Benchmark Results”, in arXiv pre-print 1610.07930, 2016.	
【28】	
Keywords: User Verification, Smartphone	
新規性・差分	
概要	
スマートフォンを用いたユーザ認証についてベンチマークを作
成し,顔認識や位置情報から個人認証可能かどうかを検証し
た.用いるセンサーはフロントカメラ,タッチセンサ,GPSであ
り,顔検出及び顔認証,タッチセンサからの個人認証,位置
ベースの予測を実現した.右下図は顔認証のフレームワークで
ある.顔検出,顔認証はそれぞれ76% (accuracy),18% (EER)で
実現可能である.	
・スマートフォンを用いたデータにおいて,顔検出及び顔認証,
タッチセンサからの個人認証,位置ベースの予測を提供した.	
・データにおいてそれぞれのベースラインを与えた.	
Links	
論文 https://arxiv.org/pdf/1610.07930.pdf	
プロジェクト
Konstantinos Rematas, Tobias Ritschel, Mario Fritz, Efstratios Gavves, Tinne Tuytelaars, “Deep Reflectance
Maps”, in CVPR, 2016.	
【29】	
Keywords: Intrinsic Image, Reflectance map, Normal Estimation, Deconvolution	
概要	
・CNNを用いて,鏡面材質の反射マップを推定.	
・法線推定と再レンダリングにより,反射マップを転移.	
Links	
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/
Rematas_Deep_Reflectance_Maps_CVPR_2016_paper.pdf	
プロジェクト・動画・データセット http://homes.cs.washington.edu/~krematas/DRM/	
新規性・差分	
・自然光環境下にある複雑な形状をした鏡面材質の反射
マップをend-to-endで推定.	
・本タスク用のCG・実写のデータセットを提供.	
・CNN/upconvolutionアーキテクチャで2次元画像から球形ド
メインにマッピング(通常のピクセルラベリングと異なり座標
の直接対応が無い).	
・疎な非構造データをCNNで補間.
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

【2016.10】cvpaper.challenge2016

  • 1.
  • 2.
    Jason J. Yu,Adam W. Harley, Konstantinos G. Derpanis, “Back to Basics: Unsupervised Learning of Optical Flow via Brightness Constancy and Motion Smoothness”, in ECCV Workshop on BNMW, 2016. 【1】 Keywords: Optical Flow, Unsupervised Learning 新規性・差分 概要 CNNをベースとして,Unsupervisedにオプティカルフローを学習する FlowNetを提案.データセットに依存して学習するオプティカルフローではな く,環境に合わせて学習できるように教師なし学習のオプティカルフローに チャレンジした.損失関数をフォトメトリック項や平滑化項により定義して, 完全教師なし学習でオプティカルフローを推定.フォトメトリック項では順フ ローと逆フローが一致すれば損失ゼロ.CNNに適用すると右図のようにな る.畳み込み層と対応づけるUnconv層によりフローの再現性を向上させ る. ・完全教師なし学習によるCNNベースのオプティカルフロー推 定を提案した ・損失関数を定義して,CNNに挿入した. Links 論文 https://arxiv.org/pdf/1608.05842v1.pdf プロジェクト
  • 3.
    S. L. Pintea,J. C. van Gemert, “Making a Case for Learning Motion Representations with Phase”, in ECCV Workshop on BNMW, 2016. 【2】 Keywords: Optical Flow, Eulerian Motion Representation 新規性・差分 概要 オプティカルフローから動作のフェーズを表現するEulerian Motion Representationを導くことで,行動認識や行動予測, モーション転移などに有効と主張した.フェーズごとにCNNの学 習を行うことで,フェーズにおけるモーションや変位の関係性を 記述できる. ・感覚的に,数フレーム単位のモーションの塊(フェーズ)を自動 で捉えることに成功した.フレーム数の変動に対応可能か? ・フェーズ学習というものを行動認識,モーション予測,,モー ション転移に適用し,各CNNアーキテクチャを提案. Links 論文 http://openreview.net/pdf/H1Hp-q2s.pdf プロジェクト http://silvialaurapintea.github.io/motion_transfer/index.html
  • 4.
    Yu-Hui Huang, JoseOramas M., Tinne Tuytelaars, Luc Van Gool, “Do Motion Boundaries Improve Semantic Segmentation?”, in ECCV Workshop on BNMW, 2016. 【3】 Keywords: Semantic Segmentation 新規性・差分 概要 Semantic Segmentationに対して,オプティカルフローやモー ションの境界は必要であるかを検証した.実験ではSegNetやオ プティカルフロー,モーション境界を用いることでSegNetの精度 からセマンティックセグメンテーションの精度を向上させることに 成功した.シンプルであるが,効果的なアイディアである. ・オプティカルフローやモーション境界を用いることでSemantic Segmentationの結果を向上させることに成功した. Links 論文 http://openreview.net/pdf/H1q36jBj.pdf プロジェクト
  • 5.
    Joon Son Chung,Andrew Zisserman, “Signs in time: Encoding human motion as a temporal image”, in ECCV Workshop on BNMW, 2016. 【4】 Keywords: Sign Language, Posture Estimation 新規性・差分 概要 手話認識のための新しいモーション表現方法を提案する.手法 としては,CNNを二段階に用いる.最初のステップではまず姿 勢推定のためのCNNを用いる.次のステップでは推定した姿勢 から関節位置の時系列軌跡を記録して新たにCNNに入力す る.Back propagationにより,手話のローカライズも同時に行っ た. ・手話認識の新しい表現方法を提案した.2段階に CNNを用いることで性能が向上する. Links 論文 https://arxiv.org/pdf/1608.02059v1.pdf プロジェクト
  • 6.
    William Freeman, EdwardH. Adelson, David J. Heeger, “Motion Without Movement”, in SIGGRAPH, 1991. 【5】 Keywords: Motion without movement 新規性・差分 概要 ポジションを変えることなく,動きのパターンを表示することに成 功した.角度の異なるフィルタをかけて直角位相(quadrature)に 基づいたペアを用いることでフェーズの違いを表現でき,結果 的にモーションがついたような映像を生成することができる. 画像の動きがない静止画でも,フィルタの角度を変更しながら 連続で見せることでモーションがあるように見せることができる とした. Links 論文 https://pdfs.semanticscholar.org/0ffa/ 6375b2b2fdf34ff8cf6e671a906c28c5d2cf.pdf 動画 https://www.youtube.com/watch?v=VS1THWbFsgc
  • 7.
    William T. Freeman,Edward H. Adelson, “The Design and Use of Steerable Filters”, in TPAMI, 1991. 【6】 Keywords: Image Filtering, Streeable Filters 新規性・差分 概要 Early Vision (初期視覚)について,信号処理の観点から明らか にした論文.Waveletフィルタを画像に適用した際のレスポンス について書かれている.右図には,画像上から異なる反応を得 るためのフィルタの種類や,フィルタリングの重ね合わせにより 画像から応答を獲得する方法を説明している.いかに分離した フィルタにするか,マルチスケールにするかについても検討. ・「操作可能な」フィルタについて検討した.種々の画像フィルタ リングとそのレスポンスを重ね合わせたフィルタリングについて 考察した. ・この結果として,輪郭抽出や3次元フィルタができたといえる. Links 論文 http://persci.mit.edu/pub_pdfs/freeman_steerable.pdf 著者 https://billf.mit.edu/publications/all ßwaveletにより扱われるフィルタ. Steerable Filtersとして,フィルタと画像に 対する応答を示した. Steerable Filter System.異なる種類の 画像フィルタリングやゲインマップ,その 重ね合わせで出力を表現する.
  • 8.
    Eero P. Simoncelli,William Freeman, Edward H. Adelson, David J. Heeger, “Shiftable Multiscale Transforms”, in TIF, 1992. 【7】 Keywords: Wavelet Transform 新規性・差分 概要 Waveletは画像処理におけるフィルタリングでは当時ベーシック な知見となったが,画像のTranslationに対しては脆弱であっ た.本論文ではShiftableなWaveletや,部分的にSfiftableなモデ ルを提案し,スケーラブルな解析やステレオ視差,画像強調に 使えることを示した.回転や並進などの側面で分解可能なこと を示し,各種アプリケーションに応用した. ・ShiftableなWaveletを提案し,フィルタリングの理論を拡張し た. Links 論文 http://www.dtic.mil/cgi-bin/GetTRDoc?AD=ADA508206 著者 https://billf.mit.edu/publications/all 左は従来の分解方法であるが,提案の分解 では信号の性質を残したまま分解している ことがわかる. フィルタとその反応
  • 9.
    William Freeman, MichalRoth, “Orientation Histograms for Hand Gesture Recognition”, in MERL Tech-Report, 1995. 【8】 Keywords: Hand Gesture, Orientation Histograms 新規性・差分 概要 McConnelらの提案した勾配ヒストグラムを用いてハンドジェス チャー認識を行った.リアルタイムでの実装を行い,10種類の ハンドジェスチャーの認識に成功した.さらには勾配ヒストグラ ムの限界についても言及し,時系列の勾配特徴についても提 案する. ・ハンドジェスチャの効果的なアプローチを提案した. ・Double Angleを用いることで,照明変動に頑健なジェスチャ認 識を実現した. ・ジャンケンができるようになるのが課題である. Links 論文 http://aimm02.cse.ttu.edu.tw/class_2009_2/CV/OpenCV/ References/Orientation%20histograms%20for%20hand %20gesture.pdf プロジェクト 左はフレームワークであり,画像からベクトルを取り出し各クラスの特徴と比較 する.右は同じジェスチャであるが勾配特徴が異なる様子. 右図は学習されたベクトルとテストするベ クトルの距離を示したもの.黒に近いほど ベクトルの距離が近いことを示す.Double Angleによる表現は照明変動に頑健なこと を示した.
  • 10.
    Toshisada Mariyama, KunihikoFukushima, Wataru Matsumoto, “Automatic Design of Neural Network Structures Using AiS”, in ICONIP, 2016. 【9】 Keywords: Add-if-Silent, Neocognitron 概要 ・AiS(※右記)により中間層のニューロン数を決定し,浅い ニューラルネットワークを自動設計する. ・Bike Sharing Datasetを用いた実験で,適切なネットワーク構 造を決定できることを確認. Links 論文 http://link.springer.com/chapter/10.1007/978-3-319-46672-9_32 https://books.google.co.jp/books? id=UfUqDQAAQBAJ&printsec=frontcover&hl=ja 新規性・差分 ・AiSの最適なパラメータを学習データを元に決定する手法を 提案. ・活性化関数にRBF (Radial Basis Function) を使用し,AiSを 回帰問題に適用. ※AiS (Add-if-Silent): 「前シナプス側に反応している細胞があるのに,すべての後シナプス側の細 胞が無反応であれば,新しい細胞を回路内に発生させるという教師なし学習 則」( https://www.jstage.jst.go.jp/article/fss/30/0/30_318/_pdf ) Source: [K. Fukushima, NN2013]
  • 11.
    Hao Zhou, JoseM. Alvarez, Fatih Porikli, “Less is More: Towards Compact CNNs”, in ECCV, 2016. 【10】 Keywords: Model Compression, Pruning, Neuron Reduction 概要 ・目的関数にスパース化の制約を加えることで,CNNのニュー ロン数を学習時に削減. ・AlexNetやVGG-13の最初のFC層の場合,top-1 accuracyを 下げることなく,ニューロン数を30%に削減可能. Links 論文 https://www.nicta.com.au/pub-download/full/9476 ポスター http://www.eccv2016.org/files/posters/S-3A-09.pdf 新規性・差分 ・学習時にニューロンを削減するため,削減前に予めネットワーク を学習する必要が無い. ・ReLUがニューロン数削減に寄与することを示した.(ある特定の ニューロン ŵlj を考え,他のニューロンを固定すると,式(1)は ŵlj=0 で極小値を持つ.) ・forward-backward splittingにより,スパース化制約の評価を誤差 逆伝搬時に省略する.
  • 12.
    René Ranftl,Vibhav Vineet,Qifeng Chen Vladlen Koltun, “Dense Monocular Depth Estimation in Complex Dynamic Scenes”, in CVPR, 2016. 【11】 Keywords:depth estimation, monocular camera, optical flow field, motion segmentation, moving object 新規性・差分 概要 ・動物体を含む複雑なシーンに対し、単眼カメラ画像から密な デプスを推定する手法の提案 ・まず、2枚の連続画像から生成したオプティカルフローフィール ドに対し、提案アルゴリズムを用いて複数のモーションモデル に分割する。次に、凸最適化問題を解いて、検出された各物体 のスケールを決定し、シーンを再構成する。 ・従来のStructure From Motion(SFM)は動物体に課題。 multibody SFMでは動物体を剛体と仮定。non-rigid SFMでは物 体形状、軌跡に制約あり。本手法では複数の動物体を含むダ イナミックなシーンに適用可 ・Kitti dataset, MPI Sintel datasetを用いて定性・定量評価を実 施。Depth Transfer[project page]などの既存手法に比べ相対 精度等の各評価指標で優位 Links 論文 http://www.cv-foundation.org/openaccess/content_cvpr_2016/ papers/Ranftl_Dense_Monocular_Depth_CVPR_2016_paper.pdf プロジェクト http://vladlen.info/publications/dense-monocular-depth- estimation-in-complex-dynamic-scenes/
  • 13.
    Xiaoyong Shen, XinTao, Hongyun Gao, Chao Zhou, Jiaya Jia, “Deep Automatic Portrait Matting”, in ECCV, 2016. 【12】 Keywords: Portrait Matting, Deep CNN 新規性・差分 概要 髪型など質感を表現するようなセグメンテーションを表現する。 ネットワーク構成は二段階になっており、最初にアバウトに領 域を求め、次に細部に渡りMattingを実行する。さらに、これら の流れをEnd-to-Endにて学習を行うことができる。 ・従来では難しかった髪の質感まで表現するセグメンテーション を実現した。 ・2段階のアルゴリズムを用いて、End-to-Endで学習できるモデ ルを提案。 Links 論文 http://xiaoyongshen.me/papers/deepmatting.pdf プロジェクト http://xiaoyongshen.me/webpages/webpage_automatting/
  • 14.
    Ronghang Hu, MarcusRohrbach, Trevor Darrell, “Segmentation from Natural Language Expressions”, in ECCV, 2016. 【13】 Keywords: NLP, Instance Segmentation 新規性・差分 概要 インスタンスレベルのセマンティックセグメンテーションにおいて は困難な課題であるが,これを自然言語を用いてセンテンスを 解析することで精度を向上させるというアイディア.上図は本論 文の概要,下図ではフローを示し,画像や文章の入力からそれ ぞれCNNによる特徴抽出,LSTMによる文章解析を行い,全結 合層にて統合を行い,セグメンテーションに復元する. ・画像側のみでなく,自然言語側の入力も用いてインスタンスレ ベルでのセグメンテーションを実行する. Links 論文 https://arxiv.org/pdf/1603.06180v1.pdf プロジェクト http://ronghanghu.com/text_objseg/ ポスター http://www.eccv2016.org/files/posters/S-1A-07.pdf コード https://github.com/ronghanghu/text_objseg
  • 15.
    Xiaodan Liang, XiaohuiShen, Jiashi Feng, Liang Lin, Shuicheng Yan, “Semantic Object Parsing with Graph LSTM”, in ECCV, 2016. 【14】 Keywords: Graph LSTM, Image Parsing 新規性・差分 概要 RNNの種類のひとつに短期・長期の特徴を扱えるLSTMがあ る.本論文ではLSTMについてグラフ構造を取り入れるkとでフ レキシビリティを向上させる.具体的には左図に示すようにグラ フのトポロジーを取り入れ,固定幅でなく信頼度の高い位置に 応じて柔軟に保持する情報を変更させ,潜在変数を取り入れた ノード表現,Adaptive Forget Gatesにより情報の取捨選択を行 う. ・LSTMにグラフ構造を取り入れ,モデルの柔軟性を向上させた ・構造は下図のようになり,CNN+Graph LSTMとなり,画像の Parsing (ここでは人物の姿勢ごとのセマンティックセグメンテー ション)を実行した. Links 論文 https://arxiv.org/pdf/1603.07063v1.pdf ポスター http://www.eccv2016.org/files/posters/S-1A-08.pdf プロジェクト
  • 16.
    Jian-Fang Hu, Wei-ShiZheng, Lianyang Ma, Gang Wang, Jianghuang Lai, “Real-time RGB-D Activity Prediction by Soft Regression”, in ECCV, 2016. 【15】 Keywords: RGBD, Action Prediction 新規性・差分 概要 RGBDセンサを用いた姿勢による入力から人物行動予測を実 行する.姿勢特徴から空間的な勾配や時系列構造を考慮した Local Accumulative Frame Feature (LAFF)を構成し,右図のよ うなSoft Regression Modelにより予測モデルを生成する.特徴 と時間的に先の行動を対応づけるPrediction Lossの他に正規 化や整合性を保つ項を追加.行動認識や行動予測の精度とも に安定した結果を見せた. ・RGBDからの行動予測について,Soft Regression Modelを提 案した. ・LAFFによる表現と最適化モデルにより,安定した行動予測を 実現した.RGBよりもデプスを使った方が良いことも実証した. Links 論文 http://www3.ntu.edu.sg/home/wanggang/Publications.html ポスター http://www.eccv2016.org/files/posters/P-1A-17.pdf プロジェクト
  • 17.
    Abhinav Shrivastava, AbhinavGupta, “Contextual Priming and Feedback for Faster R-CNN”, in ECCV, 2016. 【16】 Keywords: Faster R-CNN, Feedback 新規性・差分 概要 Faster RCNNにセマンティックセグメンテーションの結果を反映 させ,検出精度を向上させる.人間の認識の構造からも形状や 領域を総合的に判断するところからヒントを得ている.右図は 繰り返しによるパラメータの更新のモデルである. ・セマンティックセグメンテーションの結果をFaster R-CNNに反 映させ,結果的には物体検出やセマンティックセグメンテーショ ン,物体候補領域の抽出と3者において向上させる Links 論文 http://abhinav-shrivastava.info/context_priming_feedback.pdf ポスター http://www.eccv2016.org/files/posters/P-1A-20.pdf プロジェクト
  • 18.
    Nam N. Vo,James Hays, “Localizing and Orienting Street Views Using Overhead Imagery”, in ECCV, 2016. 【17】 Keywords: Ground Image 新規性・差分 概要 地上の画像から地図上の位置を当k呈する問題.回転不変な マッチング方法を考案した.ネットワークアーキテクチャには AlexNet + SiameseNetを採用し,ユークリッドによる距離計算や Tripletによる学習も取り入れた.回転不変にはランダムな回転 を入れたデータ拡張や複数の回転によるテスト,回転ラベルの 導入により精度を向上させた. ・新しい地上-地図の位置対応をとったデータセットを提案す る.同データには11都市が含まれている. ・回転不変なマッチング方法を考案した. Links 論文 http://www.cc.gatech.edu/~nvo9/crossview_eccv2016/ nam_eccv2016.pdf ポスター http://www.eccv2016.org/files/posters/P-1A-30.pdf プロジェクト
  • 19.
    Andwer Owens, JiajunWu, Josh McDermott, William Freeman, Antonio Torralba, “Ambient Sound Provides Supervision for Visual Learning”, in ECCV, 2016. 【18】 Keywords: Sounds, Object Recognition 新規性・差分 概要 音から連想される物体により,物体識別や物体検出のための 学習を強化する.映像の音を判断することにより,Self- supervisionを行うという概念である.音の表現方法は CochleagramからMoments, Filter responses, Correlationsと いった統計値へと変換し,物体から連想される音を認識する. ・音による入力で物体の学習を強化する「self-supervision」の 概念を提唱した ・実際に可視化したところ,右下図のような結果が得られ,統計 的に音から物体を表現できている. Links 論文 https://arxiv.org/pdf/1608.07017.pdf 著者 http://andrewowens.com/ ポスター http://www.eccv2016.org/files/posters/O-1B-01.pdf
  • 20.
    Cewu Lu, RanjayKrishna, Michael Bernstein, Li Fei-Fei, “Visual Relationship Detection with Language Priors”, in ECCV, 2016. 【19】 Keywords: Visual Relation 新規性・差分 概要 人物や動物などと,対象となる物体や動詞の関係性を学習す る手法を考案.共起性による損失関数を定義した.Visual Genomeからのラベルに対して,共通する人物/物体/動詞の損 失を捉えて,ビジュアル特徴を学習することで,多タスク学習の 要領で少ない学習データでも共通の特徴を学習可能とした. Long-tailやZero-shot learningも取り入れ,より少ない画像でも 概念を獲得できるようにした. ・共起性の学習を実現した ・少ないデータでも,多タスク学習やZero-shot Learningにより 効果的に学習ができている. Links 論文 http://cs.stanford.edu/people/ranjaykrishna/vrd/vrd.pdf プロジェクト http://cs.stanford.edu/people/ranjaykrishna/vrd/ ポスター http://www.eccv2016.org/files/posters/O-1B-04.pdf コード https://github.com/Prof-Lu-Cewu/Visual-Relationship-Detection
  • 21.
    Lerrel Pinto, DhirajGandhi, Yuanfeng Han, Yong-Lee Park, Abhinav Gupta, “The Curious Robot: Learning Visual Representations via Physical Interactions”, in ECCV, 2016. 【20】 Keywords: Robot, Grasp, Push, Poke 新規性・差分 概要 ロボットの各タスク (Grasping, Pushing, Poke, Inariance)から操 作に必要な表現方法を学習する.共通の重みや分岐して各タ スクに特化した学習を行うネットワークを構成する. ・ロボットに学習機構を取り入れた例である. ・複数のタスクから共通の特徴を学習し,識別や画像検索の ネットワークの性能を向上させた. Links 論文 https://arxiv.org/abs/1604.01360 ポスター http://www.eccv2016.org/files/posters/S-1B-05.pdf 著者 http://www.cs.cmu.edu/~lerrelp/
  • 22.
    Amy Bearman, OlgaRussakovsky, Vittorio Ferrari, Li Fei-Fei, “What’s the Point: Semantic Segmentation with Point Supervision”, in ECCV, 2016. 【21】 Keywords: Weak supervision semantic segmentation 新規性・差分 概要 画像レベルでなく,物体カテゴリのポイントレベル (物体領域の 一点をアノテーターが示す)で正解を与える程度でセマンティッ クセグメンテーションの学習を実行するという枠組み.学習とし てはWeakly Supervised Learningである.Point-level supervisionの損失関数も与えた.Fully Convolutional Network (FCN)をベースとして,性能向上が見られた. ・FCNと比較して,性能が12.9% (mIOU) 向上した. ・画像レベルよりもポイントレベルの教師の方が断然性能がよく なることを実証した.損失関数も定義して,ベースラインから性 能が向上することを確認した. Links 論文 https://arxiv.org/abs/1506.02106 ポスター http://www.eccv2016.org/files/posters/P-1B-18.pdf プロジェクト http://vision.stanford.edu/whats_the_point/
  • 23.
    Chi Su, ShiliangZhang, Junliang Xing, Wen Gao, Qi Tian, “Deep Attributes Driven Person Re-identification”, in ECCV, 2016. 【22】 Keywords: Person Re-identification, Triplet Loss 新規性・差分 概要 画像によるCNNの学習を実行してPerson Re-IDを実行するの ではなく,属性 (Attribute)により探索を実行する.ネットワーク の学習は (1) 画像の入力による,識別ベースのCross-Entropy Loss, (2) 最初の学習済みパラメータを用い,人物画像の Triplet (3枚のペア,対象画像1枚と同じ属性の画像,異なる属 性の画像)によるAttributes Triplet Loss,(3) データセットを統 合した上でCross-Entropy Lossを計算してFine-tuning. ・画像の識別ベースによりネットワークを学習するのみでなく, 間に属性学習を取り入れ,最後にFine-tuningを行うことでRe- IDの性能を向上させた.1500人のオリジナル人物が含まれた Marketデータに対しても良好な性能を達成. Links 論文 https://arxiv.org/pdf/1605.03259v2.pdf ポスター http://www.eccv2016.org/files/posters/P-1B-34.pdf プロジェクト
  • 24.
    Ting-Chun Wang, Jun-YanZhu, Ebi Hiroaki, Manmohan Chandraker, Alexei A. Efros, Ravi Ramamoorthi, “A 4D Light-Field Dataset and CNN Architectures for Material Recognition”, in ECCV, 2016. 【23】 Keywords: Light Field Camera, 4D Light Field 新規性・差分 概要 ライトフィールドカメラによる材質認識 (Material Recognition)の 研究であり,CNNアーキテクチャやデータセットを提供する.4D ライトフィールドはLytroにより撮影され,12の材質に対して各 100枚,30,000パッチが記録されている.提案法はベースライン と比較して7%の向上を示した.(70%=>77%) ・知りうる限り初めてのMid-sizeのライトフィールド データセットである ・空間的な畳み込みやAngular Imageに対して畳み込 みを行うことにより,Interleaved Filterを定義した.材 質認識にはこれが有効であることが判明した. Links 論文 https://people.eecs.berkeley.edu/ ~tcwang0509/papers/ECCV16/LFMR.pdf データセット https://people.eecs.berkeley.edu/ ~tcwang0509/publications.html ポスター http://www.eccv2016.org/files/posters/
  • 25.
    Pavel Tokmakov, KarteekAlahari, Cordelia Schmid, “Weakly-Supervised Semantic Segmentation using Motion Cues”, in ECCV, 2016. 【24】 Keywords: Weakly Supervised Semantic Segmentation 新規性・差分 概要 モーションや物体カテゴリの尤度マップを手掛かりとして,前景 領域のセマンティックセグメンテーションを弱教師付き学習の要 領で行う.右図が本論文の手法におけるオーバービューであ り,FCNN [Chen+, ICLR15]をベースとして,直感的にはEM- algorithm的に解決する (E-stepはピクセルラベルの推定,M- stepはbackpropによる最適化).学習ははYouTube Objects, ImageNet Videos, Pascal VOC 2012より行った. ・画像に対する物体ラベルを入力として,弱教師付き学習によ りセマンティックセグメンテーションを実施した. ・弱教師付き学習により,今後は膨大なデータによる学習が可 能である. Links 論文 https://arxiv.org/pdf/1603.07188v2.pdf ポスター http://www.eccv2016.org/files/posters/P-2B-40.pdf
  • 26.
    Zhizhong Li, DerekHoiem, “Learning without Forgetting”, in ECCV, 2016. 【25】 Keywords: Fine-tuning, CNN 新規性・差分 概要 学習済みのラベルを忘れずに(識別パラメータをできる限り変 更しないで)新しいタスクを学習させる方法を提案する.前提と して,従来のタスクの学習データが手に入らないこととする.マ ルチタスク学習の要領で従来のパラメータを忘れず,新しいタ スクのパラメータを学習する.実際にはAlexNetをベースとし て,マルチタスクロスを最小化することで従来タスクの性能を損 なわずに,パラメータを共有して新しいタスクを学習する. ・従来のタスクを忘れずに,新しいタスクを学習する「Learning without Forgetting」の概念を提案した. ・Fine-tuningやJoint Trainingと異なるのは,従来の学習サンプ ルを用いず,新規のデータを用いるのみで新しいタスクを学習 することができることである. Links 論文 https://arxiv.org/pdf/1606.09282v2.pdf
  • 27.
    Kaiming He, XiangyuZhang, Shaoqing Ren, Jian Sun, “Identity Mappings in Deep Residual Networks”, in ECCV, 2016. 【26】 Keywords: Deep Residual Networks, Identity Mapping 新規性・差分 概要 Deep Residual Networks (ResNets)はResidual Unitsにより構成 されている.Residual Unitsは(1)(2)に示すようなfunction h(x_l)と 入力と重みによる出力の残差 F(x_l, W_l)の和をReLU関数に通 したものである.本論文ではBatch Normalization (BN)やReLU などの順番を変えたユニットや,スキップコネクションの詳細解 析を行い,スタックする層の和を増やした. ・新規にResidual Unitsを定義した. ・スキップコネクションの解析により,ImageNetで152層から200 層に,CIFARでは110層から1001層と深くしても勾配を損なわず に学習し,精度が向上することが判明した.学習済みモデルを 公開している. Links 論文 https://arxiv.org/pdf/1603.05027v3.pdf コード https://github.com/KaimingHe/resnet-1k-layers 参考 http://qiita.com/supersaiakujin/items/eaa0fe0460c470c28bd8 ポスター http://www.eccv2016.org/files/posters/S-3A-07.pdf
  • 28.
    Matthew Hausknecht, PiyushKhandelwal, Risto Miikkulainen, Peter Stone, “HyperNEAT-GGP: A HyperNEAT- based Atari General Game Player”, in GECCO, 2012. 【27】 Keywords: NEAT, HyperNEAT, Neuroevolution, General Game Playing 手法 概要 ・画像処理による自機識別とHyperNEATを組み合わせ,Atariの複 数のゲーム(Freeway, Asterix)をプレイ可能にする. ・形状や動きを元に,Atariの画面から自機やその他の物体 のクラスを識別する. ・物体のクラスをHyperNEATに入力し,HyperNEATのニュー ラルネットの出力値を元に自機を操作する. Links 論文 http://nn.cs.utexas.edu/downloads/papers/hausknecht.gecco12.pdf コード https://github.com/mhauskn/HyperNEAT プロジェクト https://www.cs.utexas.edu/~mhauskn/research.html 新規性・差分 ・複数のAtariのゲームに対して,画面から任意の数の物体クラスを 識別し,ゲームのダイナミクスを学習する.
  • 29.
    Upal Mahbub, SayantanSarkar, Vishal M. Patel, Rama Chellappa, “Active User Authentication for Smartphones: A Challenge Data Set and Benchmark Results”, in arXiv pre-print 1610.07930, 2016. 【28】 Keywords: User Verification, Smartphone 新規性・差分 概要 スマートフォンを用いたユーザ認証についてベンチマークを作 成し,顔認識や位置情報から個人認証可能かどうかを検証し た.用いるセンサーはフロントカメラ,タッチセンサ,GPSであ り,顔検出及び顔認証,タッチセンサからの個人認証,位置 ベースの予測を実現した.右下図は顔認証のフレームワークで ある.顔検出,顔認証はそれぞれ76% (accuracy),18% (EER)で 実現可能である. ・スマートフォンを用いたデータにおいて,顔検出及び顔認証, タッチセンサからの個人認証,位置ベースの予測を提供した. ・データにおいてそれぞれのベースラインを与えた. Links 論文 https://arxiv.org/pdf/1610.07930.pdf プロジェクト
  • 30.
    Konstantinos Rematas, TobiasRitschel, Mario Fritz, Efstratios Gavves, Tinne Tuytelaars, “Deep Reflectance Maps”, in CVPR, 2016. 【29】 Keywords: Intrinsic Image, Reflectance map, Normal Estimation, Deconvolution 概要 ・CNNを用いて,鏡面材質の反射マップを推定. ・法線推定と再レンダリングにより,反射マップを転移. Links 論文 http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/ Rematas_Deep_Reflectance_Maps_CVPR_2016_paper.pdf プロジェクト・動画・データセット http://homes.cs.washington.edu/~krematas/DRM/ 新規性・差分 ・自然光環境下にある複雑な形状をした鏡面材質の反射 マップをend-to-endで推定. ・本タスク用のCG・実写のデータセットを提供. ・CNN/upconvolutionアーキテクチャで2次元画像から球形ド メインにマッピング(通常のピクセルラベリングと異なり座標 の直接対応が無い). ・疎な非構造データをCNNで補間.
  • 31.