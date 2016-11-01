cvpaper.challenge Twitter@CVPaperChalleng http://www.slideshare.net/cvpaperchallenge MAILTO: cvpaper.challenge[at]gmail[do...
Paul Guerrero, Niloy J. Mitra, Peter Wonka, “RAID: A Relation-Augmented Image Descriptor”, in SIGGRAPH (ToG), 2016. 【1】 Ke...
Peng Song, Bailin Deng, Ziqi Wang, Zhicao Dong, Wei Li, Chi-Wing Fu, Ligang Liu, “CofiFab: Coarse-to- Fine Fabrication of ...
Henry Roth, Marsette Vona, “Moving Volume KinectFusion”, in BMVC, 2012. 【3】 Keywords: Moving Volume, KinectFusion 新規性・差分 概...
Ishan Misra, C. Lawrence Zitnick, Martial Hebert, “Shuffle and Learn: Unsupervised Learning using Temporal Order Verificat...
Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Pablo Arbelaez, Luc Van Gool, “Convolutional Oriented Boundaries”, in ECCV, 2016....
Lingxi Xie, Qi Tian, John Flynn, Jingdong Wang, Alan Yuille, “Geometric Neural Phrase Pooling: Modeling the Spatial Co-occ...
David Held, Sebastian Thrun, Silvio Savarese, “Learning to Track at 100 FPS with Deep Regression Networks”, in ECCV, 2016....
Praveen Krishnan, C. V. Jawahar, “Matching Handwritten Document Images”, in ECCV, 2016. 【8】 Keywords: Handwritten Document...
Marian George, Mandar Dixit, Gabor Zogg, Nuno Vasconcelos, “Semantic Clustering for Robust Fine- Grained Scene Recognition...
Wenqi Ren, Si Liu, Hua Zhang, Jinshan Pan, Xiaochun Cao, Ming-Hsuan Yang, “Single Image Dehazing via Multi-Scale Convoluti...
Yi Zhou, Li Liu, Ling Shao, Matt Mellor, “DAVE: A Unified Framework for Fast Vehicle Detection and Annotation”, in ECCV, 2...
Chao Dong, Chen Change Loy, Xiaoou Tang, “Accelerating the Super-Resolution Convolutional Neural Network”, in ECCV, 2016. ...
Xiangyun Zhao, Xiaodan Liang, Luoqi Liu, Teng Li, Yugang Han, Nuno Vasconcelos, Shuicheng Yan, “Peak-Piloted Deep Network ...
Anita Sellent, Carsten Rother, Stefan Roth, “Stereo Video Deblurring”, in ECCV, 2016. 【14】 Keywords: Stereo Deblurring 新規性...
Ke Li, Jitendra Malik, “Amodal Instance Segmentation”, in ECCV, 2016. 【15】 Keywords: Instance-level Segmentation, Occlusio...
Justin Johnson, Alexandre Alahi, Li Fei-Fei, “Perceptual Losses for Real-Time Style Transfer and Super- Resolution”, in EC...
Yuanzhouhan Cao, Chunhua Shen, Heng Tao Shen, “Exploiting Depth from Single Monocular Images for Object Detection and Sema...
Qian-Yi Zhou, Jaesik Park, Vladlen Koltun, “Fast Global Registration”, in ECCV, 2016. 【18】 Keywords: ICP, Ransac, Global M...
Seong Joon Oh, Rodrigo Benenson, Mario Fritz, Bernt Schiele, “Faceless Person Recognition; Privacy Implications in Social ...
Steven B. Davis, Paul Mermelstein, “Comparison of parametric representations for monosyllabic word recognition in continuo...
Federico Tombari, Samuele Salti, Luigi Di Stefano, “Unique Signatures of Histograms for Local Surface Description”, in ECC...
Federico Tombari, Samuele Salti, Luigi Di Stefano, “A combined texture-shape descriptor for enhanced 3D feature matching”,...
Xianzhi Du, Mostafa El-Khamy, Jungwon Lee, Larry S. Davis, “Fused DNN: A deep neural network fusion approach to fast and r...
Kunihiro Ogata, Koji Terada, Yasuo Kuniyoshi, “Falling Motion Control for Humanoid Robots While Walking”, in Humanoids, 20...
Christoph Feichtenhofer, Axel Pinz, Richard P. Wildes, “Spatiotemporal Residual Networks for Video Action Recognition”, in...
Matthias Soler, Jean-Charles Bazin, Oliver Wang, Andreas Krause, Alexander Sorkine-Hornung, “Suggesting Sounds for Images ...
Jeffrey N. Chadwick, Doug L. James, “Animating Fire with Sound”, in ACM TOG, (SIGGRAPH), 2011. 【27】 Keywords: Sound Genera...
Jonathan Krause, Benjamin Sapp, Andrew Howard, Howard Zhou, Alexander Toshev, Tom Duerig, James Pilbin, Li Fei-Fei, “The U...
Yusuf Aytar, Carl Vondrick, Antonio Torralba, “SoundNet: Learning Sound Representations from Unlabeled Video”, in NIPS, 20...
Michael Opitz, Georg Waltner, Georg Poier, Horst Possegger, Horst Bischof, “Grid Loss: Detecting Occluded Faces”, in ECCV,...
Yunzhu Li, Benyuan Sun, Tianfu Wu, Yizhou Wang, “Face Detection with End-to-End Integration of a ConvNet and a 3D Model”, ...
Johannes L. Schonberger, Enliang Zheng, Marc Pollefeys, Jan-Michael Frahm, “Pixelwise View Selection for Unstructured Mult...
Victor Escorcia, Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “DAPs: Deep Action Proposals for Action Unders...
T. Nathan Mundhenk, Goran Konjevod, Wesam A. Sakla, Kofi Boakye, “A Large Contextual Dataset for Classification, Detection...
Jun Liu, Amir Shahroudy, Dong Xu, Gang Wang, “Spatio-Temporal LSTM with Trust Gates for 3D Human Action Recognition”, in E...
M. Savva, F. Yu, Hao Su, M. Aono, B. Chen, D. Cohen-Or, W. Deng, Hand Su, S. Bai, N. Fish, J. Han, E. Kalogerakis, E. G. L...
Song Bai, Xiang Bai, Zhichao Zhou, Zhaoxiang Zhang, Longin Jan Lattecki, “GIFT: A Real-time and Scalable 3D Shape Search E...
Angel X. Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, S...
Jyanth Koushik, Hiroaki Hayashi “Improving Stochastic Gradient Descent with Feedback ”,in arxiv:1611.01505, 2016. 【39】 Key...
Saining Xie, et al. “Aggregated Residual Transformations for Deep Neural Networks”, in arxiv:1611.05431, 2016. 【40】 Keywor...
Gernot Riegler, Ali Osman Ulusoy, Andreas Geiger, “OctNet: Learning Deep 3D Representations at High Resolutions”, in arXiv...
Vikram Mohanty, Shubh Agrawal, Shaswat Datta, Arna Ghosh, “DeepVO: A Deep Learning approach for Monocular Visual Odometry”...
Philipp Jund, Nichola Abdo, Andreas Eitel, Wolfram Burgard, “The Freiburg Groceries Dataset”, in arXiv pre-print 1611.0579...
Rahaf, Aljundi, Punarjay Chakravarty, Tinne Tuytelaars, “Expert Gate: Lifelong Learning with a Network of Experts”, in arX...
Hamidreza Rabiee, Javad Haddadnia, Hossein Mousavi, Maziyar Kalantarzadeh, “Novel Dataset for Fine-grained Abnormal Behavi...
Ionut C. Duta, Bogdan Ionescu, Kiyoharu Aizawa, Nicu Sebe, “Spatio-temporal VLAD Encoding for Human Action Recognition”, i...
Andreas Veit, Michael Wilber, Serge Belongie, “Residual Networks Behave Like Ensembles of Relatively Shallow Networks”, in...
Ishaan Gulrajani, Kundan Kumar, Faruk Ahmed, Adrien Ali Taiga, Francesco Visin, David Vazquez, Aaron Courville, “PxelVAE: ...
Joon Son Chung, Andrew Zisserman, “Lip Reading in the Wild”, in ACCV, 2016. 【49】 Keywords: Lip Reading, CNN 新規性・差分 概要 より一般...
Yannis M. Assael, Brendan Shillingford, Shimon Whiteson, Nando de Freitas, “LipNet: Sentence-level Lipreading”, in arXiv p...
Joon Son Chung, Andrew Senior, Oriol Vinyals, Andrew Zisserman, “Lip Reading Sentences in the Wild”, in arXiv pre-print 16...
Harish Katti, Marius V. Peelen, S. P. Arun, “Object detection can be improved using human-derived contextural expectations...
Tianrong Rao, Min Xu, Dong Xu, “Learning Multi-Level Deep Representations for Image Emotion Classification”, in arXiv pre-...
Linjie Yang, Kevin Tang, Jianchao Yang, Li-Jia Li, “Dense Captioning with Joint Inference and Visual Context”, in arXiv pr...
Pillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, “Image-to-Image Translation with Conditional Adversarial Network...
Asako Kanezaki, Yasuyuki Matsushita, Yoshifumi Nishida, “RotationNet: Joint Learning of Object Classification and Viewpoin...
Andrew Brock, Theoodore Lim, J. M. Ritchie, Nick Weston, “Generative and Discriminative Voxel Modeling with Convolutional ...
  2. 2. Paul Guerrero, Niloy J. Mitra, Peter Wonka, “RAID: A Relation-Augmented Image Descriptor”, in SIGGRAPH (ToG), 2016. 【1】 Keywords: Image Descriptor, Sketch-based Retrieval 新規性・差分 概要 人物とその物体のインタラクションを対象とした簡易的な スケッチにより画像検索を実行する手法を提案した．スケ ッチと検索対象画像のギャップを埋めるための画像記述法 であるRAIDを提案した．右図のようにQuery sketchから RAIDを抽出し，検索をかけることにより，例えば乗り物 にまたがる人物とオートバイや馬とのインタラクションが 検索できている．より複雑な形状を記述するために，中央 図のように色違いの対象とソース形状を評価する． ・Shape Contextと比較しても，インタラクションを適切 に表現できており，より複雑な関係性を記述可能である． 平均して20%の形状変動に対して頑健． ・Shape Contextをベースとしているが，複雑な関係性を 表現可能とした． Links 論文 http://delivery.acm.org/10.1145/2930000/2925939/a46- guerrero.pdf?ip=218.41.245.155&id=2925939&acc=OPENTOC&key=4D4702B0 C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E383ADA759 3775D6F&CFID=688452247&CFTOKEN=39607574&__acm__=1477932475_52 0fa0a239b8e1d324e400df96a8cf91 プロジェクト http://geometry.cs.ucl.ac.uk/projects/2016/image-relationships/ YouTube https://www.youtube.com/watch?v=Kjz5FHgmEZw
  3. 3. Peng Song, Bailin Deng, Ziqi Wang, Zhicao Dong, Wei Li, Chi-Wing Fu, Ligang Liu, “CofiFab: Coarse-to- Fine Fabrication of Large 3D Objects”, in SIGGRAPH, 2016. 【2】 Keywords: 3D Objects, Fabrication 新規性・差分 概要 分解して組み立てられる3Dプリンタを研究開発した．3次 元の多面体を近似してテスクチャを貼り付けるアイディア でできるだけコストを抑えつつ重要を軽くする3Dプリン タに成功した．パーツを分割する際には多面体を分割して 形状を近似するような最適化を行った．右はスタンフォー ドバニーの例であり，計44パーツに分割・組み合わせるこ とで3次元形状を完成する． ・3Dプリンタは体積が大きくなるほどコストが高くなる が，パーツに分解して組み立て式にすることでコストを大 幅に削減し，さらには持ち運びしやすいように軽くする方 法を提案し，実際に実行した． Links 論文 http://staff.ustc.edu.cn/~songpeng/subpage/2016- SIGGRAPH-CofiFab/download/paper.highres.pdf プロジェクト http://staff.ustc.edu.cn/~songpeng/subpage/2016-SIGGRAPH- CofiFab/
  4. 4. Henry Roth, Marsette Vona, “Moving Volume KinectFusion”, in BMVC, 2012. 【3】 Keywords: Moving Volume, KinectFusion 新規性・差分 概要 KinectFusionはカメラを動かして空間内をRGB-Dにより SLAMを実行する技術であるが，静的な環境において成り 立つ技術である．本論文では自由にカメラが動き回る環境 においてKinectFusionを行うことができるように改良した． 任意のカメラ移動を行っていても，カメラの絶対的な姿勢， 6D Visual Odometryが求まり，常に現状のTSDFで3次元情 報が手に入る． ・カメラが任意の動作をする環境におい てもカメラ姿勢やオドメトリ，TSDF情 報が手に入り，さらには高速な処理が実 行できた ・外の環境においても同様の処理を行え ることが判明した．約25mの環境構築に 成功． Links 論文 http://www.bmva.org/bmvc/2012/BMVC/pa per112/paper112.pdf 研究室 http://www.ccs.neu.edu/research/gpc/
  5. 5. Ishan Misra, C. Lawrence Zitnick, Martial Hebert, “Shuffle and Learn: Unsupervised Learning using Temporal Order Verification”, in ECCV, 2016. 【4】 Keywords: Human Action Recognition, Order Verification 新規性・差分 概要 開始・終了フレームが与えられた場合に，中間のフレーム を学習してオーダーを推定する．ポイントとしては，教師 なし学習で，3枚の連続するフレームの入力から中央フレ ームを推定して誤差を求めていく．右図のようにSiamese Netを用いてパラメータを推定する．この教師なし学習に よる認識では教師あり学習には劣るものの，良好な性能を 示した．(表より) ・行動認識におけるオーダーを学習し，教師なし学習によ り行動を認識することに成功した． ・SiameseNetをベースとしたアルゴリズムにより動画の オーダーを教師なし学習． Links 論文 https://arxiv.org/pdf/1603.08561v2.pdf GitHub https://github.com/imisra/shuffle-tuple ポスター http://www.eccv2016.org/files/posters/P-1A-32.pdf
  6. 6. Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Pablo Arbelaez, Luc Van Gool, “Convolutional Oriented Boundaries”, in ECCV, 2016. 【5】 Keywords: Contours, Object Proposals, CNN 新規性・差分 概要 CNNベースの物体境界線の推定方法であるConvolutional Oriented Boundaries (COB)を提案．最先端の輪郭線 (Contours)推定や物体候補領域推定を実現した．右図のア ーキテクチャではResNet-50を採用，輪郭線のオリエンテ ーションだけでなく強さまで表現し，高速な階層的処理を 実現した．複数階層の特徴を表現することにより，物体の 外輪郭や内部に含まれる詳細な輪郭の評価を行うことがで きる． ・ResNetを用いた外輪郭推定，物体候補領域推定を提案 した．その両者のタスクにおいてState-of-the-artな精度を 実現．下図はPascalVOCやMS-COCOにおける物体候補領 域の精度． ・外輪郭に沿った物体候補領域の推定が行えるようになっ た． Links 論文 http://www.vision.ee.ethz.ch/~cvlseg mentation/cob/data/COB_ECCV16.p df プロジェクト http://www.vision.ee.ethz.ch/~cvlseg mentation/cob/
  7. 7. Lingxi Xie, Qi Tian, John Flynn, Jingdong Wang, Alan Yuille, “Geometric Neural Phrase Pooling: Modeling the Spatial Co-occurrence of Neurons”, in ECCV, 2016. 【6】 Keywords: 新規性・差分 概要 ニューロンの空間的な共起性を考慮した表現方法を提案す る．例えば，右図のように赤が対象の畳み込みによるニュ ーロンだとすると，共起情報であるside wordsは緑: σ，青: σ^2により重み付けされる．本論文では，GNPP (Geometric Neural Phrase Pooling)を設けて単純な畳み込 みに加えて共起表現を加えている． 畳み込みのニューロンに対して共起 表現を与えるGNPPというプーリン グ方法を提案した．右図の可視化の ようにより鋭敏に物体に対し反応す ることがわかり，さらにImageNetを 用いた物体識別においても精度が向 上することが判明した． Links 論文 http://bigml.cs.tsinghua.edu.cn/~lingxi/PDFs/Xie_ECCV16_GN PP.pdf プロジェクト(コードあり) http://bigml.cs.tsinghua.edu.cn/~lingxi/Projects/GNPP.html ポスター http://www.eccv2016.org/files/posters/P-1A-39.pdf
  8. 8. David Held, Sebastian Thrun, Silvio Savarese, “Learning to Track at 100 FPS with Deep Regression Networks”, in ECCV, 2016. 【7】 Keywords: Deep Regression Networks, 100FPS Tracking 新規性・差分 概要 初期位置が与えられた上でのCNNを用いたトラッキング方 法を提案する．右図のように前後フレームが与えられた際 に画像がどのように移動したかを推定するCNNモデルを考 案することで，テスト時にも高速な推定を実行することが できる．データ拡張についてもモーションや並進，スケー ル変化を考慮して行う．Tracker Netは畳み込みが5層，全 結合層が3層で構成され，入力は前後2フレームからそれぞ れ追跡位置を切り抜いたパッチである． ・トラッキングにおいて非常に高速で100FPSを超えるフ レームワークを提案した ・2枚の画像を入力としたCNNベースのアーキテクチャに より，高精度かつ高速な実装を実現した Links 論文 https://arxiv.org/pdf/1604.01802.pdf コード https://github.com/davheld/GOTURN
  9. 9. Praveen Krishnan, C. V. Jawahar, “Matching Handwritten Document Images”, in ECCV, 2016. 【8】 Keywords: Handwritten Document Match 新規性・差分 概要 異なる人物の手書き文章同士をマッチングする手法を考案 した．データセットではIIT-HWSを提案した．IIT-HWSに は9Mの文字数，700ものフォントを含んでいる．CNNの アーキテクチャであるHWNetは5conv, 3fc, BNやsoftmax lossなどを実装し右図のような構造である． ・データセットであるIIT-HWSを提案した ・手書き文章をマッチングさせるHWNetを提案 ・手書き文章を比較するアプリケーションを実装 Links 論文 https://cvit.iiit.ac.in/images/ConferencePapers/2016/MatchingH W_ECCV16.pdf プロジェクト https://cvit.iiit.ac.in/research/projects/cvit- projects/matchdocimgs ポスター http://www.eccv2016.org/files/posters/P-1A-46.pdf
  10. 10. Marian George, Mandar Dixit, Gabor Zogg, Nuno Vasconcelos, “Semantic Clustering for Robust Fine- Grained Scene Recognition”, in ECCV, 2016. 【9】 Keywords: Fine-grained Scene Recognition, Semantic Clustering 新規性・差分 概要 似たようなシーンであるが，意味は大きく異なるもの同士 (e.g. bookstoreやmusic store)を分類するためのSemantic Clusteringを提案する．Semantic Clusteringは右図で示さ れるような流れであり，(a) シーンのクラスから (b) 物体 のクラスに投影され，(c) 各シーンの物体の発生頻度を解 析して(d) クラスタリングに活用される．(c)のシーンにお ける物体の発生頻度は確率で表現され，詳細シーン認識を 行う上では重要な手がかりとなる． ・詳細シーン認識のためにSemantic Clusteringを提案した． 各シーンにおける物体の発生頻度を計算することで詳細分 類が可能となった． ・各データセットにてstate-of-the-artを達成し，さらには cross-domainにおける認識でも良好な性能を達成． Links 論文 http://www.svcl.ucsd.edu/publications/conference/2016/Seman ticClustering/0253.pdf ポスター http://www.eccv2016.org/files/posters/P-1A-47.pdf
  11. 11. Wenqi Ren, Si Liu, Hua Zhang, Jinshan Pan, Xiaochun Cao, Ming-Hsuan Yang, “Single Image Dehazing via Multi-Scale Convolutional Neural Networks”, in ECCV, 2016. 【10】 Keywords: Dehazing, Multi-CNN 新規性・差分 概要 霧がかった画像をクリアにするDehazingの問題を解決す るために，Multi-scale のCNNモデルを構築した．霧がか かった領域やその度合いと復元された画像を学習して， DehazingのためのMulti-scale CNNを構築する．トレーニ ングについてもNYUデータをベースとして構築した．ネッ トワークアーキテクチャも右図に示す通りである． ・Multi-scale CNNのモデルにより，Dehazingを高精度に 解決した ・Hand-craftedな手法やCNNベースの手法の詳細解析を行 った Links 論文 https://drive.google.com/file/d/0B7PPbXPJRQp3TUJ0VjFaU1pIa28/view プロジェクト https://sites.google.com/site/renwenqi888/research/dehazing/mscnndehazing コード https://sites.google.com/site/renwenqi888/research/dehazing/mscnndehazing/MSC NN_dehazing.rar?attredirects=0&d=1 ポスター http://www.eccv2016.org/files/posters/P-1B-14.pdf
  12. 12. Yi Zhou, Li Liu, Ling Shao, Matt Mellor, “DAVE: A Unified Framework for Fast Vehicle Detection and Annotation”, in ECCV, 2016. 【11】 Keywords: Detection, Annotation, Vehicle, CNN 新規性・差分 概要 車両検出やアノテーションの仕組み (Detection and Annotation for Vehicles; DAVE)を考案．ふたつのCNNであ る(1) 高速な車両候補ネットや(2) 車両検出器およびアトリ ビュートの学習器により構成される．アトリビュートには Viewpoint, color, typeなどであり，車両の位置も含めてア ノテーションされる． ・高速な車両検出器及びアトリビュートラベルを付与する 仕組みを考案した． ・GoogleNetをベースにしたアーキテクチャを構築 ・Urban Traffic Surveillance (UTS) vehicle datasetを収集 した Links 論文 https://arxiv.org/pdf/1607.04564v3.pdf プロジェクト ポスター http://www.eccv2016.org/files/posters/P-1B-22.pdf
  13. 13. Chao Dong, Chen Change Loy, Xiaoou Tang, “Accelerating the Super-Resolution Convolutional Neural Network”, in ECCV, 2016. 【12】 Keywords: Fast Super-Resolution, CNN 新規性・差分 概要 高速かつ高精度な超解像を，CNNを用いて実現した．右は 従来手法であるSuper-Resolution CNN (SRCNN)との比較 である．提案のFast SRCNNは前処理であるバイキュービ ック法を必要とせず，非線形マッピングをshrinking, mapping, expandingにより置き換え，FSRCNNはより小さ いフィルタサイズで深い構造を保持している． ・24fpsを超える超解像変換をCNNにより行うことに成功 した． ・従来のSRCNNと比較して，上記3つの改善が見られ高速 化を実現． ・Conv層とDeconv層がパラメータを共有している ・右の表が構造・入力サイズ・パラメータ数・スピード 比・PSNRなどを示したものである． Links 論文 https://arxiv.org/pdf/1608.00367v1.pdf プロジェクト(コード，データあり) http://mmlab.ie.cuhk.edu.hk/projects/FSRCNN.html ポスター http://www.eccv2016.org/files/posters/P-1B-29.pdf
  14. 14. Xiangyun Zhao, Xiaodan Liang, Luoqi Liu, Teng Li, Yugang Han, Nuno Vasconcelos, Shuicheng Yan, “Peak-Piloted Deep Network for Facial Expression Recognition”, in ECCV, 2016. 【13】 Keywords: Peak-piloted Facial Expression 新規性・差分 概要 顔表情認識は非常に難しい問題であるが，表情の最も認識 しやすいタイミングで表情認識を行う．この問題はPeak- Pilotedと呼ばれ，Deep Networkにより表情認識を実行し た．下図がPeak/Non-Peakの学習を行うネットワーク構造 であり，2枚の画像を入力として識別誤差のCross-entropy を計算して最適化を行う．学習最適化の計算をPeak Gradient Suppression (PGS)により行う． ・通常は非常に難しい顔表情認識であるが，識別率が最も 高いピーク位置を抽出することにより，表情の認識率が向 上することがわかった ・Peak-Piloted Deep Network (PPDN)により表情認識を高 精度にして，さらにPPDNを最適化するためのPGSを提案 した Links 論文 https://arxiv.org/pdf/1607.06997v1.pdf プロジェクト ポスター http://www.eccv2016.org/files/posters/P-1B-31.pdf
  15. 15. Anita Sellent, Carsten Rother, Stefan Roth, “Stereo Video Deblurring”, in ECCV, 2016. 【14】 Keywords: Stereo Deblurring 新規性・差分 概要 ステレオマッチングのために，ビデオ映像のブラー補正を 行う．物体の独立なモーション推定のためにローカルブラ ーカーネルを推定(右図)，画像平面の領域をセグメントし て(中央図)，物体境界を推定する(下図)．ホモグラフィや 画像勾配を想定したモデルを適用し，IRLS (iteratively reweighted least squares)により最適化． ・前後フレームから得られる画像をステレオとしてブラー 補正を行った ・ローカルなブラーカーネルを推定することで，物体に独 立なモーションをそれぞれ推定可能とした Links 論文 https://arxiv.org/pdf/1607.08421v1.pdf プロジェクト ポスター http://www.eccv2016.org/files/posters/P-1B-39.pdf
  16. 16. Ke Li, Jitendra Malik, “Amodal Instance Segmentation”, in ECCV, 2016. 【15】 Keywords: Instance-level Segmentation, Occlusion 新規性・差分 概要 インスタンスレベルのセマンティックセグメンテーション において，誤りを補正する．右図の例では，馬の領域内に 人物領域が入り込んでいるため，異常と判定されている． 異常セグメンテーションのアノテーションは手に入らない 上に領域ベースで異常を修正することは非常に困難なタス クであるが，下図のようにランダムな物体をセグメンテー ション位置において異常領域を学習する．ベースには Iterative Instance Segmentation [Li+, CVPR16]を使用． ・インスタンスセグメンテーションに対して異常が ある際の修正法を提案した ・セグメンテーションのアノテーションに対してラ ンダムにノイズを含ませることでこれを解決 Links 論文 https://arxiv.org/pdf/1604.08202.pdf プロジェクト ポスター http://www.eccv2016.org/files/posters/P-1B-46.pdf
  17. 17. Justin Johnson, Alexandre Alahi, Li Fei-Fei, “Perceptual Losses for Real-Time Style Transfer and Super- Resolution”, in ECCV, 2016. 【16】 Keywords: Style Transfer, Super Resolution 新規性・差分 概要 GatysらのStyle Transferと比較して，似たような結果で約 1000倍の高速化を図り，動画に対するStyle Transferを現 実的なものにした．Perceptual Content Lossについて， Style Transfer時にはターゲット画像と入力画像のロスを最 小化し，超解像の際にはGTとの誤差を最小化する．さら に，Style TransferにはPerceptual Style Lossを用いる．グ ラム行列におけるユークリッド距離を計算して最小化． ・従来のStyle Transferと似たような結果でかつ約 1000倍の高速化を実現した．右の表や図に結果が示 されている ・同じアーキテクチャで誤差関数の定義を変更する ことで，超解像もできることが判明した． Links 論文 http://cs.stanford.edu/people/jcjohns/papers/eccv16/JohnsonE CCV16.pdf コード https://github.com/jcjohnson/fast-neural-style プロジェクト http://cs.stanford.edu/people/jcjohns/eccv16/ ポスター http://www.eccv2016.org/files/posters/P-1B-47.pdf
  18. 18. Yuanzhouhan Cao, Chunhua Shen, Heng Tao Shen, “Exploiting Depth from Single Monocular Images for Object Detection and Semantic Segmentation”, in TIP, 2016. 【17】 Keywords: Depth Estimation, Object Detection, Semantic Segmentation 概要 ・CNNによる単眼デプス推定で得られたデプスを用いて， RGB-Dの物体検出，Semantic Segmentation． デプスを使用しない場合と比較し精度向上． Links 論文 https://arxiv.org/pdf/1610.01706v1.pdf 新規性・差分 ・推定したデプスとRGBデータを組み合わせることで，物体 検出，Semantic Segmentationの精度を向上． ・推定したデプスの利用方法を2種提案． (1) multi-task training (2) feature concatenation fully convolutional blocks
  19. 19. Qian-Yi Zhou, Jaesik Park, Vladlen Koltun, “Fast Global Registration”, in ECCV, 2016. 【18】 Keywords: ICP, Ransac, Global Matching 新規性・差分 概要 大域的な3次元サーフェイスのマッチングを実現した．初 期化なしで密な表面形状の最適化を行うことができる．右 図は2Dポイントの例である．青が正解の対応，赤が誤対 応であるが，できる限りサンプリングや検証などの処理を 省く最適化を考案した． ・ICPよりも数倍，RANSACよりも50倍高速な処理を実現 した． ・エラーをRMSEにより計算した結果，下表に示すような 結果が得られた． Links 論文 http://vladlen.info/papers/fast-global-registration.pdf プロジェクト
  20. 20. Seong Joon Oh, Rodrigo Benenson, Mario Fritz, Bernt Schiele, “Faceless Person Recognition; Privacy Implications in Social Media”, in ECCV, 2016. 【19】 Keywords: Person Detection, Faceless Detection 新規性・差分 概要 プライバシーを保証するために，顔を見ないで人物認証を 行う手法について検討した．頭部領域に対してブラーがか った画像に対して人物認証を行うという問題になる．学習 にはタグ付けされた顔画像入りの画像を用いることができ るが，テスト時には顔を隠して認証を行う．認証にはCRF を用いた． ・Faceless Person Recognitionというフレームワークを提 案した． ・右図はVisible, ブラー，黒抜きの比較である．黒抜きよ りもブラーの方が精度が高いことがわかる． Links 論文 https://scalable.mpi-inf.mpg.de/files/2016/10/16.pdf プロジェクト ポスター http://www.eccv2016.org/files/posters/P-2A-12.pdf
  21. 21. Steven B. Davis, Paul Mermelstein, “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”, in IEEE Trans. on Acoustics, Speech and Signal Processing, Vol.28, No.4, pp.357-366, 1980. 【20】 Keywords: Mel-Frequency Cepstram Coefficients (MFCC) 新規性・差分 概要 音声や音楽認識において頻出のMFCC (Mel-Frequency Cepstram Coefficients)につい ての論文．コンピュータビジョンにおいても動画認識の補助特徴として用いられる 事がある．処理は(1) プリエンファシスフィルタによる波形の高周波成分を強調， (2) 窓関数による畳み込み後にFFT (3) 振幅スペクトルにメルフィルタバンク(右図) をかける．メルフィルタバンクは低周波成分は密に，高周波成分は荒くサンプリン グする．(4) フィルタリングした信号に対してDCT変換，(5) 得られたケプストラム の低次成分がMFCCとして扱われる． ・音をアブストラクトな特徴ベクトルとして捉える事が可 能となった． ・現在では広く用いられる音の解析手法としてデファクト スタンダードとなっている． Links 論文 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.462.5073&re p=rep1&type=pdf コード https://dl.dropbox.com/u/285709/hatena/source/mfcc.py 解説1 http://aidiary.hatenablog.com/entry/20120225/1330179868 解説2 http://r9y9.github.io/blog/2013/11/24/mfcc-calculation-memo/
  22. 22. Federico Tombari, Samuele Salti, Luigi Di Stefano, “Unique Signatures of Histograms for Local Surface Description”, in ECCV, 2010. 【21】 Keywords: SHOT, 3D Keypoints 新規性・差分 概要 3次元のキーポイント検出や特徴記述子であるSignature of Histograms of OrienTations (SHOT)を提案した．SHOTで はモデルや参照の両者で安定してマッチングが行えるよう に非曖昧性やユニークさを兼ね備えた特徴点のマッチング に関する評価を行い，高度なマッチングを実現した．また， 記述子としては対象となる3次元点群の周辺から球体状に 記述することとし，xyz方向に32分割して法線ベクトル群 と注目点の法線を内積してヒストグラム化， ・3次元点群の幾何情報から特徴記述するSignature型と点 群情報を抽象化したHistogram型の特徴記述において，両 者の利点を組み合わせた手法を提案した（右表）． ・現在においてスタンダードになっており，3次元点群ラ イブラリであるPCLにも実装されている． Links 論文 http://www.vision.disi.unibo.it/fede/papers/eccv10.pdf プロジェクトhttp://www.vision.deis.unibo.it/research/78- cvlab/80-shot
  23. 23. Federico Tombari, Samuele Salti, Luigi Di Stefano, “A combined texture-shape descriptor for enhanced 3D feature matching”, in ICIP, 2011. 【22】 Keywords: Color SHOT with Color 新規性・差分 概要 テクスチャ情報を用いて，SHOT特徴量の表現をリッチに した．Color SHOT (CSHOT)とも言われる．3Dキーポイン ト検出はそのままに，法線ベクトルによる記述やテクスチ ャによる記述を組み合わせたモデルである．テクスチャは RGB=>CIELabに変換した空間のドットの積(dot product) により表現される． ・SHOTに対して，カラー情報を追加したColor SHOT (CSHOT)を提案した． ・右のグラフはCSHOT, SHOT, Mesh-HOGの比較である． 精度はCSHOTが最も良好で，計算の効率性もSHOTが最 もよく，次いでCSHOTであった． Links 論文 http://www.vision.deis.unibo.it/fede/papers/icip11.pdf プロジェクト http://www.vision.deis.unibo.it/research/78- cvlab/80-shot
  24. 24. Xianzhi Du, Mostafa El-Khamy, Jungwon Lee, Larry S. Davis, “Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detection”, in arXiv pre-print 1610.03466, 2016. 【23】 Keywords: Pedestrian Detection, Fused DNN 新規性・差分 概要 SSDをベースとして，各レイヤ特徴の統合により拡張した歩行者検出． 複数のレイヤの各特徴で歩行者候補領域を抽出し，さらに複数のDNN アーキテクチャ(Fused DNN)により詳細に歩行者の領域を識別する． Fused DNNにはセマンティックセグメンテーションのマスクも参照す る．提案手法のフローは右図に示す．セマンティックセグメンテーシ ョンはDilated Convolutionを採用した[Yu+, ICLR16]を使用した． ・従来の精度がRPN+BF(ECCV16)のエラー率9.58%であ ったが，それを塗り替える8.65% (セマンティックセグメ ンテーションネットを用いると8.18%)を実現した．（下図 のグラフより） ・右下図では，セマンティックセグメンテーションによる マスク参照が示される． Links 論文 https://arxiv.org/pdf/1610.03466.pdf プロジェクト
  25. 25. Kunihiro Ogata, Koji Terada, Yasuo Kuniyoshi, “Falling Motion Control for Humanoid Robots While Walking”, in Humanoids, 2007. 【24】 Keywords: Humanoid Robot, Falling Motion, 新規性・差分 概要 ヒューマノイドロボットの研究において，歩行のみならず， 転倒の際の挙動について検討した．歩行をモデリングして， 転倒を検知した際には転倒に備えて受け身を取るという画 期的な手法を提案した． ・転倒に備えて受け身をするというコンセプトを提案した． ・2015年にはDarpa Robotics Challenge (DRC)があり，転 倒に対する反応は見直されるかもしれない． Links 論文 https://www.researchgate.net/profile/Kunihiro_Ogata/publicatio n/224401336_Falling_motion_control_for_humanoid_robots_w hile_walking/links/569ec6cf08ae2c638eb59a60.pdf プロジェクト
  26. 26. Christoph Feichtenhofer, Axel Pinz, Richard P. Wildes, “Spatiotemporal Residual Networks for Video Action Recognition”, in NIPS, 2016. 【25】 Keywords: Two-stream, ResNet 新規性・差分 概要 Two-stream CNN [Simonyan+, NIPS2014]のCNNアーキテクチャを Deep Residual Networks (ResNet)に置き換えた．画像認識用のデー タセット(e.g. ImageNet, COCO)にて初期値を設定し，その後 UCF101やHMDB51など行動認識用のデータセットによりパラメー タを更新した．さらに，2つのストリームの知識を共有してパラメ ータを最適化することにより精度が向上することが明らかとなった． ・Two-stream CNNのアーキテクチャをResNetにより置き 換えた． ・行動認識のデータセットUCF101にて93.4%，HMDB51 にて66.4%を実現した．さらにハンドクラフト特徴である IDTとの連結により94.6%，70.3%まで精度を伸ばした． Links 論文 https://arxiv.org/pdf/1611.02155v1.pdf コード https://github.com/feichtenhofer/st-resnet
  27. 27. Matthias Soler, Jean-Charles Bazin, Oliver Wang, Andreas Krause, Alexander Sorkine-Hornung, “Suggesting Sounds for Images from Video Collections”, in ECCVW, 2016. 【26】 Keywords: Suggesting Sounds, Sounds Retrieval 新規性・差分 概要 画像から連想される音声・音楽をサジェストする手法を提案した． 背景音楽などノイズがあり必ずしも画像と音声は対応付けられるも のではないが提案手法ではクラスタリングベースの教師なし学習に よる方法でノイズを出来る限り排除した．右図はビデオやオーディ オとの対応を生成している図である．オーディオ特徴にはMFCCを， ビデオ特徴としてはCNNの全結合層を用いた．さらに，ビデオとオ ーディオの相関を元にして特徴表現を行った，クラスタリングは kNNを使用． ・画像と音声，マルチモーダルを用いた研究として画像か らの音声検索を実現した． ・相関を用いる手法とそうでないものでは，両者の統合に よる手法が良いことが判明した．（右下図） Links 論文 http://www.ahornung.net/files/pub/2016-eccvws- suggestingsounds-soler.pdf プロジェクト https://www.disneyresearch.com/publication/sounds-for- images/
  28. 28. Jeffrey N. Chadwick, Doug L. James, “Animating Fire with Sound”, in ACM TOG, (SIGGRAPH), 2011. 【27】 Keywords: Sound Generation, Fire 新規性・差分 概要 炎の映像に対して音を生成的に付与する手法を提案した． Spectral Bandwidth Extension：高周波のノイズを低周波 の音に合成してリアリティを出す(？)手法である． Sound Texture Synthesis：細かなスケールの音や，時系列 的に詳細な音を合成するための手法である． ・炎の音声について，擬似的な音声を合成するための物理 的なモデルを考案した ・上記ふたつのアルゴリズムの提案により，よりリアルな 炎の音として合成することに成功した ・詳細やデモは動画参照 Links 論文 http://www.cs.cornell.edu/projects/Sound/fire/FireSound2011.p df プロジェクト http://www.cs.cornell.edu/projects/Sound/fire/ YouTube https://www.youtube.com/watch?v=hZC6ORUbLog
  29. 29. Jonathan Krause, Benjamin Sapp, Andrew Howard, Howard Zhou, Alexander Toshev, Tom Duerig, James Pilbin, Li Fei-Fei, “The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition”, in ECCV, 2016. 【28】 Keywords: Scale up Fine-grained Category 新規性・差分 概要 詳細画像認識(Fine-grained Recognition)は大量の画像学習 を行うことでさらにスケールアップできると主張した． Cross-domain noise, Cross-category noiseを含むデータセ ットであるが，Active Learningを行うことで，これらを含 むデータであってもクラスラベルを増加しても精度よくラ ベルを推定するに至った． ・ノイズを含むデータからの学習により詳細画像認識のク ラスを増加することに成功 ・正解ラベルなしに拡張することができた ・鳥の種類は10,000種類，蝶の種類は14,000にまで拡張し た Links 論文 https://arxiv.org/pdf/1511.06789v3.pdf プロジェクト ポスター http://www.eccv2016.org/files/posters/P-2A-29.pdf
  30. 30. Yusuf Aytar, Carl Vondrick, Antonio Torralba, “SoundNet: Learning Sound Representations from Unlabeled Video”, in NIPS, 2016. 【29】 Keywords: Sound, Image, SoundNet 新規性・差分 概要 教師なしによる音声学習のニューラルネットであるSoundNetを提 案．音声と画像の対応付けにより物体やシーンと関連する音を自 動学習できる．学習には数百万のラベル付けされていない動画か らビデオとオーディオに分割して，右図のSoundNetに入力すると 音声認識の結果が出力される．誤差逆伝播のための誤差はKL Divergenceにより計測する． ・大規模データから自動で音声認識の構造を学習可能とし た．映像と対応づけることで教師なしでも学習を成功に導 くことが判明した ・右図が音声(シーン)認識の結果である．従来法と比較す ると著しく精度が向上している．人間と比較すると低いが， 特にESC-10においては匹敵するくらいの精度になってき た． ・音声を始めとしたマルチモーダル学習において，画像認 識の精度は信頼できるものになってきたということであろ う． Links 論文 https://arxiv.org/pdf/1610.09001v1.pdf コード https://github.com/cvondrick/soundnet 著者 http://web.mit.edu/vondrick/
  31. 31. Michael Opitz, Georg Waltner, Georg Poier, Horst Possegger, Horst Bischof, “Grid Loss: Detecting Occluded Faces”, in ECCV, 2016. 【30】 Keywords: Face Detection, Occlusion, Grid Loss 新規性・差分 概要 CNNに対してGrid lossと呼ばれる，オクルージョン対応を 行う誤差関数を提案することにより顔認識の精度を向上さ せることができる．誤差関数は下式により示され，畳み込 みレイヤ f をブロックごとに分割 (f_i)し，ブロックごとに 検出器 w_iを評価．共有重みである wによりレイヤの特徴 を表現する． ・オクルージョンを対応するための誤差関数であるGrid lossを提案した．グリッドごとに特徴を取り出し検出器を 評価することにより，例として顔検出の精度を向上させる ことに成功した． Links 論文 https://arxiv.org/pdf/1609.00129v1.pdf ポスター http://www.eccv2016.org/files/posters/P-2A-34.pdf
  32. 32. Yunzhu Li, Benyuan Sun, Tianfu Wu, Yizhou Wang, “Face Detection with End-to-End Integration of a ConvNet and a 3D Model”, in ECCV, 2016. 【31】 Keywords: Face Detection, Multi-task, 3D model 新規性・差分 概要 顔認識において3Dモデルの平均や2D画像の特徴量により 認識を実行する．3Dと2Dの共通特徴を学習するために Multi-task Lossを定義する．3Dモデルからの候補領域を抽 出できることや，Configuration poolingにより顔検出のた めの検証を行うことができる．全体的なネットワークの構 造は右図の通りである． ・2D画像のみならず，3Dの顔モデルを用いることで，例 えば候補領域の生成などにメリットがある ・マルチタスク学習により2Dと3Dの共通特徴を学習可能 である． ・ベンチマークであるFDDBやAFWにて良好な性能を達成 した Links 論文 https://arxiv.org/pdf/1606.00850v3.pdf コード https://github.com/tfwu/FaceDetection-ConvNet-3D ポスター http://www.eccv2016.org/files/posters/P-2A-36.pdf
  33. 33. Johannes L. Schonberger, Enliang Zheng, Marc Pollefeys, Jan-Michael Frahm, “Pixelwise View Selection for Unstructured Multi-View Stereo”, in ECCV, 2016. 【32】 Keywords: Multi-View Stereo 新規性・差分 概要 多数の画像から対応点マッチングを行い，空間の3次元形 状を復元するMulti-View Stereoの問題設定．オクルージョ ン・立体視・解像度・ビュー変換などの事前情報からピク セルレベルでのビュー選択が可能になった． ・パッチのマッチング手法を新規に考案し，距離画像・法 線・オクルージョンを同時推定できる枠組みを考案した． ・フォトメトリックや幾何的な事前情報によりPixelwiseに ビュー推定が可能となった． ・Multi-viewの幾何的な整合性を考慮． ・これらの相補的な作用により，従来よりも密な点群推定 が可能となった． Links 論文 https://www.cs.unc.edu/~ezheng/resources/mvs_2016/eccv20 16.pdf ポスター http://www.eccv2016.org/files/posters/P-2A-41.pdf YouTube https://www.youtube.com/watch?v=GRW2APWn9wY
  34. 34. Victor Escorcia, Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “DAPs: Deep Action Proposals for Action Understanding”, in ECCV, 2016. 【33】 Keywords: Action Proposals 新規性・差分 概要 CNN-RNN連結による時系列解析により，高速な行動候補 領域の推定を実現した．画像特徴にはxytの畳み込みを採 用したCNNであるC3Dを，シーケンスの記述にはLSTMを 用いることで長期の候補領域を生成するに至った． ・C3DとLSTMのコンビネーションにより，高速(> 130fps) な人物行動の候補領域生成に貢献した． ・THUMOS-14 datasetに対する候補領域数やRecallの対応 表は右に示す通りである． Links 論文 https://ivul.kaust.edu.sa/Documents/Publications/2016/DAPs Deep Action Proposals for Action Understanding.pdf プロジェクト https://ivul.kaust.edu.sa/Pages/pub-Daps.aspx ポスター http://www.eccv2016.org/files/posters/P-2B-10.pdf
  35. 35. T. Nathan Mundhenk, Goran Konjevod, Wesam A. Sakla, Kofi Boakye, “A Large Contextual Dataset for Classification, Detection and Counting of Cars with Deep Learning”, in ECCV, 2016. 【34】 Keywords: Aerial Images, Car Detection 新規性・差分 概要 航空画像からの車両検出に対して，データセットを公開し た．モデルとしてはGoogleNet-v4を参考にして ResCeption Layerを提案して，高精度な航空画像における 車両検出を実行した． ・航空画像における車両検出の問 題に対してデータを公開した． ・ResCeption Layerを提案 ・比較結果は右表 Links 論文 https://arxiv.org/pdf/1609.04453v1.pdf プロジェクト http://gdo-datasci.ucllnl.org/cowc/ ポスター http://www.eccv2016.org/files/posters/P-2B-11.pdf
  36. 36. Jun Liu, Amir Shahroudy, Dong Xu, Gang Wang, “Spatio-Temporal LSTM with Trust Gates for 3D Human Action Recognition”, in ECCV, 2016. 【35】 Keywords: LSTM, 3D Action Recognition 新規性・差分 概要 LSTMを用いた，時系列行動認識に関する研究．人体スケ ルトンを入力として，LSTMにより認識を行うが，Trust Gateの提案によりノイズに対して頑健な認識を行うことが できる．信頼できる時間情報のみ再帰的な入力を行う． ・LSTMに対してTrust Gateの提案により信頼できるスケ ルトンベースの行動認識を行うことができた ・NTU RGBD，SBU Interaction，UT-Kinectなどのデータ にてState-of-the-artな精度 Links 論文 https://arxiv.org/pdf/1607.07043v1.pdf プロジェクト http://www.eccv2016.org/files/posters/P-2B- 13.pdf
  37. 37. M. Savva, F. Yu, Hao Su, M. Aono, B. Chen, D. Cohen-Or, W. Deng, Hand Su, S. Bai, N. Fish, J. Han, E. Kalogerakis, E. G. Learned-Miller, Y. Li, S. Maji, A. Tatsuma, Y. Wang, N. Zhang, Z. Zhou, “SHREC’16 Track: Large-Scale 3D Shape Retrieval from ShapeNet Core55”, in Eurographics Workshop on 3D Retrieval, 2016. 【36】 Keywords: 3D Object Retrieval, Shrec 2016 新規性・差分 概要 3次元物体検索 (3D Object Retrieval)のためのコンペティションであるSHREC’16の報告．同コンペティションではShapeNetのサブセットが 用いられた．55の物体が含まれるShapeNet Core 55が用いられ，51,300の3次元モデルがある．train/val/testには70%/10%/20%の割合で分割 される．コンペティションはビューポイントが揃えられたノーマルの学習・テストのみでなく，角度がランダムな(Perturbed)学習・テストも 用意され，より困難な課題に対しても取り組んでいる．各ビューの特徴を学習し，全てのビューポイントの特徴をView Poolingにより統合す るMV-CNNや，複数視点の画像からCNN特徴を抽出してランク付けを行うGIFTなど良好な性能を実現した．normalの結果は下の表に示され る．最も3D情報を用いたのはViewAggregationであり，3DモデルをそのままCNNにて畳み込み3次元特徴を抽出しsoftmax-lossによりカテゴ リ/サブカテゴリのスコアを出力したが，MV-CNNには及ばなかった． ・SHREC’16のデータや投稿された手法， その結果について示されている． ・3次元情報をそのまま用いるよりも複数ビ ューの変化を効果的に捉える手法が優位で あることが判明した．今後はさらに3次元特 徴を有効に扱える手法の登場が期待される． Links 論文 https://shapenet.cs.stanford.edu/shrec16/shrec16sha penet.pdf プロジェクト https://shapenet.cs.stanford.edu/shrec16/ ShapeNet http://shapenet.cs.stanford.edu/
  38. 38. Song Bai, Xiang Bai, Zhichao Zhou, Zhaoxiang Zhang, Longin Jan Lattecki, “GIFT: A Real-time and Scalable 3D Shape Search Engine”, in CVPR, 2016. 【37】 Keywords: GIFT, Shape Retrieval 新規性・差分 概要 リアルタイムに3次元形状を検索できる，GIFTを提案した (上図)．GIFTは学習時に多数のビュー変化を捉えた2次元 画像をCNNにより学習し，Inverted FileとしてDBを作成， テスト時には3次元形状から抽出した複数の画像をCNNに より特徴抽出し，複数視点にて評価しランク付けを行う． ・リアルタイムかつ高精度に3次元モデルを検索可能な GIFTを提案した．GPUにより複数ビューの投影やその2D 画像のCNNの畳み込み処理をリアルタイムにして，さらに 学習モデルとのマッチングのためにInverted Fileやランク 付けを提案した．ModelNet10,40データセットにてMV- CNNやShapeNetsなどよりも良好な性能を示した． Links 論文 http://mc.eistar.net/UpLoadFiles/Papers/GIFT_CVPR16.pdf コード https://drive.google.com/file/d/0B5m7kU1U8uVuTTFzdFE5S0Vob2s/vi ew 著者 https://sites.google.com/site/songbaihust/
  39. 39. Angel X. Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi, Fisher Yu, “ShapeNet: An Information-Rich 3D Model Repository”, in arXiv pre-print 1512.03012, 2015. 【38】 Keywords: ShapeNet, 3D Model 新規性・差分 概要 ShapeNetは3D CAD Modelにより生成された，大規模3次元モデルデータベースである．コンペティションで公開されているモデルは55ク ラスであるが，ShapeNetに含まれる総データは3,000,000モデル，そのうち220,000モデルが3,135カテゴリに分類されている．なお，カテ ゴリはImageNetと同様にWordNet synsetsに基づいてタグ付けされている．さらに，ShapeNetは検索のために物体名，カテゴリ名，サブカ テゴリ名などのグルーピングがなされている．物体ごとにアライメントを合わせ，重要な部位やキーポイントは含み，回転の対称性を考慮， サイズも十分に議論されている．さらに，アフォーダンスも含めた機能(Function)や物体表面や重量など物理的なアノテーションも行われて いる．次ページにアノテーションについて図示する． ・大規模な3D CAD ModelによるデータセットShapeNetを提供した．類似のデータセットとの比較は下表に示すとおりである． ShapeNetはこれらと比較してモデル数やクラス数を大幅に増やすことに成功した． ・3Dモデル検索や3次元特徴抽出などに大きく貢献すると考えられる． Links 論文 https://arxiv.org/pdf/1512.03012v1.pdf プロジェクト http://shapenet.cs.stanford.edu/
  40. 40. Jyanth Koushik, Hiroaki Hayashi “Improving Stochastic Gradient Descent with Feedback ”,in arxiv:1611.01505, 2016. 【39】 Keywords: ResNet, DenseNet, Dense net 新規性・差分 手法 結果 概要 ・Adamを改良した新しいoptimizationの手法の提案 ・Adamにさらに3つのハイパーパラメータ β_3とk,Kを追加 ・ Links 論文 https://arxiv.org/pdf/1611.01505v1.pdf
  41. 41. Saining Xie, et al. “Aggregated Residual Transformations for Deep Neural Networks”, in arxiv:1611.05431, 2016. 【40】 Keywords: 新規性・差分 手法 結果 概要 ・Residual Networksの改良版であるResNeXtの提案 ・Cifarやcoco datasetなど様々なベンチマークにてstate- of-the-art ・ResNetのBottleNeck layerのConvolutionの部分を並列に複数層積み重ねる Links 論文 https://arxiv.org/abs/1611.05431
  42. 42. Gernot Riegler, Ali Osman Ulusoy, Andreas Geiger, “OctNet: Learning Deep 3D Representations at High Resolutions”, in arXiv pre-print 1611.05009, 2016. 【41】 Keywords: OctNet, 3D CNN 新規性・差分 概要 XYZの3D空間に対する畳み込みに対して，Octreeを取り入 れることで重要度を取り入れて詳細/簡略に3次元空間から 特徴を抽出するOctNetを提案する．Octreeに従い畳み込み することで，計算コストを抑えることに成功し，重点的に 特徴抽出する部分との差別化を図れるため，精度の低下を 抑えられる． ・従来の3D ShapeNetのようにDenseでDeepなモデルを必要とせ ず，提案手法であるOctNetではスパース性を考慮したモデル化が できる． ・Octreeに特化したConvolutionやUnConvolutionを考案した ・実験(下表参照)において，メモリの消費や計算時間を抑えつつも 精度をDenseNetと同等にした@ModelNet10 Classification Task ・ローテーション推定@ModelNet10やセマンティックセグメンテ ーションタスク@RueMonge2014においても良好な性能を実現 Links 論文 https://arxiv.org/pdf/1611.05009.pdf プロジェクト
  43. 43. Vikram Mohanty, Shubh Agrawal, Shaswat Datta, Arna Ghosh, “DeepVO: A Deep Learning approach for Monocular Visual Odometry”, in arXiv pre-print 1611.06069, 2016. 【42】 Keywords: Visual Odometry, Deep Learning 新規性・差分 概要 未知の環境においてオドメトリを出力するDeep Visual Odometry (DeepVO)を提案した．このフレームワークでは 特徴点検出やトラッキングが不要であり，CNN内にて Visual Odometryを実行する．ふたつの連続フレームから 変換行列を推定． ・現在まで2つの連続画像から特徴点検出を行っていたが， DeepVOではこれらをCNNにて代替する ・SLAMやSFMなどのアルゴリズムに応用されることが期 待される ・トレーニングの繰り返しにより，オドメトリを良好に推 定することができる Links 論文 https://arxiv.org/pdf/1611.06069.pdf プロジェクト
  44. 44. Philipp Jund, Nichola Abdo, Andreas Eitel, Wolfram Burgard, “The Freiburg Groceries Dataset”, in arXiv pre-print 1611.05799, 2016. 【43】 Keywords: Groceries Dataset 新規性・差分 概要 ドイツ・Freiburg Univ.が提供する，Freiburg Groceries Datasetの提案論文．主にスーパーマーケットにて撮影し たカメラ画像から学習やテストを行う．照明変動やビュー ポイントの違い，物体姿勢の違いなどを考慮するため， ImageNetのようなwebに対する画像とは違う難しさがある． 各クラス約100サンプルほどしかない． ・実環境を想定したデータセットを公開した． ・caffemodelやデータセットが公開されており，学習済み モデルを用いた識別結果は78.9%である． Links 論文 https://arxiv.org/pdf/1611.05799.pdf プロジェクト http://www2.informatik.uni- freiburg.de/~eitel/freiburg_groceries_dataset.html コード https://github.com/PhilJd/freiburg_groceries_dataset
  45. 45. Rahaf, Aljundi, Punarjay Chakravarty, Tinne Tuytelaars, “Expert Gate: Lifelong Learning with a Network of Experts”, in arXiv pre-print 1611.06194, 2016. 【44】 Keywords: Lifelong Learning, Network of Experts 新規性・差分 概要 エキスパートシステムによるネットワーク学習により，「学習を長期にわ たり行い続ける」(Lifelong Learning)を提案する．新規のタスクやエキスパ ートは追加のネットワークに学習することが可能(右図)．Gating Autoencoderを用いてタスクを学習し，テスト時にはこれを用いて関連す るエキスパートをテストする．ある関連するタスクを学習する際にはFine- tuningやLearning-without-forgettingを使用することができる． ・Expert Gateを提案することで，Lifelong Learningの概念 を提供する．全てのデータをストアすることなく学習を行 い，新しい学習を行い続けることができる． ・関連する項目にFine-tuningやLearning-without-fogetting が存在する Links 論文 https://arxiv.org/pdf/1611.06194.pdf プロジェクト
  46. 46. Hamidreza Rabiee, Javad Haddadnia, Hossein Mousavi, Maziyar Kalantarzadeh, “Novel Dataset for Fine-grained Abnormal Behavior Understanding in Crowd”, in AVSS, 2016. 【45】 Keywords: Crowd Analysis, Fine-grained Abnormal Detection 新規性・差分 概要 混雑状況下から人物の異常を検出するデータセットを提案する． 同データセットには約45,000のビデオクリップが含まれ，5つの 異常ラベルが付与されている．Panic, Fight, Congestion, Obstacle, Neutralが含まれる．著者らはDense Trajectories (DT) をベースとした手法を提案している．(+ Histograms of Oriented Tracklets; HOT) ・異常検出や混雑解析のデータセット比較を右の表に示す． 提案のデータセットは圧倒的に動画数が多く，現在の学習 の傾向に沿っている ・Dense Trajectoiesによる識別結果は右の表の通りである Links 論文 http://disi.unitn.it/~nabi/files/AVSS2016_paper.pdf コード https://github.com/hosseinm/med#motion-emotion- datasetmed ポスター http://disi.unitn.it/~nabi/files/AVSS2016_poster.pdf
  47. 47. Ionut C. Duta, Bogdan Ionescu, Kiyoharu Aizawa, Nicu Sebe, “Spatio-temporal VLAD Encoding for Human Action Recognition”, in MMM, 2017. 【46】 Keywords: Spatio-temporal VLAD (ST-VLAD), Dense Trajectories (DT) 新規性・差分 概要 時系列情報を付与したエンコーディング方法であるVLAD により，従来のIDT+FVよりもマルチメディアデータセッ トに対して精度を向上させることに成功した．論文中では 標準のHOG, HOF, MBHのみでなく，Two-stream ConvNet からも特徴を抽出することが記述されている．Two- streamからの特徴抽出としてはL. WangらのTDDと似たア プローチである． ・従来のビデオに対する特徴のエンコーディング方法は時 系列情報を保持することなく，1つの動画に対して1つのベ クトルを割り当てていたが，ST-VLADでは時系列情報を 導入することによりHMDB51 (67.6%)，UCF50 (97.8%)， UCF101 (91.5%)の精度での識別を実現した． Links 論文 https://www.researchgate.net/profile/Bogdan_Ionescu4/publica tion/309653287_Spatio- temporal_VLAD_Encoding_for_Human_Action_Recognition_in _Videos/links/581bbed908ae40da2ca91fc9.pdf コード http://disi.unitn.it/~duta/software.html
  48. 48. Andreas Veit, Michael Wilber, Serge Belongie, “Residual Networks Behave Like Ensembles of Relatively Shallow Networks”, in NIPS, 2016. 【47】 Keywords: Deep Residual Networks (ResNets), Emsembles 新規性・差分 概要 タイトルからは複数のネットワークのアンサンブルのよう なとあるが，ResNetの結合を増加させることで比較的 Shallowなネットワークでも汎化性を向上させることがで きるとした．複数に分解された(Unraveled View)ResNet(右図)により結合をドロップアウトしたとし ても他のネットワークのパスにより補間することができる． Unraveled view型のResNetでは，重みや残差計算を複数種 持つ．Unraveled viewは(4)~(6)式により表現される． ・ResNetに対して多数の重み共有や結合の異なるネット ワーク(Unraveled View)を考案して汎化性を高め，最適化 を容易にした ・この枠組みをよりShallowなネットワークで実現するこ とに成功した Links 論文 https://vision.cornell.edu/se3/wp- content/uploads/2016/10/nips_camera_ready_draft.pdf プロジェクト YouTube https://www.youtube.com/watch?v=jFJF5hXuo0s
  49. 49. Ishaan Gulrajani, Kundan Kumar, Faruk Ahmed, Adrien Ali Taiga, Francesco Visin, David Vazquez, Aaron Courville, “PxelVAE: A Latent Variable Model For Natural Images”, in ICLR submission, 2017. 【48】 Keywords: PixelVAE, Generative Model 新規性・差分 概要 画像生成モデルであるPixelVAEを提案する．右図はLSUN bedroom datasetによる画像生成結果である．コンセプト としてはVAEやPixelCNNの統合モデルであり，PixelCNN による特徴表現と良好な生成モデルであるVAEによりリア ルに近い生成モデルを提供する． ・確率的な階層的モデルやPixelCNNの各レイヤに対して デコーダを用いて拡張した．結果，リアルな画像に非常に 近い画像生成を実現した． ・Binarized MNIST, LSUN bedrooms, 64x64 ImageNetに て実験を行い，特にBi-MNISTに対してはstate-of-the-artな 性能を達成．下表はBi-MNISTに対する精度． Links 論文 https://arxiv.org/pdf/1611.05013v1.pdf プロジェクト
  50. 50. Joon Son Chung, Andrew Zisserman, “Lip Reading in the Wild”, in ACCV, 2016. 【49】 Keywords: Lip Reading, CNN 新規性・差分 概要 より一般的な環境においてリップリーディングを行う．本 論文ではLSTMやHMMなど再帰的モデルを用いることなく， CNNに顔画像を入力するとリップリーディングを行いダイ レクトに文章を推定する．データに関する比較は右表に示 す通りである．データセットに対するアノテーションは中 央の図に示される．字幕の解釈にはOCRやダブルチェック にはIBM Watsonを採用した．CNNモデルはMultiple Towersと呼称される3D Convにインスパイアされたモデル を採用した．出力が文章と対応付けられている． ・従来のリップリーディングの研究は制限された環境で制 限された言葉を話していたが，本論文ではニュースに出て くるシーンからリップリーディングに必要な映像・文章な どデータ，モデルを提供する． ・ひとつはデータの収集とアノテーション，もうひとつは CNNのモデルを提案したことがコントリビューション ・BBC data (500-class)にて，Top-1が61%，Top-10がが 90%を達成 Links 論文 http://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16/c hung16.pdf プロジェクト http://www.robots.ox.ac.uk/~vgg/data/lip_reading/
  51. 51. Yannis M. Assael, Brendan Shillingford, Shimon Whiteson, Nando de Freitas, “LipNet: Sentence-level Lipreading”, in arXiv pre-print 1611.01599, 2016. 【50】 Keywords: Lip Reading, CNN, LSTM 新規性・差分 概要 リップリーディングを実行するLipNetを提案する．LipNet は時系列CNNやRecurrent Neural Networks (RNN)から LSTM，さらにConnectionist Temporal Classification (CTC)による損失関数を用いた最適化を採用した．LipNet はEnd-to-Endで学習可能である．時系列CNNは [Ji+,2013 ][Karpathy+, 2014], LSTMはBi-directional LSTM を，CTCは[Graves+, 2006]を参考にした． ・リップリーディングの問題を効果的に解決するLipNetを 提案した ・右の表がstate-of-the-artとの比較である．間接的な比較 ではあるが，Chung & Zissermanのモデルよりも良い．3D CNNからLSTMによる時系列モデルやCTCによる損失関数 を導入したことによる向上である Links 論文 https://arxiv.org/pdf/1611.01599v1.pdf YouTube https://www.youtube.com/watch?v=fa5QGremQf8
  52. 52. Joon Son Chung, Andrew Senior, Oriol Vinyals, Andrew Zisserman, “Lip Reading Sentences in the Wild”, in arXiv pre-print 1611.05358, 2016. 【51】 Keywords: Lip Reading 新規性・差分 概要 リップリーディングを（さらに）効果的に行う’Watch, Listen, Attend and Spell’ (WLAS) networkを提案した．顔 が映った動画を入力すると口元の動作を認識して文章を推 定する．また，同著者のACCV16論文と異なる点は， LSTMによる時系列モデル化やCurriculum Learningによる 学習戦略である．Curriculum Learningでは，容易なサンプ ルから学習することで最終的には困難なデータに対しても 認識率が高くなるとされている． ・Watch (Image Decorder; CNN-LSTM), Listen (Audio encoder; LSTM), Spell (Character decoder; LSTM)による モデリング ・本論文の成果により，LRWやGRIDデータセットにおい てstate-of-the-artな精度を達成． Links 論文 https://arxiv.org/pdf/1611.05358v1.pdf プロジェクト http://www.robots.ox.ac.uk/~vgg/data/lip_reading/
  53. 53. Harish Katti, Marius V. Peelen, S. P. Arun, “Object detection can be improved using human-derived contextural expectations”, in arXiv pre-print 1611.07218, 2016. 【52】 Keywords: Context, Object detection 新規性・差分 概要 物体検出はひとが持っているコンテキスト推定のモデリン グ (e.g. 高速道路では車が走行している)により，さらに向 上できるという提案．R-CNNに本フレームワークを導入 することにより，人物や車両の検出において1~3%の向上 が見られた．実際に複数人の人物により物体とコンテキス トの関係性を記述してもらい，CNNにより学習した． ・人が抽出したコンテキストの情報により学習し，物体検 出の精度を向上するに至った． ・環境などコンテキストの導入により，人物や車両の検出 スコアをより精細に算出することに成功した．右表は ADE20データセットに対する結果である Links 論文 https://arxiv.org/ftp/arxiv/papers/1611/1611.07218.pdf プロジェクト
  54. 54. Tianrong Rao, Min Xu, Dong Xu, “Learning Multi-Level Deep Representations for Image Emotion Classification”, in arXiv pre-print 1611.07145, 2016. 【53】 Keywords: Emotion 新規性・差分 概要 Deep Neural Networks (DNN)を用いて，Multi-levelの画像 における感情識別(感性表現？)に用いる表現方法を提案す る．Multi-levelとは，画像の意味 (image semantics)，画像 の美的評価 (image aesthetics)，画像の低レベル特徴 (low- level features)であり，右図のように3つのネットワークで 表現．アノテーションが煩雑な場面においても効果的な学 習が行えるよう，Multiple Instance Learning (MIL)も導入 した． ・画像における感性表現を行うために，Multi-levelの画像 表現を行った ・基本6表情+αの感情を推定するに至った(右表)．これに より，人間の感性により近い推定方法ができるようになっ た． Links 論文 https://arxiv.org/pdf/1611.07145.pdf プロジェクト
  55. 55. Linjie Yang, Kevin Tang, Jianchao Yang, Li-Jia Li, “Dense Captioning with Joint Inference and Visual Context”, in arXiv pre-print 1611.06949, 2016. 【54】 Keywords: Dense Captioning, Image Caption 新規性・差分 概要 Dense Captioningのフレームワークに対して主にふたつの 改善を施した．(i) 意味的には多少異なるが，領域は非常に 重なりが激しい場合の対応 (ii) 非常に多種に渡る意味を分 類することは非常に困難である．この問題に対して，Joint InferenceとContext Fusionを提案した．Joint Inferenceで は高精度なローカライズ，Context Fusionではキャプショ ニングを行い，モデル統合． ・詳細な領域や意味の違いを見分け，非常に多数のカテゴ リに対応するためにJoint Inference/ Context Fusionを提案 ・Visual Genomeのデータセットに対して相対的に73%の 向上を実現した． Links 論文 https://arxiv.org/pdf/1611.06949.pdf プロジェクト
  56. 56. Pillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks”, in arXiv pre-print 1611.07004, 2016. 【55】 Keywords: Adversarial Networks 新規性・差分 概要 Conditional Adversarial Networksにより，汎用的な画像変 換を実演する(右図)．この問題において，ディープネット ワークの損失関数を定義することが難しいが，提案手法で は”Conditional”なモデルを定義することで，この多様なタ スクにおいて損失を定義することに成功した． ・汎用的な画像変換を行えるようにした ・例えば，右図のようなマップとリアルな空撮画像を比較 して，「この画像とこのマップは対応している」といった ことができる ・異なる種類の画像同士でも比較できるような誤差関数を 定義した Links 論文 https://arxiv.org/pdf/1611.07004.pdf プロジェクト https://phillipi.github.io/pix2pix/ コード https://github.com/phillipi/pix2pix 著者 http://web.mit.edu/phillipi/
  57. 57. Asako Kanezaki, Yasuyuki Matsushita, Yoshifumi Nishida, “RotationNet: Joint Learning of Object Classification and Viewpoint Estimation using Unaligned 3D Object Dataset”, in arXiv pre-print 1603.06208, 2016. 【56】 Keywords: RotationNet, Multi-View, Object Classification 新規性・差分 概要 Multi-View CNNを改良して，物体ラベルのみならず物体の回転 姿勢も推定可能なRotationNetを提案．学習時には物体姿勢は潜 在変数として与えられており，教師なし学習により学習される． 3次元の物体認識ベンチマークであるModelNet10や40に対して 良好な精度を達成した．右図にはRotationNetによる推定が図示 されている．MVCNNがViewPoolingや畳み込みののちにスコア 算出するのに対し，RotationNetでは複数のCNNの結果を統合す ることでカスケード構造を構成している． ・物体ラベルや物体の回転姿勢を同時に推定することが可 能なRotationNetを提案した． ・物体の推定精度ではVRN Ensemble@ModelNet10, 40に は及ばないものの，Comparativeな精度を実現．中央図の グラフにあるように，ベースライン(AlexNet, MV-CNN)と 比較すると明確なアップデートがある． ・コードや学習済みモデルは公開済みである． Links 論文 https://arxiv.org/pdf/1603.06208v2.pdf コード https://github.com/kanezaki/rotationnet 著者 https://staff.aist.go.jp/kanezaki.asako/
  58. 58. Andrew Brock, Theoodore Lim, J. M. Ritchie, Nick Weston, “Generative and Discriminative Voxel Modeling with Convolutional Neural Networks”, in arXiv 1608.04236, 2016. 【57】 Keywords: ResNet, Variational Auto-Encoder (VAE) 新規性・差分 概要 XYZ空間における物体認識においてVAEを用いた生成的ア プローチとResNet (CNN)による識別的アプローチを統合 した手法により，3次元物体認識のベンチマークにおいて State-of-the-artな性能を実現した．VAEはKL divergenceに より情報量を比較し，誤差関数はBinary Cross-Entropy (BCE)を採用しL2正規化を行う．畳み込みネットに関して もInception-ResNetを参考にした45層の構造が採用された (VRN; Voxception-ResNet)． ・生成的・識別的アプローチの統合によりデータ拡張や3 次元学習を相補的に改善可能 ・識別的アプローチにはInception-ResNetを参考にしたモ デルを適用．3次元物体認識においてもDeeperモデルは有 効であることが判明した． ・コードを公開しており，学習やテストは再現可能． Links 論文 https://arxiv.org/pdf/1608.04236v2.pdf プロジェクト https://github.com/ajbrock/Generative-and- Discriminative-Voxel-Modeling Youtube https://www.youtube.com/watch?v=OAgfUOg79wc
