Best Paper Awards(x2)
• “Densely Connected Convolutional Networks”
Gao Huang et al.
• https://arxiv.org/abs/1608.06993
• https://github.com/liuzhuang13/DenseNet
• https://github.com/titu1994/DenseNet
• “Learning from Simulated and Unsupervised Images through
Adversarial Training”
Ashish Shrivastaba et al.
• https://arxiv.org/abs/1612.07828
• https://github.com/carpedm20/simulated-unsupervised-tensorflow
8.
Best Honorable mentionaward (x2)
• “Annotating Object Instances with a Polygon-RNN”
Lius Castrejon et al.
• https://arxiv.org/abs/1704.05548
• “Yolo9000: Better, Faster, Stronger”
Joseph Redmon & Ali Farhadi
• https://arxiv.org/abs/1612.08242
• https://github.com/philipperemy/yolo-9000
• https://github.com/allanzelener/YAD2K
9.
Best Student PaperAward
• “Computational Imaging on the Electric Grid”
Mark Sheinin et al.
• http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf
10.
Longuet-Higgins Prize (testof time award)
• Object Retrieval with Large Vocabularies and Fast Spatial
Matching, J Philbin et al., CVPR2007
• http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/2008010815
43/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt
• http://ieeexplore.ieee.org/document/4270197/
11.
PointNet: Deep Learningon Point Sets for 3D
Classification and Segmentation
(Oral)
• R. Qi Charles, Hao Su, Mo Kaichun, Leonidas J. Guibas
• Supplemental Material
• code: https://github.com/charlesq34/pointnet
• 3次元データの表現形式として,他の形式への変換が用意なポ
イントクラウドをCNNに入れて深層学習の恩恵を3次元データ
いも取り入れる
• 技術的課題: 点群は画像のようにxyのような構造(並び)がない
• アイディア: ちょっと読みきれなかった.後で読む価値大.
Photo-Realistic Single ImageSuper-Resolution
Using a Generative Adversarial Network
• Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero,
Andrew Cunningham, Alejandro Acosta, Andrew Aitken,
Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
• ResNetベースの超解像に対して,GANで,それを騙すような
入力を作成して学習を強化した手法,と理解.
• GANで学習サンプル水増し系が,今回のCVPRで何個か見かけた.
• 4x4倍の解像度の画像がかなり綺麗.
• 人間にかろうじて読める程度のナンバープレートも綺麗に復元
絶対認識要素入っている感じ満載.
• ここまで来たか,という感じ.
14.
Deep Reinforcement Learning-Based
ImageCaptioning With Embedding Reward
• Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li
• RNNでの文生成プロセスはビームサーチ的.
• 数個先までの文生成を時系列と考えて報酬ベースの強化学習の
枠組みをいれたら良いのでは?
15.
From Red Wineto Red Tomato:
Composition With Context
• Ishan Misra, Abhinav Gupta, Martial Hebert
• 形容詞の学習と認識
• 精度はmAPが6%弱.まだまだ改善の余地あり.
• 私がPRMUグランドチャレンジで予想したネタがもう出てき始
めた(というか下記の発表をしていた頃に投稿されてた).
• https://www.slideshare.net/atsushihasimoto/prmu-gc
• 名詞と形容詞を独立に識別するCNNと,セットになったアノ
テーションに対して学習したCNNの積が一致するように学習→
名詞・形容詞認識器が独立に,かつ,組合せが出力となるよう
に学習される→未知の名詞・形容詞の組合せが認識できる可能
性??
16.
Weakly Supervised ActionLearning With
RNN Based Fine-To-Coarse Modeling,
• Alexander Richard, Hilde Kuehne, Juergen Gall
• 複数のアクションが入っているVideo Clipに,自然言語のキャ
プションがアノテーションされている入力を仮定.
• 文の記述順とビデオ内の動作の順序は同一であることが前提.
• 自動的にアクションの区切り(場合によってはbackground
actionクラス)を推定しつつ,動作認識を学習.
• 編集済みの映像を前提としているので監視カメラとかでは辛い
とのこと.
17.
Captioning Images WithDiverse Objects,
• Subhashini Venugopalan, Lisa Anne Hendricks, Marcus
Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko
• Video Captioningのデータセットは語彙が少ないので,Image
Captioning用のデータセットの恩恵を受けましょう.
• このために色々苦労してモデルを作っている感じ.
• 下記のposter発表とネタが被っていた??
• “Video Captioning with Transferred Semantic Attributes”, Yingwei Pn et al.
Unsupervised Visual-Linguistic Reference
Resolutionin Instructional Videos,
• De-An Huang, Joseph J. Lim, Li Fei- Fei, Juan Carlos Niebles
• 言語処理側で,教師なしで作業のワークフロー(tree)を抽出す
る手法に対して,映像側でも類似のワークフロー(tree)を出し
て,グラフのズレなどに対してEMアルゴリズムで最適化.
• やろうとしていたことを(unsupervisedで)先にやられて過呼吸
になりそう.でも精度は50%くらいなのでかなり低い?
22.
Temporal Convolutional Networksfor
Action Segmentation and Detection,
• Colin Lea, Michael D. Flynn, René Vidal, Austin Reiter,
Gregory D. Hager
• 全フレームの特徴量を抽出後に,それを入力としてAuto
Encoder的に動作認識をする.かなり力技な印象.
• それでもLSTMより良い精度がでる←オフライン処理だから??
CLEVR: A DiagnosticDataset for
Compositional Language and Elementary
Visual Reasoning
• Justin Johnson, Bharath Hariharan, Laurens van der Maaten,
Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick
• 色や形,場所(Elementary Visual Reason)で,環境中の物体を
指示するための文を生成するための合成データセットを作成.
• 左にある金属球,赤い立方体,みたいなの.