CVPR2017参加報告
(速報版・一日目)
2017.7.22(現地時間)
@a_hasimoto
このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と,あとでのreferenceをたどるために
メモしたものです.
9/18(月・祝),関西CVPRML勉強会にて,解説を予定.
→ https://twitter.com/kansaicvprml
私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ
の他議論大歓迎.
CVPR2017 Statistics
CVPR2017 Statistics
CVPR2017 Statistics
スポンサー
Best Paper Awards (x2)
• “Densely Connected Convolutional Networks”
Gao Huang et al.
• https://arxiv.org/abs/1608.06993
• https://github.com/liuzhuang13/DenseNet
• https://github.com/titu1994/DenseNet
• “Learning from Simulated and Unsupervised Images through
Adversarial Training”
Ashish Shrivastaba et al.
• https://arxiv.org/abs/1612.07828
• https://github.com/carpedm20/simulated-unsupervised-tensorflow
Best Honorable mention award (x2)
• “Annotating Object Instances with a Polygon-RNN”
Lius Castrejon et al.
• https://arxiv.org/abs/1704.05548
• “Yolo9000: Better, Faster, Stronger”
Joseph Redmon & Ali Farhadi
• https://arxiv.org/abs/1612.08242
• https://github.com/philipperemy/yolo-9000
• https://github.com/allanzelener/YAD2K
Best Student Paper Award
• “Computational Imaging on the Electric Grid”
Mark Sheinin et al.
• http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf
Longuet-Higgins Prize (test of time award)
• Object Retrieval with Large Vocabularies and Fast Spatial
Matching, J Philbin et al., CVPR2007
• http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/2008010815
43/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt
• http://ieeexplore.ieee.org/document/4270197/
PointNet: Deep Learning on Point Sets for 3D
Classification and Segmentation
(Oral)
• R. Qi Charles, Hao Su, Mo Kaichun, Leonidas J. Guibas
• Supplemental Material
• code: https://github.com/charlesq34/pointnet
• 3次元データの表現形式として,他の形式への変換が用意なポ
イントクラウドをCNNに入れて深層学習の恩恵を3次元データ
いも取り入れる
• 技術的課題: 点群は画像のようにxyのような構造(並び)がない
• アイディア: ちょっと読みきれなかった.後で読む価値大.
Universal Adversarial Perturbations
• Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi, Pascal
Frossard
• Supplemental Material
• code: https://github.com/LTS4/universal
• 多くのモデル,多くの画像で誤認識を引き起こすような画像歪み(=CNN共通
の脆弱性)の発見に関する論文
• ランダムノイズで同程度の精度低下を起こすには10倍の強度が必要
• Data Augmentationに取り入れても,似たような歪みパターンが見つかる
• 橋本の理解
• 人間の直感と違う認識結果の原因?
• ある種のバグが論文になる→人間の病気の存在が論文になるようなもの?
→誰も中身がわかっていないことの証左….
Photo-Realistic Single Image Super-Resolution
Using a Generative Adversarial Network
• Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero,
Andrew Cunningham, Alejandro Acosta, Andrew Aitken,
Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
• ResNetベースの超解像に対して,GANで,それを騙すような
入力を作成して学習を強化した手法,と理解.
• GANで学習サンプル水増し系が,今回のCVPRで何個か見かけた.
• 4x4倍の解像度の画像がかなり綺麗.
• 人間にかろうじて読める程度のナンバープレートも綺麗に復元
絶対認識要素入っている感じ満載.
• ここまで来たか,という感じ.
Deep Reinforcement Learning-Based
Image Captioning With Embedding Reward
• Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li
• RNNでの文生成プロセスはビームサーチ的.
• 数個先までの文生成を時系列と考えて報酬ベースの強化学習の
枠組みをいれたら良いのでは?
From Red Wine to Red Tomato:
Composition With Context
• Ishan Misra, Abhinav Gupta, Martial Hebert
• 形容詞の学習と認識
• 精度はmAPが6%弱.まだまだ改善の余地あり.
• 私がPRMUグランドチャレンジで予想したネタがもう出てき始
めた(というか下記の発表をしていた頃に投稿されてた).
• https://www.slideshare.net/atsushihasimoto/prmu-gc
• 名詞と形容詞を独立に識別するCNNと,セットになったアノ
テーションに対して学習したCNNの積が一致するように学習→
名詞・形容詞認識器が独立に,かつ,組合せが出力となるよう
に学習される→未知の名詞・形容詞の組合せが認識できる可能
性??
Weakly Supervised Action Learning With
RNN Based Fine-To-Coarse Modeling,
• Alexander Richard, Hilde Kuehne, Juergen Gall
• 複数のアクションが入っているVideo Clipに,自然言語のキャ
プションがアノテーションされている入力を仮定.
• 文の記述順とビデオ内の動作の順序は同一であることが前提.
• 自動的にアクションの区切り(場合によってはbackground
actionクラス)を推定しつつ,動作認識を学習.
• 編集済みの映像を前提としているので監視カメラとかでは辛い
とのこと.
Captioning Images With Diverse Objects,
• Subhashini Venugopalan, Lisa Anne Hendricks, Marcus
Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko
• Video Captioningのデータセットは語彙が少ないので,Image
Captioning用のデータセットの恩恵を受けましょう.
• このために色々苦労してモデルを作っている感じ.
• 下記のposter発表とネタが被っていた??
• “Video Captioning with Transferred Semantic Attributes”, Yingwei Pn et al.
Self-Critical Sequence Training for Image
Captioning,
• Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jerret
Ross, Vaibhava Goel
• ちょっと集中力切れてしまった.
• こういう人間でも説明が難しい画像へのキャプショニングが少
しはできるようになる,らしい.
https://www.kenya-getaways.com/6-day-fossil-
hunting/
ここからポスター
Realtime Multi-Person 2D Pose Estimation
Using Part Affinity Fields,
• Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh
• 発表は裏のoral sessionにいたので聞いていない.
• 研究室の論文読み会で既読.
• 関節位置の検出だけでなく,関節a→関節bのflowのようなもの
も学習.
• それぞれの関節(および関節対)毎にCNNで検出→Full Connection層
で他の関節位置の情報を取り入れる→再検出→Full Connection層で2
次以上の関節位置の関係を取り入れ... と7次まで行う
• ほぼ関節間の対応付けも取れているので,2部グラフマッチングをかな
り適当に解いても正解となる→リアルタイムで複数人物の検出!
Unsupervised Visual-Linguistic Reference
Resolution in Instructional Videos,
• De-An Huang, Joseph J. Lim, Li Fei- Fei, Juan Carlos Niebles
• 言語処理側で,教師なしで作業のワークフロー(tree)を抽出す
る手法に対して,映像側でも類似のワークフロー(tree)を出し
て,グラフのズレなどに対してEMアルゴリズムで最適化.
• やろうとしていたことを(unsupervisedで)先にやられて過呼吸
になりそう.でも精度は50%くらいなのでかなり低い?
Temporal Convolutional Networks for
Action Segmentation and Detection,
• Colin Lea, Michael D. Flynn, René Vidal, Austin Reiter,
Gregory D. Hager
• 全フレームの特徴量を抽出後に,それを入力としてAuto
Encoder的に動作認識をする.かなり力技な印象.
• それでもLSTMより良い精度がでる←オフライン処理だから??
FlowNet2.0:EvolutionofOpticalFlowEstimati
onWith Deep Networks,
• Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper,
Alexey Dosovitskiy, Thomas Brox
• 変位が大きい場合と小さい場合にわけてネットワークを作り,
統合.
• データを食わせる順番とかが精度向上に繋がったりしていて,
かなり黒魔術的な印象.
• 動作認識の特徴量にいいのかも.これを上流に持ってきてEnd-
to-Endとか
Visual Dialog
• Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh,
Deshraj Yadav, José M. F. Moura, Devi Parikh, Dhruv Batra
• 画像についての対話を元に,画像についての自然言語での質問
に対して応答ができるようにしたもの.
Fully-Adaptive Feature Sharing in Multi-Task
Networks With Applications in Person Attribute
Classification
• Yongxi Lu, Abhishek Kumar, Shuangfei Zhai, Yu Cheng, Tara
Javidi, Rogerio Feris
• https://github.com/samim23/GitXiv/issues/55
• Multi-task CNNを作成する際に,どの層を連結させたら良いの
か?という問題に対するアプローチ.
• 昔の特徴量選択と一緒で,全通り試すと組合せ爆発.
• 学習の結果,特徴が似ているものをまとめていくと精度が高
い?ということを経験的に発見した模様.
CLEVR: A Diagnostic Dataset for
Compositional Language and Elementary
Visual Reasoning
• Justin Johnson, Bharath Hariharan, Laurens van der Maaten,
Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick
• 色や形,場所(Elementary Visual Reason)で,環境中の物体を
指示するための文を生成するための合成データセットを作成.
• 左にある金属球,赤い立方体,みたいなの.
まとめ
• 他にも何個か見たり聞いたり尋ねたりしたけど,書ききれませ
ん….
• 純粋にCNNの精度をあげる研究は少数派
• どの問題にCNNを適用するにしても,教師信号が無い問題をど
うするか,が多い印象.
• 純粋CV成分が足りない.
• 黒魔術っぷりが他の会議より濃い気がするのは気の所為??
• 全部ではなく,一部の性能の良い手法が,黒魔術的.
• 性能が良い≠正義,だが,現行の査読基準の限界か.
• 生物系の国際会議みたいにトピック毎のバランスをとって抽選,とい
う会議があっても良いと思う→投稿者のモチベーションの問題?

CVPR2017 参加報告 速報版 本会議 1日目

  • 1.
  • 2.
    このスライドについて 1. 本会議での発表の内容を 2. 印象に残ったものだけ 3.その時の印象と,あとでのreferenceをたどるために メモしたものです. 9/18(月・祝),関西CVPRML勉強会にて,解説を予定. → https://twitter.com/kansaicvprml 私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ の他議論大歓迎.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
    Best Paper Awards(x2) • “Densely Connected Convolutional Networks” Gao Huang et al. • https://arxiv.org/abs/1608.06993 • https://github.com/liuzhuang13/DenseNet • https://github.com/titu1994/DenseNet • “Learning from Simulated and Unsupervised Images through Adversarial Training” Ashish Shrivastaba et al. • https://arxiv.org/abs/1612.07828 • https://github.com/carpedm20/simulated-unsupervised-tensorflow
  • 8.
    Best Honorable mentionaward (x2) • “Annotating Object Instances with a Polygon-RNN” Lius Castrejon et al. • https://arxiv.org/abs/1704.05548 • “Yolo9000: Better, Faster, Stronger” Joseph Redmon & Ali Farhadi • https://arxiv.org/abs/1612.08242 • https://github.com/philipperemy/yolo-9000 • https://github.com/allanzelener/YAD2K
  • 9.
    Best Student PaperAward • “Computational Imaging on the Electric Grid” Mark Sheinin et al. • http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf
  • 10.
    Longuet-Higgins Prize (testof time award) • Object Retrieval with Large Vocabularies and Fast Spatial Matching, J Philbin et al., CVPR2007 • http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/2008010815 43/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt • http://ieeexplore.ieee.org/document/4270197/
  • 11.
    PointNet: Deep Learningon Point Sets for 3D Classification and Segmentation (Oral) • R. Qi Charles, Hao Su, Mo Kaichun, Leonidas J. Guibas • Supplemental Material • code: https://github.com/charlesq34/pointnet • 3次元データの表現形式として,他の形式への変換が用意なポ イントクラウドをCNNに入れて深層学習の恩恵を3次元データ いも取り入れる • 技術的課題: 点群は画像のようにxyのような構造(並び)がない • アイディア: ちょっと読みきれなかった.後で読む価値大.
  • 12.
    Universal Adversarial Perturbations •Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi, Pascal Frossard • Supplemental Material • code: https://github.com/LTS4/universal • 多くのモデル,多くの画像で誤認識を引き起こすような画像歪み(=CNN共通 の脆弱性)の発見に関する論文 • ランダムノイズで同程度の精度低下を起こすには10倍の強度が必要 • Data Augmentationに取り入れても,似たような歪みパターンが見つかる • 橋本の理解 • 人間の直感と違う認識結果の原因? • ある種のバグが論文になる→人間の病気の存在が論文になるようなもの? →誰も中身がわかっていないことの証左….
  • 13.
    Photo-Realistic Single ImageSuper-Resolution Using a Generative Adversarial Network • Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi • ResNetベースの超解像に対して,GANで,それを騙すような 入力を作成して学習を強化した手法,と理解. • GANで学習サンプル水増し系が,今回のCVPRで何個か見かけた. • 4x4倍の解像度の画像がかなり綺麗. • 人間にかろうじて読める程度のナンバープレートも綺麗に復元 絶対認識要素入っている感じ満載. • ここまで来たか,という感じ.
  • 14.
    Deep Reinforcement Learning-Based ImageCaptioning With Embedding Reward • Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li • RNNでの文生成プロセスはビームサーチ的. • 数個先までの文生成を時系列と考えて報酬ベースの強化学習の 枠組みをいれたら良いのでは?
  • 15.
    From Red Wineto Red Tomato: Composition With Context • Ishan Misra, Abhinav Gupta, Martial Hebert • 形容詞の学習と認識 • 精度はmAPが6%弱.まだまだ改善の余地あり. • 私がPRMUグランドチャレンジで予想したネタがもう出てき始 めた(というか下記の発表をしていた頃に投稿されてた). • https://www.slideshare.net/atsushihasimoto/prmu-gc • 名詞と形容詞を独立に識別するCNNと,セットになったアノ テーションに対して学習したCNNの積が一致するように学習→ 名詞・形容詞認識器が独立に,かつ,組合せが出力となるよう に学習される→未知の名詞・形容詞の組合せが認識できる可能 性??
  • 16.
    Weakly Supervised ActionLearning With RNN Based Fine-To-Coarse Modeling, • Alexander Richard, Hilde Kuehne, Juergen Gall • 複数のアクションが入っているVideo Clipに,自然言語のキャ プションがアノテーションされている入力を仮定. • 文の記述順とビデオ内の動作の順序は同一であることが前提. • 自動的にアクションの区切り(場合によってはbackground actionクラス)を推定しつつ,動作認識を学習. • 編集済みの映像を前提としているので監視カメラとかでは辛い とのこと.
  • 17.
    Captioning Images WithDiverse Objects, • Subhashini Venugopalan, Lisa Anne Hendricks, Marcus Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko • Video Captioningのデータセットは語彙が少ないので,Image Captioning用のデータセットの恩恵を受けましょう. • このために色々苦労してモデルを作っている感じ. • 下記のposter発表とネタが被っていた?? • “Video Captioning with Transferred Semantic Attributes”, Yingwei Pn et al.
  • 18.
    Self-Critical Sequence Trainingfor Image Captioning, • Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, Vaibhava Goel • ちょっと集中力切れてしまった. • こういう人間でも説明が難しい画像へのキャプショニングが少 しはできるようになる,らしい. https://www.kenya-getaways.com/6-day-fossil- hunting/
  • 19.
  • 20.
    Realtime Multi-Person 2DPose Estimation Using Part Affinity Fields, • Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh • 発表は裏のoral sessionにいたので聞いていない. • 研究室の論文読み会で既読. • 関節位置の検出だけでなく,関節a→関節bのflowのようなもの も学習. • それぞれの関節(および関節対)毎にCNNで検出→Full Connection層 で他の関節位置の情報を取り入れる→再検出→Full Connection層で2 次以上の関節位置の関係を取り入れ... と7次まで行う • ほぼ関節間の対応付けも取れているので,2部グラフマッチングをかな り適当に解いても正解となる→リアルタイムで複数人物の検出!
  • 21.
    Unsupervised Visual-Linguistic Reference Resolutionin Instructional Videos, • De-An Huang, Joseph J. Lim, Li Fei- Fei, Juan Carlos Niebles • 言語処理側で,教師なしで作業のワークフロー(tree)を抽出す る手法に対して,映像側でも類似のワークフロー(tree)を出し て,グラフのズレなどに対してEMアルゴリズムで最適化. • やろうとしていたことを(unsupervisedで)先にやられて過呼吸 になりそう.でも精度は50%くらいなのでかなり低い?
  • 22.
    Temporal Convolutional Networksfor Action Segmentation and Detection, • Colin Lea, Michael D. Flynn, René Vidal, Austin Reiter, Gregory D. Hager • 全フレームの特徴量を抽出後に,それを入力としてAuto Encoder的に動作認識をする.かなり力技な印象. • それでもLSTMより良い精度がでる←オフライン処理だから??
  • 23.
    FlowNet2.0:EvolutionofOpticalFlowEstimati onWith Deep Networks, •Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper, Alexey Dosovitskiy, Thomas Brox • 変位が大きい場合と小さい場合にわけてネットワークを作り, 統合. • データを食わせる順番とかが精度向上に繋がったりしていて, かなり黒魔術的な印象. • 動作認識の特徴量にいいのかも.これを上流に持ってきてEnd- to-Endとか
  • 24.
    Visual Dialog • AbhishekDas, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, José M. F. Moura, Devi Parikh, Dhruv Batra • 画像についての対話を元に,画像についての自然言語での質問 に対して応答ができるようにしたもの.
  • 25.
    Fully-Adaptive Feature Sharingin Multi-Task Networks With Applications in Person Attribute Classification • Yongxi Lu, Abhishek Kumar, Shuangfei Zhai, Yu Cheng, Tara Javidi, Rogerio Feris • https://github.com/samim23/GitXiv/issues/55 • Multi-task CNNを作成する際に,どの層を連結させたら良いの か?という問題に対するアプローチ. • 昔の特徴量選択と一緒で,全通り試すと組合せ爆発. • 学習の結果,特徴が似ているものをまとめていくと精度が高 い?ということを経験的に発見した模様.
  • 26.
    CLEVR: A DiagnosticDataset for Compositional Language and Elementary Visual Reasoning • Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick • 色や形,場所(Elementary Visual Reason)で,環境中の物体を 指示するための文を生成するための合成データセットを作成. • 左にある金属球,赤い立方体,みたいなの.
  • 27.
    まとめ • 他にも何個か見たり聞いたり尋ねたりしたけど,書ききれませ ん…. • 純粋にCNNの精度をあげる研究は少数派 •どの問題にCNNを適用するにしても,教師信号が無い問題をど うするか,が多い印象. • 純粋CV成分が足りない. • 黒魔術っぷりが他の会議より濃い気がするのは気の所為?? • 全部ではなく,一部の性能の良い手法が,黒魔術的. • 性能が良い≠正義,だが,現行の査読基準の限界か. • 生物系の国際会議みたいにトピック毎のバランスをとって抽選,とい う会議があっても良いと思う→投稿者のモチベーションの問題?