Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Eccv2018 report day4

586 views

Published on

ECCV2018参加速報(4日目)

Published in: Engineering
  • Be the first to comment

Eccv2018 report day4

  1. 1. ECCV2018参加速報 (4日目) 橋本敦史 京大美濃研⇢OMRON SINIC X Corp. (OSX) 2018.4より研究職に転職しました
  2. 2. 使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. • 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  3. 3. 実装が公開されているものまとめのリンク • https://zhuanlan.zhihu.com/p/43489728 ついでに国際会議自分も行きたい!と思っ た方へ(OSXの宣伝). • いっしょに研究するインターン生を募集してます! • なんと!持ち込みのテーマも考慮します! • 実際に持ち込みテーマで研究している人も早くも登場してます! • 4月に出来たばかりですが,バリバリ研究してます!
  4. 4. Oral Session 4A O-4A- 01 Group Normalization Yuxin Wu, Facebook; Kaiming He*, Facebook Inc., USA O-4A- 02 Deep Expander Networks: Efficient Deep Networks from Graph Theory Ameya Prabhu*, IIIT Hyderabad; Girish Varma, IIIT Hyderabad; Anoop Namboodiri, IIIT Hyderbad O-4A- 03 Towards Realistic Predictors Pei Wang*, UC San Diego; Nuno Vasconcelos, UC San Diego O-4A- 04 Learning SO(3) Equivariant Representations with Spherical CNNs Carlos Esteves*, University of Pennsylvania; Kostas Daniilidis, University of Pennsylvania; Ameesh Makadia, Google Research; Christine Allec-Blanchette, University of Pennsylvania
  5. 5. Group Normalization • Honorable Mention Award (そこまでか?) • Batch Normalizationは大事.でもBatch Sizeが小さいと使えない • いくつかのチャンネルをGroupにして,sample毎にNormalization すれば,Batch Sizeに非依存になっていい感じ. • 実験的に,batch sizeの違いに対してRobustかつSOTAレベルの精 度を確認. • batch sizeが確保できていなかった手法では精度向上など. Oral
  6. 6. Deep Expander Networks: Efficient Deep Networks from Graph Theory • 枝刈りする論文. • かなりのモデル圧縮に成功. • 速度の比較は(実装の最適化ができていないため)行われていない. Oral
  7. 7. Towards Realistic Predictors • 人間は識別が難しい場合には,難しいといえる • モデルもそうあるべき. • クラス分類問題で,確信度をそのまま使う?⇢Unstable • Hardnessを予測するbranchをつける • 1次元のsigmoidを出力 • 正解は,正解ラベルクラスに対するmain branchの確信度 • Main branchでもharadnessで重み付けしたloss -> 難しいものは間違 えても良い • Curriculum Learningとの関連に関する質問がでたが,そもそもやりたいことが 違う(入出力が違う)などとの回答. Oral
  8. 8. Loss関数
  9. 9. Learning SO(3) Equivariant Representations with Spherical CNNs • 3D回転不変な特徴を得たい. • 物体を囲む球面を用意して,そこに画素値を投影 • Spherical CNNsでembedding • Spectralほげが出てきたけど,落ちた. Oral
  10. 10. Poster Session
  11. 11. A New Large Scale Dynamic Texture Dataset with Application to ConvNet Understanding • Poster
  12. 12. Learnable PINs: Cross-Modal Embeddings for Person Identity • Poster
  13. 13. Deep Clustering for Unsupervised Learning of Visual Features • Poster
  14. 14. Cross-Modal and Hierarchical Modeling of Video and Text • Poster
  15. 15. Object Level Visual Reasoning in Videos • Poster
  16. 16. SkipNet: Learning Dynamic Routing in Convolutional Networks • Poster
  17. 17. Deep Pictorial Gaze Estimation • Poster
  18. 18. Less is More: Picking Informative Frames for Video Captioning • 個人的なBest Paper,というかしてやられたと思った論文. • LSTMに食わせるFrameを強化学習で選ぶ. • 報酬1: Caption生成(メインタスク) • 報酬2(ペナルティ): • 動きや見えが類似するフレームを 選択することは避ける • 沢山フレームを選択することは 避ける • Poster
  19. 19. Triplet Loss in Siamese Network for Object Tracking • Poster
  20. 20. Single Image Intrinsic Decomposition without a Single Intrinsic Image • Poster
  21. 21. BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation • Poster
  22. 22. Oral Session 4B O-4B- 01 CornerNet: Detecting Objects as Paired Keypoints Hei Law*, University of Michigan; Jia Deng, University of Michigan O-4B- 02 RelocNet: Continous Metric Learning Relocalisation using Neural Nets Vassileios Balntas*, University of Oxford; Victor Prisacariu, University of Oxford; Shuda Li, University of Oxford O-4B- 03 The Contextual Loss for Image Transformation with Non-Aligned Data Roey Mechrez*, Technion; Itamar Talmi, Technion; Lihi Zelnik-Manor, Technion O-4B- 04 Acquisition of Localization Confidence for Accurate Object Detection Borui Jiang*, Peking University; Ruixuan Luo, Peking University; Jiayuan Mao, Tsinghua University; Tete Xiao, Peking University; Yuning Jiang, Megvii(Face++) Inc O-4B- 05 Deep Model-Based 6D Pose Refinement in RGB Fabian Manhardt*, TU Munich; Wadim Kehl, Toyota Research Institute; Nassir Navab, Technische Universität München, Germany; Federico Tombari, Technical University of Munich, Germany
  23. 23. CornerNet: Detecting Objects as Paired Keypoints • 物体検出の従来手法はAnchorBox作りまくりで無駄に重い. • 矩形の左上の点と右下の点のMatching問題にしよう! • Networkを2つのbranchに分ける. • それぞれ矩形の左上/右下の点候補を複数出力 • 点候補には,それに対応する物体の特徴も付随. • 物体の特徴に基づいて,Matchingが正しくできるように学習. • 矩形の左上,右下は必ずしもCorner Pointではない • 垂直方向,水平方向のPoolingを適応する. • 2 stage object detectorのSOTAやMask-RCNNよりは精度高い (segmentationじゃなくて矩形のIOU) Oral
  24. 24. RelocNet: Continous Metric Learning Relocalisation using Neural Nets • SfMとかで3DMap作った後で,その空間を動き回っているカメ ラがそのマップ中のどこにいるかを推定⇢Relocation • これにNeural Networkを使ったよ. • 空間中のシーン検索+カメラの位置ずれ推定問題を解けるようネット ワークを設計,学習. Oral
  25. 25. The Contextual Loss for Image Transformation with Non-Aligned Data • Euclid距離はSemanticを考慮しない画像類似度. • Pixelの色で比較するのはやめよう. • 2枚の画像の一方の特徴マップのgrid毎(?),Semantic特徴(その gridのchannelsを1次元特徴としたもの?)が最も似ている grid(?)を選ぶ. • 多対一の対応が出来うる. • 画像が類似しているなら,一対一対応になるはず. • (Gridやら特徴は手法に応じてreplace可能だからか名言してなかっ た) • 色々なタスクで精度向上. Oral
  26. 26. Acquisition of Localization Confidence for Accurate Object Detection • Object Detectionの問題で, • 「物体識別が確実にできる矩形」と「正解矩形に近い矩形」には差が ある. • Non-Max Suppressionとかにおいて, • 物体識別の確信度と矩形が正解に近いことに対する確信度(Localization Confidence)の2つの指標を出力するようにする. • 最終出力は下記をいいところどりする. • 矩形: 確信度が一番高いもの • 物体ラベル: 識別の確信度が一番高いもの • 実際には,矩形の探索の部分もiterativeにするように工夫してたかも (でも,勘違いかも.うろ覚え) Oral
  27. 27. Deep Model-Based 6D Pose Refinement in RGB • Deep LearningでRGB単独から6D pose Estimation • これ系ばっかりOralになっている.ECCVの好み??? • 特徴 • RGB-Only, Ambiguity-Free (未知物体でもある程度動く) • Precise • もう一個あったが写真に写ってなかった(汗) Oral
  28. 28. Oral 4C O-4C- 01 DeepTAM: Deep Tracking and Mapping Huizhong Zhou*, University of Freiburg; Benjamin Ummenhofer, University of Freiburg; Thomas Brox, University of Freiburg O-4C- 02 ContextVP: Fully Context-Aware Video Prediction Wonmin Byeon*, NVIDIA; Qin Wang, ETH Zurich; Rupesh Kumar Srivastava, NNAISENSE; Petros Koumoutsakos, ETH Zurich O-4C- 03 Saliency Benchmarking Made Easy: Separating Models, Maps and Metrics Matthias Kümmerer*, University of Tübingen; Thomas Wallis, University of Tübingen; Matthias Bethge, University of Tübingen O-4C- 04 Museum Exhibit Identification Challenge for the Supervised Domain Adaptation. Piotr Koniusz*, Data61/CSIRO, ANU; Yusuf Tas, Data61; Hongguang Zhang, Australian National University; Mehrtash Harandi, Monash University; Fatih Porikli, ANU; Rui Zhang, University of Canberra O-4C- 05 Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition Ming Sun, baidu; Yuchen Yuan, Baidu Inc.; Feng Zhou*, Baidu Research; Errui Ding, Baidu Inc.
  29. 29. DeepTAM: Deep Tracking and Mapping • 自己位置推定 • SfMをやるけど,単独のフレームでも歩いていど深度を推定できるよ うにしたり,してた?ちょっとしっかり聞いていなかった. • そろそろ3次元のいち推定系の話に興味が薄いのがバレているだろうな…. Oral
  30. 30. ContextVP: Fully Context-Aware Video Prediction • https://wonmin-byeon.github.io/publication/2018-eccv • ConvLSTMでの未来画像生成結果ってボケるよね • 未来の不確実性 • LSTMの構造的な問題(Blind Spot Problemというのがあるらしい) • 後者の問題に対応するため,KxKのカーネルに方向性をもたせ る(次ページのポスター,左下辺り) Oral
  31. 31. Saliency Benchmarking Made Easy: Separating Models, Maps and Metrics • なんだか,この人の英語,頭に入ってこない…. • Saliency のデータセット,色々あるのに,正解に一貫性がない (?)のか,どれでも動く手法っていうのが中々でないよね,とい うことを色々主張していたような… Oral
  32. 32. Museum Exhibit Identification Challenge for the Supervised Domain Adaptation. • Domain Adaptationの新しいデータセットを作った. • Museum Exhibit Dataset(だっけ?) • 展示物をIdentifyする問題のDataset • TrainingできるDomainは博物館側で取ったきれいな画像(正面から 写っている,一つずつ小さいものもズームされている) • Test Domainは来館者が取った画像. • 正面じゃない • Occlusion • 小さい • 座長が興味なさそうに質問してたのが印象的. Oral
  33. 33. Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition • Fin—grained Recognitionのために,Attention Mapを一緒に学 習したい. • 入力はペアの画像. • 正解ペアかどうか,をAttentionがかかった特徴の比較によって識別 • (単独のstreamで別途カテゴリ識別も学習?) • Triplet Lossを使ったMetric Learning • Attention, Category共に正解⇢近づける. • Attention, Categoryの一方が不正解⇢どちらが不正解によらず一定の 距離を離す • Negative-Negativeペア: むっちゃ離す • Attentionの正解データがいるような気がする.データセット 作った?そこの部分が詳細不明. Oral
  34. 34. Poster Session
  35. 35. Domain transfer through deep activation matching • Domain変換するときに,最終層の出力に対するAdv. Lossだけ でなくて,各レイヤーの出力も合うように使用,という話っぽ い. • 蒸留と違うのか? Poster
  36. 36. Visual Coreference Resolution in Visual Dialog using Neural Module Networks • 文章における参照(「それ」とか「The boat」が前の文章の何 に対応するか)を推定する. • 同じ物体が違う呼ばれ方を言える. • 竜頭の船 • Dragon Head Boat • The boat • it • The dragon • 問題設定ばかりみてて, 解き方みてなかった(汗 Poster
  37. 37. Visual Coreference Resolution in Visual Dialog using Neural Module Networks • 文章における参照(「それ」とか「The boat」が前の文章の何 に対応するか)を推定する. • 同じ物体が違う呼ばれ方を言える. • 竜頭の船 • Dragon Head Boat • The boat • it • The dragon • 問題設定ばかりみてて, 解き方みてなかった(汗 Poster
  38. 38. Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning for Planned-Ahead Vision-and-Language Navigation • 以前の関東CV勉強会で牛久先生がVision-and-Language Navigationの論文を紹介していたのを思い出したので写真を 取っておきました. Poster
  39. 39. Variational Wasserstein Clustering • 数式を追うには4日目の最後のポスターセッションは糖分が足 りない… Poster
  40. 40. Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning • 時系列のSelf-supervision: Sequence Sorting • 空間方向のSelf-supervision: Zigsow • どちらも並び替え.どう並べ替えたら学習効率が良い? • 強化学習でAgentにやらせる. • 報酬はValidation Setの精度向上! Poster
  41. 41. Tschüssy, München!! Rückflug nach Japan.

×