Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ECCV2018参加速報(一日目)

947 views

Published on

ECCV2018の発表に対する橋本の個人的なメモです.

Published in: Engineering
  • Be the first to comment

ECCV2018参加速報(一日目)

  1. 1. ECCV2018参加速報 (1日目) 橋本敦史 京大美濃研⇢OMRON SINIC X Corp. (OSX) 2018.4より研究職に転職しました
  2. 2. 使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. • 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  3. 3. Oral Session 1A
  4. 4. Convolutional Networks with Adaptive Computation Graphs, Andreas Veit et al. • 識別しやすい物体,しにくい物体がある.一つのネットワーク 構造の中で,どの部分を使うか(使わないか)を決めながら処 理するCNNを作りたい. • 簡単なものは早く,難しいものは時間をかける,など. • Gumbel-Maxで頑張る • ぐぐって最初にでてきたそれらしき記事(未読) http://peluigi.hatenablog.com/entry/2018/06/21/142753 Oral
  5. 5. Progressive Neural Architecture Search Chenxi Liu • AutoMLなどの系統の研究 • 探索時間が長いのをなんとかしたい. • 精度を余り落とさずに,時間は大分早くなった. Oral
  6. 6. Diverse Image-to-Image Translation via Disentangled Representations, Hsin-Ying Lee et al. • CycleGANの派生. • ドメインを別画像やノイズ信号から指定できるようにする. • Encoderを2つ用意. • ドメイン非依存な特徴を抽出するエンコーダ • ドメイン依存な特徴を抽出するエンコーダ • これを入れ替えてドメイン変換を達成する • 出力を正規分布にMappingしておくことでノイズからも生成できるようにする • 通常のCycleGANのlossに加えて,ドメイン依存特徴を入れ替えた場 合の再構築lossやドメイン非依存にするためのadversarial lossが増 えている. • Diversityはあがっているかもしれないが,改善幅はincrementalかも しれない. Oral
  7. 7. Lifting Layers: Analysis and Applications Michael Moeller et al. • ちょっと理解できなかったが,新しいActivation層の提案? • 各レイヤーを線形spline近似によって凸最適化できる形に変換 • 質疑応答によれば,結果としてモデル全体が(近似的に)凸最適化の形 になって,最適化しやすくなって精度向上した,ということぽい. • 著者実装: https://github.com/michimoeller/liftingLayers Oral
  8. 8. Learning with Biased Complementary Labels, Xiyu Yu et al. • 負のラベル(サンプルxはカテゴリyではない)によって学習す る手法の提案 • 著者らは,そのようなラベルはつけやすい,と仮定している. • 結局,情報量のあるラベルをつけるのは難しいから,そんなことで問題が簡単に はならないのでは?と思った. • 数式の展開の中で,nC2個の2クラス分類をモデル化しているよ うに見える⇢他クラスSVMとかの話と一緒にならない? • 結局,それなりにnC2個の組み合わせを識別するためのサンプ ルの数が必要⇢簡単になっているように見えない…よくわから なかった. Oral
  9. 9. Poster Session
  10. 10. TrackingNet: A Large Scale Dataset and Benchmark for Object Tracking in the wild • CVPR2018でも見かけた気がする…workshop?? • Tracking用のImageNet(ActivityNet)的なデータセット構築 • これでECCV通すような論文の書き方を学ぶためには読んで見 るべきかも. Poster
  11. 11. Grounding Visual Explanation • そこそこsupervisedされている条件でのword(phrase?)-image segment allignment問題っぽい. • 最近みかけるrank lossの差を使っているぽい. • 人が多すぎて近寄ることすら 無理(右の写真で精一杯) Poster
  12. 12. DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks • 脈拍を画像のみ(皮膚の微弱な色変化)から推定する問題を Deep Neural Netで解いたっぽい研究. • あまりDNNが向いていないタスクのようにも思えるが,これも 近寄ることすら無理. 行列にならんで通り抜けながら 撮影. Poster
  13. 13. Unsupervised Video Object Segmentation using Motion Saliency-Guided Spatio-Temporal Propagation • タイトルだけで,大体何をやっているかはおおよそわかる? • これも近寄れず.こんな研究もあるよと,メモ代わりに撮影. Poster
  14. 14. Attention-GAN for Object Transfiguration in Wild Images • CycleGANなどで変換する物体に対してAttention Maskをかけ よう,という論文. • 発表者が不在だったため,ポスター以上の情報はなし. Poster
  15. 15. How good is my GAN • 従来手法のGANで生成された画像は,じつはそれのみを使って クラス分類器を学習させたときに,リアルな画像で学習したク ラス分類器より精度が落ちる. ⇢つまりGANは真の分布に基づいた生成になっていない • 逆に言えば,GANの評価に, 「生成画像を使って学習した モデルによるリアル画像の 識別精度」が使えるのでは?という 研究. • 某知り合いが出発前にこれが面白そうと いっていた奴かも. Poster
  16. 16. Oral Session 1B O-1B-01 Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics-based Modeling Hiroaki Santo*, Osaka University; Michael Waechter, Osaka University; Masaki Samejima, Osaka University; Yusuke Sugano, Osaka University; Yasuyuki Matsushita, Osaka University O-1B-02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels, Carnegie Mellon University; William Whittaker, Carnegie Mellon University; Aswin Sankaranarayanan, Carnegie Mellon University; Srinivasa Narasimhan, Carnegie Mellon University O-1B-03 Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao*, University of Texas at Austin; Rogerio Feris, IBM Research; Kristen Grauman, University of Texas O-1B-04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid Sarhangnejad, University of Toronto; Zhengfan Xia, University of Toronto; Nikola Katic, University of Toronto; Roman Genov, University of Toronto; Kyros Kutulakos*, University of Toronto O-1B-05 Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image Zhengqin Li*, UC San Diego; Manmohan Chandraker, UC San Diego; Sunkavalli Kalyan, Adobe Research
  17. 17. O-1B- 01 Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics- based Modeling Hiroaki Santo*, Osaka University; Michael Waechter, Osaka University; Masaki Samejima, Osaka University; Yusuke Sugano, Osaka University; Yasuyuki Matsushita, Osaka University O-1B- 02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels, Carnegie Mellon University; William Whittaker, Carnegie Mellon University; Aswin Sankaranarayanan, Carnegie Mellon University; Srinivasa Narasimhan, Carnegie Mellon University O-1B- 03 Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao*, University of Texas at Austin; Rogerio Feris, IBM Research; Kristen Grauman, University of Texas O-1B- 04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid Sarhangnejad, University of Toronto; Zhengfan Xia, University of Toronto; Nikola Katic, University of Toronto; Roman Genov, University of Toronto; Kyros Kutulakos*, University of Toronto O-1B- 05 Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image Zhengqin Li*, UC San Diego; Manmohan Chandraker, UC San Diego; Sunkavalli Kalyan, Adobe Research Oral 1B
  18. 18. Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics-based Modeling, H. Santo et al. • 従来の光源位置キャリブレーションは,球形の反射物体を空間 条に配置⇢ハイライト領域が大きくなる場合(光源が大きいな ど)では光源方向推定精度が低下. • ARマーカにより姿勢が検出可能なキャリブレーションボード上 にピンを指す.ピンの先端に球があり,その球と影の位置を使 うとSfM的なアプローチで(?)上記の問題を起こさずに,点光源 の位置や平行光源の方向を精度良く推定できる. Oral
  19. 19. Programmable Light Curtains Jian Wang et al. • エレベータなどで使われているLight Curtainを拡張! • 赤外レーザと受光器の組み合わせで,レーザが届かなかったらモノが あると検知する奴. • 従来:レーザと受光器は向かい合わせでなければならない. • 提案手法: 向かい合わせでなくてよい.ミラーで反射させて好 きな位置をScan.(レーザが物体に反射して観測できたらモノ があると検知) • 複雑な画像処理が不要というところが良い. • とはいえ,機械的な動作(ミラーを動かす)があるのでどこまで高速 化できるか不明.結局,Depth Cameraで良いのでは? • 他の赤外光レーザによる干渉や,検出面の厚さの制御が課題 Oral/Demo
  20. 20. Learning to Separate Object Sounds by Watching Unlabeled Video, R. Gao et al. • 音を音源に応じて分離して取り出す問題. • 音源の種類の学習に物体検出結果を利用⇢unlabeled条件を視覚 情報により克服 • 学習データが足りないのか,多少混ざったままとなっている • 音源と映像中の動きとの同期性などはまだ使われていない. Oral
  21. 21. Coded Two-Bucket Cameras for Computer Vision, M. Wei et al. • 発表がわかりにくかった気がする.多分やりたいことは Structured Lightによる3次元形状復元の高フレームレート化 • CCDセンサなどの電荷を貯めるbucketを1受光面あたり2つにす る⇢隣接する受光面との間で0101,0011,1100,1010のような コード割当でどの時間帯に受光していたかをずらしておく. • ベイヤーパターンのように周辺の受光面から光量を推定⇢解像 度を犠牲にしてフレームレートを上げた??? Oral
  22. 22. Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image, Z. Li et al. • 携帯のカメラ画像で移した床面などのAlbedo, Normal, Depth を学習ベースで推定. • 事前にAdobeが出しているmaterialのBRDFに関するデータセッ トを利用して学習. • Albedo, Normal, Depthの推定をmaterialの識別と同時にmulti- taskで解かせることによってmaterial識別の精度が大幅に向上 Oral
  23. 23. O-1C-01 End-to-End Joint Semantic Segmentation of Actors and Actions in Video Jingwei Ji*, Stanford University; Shyamal Buch, Stanford University; Alvaro Soto, Universidad Catolica de Chile; Juan Carlos Niebles, Stanford University O-1C-02 Learning-based Video Motion Magnification Tae-Hyun Oh, MIT CSAIL; Ronnachai Jaroensri*, MIT CSAIL; Changil Kim, MIT CSAIL; Mohamed A. Elghareb, Qatar Computing Research Institute; Fredo Durand, MIT; Bill Freeman, MIT; Wojciech Matusik, MIT CSAIL O-1C-03 Massively Parallel Video Networks Viorica Patraucean*, DeepMind; Joao Carreira, DeepMind; Laurent Mazare, DeepMind; Simon Osindero, DeepMind; Andrew Zisserman, University of Oxford O-1C-04 DeepWrinkles: Accurate and Realistic Clothing Modeling Zorah Laehner, TU Munich; Tony Tung*, Facebook / Oculus Research; Daniel Cremers, TUM O-1C-05 Learning Discriminative Video Representations Using Adversarial Perturbations Jue Wang*, ANU; Anoop Cherian, MERL Oral 1C
  24. 24. End-to-End Joint Semantic Segmentation of Actors and Actions in Video J. Ji et al. • Actor識別とAction識別とActor領域のSemantic segmentation を初めてEnd-to-Endで学習した論文. Oral
  25. 25. Learning-based Video Motion Magnification T. H. Oh et al. • 動画中の動きの強さ(?)を編集可能にしたい. • 動きの強さって何かわからないという根源的な問いがある… • 少なくとも,空間的なscaleとかを考慮する手法にはなっていない. • 走っている人の動きが激しくなればとりあえず良いっぽい?何をしたいんだ ろうか. • Magnitudeの正解がないので,自分たちで適当に物体を映像に貼っ て動きの幅だけで合成⇢ますます何したいかわからない… • 結果,プルプルする動画が完成….これは論文でどういう書き方を して通ったのか逆に興味があるかも. Oral
  26. 26. Massively Parallel Video Networks V. Patraucean et al. • 動画に対してonlineで処理するには,計算量が大きすぎて latencyが問題になる. • とりあえず,ネットワークの並列度は上げて深さを減らす. • 直前のフレームがCNNの第2層(ブロック?)にいるときに今のフ レームの処理を第1層にいれて,並列化したら良い(図) • オフライン処理をupper boundとして, 精度はちょっと落ちるが高速化成功. • 自分で実装する気にはならない系論文. Oral
  27. 27. DeepWrinkles: Accurate and Realistic Clothing Modeling Laehner et al. • 服のシワをDeep Learningで再現しよう. • 法線方向マップを,3Dモデルに対するテクスチャマップのよう に表現 • 材料・しわの初期状態・体型に応じたシワを生成できるよう学習. • 対象を観察し,原理原則をしっかり抑えて議論したのであろう, シンプルながらお手本のような研究に思える. • 一時期京大松山研におられたTony TungさんがSecond Author. 納得の内容. Oral
  28. 28. Learning Discriminative Video Representations Using Adversarial Perturbations, J. Wang et al. • Adversarial Perturbationによって貼られる部分空間のようなも の(理解が危うい)を使って,頑健な特徴を学習する手法の提案. • ちょっと数学的知識が足りなくて落ちました,南無. • 結構動作認識の精度が向上している?5%くらい. Oral
  29. 29. 前ページのoral発表のポスター
  30. 30. Poster Session
  31. 31. W-TALC: Weakly-supervised Temporal Activity Localization and Classification • 動画にはなんのActionが含まれているかだけアノテーションさ れている条件でのTemporal Activity Localization • 同じActionラベルを持っている動画の中で,似ているSegment を上からk個とってくる ⇢ランクロス的アプローチ.
  32. 32. Long-term Tracking in the wild • ぶっちゃけ物体追跡って実用レベルではない. • 1分も追跡できたら良い方? • データセットとbaselineを提供. • https://oxuva.github.io/long-term-tracking-benchmark/ Poster
  33. 33. Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World • メモ代わりに写真撮影.内容は見れてないです. Poster
  34. 34. Online Detection of Action Start in Untrimmed, Streaming Videos Poster 発表者がいなかった?メモ代わりに撮影.
  35. 35. Diagnosing Error in Temporal Action Detectors • Temporal Action Localizationで失敗している部分を分析した論 文ぽい.結構当たり前な気がする. • 著者に説明してもらったが,特段新しい知見が不明だった. • 逆にどういう書き方をした のか論文を読んでみたい. Poster
  36. 36. Stacked Cross Attention for Image-Text Matching • Vision & Languageぽかったので,遠くから通り際に撮影. • 詳細はポスターみれてないですので不明. Poster
  37. 37. Spatio-temporal Transformer Network for Video Restoration • LSTMの代わりにTransfomerを使った動画修復? • タイトル以上の情報は得られず,通り過ぎました(混雑過多) Poster
  38. 38. BSN: Boundary Sensitive Network for Temporal Action Proposal Generation • Temporal Action Localizationの論文. • 動作区間の開始・終了を,動作の内容そのものとは別に学習し, 結果を統合することで 改善を図ったもの. Poster

×