ECCV2018参加速報
(1日目)
橋本敦史
京大美濃研⇢OMRON SINIC X Corp. (OSX)
2018.4より研究職に転職しました
使用上の注意
• これは個人的なメモ資料です.いわば「チラシの裏」です.こ
の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳
ありません.もっと素敵な資料はたくさんあると思いますので,
そっと閉じて,他をあたって頂ければ幸いです.
• この資料は「チラシの裏」ですが,下記はまんまチラシです.
• 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま
いの方で も長期休みを利用してフレキシブルにインターンしていただ
けます.東京に お住まいの方でも,週に数回など,授業・研究の合間
に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪
しいURLですが,弊社のスタートアップ感の迸りです)
Oral Session 1A
Convolutional Networks with Adaptive
Computation Graphs, Andreas Veit et al.
• 識別しやすい物体,しにくい物体がある.一つのネットワーク
構造の中で,どの部分を使うか(使わないか)を決めながら処
理するCNNを作りたい.
• 簡単なものは早く,難しいものは時間をかける,など.
• Gumbel-Maxで頑張る
• ぐぐって最初にでてきたそれらしき記事(未読)
http://peluigi.hatenablog.com/entry/2018/06/21/142753
Oral
Progressive Neural Architecture Search
Chenxi Liu
• AutoMLなどの系統の研究
• 探索時間が長いのをなんとかしたい.
• 精度を余り落とさずに,時間は大分早くなった.
Oral
Diverse Image-to-Image Translation via
Disentangled Representations, Hsin-Ying Lee et al.
• CycleGANの派生.
• ドメインを別画像やノイズ信号から指定できるようにする.
• Encoderを2つ用意.
• ドメイン非依存な特徴を抽出するエンコーダ
• ドメイン依存な特徴を抽出するエンコーダ
• これを入れ替えてドメイン変換を達成する
• 出力を正規分布にMappingしておくことでノイズからも生成できるようにする
• 通常のCycleGANのlossに加えて,ドメイン依存特徴を入れ替えた場
合の再構築lossやドメイン非依存にするためのadversarial lossが増
えている.
• Diversityはあがっているかもしれないが,改善幅はincrementalかも
しれない.
Oral
Lifting Layers: Analysis and Applications
Michael Moeller et al.
• ちょっと理解できなかったが,新しいActivation層の提案?
• 各レイヤーを線形spline近似によって凸最適化できる形に変換
• 質疑応答によれば,結果としてモデル全体が(近似的に)凸最適化の形
になって,最適化しやすくなって精度向上した,ということぽい.
• 著者実装: https://github.com/michimoeller/liftingLayers
Oral
Learning with Biased Complementary
Labels, Xiyu Yu et al.
• 負のラベル(サンプルxはカテゴリyではない)によって学習す
る手法の提案
• 著者らは,そのようなラベルはつけやすい,と仮定している.
• 結局,情報量のあるラベルをつけるのは難しいから,そんなことで問題が簡単に
はならないのでは?と思った.
• 数式の展開の中で,nC2個の2クラス分類をモデル化しているよ
うに見える⇢他クラスSVMとかの話と一緒にならない?
• 結局,それなりにnC2個の組み合わせを識別するためのサンプ
ルの数が必要⇢簡単になっているように見えない…よくわから
なかった.
Oral
Poster Session
TrackingNet: A Large Scale Dataset and
Benchmark for Object Tracking in the wild
• CVPR2018でも見かけた気がする…workshop??
• Tracking用のImageNet(ActivityNet)的なデータセット構築
• これでECCV通すような論文の書き方を学ぶためには読んで見
るべきかも.
Poster
Grounding Visual Explanation
• そこそこsupervisedされている条件でのword(phrase?)-image
segment allignment問題っぽい.
• 最近みかけるrank lossの差を使っているぽい.
• 人が多すぎて近寄ることすら
無理(右の写真で精一杯)
Poster
DeepPhys: Video-Based Physiological
Measurement Using Convolutional Attention
Networks
• 脈拍を画像のみ(皮膚の微弱な色変化)から推定する問題を
Deep Neural Netで解いたっぽい研究.
• あまりDNNが向いていないタスクのようにも思えるが,これも
近寄ることすら無理.
行列にならんで通り抜けながら
撮影.
Poster
Unsupervised Video Object Segmentation
using Motion Saliency-Guided Spatio-Temporal
Propagation
• タイトルだけで,大体何をやっているかはおおよそわかる?
• これも近寄れず.こんな研究もあるよと,メモ代わりに撮影.
Poster
Attention-GAN for Object Transfiguration
in Wild Images
• CycleGANなどで変換する物体に対してAttention Maskをかけ
よう,という論文.
• 発表者が不在だったため,ポスター以上の情報はなし.
Poster
How good is my GAN
• 従来手法のGANで生成された画像は,じつはそれのみを使って
クラス分類器を学習させたときに,リアルな画像で学習したク
ラス分類器より精度が落ちる.
⇢つまりGANは真の分布に基づいた生成になっていない
• 逆に言えば,GANの評価に,
「生成画像を使って学習した
モデルによるリアル画像の
識別精度」が使えるのでは?という
研究.
• 某知り合いが出発前にこれが面白そうと
いっていた奴かも.
Poster
Oral Session 1B
O-1B-01 Light Structure from Pin Motion: Simple and Accurate
Point Light Calibration for Physics-based Modeling
Hiroaki Santo*, Osaka University; Michael Waechter,
Osaka University; Masaki Samejima, Osaka University;
Yusuke Sugano, Osaka University; Yasuyuki Matsushita,
Osaka University
O-1B-02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels,
Carnegie Mellon University; William Whittaker, Carnegie
Mellon University; Aswin Sankaranarayanan, Carnegie
Mellon University; Srinivasa Narasimhan, Carnegie
Mellon University
O-1B-03 Learning to Separate Object Sounds by Watching
Unlabeled Video
Ruohan Gao*, University of Texas at Austin; Rogerio
Feris, IBM Research; Kristen Grauman, University of
Texas
O-1B-04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid
Sarhangnejad, University of Toronto; Zhengfan Xia,
University of Toronto; Nikola Katic, University of
Toronto; Roman Genov, University of Toronto; Kyros
Kutulakos*, University of Toronto
O-1B-05 Materials for Masses: SVBRDF Acquisition with a Single
Mobile Phone Image
Zhengqin Li*, UC San Diego; Manmohan Chandraker,
UC San Diego; Sunkavalli Kalyan, Adobe Research
O-1B-
01
Light Structure from Pin Motion: Simple and
Accurate Point Light Calibration for Physics-
based Modeling
Hiroaki Santo*, Osaka University; Michael
Waechter, Osaka University; Masaki
Samejima, Osaka University; Yusuke Sugano,
Osaka University; Yasuyuki Matsushita,
Osaka University
O-1B-
02
Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe
Bartels, Carnegie Mellon University; William
Whittaker, Carnegie Mellon University; Aswin
Sankaranarayanan, Carnegie Mellon
University; Srinivasa Narasimhan, Carnegie
Mellon University
O-1B-
03
Learning to Separate Object Sounds by
Watching Unlabeled Video
Ruohan Gao*, University of Texas at Austin;
Rogerio Feris, IBM Research; Kristen
Grauman, University of Texas
O-1B-
04
Coded Two-Bucket Cameras for Computer
Vision
Mian Wei, University of Toronto; Navid Navid
Sarhangnejad, University of Toronto;
Zhengfan Xia, University of Toronto; Nikola
Katic, University of Toronto; Roman Genov,
University of Toronto; Kyros Kutulakos*,
University of Toronto
O-1B-
05
Materials for Masses: SVBRDF Acquisition
with a Single Mobile Phone Image
Zhengqin Li*, UC San Diego; Manmohan
Chandraker, UC San Diego; Sunkavalli Kalyan,
Adobe Research
Oral 1B
Light Structure from Pin Motion: Simple
and Accurate Point Light Calibration for
Physics-based Modeling, H. Santo et al.
• 従来の光源位置キャリブレーションは,球形の反射物体を空間
条に配置⇢ハイライト領域が大きくなる場合(光源が大きいな
ど)では光源方向推定精度が低下.
• ARマーカにより姿勢が検出可能なキャリブレーションボード上
にピンを指す.ピンの先端に球があり,その球と影の位置を使
うとSfM的なアプローチで(?)上記の問題を起こさずに,点光源
の位置や平行光源の方向を精度良く推定できる.
Oral
Programmable Light Curtains
Jian Wang et al.
• エレベータなどで使われているLight Curtainを拡張!
• 赤外レーザと受光器の組み合わせで,レーザが届かなかったらモノが
あると検知する奴.
• 従来:レーザと受光器は向かい合わせでなければならない.
• 提案手法: 向かい合わせでなくてよい.ミラーで反射させて好
きな位置をScan.(レーザが物体に反射して観測できたらモノ
があると検知)
• 複雑な画像処理が不要というところが良い.
• とはいえ,機械的な動作(ミラーを動かす)があるのでどこまで高速
化できるか不明.結局,Depth Cameraで良いのでは?
• 他の赤外光レーザによる干渉や,検出面の厚さの制御が課題
Oral/Demo
Learning to Separate Object Sounds by
Watching Unlabeled Video, R. Gao et al.
• 音を音源に応じて分離して取り出す問題.
• 音源の種類の学習に物体検出結果を利用⇢unlabeled条件を視覚
情報により克服
• 学習データが足りないのか,多少混ざったままとなっている
• 音源と映像中の動きとの同期性などはまだ使われていない.
Oral
Coded Two-Bucket Cameras for Computer
Vision, M. Wei et al.
• 発表がわかりにくかった気がする.多分やりたいことは
Structured Lightによる3次元形状復元の高フレームレート化
• CCDセンサなどの電荷を貯めるbucketを1受光面あたり2つにす
る⇢隣接する受光面との間で0101,0011,1100,1010のような
コード割当でどの時間帯に受光していたかをずらしておく.
• ベイヤーパターンのように周辺の受光面から光量を推定⇢解像
度を犠牲にしてフレームレートを上げた???
Oral
Materials for Masses: SVBRDF Acquisition
with a Single Mobile Phone Image, Z. Li et al.
• 携帯のカメラ画像で移した床面などのAlbedo, Normal, Depth
を学習ベースで推定.
• 事前にAdobeが出しているmaterialのBRDFに関するデータセッ
トを利用して学習.
• Albedo, Normal, Depthの推定をmaterialの識別と同時にmulti-
taskで解かせることによってmaterial識別の精度が大幅に向上
Oral
O-1C-01 End-to-End Joint Semantic Segmentation of Actors
and Actions in Video
Jingwei Ji*, Stanford University; Shyamal Buch,
Stanford University; Alvaro Soto, Universidad
Catolica de Chile; Juan Carlos Niebles, Stanford
University
O-1C-02 Learning-based Video Motion Magnification Tae-Hyun Oh, MIT CSAIL; Ronnachai Jaroensri*,
MIT CSAIL; Changil Kim, MIT CSAIL; Mohamed A.
Elghareb, Qatar Computing Research Institute;
Fredo Durand, MIT; Bill Freeman, MIT; Wojciech
Matusik, MIT CSAIL
O-1C-03 Massively Parallel Video Networks Viorica Patraucean*, DeepMind; Joao Carreira,
DeepMind; Laurent Mazare, DeepMind; Simon
Osindero, DeepMind; Andrew Zisserman, University
of Oxford
O-1C-04 DeepWrinkles: Accurate and Realistic Clothing
Modeling
Zorah Laehner, TU Munich; Tony Tung*, Facebook /
Oculus Research; Daniel Cremers, TUM
O-1C-05 Learning Discriminative Video Representations
Using Adversarial Perturbations
Jue Wang*, ANU; Anoop Cherian, MERL
Oral 1C
End-to-End Joint Semantic Segmentation
of Actors and Actions in Video J. Ji et al.
• Actor識別とAction識別とActor領域のSemantic segmentation
を初めてEnd-to-Endで学習した論文.
Oral
Learning-based Video Motion Magnification
T. H. Oh et al.
• 動画中の動きの強さ(?)を編集可能にしたい.
• 動きの強さって何かわからないという根源的な問いがある…
• 少なくとも,空間的なscaleとかを考慮する手法にはなっていない.
• 走っている人の動きが激しくなればとりあえず良いっぽい?何をしたいんだ
ろうか.
• Magnitudeの正解がないので,自分たちで適当に物体を映像に貼っ
て動きの幅だけで合成⇢ますます何したいかわからない…
• 結果,プルプルする動画が完成….これは論文でどういう書き方を
して通ったのか逆に興味があるかも.
Oral
Massively Parallel Video Networks
V. Patraucean et al.
• 動画に対してonlineで処理するには,計算量が大きすぎて
latencyが問題になる.
• とりあえず,ネットワークの並列度は上げて深さを減らす.
• 直前のフレームがCNNの第2層(ブロック?)にいるときに今のフ
レームの処理を第1層にいれて,並列化したら良い(図)
• オフライン処理をupper boundとして,
精度はちょっと落ちるが高速化成功.
• 自分で実装する気にはならない系論文.
Oral
DeepWrinkles: Accurate and Realistic
Clothing Modeling Laehner et al.
• 服のシワをDeep Learningで再現しよう.
• 法線方向マップを,3Dモデルに対するテクスチャマップのよう
に表現
• 材料・しわの初期状態・体型に応じたシワを生成できるよう学習.
• 対象を観察し,原理原則をしっかり抑えて議論したのであろう,
シンプルながらお手本のような研究に思える.
• 一時期京大松山研におられたTony TungさんがSecond Author.
納得の内容.
Oral
Learning Discriminative Video Representations Using
Adversarial Perturbations, J. Wang et al.
• Adversarial Perturbationによって貼られる部分空間のようなも
の(理解が危うい)を使って,頑健な特徴を学習する手法の提案.
• ちょっと数学的知識が足りなくて落ちました,南無.
• 結構動作認識の精度が向上している?5%くらい.
Oral
前ページのoral発表のポスター
Poster Session
W-TALC: Weakly-supervised Temporal
Activity Localization and Classification
• 動画にはなんのActionが含まれているかだけアノテーションさ
れている条件でのTemporal Activity Localization
• 同じActionラベルを持っている動画の中で,似ているSegment
を上からk個とってくる
⇢ランクロス的アプローチ.
Long-term Tracking in the wild
• ぶっちゃけ物体追跡って実用レベルではない.
• 1分も追跡できたら良い方?
• データセットとbaselineを提供.
• https://oxuva.github.io/long-term-tracking-benchmark/
Poster
Learning to Detect and Track Visible and
Occluded Body Joints in a Virtual World
• メモ代わりに写真撮影.内容は見れてないです.
Poster
Online Detection of Action Start in
Untrimmed, Streaming Videos
Poster
発表者がいなかった?メモ代わりに撮影.
Diagnosing Error in Temporal Action
Detectors
• Temporal Action Localizationで失敗している部分を分析した論
文ぽい.結構当たり前な気がする.
• 著者に説明してもらったが,特段新しい知見が不明だった.
• 逆にどういう書き方をした
のか論文を読んでみたい.
Poster
Stacked Cross Attention for Image-Text
Matching
• Vision & Languageぽかったので,遠くから通り際に撮影.
• 詳細はポスターみれてないですので不明.
Poster
Spatio-temporal Transformer Network for
Video Restoration
• LSTMの代わりにTransfomerを使った動画修復?
• タイトル以上の情報は得られず,通り過ぎました(混雑過多)
Poster
BSN: Boundary Sensitive Network for
Temporal Action Proposal Generation
• Temporal Action Localizationの論文.
• 動作区間の開始・終了を,動作の内容そのものとは別に学習し,
結果を統合することで
改善を図ったもの.
Poster

ECCV2018参加速報(一日目)

  • 1.
    ECCV2018参加速報 (1日目) 橋本敦史 京大美濃研⇢OMRON SINIC XCorp. (OSX) 2018.4より研究職に転職しました
  • 2.
    使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. •弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  • 6.
  • 7.
    Convolutional Networks withAdaptive Computation Graphs, Andreas Veit et al. • 識別しやすい物体,しにくい物体がある.一つのネットワーク 構造の中で,どの部分を使うか(使わないか)を決めながら処 理するCNNを作りたい. • 簡単なものは早く,難しいものは時間をかける,など. • Gumbel-Maxで頑張る • ぐぐって最初にでてきたそれらしき記事(未読) http://peluigi.hatenablog.com/entry/2018/06/21/142753 Oral
  • 8.
    Progressive Neural ArchitectureSearch Chenxi Liu • AutoMLなどの系統の研究 • 探索時間が長いのをなんとかしたい. • 精度を余り落とさずに,時間は大分早くなった. Oral
  • 9.
    Diverse Image-to-Image Translationvia Disentangled Representations, Hsin-Ying Lee et al. • CycleGANの派生. • ドメインを別画像やノイズ信号から指定できるようにする. • Encoderを2つ用意. • ドメイン非依存な特徴を抽出するエンコーダ • ドメイン依存な特徴を抽出するエンコーダ • これを入れ替えてドメイン変換を達成する • 出力を正規分布にMappingしておくことでノイズからも生成できるようにする • 通常のCycleGANのlossに加えて,ドメイン依存特徴を入れ替えた場 合の再構築lossやドメイン非依存にするためのadversarial lossが増 えている. • Diversityはあがっているかもしれないが,改善幅はincrementalかも しれない. Oral
  • 10.
    Lifting Layers: Analysisand Applications Michael Moeller et al. • ちょっと理解できなかったが,新しいActivation層の提案? • 各レイヤーを線形spline近似によって凸最適化できる形に変換 • 質疑応答によれば,結果としてモデル全体が(近似的に)凸最適化の形 になって,最適化しやすくなって精度向上した,ということぽい. • 著者実装: https://github.com/michimoeller/liftingLayers Oral
  • 11.
    Learning with BiasedComplementary Labels, Xiyu Yu et al. • 負のラベル(サンプルxはカテゴリyではない)によって学習す る手法の提案 • 著者らは,そのようなラベルはつけやすい,と仮定している. • 結局,情報量のあるラベルをつけるのは難しいから,そんなことで問題が簡単に はならないのでは?と思った. • 数式の展開の中で,nC2個の2クラス分類をモデル化しているよ うに見える⇢他クラスSVMとかの話と一緒にならない? • 結局,それなりにnC2個の組み合わせを識別するためのサンプ ルの数が必要⇢簡単になっているように見えない…よくわから なかった. Oral
  • 12.
  • 13.
    TrackingNet: A LargeScale Dataset and Benchmark for Object Tracking in the wild • CVPR2018でも見かけた気がする…workshop?? • Tracking用のImageNet(ActivityNet)的なデータセット構築 • これでECCV通すような論文の書き方を学ぶためには読んで見 るべきかも. Poster
  • 14.
    Grounding Visual Explanation •そこそこsupervisedされている条件でのword(phrase?)-image segment allignment問題っぽい. • 最近みかけるrank lossの差を使っているぽい. • 人が多すぎて近寄ることすら 無理(右の写真で精一杯) Poster
  • 15.
    DeepPhys: Video-Based Physiological MeasurementUsing Convolutional Attention Networks • 脈拍を画像のみ(皮膚の微弱な色変化)から推定する問題を Deep Neural Netで解いたっぽい研究. • あまりDNNが向いていないタスクのようにも思えるが,これも 近寄ることすら無理. 行列にならんで通り抜けながら 撮影. Poster
  • 16.
    Unsupervised Video ObjectSegmentation using Motion Saliency-Guided Spatio-Temporal Propagation • タイトルだけで,大体何をやっているかはおおよそわかる? • これも近寄れず.こんな研究もあるよと,メモ代わりに撮影. Poster
  • 17.
    Attention-GAN for ObjectTransfiguration in Wild Images • CycleGANなどで変換する物体に対してAttention Maskをかけ よう,という論文. • 発表者が不在だったため,ポスター以上の情報はなし. Poster
  • 18.
    How good ismy GAN • 従来手法のGANで生成された画像は,じつはそれのみを使って クラス分類器を学習させたときに,リアルな画像で学習したク ラス分類器より精度が落ちる. ⇢つまりGANは真の分布に基づいた生成になっていない • 逆に言えば,GANの評価に, 「生成画像を使って学習した モデルによるリアル画像の 識別精度」が使えるのでは?という 研究. • 某知り合いが出発前にこれが面白そうと いっていた奴かも. Poster
  • 19.
    Oral Session 1B O-1B-01Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics-based Modeling Hiroaki Santo*, Osaka University; Michael Waechter, Osaka University; Masaki Samejima, Osaka University; Yusuke Sugano, Osaka University; Yasuyuki Matsushita, Osaka University O-1B-02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels, Carnegie Mellon University; William Whittaker, Carnegie Mellon University; Aswin Sankaranarayanan, Carnegie Mellon University; Srinivasa Narasimhan, Carnegie Mellon University O-1B-03 Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao*, University of Texas at Austin; Rogerio Feris, IBM Research; Kristen Grauman, University of Texas O-1B-04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid Sarhangnejad, University of Toronto; Zhengfan Xia, University of Toronto; Nikola Katic, University of Toronto; Roman Genov, University of Toronto; Kyros Kutulakos*, University of Toronto O-1B-05 Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image Zhengqin Li*, UC San Diego; Manmohan Chandraker, UC San Diego; Sunkavalli Kalyan, Adobe Research
  • 20.
    O-1B- 01 Light Structure fromPin Motion: Simple and Accurate Point Light Calibration for Physics- based Modeling Hiroaki Santo*, Osaka University; Michael Waechter, Osaka University; Masaki Samejima, Osaka University; Yusuke Sugano, Osaka University; Yasuyuki Matsushita, Osaka University O-1B- 02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels, Carnegie Mellon University; William Whittaker, Carnegie Mellon University; Aswin Sankaranarayanan, Carnegie Mellon University; Srinivasa Narasimhan, Carnegie Mellon University O-1B- 03 Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao*, University of Texas at Austin; Rogerio Feris, IBM Research; Kristen Grauman, University of Texas O-1B- 04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid Sarhangnejad, University of Toronto; Zhengfan Xia, University of Toronto; Nikola Katic, University of Toronto; Roman Genov, University of Toronto; Kyros Kutulakos*, University of Toronto O-1B- 05 Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image Zhengqin Li*, UC San Diego; Manmohan Chandraker, UC San Diego; Sunkavalli Kalyan, Adobe Research Oral 1B
  • 21.
    Light Structure fromPin Motion: Simple and Accurate Point Light Calibration for Physics-based Modeling, H. Santo et al. • 従来の光源位置キャリブレーションは,球形の反射物体を空間 条に配置⇢ハイライト領域が大きくなる場合(光源が大きいな ど)では光源方向推定精度が低下. • ARマーカにより姿勢が検出可能なキャリブレーションボード上 にピンを指す.ピンの先端に球があり,その球と影の位置を使 うとSfM的なアプローチで(?)上記の問題を起こさずに,点光源 の位置や平行光源の方向を精度良く推定できる. Oral
  • 22.
    Programmable Light Curtains JianWang et al. • エレベータなどで使われているLight Curtainを拡張! • 赤外レーザと受光器の組み合わせで,レーザが届かなかったらモノが あると検知する奴. • 従来:レーザと受光器は向かい合わせでなければならない. • 提案手法: 向かい合わせでなくてよい.ミラーで反射させて好 きな位置をScan.(レーザが物体に反射して観測できたらモノ があると検知) • 複雑な画像処理が不要というところが良い. • とはいえ,機械的な動作(ミラーを動かす)があるのでどこまで高速 化できるか不明.結局,Depth Cameraで良いのでは? • 他の赤外光レーザによる干渉や,検出面の厚さの制御が課題 Oral/Demo
  • 23.
    Learning to SeparateObject Sounds by Watching Unlabeled Video, R. Gao et al. • 音を音源に応じて分離して取り出す問題. • 音源の種類の学習に物体検出結果を利用⇢unlabeled条件を視覚 情報により克服 • 学習データが足りないのか,多少混ざったままとなっている • 音源と映像中の動きとの同期性などはまだ使われていない. Oral
  • 24.
    Coded Two-Bucket Camerasfor Computer Vision, M. Wei et al. • 発表がわかりにくかった気がする.多分やりたいことは Structured Lightによる3次元形状復元の高フレームレート化 • CCDセンサなどの電荷を貯めるbucketを1受光面あたり2つにす る⇢隣接する受光面との間で0101,0011,1100,1010のような コード割当でどの時間帯に受光していたかをずらしておく. • ベイヤーパターンのように周辺の受光面から光量を推定⇢解像 度を犠牲にしてフレームレートを上げた??? Oral
  • 25.
    Materials for Masses:SVBRDF Acquisition with a Single Mobile Phone Image, Z. Li et al. • 携帯のカメラ画像で移した床面などのAlbedo, Normal, Depth を学習ベースで推定. • 事前にAdobeが出しているmaterialのBRDFに関するデータセッ トを利用して学習. • Albedo, Normal, Depthの推定をmaterialの識別と同時にmulti- taskで解かせることによってmaterial識別の精度が大幅に向上 Oral
  • 26.
    O-1C-01 End-to-End JointSemantic Segmentation of Actors and Actions in Video Jingwei Ji*, Stanford University; Shyamal Buch, Stanford University; Alvaro Soto, Universidad Catolica de Chile; Juan Carlos Niebles, Stanford University O-1C-02 Learning-based Video Motion Magnification Tae-Hyun Oh, MIT CSAIL; Ronnachai Jaroensri*, MIT CSAIL; Changil Kim, MIT CSAIL; Mohamed A. Elghareb, Qatar Computing Research Institute; Fredo Durand, MIT; Bill Freeman, MIT; Wojciech Matusik, MIT CSAIL O-1C-03 Massively Parallel Video Networks Viorica Patraucean*, DeepMind; Joao Carreira, DeepMind; Laurent Mazare, DeepMind; Simon Osindero, DeepMind; Andrew Zisserman, University of Oxford O-1C-04 DeepWrinkles: Accurate and Realistic Clothing Modeling Zorah Laehner, TU Munich; Tony Tung*, Facebook / Oculus Research; Daniel Cremers, TUM O-1C-05 Learning Discriminative Video Representations Using Adversarial Perturbations Jue Wang*, ANU; Anoop Cherian, MERL Oral 1C
  • 27.
    End-to-End Joint SemanticSegmentation of Actors and Actions in Video J. Ji et al. • Actor識別とAction識別とActor領域のSemantic segmentation を初めてEnd-to-Endで学習した論文. Oral
  • 28.
    Learning-based Video MotionMagnification T. H. Oh et al. • 動画中の動きの強さ(?)を編集可能にしたい. • 動きの強さって何かわからないという根源的な問いがある… • 少なくとも,空間的なscaleとかを考慮する手法にはなっていない. • 走っている人の動きが激しくなればとりあえず良いっぽい?何をしたいんだ ろうか. • Magnitudeの正解がないので,自分たちで適当に物体を映像に貼っ て動きの幅だけで合成⇢ますます何したいかわからない… • 結果,プルプルする動画が完成….これは論文でどういう書き方を して通ったのか逆に興味があるかも. Oral
  • 29.
    Massively Parallel VideoNetworks V. Patraucean et al. • 動画に対してonlineで処理するには,計算量が大きすぎて latencyが問題になる. • とりあえず,ネットワークの並列度は上げて深さを減らす. • 直前のフレームがCNNの第2層(ブロック?)にいるときに今のフ レームの処理を第1層にいれて,並列化したら良い(図) • オフライン処理をupper boundとして, 精度はちょっと落ちるが高速化成功. • 自分で実装する気にはならない系論文. Oral
  • 30.
    DeepWrinkles: Accurate andRealistic Clothing Modeling Laehner et al. • 服のシワをDeep Learningで再現しよう. • 法線方向マップを,3Dモデルに対するテクスチャマップのよう に表現 • 材料・しわの初期状態・体型に応じたシワを生成できるよう学習. • 対象を観察し,原理原則をしっかり抑えて議論したのであろう, シンプルながらお手本のような研究に思える. • 一時期京大松山研におられたTony TungさんがSecond Author. 納得の内容. Oral
  • 31.
    Learning Discriminative VideoRepresentations Using Adversarial Perturbations, J. Wang et al. • Adversarial Perturbationによって貼られる部分空間のようなも の(理解が危うい)を使って,頑健な特徴を学習する手法の提案. • ちょっと数学的知識が足りなくて落ちました,南無. • 結構動作認識の精度が向上している?5%くらい. Oral
  • 32.
  • 33.
  • 34.
    W-TALC: Weakly-supervised Temporal ActivityLocalization and Classification • 動画にはなんのActionが含まれているかだけアノテーションさ れている条件でのTemporal Activity Localization • 同じActionラベルを持っている動画の中で,似ているSegment を上からk個とってくる ⇢ランクロス的アプローチ.
  • 35.
    Long-term Tracking inthe wild • ぶっちゃけ物体追跡って実用レベルではない. • 1分も追跡できたら良い方? • データセットとbaselineを提供. • https://oxuva.github.io/long-term-tracking-benchmark/ Poster
  • 36.
    Learning to Detectand Track Visible and Occluded Body Joints in a Virtual World • メモ代わりに写真撮影.内容は見れてないです. Poster
  • 37.
    Online Detection ofAction Start in Untrimmed, Streaming Videos Poster 発表者がいなかった?メモ代わりに撮影.
  • 38.
    Diagnosing Error inTemporal Action Detectors • Temporal Action Localizationで失敗している部分を分析した論 文ぽい.結構当たり前な気がする. • 著者に説明してもらったが,特段新しい知見が不明だった. • 逆にどういう書き方をした のか論文を読んでみたい. Poster
  • 39.
    Stacked Cross Attentionfor Image-Text Matching • Vision & Languageぽかったので,遠くから通り際に撮影. • 詳細はポスターみれてないですので不明. Poster
  • 40.
    Spatio-temporal Transformer Networkfor Video Restoration • LSTMの代わりにTransfomerを使った動画修復? • タイトル以上の情報は得られず,通り過ぎました(混雑過多) Poster
  • 41.
    BSN: Boundary SensitiveNetwork for Temporal Action Proposal Generation • Temporal Action Localizationの論文. • 動作区間の開始・終了を,動作の内容そのものとは別に学習し, 結果を統合することで 改善を図ったもの. Poster