Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Eccv2018 report day2

475 views

Published on

ECCV2018の参加速報(二日目)です.

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Eccv2018 report day2

  1. 1. ECCV2018参加速報 (2日目) 橋本敦史 京大美濃研⇢OMRON SINIC X Corp. (OSX) 2018.4より研究職に転職しました
  2. 2. 使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. • 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  3. 3. Oral Session 2A O-2A-01 Scaling Egocentric Vision: The E-Kitchens Dataset Dima Damen*, University of Bristol; Hazel Doughty, University of Bristol; Sanja Fidler, University of Toronto; Antonino Furnari, University of Catania; Evangelos Kazakos, University of Bristol; Giovanni Farinella, University of Catania, Italy; Davide Moltisanti, University of Bristol; Jonathan Munro, University of Bristol; Toby Perrett, University of Bristol; Will Price, University of Bristol; Michael Wray, University of Bristol O-2A-02 Unsupervised Person Re-identification by Deep Learning Tracklet Association Minxian Li*, Nanjing University and Science and Technology; Xiatian Zhu, Queen Mary University, London, UK; Shaogang Gong, Queen Mary University of London O-2A-03 Predicting Gaze in Egocentric Video by Learning Task- dependent Attention Transition Yifei Huang*, The University of Tokyo; Minjie Cai, Hunan University, The University of Tokyo; Zhenqiang Li, The University of Tokyo; Yoichi Sato,The University of Tokyo O-2A-04 Instance-level Human Parsing via Part Grouping Network Ke Gong*, SYSU; Xiaodan Liang, Carnegie Mellon University; Yicheng Li, Sun Yat-sen University; Yimin Chen, sensetime; Liang Lin, Sun Yat-sen University O-2A-05 Adversarial Geometry-Aware Human Motion Prediction Liangyan Gui*, Carnegie Mellon University; Yu-Xiong Wang, Carnegie Mellon University; Xiaodan Liang, Carnegie Mellon University; José M. F. Moura, Carnegie Mellon University
  4. 4. Scaling Egocentric Vision: The E-Kitchens Dataset, Dima Damen et al. • Epic Kitchen Dataset! • Potentially for studies of Human-Robot Interaction • 日常のリアルな行動を一人称視点カメラで記録 • 3日間,キッチンから出るまでの記録.朝・昼・晩. • 34kitchens は日常の調理行動記録としては最多の環境多様性. • うちのKUSKデータセット(触れられていない)を始め,カメラ設置型データセットは kitchen数=1ばかり. • 家での自然な行動記録という意味でも他と違うかも.ボトルを倒しかけるなどの失敗 も記録の中にあり • 物体矩形,行動カテゴリのアノテーション有り.自然言語による作業内容説明by 作業者本人,各国語もあり. • CVPR2019にてコンペ. • ゆるぼ:橋本と一緒にやる人. Oral
  5. 5. Unsupervised Person Re-identification by Deep Learning Tracklet Association, M. Li et al. • カメラ内Tracking結果を使って,カメラ間Tracking=Person Re-Identificationを教師なし学習. • カメラ内Trackingから,確実に本人を追跡しているTrackletを 抽出したい • 誤りが含まれないようなTrackletで学習⇢見えの多様性が獲得不可 • 見えの多様性を重視したTracklet分割⇢誤った正解データでの学習 • 上記の問題の解き方を聞き逃しました…orz • Lossか何かを工夫?段階的に学習? • 教師ありより大体20〜30ポイント程度精度が低いっぽい. Oral
  6. 6. Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition, Y. Huan et al. • 一人称カメラで,カメラのエゴモーションや物体検出結果など から,視線を推定する. • 個人的にはお気に入りの論文.現段階では専用のデータセットが必要 で,視線移動のモデル化などには個人差も大きいために個人適応が必 要かもしれないとはいえ,手軽. • 視線の動きを予測する時系列モデルと,物体検出結果などを上手く組 み合わせることによって,視線の遷移をCNNでモデル化. • 東大・佐藤研の研究.MIRUでもポスター発表あり. Oral
  7. 7. Instance-level Human Parsing via Part Grouping Network, Ke Gong et al. • Body parts segmentationをInstance毎に行う. • Instance-aware Edge Detectionの結果に手法が大きく依存してい る? • その境界を信頼してラベルの平滑化か特徴の統合かをしているっぽい. • 水平方向・垂直方向に何かを積算していた それが何か,ちょっとわからず. • 会場から質問 • 肩を組んだ場合とかで腕だけ遮蔽で 途切れる(同一人物が複数領域に分かれ る)場合,うまくいかないのでは? • 著者,それは今後の課題. • そもそもOpen Pose等に対する 優位性は? Oral
  8. 8. Adversarial Geometry-Aware Human Motion Prediction, L. Gui et al. • Bone Modelで表現された人間の行動の未来予測. • 従来手法は誤差に間接位置の正解とのEuclid距離を利用 ⇢ なめらかな人の動きを評価するなら,関節角度を利用するのが自然? そこでGeodesic距離(Bone modelの場合は,胴体から末端までの相対 的な角度の誤差の総計がそれにあたる?)を利用. • 予測された未来の系列に対する敵対的誤差に加えて,過去との 連結性についても敵対的誤差で自然らしさを評価. • 精度あがるよ! • 丁寧に作り込んだ印象.むしろ,従来手法が適当だったとも言えるか もしれない. Oral
  9. 9. Poster Session
  10. 10. Goal-Oriented Visual Question Generation via Intermediate Rewards • 完全にメモ.文字細かすぎて読めず.とりあえず Vision&Languageも勉強しなきゃ,という一心で撮影. Poster
  11. 11. Realtime Time Synchronized Event-based Stereo • これも,通り際に撮影.時間同期イベントというキーワードが 気になったけど,Stereoと言われると自分の興味から外れてい たかも.とりあえず, メモとしてここに残す. Poster
  12. 12. Image Manipulation with Perceptual Discriminators • DiscriminatorとしてImageNetで学習済みのモデルをそのまま 使っても,それなりに画像の変換ができるよ,という論文. • それ以上の発展がなさそう • ここのポスタースペースは (三階の混雑している通路から 急遽半分移動してきたホール だったので)余裕があり, 声をかけられたので話を聞いた • 意外とよく出来ている. Poster
  13. 13. Correcting Triplet selection Bias for Triplet loss • Triplet lossのhard negativeの選び方に関する論文っぽい. • 3階通路で話を聞けず,押し流された. Poster
  14. 14. Learning Visual Question Answering by Bootstrapping Hard Attention • VQA なので.記録として.ここは一階通路の狭いところかな. 例のごとく押し流されてます. Poster
  15. 15. Oral Session 2B O-2B-01 Weakly-supervised 3D Hand Pose Estimation from Monocular RGB Images Yujun Cai*, Nanyang Technological University; Liuhao Ge, NTU; Jianfei Cai, Nanyang Technological University; Junsong Yuan, State University of New York at Buffalo, USA O-2B-02 Audio-Visual Scene Analysis with Self-Supervised Multisensory Features Andrew Owens*, UC Berkeley; Alexei Efros, UC Berkeley O-2B-03 Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input David Harwath*, MIT CSAIL; Adria Recasens, Massachusetts Institute of Technology; Dídac Surís, Universitat Politecnica de Catalunya; Galen Chuang, MIT; Antonio Torralba, MIT; James Glass, MIT O-2B-04 DeepIM: Deep Iterative Matching for 6D Pose Estimation Yi Li*, Tsinghua University; Gu Wang, Tsinghua University; Xiangyang Ji, Tsinghua University; Yu Xiang, University of Michigan; Dieter Fox, University of Washington O-2B-05 Implicit 3D Orientation Learning for 6D Object Detection from RGB Images Martin Sundermeyer*, German Aerospace Center (DLR); Zoltan Marton, DLR; Maximilian Durner, DLR; Rudolph Triebel, German Aerospace Center (DLR)
  16. 16. Weakly-supervised 3D Hand Pose Estimation from Monocular RGB Images, Yujun Cai et al. • RGB画像からの手の三次元姿勢推定 • 従来: 合成データでの学習,どうしても実データだと精度が下がる. • Depth: 計測誤差の壁を超えられない. • 改善: • 合成データはpre-trainingで使用.DepthはMulti-taskとして使用. Oral
  17. 17. Audio-Visual Scene Analysis with Self- Supervised Multisensory Features, A. Owen et al. • 映像と音声のマッチングをときたい. • 話者(音源)が複数いる場合に音源毎の音声を取り出すなど. • Self-supervised Learning • 関係ない動画の音声を取ってくるのは簡単過ぎる.欲しいのは動きの 同期性に起因した共通性の同定. • 同一の動画の音声を少しずらしてNegative サンプルを作り,Real- Fake学習をするとうまくいく. Oral
  18. 18. Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input, D. Harwath et al. • 人間のWord Segmentの獲得⇢赤ちゃんはSpaceで区切られた Asciiコードを扱っているわけではない. • 絵本の読み聞かせからの学習 • そういうデータセットを利用 (名前をメモしてなかった) • 画像コンテンツと,それの 説明文を読み上げた音声データ • 時空間ボリュームで共起性に 基づくAttentionのようなものを 計算(右図) Oral
  19. 19. 著者サーベイ
  20. 20. DeepIM: Deep Iterative Matching for 6D Pose Estimation, Yi Li et al. • 物体の3次元姿勢推定 • なぜiterationが必要なのかなどがよくわからなかった. • CADデータをどう回転させたら観測に合うかを出力するCNNモデルを構築. • 前の結果に合わせてCADモデルを回転,再度,観測に合わせるための習性角 度をCNNで出力⇢反復実行 • 一発で出すわけでも無いが,同じモデルを使っているっぽい? • 2 stageモデルなら,まだわかる. • 会場質疑: local minimaに落ちているはずだが,初期値を変えたとき の安定性は?⇢著者,10回くらいの初期値で大体おなじ? (ちょっと聞き取れず.というか著者はちゃんと質問を理解してたか 不明). Oral
  21. 21. Implicit 3D Orientation Learning for 6D Object Detection from RGB Images, M. Sundermeyer et al. • Enc-Decでbottle-neckをノード数6にして,そこで6D Poseを 推定という力技な手法. • 入出力はCADベースのCGデータ. • 入力に様々なノイズを加えることでリアルな画像でも動くようにする • 出力は同じscaleで姿勢が違うCADベースのCGデータ. • 最後はICPで位置調整している? • 事前に二次元の正方形の画像平面上の2D Rotationで予備実験 • 2次元まで圧縮.Cosとsinに相当するパラメタが得られた. • 実験では3Dでチェック.デモで一つ,上手く行ってない物体が あったのは残念. Oral
  22. 22. Oral 2C O-2C- 01 Direct Sparse Odometry With Rolling Shutter David Schubert*, Technical University of Munich; Vladyslav Usenko, TU Munich; Nikolaus Demmel, TUM; Joerg Stueckler, Technical University of Munich; Daniel Cremers, TUM O-2C- 02 3D Motion Sensing from 4D Light Field Gradients Sizhuo Ma*, University of Wisconsin-Madison; Brandon Smith, University of Wisconsin- Madison; Mohit Gupta, University of Wisconsin-Madison, USA O-2C- 03 A Style-aware Content Loss for Real-time HD Style Transfer Artsiom Sanakoyeu*, Heidelberg University; Dmytro Kotovenko, Heidelberg University; Bjorn Ommer, Heidelberg University O-2C- 04 Scale-Awareness of Light Field Camera based Visual Odometry Niclas Zeller*, Karlsruhe University of Applied Sciences; Franz Quint, Karlsruhe University of Applied Sciences; Uwe Stilla, Technische Universitaet Muenchen O-2C- 05 Burst Image Deblurring Using Permutation Invariant Convolutional Neural Networks Miika Aittala*, MIT; Fredo Durand, MIT
  23. 23. Direct Sparse Odometry With Rolling Shutter David Schubert et al. • スマホのカメラのようなRolling Shutter型のカメラでStructure from Motion! • 移動しながらだと画像が歪むので従来の自己位置推定(Global Shutterを仮定)が使えない. • ちょっと手法の詳細はマニアック過ぎてスキップ…. • 結果,ゆっくり動いている分にはGlobal Shutterを仮定するよ り精度向上.早く動く場合も向上はするが,blurなども激しく, あまりうまくいかない場合がある. Oral
  24. 24. 3D Motion Sensing from 4D Light Field Gradients Sizhuo Ma et al. • Scene Flow(Optical Flowの3D版)をLight Field Cameraで撮ろ う. • 観測点からカメラに向かう光を並行移動として記述 • エピポーラ幾何っぽい形になる. • 方程式がUnder Constraintになるので,単独のレンズだと解けない. • 他のレンズからも拘束条件を得てSfMっぽい計算(?) • 非常に微細な動きであれば,従来手法より高い精度で計測可能 • ただRGB信号ベースなのでTexture Richじゃないと無理. Oral
  25. 25. A Style-aware Content Loss for Real-time HD Style Transfer Artsiom Sanakoyeu et al. • Style Transferの``Style’’を決める際のデータを単独の画像では なく,同一のStyleであろうとされる複数の画像の集合により定 義. • 同一Styleの画像グループへの所属に関して,adversarial trainingをする. • 芸術系の研究家の言葉を引用してStyleとは,を語った割に,カ ンディンスキーとかピカソとかのStyleを真似ることができたと 言われても,ベースとなる実写画像が,そもそもカンディンス キーやピカソが描こうとしたものとずれている違和感w • モネとかゴッホとかはいいんですけどね… Oral
  26. 26. Scale-Awareness of Light Field Camera based Visual Odometry, Niclas Zeller et al. • この発表,ちょっと内職してしまって聞けず… Oral
  27. 27. Burst Image Deblurring Using Permutation Invariant Convolutional Neural Networks M. Aittala et al. • 手ブレを含むビデオのdeblurをCNNでやる. • 従来手法はLSTMを使う. • データが時間順に並んでいる必要があるのは直感に反する. • 補正結果は入力画像系列の順序と無関係. • LSTM使っちゃうと順序依存になっちゃう. • 実は画像毎のEncoderのPooling部分を時系列画像集合で共有してしま う(x,yにt軸も含めた3次元でpoolingする)と上手く行く. • Max poolingで効果を確認. • メモ: この手法適用しようとするとImage Registration不可避な のだけど,それを同時に解いていないのは段階的に問題を解い ているからなんだろうな. Oral
  28. 28. Poster Session
  29. 29. Imagine This! Scripts to Compositions to Videos • 台本からビデオ生成.しかし,残念ながらアニメ特化だった. • ☓動画をGANで生成 • ○類似シーン検索+継ぎ合わせる Poster
  30. 30. Escaping from Collapsing Modes in a Constrained Space • 入力の多様性と出力の多様性の差をloss関数として追加. • 肝心のLoss関数の 中身はポスターに無い • まぁ,上手く行くだろう と思う. Poster
  31. 31. Retrospective Encoders for Video Summarization • ゆっくり通りすがったが,理解していない… Poster
  32. 32. Real-time ‘Actor-Critic’ Tracking • 追跡に強化学習手法の一つであるActor-Criticを利用. • どっちに移動するかをActionとして定義. Poster
  33. 33. SDC-Net: Video Prediction Using Spatially- Displaced Convolution • 先にOptical FlowをFlownetなどで計算しておいて,映像のい ちズレに応じて入力をdisplaceするっぽい. Poster
  34. 34. Proximal Dehaze-Net: A prior Learning-Based Deep Network for Singla Image Dehazing • DehazingをCNNの学習ベースで解いた手法. Poster
  35. 35. Robust Anchor Embedding for Unsupervised Video Person Re-Identification in the wild • 気になったので通りすがりに撮影.まだ手法の詳細は見ていな い. Poster
  36. 36. お詫び • 今回,ポスターセッションは十分に見れていません.申し訳ない…. • いちおう,ほぼ全部のポスターの前は通っています (一部通路はそもそも人が多すぎて入れない) • ディスカッションしたり,というのも,かなり難しい状況です. • 人が待機できるスペースがないので,聞きたいポスターがあっても,自分が通り過ぎ るタイミングでそこを離れる人がいて,かつ,他の人がそのスペースを埋めない,と いう条件が揃わないと大半のポスターが聞けません. • 橋本は気が弱いので,他の人を押しのけてポスター前に陣取ったりできてい ません…. • あと,単純にCVPRほどポスターの数もないので個人的に物足りな い感あり ⇢ CVPRのボリューム感が基準になったら末期かも.

×