CVPR2018 参加報告(速報版)初日

CVPR2018参加報告(速報版)
京大助教→OSX(研究職に就職しました!!)
橋本敦史

使用上の注意
• これは橋本のメモ資料です．いわば「チラシの裏」です．この資料を
見てなんじゃこりゃと思われたかたには大変申し訳ありません．
（参考）もっと素敵な資料がCVPR Challengeから出ています
• 本文はチラ裏ですが，以下はまんま「チラシ」です．
• 弊社ではインターン生を募集しております．東京から遠隔にお住まいの方で
も長期休みを利用してフレキシブルにインターンしていただけます．東京に
お住まいの方でも，週に数回など，授業・研究の合間に働きながらスキルを
身に着けていただけます．
詳しくはこちら(怪しいURLですが，弊社のスタートアップ感の迸りです)

さらにチラシ
• 関西CVPRML勉強会，および，関東CV勉強会でも発表します．
• 関西CVPRML勉強会→self supervised learningを斜め読みします．
• 静止画に対する手法と動画に対する手法を始め，CVPR2018でSelf-supervised,
Unsupervisedと書いてある奴はできるだけ網羅したい．
• ただし，時間の都合で端折るものはあるかも．
• 関東CV→検討中．ちゃんと理解できればアレをやろうというのはある．

まずは，会議の統計情報から．

豆知識: 投稿件数に
対するAcceptの割合
は決まっている．

豆知識:2年連続で
1300人増加

2019
2020
2021
8000
9000
10000
11000

豆知識:CVPR2014の参
加者より多い
豆知識:CVPR2012の参
加者くらい？

豆知識:CVPR的Test of
Time Award
豆知識:pre-deep時代の
RCNN的な位置づけの奴．

豆知識: Visual SLAMの人
豆知識: Faster R-CNNの人

番外編 (ポスター会場横)

Opening は以上．
• 今年はプレナリートークなし．
• 一件予定していたが，来られなくなった，とのこと．
• しょっぱなのopeningからして，開始が30分送れた
• Social Eventは7時から！→7:30からしか会場に入れない
• 食事はWorkshop Dayより豪華．
• 朝ごはんは，スモークサーモン→実質，食べ放題
• ゆで卵だけじゃないんだ！

初日一発目のセッション(Session 1-1B)
• Analyzing Humans in Images
• 座長いわく，GAN-centric session.
• 実際GANの話ばかり．

この言い回しよく見たけど，
業界として全探索しようとして
いるよね．
Finding Tiny Faces in the Wild With Generative
Adversarial Network, Yancheng Bai, et. al.
• 小さい顔（スポーツの観客席の顔全部とか）を検出したい．
• What has been done about it? -> Pyramidal Networkなどで対処
• 計算時間とGPUメモリがめっちゃ増えるのが辛い．
• Idea: 怪しいところはSuper-resolutionしちゃえ
• 手順
1. 従来手法で顔っぽいところを出す（screening)
2. GAN-baseのsuperresolutionをする
3. 顔かどうかを判定．(学習時はAdversarial Lossも計算)
• 提案手法はEasy(93.5%), Medium(92%), Hard(84%)がそれぞれ+1%
弱,+1.5%, +2%くらい精度向上．
この問題，のびしろが中々ないですね！
Oral

Learning Face Age Progression: A Pyramid
Architecture of GANs, Hongyu Yang et. al.
• CVPR2017でGANを使った年齢変更の方法が登場
• 年齢を変更する際に，別人になってしまうことがある．
• 精度の関係で同じくCVPR2017のPyramidal Networkを使う．
• GANのDの他に，Identity cueもDiscriminatorのlossとして加える．
• 以降，GANの近くにDとあったらDiscriminator (G: Generator)です．
• identity preservation lossのためのidentity判定部は普通のFCNぽいの．
• もちろんGANなので，普通のAdversarial Lossもある．
• Dataset: MORPH, CACD, FGNET．かなり自然．
発表者，「髪もちゃんと老ける」を強調しすぎでは？
Oral

PairedCycleGAN: Asymmetric Style Transfer for
Applying and Removing Makeup, Huiwen Chang et. al.
• スタイルの指定を一枚の画像だけでやりたい．
• スタイル毎，GANの学習データを用意するのは，化粧とか洋服のデザインに対
するStyle Transferにはきつい．
• 入力に「すっぴん画像x」+「化粧画像y」を入れる．
• xが yと同じドメインに変換されてほしい x’=f(x;y)
• Cycle GANにする．つまり，x’に「すっぴん画像y’」を入れるとx’がすっぴんに
戻る．
• 白地のTシャツにワンピースのデザインを合成する，などもできる．
Makeup Datasetというのがあるのですね．
Oral

GANerated Hands for Real-Time 3D Hand
Tracking From Monocular RGB, F. Mueller et. al
• 機材の不調か何かで，後回しになってしまい，聴講できず．
• RGB→Depth変換をGANでやって，既存の学習データいっぱい使えるよ
うにしよう！という話ぽい．
Spot light

Learning Pose Specific Representations by
Predicting Different Views, Georg Poier et. al.
• 目的: hand pose をunsupervisedで低次元空間にEmbedしたい．
• 異なる2つの視点からのDepth画像の特徴量の同一性を，互いに
Encoder/Decoderで変換できるようにする
• (view angleの情報はDecoderには与える?)
• 得られるEmbedded表現は，その手の姿勢に固有の特徴（観測方
向不変）になっているはず．
• 実際に，k-NNしてみると，結構似たものが検索できる．
• ただのAuto Encoderだと観測方向の違いに騙されて，こうは行かない．
Spot light

Weakly and Semi Supervised Human Body Part Parsing
via Pose-Guided Knowledge Transfer, H.S. Fang, et. al.
• 3Dでbody part labelを与えるのを，関節点を与えるだけで行う．
• keypoint supervision表現→part segmentationを実現したい
• 手順
1. keypoint similarityに基づいて教師ありデータ y から似たような画像を検索．
2. bone modelの形状の違いに基づいてy からのpart labelをaffine変換(?)して，正
解とする
• 評価: データがかなり増えた分，結果は結構良い．
• 混雑している街角などでも，個人ごとにbody part labelをきれいに推定できてる．
• コード: https://github.io/MVIG-SJTU/WSHP
Spot light

Person Transfer GAN to Bridge Domain Gap
for Person Re-Identification, L. Wei, et. al.
• Dataset: DukeMTMC, Market-1501
• 解こうとしている問題に対してTraining Dataはまぁ，足りない.
→Dataを水増ししたい．光源環境，背景，カメラパラメタの違いを
Augmentation.
• MSMT17: 15cameras, 180 hours, Faster RCNN for detection,
Annotation 126,411 boundingbox, 4,101 person?
• PTGAN: style (backgrounds, lighting and so on) transfer from domain
A to B.
世の中，GANで全てデータ不足は解決できるのだろうか…
Spot light

Cross-Modal Deep Variational Hand Pose
Estimation, Adrian Spurr et. al.
• RGBから得られる情報とDepthから得られる情報を，Enc-Decモ
デルで相互変換可能に学習する
• エンコードされた特徴 Z はCross-Modalな，つまりモダリティに依らず
共通の特徴になる．
• CrossしているAuto Encoder (AE)
• RGB→enc_RGB→ Z →dec_{RGB or Depth}→RGB or Depth
• Depth→enc_D→ Z →dec_{RGB or Depth}→RGB or Depth
• Variationalってあるから，ZはVAEみたいな正規分布かも．
あれ？GANは?Decoderにつくのかな…
Spot light

Disentangled Person Image Generation,
Liqian Ma et. al.
• Foreground / Background / Poseを入力して，人の画像を生成する．
• ちょっとdetail聞けなかったけど，結果はあんまりきれいに生成
されてない?
• GANの性能はガンガン上がっているので，それ使えば良いよね．
• Poseを指定するのはPosterでも2つあった．
• GAGAN→Face Alignmentをposeとして，顔を合成．
• Deformable GANs for Pose-Based Human Image Generation
Spot light

Super-FAN: Integrated Facial Landmark Localization and
Super-Resolution of Real-World Low Resolution Faces in
Arbitrary Poses With GANs, A. Bulat & G. Tzimiropoulos
• super-resolution と face alignmentは鶏と卵の関係．
• 従来: 顔に対する特別な手法は無く，単にGANでsuper resolutionしていた．
• Ground Truthでのface alignment結果と同じものが出てくるよう，
super-resolution用のGANで生成された顔に対し，face alignmentの推定誤
差を計算して学習時にLossとして利用．
→ Face Alignmentのconsistencyが取れるようになることで，
生成画像の質が向上．
• Dataset: Wider face dataset
結果，確かにかなり良くなっている印象，ただし真値が人間にも不明．
Spot light

Multistage Adversarial Losses for Pose-
Based Human Image Synthesis, C. Si, et. al.
• 用事があってここから(後回しになった最初の奴も)きけません
でした．
• 2つ前の発表とかなり近そう？

ここからポスターセッション
• Detect-and-Track: Efficient Pose Estimation in Videos
• Supervision-by-Registration: An Unsupervised Approach to Improve
the Precision of Facial Landmark Detectors
• 連続する2フレーム感のFacial LandmarkをLucas-Kanadeで追跡，正解とし
て利用することで，学習データ水増し．
• Diversity Regularized Spatiotemporal Attention for Video-Based
Person Re-Identification

• Style Aggregated Network for Facial Landmark Detection
• A Pose-Sensitive Embedding for Person ReIdentification With
Expanded Cross Neighborhood ReRanking
• A Hierarchical Generative Model for Eye Image Synthesis and Eye
Gaze Estimation
1. 視線方向(pose)を与えたら自動で眼の画像をCGとして生成する．
2. CGをGANで本物っぽくするが，poseが変わったらlossを大きくする．
• MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition
• 3D Convolutionで動作認識するのは，学習の収束がしにくく大変．
• 2D Convを挟んでやると，収束が早くなって学習しやすくなる．

• A Prior-Less Method for Multi-Face Tracking in Unconstrained Videos
• Priorという単語が好きな研究室の某氏に捧げようと思ったら，自分の
昔のネタに近かった．
• 顔のTrackletをだす．顔特徴+軌跡でTrackletをつなげる．クラスタリン
グでさらに頑張って最後までつなげる．
• Cross-Domain Self-Supervised Multi-Task Feature Learning Using
Synthetic Imagery
• CGデータに対して，Depth Map, 法線マップ，線画に変換したものを準
備．この3つのタスクを解けるようにEncoderを学習．
• Enc(CGデータ)とEnc(実画像)をDiscreminatorで識別→Adversarial Loss
• これにより，教師なしでなんらかの情報をもった特徴抽出Encoder完成．
• A Two-Step Disentanglement Method

• Decorrelated Batch Normalization
• 普通のBNは無相関化まではしないけど，それをすると出力が独立成分にな
るので，収束が早い，という話．
• Learning Steerable Filters for Rotation Equivariant
• Conv-Weightを回転させて沢山チャンネルを作ると回転不変にできる．
• MIRU2017で立命の先生がやってなかったっけ？あれは位置不変か？
• まぁ，ちょくちょく見かけるのだけれど，細かい区別誰か教えて．
• GAGAN: Geometry-Aware Generative Adversarial Networks
• さっきのSpotlightのところで紹介したやつ．
• Facial Landmarkを与えたら，それに応じた顔画像をGANで生成．
• 生成画像(2枚)をLandmark使って正面顔に投影し，一致具合も誤差とする．
• Human Semantic Parsing for Person Re-Identification
• body part label付きの学習データで，body partを考慮させる．

• Optical Flow Guided Feature: A Fast and Robust Motion Representation for
Video Action Recognition
• I: imageとして，dI/dx, dI/dy, dl/dtを3チャンネルとして入力するとうまくいく，と
いう話．ただし，数学的な根拠はない?
• Two-Stream I3Dに対して，-1%くらいの精度だが，10倍以上高速に動作(200fps)
• Structure Preserving Video Prediction
• 細い標識の柱などが消えないように，hypass-filterかけたstreamを足すと，ちょっ
とうまくいく．
• Efficient and Deep Person Re-Identification Using Multi-Level Similarity
• 最終層だけでなく，途中の層の出力の類似性も考慮すると精度上がる．
• Memory Based Online Learning of Deep Representations From Video Streams
• 動画の中で一度でも出てきた人を覚えておく. Memory領域はCPU上．何回も出て
きた人は徐々に特徴を圧縮していくぽい？

• Social GAN: Socially Acceptable Trajectories With Generative Adversarial
Networks
• 複数の人物の移動軌跡から，お互いに避ける，などの社会的インタラク
ションをGANで生成．
• 各trackletの特徴を全部まとめてpoolingする，といったようなネット構造．
• Exploring Disentangled Feature Representation Beyond Face
Identification
• AEのボトルネックを2つに分けて，一方は人物識別ができるように，他方
は全くできないように学習することで，人物識別に有効かどうかに従って
特徴を分離できる．
• Triplet-Center Loss for Multi-View 3D Object Retrieval
• Triplet lossを各クラスの中心を対象として計算．これもどこかで見たよう
な気がする…

• Normalized Cut Loss for Weakly-Supervised CNN Segmentation
• これ，めっちゃ面白い．LossとしてNormalized Cutの指標を使うことで，物
体領域マーカーベースのweak supervisionで美味いことsegmentationができ
る．問題によってはCRF以上の効果も期待できるのか？Yuri Boikovが共著．
• Towards Human-Machine Cooperation: Self-Supervised Sample Mining
for Object Detection
• コンテキスト情報に頼らないと識別できないようなサンプルを，検出矩形
を切り抜いて関係ない画像に貼り付けたときの精度低下から自動で検出す
る．なお，検出するところまでがself-supervisedでその後はannotationがい
るらしい…
• Deep Adversarial Subspace Clustering
• AEのボトルネック部分に対して，Affinity Matrixベースのクラスタリングを
行う．学習サンプルの線形和によって得た合成サンプルを入力し，写像さ
れた部分空間での特徴量に対してAdversarial Lossを取ることで，より良い
部分空間が得られる．ちょっと，なんで良くなるかまで理解しきれず．多
分，中途半端を許さないことで，より際どいサンプルも部分空間に落ちる
ようになる？？

• Duplex Generative Adversarial Network for Unsupervised Domain
Adaptation
• 写真なく，思い出せず．
• Person Re-Identification With Cascaded Pairwise Convolutions
• Person-pair(同一人物or他人)それぞれのAEのボトルネックを2つにわけて，
一方をpairで交換する．これを何回か繰り返すとうまくいくらしい．
• 人がいて議論していたので質問できず，理論追えず．
• Duplex Generative Adversarial Network for Unsupervised Domain
Adaptation
• AEのEncoder部分は共有し(写真の解像度たりなくて確認できず，嘘かも?)，
Decoder部分にconditionとしてdomainを指定することで，教師がない
DomainでもAEを回し，Domain Adaptationする．

初日2発目のセッション(Session 1-2C)
• Machine Learning for Computer Vision II
• 時差ボケ半端ない（大迫半端ない）

Learning to Find Good Correspondences, K.
M. Yi et. al.
• SLAMなどで，8-point algorithm
• outlierを除去するため，対応付けのweight matrixを出力するよう
なDeep Netを学習する． XwX^T がノイズ除去された特徴点集合
になるよう学習したい．
• Classification loss, iniliers/outliers, + どのinliersが推定に寄与したか
(?)
• Unordered dataに対するSolution
• ちょっとネットワーク構造がわからなかったが，点ごとに処理→途中
で点処理結果全部に対するpooling??
• 出力: Wの1列分(ある点からのマッチング尤度)
Oral

OATM: Occlusion Aware Template Matching by
Consensus Set Maximization, S. Korman et. al.
• Template Matching は高次元空間での演算．
• templateを1つのvectorとすると大変. 直積空間にすると計算が早
い．(落ちた．直積空間を作るのに時間はかからないのだろうか
…GPUを前提としてる?)
• ちょっと眠すぎる．
• Dataset: HPatches dataset
Oral

Deep Learning of Graph Matching, A. Zanfir et. al.
• Graph MatchingはNP完全!(だったはず)
• Deep feature matchingのgraph化
• Graph Matching: node間のaffinity matrix (NxN), edgeのaffinity mat.
(MxM)
• Ground Truthとの一致を表現するのに，最近傍のgrid点を使う，など．
• affinity mat.に対するSVDをネットワークで解く系．
• Zhow & De La Torre, Factorized graph matching, CVPR2012.
• Power Iterationで近似的に解く．
• Power Iterationは他の研究でも使われている方法ですね．
• Bi-stochastic Layer
• Dataset: DENSE Matching on SINTEL (similar appearance, video)
• 論文読んできれいに理解できたら，これを関東CVでやる？
Oral/Honored mention award

Unsupervised Discovery of Object Landmarks as
Structural Representations, Yuting Zhang et. al.
• 物体表面の特徴的な点（Object landmark)を教師なしで見つけたい！
• Object Landmarkは物体の姿勢などをminimumな表現で記述できる．
• Enc-Dec型AEを学習し，Heatmapを複数チャンネル算出．チャンネル数
=Landmark数
• 各Heatmapの山をisotropicな正規分布で表現．
→ Gaussの幅が小さくなるように学習を行う．
• Landmarkとしての頑健性(変形への耐性)を揺らぎに対する不変性で評価(Thewlis
et al,2017?)
→channel毎にOptical Flowによる変形後のものとの内積により評価．
• 色々なものに適用可能！
眠すぎて，OpticalFlow云々は嘘かも．
Oral

Lean Multiclass Crowdsourcing, G. Van Horn
et.al.
• Crowdsourcingのアノテーション精度向上．
• 基本は多数決，重みは平等で良いのか？→いつも正しい人の重みは大きく！
• その人が正しいかどうかの指標を，重みなしの多数決で正解を決め
た場合に対するconfusion matrix(CM)で見る．
• クラス数が多すぎるとCM大変(←聞き逃した?)→taxonomyを使って部
分問題やスーパークラス単位の問題としてCMをコンパクトに．
• Between worker problem
• 細かい部分，間違えてるかも．全体として，なんか，hubとauthority
みたいな話に聞こえた．
• 実際，この方法で結構アノテーションの精度が上がったとのこと．
• Dataset: iNaturalist
Oral

Partial Transfer Learning With Selective
Adversarial Networks, Zhangjie Cao et. al.
• https://github.com/thuml でもうすぐ使えるようになるらしい．
Spotlight

Self-Supervised Feature Learning by
Learning to Spot Artifacts, S. Jenni&P.Favalo
• 画像に欠損を与えてimpaintingさせることでself-supervised
learning
• 絶対に類似したやつ見たことあるのだがタイトル忘れて見つからない．
white-boxだったし，一昨年くらいだと思う．
• task should relate to semantics, and should avoid trivial learning
• SPOT ARTIFACTS → Missing object partsなど．
• 大事なのはnon-trivialなdamageを与えること．
• Use a Damage & Repair approach:
• RepairしたあとはDiscriminatorで判定をする．
Spotlight

LDMNet: Low Dimensional Manifold
Regularized Neural Networks, Wei Zhu et. al.
• 低次元に落とすようにすることでoverfittingを防ぐ．
• どれくらい低次元にするかを自動で決めてくれる(?)
• NIR-VIS Heterogeneous Face Recognitionテスト
• 提案手法は違うmodalityに対しても低次元に落とすことでmatchingを取
ることに成功している．
微細な情報を残すことは諦める，これも一つの手？
Spotlight

CondenseNet: An Efficient DenseNet Using
Learned Group Convolutions, G. Huang et.al.
• DenseNetをコンパクトにする→CondenseNet
• DenseNetのGroup Structureを学習中にflexibleに変更して，良い
表現を見つける…ぽい．

Deep Adversarial Metric Learning, Yueqi
Duan et. al.
• Triplet-lossの目的
1. クラス間距離を最大化
2. クラス内距離を最小化．
• Constrastive Loss, Triplet lossなど，どちらでも．
• Easy Negativeはtriplet lossの学習にとって，本当に不要．
• しかし，hard negativeを頑張って探すのは手間．
→ hard negativesになるpotentialがあるのでは？
• Easy NegativeをGANを使ってHard Negativeに変えれば，hard negative
pair探さなくて良くね？
• Style Transferをしてeasy negative pairをhard negativeに変更する！
• Dataset: CUB-200-2011, Cars196, Stanford Online Products

• Multi-View Consistency as Supervisory Signal for Learning Shape and
Pose Prediction
• ボクセルで表現された物体をある角度から見た画像から，別の角度からの
画像を生成させることで，物体の観測角度に対する不変性を得る．
• Free Supervision From Video Games
• ゲームの世界なら，コントローラーで操作したらoptical flowの正解(camera
motion)とか色んな情報が教師なしでとれるじゃん？
• Beyond the Pixel-Wise Loss for Topology-Aware Delineation
• Topology lossというものを提案．
• MoNet: Moments Embedding Network
• 知らなかったんだけど，bilinear CNNとかがFine-Grained Recognitionで強い．
しかし，1次元の特徴ベクトルに落とすときに2次モーメントからなるもの
になってしまい，表現が冗長(長さが二乗)
• うまくTensor Sketch (Matrix Sketchのテンソル版?）を計算して，losslessで表
現の冗長性を0にした．

• Active Fixation Control to Predict Saccade Sequences
• 一回滞留したところはsaliencyを低くして，みたいな処理を美味いことやっ
て，人間の視線のサッケードを自然に合成する手法ぽい．
• Disentangling Factors of Variation by Mixing Them
• これは豪快．2つのサンプルのAEの中間層出力(の一部)をランダムに入れ替
えて，最後の最後で全部もとに戻るようにすると，それぞれのベクトルの
要素が独立になっていく，という話．まぁ，そうかも知れないけど…豪快．
• Deformable GANs for Pose-Based Human Image Generation
• ボーンモデルを元に，指定した人物の画像を生成．
• GAGANとかと似てそう．
• Local and Global Optimization Techniques in GraphBased Clustering
• これも面白い．相澤研学生の伊神さんの研究．
• Spectral Clustering(SC)は近似し過ぎで精度悪いので，局所的には最適解に近
いものを出し得て，答えもばらつきやすいgreedyな手法を何度も適用して，
平均を取ると，SCよりずっと良い精度が出る，というもの．

CVPR2018 参加報告(速報版)初日

Recommended

Recommended

More Related Content

Similar to CVPR2018 参加報告(速報版)初日

Similar to CVPR2018 参加報告(速報版)初日 (20)

More from Atsushi Hashimoto

More from Atsushi Hashimoto (8)

Recently uploaded

Recently uploaded (8)

CVPR2018 参加報告(速報版)初日