SlideShare a Scribd company logo
1 of 51
CVPR2018参加報告(速報版)
京大助教→OSX(研究職に就職しました!!)
橋本敦史
使用上の注意
• これは橋本のメモ資料です.いわば「チラシの裏」です.この資料を
見てなんじゃこりゃと思われたかたには大変申し訳ありません.
(参考)もっと素敵な資料がCVPR Challengeから出ています
• 本文はチラ裏ですが,以下はまんま「チラシ」です.
• 弊社ではインターン生を募集しております.東京から遠隔にお住まいの方で
も長期休みを利用してフレキシブルにインターンしていただけます.東京に
お住まいの方でも,週に数回など,授業・研究の合間に働きながらスキルを
身に着けていただけます.
詳しくはこちら(怪しいURLですが,弊社のスタートアップ感の迸りです)
さらにチラシ
• 関西CVPRML勉強会,および,関東CV勉強会でも発表します.
• 関西CVPRML勉強会→self supervised learningを斜め読みします.
• 静止画に対する手法と動画に対する手法を始め,CVPR2018でSelf-supervised,
Unsupervisedと書いてある奴はできるだけ網羅したい.
• ただし,時間の都合で端折るものはあるかも.
• 関東CV→検討中.ちゃんと理解できればアレをやろうというのはある.
まずは,会議の統計情報から.
豆知識: 投稿件数に
対するAcceptの割合
は決まっている.
豆知識:2年連続で
1300人増加
2019
2020
2021
8000
9000
10000
11000
豆知識:CVPR2014の参
加者より多い
豆知識:CVPR2012の参
加者くらい?
豆知識:CVPR的Test of
Time Award
豆知識:pre-deep時代の
RCNN的な位置づけの奴.
豆知識: Visual SLAMの人
豆知識: Faster R-CNNの人
番外編 (ポスター会場横)
番外編 (ポスター会場横)
Opening は以上.
• 今年はプレナリートークなし.
• 一件予定していたが,来られなくなった,とのこと.
• しょっぱなのopeningからして,開始が30分送れた
• Social Eventは7時から!→7:30からしか会場に入れない
• 食事はWorkshop Dayより豪華.
• 朝ごはんは,スモークサーモン→実質,食べ放題
• ゆで卵だけじゃないんだ!
初日一発目のセッション(Session 1-1B)
• Analyzing Humans in Images
• 座長いわく,GAN-centric session.
• 実際GANの話ばかり.
この言い回しよく見たけど,
業界として全探索しようとして
いるよね.
Finding Tiny Faces in the Wild With Generative
Adversarial Network, Yancheng Bai, et. al.
• 小さい顔(スポーツの観客席の顔全部とか)を検出したい.
• What has been done about it? -> Pyramidal Networkなどで対処
• 計算時間とGPUメモリがめっちゃ増えるのが辛い.
• Idea: 怪しいところはSuper-resolutionしちゃえ
• 手順
1. 従来手法で顔っぽいところを出す(screening)
2. GAN-baseのsuperresolutionをする
3. 顔かどうかを判定.(学習時はAdversarial Lossも計算)
• 提案手法はEasy(93.5%), Medium(92%), Hard(84%)がそれぞれ+1%
弱,+1.5%, +2%くらい精度向上.
この問題,のびしろが中々ないですね!
Oral
Learning Face Age Progression: A Pyramid
Architecture of GANs, Hongyu Yang et. al.
• CVPR2017でGANを使った年齢変更の方法が登場
• 年齢を変更する際に,別人になってしまうことがある.
• 精度の関係で同じくCVPR2017のPyramidal Networkを使う.
• GANのDの他に,Identity cueもDiscriminatorのlossとして加える.
• 以降,GANの近くにDとあったらDiscriminator (G: Generator)です.
• identity preservation lossのためのidentity判定部は普通のFCNぽいの.
• もちろんGANなので,普通のAdversarial Lossもある.
• Dataset: MORPH, CACD, FGNET.かなり自然.
発表者,「髪もちゃんと老ける」を強調しすぎでは?
Oral
PairedCycleGAN: Asymmetric Style Transfer for
Applying and Removing Makeup, Huiwen Chang et. al.
• スタイルの指定を一枚の画像だけでやりたい.
• スタイル毎,GANの学習データを用意するのは,化粧とか洋服のデザインに対
するStyle Transferにはきつい.
• 入力に「すっぴん画像x」+「化粧画像y」を入れる.
• xが yと同じドメインに変換されてほしい x’=f(x;y)
• Cycle GANにする.つまり,x’に「すっぴん画像y’」を入れるとx’がすっぴんに
戻る.
• 白地のTシャツにワンピースのデザインを合成する,などもできる.
Makeup Datasetというのがあるのですね.
Oral
GANerated Hands for Real-Time 3D Hand
Tracking From Monocular RGB, F. Mueller et. al
• 機材の不調か何かで,後回しになってしまい,聴講できず.
• RGB→Depth変換をGANでやって,既存の学習データいっぱい使えるよ
うにしよう!という話ぽい.
Spot light
Learning Pose Specific Representations by
Predicting Different Views, Georg Poier et. al.
• 目的: hand pose をunsupervisedで低次元空間にEmbedしたい.
• 異なる2つの視点からのDepth画像の特徴量の同一性を,互いに
Encoder/Decoderで変換できるようにする
• (view angleの情報はDecoderには与える?)
• 得られるEmbedded表現は,その手の姿勢に固有の特徴(観測方
向不変)になっているはず.
• 実際に,k-NNしてみると,結構似たものが検索できる.
• ただのAuto Encoderだと観測方向の違いに騙されて,こうは行かない.
Spot light
Weakly and Semi Supervised Human Body Part Parsing
via Pose-Guided Knowledge Transfer, H.S. Fang, et. al.
• 3Dでbody part labelを与えるのを,関節点を与えるだけで行う.
• keypoint supervision表現→part segmentationを実現したい
• 手順
1. keypoint similarityに基づいて教師ありデータ y から似たような画像を検索.
2. bone modelの形状の違いに基づいてy からのpart labelをaffine変換(?)して,正
解とする
• 評価: データがかなり増えた分,結果は結構良い.
• 混雑している街角などでも,個人ごとにbody part labelをきれいに推定できてる.
• コード: https://github.io/MVIG-SJTU/WSHP
Spot light
Person Transfer GAN to Bridge Domain Gap
for Person Re-Identification, L. Wei, et. al.
• Dataset: DukeMTMC, Market-1501
• 解こうとしている問題に対してTraining Dataはまぁ,足りない.
→Dataを水増ししたい.光源環境,背景,カメラパラメタの違いを
Augmentation.
• MSMT17: 15cameras, 180 hours, Faster RCNN for detection,
Annotation 126,411 boundingbox, 4,101 person?
• PTGAN: style (backgrounds, lighting and so on) transfer from domain
A to B.
世の中,GANで全てデータ不足は解決できるのだろうか…
Spot light
Cross-Modal Deep Variational Hand Pose
Estimation, Adrian Spurr et. al.
• RGBから得られる情報とDepthから得られる情報を,Enc-Decモ
デルで相互変換可能に学習する
• エンコードされた特徴 Z はCross-Modalな,つまりモダリティに依らず
共通の特徴になる.
• CrossしているAuto Encoder (AE)
• RGB→enc_RGB→ Z →dec_{RGB or Depth}→RGB or Depth
• Depth→enc_D→ Z →dec_{RGB or Depth}→RGB or Depth
• Variationalってあるから,ZはVAEみたいな正規分布かも.
あれ?GANは?Decoderにつくのかな…
Spot light
Disentangled Person Image Generation,
Liqian Ma et. al.
• Foreground / Background / Poseを入力して,人の画像を生成する.
• ちょっとdetail聞けなかったけど,結果はあんまりきれいに生成
されてない?
• GANの性能はガンガン上がっているので,それ使えば良いよね.
• Poseを指定するのはPosterでも2つあった.
• GAGAN→Face Alignmentをposeとして,顔を合成.
• Deformable GANs for Pose-Based Human Image Generation
Spot light
Super-FAN: Integrated Facial Landmark Localization and
Super-Resolution of Real-World Low Resolution Faces in
Arbitrary Poses With GANs, A. Bulat & G. Tzimiropoulos
• super-resolution と face alignmentは鶏と卵の関係.
• 従来: 顔に対する特別な手法は無く,単にGANでsuper resolutionしていた.
• Ground Truthでのface alignment結果と同じものが出てくるよう,
super-resolution用のGANで生成された顔に対し,face alignmentの推定誤
差を計算して学習時にLossとして利用.
→ Face Alignmentのconsistencyが取れるようになることで,
生成画像の質が向上.
• Dataset: Wider face dataset
結果,確かにかなり良くなっている印象,ただし真値が人間にも不明.
Spot light
Multistage Adversarial Losses for Pose-
Based Human Image Synthesis, C. Si, et. al.
• 用事があってここから(後回しになった最初の奴も)きけません
でした.
• 2つ前の発表とかなり近そう?
ここからポスターセッション
• Detect-and-Track: Efficient Pose Estimation in Videos
• Supervision-by-Registration: An Unsupervised Approach to Improve
the Precision of Facial Landmark Detectors
• 連続する2フレーム感のFacial LandmarkをLucas-Kanadeで追跡,正解とし
て利用することで,学習データ水増し.
• Diversity Regularized Spatiotemporal Attention for Video-Based
Person Re-Identification
• Style Aggregated Network for Facial Landmark Detection
• A Pose-Sensitive Embedding for Person ReIdentification With
Expanded Cross Neighborhood ReRanking
• A Hierarchical Generative Model for Eye Image Synthesis and Eye
Gaze Estimation
1. 視線方向(pose)を与えたら自動で眼の画像をCGとして生成する.
2. CGをGANで本物っぽくするが,poseが変わったらlossを大きくする.
• MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition
• 3D Convolutionで動作認識するのは,学習の収束がしにくく大変.
• 2D Convを挟んでやると,収束が早くなって学習しやすくなる.
• A Prior-Less Method for Multi-Face Tracking in Unconstrained Videos
• Priorという単語が好きな研究室の某氏に捧げようと思ったら,自分の
昔のネタに近かった.
• 顔のTrackletをだす.顔特徴+軌跡でTrackletをつなげる.クラスタリン
グでさらに頑張って最後までつなげる.
• Cross-Domain Self-Supervised Multi-Task Feature Learning Using
Synthetic Imagery
• CGデータに対して,Depth Map, 法線マップ,線画に変換したものを準
備.この3つのタスクを解けるようにEncoderを学習.
• Enc(CGデータ)とEnc(実画像)をDiscreminatorで識別→Adversarial Loss
• これにより,教師なしでなんらかの情報をもった特徴抽出Encoder完成.
• A Two-Step Disentanglement Method
• Decorrelated Batch Normalization
• 普通のBNは無相関化まではしないけど,それをすると出力が独立成分にな
るので,収束が早い,という話.
• Learning Steerable Filters for Rotation Equivariant
• Conv-Weightを回転させて沢山チャンネルを作ると回転不変にできる.
• MIRU2017で立命の先生がやってなかったっけ?あれは位置不変か?
• まぁ,ちょくちょく見かけるのだけれど,細かい区別誰か教えて.
• GAGAN: Geometry-Aware Generative Adversarial Networks
• さっきのSpotlightのところで紹介したやつ.
• Facial Landmarkを与えたら,それに応じた顔画像をGANで生成.
• 生成画像(2枚)をLandmark使って正面顔に投影し,一致具合も誤差とする.
• Human Semantic Parsing for Person Re-Identification
• body part label付きの学習データで,body partを考慮させる.
昼休み!
昼休み! (Russia-Egypt)
• Optical Flow Guided Feature: A Fast and Robust Motion Representation for
Video Action Recognition
• I: imageとして,dI/dx, dI/dy, dl/dtを3チャンネルとして入力するとうまくいく,と
いう話.ただし,数学的な根拠はない?
• Two-Stream I3Dに対して,-1%くらいの精度だが,10倍以上高速に動作(200fps)
• Structure Preserving Video Prediction
• 細い標識の柱などが消えないように,hypass-filterかけたstreamを足すと,ちょっ
とうまくいく.
• Efficient and Deep Person Re-Identification Using Multi-Level Similarity
• 最終層だけでなく,途中の層の出力の類似性も考慮すると精度上がる.
• Memory Based Online Learning of Deep Representations From Video Streams
• 動画の中で一度でも出てきた人を覚えておく. Memory領域はCPU上.何回も出て
きた人は徐々に特徴を圧縮していくぽい?
• Social GAN: Socially Acceptable Trajectories With Generative Adversarial
Networks
• 複数の人物の移動軌跡から,お互いに避ける,などの社会的インタラク
ションをGANで生成.
• 各trackletの特徴を全部まとめてpoolingする,といったようなネット構造.
• Exploring Disentangled Feature Representation Beyond Face
Identification
• AEのボトルネックを2つに分けて,一方は人物識別ができるように,他方
は全くできないように学習することで,人物識別に有効かどうかに従って
特徴を分離できる.
• Triplet-Center Loss for Multi-View 3D Object Retrieval
• Triplet lossを各クラスの中心を対象として計算.これもどこかで見たよう
な気がする…
• Normalized Cut Loss for Weakly-Supervised CNN Segmentation
• これ,めっちゃ面白い.LossとしてNormalized Cutの指標を使うことで,物
体領域マーカーベースのweak supervisionで美味いことsegmentationができ
る.問題によってはCRF以上の効果も期待できるのか?Yuri Boikovが共著.
• Towards Human-Machine Cooperation: Self-Supervised Sample Mining
for Object Detection
• コンテキスト情報に頼らないと識別できないようなサンプルを,検出矩形
を切り抜いて関係ない画像に貼り付けたときの精度低下から自動で検出す
る.なお,検出するところまでがself-supervisedでその後はannotationがい
るらしい…
• Deep Adversarial Subspace Clustering
• AEのボトルネック部分に対して,Affinity Matrixベースのクラスタリングを
行う.学習サンプルの線形和によって得た合成サンプルを入力し,写像さ
れた部分空間での特徴量に対してAdversarial Lossを取ることで,より良い
部分空間が得られる.ちょっと,なんで良くなるかまで理解しきれず.多
分,中途半端を許さないことで,より際どいサンプルも部分空間に落ちる
ようになる??
• Duplex Generative Adversarial Network for Unsupervised Domain
Adaptation
• 写真なく,思い出せず.
• Person Re-Identification With Cascaded Pairwise Convolutions
• Person-pair(同一人物or他人)それぞれのAEのボトルネックを2つにわけて,
一方をpairで交換する.これを何回か繰り返すとうまくいくらしい.
• 人がいて議論していたので質問できず,理論追えず.
• Duplex Generative Adversarial Network for Unsupervised Domain
Adaptation
• AEのEncoder部分は共有し(写真の解像度たりなくて確認できず,嘘かも?),
Decoder部分にconditionとしてdomainを指定することで,教師がない
DomainでもAEを回し,Domain Adaptationする.
初日2発目のセッション(Session 1-2C)
• Machine Learning for Computer Vision II
• 時差ボケ半端ない(大迫半端ない)
Learning to Find Good Correspondences, K.
M. Yi et. al.
• SLAMなどで,8-point algorithm
• outlierを除去するため,対応付けのweight matrixを出力するよう
なDeep Netを学習する. XwX^T がノイズ除去された特徴点集合
になるよう学習したい.
• Classification loss, iniliers/outliers, + どのinliersが推定に寄与したか
(?)
• Unordered dataに対するSolution
• ちょっとネットワーク構造がわからなかったが,点ごとに処理→途中
で点処理結果全部に対するpooling??
• 出力: Wの1列分(ある点からのマッチング尤度)
Oral
OATM: Occlusion Aware Template Matching by
Consensus Set Maximization, S. Korman et. al.
• Template Matching は高次元空間での演算.
• templateを1つのvectorとすると大変. 直積空間にすると計算が早
い.(落ちた.直積空間を作るのに時間はかからないのだろうか
…GPUを前提としてる?)
• ちょっと眠すぎる.
• Dataset: HPatches dataset
Oral
Deep Learning of Graph Matching, A. Zanfir et. al.
• Graph MatchingはNP完全!(だったはず)
• Deep feature matchingのgraph化
• Graph Matching: node間のaffinity matrix (NxN), edgeのaffinity mat.
(MxM)
• Ground Truthとの一致を表現するのに,最近傍のgrid点を使う,など.
• affinity mat.に対するSVDをネットワークで解く系.
• Zhow & De La Torre, Factorized graph matching, CVPR2012.
• Power Iterationで近似的に解く.
• Power Iterationは他の研究でも使われている方法ですね.
• Bi-stochastic Layer
• Dataset: DENSE Matching on SINTEL (similar appearance, video)
• 論文読んできれいに理解できたら,これを関東CVでやる?
Oral/Honored mention award
Unsupervised Discovery of Object Landmarks as
Structural Representations, Yuting Zhang et. al.
• 物体表面の特徴的な点(Object landmark)を教師なしで見つけたい!
• Object Landmarkは 物体の姿勢などをminimumな表現で記述できる.
• Enc-Dec型AEを学習し,Heatmapを複数チャンネル算出.チャンネル数
=Landmark数
• 各Heatmapの山をisotropicな正規分布で表現.
→ Gaussの幅が小さくなるように学習を行う.
• Landmarkとしての頑健性(変形への耐性)を揺らぎに対する不変性で評価(Thewlis
et al,2017?)
→channel毎にOptical Flowによる変形後のものとの内積により評価.
• 色々なものに適用可能!
眠すぎて,OpticalFlow云々は嘘かも.
Oral
Lean Multiclass Crowdsourcing, G. Van Horn
et.al.
• Crowdsourcingのアノテーション精度向上.
• 基本は多数決,重みは平等で良いのか?→いつも正しい人の重みは大きく!
• その人が正しいかどうかの指標を,重みなしの多数決で正解を決め
た場合に対するconfusion matrix(CM)で見る.
• クラス数が多すぎるとCM大変(←聞き逃した?)→taxonomyを使って部
分問題やスーパークラス単位の問題としてCMをコンパクトに.
• Between worker problem
• 細かい部分,間違えてるかも.全体として,なんか,hubとauthority
みたいな話に聞こえた.
• 実際,この方法で結構アノテーションの精度が上がったとのこと.
• Dataset: iNaturalist
Oral
Partial Transfer Learning With Selective
Adversarial Networks, Zhangjie Cao et. al.
• https://github.com/thuml でもうすぐ使えるようになるらしい.
Spotlight
Self-Supervised Feature Learning by
Learning to Spot Artifacts, S. Jenni&P.Favalo
• 画像に欠損を与えてimpaintingさせることでself-supervised
learning
• 絶対に類似したやつ見たことあるのだがタイトル忘れて見つからない.
white-boxだったし,一昨年くらいだと思う.
• task should relate to semantics, and should avoid trivial learning
• SPOT ARTIFACTS → Missing object partsなど.
• 大事なのはnon-trivialなdamageを与えること.
• Use a Damage & Repair approach:
• RepairしたあとはDiscriminatorで判定をする.
Spotlight
LDMNet: Low Dimensional Manifold
Regularized Neural Networks, Wei Zhu et. al.
• 低次元に落とすようにすることでoverfittingを防ぐ.
• どれくらい低次元にするかを自動で決めてくれる(?)
• NIR-VIS Heterogeneous Face Recognitionテスト
• 提案手法は違うmodalityに対しても低次元に落とすことでmatchingを取
ることに成功している.
微細な情報を残すことは諦める,これも一つの手?
Spotlight
CondenseNet: An Efficient DenseNet Using
Learned Group Convolutions, G. Huang et.al.
• DenseNetをコンパクトにする→CondenseNet
• DenseNetのGroup Structureを学習中にflexibleに変更して,良い
表現を見つける…ぽい.
Deep Adversarial Metric Learning, Yueqi
Duan et. al.
• Triplet-lossの目的
1. クラス間距離を最大化
2. クラス内距離を最小化.
• Constrastive Loss, Triplet lossなど,どちらでも.
• Easy Negativeはtriplet lossの学習にとって,本当に不要.
• しかし,hard negativeを頑張って探すのは手間.
→ hard negativesになるpotentialがあるのでは?
• Easy NegativeをGANを使ってHard Negativeに変えれば,hard negative
pair探さなくて良くね?
• Style Transferをしてeasy negative pairをhard negativeに変更する!
• Dataset: CUB-200-2011, Cars196, Stanford Online Products
• Multi-View Consistency as Supervisory Signal for Learning Shape and
Pose Prediction
• ボクセルで表現された物体をある角度から見た画像から,別の角度からの
画像を生成させることで,物体の観測角度に対する不変性を得る.
• Free Supervision From Video Games
• ゲームの世界なら,コントローラーで操作したらoptical flowの正解(camera
motion)とか色んな情報が教師なしでとれるじゃん?
• Beyond the Pixel-Wise Loss for Topology-Aware Delineation
• Topology lossというものを提案.
• MoNet: Moments Embedding Network
• 知らなかったんだけど,bilinear CNNとかがFine-Grained Recognitionで強い.
しかし,1次元の特徴ベクトルに落とすときに2次モーメントからなるもの
になってしまい,表現が冗長(長さが二乗)
• うまくTensor Sketch (Matrix Sketchのテンソル版?)を計算して,losslessで表
現の冗長性を0にした.
• Active Fixation Control to Predict Saccade Sequences
• 一回滞留したところはsaliencyを低くして,みたいな処理を美味いことやっ
て,人間の視線のサッケードを自然に合成する手法ぽい.
• Disentangling Factors of Variation by Mixing Them
• これは豪快.2つのサンプルのAEの中間層出力(の一部)をランダムに入れ替
えて,最後の最後で全部もとに戻るようにすると,それぞれのベクトルの
要素が独立になっていく,という話.まぁ,そうかも知れないけど…豪快.
• Deformable GANs for Pose-Based Human Image Generation
• ボーンモデルを元に,指定した人物の画像を生成.
• GAGANとかと似てそう.
• Local and Global Optimization Techniques in GraphBased Clustering
• これも面白い.相澤研学生の伊神さんの研究.
• Spectral Clustering(SC)は近似し過ぎで精度悪いので,局所的には最適解に近
いものを出し得て,答えもばらつきやすいgreedyな手法を何度も適用して,
平均を取ると,SCよりずっと良い精度が出る,というもの.

More Related Content

Similar to CVPR2018 参加報告(速報版)初日

[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]MakotoItoh
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningKohei Nishimura
 
PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?Hokuto Kagaya
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational AutoencodersDeep Learning JP
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~ProjectAsura
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告Hiroyuki TOKUNAGA
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースHajime Yanagawa
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"Hiroharu Kato
 
Redmineをつかったスクラム開発のはじめの一歩
Redmineをつかったスクラム開発のはじめの一歩Redmineをつかったスクラム開発のはじめの一歩
Redmineをつかったスクラム開発のはじめの一歩kiita312
 
関東CV勉強会ECCV2014 (Blind Deblurring using Internal Patch Recurrence)
関東CV勉強会ECCV2014 (Blind Deblurring using Internal Patch Recurrence)関東CV勉強会ECCV2014 (Blind Deblurring using Internal Patch Recurrence)
関東CV勉強会ECCV2014 (Blind Deblurring using Internal Patch Recurrence)tackson5
 

Similar to CVPR2018 参加報告(速報版)初日 (20)

Eccv2018 report day2
Eccv2018 report day2Eccv2018 report day2
Eccv2018 report day2
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
 
Redmineをつかったスクラム開発のはじめの一歩
Redmineをつかったスクラム開発のはじめの一歩Redmineをつかったスクラム開発のはじめの一歩
Redmineをつかったスクラム開発のはじめの一歩
 
関東CV勉強会ECCV2014 (Blind Deblurring using Internal Patch Recurrence)
関東CV勉強会ECCV2014 (Blind Deblurring using Internal Patch Recurrence)関東CV勉強会ECCV2014 (Blind Deblurring using Internal Patch Recurrence)
関東CV勉強会ECCV2014 (Blind Deblurring using Internal Patch Recurrence)
 

More from Atsushi Hashimoto

人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- Atsushi Hashimoto
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)Atsushi Hashimoto
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識Atsushi Hashimoto
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationAtsushi Hashimoto
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告Atsushi Hashimoto
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

More from Atsushi Hashimoto (8)

Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
 
Eccv2018 report day4
Eccv2018 report day4Eccv2018 report day4
Eccv2018 report day4
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food Preparation
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

Recently uploaded

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Recently uploaded (8)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

CVPR2018 参加報告(速報版)初日

  • 2. 使用上の注意 • これは橋本のメモ資料です.いわば「チラシの裏」です.この資料を 見てなんじゃこりゃと思われたかたには大変申し訳ありません. (参考)もっと素敵な資料がCVPR Challengeから出ています • 本文はチラ裏ですが,以下はまんま「チラシ」です. • 弊社ではインターン生を募集しております.東京から遠隔にお住まいの方で も長期休みを利用してフレキシブルにインターンしていただけます.東京に お住まいの方でも,週に数回など,授業・研究の合間に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪しいURLですが,弊社のスタートアップ感の迸りです)
  • 3. さらにチラシ • 関西CVPRML勉強会,および,関東CV勉強会でも発表します. • 関西CVPRML勉強会→self supervised learningを斜め読みします. • 静止画に対する手法と動画に対する手法を始め,CVPR2018でSelf-supervised, Unsupervisedと書いてある奴はできるだけ網羅したい. • ただし,時間の都合で端折るものはあるかも. • 関東CV→検討中.ちゃんと理解できればアレをやろうというのはある.
  • 9.
  • 10.
  • 11.
  • 16. Opening は以上. • 今年はプレナリートークなし. • 一件予定していたが,来られなくなった,とのこと. • しょっぱなのopeningからして,開始が30分送れた • Social Eventは7時から!→7:30からしか会場に入れない • 食事はWorkshop Dayより豪華. • 朝ごはんは,スモークサーモン→実質,食べ放題 • ゆで卵だけじゃないんだ!
  • 17. 初日一発目のセッション(Session 1-1B) • Analyzing Humans in Images • 座長いわく,GAN-centric session. • 実際GANの話ばかり.
  • 18. この言い回しよく見たけど, 業界として全探索しようとして いるよね. Finding Tiny Faces in the Wild With Generative Adversarial Network, Yancheng Bai, et. al. • 小さい顔(スポーツの観客席の顔全部とか)を検出したい. • What has been done about it? -> Pyramidal Networkなどで対処 • 計算時間とGPUメモリがめっちゃ増えるのが辛い. • Idea: 怪しいところはSuper-resolutionしちゃえ • 手順 1. 従来手法で顔っぽいところを出す(screening) 2. GAN-baseのsuperresolutionをする 3. 顔かどうかを判定.(学習時はAdversarial Lossも計算) • 提案手法はEasy(93.5%), Medium(92%), Hard(84%)がそれぞれ+1% 弱,+1.5%, +2%くらい精度向上. この問題,のびしろが中々ないですね! Oral
  • 19. Learning Face Age Progression: A Pyramid Architecture of GANs, Hongyu Yang et. al. • CVPR2017でGANを使った年齢変更の方法が登場 • 年齢を変更する際に,別人になってしまうことがある. • 精度の関係で同じくCVPR2017のPyramidal Networkを使う. • GANのDの他に,Identity cueもDiscriminatorのlossとして加える. • 以降,GANの近くにDとあったらDiscriminator (G: Generator)です. • identity preservation lossのためのidentity判定部は普通のFCNぽいの. • もちろんGANなので,普通のAdversarial Lossもある. • Dataset: MORPH, CACD, FGNET.かなり自然. 発表者,「髪もちゃんと老ける」を強調しすぎでは? Oral
  • 20. PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Makeup, Huiwen Chang et. al. • スタイルの指定を一枚の画像だけでやりたい. • スタイル毎,GANの学習データを用意するのは,化粧とか洋服のデザインに対 するStyle Transferにはきつい. • 入力に「すっぴん画像x」+「化粧画像y」を入れる. • xが yと同じドメインに変換されてほしい x’=f(x;y) • Cycle GANにする.つまり,x’に「すっぴん画像y’」を入れるとx’がすっぴんに 戻る. • 白地のTシャツにワンピースのデザインを合成する,などもできる. Makeup Datasetというのがあるのですね. Oral
  • 21. GANerated Hands for Real-Time 3D Hand Tracking From Monocular RGB, F. Mueller et. al • 機材の不調か何かで,後回しになってしまい,聴講できず. • RGB→Depth変換をGANでやって,既存の学習データいっぱい使えるよ うにしよう!という話ぽい. Spot light
  • 22. Learning Pose Specific Representations by Predicting Different Views, Georg Poier et. al. • 目的: hand pose をunsupervisedで低次元空間にEmbedしたい. • 異なる2つの視点からのDepth画像の特徴量の同一性を,互いに Encoder/Decoderで変換できるようにする • (view angleの情報はDecoderには与える?) • 得られるEmbedded表現は,その手の姿勢に固有の特徴(観測方 向不変)になっているはず. • 実際に,k-NNしてみると,結構似たものが検索できる. • ただのAuto Encoderだと観測方向の違いに騙されて,こうは行かない. Spot light
  • 23. Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer, H.S. Fang, et. al. • 3Dでbody part labelを与えるのを,関節点を与えるだけで行う. • keypoint supervision表現→part segmentationを実現したい • 手順 1. keypoint similarityに基づいて教師ありデータ y から似たような画像を検索. 2. bone modelの形状の違いに基づいてy からのpart labelをaffine変換(?)して,正 解とする • 評価: データがかなり増えた分,結果は結構良い. • 混雑している街角などでも,個人ごとにbody part labelをきれいに推定できてる. • コード: https://github.io/MVIG-SJTU/WSHP Spot light
  • 24. Person Transfer GAN to Bridge Domain Gap for Person Re-Identification, L. Wei, et. al. • Dataset: DukeMTMC, Market-1501 • 解こうとしている問題に対してTraining Dataはまぁ,足りない. →Dataを水増ししたい.光源環境,背景,カメラパラメタの違いを Augmentation. • MSMT17: 15cameras, 180 hours, Faster RCNN for detection, Annotation 126,411 boundingbox, 4,101 person? • PTGAN: style (backgrounds, lighting and so on) transfer from domain A to B. 世の中,GANで全てデータ不足は解決できるのだろうか… Spot light
  • 25. Cross-Modal Deep Variational Hand Pose Estimation, Adrian Spurr et. al. • RGBから得られる情報とDepthから得られる情報を,Enc-Decモ デルで相互変換可能に学習する • エンコードされた特徴 Z はCross-Modalな,つまりモダリティに依らず 共通の特徴になる. • CrossしているAuto Encoder (AE) • RGB→enc_RGB→ Z →dec_{RGB or Depth}→RGB or Depth • Depth→enc_D→ Z →dec_{RGB or Depth}→RGB or Depth • Variationalってあるから,ZはVAEみたいな正規分布かも. あれ?GANは?Decoderにつくのかな… Spot light
  • 26. Disentangled Person Image Generation, Liqian Ma et. al. • Foreground / Background / Poseを入力して,人の画像を生成する. • ちょっとdetail聞けなかったけど,結果はあんまりきれいに生成 されてない? • GANの性能はガンガン上がっているので,それ使えば良いよね. • Poseを指定するのはPosterでも2つあった. • GAGAN→Face Alignmentをposeとして,顔を合成. • Deformable GANs for Pose-Based Human Image Generation Spot light
  • 27. Super-FAN: Integrated Facial Landmark Localization and Super-Resolution of Real-World Low Resolution Faces in Arbitrary Poses With GANs, A. Bulat & G. Tzimiropoulos • super-resolution と face alignmentは鶏と卵の関係. • 従来: 顔に対する特別な手法は無く,単にGANでsuper resolutionしていた. • Ground Truthでのface alignment結果と同じものが出てくるよう, super-resolution用のGANで生成された顔に対し,face alignmentの推定誤 差を計算して学習時にLossとして利用. → Face Alignmentのconsistencyが取れるようになることで, 生成画像の質が向上. • Dataset: Wider face dataset 結果,確かにかなり良くなっている印象,ただし真値が人間にも不明. Spot light
  • 28. Multistage Adversarial Losses for Pose- Based Human Image Synthesis, C. Si, et. al. • 用事があってここから(後回しになった最初の奴も)きけません でした. • 2つ前の発表とかなり近そう?
  • 29. ここからポスターセッション • Detect-and-Track: Efficient Pose Estimation in Videos • Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors • 連続する2フレーム感のFacial LandmarkをLucas-Kanadeで追跡,正解とし て利用することで,学習データ水増し. • Diversity Regularized Spatiotemporal Attention for Video-Based Person Re-Identification
  • 30. • Style Aggregated Network for Facial Landmark Detection • A Pose-Sensitive Embedding for Person ReIdentification With Expanded Cross Neighborhood ReRanking • A Hierarchical Generative Model for Eye Image Synthesis and Eye Gaze Estimation 1. 視線方向(pose)を与えたら自動で眼の画像をCGとして生成する. 2. CGをGANで本物っぽくするが,poseが変わったらlossを大きくする. • MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition • 3D Convolutionで動作認識するのは,学習の収束がしにくく大変. • 2D Convを挟んでやると,収束が早くなって学習しやすくなる.
  • 31. • A Prior-Less Method for Multi-Face Tracking in Unconstrained Videos • Priorという単語が好きな研究室の某氏に捧げようと思ったら,自分の 昔のネタに近かった. • 顔のTrackletをだす.顔特徴+軌跡でTrackletをつなげる.クラスタリン グでさらに頑張って最後までつなげる. • Cross-Domain Self-Supervised Multi-Task Feature Learning Using Synthetic Imagery • CGデータに対して,Depth Map, 法線マップ,線画に変換したものを準 備.この3つのタスクを解けるようにEncoderを学習. • Enc(CGデータ)とEnc(実画像)をDiscreminatorで識別→Adversarial Loss • これにより,教師なしでなんらかの情報をもった特徴抽出Encoder完成. • A Two-Step Disentanglement Method
  • 32. • Decorrelated Batch Normalization • 普通のBNは無相関化まではしないけど,それをすると出力が独立成分にな るので,収束が早い,という話. • Learning Steerable Filters for Rotation Equivariant • Conv-Weightを回転させて沢山チャンネルを作ると回転不変にできる. • MIRU2017で立命の先生がやってなかったっけ?あれは位置不変か? • まぁ,ちょくちょく見かけるのだけれど,細かい区別誰か教えて. • GAGAN: Geometry-Aware Generative Adversarial Networks • さっきのSpotlightのところで紹介したやつ. • Facial Landmarkを与えたら,それに応じた顔画像をGANで生成. • 生成画像(2枚)をLandmark使って正面顔に投影し,一致具合も誤差とする. • Human Semantic Parsing for Person Re-Identification • body part label付きの学習データで,body partを考慮させる.
  • 35. • Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition • I: imageとして,dI/dx, dI/dy, dl/dtを3チャンネルとして入力するとうまくいく,と いう話.ただし,数学的な根拠はない? • Two-Stream I3Dに対して,-1%くらいの精度だが,10倍以上高速に動作(200fps) • Structure Preserving Video Prediction • 細い標識の柱などが消えないように,hypass-filterかけたstreamを足すと,ちょっ とうまくいく. • Efficient and Deep Person Re-Identification Using Multi-Level Similarity • 最終層だけでなく,途中の層の出力の類似性も考慮すると精度上がる. • Memory Based Online Learning of Deep Representations From Video Streams • 動画の中で一度でも出てきた人を覚えておく. Memory領域はCPU上.何回も出て きた人は徐々に特徴を圧縮していくぽい?
  • 36. • Social GAN: Socially Acceptable Trajectories With Generative Adversarial Networks • 複数の人物の移動軌跡から,お互いに避ける,などの社会的インタラク ションをGANで生成. • 各trackletの特徴を全部まとめてpoolingする,といったようなネット構造. • Exploring Disentangled Feature Representation Beyond Face Identification • AEのボトルネックを2つに分けて,一方は人物識別ができるように,他方 は全くできないように学習することで,人物識別に有効かどうかに従って 特徴を分離できる. • Triplet-Center Loss for Multi-View 3D Object Retrieval • Triplet lossを各クラスの中心を対象として計算.これもどこかで見たよう な気がする…
  • 37. • Normalized Cut Loss for Weakly-Supervised CNN Segmentation • これ,めっちゃ面白い.LossとしてNormalized Cutの指標を使うことで,物 体領域マーカーベースのweak supervisionで美味いことsegmentationができ る.問題によってはCRF以上の効果も期待できるのか?Yuri Boikovが共著. • Towards Human-Machine Cooperation: Self-Supervised Sample Mining for Object Detection • コンテキスト情報に頼らないと識別できないようなサンプルを,検出矩形 を切り抜いて関係ない画像に貼り付けたときの精度低下から自動で検出す る.なお,検出するところまでがself-supervisedでその後はannotationがい るらしい… • Deep Adversarial Subspace Clustering • AEのボトルネック部分に対して,Affinity Matrixベースのクラスタリングを 行う.学習サンプルの線形和によって得た合成サンプルを入力し,写像さ れた部分空間での特徴量に対してAdversarial Lossを取ることで,より良い 部分空間が得られる.ちょっと,なんで良くなるかまで理解しきれず.多 分,中途半端を許さないことで,より際どいサンプルも部分空間に落ちる ようになる??
  • 38. • Duplex Generative Adversarial Network for Unsupervised Domain Adaptation • 写真なく,思い出せず. • Person Re-Identification With Cascaded Pairwise Convolutions • Person-pair(同一人物or他人)それぞれのAEのボトルネックを2つにわけて, 一方をpairで交換する.これを何回か繰り返すとうまくいくらしい. • 人がいて議論していたので質問できず,理論追えず. • Duplex Generative Adversarial Network for Unsupervised Domain Adaptation • AEのEncoder部分は共有し(写真の解像度たりなくて確認できず,嘘かも?), Decoder部分にconditionとしてdomainを指定することで,教師がない DomainでもAEを回し,Domain Adaptationする.
  • 39. 初日2発目のセッション(Session 1-2C) • Machine Learning for Computer Vision II • 時差ボケ半端ない(大迫半端ない)
  • 40. Learning to Find Good Correspondences, K. M. Yi et. al. • SLAMなどで,8-point algorithm • outlierを除去するため,対応付けのweight matrixを出力するよう なDeep Netを学習する. XwX^T がノイズ除去された特徴点集合 になるよう学習したい. • Classification loss, iniliers/outliers, + どのinliersが推定に寄与したか (?) • Unordered dataに対するSolution • ちょっとネットワーク構造がわからなかったが,点ごとに処理→途中 で点処理結果全部に対するpooling?? • 出力: Wの1列分(ある点からのマッチング尤度) Oral
  • 41. OATM: Occlusion Aware Template Matching by Consensus Set Maximization, S. Korman et. al. • Template Matching は高次元空間での演算. • templateを1つのvectorとすると大変. 直積空間にすると計算が早 い.(落ちた.直積空間を作るのに時間はかからないのだろうか …GPUを前提としてる?) • ちょっと眠すぎる. • Dataset: HPatches dataset Oral
  • 42. Deep Learning of Graph Matching, A. Zanfir et. al. • Graph MatchingはNP完全!(だったはず) • Deep feature matchingのgraph化 • Graph Matching: node間のaffinity matrix (NxN), edgeのaffinity mat. (MxM) • Ground Truthとの一致を表現するのに,最近傍のgrid点を使う,など. • affinity mat.に対するSVDをネットワークで解く系. • Zhow & De La Torre, Factorized graph matching, CVPR2012. • Power Iterationで近似的に解く. • Power Iterationは他の研究でも使われている方法ですね. • Bi-stochastic Layer • Dataset: DENSE Matching on SINTEL (similar appearance, video) • 論文読んできれいに理解できたら,これを関東CVでやる? Oral/Honored mention award
  • 43. Unsupervised Discovery of Object Landmarks as Structural Representations, Yuting Zhang et. al. • 物体表面の特徴的な点(Object landmark)を教師なしで見つけたい! • Object Landmarkは 物体の姿勢などをminimumな表現で記述できる. • Enc-Dec型AEを学習し,Heatmapを複数チャンネル算出.チャンネル数 =Landmark数 • 各Heatmapの山をisotropicな正規分布で表現. → Gaussの幅が小さくなるように学習を行う. • Landmarkとしての頑健性(変形への耐性)を揺らぎに対する不変性で評価(Thewlis et al,2017?) →channel毎にOptical Flowによる変形後のものとの内積により評価. • 色々なものに適用可能! 眠すぎて,OpticalFlow云々は嘘かも. Oral
  • 44. Lean Multiclass Crowdsourcing, G. Van Horn et.al. • Crowdsourcingのアノテーション精度向上. • 基本は多数決,重みは平等で良いのか?→いつも正しい人の重みは大きく! • その人が正しいかどうかの指標を,重みなしの多数決で正解を決め た場合に対するconfusion matrix(CM)で見る. • クラス数が多すぎるとCM大変(←聞き逃した?)→taxonomyを使って部 分問題やスーパークラス単位の問題としてCMをコンパクトに. • Between worker problem • 細かい部分,間違えてるかも.全体として,なんか,hubとauthority みたいな話に聞こえた. • 実際,この方法で結構アノテーションの精度が上がったとのこと. • Dataset: iNaturalist Oral
  • 45. Partial Transfer Learning With Selective Adversarial Networks, Zhangjie Cao et. al. • https://github.com/thuml でもうすぐ使えるようになるらしい. Spotlight
  • 46. Self-Supervised Feature Learning by Learning to Spot Artifacts, S. Jenni&P.Favalo • 画像に欠損を与えてimpaintingさせることでself-supervised learning • 絶対に類似したやつ見たことあるのだがタイトル忘れて見つからない. white-boxだったし,一昨年くらいだと思う. • task should relate to semantics, and should avoid trivial learning • SPOT ARTIFACTS → Missing object partsなど. • 大事なのはnon-trivialなdamageを与えること. • Use a Damage & Repair approach: • RepairしたあとはDiscriminatorで判定をする. Spotlight
  • 47. LDMNet: Low Dimensional Manifold Regularized Neural Networks, Wei Zhu et. al. • 低次元に落とすようにすることでoverfittingを防ぐ. • どれくらい低次元にするかを自動で決めてくれる(?) • NIR-VIS Heterogeneous Face Recognitionテスト • 提案手法は違うmodalityに対しても低次元に落とすことでmatchingを取 ることに成功している. 微細な情報を残すことは諦める,これも一つの手? Spotlight
  • 48. CondenseNet: An Efficient DenseNet Using Learned Group Convolutions, G. Huang et.al. • DenseNetをコンパクトにする→CondenseNet • DenseNetのGroup Structureを学習中にflexibleに変更して,良い 表現を見つける…ぽい.
  • 49. Deep Adversarial Metric Learning, Yueqi Duan et. al. • Triplet-lossの目的 1. クラス間距離を最大化 2. クラス内距離を最小化. • Constrastive Loss, Triplet lossなど,どちらでも. • Easy Negativeはtriplet lossの学習にとって,本当に不要. • しかし,hard negativeを頑張って探すのは手間. → hard negativesになるpotentialがあるのでは? • Easy NegativeをGANを使ってHard Negativeに変えれば,hard negative pair探さなくて良くね? • Style Transferをしてeasy negative pairをhard negativeに変更する! • Dataset: CUB-200-2011, Cars196, Stanford Online Products
  • 50. • Multi-View Consistency as Supervisory Signal for Learning Shape and Pose Prediction • ボクセルで表現された物体をある角度から見た画像から,別の角度からの 画像を生成させることで,物体の観測角度に対する不変性を得る. • Free Supervision From Video Games • ゲームの世界なら,コントローラーで操作したらoptical flowの正解(camera motion)とか色んな情報が教師なしでとれるじゃん? • Beyond the Pixel-Wise Loss for Topology-Aware Delineation • Topology lossというものを提案. • MoNet: Moments Embedding Network • 知らなかったんだけど,bilinear CNNとかがFine-Grained Recognitionで強い. しかし,1次元の特徴ベクトルに落とすときに2次モーメントからなるもの になってしまい,表現が冗長(長さが二乗) • うまくTensor Sketch (Matrix Sketchのテンソル版?)を計算して,losslessで表 現の冗長性を0にした.
  • 51. • Active Fixation Control to Predict Saccade Sequences • 一回滞留したところはsaliencyを低くして,みたいな処理を美味いことやっ て,人間の視線のサッケードを自然に合成する手法ぽい. • Disentangling Factors of Variation by Mixing Them • これは豪快.2つのサンプルのAEの中間層出力(の一部)をランダムに入れ替 えて,最後の最後で全部もとに戻るようにすると,それぞれのベクトルの 要素が独立になっていく,という話.まぁ,そうかも知れないけど…豪快. • Deformable GANs for Pose-Based Human Image Generation • ボーンモデルを元に,指定した人物の画像を生成. • GAGANとかと似てそう. • Local and Global Optimization Techniques in GraphBased Clustering • これも面白い.相澤研学生の伊神さんの研究. • Spectral Clustering(SC)は近似し過ぎで精度悪いので,局所的には最適解に近 いものを出し得て,答えもばらつきやすいgreedyな手法を何度も適用して, 平均を取ると,SCよりずっと良い精度が出る,というもの.