21. GANerated Hands for Real-Time 3D Hand
Tracking From Monocular RGB, F. Mueller et. al
• 機材の不調か何かで,後回しになってしまい,聴講できず.
• RGB→Depth変換をGANでやって,既存の学習データいっぱい使えるよ
うにしよう!という話ぽい.
Spot light
22. Learning Pose Specific Representations by
Predicting Different Views, Georg Poier et. al.
• 目的: hand pose をunsupervisedで低次元空間にEmbedしたい.
• 異なる2つの視点からのDepth画像の特徴量の同一性を,互いに
Encoder/Decoderで変換できるようにする
• (view angleの情報はDecoderには与える?)
• 得られるEmbedded表現は,その手の姿勢に固有の特徴(観測方
向不変)になっているはず.
• 実際に,k-NNしてみると,結構似たものが検索できる.
• ただのAuto Encoderだと観測方向の違いに騙されて,こうは行かない.
Spot light
23. Weakly and Semi Supervised Human Body Part Parsing
via Pose-Guided Knowledge Transfer, H.S. Fang, et. al.
• 3Dでbody part labelを与えるのを,関節点を与えるだけで行う.
• keypoint supervision表現→part segmentationを実現したい
• 手順
1. keypoint similarityに基づいて教師ありデータ y から似たような画像を検索.
2. bone modelの形状の違いに基づいてy からのpart labelをaffine変換(?)して,正
解とする
• 評価: データがかなり増えた分,結果は結構良い.
• 混雑している街角などでも,個人ごとにbody part labelをきれいに推定できてる.
• コード: https://github.io/MVIG-SJTU/WSHP
Spot light
24. Person Transfer GAN to Bridge Domain Gap
for Person Re-Identification, L. Wei, et. al.
• Dataset: DukeMTMC, Market-1501
• 解こうとしている問題に対してTraining Dataはまぁ,足りない.
→Dataを水増ししたい.光源環境,背景,カメラパラメタの違いを
Augmentation.
• MSMT17: 15cameras, 180 hours, Faster RCNN for detection,
Annotation 126,411 boundingbox, 4,101 person?
• PTGAN: style (backgrounds, lighting and so on) transfer from domain
A to B.
世の中,GANで全てデータ不足は解決できるのだろうか…
Spot light
25. Cross-Modal Deep Variational Hand Pose
Estimation, Adrian Spurr et. al.
• RGBから得られる情報とDepthから得られる情報を,Enc-Decモ
デルで相互変換可能に学習する
• エンコードされた特徴 Z はCross-Modalな,つまりモダリティに依らず
共通の特徴になる.
• CrossしているAuto Encoder (AE)
• RGB→enc_RGB→ Z →dec_{RGB or Depth}→RGB or Depth
• Depth→enc_D→ Z →dec_{RGB or Depth}→RGB or Depth
• Variationalってあるから,ZはVAEみたいな正規分布かも.
あれ?GANは?Decoderにつくのかな…
Spot light
26. Disentangled Person Image Generation,
Liqian Ma et. al.
• Foreground / Background / Poseを入力して,人の画像を生成する.
• ちょっとdetail聞けなかったけど,結果はあんまりきれいに生成
されてない?
• GANの性能はガンガン上がっているので,それ使えば良いよね.
• Poseを指定するのはPosterでも2つあった.
• GAGAN→Face Alignmentをposeとして,顔を合成.
• Deformable GANs for Pose-Based Human Image Generation
Spot light
27. Super-FAN: Integrated Facial Landmark Localization and
Super-Resolution of Real-World Low Resolution Faces in
Arbitrary Poses With GANs, A. Bulat & G. Tzimiropoulos
• super-resolution と face alignmentは鶏と卵の関係.
• 従来: 顔に対する特別な手法は無く,単にGANでsuper resolutionしていた.
• Ground Truthでのface alignment結果と同じものが出てくるよう,
super-resolution用のGANで生成された顔に対し,face alignmentの推定誤
差を計算して学習時にLossとして利用.
→ Face Alignmentのconsistencyが取れるようになることで,
生成画像の質が向上.
• Dataset: Wider face dataset
結果,確かにかなり良くなっている印象,ただし真値が人間にも不明.
Spot light
28. Multistage Adversarial Losses for Pose-
Based Human Image Synthesis, C. Si, et. al.
• 用事があってここから(後回しになった最初の奴も)きけません
でした.
• 2つ前の発表とかなり近そう?
29. ここからポスターセッション
• Detect-and-Track: Efficient Pose Estimation in Videos
• Supervision-by-Registration: An Unsupervised Approach to Improve
the Precision of Facial Landmark Detectors
• 連続する2フレーム感のFacial LandmarkをLucas-Kanadeで追跡,正解とし
て利用することで,学習データ水増し.
• Diversity Regularized Spatiotemporal Attention for Video-Based
Person Re-Identification
30. • Style Aggregated Network for Facial Landmark Detection
• A Pose-Sensitive Embedding for Person ReIdentification With
Expanded Cross Neighborhood ReRanking
• A Hierarchical Generative Model for Eye Image Synthesis and Eye
Gaze Estimation
1. 視線方向(pose)を与えたら自動で眼の画像をCGとして生成する.
2. CGをGANで本物っぽくするが,poseが変わったらlossを大きくする.
• MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition
• 3D Convolutionで動作認識するのは,学習の収束がしにくく大変.
• 2D Convを挟んでやると,収束が早くなって学習しやすくなる.
31. • A Prior-Less Method for Multi-Face Tracking in Unconstrained Videos
• Priorという単語が好きな研究室の某氏に捧げようと思ったら,自分の
昔のネタに近かった.
• 顔のTrackletをだす.顔特徴+軌跡でTrackletをつなげる.クラスタリン
グでさらに頑張って最後までつなげる.
• Cross-Domain Self-Supervised Multi-Task Feature Learning Using
Synthetic Imagery
• CGデータに対して,Depth Map, 法線マップ,線画に変換したものを準
備.この3つのタスクを解けるようにEncoderを学習.
• Enc(CGデータ)とEnc(実画像)をDiscreminatorで識別→Adversarial Loss
• これにより,教師なしでなんらかの情報をもった特徴抽出Encoder完成.
• A Two-Step Disentanglement Method
32. • Decorrelated Batch Normalization
• 普通のBNは無相関化まではしないけど,それをすると出力が独立成分にな
るので,収束が早い,という話.
• Learning Steerable Filters for Rotation Equivariant
• Conv-Weightを回転させて沢山チャンネルを作ると回転不変にできる.
• MIRU2017で立命の先生がやってなかったっけ?あれは位置不変か?
• まぁ,ちょくちょく見かけるのだけれど,細かい区別誰か教えて.
• GAGAN: Geometry-Aware Generative Adversarial Networks
• さっきのSpotlightのところで紹介したやつ.
• Facial Landmarkを与えたら,それに応じた顔画像をGANで生成.
• 生成画像(2枚)をLandmark使って正面顔に投影し,一致具合も誤差とする.
• Human Semantic Parsing for Person Re-Identification
• body part label付きの学習データで,body partを考慮させる.
35. • Optical Flow Guided Feature: A Fast and Robust Motion Representation for
Video Action Recognition
• I: imageとして,dI/dx, dI/dy, dl/dtを3チャンネルとして入力するとうまくいく,と
いう話.ただし,数学的な根拠はない?
• Two-Stream I3Dに対して,-1%くらいの精度だが,10倍以上高速に動作(200fps)
• Structure Preserving Video Prediction
• 細い標識の柱などが消えないように,hypass-filterかけたstreamを足すと,ちょっ
とうまくいく.
• Efficient and Deep Person Re-Identification Using Multi-Level Similarity
• 最終層だけでなく,途中の層の出力の類似性も考慮すると精度上がる.
• Memory Based Online Learning of Deep Representations From Video Streams
• 動画の中で一度でも出てきた人を覚えておく. Memory領域はCPU上.何回も出て
きた人は徐々に特徴を圧縮していくぽい?
36. • Social GAN: Socially Acceptable Trajectories With Generative Adversarial
Networks
• 複数の人物の移動軌跡から,お互いに避ける,などの社会的インタラク
ションをGANで生成.
• 各trackletの特徴を全部まとめてpoolingする,といったようなネット構造.
• Exploring Disentangled Feature Representation Beyond Face
Identification
• AEのボトルネックを2つに分けて,一方は人物識別ができるように,他方
は全くできないように学習することで,人物識別に有効かどうかに従って
特徴を分離できる.
• Triplet-Center Loss for Multi-View 3D Object Retrieval
• Triplet lossを各クラスの中心を対象として計算.これもどこかで見たよう
な気がする…
37. • Normalized Cut Loss for Weakly-Supervised CNN Segmentation
• これ,めっちゃ面白い.LossとしてNormalized Cutの指標を使うことで,物
体領域マーカーベースのweak supervisionで美味いことsegmentationができ
る.問題によってはCRF以上の効果も期待できるのか?Yuri Boikovが共著.
• Towards Human-Machine Cooperation: Self-Supervised Sample Mining
for Object Detection
• コンテキスト情報に頼らないと識別できないようなサンプルを,検出矩形
を切り抜いて関係ない画像に貼り付けたときの精度低下から自動で検出す
る.なお,検出するところまでがself-supervisedでその後はannotationがい
るらしい…
• Deep Adversarial Subspace Clustering
• AEのボトルネック部分に対して,Affinity Matrixベースのクラスタリングを
行う.学習サンプルの線形和によって得た合成サンプルを入力し,写像さ
れた部分空間での特徴量に対してAdversarial Lossを取ることで,より良い
部分空間が得られる.ちょっと,なんで良くなるかまで理解しきれず.多
分,中途半端を許さないことで,より際どいサンプルも部分空間に落ちる
ようになる??
38. • Duplex Generative Adversarial Network for Unsupervised Domain
Adaptation
• 写真なく,思い出せず.
• Person Re-Identification With Cascaded Pairwise Convolutions
• Person-pair(同一人物or他人)それぞれのAEのボトルネックを2つにわけて,
一方をpairで交換する.これを何回か繰り返すとうまくいくらしい.
• 人がいて議論していたので質問できず,理論追えず.
• Duplex Generative Adversarial Network for Unsupervised Domain
Adaptation
• AEのEncoder部分は共有し(写真の解像度たりなくて確認できず,嘘かも?),
Decoder部分にconditionとしてdomainを指定することで,教師がない
DomainでもAEを回し,Domain Adaptationする.
48. CondenseNet: An Efficient DenseNet Using
Learned Group Convolutions, G. Huang et.al.
• DenseNetをコンパクトにする→CondenseNet
• DenseNetのGroup Structureを学習中にflexibleに変更して,良い
表現を見つける…ぽい.
50. • Multi-View Consistency as Supervisory Signal for Learning Shape and
Pose Prediction
• ボクセルで表現された物体をある角度から見た画像から,別の角度からの
画像を生成させることで,物体の観測角度に対する不変性を得る.
• Free Supervision From Video Games
• ゲームの世界なら,コントローラーで操作したらoptical flowの正解(camera
motion)とか色んな情報が教師なしでとれるじゃん?
• Beyond the Pixel-Wise Loss for Topology-Aware Delineation
• Topology lossというものを提案.
• MoNet: Moments Embedding Network
• 知らなかったんだけど,bilinear CNNとかがFine-Grained Recognitionで強い.
しかし,1次元の特徴ベクトルに落とすときに2次モーメントからなるもの
になってしまい,表現が冗長(長さが二乗)
• うまくTensor Sketch (Matrix Sketchのテンソル版?)を計算して,losslessで表
現の冗長性を0にした.
51. • Active Fixation Control to Predict Saccade Sequences
• 一回滞留したところはsaliencyを低くして,みたいな処理を美味いことやっ
て,人間の視線のサッケードを自然に合成する手法ぽい.
• Disentangling Factors of Variation by Mixing Them
• これは豪快.2つのサンプルのAEの中間層出力(の一部)をランダムに入れ替
えて,最後の最後で全部もとに戻るようにすると,それぞれのベクトルの
要素が独立になっていく,という話.まぁ,そうかも知れないけど…豪快.
• Deformable GANs for Pose-Based Human Image Generation
• ボーンモデルを元に,指定した人物の画像を生成.
• GAGANとかと似てそう.
• Local and Global Optimization Techniques in GraphBased Clustering
• これも面白い.相澤研学生の伊神さんの研究.
• Spectral Clustering(SC)は近似し過ぎで精度悪いので,局所的には最適解に近
いものを出し得て,答えもばらつきやすいgreedyな手法を何度も適用して,
平均を取ると,SCよりずっと良い精度が出る,というもの.