CVPR2018参加報告(速報版)
3日目
京大助教→OSX(研究職に就職しました!!)
橋本敦史
今回,一部お見苦しい部分があることを,お詫び申し上げます.
使用上の注意
• これは橋本のメモ資料です.いわば「チラシの裏」です.この資料を
見てなんじゃこりゃと思われたかたには大変申し訳ありません.
(参考)もっと素敵な資料がCVPR Challengeから出ています
• 本スライドはチラ裏ですが,以下はまんま「チラシ」です.
• 弊社ではインターン生を募集しております.東京から遠隔にお住まいの方で
も長期休みを利用してフレキシブルにインターンしていただけます.東京に
お住まいの方でも,週に数回など,授業・研究の合間に働きながらスキルを
身に着けていただけます.
詳しくはこちら(怪しいURLですが,弊社のスタートアップ感の迸りです)
さらにチラシ
• 関西CVPRML勉強会,および,関東CV勉強会でも発表します.
• 関西CVPRML勉強会→self supervised learningを斜め読みします.
• 静止画に対する手法と動画に対する手法を始め,CVPR2018でSelf-supervised,
Unsupervisedと書いてある奴はできるだけ網羅したい.
• ただし,時間の都合で端折るものはあるかも.
• 関東CV→検討中.Graph Matchingかなー.論文読んで完璧に理解できれ
ば.
3日目朝のセッション(Session 3-1C)
• Applications
• 飯山研究室(旧美濃研究室)のD1 藤村くんの発表がトップバッ
ター!
• You can’t miss it!
• CVPRの研究でApplicationsに当てはまらない研究なんて…
3日目朝のセッション(Session 3-1C)
始末書
私は2018年6月21日8:30AM(日本時間23:30PM), 米国ユタ州ソル
トレークにて行われていた国際会議CVPR2018のオーラル発表に
おいて,共著者であるにも関わらず,3月まで指導していた学生
の発表の場に赴かず,ホテルで意識を手放していたことをお詫び
申し上げます.再発防止策として,本参加報告の執筆において,
体力の限界を超えてまでやらないこと,また,ホテルのアラーム
の操作には最新の注意を払うことを徹底いたします.
AH
3日目朝のセッション(Session 3-1C 3-1-B)
• Applications
• Analyzing Humans (Spotlightsの途中から)
Nonlinear 3D Face Morphable Model
Luan Tran, et. al.
• エンコーダで,M branch, f_s branch, f_t branchに分ける.
• Shape 特徴(f_sの出力)をEdit → 表情を変化させられる.
• テクスチャ(f_tの出力)をEdit →Lightingを変更させられる.
• wildな状況でも,かなりロバストにeditが可能.
• 今回のCVPRの印象として,下記のネットワーク構造ほんと多い
• エンコーダを分ける
• それぞれ教師信号を変えてできること,できないことを分ける
(Disentangle)
• 何かをイジってから特徴を再び統合→GANの出力を操作できるよ!
Spotlight
Through-Wall Human Pose Estimation Using
Radio Signals, Mingmin Zhao, et. al.
• 壁の向こうの人間の姿勢を推定する!
• WiFiでRF Reflectionを観測する.
• RF SignalはかなりNoisyだが,人がいる位置が見えるのがわかる.
• データセットはもちろん自前で作成
教師: RGB+Teacher Network (OpenPose)
学習データ RF+Student Network で学習 → RF-Pose!
• あえてGroundTruthを見せずに「人間には無理」感を演出するス
タイル.
• なお,もちろん真っ暗でも動く.
Spotlight
What Makes a Video a Video: Analyzing
Temporal Information in Video Understanding
Models and Datasets, De-An Huang, et. al.
• 虎の映像に対し「これ虎的にはplayful」と言われて会場で笑いが起
きる.
• 本当にtwo-stream modelはtemporal informationを含んでいるか?
• C3D trained on UCF101で,時間変化を捉えるEncoderへの入力に対し
て,
1. 同じフレームで埋め尽くす→精度がかなり下がるからやっぱりtemporalは何
かしら見てる
2. 最初のフレームから自動生成した動画を入れる→-10%くらいまではいく,
3. 良さげなフレームを選んで自動生成→-6%
4. OracleSelector(神のみぞ知る一番いいフレーム)で自動生成
→ 従来手法を上回る!!!
• 本当に動きはいるのだろうか?あるいは,活用できているのか?
Spotlight
Fast Video Object Segmentation by Reference-
Guided Mask Propagation, S. W. Oh, et. al.
• Linear 3DMM Revisited
• Video Object Segmentation
• 1frame目に与えられたSegmentationから分割を追跡
• online learningすると正確だけど遅い(?)
• Reference-Guided Detection
• 最初の画像の対象物体領域をMaskしてEncode, 現在のフレームとのtwo
stream
• 前のフレームのMaskを観測画像に足すと良い.
Spotlight
NeuralNetwork-Viterbi: A Framework for Weakly
Supervised Video Learning, A. Richard, et. al.
• メモなし…迂闊.
Spotlight
Actor and Observer: Joint Modeling of First and
ThirdPerson Videos, Gunnar A. Sigurdsson et. al.
• 1st& 3rd observationを合体.
• Dataset作った: Charades-Ego
• 8000 paired 1st/3rd dataset, 68546 activities, 157 charades class!
• お互いに検索を可能にする.
• Cross-Modal Embedding系ですね.
Spotlight
HSA-RNN: Hierarchical Structure-Adaptive RNN
for Video Summarization, Bin Zhao et. al.
• ひどいな,文章が小さい文字で書いてあって,それを読み上げ
ているだけ.
• 小さくて読めない.
• 図も論文に載せたものを載せただけ
• frameの切り替わりで分けて特徴抽出→それらをさらにネット
ワークの下流で統合.
• 目的は編集済みのTV番組を識別すること???
• ごくごく稀に,ですが某国の発表でこういう論文通ったらプレゼンはどうでも良い,というのがあ
ります.研究者に対する評価を論文等の発表回数で調べることの弊害だと思います.通れば後は野
となれ山となれ.日本でも明日は我が身でこういう研究者がいつ出てきても全くおかしくない状況.
Spotlight
Fast and Accurate Online Video Object
Segmentation via Tracking Parts, J. Cheng et. al.
• Conventional Pipeline
• Foreground/Background Objects は事前に学習
• Object毎にspecificなNetworkを構築.
• Challenge:
• Instance-level tracking
• Pixel-wise Tracking
• Proposed Framework
• Part-based tracking: localize instances (replace fine-tuning)
• ROI SegNet (object-specificで十分なのでfixed.
• 早くて正確!
Spotlight
Now You Shake Me: Towards Automatic 4D
Cinema, Y. Zhou et. al.
• メモがない…
• 動画+音声を処理する
• やはりCross-modal系.
Spotlight
Viewpoint-Aware Video Summarization, A
Kanehira et. al.
• すみません…ポスター発表があったので途中で抜けました
ここからポスターセッション
(見守って手伝っていたので本数少なめです)
• Non-Local Neural Networks
• 局所性を減らすために,あるCNNの出力を,周辺のCNNの出力との類似
度に基づいて計算するLayerを提案.
• そのレイヤーの直後だけでなく,前後にずっと影響するので,そこに
挟むだけでいい感じに影響が残るのかな?
• ただし,TxWxHxCの全結合みたいなパラメタ数になる,しかもT,W,Hは
50くらいらしい.
• そりゃNon-Localだぜ,と思える.
• 隣で聞いていた人が怒る.こりゃ詐欺だ,と.
• 多分,演算方法の良さでI3Dより2/3くらいのサイズになるのが良いのだろうが,
それが伝わってない?
• 5月CVIM研究会の佐藤いまり先生のご講演を思い出した.
(タイトルが背伸びをしすぎて周りを期待させるものになっている?
共著者(A. Gupta)の名前も,かも知れないが…)
• What Have We Learned From Deep Representations for Action
Recognition? (論文既読)
• 学習されたCNNのある層のあるチャンネルが何に反応しているか,の
可視化 with Two-Streamモデル.
• 学習済みモデルのパラメタは固定して,目的の層がMaxに活性化して
いる状態を下記の手順で作成
1. 学習データで,実際どれくらい反応したのか,最大値を場所ごとに記録
2. 入力に白色ノイズを入れて,誤差逆伝播で最大値との誤差をなくすよう学習
• 入力の時空間的な連続性に制約を入れることで,解析対象の信号に対するHigh/Low-
pass filter的な制御を書けることができる.
• しかし,結構「曇りなき眼」で見ないと,結論の全てには同意できな
いw
• Face Aging With Identity-Preserved Conditional Generative
Adversarial Networks,
• 山程あったTwo-Streamに分ける系の一つ.
• Unsupervised Cross-Dataset Person Re-Identification by Transfer
Learning of Spatial-Temporal Patterns,
• 著者不在&文字情報過多につき,パス.
• 図もわかりにくい…
• Unsupervised Domain Adaptation With Similarity Learning
• 詳細忘却…思い出せない…
• Embeddingとか他のとは違う,もっとアドホックなやり方っぽかった.
Lunch!
アルゼンチン v.s. クロアチア
3日目午後のセッション1(Session 3-2A)
• Analyzing Humans in Images II
Total Capture: A 3D Deformation Model for
Tracking Faces, Hands, and Bodies, H. Joo et. al.
• OpenPoseからガンガン来ているCMUのプロジェクトの続編
• The Goal: Face, Hand, Bodyを全部同時にmotion capture! > Total body
motion capture
• Face, body, handそれぞれ沢山研究がある→全て統合
• デモ映像,手と顔だけが詳細だから,ちょっと気持ち悪いw
• bodyと他の2つが解像度違うから,ちょっと工夫が必要.
• 生成したbodyの顔と手の位置に,生成した顔と手を合成.
• Foot Keypointもちょっと追加?
• 観測した点群をICPでfitting ←ECCV当りでこれを改善して刻んで来そう…
• 顔と手のつなぎ目は専用に別のlossを作成するなど.
• Frank model / Adam model / bone model
• 新しいOpenPoseのバージョンリリースを用意.
Oral, Best Student Paper
Augmented Skeleton Space Transfer for Depth-
Based Hand Pose Estimation, S. Baek et.al.
• Real Synthetic Data Collection
• 2.5D -> 3D projection →missing pixels, changing hand shape
• skelton spaceで類似したサンプルを探して埋める??
• CVPR2015のbest paper(Dynamic Fusion)とかがあれば,これいらないん
じゃ…という気もする.one-shotでできるからいいのかな.手法の使い
所がわからない.
• joint training of HPE/HPG/HPDx/HPDy で学習.
Oral
Synthesizing Images of Humans in Unseen
Poses, Guha Balakrishnan, et. al.
• ゴルフのシーンで,ゴルファーを見たことのないような姿勢に
する研究.
• Source PoseからTarget Poseに変更する方法
• 正解データがあれば学習ベースでいける
• UNet-style ArchiTecture → Output ImageではArtifactがたくさん.
• body partをsegmentationして目的の位置に動かす.
• decoder部分では目的の位置にbody partsを埋め込んで背景をimpaintし
た画像を生成した画像になる.
• BGとFG/BG MaskとFG画像を別々に生成→alpha blending.
• VGG19+GANがやっぱりきれい.
• とはいえ,やっぱりなんか変な影が合ったり,3D的な体節の繋がりが不自然な感じが…GANでもっ
といいやつ沢山あったけどこれがOral.
Oral
SSNet: Scale Selection Network for Online 3D
Action Prediction, Jun Liu et. al.
• skelton-baseのAction Recognition
• Left-to-RightなHMMみたいにConv Layerを繋いでいるっぽい.
• Time Scaleに柔軟に対応(なんでできるのかよくわからなかった)
• 結構いい感じの精度がでた.
Spotlight
Detecting and Recognizing Human-Object
Interactions, Georgia Gkioxari et. al.
• Human Object Interaction: humanとobjectが検出できるけど,
humanはいくつかのアクションを同時にできる→actionごとに
humanとobjectの組み合わせが変わる.
• 料理をしながらテレビを見てる人 ←これ,多分,テレビ見てるけどcut
してないよね….
• ネットワーク構造
• object detection branch
• human-centric branch → action と targetを出す.
• interaction branch → b_humanとb_objectからactionを出す.
• V-COCO, HICO-Det ←精度的にめっちゃチャレンジングっぽい?
Spotlight
Unsupervised Learning and Segmentation of Complex
Activities From Video, Fadime Sener, Angela Yao
• コーヒーを入れるだけで6 activity.
• Given: Collection of videos, all of the same complex activity K
• 順番も変わるし,関係ないフレームもあるし,put stove/take
from stove// variational appearance/ skips
• めっちゃ難し.
• video segmentの順番を決めたい.
• appearanceの類似性でクラスタリング
• Mallows modelを使う.
• Datasets: Breakfast Actions / Inria Instructional Videos
Spotlight
Pose-Guided Photorealistic Face Rotation, Yibo
Hu, Xiang Wu, Bing Yu, Ran He, Zhenan Sun
• めっちゃ横向いていてもものすごくきれいに正面顔を生成.
• 提案手法: CAPG-GAN
• 生成画像を使ったFace Identification > 精度が従来手法よりずっと
向上!
• Dataset色々で試してOKだった!
• この手の手法,多すぎるし,みんな似たり寄ったりで飽きてきた…
Spotlight
Mesoscopic Facial Geometry Inference Using
Deep Neural Networks, L. Huynh, et. al.
• 従来: multi-viewでとって3D + photometric stereoでテクスチャ獲得!
• photometric stereoはめんどいから3Dモデルをめっちゃ高い解像度で取って
テクスチャを不要にしよう.
• 4K Resolution Mapを作成→めっちゃ解像度の高くてシワまであるよう
なテクスチャ作ったら良くない?
• Dataset: 自分で作ったよ.
• いや,テクスチャがないと不気味の谷に入りすぎ…
Spotlight
Hand PointNet: 3D Hand Pose Estimation Using
Point Sets, Liuhao Ge
• PointNetを使って,点群から姿勢を直接推定させたよ.
• 流石に1行で説明できる論文が来るとは思わなかった
Spotlight
Seeing Voices and Hearing Faces: Cross-Modal
Biometric Matching, Arsha Nagrani et. al.
• tripletで声と顔の特徴を同じ特徴空間にEmbedding.
• # of sperkers: Training 1,058, Test 189
• # of face-tracks 131,110 Test 2,2xx (xxはメモ間に合わず)
• Cross-model feature embedding
Spotlight
Learning Monocular 3D Human Pose Estimation
From Multi-View Images, Helge Rhodin et. al.
• Monocular 3D human pose estimation
• Domain Adaptationが必要.
• やった.
Spotlight
Separating Style and Content for Generalized
Style Transfer, Yexun Zhang et. al.
• Multi-viewで見たときには同じ姿勢が別のappearance →この同一
性を使ったsemi-supervise!
• Labeled Sample → どれかのview-angleに似た姿勢を探す→ラベル
をつける→それに近いやつを探す→… (これを繰り返す)
• Dataset: Ski-PosePTZDataset
• multi-viewでスキーヤーの姿勢(シルエット)が取れる?
• かなりきれいに姿勢推定できるように学習できた!
Spotlight
TextureGAN: Controlling Deep Image Synthesis
With Texture Patches, Wenqi Xian et. al.
• Generalized Style Transfer
• Represent each style and content with a small set of reference images
• → Paired Cycle-GANの方がstyleを1枚でできるから楽しい?
• 英語綺麗すぎて草.アナウンサーみたい.
• inputはtexture (一部)と線画のカバン→テクスチャが貼られた画
像を生成するGAN.
Spotlight
3日目午後のセッション2(Session 3-3A)
• Machin Learning for Computer Vision V
StarGAN: Unified Generative Adversarial Networks for
Multi-Domain Image-to-Image Translation, Yunjey Choi
• Encoder/Decoder: 256x256
• multiple domainに対応!
• Real/Faceに対するadversarial loss と Domain Classification loss
• さらにCycle lossを加えてIdentityを担保.
• tasks: age change, facial expression synthesis, …
• 表情合成に対して,classification errorを計算→real imagesのエ
ラーは0.45, DIETは4.xxx, CycleGANは5.9X, StarGANは2.12
Oral
High-Resolution Image Synthesis and Semantic
Manipulation With Conditional GANs, T. Wang et. al.
• Image-to-image translation
• high resolutionへのsemantic seg.
• pix2pixがbaseline
• Extending to high resolution
• low resolutionでEnc-Decモデルを作っちゃう
• 次に,高解像度→低解像度サイズへConv →Decの出力に足して高解像度化する.
• Instance Mapを加えると連続する同一カテゴリ領域に対するミスが減る.
まぁ,そりゃそうだ.
• instance-wise average pooling ←ちょっとずるいような気が….
• instance mapよりも,layer構造(手前か後ろか)が合ったほうが良いのではないかと.
Abstracted-Depthみたいなの?
• pix2pix, CRNよりずっと解像度が高い.高解像度に対応!
• vid2vidHDにまで拡張.
• PhotoShopが捗る.
• 時間方向の一貫性については,ちょっと怪しい←そもそもそんな制約まだ入れられて
無くてframe-wiseの処理結果をつなげているだけかも.
Oral
•https://tcwang0509.github.io/pix2pixHD/
Semi-Parametric Image Synthesis, Xiaojuan
Qi, Qifeng Chen, et. al.
• 従来手法はNon-parametricアプローチ.あらゆるシーンを一つ
のモデルで同時に学習することはできない.
• object 領域のみの画像をtrainingセットとする.
• Semantic Layoutを与える→ object画像をからの画像に乗っける
• ここまで指定してしまうとImage Impaintにも近い?
• 直前の発表の手法と比較して自分たちの優位性を主張
• 後攻が圧倒的に有利なルール.
• でも,工場の車庫に向かって右折レーンみたいな矢印が.その
矢印の手前にはP(parking)の文字が.
• 1枚3分くらいで生成!?まぁ,昔の写真みたいなもんか.
Oral
BlockDrop: Dynamic Inference Paths in
Residual Networks, Zuxuan Wu, et. al.
• ResNet重たすぎ!
• NIPS16で,多少test時にblockを落としても大丈夫,といってい
る.
• reinforcementが入力画像を元に,どのblockを落とすかを学習.
なるほど.
Spotlight
Interpretable Convolutional Neural
Networks, Quanshi Zhang
• Interpretable Convolutional Neural Net.
• inputは従来手法
• outputはinterpretable CNN (disentangled filter)
• FeatureMapの各Channelがカテゴリに一対一で対応.
• heat mapがめっちゃ簡単に見える.
• 技術的にも簡単なのではないか?と思いつつ.
• 新しい評価軸として,判定根拠のinterpretability(?)を提案.
• https://github.com/zqs1022/interpretableCNN
Spotlight
Deep Cross-Media Knowledge Transfer, Xin
Huang, Yuxin Peng et. al.
• Cross-media retrieval, across different media types (image-text)
• この手の発表は今回山程あったので,ほんと飽きてきたかも.
Spotlight
A Variational U-Net for Conditional Appearance
and Shape Generation, Patrick Esser, et. al.
• shape/pose/viewpointなど,コントロールしやすい項目をパラメ
タとしてappearanceを生成させることで,variationを増やす?
• 具体的な工夫は発表から読み取れなかった.
Spotlight
Detach and Adapt: Learning Cross-Domain
Disentangled Deep Representation, Y. C. Liu et. al.
• もう,名前で何やったかわかるはず.
Spotlight
Learning Deep Structured Active Contours
End-toEnd, Diego Marcos et. al.
• Snakeはいろんなlossが入っている.
• でもチューニングが面倒だった.みんなも覚えているだろ?(幻聴)
• Instance segmentation now. It works
• でも,それで本当にいいの?なんでもできる?学習重くない?
知らない物体には使えなくない?(橋本翻訳)
• CNNで良いsnakeの初期値を与える!という学習w
• Interactive Active Contours+強化学習の方が筋が良くない?
↑来年のCVPR2019でげふんげふん
Spotlight
Deep Learning Under Privileged Information
Using Heteroscedastic Dropout, J. Lambert et. al.
• ん?ちょっとわからない.
• Key Result: LUPI enables learning with Less Data. しかし精度を上げ
るものではない.
• Deep LUPI → サンプル数制限付きのImageNetでNo. 1.
Smooth Neighbors on Teacher Graphs for
Semi Supervised Learning, Yucen Luo et. al.
• 従来はデータ点間の繋がりを無視→ちょい工夫.
• https://github.com/xinmei9322/SNTG
ちょっと力尽きてきた.というかそろそろ自分の研究したくなってきた.
Interpret Neural Networks by Identifying Critical
Data Routing Paths, Yulong Wang et. al.
• interpretabilityは大事!(さっきも聞いたな)
• Critical Data Routing Pathsを特定することで,解釈できるようにす
る!
• Distillation Guided Routing
• channel pruningとknowledge distillationで.
• ちょっとすんなりわからなかった.control gatesを効率的に学習.
• intra-class clusteringは結構いい感じにrouteと対応する?
• 要するに,モデルを蒸留していって,数本のパスが1つのカテゴリに
対応するようにしちゃうってこと?
Deep Spatio-Temporal Random Fields for
Efficient Video Segmentation, S. Chandra et. al.
• Frame-by-Frame Prediction
• Video G-CRF めっちゃすごい!キッチンで使えそう.
• Deep Spatio-Temporal G-CRF
• ノードごとにprediction
• CRFをDenseに設定すると,いいんだけど,すごい思い.
• WeightのRankはめっちゃ低いはず.
• Inputs → S/Uの他にT-embeddingを用意. → CRF!
Customized Image Narrative Generation via Interactive
Visual Question Generation and Answering, A. S. et. al.
• Image Description Task
• Descriptorの興味に応じて生成モデルを変える.
• asking questions!
• We need questions whose answers can vary
• Visual Question G(G何?)をして興味を推定.
• 動物が二種類いる画像→どんな動物がいる? のような質問を生成.
• 着眼点が面白い.発展がありそう?
• Improvements to Context Based Self-Supervised Learning
• Self-supervised learningが好きすぎるちょっと危ないおじちゃんだったw
• Chroma-blur (La*b*空間で色のblurをかける)
• もう一つのタスクがよくわからなかった(単純な英語の語彙力不足?)
• 根拠がないなぁ…日曜大工的.
• Boosting Self-Supervised Learning via Knowledge Transfer
• Pseud-Taskで学習→クラスタリング→クラスタラベルを識別させる??
• 最後のPseud-label Assignmentのlabelがクラスタリング由来なのかどうか不明
• Pseud-TaskとしてもJigsawのピースに偽物をいれたJigsaw++を提案
• Towards Universal Representation for Unseen Action Recognition
• 動作識別のUnsupervised Domain Adaptation
• 動作ラベルの言語的特徴量を利用したknowledge transferぽいこと.
雑感
• 一人で,ハッとOracleが下りたかのような手法は,多分,会場内で同時に
100人くらいが受信している
• これだけ研究者が多いと,Brain Stormingとかで複数人がかりでようやく出るような
アイディアの方が貴重.
• コーディングよりブレスト!あなたが思いついた手法はあなた以外もやるから,自
ら手を動かす必要性は低い.長期的な戦略が大事.
• CVPR2019はxxだ!(個人的予想)
• 単にTransfer Learningをやるだけの研究は無事絶滅.だがTaskonomyに新しいタスク
を追加するだけの論文に入れ替わる.
• Self-supervised LearningはTaskonomyを利用してタスクの価値を評価される(べき).
• Person Re-IDは今回31件通ってoral/spotlightは(多分)0.でも中国系が続けるだろう.
• Action Recognition系にSelf-/Un-supervised Learningがますます増える.
• No-Deepは絶滅? → No Deep Learning協会を設立すべき…
• 今まで静止画でやって来た手法を動画に適用するだけのものはますます増える.
• だが,「チーム日本の大学」はわが道を行き続ける(餌に群がらない)
おまけ
• 3,4年後くらいまでに弊社もこんな感じで論文たくさん通したい.
• 先生方: 一緒に面白いことやりませんか?とりあえず相談から….
• 学生の皆様: 年中インターン募集中です!(集中型,バイト型あり)
詳しくはこちら

Cvpr2018 参加報告(速報版)3日目

  • 1.
  • 2.
    使用上の注意 • これは橋本のメモ資料です.いわば「チラシの裏」です.この資料を 見てなんじゃこりゃと思われたかたには大変申し訳ありません. (参考)もっと素敵な資料がCVPR Challengeから出ています •本スライドはチラ裏ですが,以下はまんま「チラシ」です. • 弊社ではインターン生を募集しております.東京から遠隔にお住まいの方で も長期休みを利用してフレキシブルにインターンしていただけます.東京に お住まいの方でも,週に数回など,授業・研究の合間に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪しいURLですが,弊社のスタートアップ感の迸りです)
  • 3.
    さらにチラシ • 関西CVPRML勉強会,および,関東CV勉強会でも発表します. • 関西CVPRML勉強会→selfsupervised learningを斜め読みします. • 静止画に対する手法と動画に対する手法を始め,CVPR2018でSelf-supervised, Unsupervisedと書いてある奴はできるだけ網羅したい. • ただし,時間の都合で端折るものはあるかも. • 関東CV→検討中.Graph Matchingかなー.論文読んで完璧に理解できれ ば.
  • 4.
    3日目朝のセッション(Session 3-1C) • Applications •飯山研究室(旧美濃研究室)のD1 藤村くんの発表がトップバッ ター! • You can’t miss it! • CVPRの研究でApplicationsに当てはまらない研究なんて…
  • 5.
  • 6.
    3日目朝のセッション(Session 3-1C 3-1-B) •Applications • Analyzing Humans (Spotlightsの途中から)
  • 7.
    Nonlinear 3D FaceMorphable Model Luan Tran, et. al. • エンコーダで,M branch, f_s branch, f_t branchに分ける. • Shape 特徴(f_sの出力)をEdit → 表情を変化させられる. • テクスチャ(f_tの出力)をEdit →Lightingを変更させられる. • wildな状況でも,かなりロバストにeditが可能. • 今回のCVPRの印象として,下記のネットワーク構造ほんと多い • エンコーダを分ける • それぞれ教師信号を変えてできること,できないことを分ける (Disentangle) • 何かをイジってから特徴を再び統合→GANの出力を操作できるよ! Spotlight
  • 8.
    Through-Wall Human PoseEstimation Using Radio Signals, Mingmin Zhao, et. al. • 壁の向こうの人間の姿勢を推定する! • WiFiでRF Reflectionを観測する. • RF SignalはかなりNoisyだが,人がいる位置が見えるのがわかる. • データセットはもちろん自前で作成 教師: RGB+Teacher Network (OpenPose) 学習データ RF+Student Network で学習 → RF-Pose! • あえてGroundTruthを見せずに「人間には無理」感を演出するス タイル. • なお,もちろん真っ暗でも動く. Spotlight
  • 9.
    What Makes aVideo a Video: Analyzing Temporal Information in Video Understanding Models and Datasets, De-An Huang, et. al. • 虎の映像に対し「これ虎的にはplayful」と言われて会場で笑いが起 きる. • 本当にtwo-stream modelはtemporal informationを含んでいるか? • C3D trained on UCF101で,時間変化を捉えるEncoderへの入力に対し て, 1. 同じフレームで埋め尽くす→精度がかなり下がるからやっぱりtemporalは何 かしら見てる 2. 最初のフレームから自動生成した動画を入れる→-10%くらいまではいく, 3. 良さげなフレームを選んで自動生成→-6% 4. OracleSelector(神のみぞ知る一番いいフレーム)で自動生成 → 従来手法を上回る!!! • 本当に動きはいるのだろうか?あるいは,活用できているのか? Spotlight
  • 10.
    Fast Video ObjectSegmentation by Reference- Guided Mask Propagation, S. W. Oh, et. al. • Linear 3DMM Revisited • Video Object Segmentation • 1frame目に与えられたSegmentationから分割を追跡 • online learningすると正確だけど遅い(?) • Reference-Guided Detection • 最初の画像の対象物体領域をMaskしてEncode, 現在のフレームとのtwo stream • 前のフレームのMaskを観測画像に足すと良い. Spotlight
  • 11.
    NeuralNetwork-Viterbi: A Frameworkfor Weakly Supervised Video Learning, A. Richard, et. al. • メモなし…迂闊. Spotlight
  • 12.
    Actor and Observer:Joint Modeling of First and ThirdPerson Videos, Gunnar A. Sigurdsson et. al. • 1st& 3rd observationを合体. • Dataset作った: Charades-Ego • 8000 paired 1st/3rd dataset, 68546 activities, 157 charades class! • お互いに検索を可能にする. • Cross-Modal Embedding系ですね. Spotlight
  • 13.
    HSA-RNN: Hierarchical Structure-AdaptiveRNN for Video Summarization, Bin Zhao et. al. • ひどいな,文章が小さい文字で書いてあって,それを読み上げ ているだけ. • 小さくて読めない. • 図も論文に載せたものを載せただけ • frameの切り替わりで分けて特徴抽出→それらをさらにネット ワークの下流で統合. • 目的は編集済みのTV番組を識別すること??? • ごくごく稀に,ですが某国の発表でこういう論文通ったらプレゼンはどうでも良い,というのがあ ります.研究者に対する評価を論文等の発表回数で調べることの弊害だと思います.通れば後は野 となれ山となれ.日本でも明日は我が身でこういう研究者がいつ出てきても全くおかしくない状況. Spotlight
  • 14.
    Fast and AccurateOnline Video Object Segmentation via Tracking Parts, J. Cheng et. al. • Conventional Pipeline • Foreground/Background Objects は事前に学習 • Object毎にspecificなNetworkを構築. • Challenge: • Instance-level tracking • Pixel-wise Tracking • Proposed Framework • Part-based tracking: localize instances (replace fine-tuning) • ROI SegNet (object-specificで十分なのでfixed. • 早くて正確! Spotlight
  • 15.
    Now You ShakeMe: Towards Automatic 4D Cinema, Y. Zhou et. al. • メモがない… • 動画+音声を処理する • やはりCross-modal系. Spotlight
  • 16.
    Viewpoint-Aware Video Summarization,A Kanehira et. al. • すみません…ポスター発表があったので途中で抜けました
  • 17.
    ここからポスターセッション (見守って手伝っていたので本数少なめです) • Non-Local NeuralNetworks • 局所性を減らすために,あるCNNの出力を,周辺のCNNの出力との類似 度に基づいて計算するLayerを提案. • そのレイヤーの直後だけでなく,前後にずっと影響するので,そこに 挟むだけでいい感じに影響が残るのかな? • ただし,TxWxHxCの全結合みたいなパラメタ数になる,しかもT,W,Hは 50くらいらしい. • そりゃNon-Localだぜ,と思える. • 隣で聞いていた人が怒る.こりゃ詐欺だ,と. • 多分,演算方法の良さでI3Dより2/3くらいのサイズになるのが良いのだろうが, それが伝わってない? • 5月CVIM研究会の佐藤いまり先生のご講演を思い出した. (タイトルが背伸びをしすぎて周りを期待させるものになっている? 共著者(A. Gupta)の名前も,かも知れないが…)
  • 18.
    • What HaveWe Learned From Deep Representations for Action Recognition? (論文既読) • 学習されたCNNのある層のあるチャンネルが何に反応しているか,の 可視化 with Two-Streamモデル. • 学習済みモデルのパラメタは固定して,目的の層がMaxに活性化して いる状態を下記の手順で作成 1. 学習データで,実際どれくらい反応したのか,最大値を場所ごとに記録 2. 入力に白色ノイズを入れて,誤差逆伝播で最大値との誤差をなくすよう学習 • 入力の時空間的な連続性に制約を入れることで,解析対象の信号に対するHigh/Low- pass filter的な制御を書けることができる. • しかし,結構「曇りなき眼」で見ないと,結論の全てには同意できな いw • Face Aging With Identity-Preserved Conditional Generative Adversarial Networks, • 山程あったTwo-Streamに分ける系の一つ.
  • 19.
    • Unsupervised Cross-DatasetPerson Re-Identification by Transfer Learning of Spatial-Temporal Patterns, • 著者不在&文字情報過多につき,パス. • 図もわかりにくい… • Unsupervised Domain Adaptation With Similarity Learning • 詳細忘却…思い出せない… • Embeddingとか他のとは違う,もっとアドホックなやり方っぽかった.
  • 20.
  • 21.
  • 22.
    Total Capture: A3D Deformation Model for Tracking Faces, Hands, and Bodies, H. Joo et. al. • OpenPoseからガンガン来ているCMUのプロジェクトの続編 • The Goal: Face, Hand, Bodyを全部同時にmotion capture! > Total body motion capture • Face, body, handそれぞれ沢山研究がある→全て統合 • デモ映像,手と顔だけが詳細だから,ちょっと気持ち悪いw • bodyと他の2つが解像度違うから,ちょっと工夫が必要. • 生成したbodyの顔と手の位置に,生成した顔と手を合成. • Foot Keypointもちょっと追加? • 観測した点群をICPでfitting ←ECCV当りでこれを改善して刻んで来そう… • 顔と手のつなぎ目は専用に別のlossを作成するなど. • Frank model / Adam model / bone model • 新しいOpenPoseのバージョンリリースを用意. Oral, Best Student Paper
  • 23.
    Augmented Skeleton SpaceTransfer for Depth- Based Hand Pose Estimation, S. Baek et.al. • Real Synthetic Data Collection • 2.5D -> 3D projection →missing pixels, changing hand shape • skelton spaceで類似したサンプルを探して埋める?? • CVPR2015のbest paper(Dynamic Fusion)とかがあれば,これいらないん じゃ…という気もする.one-shotでできるからいいのかな.手法の使い 所がわからない. • joint training of HPE/HPG/HPDx/HPDy で学習. Oral
  • 24.
    Synthesizing Images ofHumans in Unseen Poses, Guha Balakrishnan, et. al. • ゴルフのシーンで,ゴルファーを見たことのないような姿勢に する研究. • Source PoseからTarget Poseに変更する方法 • 正解データがあれば学習ベースでいける • UNet-style ArchiTecture → Output ImageではArtifactがたくさん. • body partをsegmentationして目的の位置に動かす. • decoder部分では目的の位置にbody partsを埋め込んで背景をimpaintし た画像を生成した画像になる. • BGとFG/BG MaskとFG画像を別々に生成→alpha blending. • VGG19+GANがやっぱりきれい. • とはいえ,やっぱりなんか変な影が合ったり,3D的な体節の繋がりが不自然な感じが…GANでもっ といいやつ沢山あったけどこれがOral. Oral
  • 25.
    SSNet: Scale SelectionNetwork for Online 3D Action Prediction, Jun Liu et. al. • skelton-baseのAction Recognition • Left-to-RightなHMMみたいにConv Layerを繋いでいるっぽい. • Time Scaleに柔軟に対応(なんでできるのかよくわからなかった) • 結構いい感じの精度がでた. Spotlight
  • 26.
    Detecting and RecognizingHuman-Object Interactions, Georgia Gkioxari et. al. • Human Object Interaction: humanとobjectが検出できるけど, humanはいくつかのアクションを同時にできる→actionごとに humanとobjectの組み合わせが変わる. • 料理をしながらテレビを見てる人 ←これ,多分,テレビ見てるけどcut してないよね…. • ネットワーク構造 • object detection branch • human-centric branch → action と targetを出す. • interaction branch → b_humanとb_objectからactionを出す. • V-COCO, HICO-Det ←精度的にめっちゃチャレンジングっぽい? Spotlight
  • 27.
    Unsupervised Learning andSegmentation of Complex Activities From Video, Fadime Sener, Angela Yao • コーヒーを入れるだけで6 activity. • Given: Collection of videos, all of the same complex activity K • 順番も変わるし,関係ないフレームもあるし,put stove/take from stove// variational appearance/ skips • めっちゃ難し. • video segmentの順番を決めたい. • appearanceの類似性でクラスタリング • Mallows modelを使う. • Datasets: Breakfast Actions / Inria Instructional Videos Spotlight
  • 28.
    Pose-Guided Photorealistic FaceRotation, Yibo Hu, Xiang Wu, Bing Yu, Ran He, Zhenan Sun • めっちゃ横向いていてもものすごくきれいに正面顔を生成. • 提案手法: CAPG-GAN • 生成画像を使ったFace Identification > 精度が従来手法よりずっと 向上! • Dataset色々で試してOKだった! • この手の手法,多すぎるし,みんな似たり寄ったりで飽きてきた… Spotlight
  • 29.
    Mesoscopic Facial GeometryInference Using Deep Neural Networks, L. Huynh, et. al. • 従来: multi-viewでとって3D + photometric stereoでテクスチャ獲得! • photometric stereoはめんどいから3Dモデルをめっちゃ高い解像度で取って テクスチャを不要にしよう. • 4K Resolution Mapを作成→めっちゃ解像度の高くてシワまであるよう なテクスチャ作ったら良くない? • Dataset: 自分で作ったよ. • いや,テクスチャがないと不気味の谷に入りすぎ… Spotlight
  • 30.
    Hand PointNet: 3DHand Pose Estimation Using Point Sets, Liuhao Ge • PointNetを使って,点群から姿勢を直接推定させたよ. • 流石に1行で説明できる論文が来るとは思わなかった Spotlight
  • 31.
    Seeing Voices andHearing Faces: Cross-Modal Biometric Matching, Arsha Nagrani et. al. • tripletで声と顔の特徴を同じ特徴空間にEmbedding. • # of sperkers: Training 1,058, Test 189 • # of face-tracks 131,110 Test 2,2xx (xxはメモ間に合わず) • Cross-model feature embedding Spotlight
  • 32.
    Learning Monocular 3DHuman Pose Estimation From Multi-View Images, Helge Rhodin et. al. • Monocular 3D human pose estimation • Domain Adaptationが必要. • やった. Spotlight
  • 33.
    Separating Style andContent for Generalized Style Transfer, Yexun Zhang et. al. • Multi-viewで見たときには同じ姿勢が別のappearance →この同一 性を使ったsemi-supervise! • Labeled Sample → どれかのview-angleに似た姿勢を探す→ラベル をつける→それに近いやつを探す→… (これを繰り返す) • Dataset: Ski-PosePTZDataset • multi-viewでスキーヤーの姿勢(シルエット)が取れる? • かなりきれいに姿勢推定できるように学習できた! Spotlight
  • 34.
    TextureGAN: Controlling DeepImage Synthesis With Texture Patches, Wenqi Xian et. al. • Generalized Style Transfer • Represent each style and content with a small set of reference images • → Paired Cycle-GANの方がstyleを1枚でできるから楽しい? • 英語綺麗すぎて草.アナウンサーみたい. • inputはtexture (一部)と線画のカバン→テクスチャが貼られた画 像を生成するGAN. Spotlight
  • 35.
  • 36.
    StarGAN: Unified GenerativeAdversarial Networks for Multi-Domain Image-to-Image Translation, Yunjey Choi • Encoder/Decoder: 256x256 • multiple domainに対応! • Real/Faceに対するadversarial loss と Domain Classification loss • さらにCycle lossを加えてIdentityを担保. • tasks: age change, facial expression synthesis, … • 表情合成に対して,classification errorを計算→real imagesのエ ラーは0.45, DIETは4.xxx, CycleGANは5.9X, StarGANは2.12 Oral
  • 37.
    High-Resolution Image Synthesisand Semantic Manipulation With Conditional GANs, T. Wang et. al. • Image-to-image translation • high resolutionへのsemantic seg. • pix2pixがbaseline • Extending to high resolution • low resolutionでEnc-Decモデルを作っちゃう • 次に,高解像度→低解像度サイズへConv →Decの出力に足して高解像度化する. • Instance Mapを加えると連続する同一カテゴリ領域に対するミスが減る. まぁ,そりゃそうだ. • instance-wise average pooling ←ちょっとずるいような気が…. • instance mapよりも,layer構造(手前か後ろか)が合ったほうが良いのではないかと. Abstracted-Depthみたいなの? • pix2pix, CRNよりずっと解像度が高い.高解像度に対応! • vid2vidHDにまで拡張. • PhotoShopが捗る. • 時間方向の一貫性については,ちょっと怪しい←そもそもそんな制約まだ入れられて 無くてframe-wiseの処理結果をつなげているだけかも. Oral •https://tcwang0509.github.io/pix2pixHD/
  • 38.
    Semi-Parametric Image Synthesis,Xiaojuan Qi, Qifeng Chen, et. al. • 従来手法はNon-parametricアプローチ.あらゆるシーンを一つ のモデルで同時に学習することはできない. • object 領域のみの画像をtrainingセットとする. • Semantic Layoutを与える→ object画像をからの画像に乗っける • ここまで指定してしまうとImage Impaintにも近い? • 直前の発表の手法と比較して自分たちの優位性を主張 • 後攻が圧倒的に有利なルール. • でも,工場の車庫に向かって右折レーンみたいな矢印が.その 矢印の手前にはP(parking)の文字が. • 1枚3分くらいで生成!?まぁ,昔の写真みたいなもんか. Oral
  • 39.
    BlockDrop: Dynamic InferencePaths in Residual Networks, Zuxuan Wu, et. al. • ResNet重たすぎ! • NIPS16で,多少test時にblockを落としても大丈夫,といってい る. • reinforcementが入力画像を元に,どのblockを落とすかを学習. なるほど. Spotlight
  • 40.
    Interpretable Convolutional Neural Networks,Quanshi Zhang • Interpretable Convolutional Neural Net. • inputは従来手法 • outputはinterpretable CNN (disentangled filter) • FeatureMapの各Channelがカテゴリに一対一で対応. • heat mapがめっちゃ簡単に見える. • 技術的にも簡単なのではないか?と思いつつ. • 新しい評価軸として,判定根拠のinterpretability(?)を提案. • https://github.com/zqs1022/interpretableCNN Spotlight
  • 41.
    Deep Cross-Media KnowledgeTransfer, Xin Huang, Yuxin Peng et. al. • Cross-media retrieval, across different media types (image-text) • この手の発表は今回山程あったので,ほんと飽きてきたかも. Spotlight
  • 42.
    A Variational U-Netfor Conditional Appearance and Shape Generation, Patrick Esser, et. al. • shape/pose/viewpointなど,コントロールしやすい項目をパラメ タとしてappearanceを生成させることで,variationを増やす? • 具体的な工夫は発表から読み取れなかった. Spotlight
  • 43.
    Detach and Adapt:Learning Cross-Domain Disentangled Deep Representation, Y. C. Liu et. al. • もう,名前で何やったかわかるはず. Spotlight
  • 44.
    Learning Deep StructuredActive Contours End-toEnd, Diego Marcos et. al. • Snakeはいろんなlossが入っている. • でもチューニングが面倒だった.みんなも覚えているだろ?(幻聴) • Instance segmentation now. It works • でも,それで本当にいいの?なんでもできる?学習重くない? 知らない物体には使えなくない?(橋本翻訳) • CNNで良いsnakeの初期値を与える!という学習w • Interactive Active Contours+強化学習の方が筋が良くない? ↑来年のCVPR2019でげふんげふん Spotlight
  • 45.
    Deep Learning UnderPrivileged Information Using Heteroscedastic Dropout, J. Lambert et. al. • ん?ちょっとわからない. • Key Result: LUPI enables learning with Less Data. しかし精度を上げ るものではない. • Deep LUPI → サンプル数制限付きのImageNetでNo. 1.
  • 46.
    Smooth Neighbors onTeacher Graphs for Semi Supervised Learning, Yucen Luo et. al. • 従来はデータ点間の繋がりを無視→ちょい工夫. • https://github.com/xinmei9322/SNTG ちょっと力尽きてきた.というかそろそろ自分の研究したくなってきた.
  • 47.
    Interpret Neural Networksby Identifying Critical Data Routing Paths, Yulong Wang et. al. • interpretabilityは大事!(さっきも聞いたな) • Critical Data Routing Pathsを特定することで,解釈できるようにす る! • Distillation Guided Routing • channel pruningとknowledge distillationで. • ちょっとすんなりわからなかった.control gatesを効率的に学習. • intra-class clusteringは結構いい感じにrouteと対応する? • 要するに,モデルを蒸留していって,数本のパスが1つのカテゴリに 対応するようにしちゃうってこと?
  • 48.
    Deep Spatio-Temporal RandomFields for Efficient Video Segmentation, S. Chandra et. al. • Frame-by-Frame Prediction • Video G-CRF めっちゃすごい!キッチンで使えそう. • Deep Spatio-Temporal G-CRF • ノードごとにprediction • CRFをDenseに設定すると,いいんだけど,すごい思い. • WeightのRankはめっちゃ低いはず. • Inputs → S/Uの他にT-embeddingを用意. → CRF!
  • 49.
    Customized Image NarrativeGeneration via Interactive Visual Question Generation and Answering, A. S. et. al. • Image Description Task • Descriptorの興味に応じて生成モデルを変える. • asking questions! • We need questions whose answers can vary • Visual Question G(G何?)をして興味を推定. • 動物が二種類いる画像→どんな動物がいる? のような質問を生成. • 着眼点が面白い.発展がありそう?
  • 50.
    • Improvements toContext Based Self-Supervised Learning • Self-supervised learningが好きすぎるちょっと危ないおじちゃんだったw • Chroma-blur (La*b*空間で色のblurをかける) • もう一つのタスクがよくわからなかった(単純な英語の語彙力不足?) • 根拠がないなぁ…日曜大工的. • Boosting Self-Supervised Learning via Knowledge Transfer • Pseud-Taskで学習→クラスタリング→クラスタラベルを識別させる?? • 最後のPseud-label Assignmentのlabelがクラスタリング由来なのかどうか不明 • Pseud-TaskとしてもJigsawのピースに偽物をいれたJigsaw++を提案 • Towards Universal Representation for Unseen Action Recognition • 動作識別のUnsupervised Domain Adaptation • 動作ラベルの言語的特徴量を利用したknowledge transferぽいこと.
  • 51.
    雑感 • 一人で,ハッとOracleが下りたかのような手法は,多分,会場内で同時に 100人くらいが受信している • これだけ研究者が多いと,BrainStormingとかで複数人がかりでようやく出るような アイディアの方が貴重. • コーディングよりブレスト!あなたが思いついた手法はあなた以外もやるから,自 ら手を動かす必要性は低い.長期的な戦略が大事. • CVPR2019はxxだ!(個人的予想) • 単にTransfer Learningをやるだけの研究は無事絶滅.だがTaskonomyに新しいタスク を追加するだけの論文に入れ替わる. • Self-supervised LearningはTaskonomyを利用してタスクの価値を評価される(べき). • Person Re-IDは今回31件通ってoral/spotlightは(多分)0.でも中国系が続けるだろう. • Action Recognition系にSelf-/Un-supervised Learningがますます増える. • No-Deepは絶滅? → No Deep Learning協会を設立すべき… • 今まで静止画でやって来た手法を動画に適用するだけのものはますます増える. • だが,「チーム日本の大学」はわが道を行き続ける(餌に群がらない)
  • 52.
    おまけ • 3,4年後くらいまでに弊社もこんな感じで論文たくさん通したい. • 先生方:一緒に面白いことやりませんか?とりあえず相談から…. • 学生の皆様: 年中インターン募集中です!(集中型,バイト型あり) 詳しくはこちら