Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
CVPR2017参加報告
(速報版・四日目)
2017.7.25(現地時間)
@a_hasimoto
このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と,あとでのreferenceをたどるために
メモしたものです.
9/18(月・祝),関西CVPRML勉強会にて,解説を予定.
→ https:/...
四日目総評
• YOLO9000の陽キャっぷりがやばい.
• 時系列データに対するself-supervised learningは来年辺り増えそうな
予感.
• 未来を予測するようにモデルを学習
• 先々週に思いついたら,それが実現可能である...
Geometric Deep Learning on Graphs and
Manifolds Using Mixture Model CNNs,
Federico Monti et al.
• geometric data: networkな...
Fine-Grained Recognition as HSnet Search for
Informative Image Parts,
Michael Lam, Behrooz Mahasseni, Sinisa Todorovic
• 凄...
G2DeNet: Global Gaussian Distribution
Embedding Network and Its Application to
Visual Recognition, Qilong Wang, Peihua Li,...
YOLO9000: Better, Faster, Stronger,
Joseph Redmon, Ali Farhadi
• Better, Faster, Strongerの元ネタ?
• https://www.youtube.com/w...
Ubernet: Training a Universal Convolutional
Neural Network for Low-, Mid-, and High-Level
Vision Using Diverse Datasets an...
Object Region Mining With Adversarial Erasing:
A Simple Classification to Semantic Segmentation
Approach, Yunchao Wei
• 画素...
Hidden Layers in Perceptual Learning
Gad Cohen, Daphna Weinshall
• 転移学習時のネットワークの振る舞いに関する解析の論文
• 網膜くらいの原始的なフィルタを作るような信号で学習,...
Full Resolution Image Compression With
Recurrent Neural Networks, George Toderici et al.
• 画像圧縮をRNNでやる→なんでこれをCVPRに出したの?→DN...
Neural Face Editing With Intrinsic Image
Disentangling, Zhixin Shu et al.
• 入力画像からshadeとnormalsをalbedoをCNNで推定
→これらに関する演算が可...
Generalized Deep Image to Image Regression,
Venkataraman Santhanam, Vlad I. Morariu, Larry S. Davis
• RGB→Depth,モノクロ→カラーみた...
Deep Hashing Network for Unsupervised
Domain Adaptation, Hemanth Venkateswara
• 教師なし転移学習
• k-NNで何処のハッシュに入るかを判定すると精度が◯
• ha...
Gaze Embeddings for Zero-Shot Image
Classification, Nour Karessli et al.
• gazeはnovice users + implicitに取得
(implicitってどういう...
Not All Pixels Are Equal: Difficulty-Aware
Semantic Segmentation via Deep Layer
Cascade, Xiaoxiao Li, Ziwei Liu, Ping Luo,...
Residual Attention Network for Image
Classification, Fei Wang et al.
• Attention を予測するのに特化したネットワークモデルを作っ
た.
• それ以上の理解ができてい...
Learning Non-Maximum Suppression,
Jan Hosang, Rodrigo Benenson, Bernt Schiele
• maximum suppressionがhand craftedだよね.これをなくそ...
The Amazing Mysteries of the Gutter: Drawing
Inferences Between Panels in Comic Book
Narratives, Mohit Iyyer, et al.
• コミッ...
Deep Learning With Low Precision by Half-
Wave Gaussian Quantization
Zhaowei Cai, Xiaodong He, Jian Sun, Nuno Vasconcelos
...
Creativity: Generating Diverse Questions Using
Variational Autoencoders,
Unnat Jain, Ziyu Zhang, Alexander G. Schwing Prog...
Are You Smarter Than a Sixth Grader?
Textbook Question Answering for Multimodal
Machine Comprehension, Aniruddha Kembhavi ...
Hallucinating Very Low-Resolution Unaligned
and Noisy Face Images by Transformative
Discriminative Autoencoders, Xin Yu, F...
Adversarially Tuned Scene Generation,
VSR Veeravasarapu, Constantin Rothkopf, Ramesh Visvanathan
• GANでの生成に,simulationのコント...
ポスター: 良く見て聴いてきたリスト
(面白いと思ったもののみ掲載)
• 希望があれば関西CVPRML勉強会で解説.
• Unsupervised Learning of Long-Term Motion Dynamics for Videos...
続き
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト(面白いと思ったもののみ掲載)
• Online Graph Completion: Multivariate Signal Recovery in Compute...
Upcoming SlideShare
Loading in …5
×

CVPR2017 参加報告 速報版 本会議 4日目

1,482 views

Published on

最終日の参加報告.最後のポスターセッションは体調不良のため,余り回れていません.キーノートも.
三日坊主にならなかったのは,私が見栄っ張りだから.

Published in: Technology
  • Be the first to comment

CVPR2017 参加報告 速報版 本会議 4日目

  1. 1. CVPR2017参加報告 (速報版・四日目) 2017.7.25(現地時間) @a_hasimoto
  2. 2. このスライドについて 1. 本会議での発表の内容を 2. 印象に残ったものだけ 3. その時の印象と,あとでのreferenceをたどるために メモしたものです. 9/18(月・祝),関西CVPRML勉強会にて,解説を予定. → https://twitter.com/kansaicvprml 私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ の他議論大歓迎.
  3. 3. 四日目総評 • YOLO9000の陽キャっぷりがやばい. • 時系列データに対するself-supervised learningは来年辺り増えそうな 予感. • 未来を予測するようにモデルを学習 • 先々週に思いついたら,それが実現可能であることを今日, 結果とともに知り ました. • データセットと時間とめちゃんこリッチなGPGPU環境が無いと機械学 習系でTop Conferenceは無理,という印象(今更?). • 日本で太刀打ちできる研究室が何個あるだろうか…. • 今回のCVPRで何個も発表している大学がちらほら →大学のレベルだけでなく,設備の差が露骨にでている気がする…. • 全く予算もなく,データもない日本の大学では基礎研究すらできない分野にな りつつある(というか一部有力研究室を除いてほとんどの大学の研究室で不可 能になってる→企業の皆さん,大学の先生をこき使うチャンスですよ!)
  4. 4. Geometric Deep Learning on Graphs and Manifolds Using Mixture Model CNNs, Federico Monti et al. • geometric data: networkなどのgraphのデータ: 地図情報や点群など. • グラフ構造の中でconvolutionをする→Graph Spectralを利用. • Graph Fourier空間でconvolution: 概念的にはFourier空間で掛け算す ればconvolutionになる. • →Graph上では,様々な”掛け算”が提案されている→手法によって 全然違う結果が得られている • Mixture Model CNN • おちた.グラフの構造だけでなく,点座標を取り入れた計算?? • FAUST datasetを操作.点群を自然に動かしている • グラフ信号処理,去年の夏に勉強したけど,まだ勉強し足りない.
  5. 5. Fine-Grained Recognition as HSnet Search for Informative Image Parts, Michael Lam, Behrooz Mahasseni, Sinisa Todorovic • 凄くよく似た2クラス→違いがある部分(注目すべきパーツ)を見 つけたい. • part-based modelsはポテンシャルがある. • ただし,速度が遅い • 物体認識の問題では,部位情報は事前に与えられていない • 最初は重なりなくならんだ定数個の矩形(proposal)を.徐々に クラスを見分けるために重要なパートを見る位置に移動 • HSnetがproposalを変更 • HS: Heuristic functionとSuccessor function • 要するに,Weak supervised的な処理をする,ということ. • LSTMを入れた方が結果が良い ← ここはtry & errorぽい
  6. 6. G2DeNet: Global Gaussian Distribution Embedding Network and Its Application to Visual Recognition, Qilong Wang, Peihua Li, Lei Zhang • 学習可能な層の種類を増やしたい. • Conv, Pooling, FCくらいしかないけど,いいの? • Gaussianいいよね. • global Gaussian embedding layerを提案. • Explicit formを入れよう! • GaussianをCholesky分解して得られる下三角行列を…?? • ちょっとよくわからなかった,すみません...
  7. 7. YOLO9000: Better, Faster, Stronger, Joseph Redmon, Ali Farhadi • Better, Faster, Strongerの元ネタ? • https://www.youtube.com/watch?v=gAjR4_CbPpQ • ポスターがネタ.デスクトップ画像もterminalのカラーもネタ. • https://twitter.com/RanjayKrishna/status/890019079959879680 • https://twitter.com/MonaJalal_/status/890106242768785408 • デモは圧倒的クオリティ. • 発表スライドにベジータが現れる程度にネタ満載. • 発表内容は,トリックを増やしたというより,かなり愚直に, 地道に,精度改善に取り組んだ,ということのよう. • マルチスケールでの学習,入力画像の解像度の向上 • 9000カテゴリの階層構造をwordnetだけでなく,頑張って構築.
  8. 8. Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory, Iasonas Kokkinos • いろんな画像処理を全部できるようなCNNを作ろう! • いろんな問題を解いているけど,同時に解けると良いよね • normal estimation saliency boundary detection, semantic segmentation, object parts, • 全部の正解が付いたデータセットはない→各種データセットを継ぎ接ぎで使 う. • メモリには限界があるので,別々のネットワークを最終層だけ繋ぐ, とかは無理. • いろんなデータセットのサンプルをrandomな順番(?)でどんどん学 習! • でもバッチサイズ10 imageだけだとgradientがほとんど取れない. • 20 imageだと? (メモ取ってて聴き逃した) • タスクが多すぎてVGGでは足りない(写真)←本当か? • 抽象度の違うタスクが混ざりすぎているのではないか,と私は思う.
  9. 9. Object Region Mining With Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach, Yunchao Wei • 画素単位のアノテーションの作成は大変→Weakly-supervised 大事! • SOTA: Top-down Attention Approaches(従来手法) • 画像認識に寄与した画素のヒートマップをseedに領域抽出 • 問題点: 認識に寄与する特定の要素しか反応しない→領域全体を綺麗に取れない. • Adversarial Erasing: ヒートマップが高い部分から領域を特定→そこにマス クをして,再度認識処理をして新たなヒートマップを計算,繰り返し. • 画像には複数のタグ→タグ付けされた物体毎に,これをやる. • いっている通りにやっても上手く動かないような気がする(マスクが Artifactにならないように,どう処理しているのか謎) • 途中のpooling layerの出力を0にするとかかな. • 従来よりは高い精度を達成 (精度55%くらい)
  10. 10. Hidden Layers in Perceptual Learning Gad Cohen, Daphna Weinshall • 転移学習時のネットワークの振る舞いに関する解析の論文 • 網膜くらいの原始的なフィルタを作るような信号で学習,別の フィルタになるように転移学習? • この辺りの動機などを全然理解していないので,ちょっとこの文献は 理解できていません….
  11. 11. Full Resolution Image Compression With Recurrent Neural Networks, George Toderici et al. • 画像圧縮をRNNでやる→なんでこれをCVPRに出したの?→DNN使ってて, 査読プロセスに合いそうだったから. (逆に元のコミュニティでは通らな い??) • Neural Image Compression Wishlist • outperform, single model, progressive(画像を部分毎に圧縮可能) • One Shot Reconstruction: オリジナル画像をCov-RNNに入れて二値化. • 復元したものと元画像のresidualを計算→resnet様に何回も繰り返す. • Additive Reconstruction; 前の結果に対して,残差に基づいて修正パッチ みたいなものを学習するようにネットワークを作成. • # これで本当に良くなるのか??? • さらに,出力に対してentropy lossを入れる? • Kodak Dataset • Arithmetic CodingやResidual GRU (One Shot) Entropy Codingが精度向上に寄与 • 精度をかなり改善することができた.
  12. 12. Neural Face Editing With Intrinsic Image Disentangling, Zhixin Shu et al. • 入力画像からshadeとnormalsをalbedoをCNNで推定 →これらに関する演算が可能に. • 表情とか様々なコントロールパラメタで顔を編集可能にする by Adversarial loss • 本当に,googleがGANでお絵描きしているのをみてもピンと来なかっ た自分が恥ずかしい. • 結果,確かに表情などが操作できていて凄い. • 凄い…が,しかし,目元の印象が大分変わってしまって,別人になっ ているんですが,それは…w.
  13. 13. Generalized Deep Image to Image Regression, Venkataraman Santhanam, Vlad I. Morariu, Larry S. Davis • RGB→Depth,モノクロ→カラーみたいな回帰 浅い層で解像度が半分になった画像に対して conv→pooling→upsamplingを繰り返して,多重解像度でやる と精度が上がる,ということ? • それぞれ画像サイズが半分以下になるので,合計でもパラメタ は2倍程度
  14. 14. Deep Hashing Network for Unsupervised Domain Adaptation, Hemanth Venkateswara • 教師なし転移学習 • k-NNで何処のハッシュに入るかを判定すると精度が◯ • hamming距離を使ってハッシングすると良い • ↑なんでかわからなかった • Hashingに AlexNetを使った(何故?) • source domainで正解付きで学習 → target のところはentropyベースのlossファンクション (cross entropy lossのこと??でもunsupervisedだから違う?)で 学習. • Office-Home Dataset 実写とイラストで手法を評価.
  15. 15. Gaze Embeddings for Zero-Shot Image Classification, Nour Karessli et al. • gazeはnovice users + implicitに取得 (implicitってどういうこと?) • Gaze Collectionを集めたのが一つのcontribution. • データセットがコントリビューションになるのか…. • gaze feature: xy, duration, sequence, pupil diameter • ネットワークの設計について • gaze featureをさっさとfusionするか,処理後にfusionするか,などを 評価. • 色々,調べました…か.
  16. 16. Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade, Xiaoxiao Li, Ziwei Liu, Ping Luo, Chen Change Loy, Xiaoou Tang • ネットワークがdeepすぎる&Feature Mapが高解像度すぎる. → パフォーマンス下げずに早くしたい. • セグメンテーションが簡単にできる部分と,中間と,難しい部 分がある • 最初に浅い層で簡単な部分の画素ラベル付けをし,次の層で中間レベ ルの難しさの部分を処理して,最後に細かい物体や境界付近だけを相 手にした処理をする. • Region ConvolutionまでReal-timeを達成.
  17. 17. Residual Attention Network for Image Classification, Fei Wang et al. • Attention を予測するのに特化したネットワークモデルを作っ た. • それ以上の理解ができていないです…. • CNNの研究は,本当に説明がついていないものが多い気がする…. • 4分のshort oralならこんなもの?
  18. 18. Learning Non-Maximum Suppression, Jan Hosang, Rodrigo Benenson, Bernt Schiele • maximum suppressionがhand craftedだよね.これをなくそ う! • Matching lossを取り入れる.一つだけマッチする,という仮 定をおく. • 重なっている矩形のIoUや矩形内物体の同一性なども考慮 • 正直,ちょっと細かくどういう要素を考慮したのかは議論から落ちた. • 上記のように同一物体に起因する矩形の重複に対するloss functionを設定 • Maximum Suppressionをせずに最初からばっちり矩形をだすような学 習を行った→Non-Maximum Suppression
  19. 19. The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives, Mohit Iyyer, et al. • コミック工学! • アメコミ風スライドは読みにくいからマジ勘弁してください. • The Comics Dataset • セリフの自動生成 • 前のコマの状態をLSTMにいれてやる. • テキストや画像の文脈,キャラクターの口調の同一性を全部総合的に 組み合わせる必要 • 会場が広すぎて,「A,B,Cどのセリフが正しいでしょう?」という質問 に誰も答えず,空振り.発表者テンション高すぎ. • 前フリ長過ぎる.問題の難しさやおもしろさを語って,これを なんとかするからポスターに来い!という感じに終わった. • ニッチな研究のshort oralとしては正しい戦略…か?
  20. 20. Deep Learning With Low Precision by Half- Wave Gaussian Quantization Zhaowei Cai, Xiaodong He, Jian Sun, Nuno Vasconcelos • Half-wave Gaussian Quantization: ReLUじゃなくて2段階のス テップ関数様のカーネルを使いたい • なぜよくなるの?low precisionだから?? • やっぱり駄目らしい? スライドの構成がややこしい…. • Long tailed Reluを作った←これがコントリビューション?? • インド英語?みたいなかなり早口の訛った英語,つらい.
  21. 21. Creativity: Generating Diverse Questions Using Variational Autoencoders, Unnat Jain, Ziyu Zhang, Alexander G. Schwing Program • 従来→画像からrepresentationを抽出→Questionのマップを作 成する→一番それっぽいQuestionを質問する. • P(x|z)をRNNを使って作成.LSTMを使う. • ちょっと全体的に,よくわからなかった. • 集中して聞けてない...最終日かつshort oral 8本目とはいえ….
  22. 22. Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension, Aniruddha Kembhavi et al. • 東大プロジェクトのような話. • データセットとベンチマーク • 技術的には自然言語処理のタスクが多そう. • テキスト-画像間の関係と共に,知識を教科書から自動で学習 し,テストを回答する. • 東大プロジェクトの報告と同じような難しさを指摘. • 最近の深層学習ベースのマルチメディア処理で,これから進展しそう, と感じた. • こんかい,ワークショップも行われている.
  23. 23. Hallucinating Very Low-Resolution Unaligned and Noisy Face Images by Transformative Discriminative Autoencoders, Xin Yu, Fatih Porikli • 低解像度の顔画像からの高解像度顔復元(Hallucination) • 特に低解像度画像に激しいノイズがのっている(夜間の監視カ メラとか??)状況を想定. • 一旦,ノイズ除去のために decode ->高解像度→ encode→元 の解像度だけどノイズが減っている画像,という前処理を入れ てから,もう一度decodeして高解像度化すると精度があがる. • なぜ?
  24. 24. Adversarially Tuned Scene Generation, VSR Veeravasarapu, Constantin Rothkopf, Ramesh Visvanathan • GANでの生成に,simulationのコントロールパラメタが欲しい • simulatedが処理の中に入っていれば,コントロールできるはず,とい うこと? • GANをそういう風に使う手法がおなじ会議で提案されすぎてて新規性 に聞こえない…. • 道路の交通シーンを生成する,など.
  25. 25. ポスター: 良く見て聴いてきたリスト (面白いと思ったもののみ掲載) • 希望があれば関西CVPRML勉強会で解説. • Unsupervised Learning of Long-Term Motion Dynamics for Videos, Zelun Luo, Boya Peng, De-An Huang, Alexandre Alahi, Li Fei-Fei • 数フレーム先の運動状態を予測するようなタスクを,bottle neckありのネットワークに読み込ませる. • bottle neck部分の出力=動作特徴!→fine-tuningしてドメイン適応! • これこそ,先々週のICMEの会期中に私が思いついたものだ!!! • 2日目くらいにあったドイツの研究グループのself-supervised action learningは別のやり方だったからし めしめと思っていたのに…. • 子供の頃に周囲のブームが去ってから買ったマリオカートの失敗から成長してない (- -; • 研究者はマジで嗅覚を働かせて,ブームを先読みして早いもの勝ちの競争を駆け抜けねばならないのか? →それ,ビジネスじゃない?(泣) • 3次元(RGB-Dで3Dモーションを予測)でやっていたので2Dでもできる?と聞いたら,ネットワークの最 適化と入力をOptical Flowとかに変えれば行けると思う,という回答.よし,それやろう. • ちょっと体調不良で余り回れませんでした.
  26. 26. 続き • 希望があれば関西CVPRML勉強会で解説 • 良く見て聴いてきたリスト(面白いと思ったもののみ掲載) • Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim, Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh • グラフ信号処理を利用しているように思える. • 点群の欠損を上手く保管しているみたい. • やはり,グラフ信号処理の勉強が足りない…. • A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda, Bjoern Andres • 普通のgraph cutはグラフを2つにしか分けられない.multicut(3つ以上に分ける)はNP-hard • 近似非(lower bound)などの詳細がポスターにはなかったが,linearで動くらしい. • Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller, Kiriakos N. Kutulakos • 手法の詳細は不明だが,CNN使ってない!?しかし,かなり出来ていそうだった.スマホ画像に対して動作さ せていた模様.一見すると,そこまでdefocusが目立つようには見えない画像.

×