Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ICCV 2019 論文紹介 (26 papers)

5,781 views

Published on

2019/10/27〜2019/11/2に韓国ソウルで開催されたコンピュータビジョン分野の世界最大級の国際会議ICCV2019に、DeNAのAI研究開発エンジニア7名(岡田英樹, 唐澤拓己, 木村元紀, 冉文昇, 築山将央, 本多浩大, 馬文鵬 )が参加しました。
今回、参加メンバーの専門性を活かした情報収集を現地で実施し、注目度の高い論文や有益性の高い論文、Automotiveに関連する論文等、26本について解説資料を作成しました。

Published in: Technology
  • My personal experience with research paper writing services was highly positive. I sent a request to HelpWriting.net and found a writer within a few minutes. Because I had to move house and I literally didn’t have any time to sit on a computer for many hours every evening. Thankfully, the writer I chose followed my instructions to the letter. I know we can all write essays ourselves. For those in the same situation I was in, I recommend HelpWriting.net.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Leptitox Upto 70% Off | $39 Only? ■■■ https://t.cn/A6wnCpvk
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

ICCV 2019 論文紹介 (26 papers)

  1. 1. ICCV 2019 論文紹介 2019/12/20 AI本部AIシステム部 CV研究開発チーム 岡田英樹, 唐澤拓己, 木村元紀, 冉文昇, 築山将央, 本多浩大, 馬文鵬
  2. 2. Agenda • Network Architectures • Detection, Segmentation • Action & Video • Face Recognition • Synthesis, GAN, Low-level • Automotive関連 • Others
  3. 3. Network Architectures
  4. 4. 紹介する論文一覧 • Searching for MobileNetv3 • CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features • Differentiable Learning-to-Group Channels via Groupable Convolutional Neural Network
  5. 5. Searching for MobileNetv3 Oral Links paper code(Tensorflow, official) code(PyTorch) video
  6. 6. Summary • アーキテクチャサーチがモデル開発ツールの一つとして定着 関連ワークショップは満員御礼 • MobileNetv3は、サーチされたモデルを起点にさらなる最適化を 行い、レイテンシを改善する • EfficientNetとともに、Mobile Inverted Residual + SE* を中心とした一般的なネットワークシリーズである 権威 * Squeeze and Excitation cited from the paper
  7. 7. Method: MobileNetv3 block 1x1 conv K x K depthwise conv 1 x 1 conv hard-swish or ReLU hard-swish or ReLU squeeze & excitation 1x1 conv K x K depthwise SE block https://github.com/rwightman/gen-efficientnet-pytorch/blob/master/geffnet/efficientnet_builder.py 1x1 conv Mobilenet v3 block cited from the paper
  8. 8. Method: Architecture Searchからの最適化 MnasNetでサーチしたモデルを起点にレイテンシを改善していく activation 高速化 pruning cited from the paper
  9. 9. Method: Nonlinearities モバイルでのレイテンシを向上するため、非線形関数を簡易化 cited from the paper
  10. 10. ResultsEfficientNet とMobileNetv3の比較 EfficientNet MobileNetv3-Large MobileNetv3-Small EfficientNetは起点となる’B0’ からの スケールアップ手法を導入したもの MobileNetv3はMNasNetサーチしたLarge, Smallモデルをベースに、より低レイテンシ化した もの 積和演算量 (レイテンシではない) EfficientNetB0 参考:モデルアーキテクチャ観点からの高速化 2019 cited from the paper
  11. 11. CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features Oral Links paper code video
  12. 12. Summary 2つの画像を片方をパッチとして埋め込むデータオーグメンテーション手法の提案 • Cutout は情報を落としてしまっている • 2つの画像を、片方をパッチとしてカットし他方の画像に埋め込む Augmentationの提案 • ラベルは面積の割合で決定し学習を行う cited from the paper
  13. 13. Results ベンチマークデータセット名: ImageNet, Pascal VOC ベンチマーク結果:+2.3(ImageNet Cls), +1.0(ImageNet Loc), +1.1(Pascal det) *ただし detection については pre-trainingでの使用。 cited from the paper
  14. 14. Differentiable Learning-to-Group Channels via Groupable Convolutional Neural Networks Links paper code Poster
  15. 15. Summary これまでは hyperparameter だった Group convolutionの最適なグループ数を 動的に学習する Dynamic Grouping Convolution(DGConv)を提案 DGConv の貢献 • Convolution kernel とグループ数及びどのチャンネル同士をグループにするか等の grouping strategy を同時に学習可能 • 微分可能なので end2end に学習可能 • 通常の Convolution から置き換え可能 • ResNet や ResNext と同等もしくはそれ以下のパラメタ数で高精度達成
  16. 16. Method:Binary relationship matrix Uの導入 Binary relationship matrix U を用いることで全ての convolution が表現可能 Uの size は(input_channel, output_channel) DGConvの式: ex) Uが all-ones matrix なら通常の convolution (a) Uが identity matrix なら Depthwise convolution (b) しかしUを直接学習するのは以下の課題がある • SGD 使って binary matrix を学習するの難しい • Input_channel, output_channel が大きいと U の parameter の数も膨大になる • 制約なく学習させると( f)のような unstructured convolution を生み出す Matrix Uの形状 cited from the paper cited from the paper
  17. 17. Method:Binary relationship matrix Uの構成 • U を K 個の submatrix のクロネッカー積で表現 (4) • submatrix Uk を single binary variable g で表現することで parameter を削減 (5) • Input と output の channel 数が1024の場合 K=10 となる 利点は何か • g のみを学習すればよいので parameter の数を減らすことができる in / out が1024/1024の場合、Uを直接学習させると1024**2のパラメタが必要だが g のみの学習であれば log2(1024)=10 個のパラメタですむ • U が必ず group 構造をとるようになる cited from the paper
  18. 18. Method:DGConvのResNextへの適用 上記のDGConvをResNetとResNextに転用 cited from the paper
  19. 19. Results:Complexity vs Accuracy 制約項bの大きさを変えた時の FLOPsと精度 DGConvがGConvより効率的なGroup Strategyを獲得していることを証明 b=96, FLOPs 0.27xにおいて同等の精度 b=256, FLOPs 0.14xにおいて同等の精度 cited from the paper
  20. 20. Results:他手法との比較 Parameter数が同等の既存手法よりも高精度を達成 cited from the paper
  21. 21. Detection, Segmentation
  22. 22. 紹介する論文一覧 • Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving • Towards Unconstrained End-to-End Text Spotting • Single-Shot Instance Segmentation With Affinity Pyramid • Scale-Aware Trident Networks for Object Detection • YOLACT: Real-time Instance Segmentation
  23. 23. Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving Poster Links paper code
  24. 24. Summary • YOLOv3 において box 座標とともにそれらの uncertainty を同時に学習・予測すること で、物体検出の精度を大きく向上 • 予測した uncertainty が大きい box については相対的に重みが下がるように損失関数が 設計されており、box アノテーションのノイズや外れ値に対して頑強になる • KITTI / BDD に対する評価では、 YOLOv3 に比べて mAP を 3.09 / 3.5 ポイント向上 • 計算上のオーバーヘッドとしては、 head の出力チャネルが アンカーの数×4 だけ増えるの みで、推論の速度は YOLOv3 とほぼ変わらない Cited from the paper
  25. 25. Method • box 座標 x, y, w, h それぞれに対して、平均 : 予測した box 座標、分散: 予測した uncertainty となるようなガウス分布を仮定する • ガウス分布の確率密度関数において、真の box 座標における値に対し、負の対数をとっ たものを損失としてネットワークを学習する • このような損失関数の設計により、外れ値や box ラベルにノイズがあるような サンプルに対しては、 uncertainty が大きくなるように学習がされる • 推論時は uncertainty に応じて score をスケーリングし、不確かさの大きい box を 抑制する Cited from the paper Cited from the paper
  26. 26. Results • KITTI / BDD に対する評価では、 YOLOv3 に比べて mAP を 3.09 / 3.5 ポイント向上 • false positive を 40%以上削減しつつ、true positive の割合も向上できている • 全体的に予測した box の位置精度が向上しており、 IoU=0.75 など厳しめの IoU 閾値に 対する mAPが特に改善している傾向 • COCO に対する評価でも、mAP を 3.1 ポイント向上している Cited from the paper Cited from the paper
  27. 27. Towards Unconstrained End-to-End Text Spotting Oral Links paper video
  28. 28. Summary • 画像から任意形状のテキストを検出できる End-to-End OCR ネットワークの提案 • Detector に Mask R-CNN を用い、さらに RoI-Masking という工夫によって E2E で画像 からテキストと領域マスクを同時に生成できるようになった • 既存の OCR エンジンからの出力を部分ラベルとして活用可能 • ICDAR データセットにおいて、 E2E テキスト検出&認識で SOTA 達成 cited from the paper
  29. 29. Method • Detector には Mask R-CNN を使用 Mask R-CNN は BBox とその領域内の物体マスクを予測するため、 Straight Case / Curve Case どちらにも対応可能 • Recognizer の入力として、Stride-8 Feature を Upsample したものと Stride-4 Feature の要素和を用いる(小さいテキストに対するパフォーマンス向上) • Detector からの BBox を用いて Feature を切り出し、さらに Mask を掛け合わせる (RoI-Masking と呼ぶ)ことで、明示的な Attention が得られる cited from the paper
  30. 30. Method • LSTM は前ステップの予測単語と Hidden State, そして Context Feature が入力 • Context Feature: c_i の作り方は下図参照 RoI-Masking 後の Image Feature と前ステップ Hidden State から Attention 生成 • 損失関数は以下。Fully Labeled な場合は δ=1, 既存 OCR の出力を学習に用いる場合 は δ=0 となる。α, β, γ は本実装では 1 でよい cited from the paper
  31. 31. Results • ICDAR データセットにおいて SOTA スコア達成 • Detection ベンチマークにおいて既存手法と Competitive な精度を出しつつ、End-to-End 認識においては既存手法に大きな差をつけた • Ablation Study により、特に RoI-Masking の効果が大きいことが判明 cited from the paper
  32. 32. SSAP: Single-Shot Instance Segmentation With Affinity Pyramid Links paper Poster
  33. 33. Summary • 各スケールにて、Semantic Segmentation Maskと、各位置における affinity情報 (同一instanceかどうかのlocal map)を学習する • Segmentation maskとaffinity情報から、インスタンスセグメンテーショ ンマスクを生成する • cascaded graph partition moduleによって、最もstrideの大きいレイヤ から、インスタンス推定結果を徐々に補正しながらstrideの小さいレイ ヤに伝播することで効率化を図る
  34. 34. Method • U-Net構造のencoder-decoder Network • Semantic Segmentation maskと 各位置におけるaffinity情報が 各階層から出力される • Affinityブランチでは、各グリッドにて r x r のwindowがchannel方向にflattenされた 情報が出力され、その位置にある instance と同じinstanceのある位置で1となるように 学習される cited from the paper
  35. 35. Method • graph partitionは、affinity情報をもとに、 画素をinstance分割する • 画素の組み合わせが少ない scale(stride=64) から、高解像度側へ伝搬していくことにより、 partitioningに必要な計算量を減らす • semantic segmentation結果と組み合わせること により、クラス情報 (車・人など)を付与する cited from the paper
  36. 36. Results Cityscapes test : AP 32.7 (PANet: 31.8) COCO test-dev : panoptic quality (PQ) : 36.9 (DeeperLab: 34.3) cited from the paper
  37. 37. Scale Aware Trident Networks for Object Detection Oral Links paper video
  38. 38. Summary object detection における receptive field の影響を調査し、それぞれ特定のスケールへの feature map を生成する3つのブランチを持つ TridentNet を提案し精度改善 cited from the paper
  39. 39. Method • multi-scaleへの対処に関して • image pyramidは推論が遅い • feature pyramidは異なる段階でのfeatureを同一に扱って いてconsistencyが取れていない • 同一の重みで異なる dilation rate をそれぞれ持つ trident block に、convolutionのブロックを置換することを提案 • trident netを学習するためのscale-aware training scheme • 各ブランチに valid range [l_i, u_i]を定義し、whの平方根 がそれに収まるもののみ backpropさせる。 cited from the paper cited from the paper
  40. 40. Results • ベンチマークデータセット名: COCO • ベンチマーク結果:46.8 mAP、Image Pyramid を追加した場合 48.4 mAP *は、SNIP、SNIPER で実装されている工夫を合わせたもの (multi-scale training, soft-NMS, deformable convolutions, large-batch BN, and the 3× training scheme) cited from the paper
  41. 41. YOLACT: Real-time Instance Segmentation Oral Links paper code video
  42. 42. Summary Real-time なインスタンスセグメンテーション手法の提案 * YOLACT = You Only Look At CoefficienTs . cited from the paper
  43. 43. Method Instance segmentation を2つのサブタスクに分ける (1) prototype masks セットの出力、 (2) インスタンスごとのマスク係数の予測 YOLACTアーキテクチャ図。protonet でいくつかの prototype を出力し、prediction headで インスタンスマスク係数出力し、掛け合わせる その後crop&thresholdで適切な位置を取る。論文中では RetinaNet(ResNet-101 + FPN)を使用 cited from the paper
  44. 44. Method NMS は約 5 FPS かかり全体の30 FPS に対してボトルネックであるとし、 Fast NMSも提案 既に削除されたdetectionによって他のdetectionを削除することをよしとすることで、 一度に計算し高速化を行う 1. Cクラス分、scoreの高い n この検出に関して c × n × n のIoU matrix を計算。 2. IoU threshold より高いスコアのものを選択
  45. 45. Results 精度ではなく、スピード重視の手法 他手法と比較すると、精度 /スピードは トレードオフの関係にある 33 FPSで 29.8 mAP (COCO test-dev) *複数あるのは画像サイズの違い また、実際に出力される prototype は異なる意味を 表せているという可視化が下 cited from the paper cited from the paper
  46. 46. Action & Video
  47. 47. 紹介する論文一覧 • GradNet: Gradient-Guided Network for Visual Object Tracking • SlowFast Networks for Video Recognition • TSM: Temporal Shift Module for Efficient Video Understanding • Video Object Segmentation using Space-Time Memory Networks
  48. 48. GradNet: Gradient-Guided Network for Visual Object Tracking Oral Links paper code video
  49. 49. Summary • Siamese networkのようなテンプレートマッチングベースのトラッキング手法の 改良 • 勾配を用いて推論時にテンプレートをアップデートすることで Siamese networkの課題であるターゲットや背景の時間的変化の弱さを改善
  50. 50. Method • Search region X から特徴を抽出する branchとtarget patchのテンプレートとgradientを計 算するbranchからなるネットワークである • Initial embedding module:初期テンプレートβとsearch region側の特徴との 相互相関をとることで Score map Sを得る • gradient calculation module:Score map Sとground truth Yとのlogistic lossを活用し initial featureに加える • Template update module:initial embeddingと同じNetworkでテンプレートを 更新し、search region側の特徴との相互相関をとることで最終 Score mapを得る cited from the paper
  51. 51. Method 従来のTraining手法:同じ動画内でtarget frameとsearch region frameを選択 課題点 • Update branchがgradientを無視してtemplate appearanceを重視するようになる • 過学習が避けられない 提案手法:target frameに対して複数の動画(同じ動画は含む)から search region frameを選択 し、それぞれのペアで計算された最終スコアマップと ground truthとのロスを最小化するように学 習させる • 他動画でも良い性能を発揮する templateを 得ようとすることでNetworkがGradientに 注目するよう強制する cited from the paper
  52. 52. Results 各データセットでSOTA及び それに匹敵する性能を達成 cited from the paper cited from the paper cited from the paper cited from the paper
  53. 53. SlowFast Networks for Video Recognition Oral Links paper code video
  54. 54. Summary • Facebook AI Research(FAIR)の研究 • 低い時間解像度で空間方向の特徴抽出を行うSlow pathwayと高い時間解像度で時 間方向の特徴抽出を行うFast pathwayからなるネットワークの提案 • 計算コストと精度のトレードオフを大幅に改善 • Action RecognitionのKinetics-400, Action DetectionのAVA datasetでともにSOTA を達成
  55. 55. Method • Slow pathway: 入力の時間解像度が低いため、畳み込みも主に空間方向の 2D畳み込みを採用 • Fast pathway: 入力の時間解像度が高いだけでなく、ネットワーク全体を通して 時間方向のdownsampling layerがないため時間解像度の高い特徴抽出を行う channel数や空間方向の情報を削減しているため Slow Pathwayの15~20%のFLOPs • Lateral connection: Fast pathwayからSlow pathwayへの方向のみに結合を持たせて 2 つのpathwayの情報を混合している cited from the paper cited from the paper
  56. 56. Results Action Classification: Kinetics-400での実験結果 • 左図:提案手法では ImageNetでの事前学習を行なっていないが、従来手法よりも高い精 度を達成 • 右図:推論時の計算コストと精度のトレードオフが大幅に向上 cited from the paper cited from the paper
  57. 57. Results Action Detection: AVA datasetでの実験結果 • 左図:SlowFast Networkが既存手法を超える精度を達成 • 右図:Slow pathwayのみの場合ととSlowFast NetworkとのAVAの各クラスごとの精度比 較。Fast pathwayを使用することで動き情報が大きく影響しそうなクラス (hand clap, swin等)の精度向上が顕著に見られる cited from the paper cited from the paper
  58. 58. TSM: Temporal Shift Module for Efficient Video Understanding Poster Links paper code website
  59. 59. Summary • 動画認識の 2DCNNベースの手法 • Temporal Shift Module(TSM)という特徴マップを時間方向にシフトする モジュールを導入し、2DCNN と同等の計算コストを保ちながら 3DCNN のような効率的な時間方向の特徴抽出を実現 • オフラインでの動画認識のための bi-directional TSM を提案し、 Something-Something leaderboard で SOTA を実現 • オンラインでのリアルタイム動画認識をエッジデバイスで行うことができる uni-directional TSM を提案 demo video
  60. 60. Method • 全体のネットワーク構成:サンプリングした各フレームを 2DConv に通した後のfeature map を時間方向にシフトして次の conv へ通す構造を繰り返す • Shift の詳細 • Shift 自体は演算なしで行われるので計算コストはないが、全 channel をシフトさせ るのは推論の遅延や精度の低下を産むため、 partial shift を採用 • Shift の組み込み方としては左下図の In-place TSM と Residual TSM を比較し、 精度の高かった Residual TSM を採用 • Offline では各フレーム間で bi-directional に Shift を行うが、 Online では future frame がわからないので Uni-directional な Shift を行う cited from the paper cited from the website
  61. 61. Results • Kinetics, UCF101, HMDB51:動き情報に敏感でないデータセット • Something-Something, Jester:動き情報に敏感なデータセット • 左図:TSM を 2DCNN baseline(TSN)に加えて、全データセットで精度向上 TSM は動き情報のモデリングを主眼に置いているので、 Something-SomethingやJesterでは精度の向上が顕著に現れている • 右図:様々なバックボーンで精度を向上させている cited from the paper cited from the paper
  62. 62. Results • 左図:Something-Somthing dataset での TSM と既存手法との比較 TSM は 2D baseline の性能を向上させるだけでなく、 SOTA の性能を発揮している • 右図:TSM と他手法との精度と計算コストのトレードオフの比較 TSM が ECO や I3D ベースの手法と比べて低い計算コストで高い性能を発揮しているこ とがわかる cited from the paper cited from the paper
  63. 63. Video Object Segmentation using Space-Time Memory Networks Oral Links paper code video
  64. 64. Summary • Memory Network を導入することで、計算コストを低く保ちつつ過去フレームと Target フ レーム間の類似性を用いて Memory から適応的に特徴を読み出す Video Object Segmentation 手法の提案 • 途中フレームも全て活用することで、 Appearance Changes, Occlusions, Drifts に より対処できるようになった cited from the paper
  65. 65. Method • Memory Encoder(4 channel の ResNet50) • 初期 Frame w/ GT maskと、 過去 Frame w/ Predicted Mask から Key-Value map を抽出する • Query Encoder • Target frame から Key-Value map(query 特徴)を抽出する • Frame 数制限はなく、Memory 特徴は Frame が進むたびに動的にスタック cited from the paper
  66. 66. Method • Key map は見た目の変化に頑健な Semantic 特徴 • Value map は背景・前景判定やマスク生成に有用な Local 特徴 • Query の Key map を用いて Memory に格納されている過去 Frame から類似度の 高いものを抽出 • 図参照:Q-key と M-key の dot 積→softmax→それと M-value の dot 積 • 画像データセットから擬似的に動画中の Frame 群のような合成データを生成し、 事前学習に使用 cited from the paper
  67. 67. Results • Youtube VOS, DAVIS 2016/2017 で評価、どちらも SOTA 達成 • 速度と精度のバランスを考慮し、 5 Frame ごとに Memory に追加 Youtube VOS DAVIS 2017 cited from the paper
  68. 68. Face Recognition
  69. 69. 紹介する論文一覧 • Co-Mining: Deep Face Recognition with Noisy Labels • Fair Loss: Margin-Aware Reinforcement Learning for Deep Face Recognition • Occlusion Robust Face Recognition Based on Mask Learning with Pairwise Differential Siamese Network • Detecting Photoshopped Faces by Scripting Photoshop
  70. 70. Co-Mining: Deep Face Recognition with Noisy Labels Oral Links paper code video
  71. 71. • 大規模顔認証データセットのノイズに対して、既存手法の問題 • ノイズを効果的かつ正確に検出できない • 標本選択バイアスによって引き起こされるエラー累積問題を意識していない • クリーンなサンプルが識別特徴を学習するための重要性を無視している • ノイズが多いラベルを持つ大規模な顔認証データセットで学習するためのコマイニング手法 を提案 Summary
  72. 72. Method Co-Miningフレームワーク • ミニバッチサンプルを、ノイズラベル、高信頼度のクリーンフェイス、 クリーンフェイスの3つを識別 cited from the paper
  73. 73. Method • ノイズラベルの検出 • baseline:Are-Softmax loss • 損失値を手がかりとして、ノイズラベルの検出を行う • 高信頼度のクリーンフェイスの交換 • 標本選択バイアスに引き起こされるエラー累積問題を軽減するために高信頼度のク リーンフェイスを交換 • クリーンフェイスのRe-weighting • Re-weighting関数:            ( μ >= 0) • クリーンフェイスに重みを付けて、識別特徴を学習
  74. 74. Results(on Real-World Data) • Baselineやほかの6つのSOTA手法より、良いパフォーマンス • MsCeleb-Rで学習し、RFWで評価、SOTA達成 • VggFace2-Rで学習し、MegaFace Challengeで評価、SOTA達成 cited from the papercited from the paper
  75. 75. Fair Loss: Margin-Aware Reinforcement Learning for Deep Face Recognition Poster Links paper
  76. 76. Summary • 大規模顔認証データセットは各クラスのサンプル数が不均衡問題 • 既存のマージンベース手法がマージン値を固定させているので、不均衡問題を無視( a, b) • 多数クラスが比較的小さいマージン、少数クラスが比較的大きなマージンが必要( c) • マージンを考慮した強化学習( Q−Net)ベースの損失関数Fair Lossを提案 cited from the paper
  77. 77. Method • すべてのクラスをサンプル数とクラス内の分 散でグルーピングし、手 動でマージンを変 更した CNNを学習してサンプルを収集 • 収集されたサンプルを使って、マージン適応策(マルコフ決定過程として)のエージェントを学習 • エージェントからのアクション出力によって、マージンが変化するネットワークを学習 cited from the paper
  78. 78. Method Loss Function • Based on CosFace: • Based on ArcFace: Agent Training cited from the paper
  79. 79. Results LFW, YTF, MegeFace Challenge 1 (MF1), MegaFace Challenge 2 (MF2)のSOTAとの比較 cited from the papercited from the paper
  80. 80. Occlusion Robust Face Recognition Based on Mask Learning with Pairwise Differential Siamese Network Poster Links paper
  81. 81. Summary • 一般的なディープCNN顔モデルは、遮蔽の汎化性が不十分 • 顔の遮蔽ブロックとその影響を受けた特徴の対応関係を学習できる Pairwise Differential Siamese Network(PDSN)を提案 • 顔の任意の部分的な遮蔽での CNNモデルのパフォーマンスを改善
  82. 82. Method • 提案されたPDSNネットワークを使用して、顔の遮蔽ブロックとその影響を受けた 特徴要素間の対応関係をキャプチャする • 学習したマスクジェネレータからマスクディクショナリを確立する • テスト段階でディクショナリからの遮蔽部分の feature discarding mask(FDM)を ランダムで組み合わせ、元の feature と乗算することにより、遮蔽部分の影響を消す cited from the paper
  83. 83. Method cited from the paper
  84. 84. Results MegaFaceとARデータセットで検証し、 SOTAを達成 cited from the paper cited from the paper
  85. 85. Detecting Photoshopped Faces by Scripting Photoshop Poster Links paper code
  86. 86. Summary • Face-Aware Liquify (FAL)ツールで大規模な偽顔データセットを作成 • Photoshopでワープされた顔画像の検出及び Undo状態への復元手法を提案 cited from the paper
  87. 87. Method • 顔画像がワープされたか否かを判定するため、 Dilated Residual Network variant (DRN-C-26)で二値分類器を訓練 • 低解像度および高解像度のモデルを訓練することにより、解像度の影響を調査 • 訓練中、顔画像をランダムに左右反転させたり、 384ピクセルまたは640ピクセルにクロッ ピングさせたりする cited from project page
  88. 88. Method • オリジナル画像からワープ画像への optical flowフィールドを予測し、 それを逆にしてオリジナル画像を復元する • flow predictionモデルFを訓練し、ピクセルごとのワーピングフィールドを予測し、 各トレーニング例の近似 ground-truthのフローフィールドまでの距離を測定する • 誤ったフロー値を消すため、前後の一貫性テストに失敗したピクセルを破棄する cited from project page
  89. 89. Experiment cited from the paper
  90. 90. Results 顔画像がワープされたか否かの識別精度について、提案手法が人工( 53.5%)より大幅に向上 (99.8%AP) cited from the paper
  91. 91. Synthesis, GAN, Low-level
  92. 92. 紹介する論文 SinGAN: Learning a Generative Model from a Single Natural Image
  93. 93. SinGAN: Learning a Generative Model from a Single Natural Image Oral Links paper code video
  94. 94. Summary • Single-Image: 一枚の画像から表現を学習する • Multi-Scale: 多スケールで生成・伝搬 • Unconditional: 推論時は任意サイズのランダムノイズを入力 cited from the paper
  95. 95. Method 学習画像生成画像 ランダム ノイズ 画像 粗いスケール (大きな構造) から学習する 伝播、下のスケールは freeze x0.75ずつ スケール cited from the paper
  96. 96. Method DiscriminatorによるGAN lossと、ゼロ入力をGround Truthに対応させるReconstruction Loss Fake Real cited from the paper
  97. 97. Results 入力ノイズ画像のサイズに応じた、ランダムな画像の生成学習画像 学習画像 テクスチャの生成 cited from the paper cited from the paper イラストの「注入」 アニメーションの生成例 (画像をクリックすると tweetに飛びます)
  98. 98. Automotive関連
  99. 99. 紹介する論文一覧 • 3D-LaneNet: end-to-end 3D multiple lane detection • Learning Lightweight Lane Detection CNNs by Self Attention Distillation • Joint Monocular 3D Vehicle Detection and Tracking • Learning Object-Specific Distance From a Monocular Image • Digging Into Self-Supervised Monocular Depth Estimation • How Do Neural Networks See Depth in Single Images?
  100. 100. 3D-LaneNet: End-to-end 3D Multiple Lane Detection Poster Links paper
  101. 101. Summary • 内部パラメーターと一部の外部パラメーターを固定にして、残りの外部パラメーターと 3d空 間における区画線を検出する手法を提案 • 従来semantic segmentationの手法で区画線を検出するのではなく、 物体検出のanchorと似たような手法を提案 • Front-viewの画像を入力として、 front-viewのfeatureだけではなく、top-viewのfeatureも推 定し、一部の外部パラメーターと 3d空間の区画線を出力
  102. 102. Method モデルアーキテクチャー cited from the paper
  103. 103. Method Anchor • 道路座標系(top-view)とカメラ座標系 (入力画像front-view)があって、モデルの 出力は道路座標における区画線の座標 • 区画線branchが出力したtensorのshape: N × 1 × 3 · (2 · K + 1) • N: anchorの数、K:一本の区画線に関して、 k個の点を出力 cited from the paper
  104. 104. Results • cited from the paper
  105. 105. Learning Lightweight Lane Detection CNNs by Self Attention Distillation Poster Links paper code
  106. 106. Summary • Attention distillationを用いて区画線を検出する手法 • 通常のdistillationでは精度が高い教師モデルが精度が低い生徒モデルに情報を与える のでネットワークが二つあるが、提案手法では自分が自分自身に情報を与えるので 一つのネットワークで構成されている • 出力に近い層が入力に近い層に情報を与える。情報は attentionの形式で与えられる cited from the paper
  107. 107. Method Attentionマップの作り方 • チャンネル*縦長*横幅の三次元畳み込み feature mapを縦長*横幅の二次元feature map に変換する • 各グリードにチャンネル方向で値をマージする、具体的にはこれらの値を二乗し、 足し合わせる cited from the paper
  108. 108. Method モデルアーキテクチャー • 最大4本の区画線を検出できる、検出された区画線方が1、されなかった区画線の方が0 が出力される • 各レイアのFeature MapからAttention Mapが算出されて、隣接のレイアの Attention Map のL2 ロスが算出される cited from the paper
  109. 109. Results cited from the paper
  110. 110. Joint Monocular 3D Vehicle Detection and Tracking Poster Links paper code
  111. 111. Summary • 単眼のカメラだけで、車両の三次元情報を検出&トラッキングできる手法を提案 • パイプラインは四つのパートに分かれる • 各フレームに対して、物体検出を行う • 3dの情報(位置、向き、 depth)を推定 • 3d情報を使って、フレーム間の物体のトラッキングを行う • LSTMで物体のtrajectoryを予測 cited from the paper
  112. 112. Method • 各フレームに対して、物体検出を行う • 検出するもの:2d bounding boxの座標、このフレームに投影された 3d bounding boxの中心の座標、物体の向き、三次元の物体のスケール • フレーム間のトラッキングを行う • フレーム間の物体の depthの情報を考慮 • occlusionによる一時的な未検出によるトラッキングの途切れも対応 cited from the papercited from the paper
  113. 113. Results • cited from the paper
  114. 114. Learning Object-Specific Distance From a Monocular Image Poster Links paper
  115. 115. Summary • 単眼カメラの画像から、物体ごとに距離を回帰する CNN を提案 • inverse perspective mapping などの古典的手法では勾配の変化があるような場所では距離の誤差が大 きくなってしまうが、提案手法ではそのような状況下でも正しく距離を推定できる • KITTI, nuScenes において point cloud と 3D bbox を用いて物体ごとの距離ラベルを生成し、距離推定タ スクのデータセットを作成した Cited from the paper Cited from the paper
  116. 116. Method • 別の物体検出器で検出した box に対して ROI pooling した固定サイズの特徴マップを全結合層に 入力し、距離を回帰する • 距離の回帰と同時に物体のクラス分類を行うことで、category-aware な距離の学習を行う (推論時はクラス分類の結果は使用しない) • 物体の 3D key-point も同時に学習・回帰することで、距離の精度をさらに向上 Cited from the paper
  117. 117. Results 既存手法の inverse perspective mapping などと比べて距離の推定誤差が小さく、 特に既存手法が苦手とする勾配のあるシーンなどで精度が大きく向上した ground truth inverse perspective mapping proposed enhanced model Cited from the paper Cited from the paper
  118. 118. Digging Into Self-Supervised Monocular Depth Estimation Poster Links paper code
  119. 119. Summary • 単眼カメラによるdepth推定は、ground truthデータの獲得が難しいため、 self-supervised learning を用いた手法が近年盛り上がっている (Zhou et al.) • 本論文の手法Monodepth2では、シンプルなパイプラインで高精度な単眼 depth推定を可 能とした。 • 手法1:遮蔽に対してロバスト化する minimum reprojection loss • 手法2:アーティファクトを低減する full-resolution multi-scale sampling method • 手法3:学習の邪魔となる動物体などの画素領域をマスクする auto-masking loss
  120. 120. Method • Depth Networkはエンコーダ(ResNet18)とデコーダー(シンプルな upsampler Network) からなるU-Net構造となっており、depth mapが出力される • Pose Networkは2フレームをスタックして Res18に入力するシンプルな構造で、 2フレーム間のカメラの transformationが出力される • それぞれのNetworkのエンコーダはweight sharingをしない方が精度が高い • Pose Networkへの入力は、既存手法で採用されてきた 3フレームより、2フレームの方が 精度が高い cited from the paper
  121. 121. Method 手法1:遮蔽に対してロバスト化する minimum reprojection loss • 推定したdepth map, camera poseの変化を用い、入力画像It’をワープした推定画像It’→tを得る • 目的関数は入力画像ItとIt’→tのPhotometric Reconstruction Error、SSIMとL1の組み合わせ • フレームの途中である領域が遮蔽される場合、error が不連続に大きくなるため、複数フレームのmin を取る ことでロバストにする cited from the paper cited from the paper
  122. 122. Method 手法3:学習の邪魔となる動物体などの 画素領域をマスクする auto-masking loss 手法2:アーティファクトを低減する full-resolution multi-scale sampling method cited from the paper すべてのスケールのdepth mapを入力画像サイズに戻し、 それぞれ推定画像を生成してマルチスケールでphotometric lossを計算する。 これにより、生成画像のアーティファクトを低減できる 従来はPose networkの出力にデコーダを追加し、maskを学 習していた 本手法では、入力画像シーケンスにおいて、フレーム間の photometric lossが小さくなる、つまり静止している領域を指 定してマスクし、loss対象外とする
  123. 123. Results depth教師がある場合 単眼, self-supervised SfmLearner ステレオ, self-supervised いずれの条件においても、既存手法を上回る depth推定精度を示した cited from the paper
  124. 124. How Do Neural Networks See Depth in Single Images? Poster Links paper
  125. 125. Summary • 単眼距離推定CNN は、画像中の物体の大きさではなく、物体の縦位置 (y座標) に 着目して距離を推定していることを実験的によって確かめた • 教師あり/教師なしの両方のモデルを含む 4種類の CNN に対して評価を行った結果、 どのモデルも上のような傾向を示すことが明らかになった
  126. 126. Method • カメラの幾何を考えると、物体の距離の手がかりとなるのは、画像上での物体の 大きさと、物体の画像上での縦位置 (y座標) と考えられる • KITTI データセットの画像に、距離に応じて : (1)大きさと縦位置を変化させる (2)縦位置だけを変化させる (3)大きさだけを変化させる の3パターンで擬似的に 車両を合成し、その車両に対して CNN が推論した距離を評価した Cited from the paper
  127. 127. Results 1. 距離に応じて合成車両の大きさと縦位置を変化させた場合 どの CNN も車両までの距離を正しく推定することができた 2. 縦位置だけを変化させた場合も、 1. に比べて誤差は 大きくなるが、概ね正しく距離を推定できた 3. 大きさだけを変化させた場合、どの CNN もほぼ一定の距離 を推定してしまい、正しく距離を推定できなかった 以上の結果から、物体の縦位置が距離の推定には重要で あることが明らかになった Cited from the paper
  128. 128. Others
  129. 129. 紹介する論文一覧とサマリ • Sampling-free Epistemic Uncertainty Estimation Using Approximated Variance Propagation • AdaTransform: Adaptive Data Transformation • Many Task Learning With Task Routing
  130. 130. Sampling-free Epistemic Uncertainty Estimation Using Approximated Variance Propagation Oral Links paper code video
  131. 131. Summary • 未知のデータに対するモデルの信頼性を測ることができる epistemic uncertainty を、 Monte-Carlo Dropout のような sampling を用いずに推定する • 数十~数百回の forward 計算を必要とする sampling ベースの手法と異なり、 epistemic uncertainty の推定を大幅に高速化した • classification task および regression task の両方において提案手法を評価し、 提案手法の有効性を示した Cited from the paper
  132. 132. Method • Dropout などの noise レイヤに起因する activation の covariance matrix を求め、 それを一層ずつ伝搬させていくことで、ネットワークの出力に対する不確かさを得る • 全結合や畳み込みなどの線形な演算であれば、重みパラメータを用いることで covariance matrix を伝搬させることができる : • 活性化関数など非線形な演算が含まれる場合、一次近似によって線形化し、 ヤコビアンを用いることで、近似的に covariance matrix を伝搬させる: Cited from the paper Cited from the paper
  133. 133. Method • CNN の特徴マップに対する covariance matrix の要素数は (C×H×W)^2 でありメモリ効率が悪い • 畳み込みでは、近隣の activation のみが非ゼロの共分散を持つ • さらに、ReLU では負の activation がゼロに切り上げられるので、ReLU を作用させるたびに activation の 不確かさが減り、近隣の actication 間の共分散もほぼゼロとみなせるようになる • よって、多くのCNNで用いられる畳み込み + ReLU においては、covariance matrix の対角成分 (要素数: C×H×W) だけを考慮すれば十分 Cited from the paper
  134. 134. Results: Semantic Segmentation • Bayesian SegNet を CamVid で学習・評価 • MC-dropout (N=50) で求めた uncertainty と提案手法で求めた uncertainty は定性的によく一致 • 分類精度と uncertainty の関係もよく一致している • sample に比例して推論時間が増える MC-dropout に比べ、提案手法はかなり高速 Cited from the paper Cited from the paper
  135. 135. Results: Depth Regression • 単眼 depth 推定モデルに対し、最後の conv の直前に dropout を入れ、KITTI で学習・評価 • MC-dropout (N=50) で求めた uncertainty と提案手法で求めた uncertainty は定性的によく一致している • depth の推定精度と uncertaity の関係もよく一致している • synthetic data での実験と同じく、 MC-dropout の sample 数を増やしていくと、 uncertainty が提案手法に よって求めた uncertainty に漸近している Cited from the paper Cited from the paper
  136. 136. AdaTransform: Adaptive Data Transformation Oral Links paper video
  137. 137. Summary • 学習中に適応的に Augmentation パラメータの更新を行う新たな Image Augmentation フレームワークの提案 • 課題: 従来の Image Augmentation はドメインやデータセットの性質に依存し、 学習中は更新されず固定 • 学習時にはデータの Invariance を高め、かつテストに時は Invariance を軽減する ような Transformer を学習したいというモチベーション cited from the paper
  138. 138. Method • 学習向けとテスト向けの Transform を同時に学習 • Competitive Task(学習向け): • 分類器 Loss と Discriminator Score の和を最大化 • 分類器にとって難しく、かつ分布から外れない Transform を学習したい • Cooperative Task(テスト向け): • 分類器 Loss を最小化 • 分類器にとって簡単な Transform を学習したい • Discriminator をかませることで、Transformer が分布から外れた画像を出力することを防 いでいる cited from the paper
  139. 139. Method • Target Network は、Transform を行った Loss と行わない Loss の和を最小化する ように学習 • 微細な変化を加える Meta-transform を定義してそれらを K ステップ行い、 各ステップに報酬を割り当てる。サンプリングと Policy Gradient を用いて Backward (言語生成等でも用いられるテクニック) cited from the paper
  140. 140. Results • Classification, Pose Estimation, Face Alignment の3タスクで評価 • CIFAR, MPII(pose), LSP(pose), NME(face alignment) • ベンチマーク結果:CIFAR においては既存の Auto Augment よりも探索時間が 少なく Competitive な精度を達成 • Pose Estimation と Face Alignment においては既存の Adversarial Augmentation と比較して精度が向上した • Testing Perturbation に対するロバスト性が高い cited from the paper
  141. 141. Many Task Learning With Task Routing Oral Links paper code video
  142. 142. Summary • 一定割合の重みはタスク間で共有しつつ、タスク固有の重みも保持するための Task Routing Layer (TRL) を導入 • タスク数が20を超える場合のマルチタスクを Many Task Learning (MaTL) と 定義し、 従来の Multi Task Learning (MTL) と区別 • マルチタスク学習におけるタスク数のスケーラビリティを向上させ、最大 312 tasks を同時 に解かせている。複数の MTL ベンチマークで SOTA cited from the paper
  143. 143. Method • 本論文で扱う MTL は、補助タスクの学習によってメインタスクの精度向上を 期待する Asymmetric MTL は目的としない • TRL は Conv の出力マップに対するマスクとして働き、一定割合の特徴マップを 無効化する • Route(マスク)は学習開始時にタスク毎にランダムに設定され、学習中は更新無く保持さ れる • タスク毎のサブネットが固定なので、他タスクの学習による悪影響を受けづらい cited from the paper
  144. 144. Method • Layer の位置は BN の後(Conv → BN → TRL → ReLU) • 共有率 σ によって全タスクで共有される重みの割合が決まる • イテレーションごとに学習タスクをランダムに選択し、そのタスクの TRを適用する • 入力 X を          • Route(マスク)を       • TRL は cited from the paper
  145. 145. Results • UCSD Birds, Visual Decathlon, その他多数のベンチマークで評価 • Birds 312 tasksで Accuracy 66.5, VDで Score 2919.26 と SOTA • 共有率 σ は本実験においては 0.4 が最良だった cited from the paper cited from the paper
  146. 146. Results • UCSD Birds データセットにおける、タスク数と精度の関係 • タスク数が大幅に増加しても、 TRL を用いた本手法は精度を維持 cited from the paper

×