Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Iccv2019 参加報告

2,295 views

Published on

[ABEJA Meetup!] ICCV2019参加報告会
(https://abeja-innovation-meetup.connpass.com/event/153181/) の登壇資料です。

プロダクト視点から見たICCV2019の参加報告をしています。

テーマは以下.
- オクルージョン
- ブラー/逆光
- ドメインギャップ
- liveness detection

以下2本の論文については詳しく解説しています.
- Towards Interpretable Face Recognition
- Temporal Attentive Alignment for Large-Scale Video Domain Adaptation

Published in: Technology
  • Be the first to comment

Iccv2019 参加報告

  1. 1. 中川 裕太 @僕らの遊び場ABEJA ICCV 2019 参加報告
  2. 2. 中川 裕太 Research Engineer @ ABEJA
  3. 3. Agenda ICCV2019参加のモチベーション プロダクトに活かせそうなポイント エンジニアが学会に参加する意義
  4. 4. ICCV2019参加のモチベーション プロダクトに活かせそうなポイント エンジニアが学会に参加する意義
  5. 5. そもそも
  6. 6. なぜ、エンジニアの僕が 学会に参加したのか
  7. 7. 動画解析をマイクロサービスの DAG として実装 camera camera queue model A model B model C model D aggregator dashboard analysis DAG
  8. 8. ロジックとデータを分離 data logic datalogic Search/Update のみ
  9. 9. 現地の雰囲気を肌で感じつつ 集中的にインプットする大切さ
  10. 10. システムが安定化した今
  11. 11. やるべきことは
  12. 12. 顕在化しつつある モデルの課題を解くこと
  13. 13. よし、学会いこう
  14. 14. ICCV2019参加のモチベーション プロダクトに活かせそうなポイント エンジニアが学会に参加する意義
  15. 15. まずは
  16. 16. ぼくらが抱える課題について
  17. 17. オクルージョン
  18. 18. ブラー・逆光
  19. 19. カメラ間のドメインギャップ
  20. 20. そして
  21. 21. ポスター問題
  22. 22. ポスター問題
  23. 23. これらの課題に対して 世の中的にはどうアプローチしていたか
  24. 24. オクルージョン  Pose-Guided Feature Alignment for Occluded Person Re-Identification  Attentional Feature-Pair Relation Networks for Accurate Face Recognition  Towards Interpretable Face Recognition  Occlusion Robust Face Recognition Based on Mask Learning With Pairwise Differential Siamese Network  Batch DropBlock Network for Person Re-Identification and Beyond  Face De-Occlusion Using 3D Morphable Model and Generative Adversarial Network  Foreground-Aware Pyramid Reconstruction for Alignment-Free Occluded Person Re-Identification
  25. 25. オクルージョン  Pose-Guided Feature Alignment for Occluded Person Re-Identification  Attentional Feature-Pair Relation Networks for Accurate Face Recognition  Towards Interpretable Face Recognition  Occlusion Robust Face Recognition Based on Mask Learning With Pairwise Differential Siamese Network  Batch DropBlock Network for Person Re-Identification and Beyond  Face De-Occlusion Using 3D Morphable Model and Generative Adversarial Network  Foreground-Aware Pyramid Reconstruction for Alignment-Free Occluded Person Re-Identification オクルージョンを除外する研究もあるが Attention をあててオクルージョンに 強いモデルを作るのが実用的
  26. 26. ブラー・逆光  Face Video Deblurring Using 3D Facial Priors  FAB: A Robust Facial Landmark Detection Framework for Motion-Blurred Videos  Spatio-Temporal Filter Adaptive Network for Video Deblurring  Human-Aware Motion Deblurring  DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better  Enhancing Low Light Videos by Exploring High Sensitivity Camera Noise  [Workshop] Deep Learning for Imaging
  27. 27. ブラー・逆光  Face Video Deblurring Using 3D Facial Priors  FAB: A Robust Facial Landmark Detection Framework for Motion-Blurred Videos  Spatio-Temporal Filter Adaptive Network for Video Deblurring  Human-Aware Motion Deblurring  DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better  Enhancing Low Light Videos by Exploring High Sensitivity Camera Noise  [Workshop] Deep Learning for Imaging ブラーや逆光は認識しやすいように 除外してからモデルにかけるのが一般的 中にはセンサ側を工夫するものも あって非常に興味深い
  28. 28. カメラ間のドメインギャップ  Instance-Guided Context Rendering for Cross-Domain Person Re-Identification  A Novel Unsupervised Camera-Aware Domain Adaptation Framework for Person Re-Identification  View Confusion Feature Learning for Person Re-Identification  Temporal Attentive Alignment for Large-Scale Video Domain Adaptation
  29. 29. カメラ間のドメインギャップ  Instance-Guided Context Rendering for Cross-Domain Person Re-Identification  A Novel Unsupervised Camera-Aware Domain Adaptation Framework for Person Re-Identification  View Confusion Feature Learning for Person Re-Identification  Temporal Attentive Alignment for Large-Scale Video Domain Adaptation カメラを識別できないような特徴量を 学習するようなやり方が多い 研究者がほぼ中華系だが 各国の研究者も興味はありそう
  30. 30. ポスター問題  [Workshop] Delving into High Performance Detector for Finding Tiny Faces
  31. 31. 特に気になった論文を2本紹介
  32. 32.  世の中的に「顔認証の可説明性」にはフォーカスが当たっているので最近の研究を 知りたい。  個人的には可説明性自体に興味はないが、デバッグが捗るという観点で見極めたい。  オクルージョンの課題が解けるのであれば検証してみたい。
  33. 33. 研究のモチベーション
  34. 34. メソッドの全体感
  35. 35. メソッドの全体感 顔の注目領域を抽出 するフィルター
  36. 36. メソッドの全体感 顔の注目領域を画像 の空間方向に広げる ようにする
  37. 37. メソッドの全体感 オクルージョン有無に よる特徴量の差分を 偏在させる
  38. 38. メソッドの全体感 差分の小さい要素だ けを取り出して特徴 量とする
  39. 39. メソッドの全体感 オクルージョンに関わ らず個人を識別でき るようにする
  40. 40. SAD/FAD loss が工夫点
  41. 41. Spatial Activation Diversity (SAD) loss
  42. 42. Spatial Activation Diversity (SAD) loss フィルター自身 を直交させる フィルター出力 を直交させる
  43. 43. Spatial Activation Diversity (SAD) loss 特徴抽出の各層
  44. 44. Feature Activation Diversity (FAD) loss 実験により後から決定
  45. 45. 実験設定 ベースモデル  CASIA-Net trained with CASIA-WebFace  Arcface (ResNet50) trained with MS-Celeb-1M テストデータ  IJB-A  IJB-C  AR face
  46. 46. 実験設定 オクルージョン  予め作成したオクルージョンテンプレートをランドマークから算出された重心座標系 に合わせて配置することで生成する。
  47. 47. 実験結果
  48. 48. オクルージョンした領域で特徴量の分散が増えている
  49. 49. 通常のデータセットだと既存手法と同程度
  50. 50. オクルージョンがあると SOTA
  51. 51. 所感 デバッグが捗るのとオクルージョンに強いのはポジティブ 通常の設定で精度が劣化してしまうのは残念 通常時の精度劣化をどう捉えてプロダクト化するかは もう少しこの分野を俯瞰する必要がある 無理だろうという仮定を想像しつつもランドマーク以外で 認証しようという方向に学習しないのかには疑問が残る
  52. 52.  カメラ間のドメインギャップがプロダクトの課題となっているので解決策にあたりをつ けたい。  ちょうど参加していたオーラルで発表があり、動画の domain adaptation にチャレン ジしたあまりない論文だったので興味を持った。
  53. 53. 研究のモチベーション
  54. 54. ベーシックなアイディア
  55. 55. ベーシックなアイディア 各フレームごとに特 徴量 (general/task)を 計算する
  56. 56. ベーシックなアイディア 各フレームごとの特 徴量をマージして動 画の特徴量を出す
  57. 57. ベーシックなアイディア 動画のクラス識別問 題を解く
  58. 58. ベーシックなアイディア ラベルのあるソースド メインだけ識別器の loss を考える
  59. 59. ベーシックなアイディア フレームの特徴量に 対してカメラの弁別器 と敵対学習する
  60. 60. ベーシックなアイディア 動画全体の特徴量に 対してカメラの弁別器 と敵対学習する
  61. 61. これだけだと
  62. 62. 時間方向の DA がうまくいかない
  63. 63. Temporal pooling を工夫する
  64. 64. Temporal Attentive Adversarial Adaptation Network
  65. 65. Temporal Attentive Adversarial Adaptation Network ある長さで区切ったフ レームセットごとに特 徴量を計算する
  66. 66. Temporal Attentive Adversarial Adaptation Network それぞれの特徴量に 対してカメラの弁別器 と敵対学習する
  67. 67. Temporal Attentive Adversarial Adaptation Network 複数のタイムスケー ルの特徴量を合算す る
  68. 68. Temporal Attentive Adversarial Adaptation Network カメラ間の差分が出 やすい特徴量に重み 付けする
  69. 69. Temporal Attentive Adversarial Adaptation Network よくDAできている動 画に関してよく識別す る正則化をする
  70. 70. 実験設定 実験内容  動画の識別問題での精度を計測する  ターゲットドメインにおける精度 (Acc.) とソースドメインだけで学習したモデルをベー スラインとした時の精度向上 (Gain) を評価指標としている テストデータ  UCF-Olympic  UCF-HMDBsmall  UCF-HMDBfull  Kinetics-Gameplay
  71. 71.  既存のデータセットだと domain adaptation するまでもなく、ソースドメインで学習をや り切るとターゲットドメインでも SOTA を達成できてしまう。  データセットの量と質が悪いと考え、独自のデータセットを作成して評価に加えた。 UCF-HMDBfull and Kinetics-Gameplay
  72. 72. UCF-HMDBfull and Kinetics-Gameplay
  73. 73. 実験結果
  74. 74. 既存のデータセットで SOTA を達成
  75. 75. 提案データセットでも SOTA を達成
  76. 76. 実世界=>ゲームでも SOTA だが精度はまだまだの印象
  77. 77. 所感 時間方向を加味することで シンプルなアルゴリズムでも精度が向上した試みは面白い 時間方向の考慮は結構計算がしんどそうなので プロダクトに取り込む際はコスパを考える必要がある 時間方向のダイナミクスがぼくらのユースケースでは 具体的にどんなのかはイマイチ想像できなかった
  78. 78. ICCV2019参加のモチベーション プロダクトに活かせそうなポイント エンジニアが学会に参加する意義
  79. 79. 世の中のトレンドがわかる
  80. 80. 膨大な量をビジュアルで 一気にインプットできる
  81. 81. 学会に参加して世の中的な解き方を 知るのは非常に有意義
  82. 82. そして
  83. 83. 今回のインプットに どんどんアウトプットしていきたい
  84. 84. 願わくはアカデミアにも貢献したい
  85. 85. まとめ 顕在化しつつあるモデルの課題の解決策を 探すために学会に参加した ぼくらと類似した課題設定も多く思いつく仮説を ちゃんとやりきった結果を見れたのは非常に刺激的だった エンジニアも学会に参加して 世の中的な解法を知ることはとても大事
  86. 86. よし 学会いこう

×