Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

of

20201010 personreid Slide 1 20201010 personreid Slide 2 20201010 personreid Slide 3 20201010 personreid Slide 4 20201010 personreid Slide 5 20201010 personreid Slide 6 20201010 personreid Slide 7 20201010 personreid Slide 8 20201010 personreid Slide 9 20201010 personreid Slide 10 20201010 personreid Slide 11 20201010 personreid Slide 12 20201010 personreid Slide 13 20201010 personreid Slide 14 20201010 personreid Slide 15 20201010 personreid Slide 16 20201010 personreid Slide 17 20201010 personreid Slide 18 20201010 personreid Slide 19 20201010 personreid Slide 20 20201010 personreid Slide 21 20201010 personreid Slide 22 20201010 personreid Slide 23 20201010 personreid Slide 24 20201010 personreid Slide 25 20201010 personreid Slide 26 20201010 personreid Slide 27 20201010 personreid Slide 28 20201010 personreid Slide 29 20201010 personreid Slide 30 20201010 personreid Slide 31 20201010 personreid Slide 32 20201010 personreid Slide 33 20201010 personreid Slide 34 20201010 personreid Slide 35 20201010 personreid Slide 36 20201010 personreid Slide 37 20201010 personreid Slide 38 20201010 personreid Slide 39 20201010 personreid Slide 40 20201010 personreid Slide 41 20201010 personreid Slide 42 20201010 personreid Slide 43 20201010 personreid Slide 44 20201010 personreid Slide 45 20201010 personreid Slide 46 20201010 personreid Slide 47 20201010 personreid Slide 48 20201010 personreid Slide 49 20201010 personreid Slide 50 20201010 personreid Slide 51 20201010 personreid Slide 52 20201010 personreid Slide 53
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

2 Likes

Share

Download to read offline

20201010 personreid

Download to read offline

2020/10/10に開催された第4回全日本コンピュータビジョン勉強会「人に関する認識・理解論文読み会」発表資料です。

以下の2本を読みました
Harmonious Attention Network for Person Re-identification. (CVPR2018)
Weekly Supervised Person Re-Identification (CVPR2019)

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

20201010 personreid

  1. 1. 第4回全日本CV勉強会 「人に関する認識・理解」論文読み会 Person Re-Identificationの論文を 読んでみた 2020/10/10 takmin
  2. 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード 技術顧問 慶應大学斎藤英雄研究室 訪問研究員 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp
  3. 3. (株)ビジョン&ITラボ 技術の町医者 AIビジネスについて、気軽に相談できる
  4. 4. 事業内容 1. R&Dコンサルティング 2. 受託研究/開発 3. 開発マネジメント 4. 開発コンサルティング 5. ビジネス化コンサルティング 4
  5. 5. 深層学習 (Deep Learning) 5 深層学習についてのコンサルティングや開発支援などを 行います。  画像識別  物体検出  領域分割  人物姿勢推定  画像変換  画像生成(GAN)  etc
  6. 6. Virtual Reality/Augmented Reality 6 御社がVirtual RealityやAugmented Realityを用いたビジネ スを行う上で必要な、総合的な技術コンサルティングや開 発/プロダクトを提供します。  特定物体認識  Visual SLAM  三次元スキャン  Face Tracking
  7. 7. ナンバープレート認識: License Plate Recognizer  画像や動画からナンバープレートを読み取ります 入力画像/動画 文字+座標 License Plate Recognizer 練馬444 ま 1564 • Web APIまたはSDKで提供可能 • SDK • LinuxまたはWindows • C++またはPython • アルファベット分類番号および図柄入りナンバープレートにも対応 • GPU不要でロバストかつ高速な認識
  8. 8. 論文を選んだ経緯 8
  9. 9. 9
  10. 10. 紹介する論文 10 実はPerson ReID論文をちゃんと読んだのは初めて  Li,W., Zhu, X., & Gong, S. (2018). Harmonious Attention Network for Person Re-identification. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  Meng, J.,Wu, S., & Zheng,W. S. (2019).Weakly supervised person re-identification. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)
  11. 11. Person Re-Identification 11  オーバーラップのない複数のカメラ映像から、目的の人 物を検索する技術  例えば複数の個所に設置した監視カメラで人の導線を 求めたい時などに使える。
  12. 12. Person Re-Identificationの流れ 12 Ye, M., Shen, J., Lin, G., Xiang,T., Shao, L., & Hoi, S. C. H. (2020). Deep Learning for Person Re-identification:A Survey and Outlook, 1–20. Retrieved from http://arxiv.org/abs/2001.04193 様々な場所に設 置されたカメラか ら動画を収集。 Raw Data Collection Bounding Box Generation Training Data Annotation Model Training Pedestrian Retrieval 人が含まれる矩 形抽出。通常は 物体検出や追跡 が使われる。 異なるカメラ に写っている 同じ人物をラ ベル付け モデル 学習 学習した特 徴量を用い て指定人物 を動画から 検索
  13. 13. 13 Harmonious Attention Network for Person Re-identification. (CVPR2018)
  14. 14. Harmonious Attention Network (HA-CNN) 14 Ye, M., Shen, J., Lin, G., Xiang,T., Shao, L., & Hoi, S. C. H. (2020). Deep Learning for Person Re-identification:A Survey and Outlook, 1–20. Retrieved from http://arxiv.org/abs/2001.04193 様々な場所に設 置されたカメラか ら動画を収集。 Raw Data Collection Bounding Box Generation Training Data Annotation Model Training Pedestrian Retrieval 人が含まれる矩 形抽出。通常は 物体検出や追跡 が使われる。 異なるカメラ に写っている 同じ人物をラ ベル付け モデル 学習 学習した特 徴量を用い て指定人物 を動画から 検索 隠れ、位置ずれ、 雑多な背景
  15. 15. Harmonious Attention Network (HA-CNN) 15  Bounding Box中の、人物の識別にとって重要な画素に 重みをつけて学習することで、雑多な背景やポーズ、 パーツの隠れ、Bounding Boxのずれなどに対応 Hard Attention Soft Attention
  16. 16. Related Work 16  [PDC]Su, C., Li, J., Zhang, S., Xing, J., Gao,W., &Tian, Q. (2017). Pose-driven Deep Convolutional Model for Person Re- identification. In ICCV.  Pose推定結果を部位ベースのPerson ReIdへ適用  [MSCAN] Li, D., Chen, X., Zhang, Z., & Huang, K. (2017). Learning Deep Context-aware Features over Body and Latent Parts for Person Re-identification. In CVPR.  識別性能を高めるようにBounding Box内を領域分割し、それぞれ の領域から特徴量を抽出  [DLPA]Zhao, L., Li, X., Zhuang,Y., &Wang, J. (2017). Deeply- Learned Part-Aligned Representations for Person Re- Identification. In International Conference on ComputerVision.  Spatial Transformer Networkを用いて、識別性能の高い領域を探索 これらの手法は選択した領域の画素レベルのノイズに弱い
  17. 17. HA-CNNの処理の流れ 17  1つのGlobalな特徴とT個のLocalな特徴を抽出
  18. 18. HA-CNNの処理の流れ 18  1つのGlobalな特徴とT個のLocalな特徴を抽出 Global Features Local Features
  19. 19. HA-CNNの処理の流れ 19  1つのGlobalな特徴とT個のLocalな特徴を抽出  Harmonious AttentionモジュールでGlobal, Localそれぞ れのAttentionを算出 Hard Attention (Local) Soft Attention (Global) Hard Attention (Local) Soft Attention (Global) Hard Attention (Local) Soft Attention (Global) 矩形の位置 画素ごとの重み
  20. 20. HA-CNNの処理の流れ 20  Globalな特徴抽出は2種類のInceptionモジュールと1つ のHarmonious Attentionモジュールの組み合わせx3
  21. 21. HA-CNNの処理の流れ 21  Globalな特徴抽出は2種類のInceptionモジュールと1つ のHarmonious Attentionモジュールの組み合わせx3  T個のLocalな特徴抽出は3つのInceptionモジュールで構 成し、それぞれのモジュールのパラメータは共有
  22. 22. HA-CNNの処理の流れ 22  Harmonious Attention計算後、Global特徴のうち、対応 する領域をLocal特徴に加算(Cross-Attention Interaction Learning)
  23. 23. HA-CNNの処理の流れ 23  Global、Local、それぞれの特徴はGlobal Average Pooling と全結合層を経て512次元特徴を出力  この2つを合わせた1024次元ベクトルをPerson-ReIDの 特徴量として使用
  24. 24. Harmonious Attention module 24 空間方向の Attention Channel方向 のAttention Soft Attention Channel方向にGlobal Average Pooling + 3x3 Conv 空間方向にGlobal Average Pooling + 1x1 Conv 空間+Channelの Attention
  25. 25. Harmonious Attention module 25 Hard Attention 各Local Regionの 位置を算出
  26. 26. Harmonious Attention module 26
  27. 27. 実験 27  Cumulative Matching Characteristics (CMC)  Probeと近い上位k個のGalleryサンプルの中に正解が存在す る率  mean Average Precision (mAP)  Precision = 正しく検出された数 / 検出された数全体  Recall = 正しく検出された数 / 正解ターゲット数  Average Precision = Recallを0から1まで変化させたときの Precisionの平均  全クエリのAverage Precisionの平均
  28. 28. 実験: 性能評価 28  3つのデータセットでSOTA Market-1501 DukeMTMC-ReID CHUK03
  29. 29. 実験: Ablation Study 29  SSA: Soft Spatial Attention, SCA: Soft Channel Attention, HRA: Hard Regional Attention
  30. 30. 実験: パラメータ数比較 30  FLOPs: the number of Floating-point Operations  PN: Parameter Number
  31. 31. 実験: Attentionの可視化 31  1st level to 3rd level attention  Global and Local
  32. 32. HA-CNNまとめ 32 Person Re-Identificationに有用なAttentionと特徴表現 をEnd-to-Endで学習するHarmonious Attention Convolutional Neural Network (HA-CNN)を提案  相補的なGlobalおよびLocalなAttentionを生成  軽量なモデル  3つのベンチマークでSOTA
  33. 33. 33 Weekly Supervised Person Re- Identification (CVPR2019)
  34. 34. Weekly Supervised Person Re-Identification 34 Ye, M., Shen, J., Lin, G., Xiang,T., Shao, L., & Hoi, S. C. H. (2020). Deep Learning for Person Re-identification:A Survey and Outlook, 1–20. Retrieved from http://arxiv.org/abs/2001.04193 様々な場所に設 置されたカメラか ら動画を収集。 Raw Data Collection Bounding Box Generation Training Data Annotation Model Training Pedestrian Retrieval 人が含まれる矩 形抽出。通常は 物体検出や追跡 が使われる。 異なるカメラ に写っている 同じ人物をラ ベル付け モデル 学習 学習した特 徴量を用い て指定人物 を動画から 検索 この手間を削減したい!
  35. 35. Weekly Supervised Person Re-Identification 35  従来、動画の各フレームのどの位置にどの人物がいたか、と いうレベルでラベル付けを行う必要があったのを動画に映っ ているのが誰か、というラベルだけで学習  ラベル付けの漏れや、Unknownな人物が映っていても可
  36. 36. Multi-Instance Multi-Label (MIML) Larning 36 動画群を2つのデータセットに分ける  Probe Set:  人物を切り取った画像+ラベル  Gallery Set:  動画全体でどの人物が映っているかだけをラベル付け
  37. 37. Probe Set 𝜒 𝑝に対する損失ℒ 𝑝 37  人物ラベルはC個+1(Unknown)  Bounding Boxから特徴量を抽出してラベル判定し、画像 全体の人物の確率分布෥𝒚 𝑏を算出  クロスエントロピー誤差を全てのProbe画像で算出した総 和をProbe損失ℒ 𝑝とする ෥𝒚 𝑏 C+1 ・・・ a b c d e Unknown
  38. 38. Gallery Set 𝜒 𝑔に対する損失ℒ 𝑔 38  動画内の全てのBounding Boxの確率分布からそれぞれ の人物について最も高い確率を取得 Person Label 𝒚 𝑏 {b, c} ・・・・・・ ・・・ ・・・ ・・・・・・ max ෥𝒚 𝒃 𝒎𝒂𝒙
  39. 39. Gallery Set 𝜒 𝑔に対する損失ℒ 𝑔 39  動画内の全てのBounding Boxの確率分布からそれぞれ の人物について最も高い確率を取得  上記分布を元に動画ごとにクロスエントロピー損失を算 出し、データセット全体で和を取ったものを損失ℒ 𝑔とする Person Label 𝒚 𝑏 {b, c} ・・・ ෥𝒚 𝒃 𝒎𝒂𝒙 bとcの損失を 計算
  40. 40. Intra-bag Alignment 40  近いフレームでは同じ人物が映っている可能性が高いと いう制約
  41. 41. Intra-bag Alignment 41  近いフレームでは同じ人物が映っている可能性が高いと いう制約 動画中最も人 物Bである確 率が高い 動画中最も人 物Dである確 率が高い k近傍の特徴 量かつ人物B である確率が 閾値以上 同じグループの 確率分布෥𝒚 𝑏が 近くなるように k近傍の特徴 量かつ人物D である確率が 閾値以上
  42. 42. Cross-view Bag Alignment 42  異なるカメラ間の同じ(であろう)人物が、近い分布にな るような制約 Gallery Probe
  43. 43. Cross-view Bag Alignment 43  異なるカメラ間の同じ(であろう)人物が、近い分布にな るような制約 Gallery Probe 同じ人物と判定 されたインスタン スからPrototype 分布を作成 マッチした人物 の分布を Prototypeに近 づける Prototypeは繰り 返し更新
  44. 44. Deep Cross-view MIML Model 44 以下の損失関数を最小化する ℒ 𝐶𝑉−𝑀𝐼𝑀𝐿 = ℒ 𝑝 + ℒ 𝑔 + 𝛿 ℒ 𝐼𝐴 + ℒ 𝐶𝐴 + ℒ 𝐸 Probe の損失 Gallery の損失 Intra-bag Alignment Cross-view Bag Alignment エントロピー 正則化 ෥𝒚 𝑏 C+1 ・・・ a b c d e Unknown 分布のピークを現れやすくする項(outlierも どこかのクラスにわりあてられる) 上限まで、時間とともに増える係数
  45. 45. Test 45 1. Average PoolingでProbeのTarget画像群から特徴ベクト ルを抽出し、Average Pooling Probe 〇 ▽ ・・・● ● ▽ ・ ・ ・ 〇 ● △ ・ ・ ・ 〇 Average Pooling ● ▽ ・ ・ ・ 〇
  46. 46. Test 46 1. Average PoolingでProbeのTarget画像群から特徴ベクト ルを抽出し、Average Pooling 2. Galleryで人物検出したBounding Boxから特徴ベクトル を抽出し、1と最もユークリッド距離が小さいインスタン スを取得 Probe 〇 ▽ ・・・● ● ▽ ・ ・ ・ 〇 ● △ ・ ・ ・ 〇 Average Pooling ● ▽ ・ ・ ・ 〇 ・・・・・ □ ▽ ・ ・ ・ ◆ ● ◇ ・ ・ ・ 〇 ・・・・・
  47. 47. 実験 47  特徴抽出  Resnet-50  全結合層をMIML識別器に置き換え  Bounding Box  Mask R-CNN  WL-DukeMTMC-REIDデータセットに対してあらかじめ生成  False positiveを除去するためConfidence Scoreで閾値処理  Dataset  WL-DukeMTMC-REID  WL-PRID 2011  WL-iLIDS-VID  WL-MARS
  48. 48. 他のMIML手法との比較 48  DeepMIML  Ji Feng and Zhi-Hua Zhou, Deep MIML network. In AAAI, pages 1884-1890, 2017.  インスタンスの表現学習を組み込んだEnd-to-EndのMIML Learning  MIMLfast  Sheng-Jun Huang,Wei Gao, and Zhi-Hua Zhou. Fast multi- instance multi-label learning. In AAAI, pages 1868-1874, 2014  全ラベルの画像を共通の低次元特徴空間へマップし、その後 ラベル特有の線形モデルを学習させることで高速にMIMLを学 習
  49. 49. MIML手法との比較 49
  50. 50. Ablation Study 50  baseline = Probe損失+Gallery損失
  51. 51. CV-MIMLまとめ 51  Person Re-IDタスクに対して、ラベル付け のコストを大幅削減  ビデオ全体で誰が現れたか、をアノテーショ ンするだけ  ラベルのつけ忘れも可  Multi-Instance Multi-Label (MIML) Learningを 複数のカメラへ拡張したcross view-MIML (CV-MIML)の問題へ問題を落とし込み  実験から手法の有用性確認
  52. 52. まとめと所感 52  2本のPerson Re-identificationの論文を読んでみました。  Harmonious Attention Network for Person Re-identification.  Weakly supervised person re-identification.  それぞれ、Bounding Box内のノイズ、ラベル付けコストの 問題に対応しています。  Person ReIdタスクの問題設定や、共通する処理の流れ を把握できました。  この分野は研究の数も膨大なため、全体像や重要研究 などは未だ把握できていません。
  53. 53. まとめ 53
  • takatsugunokubi

    Oct. 12, 2020
  • junichimuramoto18

    Oct. 10, 2020

2020/10/10に開催された第4回全日本コンピュータビジョン勉強会「人に関する認識・理解論文読み会」発表資料です。 以下の2本を読みました Harmonious Attention Network for Person Re-identification. (CVPR2018) Weekly Supervised Person Re-Identification (CVPR2019)

Views

Total views

4,325

On Slideshare

0

From embeds

0

Number of embeds

2,258

Actions

Downloads

24

Shares

0

Comments

0

Likes

2

×